RAG-копилот для compliance-аналитиков
Hybrid search + cross-encoder ре-ранкер + fact-checker на Claude. Время разбора кейса упало с 40 до 6 минут, faithfulness 0.94 на golden set.
Встраиваем LLM, RAG-системы и AI-агентов в реальные продукты — и проектируем под ними инфраструктуру, которая держит нагрузку. От AI-копилотов и поисковых движков до платежных платформ и RTB-биддеров.
Многие команды умеют либо «прикрутить LLM», либо «держать нагрузку». Мы делаем и то, и другое — потому что в продакшене это всё равно одна задача.
Claude, GPT, Llama, vLLM, локальные модели. RAG, fine-tuning, агенты, eval-pipelines. Не «по статьям», а из десятка production-проектов.
Финтех на 35K RPS, RTB-биддеры на 250K QPS, поиск по 12M товаров. Микросервисы, event-driven, multi-region failover — это инженерная база команды.
Faithfulness, latency p99, cost-per-request, conversion, error budget. Любое архитектурное предложение мы привязываем к измеримой метрике.
Cloud-cost, токены, GPU, обслуживание. Снижаем расходы на 30–70 % — и заранее показываем, во что выльется решение через год.
SLO, on-call, постмортемы, observability, ratelimit, fallback. Не «выложили demo», а доводим до эксплуатации под нагрузкой.
Если задачу решает SQL — не ставим LLM. Если хватает монолита — не режем на микросервисы. Сложность стоит дорого, и мы не любим лишнюю.
Помогаем встроить LLM в продукт так, чтобы это работало в проде, не врало и не съедало бюджет на токенах.
LLM-функции в продукте: чат-ассистенты, копилоты, генерация, классификация, smart-search.
Документы → система «вопрос-ответ» с цитированием, hybrid search, re-ranking, eval.
Multi-step агенты с tool-use и MCP. Автоматизация процессов, помощник саппорту, DevOps-агент.
Соединяем CRM, мессенджеры, документы и AI-узлы в готовые флоу. Быстрый путь от идеи до работающего процесса.
Model gateway, кеш, ratelimit, observability, eval-pipeline, cost-attribution по командам.
Параллельно делаем то, чем занимаемся 12+ лет: архитектуру, performance, миграции, инфраструктуру и SRE.
Проектирование с нуля и эволюция: event-driven, CQRS, multi-region, выбор стека под рост.
Профилирование, нагрузочные тесты, capacity planning. Что и где сломается на 10× нагрузке.
Strangler-fig миграции, разрезание монолита, online-миграции БД, переход в облако и обратно.
Kubernetes-платформа, GitOps, observability, on-call процессы, FinOps. SLO как обещание, не как лозунг.
Это не «всё что слышали» — это то, на чём сами выводили AI- и highload-системы под нагрузку и держали в on-call.
Не пишем «помогли клиенту» без цифр. У каждого проекта — измеримая метрика: faithfulness, latency, cost, conversion или uptime.
Hybrid search + cross-encoder ре-ранкер + fact-checker на Claude. Время разбора кейса упало с 40 до 6 минут, faithfulness 0.94 на golden set.
Маршрутизация Claude / GPT / Llama, семантический кеш, ratelimit, cost-attribution. Cost на токенах снижен на 64 %, overhead 42 ms p99.
Перевели платёжную платформу на Kubernetes c шиной Kafka и сагами. Снизили p99 платёжного API в 7 раз и поддержали 6× рост транзакций.
Без долгих pre-sale «разговоров». На второй встрече — оценка, осмысленный прототип или дорожная карта и реалистичные цифры.
Разбираем задачу, метрики и ограничения. Решаем, что вообще нужно: AI, переделка архитектуры или просто хороший индекс в БД.
Для AI — MVP с golden dataset и метриками. Для highload — design doc, ADR, дорожная карта. Уже видны cost и риски.
Внедрение рядом с командой клиента. Парное проектирование, ревью, релизы под SLO, A/B-тесты, on-call.
Документация, runbook, eval-pipeline, прогноз cost. Команда живёт без нас и спокойно меняет промпты, модели или сервисы.