Кейсы

Десять проектов, в которых видно, что мы делаем

AI-интеграции и highload — в каждом разделе по пять проектов. Названия клиентов под NDA, поэтому говорим про индустрию, масштаб и измеримый результат: faithfulness, latency, cost, conversion, RPS. По запросу — референс-звонок с командой.

AI-кейсы

AI-интеграция и LLM-системы

Где у клиента было «хочется AI», а вышло — измеримое ускорение работы, снижение costs и качество, которое можно показать на golden set.

Финтех / RAG · compliance 2.4M документов

RAG-копилот для compliance-аналитиков

Задача. Аналитики тратили 30–60 минут на разбор каждого кейса. Open-source поиск выдавал нерелевантное, наивный RAG галлюцинировал.

Что сделали. Hybrid search (BM25 + embeddings) с cross-encoder ре-ранкером, чанкование с учётом структуры документов, отдельный fact-checker-pass на Claude, citation-aware UI. Eval на golden set из 1200 пар.

Результат. Faithfulness 0.94 (vs 0.71 у baseline), время разбора кейса упало с 40 до 6 минут, токен-cost ниже на 72 %.

6.5×
быстрее анализ
0.94
faithfulness
−72%
cost vs naive RAG
ClaudepgvectorBM25RagasLangfuse
E-commerce / агенты 800K тикетов / мес.

AI-агент в саппорте маркетплейса

Задача. Большой объём типовых обращений, FRT 9 минут, операторы в выгорании, NPS саппорта −18.

Что сделали. Агентский пайплайн на LangGraph с tool-use: статус заказа, инициация возврата, обновление адреса, эскалация в человеческий саппорт. Human-in-the-loop на возвраты выше порога. Safety-слой против prompt-injection.

Результат. FRT 12 секунд, 68 % тикетов закрываются автоматически, NPS саппорта вырос на 12 пунктов.

45×
FRT
68%
авто-резолюшн
+12 NPS
саппорта
GPT-4oLangGraphtool-usePostgres
SaaS / LLMOps 10M req/day

Production LLM gateway с роутингом и кешем

Задача. 14 продуктовых команд независимо ходили в OpenAI и Anthropic. Cost рос быстрее выручки, fallback не было, regularly падало на rate-limit.

Что сделали. Gateway-слой: единый API, маршрутизация Claude / GPT / Llama по типу задачи, семантический кеш, ratelimit per-tenant, retry / fallback при 429 / 5xx, cost-attribution через OpenTelemetry. PII-фильтры и токен-budget на пользователя.

Результат. Cost на токенах −64 % за квартал, overhead 42 ms p99, 0 инцидентов «упёрлись в rate-limit» за полгода.

10M
запросов / день
−64%
cost
42 ms
overhead p99
GoRedisvLLMOpenTelemetry
DevOps / AI-агент 1.4K инцидентов / мес.

AI-агент для авто-триажа production-инцидентов

Задача. SRE-команда тонула в алертах: половина — false positive, MTTA 18 минут, дежурные просыпались 3–4 раза за ночь.

Что сделали. Агент читает алерт, тянет связанные метрики и логи через MCP, ищет похожие инциденты в постмортемах (RAG), формулирует hypothesis и runbook-предложение. Если уверенность ниже порога — эскалирует с уже собранным контекстом.

Результат. MTTA с 18 до 2 минут, 41 % алертов закрывается без участия дежурного, ночные пробуждения упали в 3.5 раза.

MTTA
41%
авто-разбор
−72%
on-call burden
ClaudeMCPPrometheusLokipgvector
Аналитика / DataLake & DWH 120K часов записей / мес.

Анализ звонков отдела продаж через LLM

Задача. Записи звонков с клиентами — гора неструктурированных данных. BI строилось только на CRM-полях, в которые менеджеры писали что попало.

Что сделали. Pipeline: транскрипция (Whisper) → диаризация → структурированное извлечение (LLM по строгой JSON-схеме) → подсветка возражений → витрины в ClickHouse → дашборды.

Результат. 100 % звонков размечаются автоматически в течение 5 минут после окончания. Conversion rate команды +9 % за квартал.

100%
покрытие
5 min
SLA от end-of-call
+9%
conversion
WhisperClaudeClickHouseKafka
Highload-кейсы

Архитектура и инженерия систем под нагрузку

Платежи, RTB, поиск, multi-tenant SaaS, realtime-сессии и data-платформы. Цифры — то, ради чего эти проекты делались.

Финтех / платежи 35K RPS · 4 региона

Миграция платёжной платформы с монолита на event-driven core

Задача. Платёжная платформа упиралась в БД на пиках, релизы катились раз в две недели и сопровождались инцидентами. Бизнес планировал 5–6× рост транзакций.

Что сделали. Разделили монолит на 9 сервисов вокруг bounded contexts. Kafka как backbone, outbox + сага-оркестрация. Multi-region кластер на Kubernetes с active-active платёжным ядром.

Результат. p99 платёжного API с 850 ms до 110 ms, релизы стали ежедневными, инфраструктура −40 %.

падение p99
рост TPS
−40%
cloud-cost
GoKafkaPostgresK8sAWS
AdTech / RTB 250K QPS · multi-AZ

Real-time bidding pipeline с SLA 95 ms

Задача. Запустить RTB-биддер, который укладывается в 100 ms бюджет аукциона и стабильно держит 200K+ QPS на пике.

Что сделали. Pipeline на Go с in-memory feature store на Redis Cluster. Аналитика и обучение моделей в ClickHouse, real-time ingestion через Kafka. Multi-AZ деплой с health-aware load balancing.

Результат. 250K QPS, аукционы укладываются в 95 ms p99. За 18 месяцев — ни одного инцидента с потерей выручки.

250K
QPS
95 ms
SLA p99
99.99%
uptime
GoRedisClickHouseKafkaAWS
E-commerce / поиск 12M SKU · 4M MAU

Поиск и фасетная навигация для маркетплейса

Задача. Поиск по 12M товаров отвечал за 800 ms p95 и «складывался» под пиковую нагрузку. Конверсия из поиска в корзину падала.

Что сделали. Перевели на Elasticsearch с предрасчётом фасетов и автокомплита, разделили nodes на data/coordinating/ingest, индексация — стрим из Kafka.

Результат. p95 поиска с 800 до 80 ms, конверсия «поиск → корзина» +18 %, индексация полного каталога за 25 минут вместо 6 часов.

10×
быстрее p95
+18%
конверсия
14×
быстрее индексация
ElasticsearchNode.jsKafkaPostgres
B2B SaaS / multi-tenant 1.2K тенантов

Multi-tenant платформа: изоляция и масштабируемость

Задача. SaaS вырос из shared-DB подхода: «шумные соседи» влияли друг на друга, аудит compliance занимал недели, новые тенанты разворачивались инженерами вручную.

Что сделали. Перешли на схему-per-tenant с автопровижионингом через Terraform. Разделили critical path и аналитику. Per-tenant rate limits и квоты ресурсов в Kubernetes.

Результат. P95 запросов в 3 раза ниже, провижионинг тенанта 90 секунд вместо двух дней, audit-trail и compliance-проверки автоматизированы.

×3
P95
90 s
провижионинг
0
инцидентов 12 мес.
PostgresTerraformK8sGo
Гейминг / realtime 800K MAU · <50 ms p99

Realtime backend для multiplayer-сессий

Задача. Backend для realtime-сессий с предсказуемой задержкой, который выдержит сезонные пики аудитории.

Что сделали. Матчмейкинг и стейт-сервис на Go с Redis Streams. Сессии распределяются по region-shard'ам, отказ одного шарда не задевает остальные. Деплои blue/green с прогревом.

Результат. P99 сетевой латентности менее 50 ms, 800K MAU без деградации, 18 месяцев без даунтайма в продакшене.

<50 ms
p99
800K
MAU
0
даунтайм 18 мес.
GoRedis StreamsNATSK8s

Похожая задача у вас?

Расскажите о системе и метриках — пришлём, как подошли бы мы, и сколько это будет стоить.

Обсудить →