Кейсы

Десять проектов, в которых видно, что мы делаем

AI-интеграции и highload — в каждом разделе по пять проектов. Названия клиентов под NDA, поэтому говорим про индустрию, масштаб и измеримый результат: faithfulness, latency, cost, conversion, RPS. По запросу — референс-звонок с командой.

AI-кейсы

AI-интеграция и LLM-системы

Где у клиента было «хочется AI», а вышло — измеримое ускорение работы, снижение costs и качество, которое можно показать на golden set.

Финтех / RAG · compliance 2.4M документов

RAG-копилот для compliance-аналитиков

Задача. Аналитики тратили 30–60 минут на разбор каждого кейса. Open-source поиск выдавал нерелевантное, наивный RAG галлюцинировал.

Что сделали. Hybrid search (BM25 + embeddings) с cross-encoder ре-ранкером, чанкование с учётом структуры документов, отдельный fact-checker-pass на Claude, citation-aware UI. Eval на golden set из 1200 пар.

Результат. Faithfulness 0.94 (vs 0.71 у baseline), время разбора кейса упало с 40 до 6 минут, токен-cost ниже на 72 %.

6.5×

быстрее анализ

0.94

faithfulness

−72%

cost vs naive RAG

ClaudepgvectorBM25RagasLangfuse

E-commerce / агенты 800K тикетов / мес.

AI-агент в саппорте маркетплейса

Задача. Большой объём типовых обращений, FRT 9 минут, операторы в выгорании, NPS саппорта −18.

Что сделали. Агентский пайплайн на LangGraph с tool-use: статус заказа, инициация возврата, обновление адреса, эскалация в человеческий саппорт. Human-in-the-loop на возвраты выше порога. Safety-слой против prompt-injection.

Результат. FRT 12 секунд, 68 % тикетов закрываются автоматически, NPS саппорта вырос на 12 пунктов.

45×

FRT

68%

авто-резолюшн

+12 NPS

саппорта

GPT-4oLangGraphtool-usePostgres

SaaS / LLMOps 10M req/day

Production LLM gateway с роутингом и кешем

Задача. 14 продуктовых команд независимо ходили в OpenAI и Anthropic. Cost рос быстрее выручки, fallback не было, regularly падало на rate-limit.

Что сделали. Gateway-слой: единый API, маршрутизация Claude / GPT / Llama по типу задачи, семантический кеш, ratelimit per-tenant, retry / fallback при 429 / 5xx, cost-attribution через OpenTelemetry. PII-фильтры и токен-budget на пользователя.

Результат. Cost на токенах −64 % за квартал, overhead 42 ms p99, 0 инцидентов «упёрлись в rate-limit» за полгода.

10M

запросов / день

−64%

cost

42 ms

overhead p99

GoRedisvLLMOpenTelemetry

DevOps / AI-агент 1.4K инцидентов / мес.

AI-агент для авто-триажа production-инцидентов

Задача. SRE-команда тонула в алертах: половина — false positive, MTTA 18 минут, дежурные просыпались 3–4 раза за ночь.

Что сделали. Агент читает алерт, тянет связанные метрики и логи через MCP, ищет похожие инциденты в постмортемах (RAG), формулирует hypothesis и runbook-предложение. Если уверенность ниже порога — эскалирует с уже собранным контекстом.

Результат. MTTA с 18 до 2 минут, 41 % алертов закрывается без участия дежурного, ночные пробуждения упали в 3.5 раза.

9×

MTTA

41%

авто-разбор

−72%

on-call burden

ClaudeMCPPrometheusLokipgvector

Аналитика / DataLake & DWH 120K часов записей / мес.

Анализ звонков отдела продаж через LLM

Задача. Записи звонков с клиентами — гора неструктурированных данных. BI строилось только на CRM-полях, в которые менеджеры писали что попало.

Что сделали. Pipeline: транскрипция (Whisper) → диаризация → структурированное извлечение (LLM по строгой JSON-схеме) → подсветка возражений → витрины в ClickHouse → дашборды.

Результат. 100 % звонков размечаются автоматически в течение 5 минут после окончания. Conversion rate команды +9 % за квартал.

100%

покрытие

5 min

SLA от end-of-call

+9%

conversion

WhisperClaudeClickHouseKafka

Highload-кейсы

Архитектура и инженерия систем под нагрузку

Платежи, RTB, поиск, multi-tenant SaaS, realtime-сессии и data-платформы. Цифры — то, ради чего эти проекты делались.

Финтех / платежи 35K RPS · 4 региона

Миграция платёжной платформы с монолита на event-driven core

Задача. Платёжная платформа упиралась в БД на пиках, релизы катились раз в две недели и сопровождались инцидентами. Бизнес планировал 5–6× рост транзакций.

Что сделали. Разделили монолит на 9 сервисов вокруг bounded contexts. Kafka как backbone, outbox + сага-оркестрация. Multi-region кластер на Kubernetes с active-active платёжным ядром.

Результат. p99 платёжного API с 850 ms до 110 ms, релизы стали ежедневными, инфраструктура −40 %.

7×

падение p99

6×

рост TPS

−40%

cloud-cost

GoKafkaPostgresK8sAWS

AdTech / RTB 250K QPS · multi-AZ

Real-time bidding pipeline с SLA 95 ms

Задача. Запустить RTB-биддер, который укладывается в 100 ms бюджет аукциона и стабильно держит 200K+ QPS на пике.

Что сделали. Pipeline на Go с in-memory feature store на Redis Cluster. Аналитика и обучение моделей в ClickHouse, real-time ingestion через Kafka. Multi-AZ деплой с health-aware load balancing.

Результат. 250K QPS, аукционы укладываются в 95 ms p99. За 18 месяцев — ни одного инцидента с потерей выручки.

250K

QPS

95 ms

SLA p99

99.99%

uptime

GoRedisClickHouseKafkaAWS

E-commerce / поиск 12M SKU · 4M MAU

Поиск и фасетная навигация для маркетплейса

Задача. Поиск по 12M товаров отвечал за 800 ms p95 и «складывался» под пиковую нагрузку. Конверсия из поиска в корзину падала.

Что сделали. Перевели на Elasticsearch с предрасчётом фасетов и автокомплита, разделили nodes на data/coordinating/ingest, индексация — стрим из Kafka.

Результат. p95 поиска с 800 до 80 ms, конверсия «поиск → корзина» +18 %, индексация полного каталога за 25 минут вместо 6 часов.

10×

быстрее p95

+18%

конверсия

14×

быстрее индексация

ElasticsearchNode.jsKafkaPostgres

B2B SaaS / multi-tenant 1.2K тенантов

Multi-tenant платформа: изоляция и масштабируемость

Задача. SaaS вырос из shared-DB подхода: «шумные соседи» влияли друг на друга, аудит compliance занимал недели, новые тенанты разворачивались инженерами вручную.

Что сделали. Перешли на схему-per-tenant с автопровижионингом через Terraform. Разделили critical path и аналитику. Per-tenant rate limits и квоты ресурсов в Kubernetes.

Результат. P95 запросов в 3 раза ниже, провижионинг тенанта 90 секунд вместо двух дней, audit-trail и compliance-проверки автоматизированы.

×3

P95

90 s

провижионинг

инцидентов 12 мес.

PostgresTerraformK8sGo

Гейминг / realtime 800K MAU · <50 ms p99

Realtime backend для multiplayer-сессий

Задача. Backend для realtime-сессий с предсказуемой задержкой, который выдержит сезонные пики аудитории.

Что сделали. Матчмейкинг и стейт-сервис на Go с Redis Streams. Сессии распределяются по region-shard'ам, отказ одного шарда не задевает остальные. Деплои blue/green с прогревом.

Результат. P99 сетевой латентности менее 50 ms, 800K MAU без деградации, 18 месяцев без даунтайма в продакшене.

<50 ms

p99

800K

MAU

даунтайм 18 мес.

GoRedis StreamsNATSK8s