Кейси

Десять проєктів, у яких видно, що ми робимо

AI-інтеграції та highload — у кожному розділі по п'ять проєктів. Назви клієнтів під NDA, тому говоримо про індустрію, масштаб та вимірний результат: faithfulness, latency, cost, conversion, RPS. За запитом — референс-дзвінок з командою.

AI-кейси

AI-інтеграція та LLM-системи

Де у клієнта було «хочеться AI», а вийшло — вимірне прискорення роботи, зниження costs та якість, яку можна показати на golden set.

Фінтех / RAG · compliance 2.4M документів

RAG-копілот для compliance-аналітиків

Задача. Аналітики витрачали 30–60 хвилин на розбір кожного кейсу. Open-source пошук видавав нерелевантне, наївний RAG галюцинував.

Що зробили. Hybrid search (BM25 + embeddings) з cross-encoder ре-ранжувачем, чанкування з урахуванням структури документів, окремий fact-checker-pass на Claude, citation-aware UI. Eval на golden set із 1200 пар.

Результат. Faithfulness 0.94 (vs 0.71 у baseline), час розбору кейсу впав з 40 до 6 хвилин, токен-cost нижче на 72 %.

6.5×
швидше аналіз
0.94
faithfulness
−72%
cost vs naive RAG
ClaudepgvectorBM25RagasLangfuse
E-commerce / агенти 800K тикетів / мес.

AI-агент у саппорті маркетплейсу

Задача. Великий обсяг типових звернень, FRT 9 хвилин, оператори у виганні, NPS саппорту −18.

Що зробили. Агентський пайплайн на LangGraph з tool-use: статус замовлення, ініціація повернення, оновлення адреси, escalation у людський саппорт. Human-in-the-loop на повернення вище порогу. Safety-шар проти prompt-injection.

Результат. FRT 12 секунд, 68 % тикетів закриваються автоматично, NPS саппорту виріс на 12 пунктів.

45×
FRT
68%
авто-резолюшн
+12 NPS
саппорту
GPT-4oLangGraphtool-usePostgres
SaaS / LLMOps 10M req/day

Production LLM gateway з маршрутизацією та кешем

Задача. 14 продуктових команд незалежно ходили в OpenAI та Anthropic. Cost ріс швидше виручки, fallback не було, регулярно падало на rate-limit.

Що зробили. Gateway-шар: єдиний API, маршрутизація Claude / GPT / Llama за типом задачи, семантичний кеш, ratelimit per-tenant, retry / fallback при 429 / 5xx, cost-attribution через OpenTelemetry. PII-фільтри та токен-budget на користувача.

Результат. Cost на токенах −64 % за квартал, overhead 42 ms p99, 0 інцидентів «упёрлись у rate-limit» за півроку.

10M
запитів / день
−64%
cost
42 ms
overhead p99
GoRedisvLLMOpenTelemetry
DevOps / AI-агент 1.4K інцидентів / мес.

AI-агент для авто-триажу production-інцидентів

Задача. SRE-команда тонула в алертах: половина — false positive, MTTA 18 хвилин, дежурні просипались 3–4 рази за ніч.

Що зробили. Агент читає алерт, тягне пов'язані метрики та логи через MCP, шукає подібні інциденти у постмортемах (RAG), формулює hypothesis та runbook-пропозицію. Якщо впевненість нижче порогу — escalirует із вже зібраним контекстом.

Результат. MTTA з 18 до 2 хвилин, 41 % алертів закривається без участі дежурного, нічні пробудження упали в 3.5 разу.

MTTA
41%
авто-розбір
−72%
on-call burden
ClaudeMCPPrometheusLokipgvector
Аналітика / DataLake & DWH 120K годин записів / мес.

Аналіз дзвінків відділу продажів через LLM

Задача. Записи дзвінків з клієнтами — гора неструктурованих даних. BI будувався тільки на CRM-полях, у які менеджери писали що попало.

Що зробили. Pipeline: транскрипція (Whisper) → діаризація → структурований видобуток (LLM за суворою JSON-схемою) → підсвітлення заперечень → вітрини у ClickHouse → дашборди.

Результат. 100 % дзвінків розмічаються автоматично протягом 5 хвилин після завершення. Conversion rate команди +9 % за квартал.

100%
покриття
5 min
SLA від end-of-call
+9%
conversion
WhisperClaudeClickHouseKafka
Highload-кейси

Архітектура та інженерія систем під навантаження

Платежі, RTB, пошук, multi-tenant SaaS, realtime-сесії та data-платформи. Цифри — те, заради чого ці проєкти робилися.

Фінтех / платежі 35K RPS · 4 регіони

Міграція платіжної платформи з монолита на event-driven core

Задача. Платіжна платформа упиралась у БД на піках, релізи катилися раз у два тижні та супроводжувались інцидентами. Бізнес планував 5–6× зростання транзакцій.

Що зробили. Розділили монолит на 9 сервісів навколо bounded contexts. Kafka як backbone, outbox + saga-оркестрація. Multi-region кластер на Kubernetes з active-active платіжним ядром.

Результат. p99 платіжного API з 850 ms до 110 ms, релізи стали щоденними, інфраструктура −40 %.

падіння p99
зростання TPS
−40%
cloud-cost
GoKafkaPostgresK8sAWS
AdTech / RTB 250K QPS · multi-AZ

Real-time bidding pipeline з SLA 95 ms

Задача. Запустити RTB-біддер, який укладається у 100 ms бюджет аукціону та стабільно тримає 200K+ QPS на піку.

Що зробили. Pipeline на Go з in-memory feature store на Redis Cluster. Аналітика та навчання моделей у ClickHouse, real-time ingestion через Kafka. Multi-AZ деплой з health-aware load balancing.

Результат. 250K QPS, аукціони укладаються у 95 ms p99. За 18 місяців — жодного інциденту з втратою виручки.

250K
QPS
95 ms
SLA p99
99.99%
uptime
GoRedisClickHouseKafkaAWS
E-commerce / пошук 12M SKU · 4M MAU

Пошук та фасетна навігація для маркетплейсу

Задача. Пошук по 12M товарів відповідав за 800 ms p95 та «складався» під пікову навантаження. Конверсія з пошуку у кошик падала.

Що зробили. Перевели на Elasticsearch з предрахунком фасетів та автокомплиту, розділили nodes на data/coordinating/ingest, індексація — стрім з Kafka.

Результат. p95 пошуку з 800 до 80 ms, конверсія «пошук → кошик» +18 %, індексація повного каталогу за 25 хвилин замість 6 годин.

10×
швидше p95
+18%
конверсія
14×
швидше індексація
ElasticsearchNode.jsKafkaPostgres
B2B SaaS / multi-tenant 1.2K тенантів

Multi-tenant платформа: ізоляція та масштабованість

Задача. SaaS виріс з shared-DB підходу: «шумні сусіди» впливали один на одного, аудит compliance займав тижні, нові тенанти розгортались інженерами вручну.

Що зробили. Перейшли на схему-per-tenant з автопровізіонінгом через Terraform. Розділили critical path та аналітику. Per-tenant rate limits та квоти ресурсів у Kubernetes.

Результат. P95 запитів у 3 рази нижче, провізіонінг тенанта 90 секунд замість двох днів, audit-trail та compliance-перевірки автоматизовані.

×3
P95
90 s
провізіонінг
0
інцидентів 12 мес.
PostgresTerraformK8sGo
Гейминг / realtime 800K MAU · <50 ms p99

Realtime backend для multiplayer-сесій

Задача. Backend для realtime-сесій із передбачуваною затримкою, який витримає сезонні піки аудиторії.

Що зробили. Матчмейкинг та стейт-сервіс на Go з Redis Streams. Сесії розподіляються по region-shard'ам, відмова одного шарду не торкає інші. Деплої blue/green із прогріванням.

Результат. P99 мережевої латентності менше 50 ms, 800K MAU без деградації, 18 місяців без даунтайму у продакшені.

<50 ms
p99
800K
MAU
0
даунтайм 18 мес.
GoRedis StreamsNATSK8s

Схожа задача у вас?

Розкажіть про систему та метрики — пришлемо, як підійшли б ми, та скільки це буде коштувати.

Обговорити →