Případové studie

Deset projektů, na kterých je vidět, co děláme

AI integrace a highload — v každé sekci pět projektů. Jména klientů pod NDA, proto mluvíme o průmyslu, měřítku a měřitelném výsledku: faithfulness, latency, cost, conversion, RPS. Na požádání — reference hovor s týmem.

AI případové studie

AI integrace a LLM systémy

Kde klient chtěl "AI", a vyšlo — měřitelné urychlení práce, snížení nákladů a kvalita, kterou lze ukázat na golden setu.

Fintech / RAG · compliance 2.4M dokumentů

RAG kopilot pro compliance analytiky

Zadání. Analytici trávili 30–60 minut analýzou každého případu. Open-source vyhledávání vracelo nesouvisející výsledky, naivní RAG halucinoval.

Co jsme udělali. Hybrid search (BM25 + embeddings) s cross-encoder re-rankerem, chunking s ohledem na strukturu dokumentů, oddělený fact-checker pass na Claude, citation-aware UI. Eval na golden setu z 1200 párů.

Výsledek. Faithfulness 0.94 (vs 0.71 u baseline), čas analýzy případu klesl z 40 na 6 minut, token-cost nižší o 72 %.

6.5×
rychlejší analýza
0.94
faithfulness
−72%
cost vs naivní RAG
ClaudepgvectorBM25RagasLangfuse
E-commerce / agenti 800K ticketů / měsíc

AI agent v supportu marketplace

Zadání. Velký objem typických žádostí, FRT 9 minut, operátoři v burnoutu, NPS supportu −18.

Co jsme udělali. Agentský pipeline na LangGraph s tool-use: status objednávky, inicializace vrácení, aktualizace adresy, eskalace na lidský support. Human-in-the-loop na vrácení nad limitem. Safety vrstva proti prompt-injection.

Výsledek. FRT 12 sekund, 68 % ticketů se řeší automaticky, NPS supportu vzrostl o 12 bodů.

45×
FRT
68%
auto-rezoluce
+12 NPS
supportu
GPT-4oLangGraphtool-usePostgres
SaaS / LLMOps 10M req/day

Production LLM gateway s routingem a cachem

Zadání. 14 produktových týmů nezávisle chodilo do OpenAI a Anthropic. Cost rostl rychleji než tržby, fallback nebyl, pravidelně padaly rate-limity.

Co jsme udělali. Gateway vrstva: jednotné API, směrování Claude / GPT / Llama podle typu úlohy, sémantický cache, ratelimit per-tenant, retry / fallback na 429 / 5xx, cost-attribution přes OpenTelemetry. PII filtry a token-budget na uživatele.

Výsledek. Cost na tokenech −64 % za čtvrtletí, overhead 42 ms p99, 0 incidentů "narazili na rate-limit" za půl roku.

10M
dotazů / den
−64%
cost
42 ms
overhead p99
GoRedisvLLMOpenTelemetry
DevOps / AI agent 1.4K incidentů / měsíc

AI agent pro auto-triage produkčních incidentů

Zadání. SRE tým se topil v alertech: polovina — false positive, MTTA 18 minut, dežurní se budili 3–4× za noc.

Co jsme udělali. Agent čte alert, tahem související metriky a logy přes MCP, hledá podobné incidenty v postmortemech (RAG), formuluje hypotézu a runbook návrh. Pokud je jistota pod limitem — eskaluje s již sebraným kontextem.

Výsledek. MTTA z 18 na 2 minuty, 41 % alertů se řeší bez účasti dežurného, noční buzení kleslo 3,5×.

MTTA
41%
auto-triage
−72%
on-call zátěž
ClaudeMCPPrometheusLokipgvector
Analytika / DataLake & DWH 120K hodin nahrávek / měsíc

Analýza hovorů prodejního týmu přes LLM

Zadání. Nahrávky hovorů s klienty — hora nestrukturovaných dat. BI se stavěl jen na CRM polích, kde manažeři psali co libo.

Co jsme udělali. Pipeline: transkripce (Whisper) → diarizace → strukturovaná extrakce (LLM podle přísné JSON schémy) → zvýraznění námitek → vitríny v ClickHouse → dashboardy.

Výsledek. 100 % hovorů se automaticky značí do 5 minut po skončení. Conversion rate týmu +9 % za čtvrtletí.

100%
pokrytí
5 min
SLA od konce hovoru
+9%
conversion
WhisperClaudeClickHouseKafka
Highload případové studie

Architektura a inženýrství systémů pod zátěží

Platby, RTB, vyhledávání, multi-tenant SaaS, realtime relace a data platformy. Čísla — to, kvůli čemu byly tyto projekty dělány.

Fintech / platby 35K RPS · 4 regiony

Migrace platební platformy z monolitu na event-driven core

Zadání. Platební platforma se limitovala na DB při špičkách, releasy chodily jednou za dva týdny se zkušenostmi. Byznys plánoval 5–6× růst transakcí.

Co jsme udělali. Rozdělen monolitý na 9 služeb kolem bounded contexts. Kafka jako páteř, outbox + saga orchestration. Multi-region cluster na Kubernetes s active-active platebním jádrem.

Výsledek. p99 payment API z 850 ms na 110 ms, releasy denně, infrastruktura −40 %.

pokles p99
růst TPS
−40%
cloud-cost
GoKafkaPostgresK8sAWS
AdTech / RTB 250K QPS · multi-AZ

Real-time bidding pipeline s SLA 95 ms

Zadání. Spustit RTB bidder, který se vejde do 100 ms rozpočtu aukce a stabilně drží 200K+ QPS ve špičce.

Co jsme udělali. Pipeline na Go s in-memory feature store na Redis Cluster. Analytika a trénování modelů v ClickHouse, real-time ingestion přes Kafka. Multi-AZ deploy s health-aware load balancingem.

Výsledek. 250K QPS, aukce se vejdou do 95 ms p99. Za 18 měsíců — nula incidentů se ztrátou výnosů.

250K
QPS
95 ms
SLA p99
99.99%
uptime
GoRedisClickHouseKafkaAWS
E-commerce / vyhledávání 12M SKU · 4M MAU

Vyhledávání a fasetová navigace pro marketplace

Zadání. Vyhledávání přes 12M produktů odpovídalo za 800 ms p95 a "padalo" pod špičkovou zátěží. Konverze ze vyhledávání do košíku padala.

Co jsme udělali. Přesunuli jsme na Elasticsearch s předvýpočtem faset a autocompletion, rozdělili jsme nody na data/coordinating/ingest, indexace — stream z Kafka.

Výsledek. p95 vyhledávání z 800 na 80 ms, konverze "vyhledávání → košík" +18 %, indexace plného katalogu za 25 minut místo 6 hodin.

10×
rychleji p95
+18%
konverze
14×
rychleji indexace
ElasticsearchNode.jsKafkaPostgres
B2B SaaS / multi-tenant 1.2K tenantů

Multi-tenant platforma: izolace a škálovatelnost

Zadání. SaaS vyrůstal z přístupu shared-DB: "hluční sousedé" se ovlivňovali, audit compliance trval týdny, noví tenanti se rozběhli inženýry ručně.

Co jsme udělali. Přešli na schéma-per-tenant s auto-provisioningem přes Terraform. Rozdělili critical path a analytiku. Per-tenant rate limity a kvóty zdrojů v Kubernetes.

Výsledek. P95 requestů 3× nižší, provisioning tenanta 90 sekund místo dvou dnů, audit-trail a compliance kontroly automatizovány.

×3
P95
90 s
provisioning
0
incidentů 12 měs.
PostgresTerraformK8sGo
Gaming / realtime 800K MAU · <50 ms p99

Realtime backend pro multiplayer relace

Zadání. Backend pro realtime relace s předvídatelnou latencí, který vydrží sezónní špičky publika.

Co jsme udělali. Matchmaking a state service na Go s Redis Streams. Relace distribuovány po region-shard'ům, selhání jednoho shardu neovlivní ostatní. Blue/green deploy s prohřevem.

Výsledek. P99 síťová latence pod 50 ms, 800K MAU bez degradace, 18 měsíců bez downtimu v produkci.

<50 ms
p99
800K
MAU
0
downtime 18 měs.
GoRedis StreamsNATSK8s

Máte podobný projekt?

Povídejte o systému a metrikách — pošleme, jak bychom přistoupili, a kolik by to stálo.

Probrat →