Případové studie

Deset projektů, na kterých je vidět, co děláme

AI integrace a highload — v každé sekci pět projektů. Jména klientů pod NDA, proto mluvíme o průmyslu, měřítku a měřitelném výsledku: faithfulness, latency, cost, conversion, RPS. Na požádání — reference hovor s týmem.

AI případové studie

AI integrace a LLM systémy

Kde klient chtěl "AI", a vyšlo — měřitelné urychlení práce, snížení nákladů a kvalita, kterou lze ukázat na golden setu.

Fintech / RAG · compliance 2.4M dokumentů

RAG kopilot pro compliance analytiky

Zadání. Analytici trávili 30–60 minut analýzou každého případu. Open-source vyhledávání vracelo nesouvisející výsledky, naivní RAG halucinoval.

Co jsme udělali. Hybrid search (BM25 + embeddings) s cross-encoder re-rankerem, chunking s ohledem na strukturu dokumentů, oddělený fact-checker pass na Claude, citation-aware UI. Eval na golden setu z 1200 párů.

Výsledek. Faithfulness 0.94 (vs 0.71 u baseline), čas analýzy případu klesl z 40 na 6 minut, token-cost nižší o 72 %.

6.5×

rychlejší analýza

0.94

faithfulness

−72%

cost vs naivní RAG

ClaudepgvectorBM25RagasLangfuse

E-commerce / agenti 800K ticketů / měsíc

AI agent v supportu marketplace

Zadání. Velký objem typických žádostí, FRT 9 minut, operátoři v burnoutu, NPS supportu −18.

Co jsme udělali. Agentský pipeline na LangGraph s tool-use: status objednávky, inicializace vrácení, aktualizace adresy, eskalace na lidský support. Human-in-the-loop na vrácení nad limitem. Safety vrstva proti prompt-injection.

Výsledek. FRT 12 sekund, 68 % ticketů se řeší automaticky, NPS supportu vzrostl o 12 bodů.

45×

FRT

68%

auto-rezoluce

+12 NPS

supportu

GPT-4oLangGraphtool-usePostgres

SaaS / LLMOps 10M req/day

Production LLM gateway s routingem a cachem

Zadání. 14 produktových týmů nezávisle chodilo do OpenAI a Anthropic. Cost rostl rychleji než tržby, fallback nebyl, pravidelně padaly rate-limity.

Co jsme udělali. Gateway vrstva: jednotné API, směrování Claude / GPT / Llama podle typu úlohy, sémantický cache, ratelimit per-tenant, retry / fallback na 429 / 5xx, cost-attribution přes OpenTelemetry. PII filtry a token-budget na uživatele.

Výsledek. Cost na tokenech −64 % za čtvrtletí, overhead 42 ms p99, 0 incidentů "narazili na rate-limit" za půl roku.

10M

dotazů / den

−64%

cost

42 ms

overhead p99

GoRedisvLLMOpenTelemetry

DevOps / AI agent 1.4K incidentů / měsíc

AI agent pro auto-triage produkčních incidentů

Zadání. SRE tým se topil v alertech: polovina — false positive, MTTA 18 minut, dežurní se budili 3–4× za noc.

Co jsme udělali. Agent čte alert, tahem související metriky a logy přes MCP, hledá podobné incidenty v postmortemech (RAG), formuluje hypotézu a runbook návrh. Pokud je jistota pod limitem — eskaluje s již sebraným kontextem.

Výsledek. MTTA z 18 na 2 minuty, 41 % alertů se řeší bez účasti dežurného, noční buzení kleslo 3,5×.

9×

MTTA

41%

auto-triage

−72%

on-call zátěž

ClaudeMCPPrometheusLokipgvector

Analytika / DataLake & DWH 120K hodin nahrávek / měsíc

Analýza hovorů prodejního týmu přes LLM

Zadání. Nahrávky hovorů s klienty — hora nestrukturovaných dat. BI se stavěl jen na CRM polích, kde manažeři psali co libo.

Co jsme udělali. Pipeline: transkripce (Whisper) → diarizace → strukturovaná extrakce (LLM podle přísné JSON schémy) → zvýraznění námitek → vitríny v ClickHouse → dashboardy.

Výsledek. 100 % hovorů se automaticky značí do 5 minut po skončení. Conversion rate týmu +9 % za čtvrtletí.

100%

pokrytí

5 min

SLA od konce hovoru

+9%

conversion

WhisperClaudeClickHouseKafka

Highload případové studie

Architektura a inženýrství systémů pod zátěží

Platby, RTB, vyhledávání, multi-tenant SaaS, realtime relace a data platformy. Čísla — to, kvůli čemu byly tyto projekty dělány.

Fintech / platby 35K RPS · 4 regiony

Migrace platební platformy z monolitu na event-driven core

Zadání. Platební platforma se limitovala na DB při špičkách, releasy chodily jednou za dva týdny se zkušenostmi. Byznys plánoval 5–6× růst transakcí.

Co jsme udělali. Rozdělen monolitý na 9 služeb kolem bounded contexts. Kafka jako páteř, outbox + saga orchestration. Multi-region cluster na Kubernetes s active-active platebním jádrem.

Výsledek. p99 payment API z 850 ms na 110 ms, releasy denně, infrastruktura −40 %.

7×

pokles p99

6×

růst TPS

−40%

cloud-cost

GoKafkaPostgresK8sAWS

AdTech / RTB 250K QPS · multi-AZ

Real-time bidding pipeline s SLA 95 ms

Zadání. Spustit RTB bidder, který se vejde do 100 ms rozpočtu aukce a stabilně drží 200K+ QPS ve špičce.

Co jsme udělali. Pipeline na Go s in-memory feature store na Redis Cluster. Analytika a trénování modelů v ClickHouse, real-time ingestion přes Kafka. Multi-AZ deploy s health-aware load balancingem.

Výsledek. 250K QPS, aukce se vejdou do 95 ms p99. Za 18 měsíců — nula incidentů se ztrátou výnosů.

250K

QPS

95 ms

SLA p99

99.99%

uptime

GoRedisClickHouseKafkaAWS

E-commerce / vyhledávání 12M SKU · 4M MAU

Vyhledávání a fasetová navigace pro marketplace

Zadání. Vyhledávání přes 12M produktů odpovídalo za 800 ms p95 a "padalo" pod špičkovou zátěží. Konverze ze vyhledávání do košíku padala.

Co jsme udělali. Přesunuli jsme na Elasticsearch s předvýpočtem faset a autocompletion, rozdělili jsme nody na data/coordinating/ingest, indexace — stream z Kafka.

Výsledek. p95 vyhledávání z 800 na 80 ms, konverze "vyhledávání → košík" +18 %, indexace plného katalogu za 25 minut místo 6 hodin.

10×

rychleji p95

+18%

konverze

14×

rychleji indexace

ElasticsearchNode.jsKafkaPostgres

B2B SaaS / multi-tenant 1.2K tenantů

Multi-tenant platforma: izolace a škálovatelnost

Zadání. SaaS vyrůstal z přístupu shared-DB: "hluční sousedé" se ovlivňovali, audit compliance trval týdny, noví tenanti se rozběhli inženýry ručně.

Co jsme udělali. Přešli na schéma-per-tenant s auto-provisioningem přes Terraform. Rozdělili critical path a analytiku. Per-tenant rate limity a kvóty zdrojů v Kubernetes.

Výsledek. P95 requestů 3× nižší, provisioning tenanta 90 sekund místo dvou dnů, audit-trail a compliance kontroly automatizovány.

×3

P95

90 s

provisioning

incidentů 12 měs.

PostgresTerraformK8sGo

Gaming / realtime 800K MAU · <50 ms p99

Realtime backend pro multiplayer relace

Zadání. Backend pro realtime relace s předvídatelnou latencí, který vydrží sezónní špičky publika.

Co jsme udělali. Matchmaking a state service na Go s Redis Streams. Relace distribuovány po region-shard'ům, selhání jednoho shardu neovlivní ostatní. Blue/green deploy s prohřevem.

Výsledek. P99 síťová latence pod 50 ms, 800K MAU bez degradace, 18 měsíců bez downtimu v produkci.

<50 ms

p99

800K

MAU

downtime 18 měs.

GoRedis StreamsNATSK8s