RAG kopilot pro compliance analytiky
Hybrid search + cross-encoder re-ranker + fact-checker na Claude. Čas analýzy případu klesl z 40 na 6 minut, faithfulness 0.94 na golden setu.
Integrujeme LLM, RAG systémy a AI agenty do reálných produktů — a navrhujeme pod nimi infrastrukturu, která zvládne produkční zátěž. Od AI kopilotů a vyhledávačů po platební platformy a RTB biddery.
Mnohé týmy umí buď „přidat LLM", nebo „zvládat zátěž". My děláme obojí — protože v produkci je to stejně jedním problémem.
Claude, GPT, Llama, vLLM, lokální modely. RAG, fine-tuning, agenti, eval-pipelines. Ne z článků, ale ze desítky produkčních projektů.
Fintech na 35K RPS, RTB biddery na 250K QPS, vyhledávání přes 12M produktů. Mikroservisy, event-driven, multi-region failover — je to inženýrský základ týmu.
Faithfulness, latency p99, cost-per-request, conversion, error budget. Každý architektonický návrh vážeme k měřitelné metrice.
Cloud-cost, tokeny, GPU, údržba. Snižujeme výdaje o 30–70 % — a předem ukazujeme, co vás řešení bude stát za rok.
SLO, on-call, postmortemy, observability, ratelimit, fallback. Ne „vyložili demo", ale vedeme do provozu pod zátěží.
Kdyby SQL vyřešil úlohu — nebudeme nasazovat LLM. Kdyby postačil monolitický systém — nebudeme ho řezat na mikroservisy. Složitost stojí draho.
Pomáháme vložit LLM do produktu tak, aby to fungovalo v produkci, nelhalo a nežralo rozpočet na tokenech.
LLM funkce v produktu: chat-asistenti, kopiloti, generování, klasifikace, inteligentní vyhledávání.
Dokumenty → systém „otázka-odpověď" s citacemi, hybrid search, re-ranking, eval.
Multi-step agenti s tool-use a MCP. Automatizace procesů, asistent supportu, DevOps agent.
Propojujeme CRM, messengery, dokumentové základny a AI uzly do hotových flow. Nejrychlejší cesta od nápadu k funkčnímu procesu.
Model gateway, cache, ratelimit, observability, eval-pipeline, cost-attribution po týmech.
Paralelně děláme to, čím se zabýváme 12+ let: architektura, performance, migrace, infrastruktura a SRE.
Navrhování od nuly a evoluce: event-driven, CQRS, multi-region, výběr stacku pro růst.
Profilování, zátěžové testy, capacity planning. Co a kde selže při 10× zátěži.
Strangler-fig migrace, rozřezávání monolitu, online migrace DB, přechod do cloudu i zpět.
Kubernetes platforma, GitOps, observability, on-call procesy, FinOps. SLO jako závazek, ne heslo.
Není to „všechno, co jsme slyšeli" — je to to, na čem sami jsme provozovali AI a highload systémy pod zátěží a byli in-call.
Nenapíšeme „pomohli jsme klientovi" bez číslic. Každý projekt má měřitelnou metriku: faithfulness, latency, cost, conversion nebo uptime.
Hybrid search + cross-encoder re-ranker + fact-checker na Claude. Čas analýzy případu klesl z 40 na 6 minut, faithfulness 0.94 na golden setu.
Směrování Claude / GPT / Llama, sémantický cache, ratelimit, cost-attribution. Cost na tokenech snížen o 64 %, overhead 42 ms p99.
Přesunuli jsme platební platformu na Kubernetes s Kafka busem a sagami. Snížili p99 payment API 7× a podpořili 6× růst transakcí.
Bez dlouhých prodejních „rozhovorů". Na druhém setkání — odhad, smysluplný prototyp nebo roadmapa a realistická čísla.
Rozebíráme úlohu, metriky a omezení. Rozhodujeme, co je potřeba: AI, přepracování architektury nebo prostě dobrý index v DB.
Pro AI — MVP s golden datasetem a metrikami. Pro highload — design doc, ADR, roadmapa. Už vidíme cost a rizika.
Nasazení vedle týmu klienta. Párové programování, code review, release pod SLO, A/B testy, on-call.
Dokumentace, runbook, eval-pipeline, prognóza cost. Tým se bez nás obejde a klidu měňuje prompty, modely nebo služby.