Маленькая команда: AI-инженеры и highload-архитекторы
С 2013 года занимаемся архитектурой и highload-системами; с 2023-го системно ведём AI-интеграции. Не «AI-стартап на хайпе» и не «интеграторы, услышавшие про LLM» — это два полноценных направления одной инженерной команды.
Как мы работаем
Эти принципы — не «корпоративная мантра», а фильтр, через который мы пропускаем каждый AI-проект и архитектурное решение под нагрузку.
- Технология — инструмент, а не самоцель LLM, микросервисы, Kubernetes — каждое решение должно оправдывать сложность. Если задачу решит SQL или монолит — так и скажем.
- Меряем качество, а не «нравится / не нравится» Golden datasets, eval-pipeline, faithfulness, context precision, A/B на пользователях. Без этого «улучшения» — это вкусовщина.
- Cost — это product-метрика Считаем стоимость токена, кеш-хит-рейт и cost-per-request с первого дня. AI-проекты падают чаще не от качества, а от счёта в облаке.
- Production — это серьёзно SLO, on-call, постмортемы, observability, ratelimit, fallback. Релиз AI-фичи — это не «выложили demo», это эксплуатация под нагрузкой.
- Безопасность с первого спринта PII-фильтры, prompt-injection защита, аудит-trail. Не «потом добавим», а в архитектуре с самого начала.
- Команда клиента — наша команда Парное проектирование, ревью, передача знаний. После нас команда должна уметь сама менять промпты, модели и оркестрацию.
Команда
На каждом проекте — выделенный архитектор и 2–4 инженера в зависимости от масштаба. Без длинных цепочек согласований и менеджеров между вами и инженерами.
Slava Konashkov
12+ лет в архитектуре highload-систем: финтех, AdTech, SaaS, e-commerce. Последние годы ведёт направление AI-интеграции — RAG, агенты, LLM-инфраструктура. Отвечает за архитектурные решения и работу с CTO клиентов.
AI-команда
RAG, агенты, prompt-инженерия, fine-tuning, eval-pipelines. Знают, чем cross-encoder отличается от bi-encoder и когда LoRA лучше full-tuning. И почему чаще всего нужен ни тот, ни другой.
Backend-команда
Go, Node.js, Python. Строят API вокруг моделей, gateway-слои, очереди и интеграции с внутренними системами. Все имеют опыт работы в продуктовых командах с собственным on-call.
Платформенная команда
Kubernetes, vLLM, Terraform, observability, FinOps. Поднимают inference-кластеры и LLM gateway, на которых продуктовые команды релизят AI-фичи каждый день, а не «когда GPU освободится».
Data-инженеры
Postgres / pgvector, ClickHouse, Qdrant, Weaviate, Kafka, Whisper-pipeline. Доводят vector-инфраструктуру и unstructured data pipelines до production-ready.
Eval-инженеры
Golden datasets, Ragas, Langfuse, A/B-тесты, регрессионные тесты на промпты и модели. Мы не верим в «релизим — посмотрим, ругаются ли пользователи». Считаем заранее.
Расскажите о задаче
AI-фича, оптимизация highload-сервиса или архитектура с нуля — опишите, что у вас сейчас, и куда хотите прийти. Мы вернёмся в течение рабочего дня.