Пропасть между успешным пилотом и работающей под нагрузкой системой — это кладбище мертворожденных AI-проектов. Для Nubank, управляющего финансами 100 миллионов пользователей, переход от заскриптованных чат-ботов к автономным агентам стал не вопросом выбора более мощной модели, а радикальной сменой парадигмы измерения надежности. Как объясняют Аман Гупта и его коллеги в исследовании для KDD ’26, традиционная изолированная разработка создает слепые зоны, которые всплывают только после деплоя. Чтобы не утонуть в жалобах клиентов, команда внедрила Evaluation-Driven Framework — систему, которая превращает оценку качества из досадной формальности в фундамент разработки для таких критичных сфер, как взыскание долгов и управление кредитными лимитами.
Архитектура доверия
В Nubank отказались от роли AI как простого генератора текста. Агенты банка теперь обязаны удерживать сложнейший контекст, что в финансовой среде граничит с хождением по минному полю. Архитектура компании объединяет структурированный контекстный инжиниринг с жесткой системой «LLM-as-a-judge». Используя большие языковые модели для проверки других моделей и подкрепляя это математически выверенным согласием экспертов (inter-rater agreement), банк автоматизировал процесс, который раньше съедал тысячи человеко-часов ручного тестирования.
Ключевой инсайт: качество пайплайна оценки напрямую определяет скорость итераций продукта.
Эта скорость критична при масштабировании на разные продуктовые линейки. Согласно отчету Nubank, система использует GEPA-оптимизацию для обеспечения консистентности «судейства». Такой математический подход позволяет инженерным центрам в Пало-Альто и Латинской Америке валидировать промпты до того, как они попадут к клиенту. Это гарантирует предсказуемость поведения агентов даже при обновлении базовых моделей.
Количественное доказательство автономии
Результаты этого подхода видны в кейсе по обслуживанию карт: масштабное A/B-тестирование показало рост транзакционного NPS на 37 процентных пунктов. Куда важнее для операционной эффективности то, что уровень самообслуживания (self-service rate) подскочил на 29 процентных пунктов по сравнению с предыдущими итерациями ботов. Данные Nubank подтверждают: между офлайн-симуляциями и реальными результатами в «поле» появилась прямая корреляция. Теперь инженеры могут с высокой точностью предсказать поведение агента в дикой природе еще до отправки первого сообщения пользователю.
В большинстве сценариев удовлетворенность качеством AI вплотную приблизилась к оценкам экспертов-людей, отставая всего на несколько процентных пунктов.
Этот паритет достигнут через цикл итерации промптов human-in-the-loop. Такая модель позволила банку масштабироваться на 100 миллионов пользователей, не жертвуя качеством при решении сложных финансовых проблем. Роль сотрудника службы поддержки трансформируется: из оператора типовых задач он превращается в узкого специалиста по самым нетривиальным кейсам.
Кейс Nubank наглядно демонстрирует, что в высоконагруженных и рискованных сервисах реальным продуктом является не сама модель, а «конвейер оценки». Отказ от ручного QA в пользу автоматизированного судейства с GEPA-оптимизацией — это единственный способ преодолеть разрыв между лабораторным демо-роликом и промышленной эксплуатацией. Опыт банка показывает, что обертки над чужими API обречены на провал там, где специализированные агентские архитектуры с глубокой интеграцией контекста становятся новым стандартом индустрии.