Современная индустрия ИИ-агентов попала в ловушку метрик-заменителей. До сих пор считалось, что точность извлечения данных напрямую конвертируется в качество принимаемых решений. Однако свежее исследование от команды AWS (Тианю Динг и Хуан Пабло де ла Крус Вайнштайн) доказывает обратное: в сложных сценариях с длинным горизонтом планирования эта корреляция практически рассыпается.

В ходе тестов на платформе τ-bench в домене авиаперевозок стандартные поисковые алгоритмы смогли вытащить нужный пункт правил на первую позицию лишь в 7% случаев. Казалось бы, катастрофа. Но на практике классификатор Qwen2.5-3B выдал Macro-F1 на уровне 0.58 — это почти не отличается от результата в 0.60, который модель показывает при «ручной» подаче идеальных данных. Выяснилось, что даже если поиск промахивается мимо конкретной формулировки, извлеченные фрагменты несут достаточно косвенных сигналов, чтобы модель поняла логику процесса. Традиционные метрики оценки RAG-систем для агентов выглядят неоправданно пессимистично и, откровенно говоря, бьют мимо цели.

Главные выводы исследования

Точность извлечения (recall) больше не является определяющим фактором успеха для автономных агентов. Использование структурированного состояния (structured state) вместо «сырых» логов повышает эффективность модели на 13–17%. Модели малого размера (например, Qwen2.5-7B) способны успешно ориентироваться в условиях зашумленных данных, если правильно организован контекст.

Техлидам пора признать: архитектура контекста важнее, чем объем «сырой» информации. Структура помогает модели отсеивать шум эффективнее, чем бесконечное расширение окна поиска.

Этот парадокс результативности — когда модель Qwen2.5-7B обходит контрольные группы даже при низком качестве поиска — меняет приоритеты разработки. Хватит тратить инженерные часы на вылизывание top-k recall в поисковых индексах. Если ваш агент буксует, проблема, скорее всего, не в том, что он «не нашел» файл, а в том, как вы репрезентируете текущее состояние системы. Настоящая автономность требует моделей, способных распознавать неявные сигналы управления, а не просто копипастить правила из базы знаний.

ИИ-агентыRAG и векторный поискБольшие языковые моделиМашинное обучениеAWS