Почему ИИ-агенты терпят неудачу: аудит моделей Deep Research через TELBench

Правильный ответ от ИИ-агента в режиме глубокого поиска (Deep Research) больше не является признаком его надежности. Как следует из препринта, опубликованного на arXiv, исследователи сместили фокус с оценки финального результата на детальный аудит траекторий рассуждений (локализация ошибок на уровне сегментов). Проблема в том, что верный результат часто маскирует катастрофические сбои в процессе: агент может генерировать неподтвержденные или противоречивые тезисы, чудом приходя к валидному выводу. Для бизнеса это означает «мину замедленного действия» в любом аналитическом отчете.

Современные ИИ-исследователи все еще не способны адекватно проверять собственные заметки, что делает инструменты аудита обязательным фильтром перед внедрением автономных систем в реальный R&D.

Чтобы устранить этот дефицит прозрачности, представлен TELBench — бенчмарк, включающий 1 000 сценариев, отобранных из массива в 2 790 реальных траекторий работы агентов. Эти данные, полученные на базе двух фреймворков и трех топовых моделей, прошли через экспертную разметку для поиска вредоносных ошибок среди «шума» обычной поисковой активности. Выяснилось, что Deep Research агенты систематически проваливают проверку доказательной базы, теряя нить аргументации на длинных дистанциях.

Главное в исследовании:

Ложная точность: агенты часто приходят к верным выводам, опираясь на галлюцинации или логические несостыковки. Бенчмарк TELBench: новый стандарт оценки, ориентированный на верификацию каждого шага исследования, а не только финала. Фреймворк DRIFT: позволяет отслеживать утверждения агента и маркировать участки, где доказательства отсутствуют или противоречат друг другу. Рост прозрачности: использование DRIFT повышает точность локализации ошибок на 30 процентных пунктов.

Для технических директоров и руководителей аналитики это сигнал: полагаться на «черный ящик» поискового агента нельзя. Внедрение локализации ошибок на уровне сегментов (spans) должно стать индустриальным стандартом контроля качества. Без такого аудита любая автономная аналитика остается лотереей, где цена ошибки в цепочке рассуждений может стоить компании рыночного преимущества, даже если итоговый слайд презентации выглядит убедительно.

ИИ-агентыБезопасность ИИИИ в бизнесеБольшие языковые модели