Флагманские агенты для глубоких исследований (DRAs) сегодня бесцеремонно встраиваются в корпоративные процессы, где их выводы ложатся в основу многомиллионных сделок. Ирония в том, что эти решения принимаются на базе бенчмарков вроде MMLU, которые измеряют лишь эрудицию и способность быстро находить факты в сети, а не умение выдавать аналитику уровня McKinsey. Исследование Deccan AI «Evaluating Deep Research Agents on Expert Consulting Work» подтверждает худшие опасения: между способностью нейросети складно болтать и аналитической строгостью, необходимой в консалтинге, лежит пропасть.
Анатомия когнитивной ловушки
Чтобы вскрыть эту имитацию деятельности, команда Танмая Астханы разработала тест из 70 задач, составленных экспертами-практиками. В отличие от стандартных опросников, здесь используются «когнитивные ловушки»: противоречия между сносками и основным текстом, путаница в единицах измерения и нестандартные форматы дат. Это бьет по самому больному — по привычке моделей полагаться на поверхностные паттерны. Оценка теперь не бинарная («верно/неверно»), а комплексная — Verifier-Rubric Score (VRS). Она сочетает жесткие автоматические проверки с субъективной шкалой экспертов от 0 до 3, оценивая целостность данных, глубину анализа и точность исполнения.
Компании, продающие «агентов-исследователей», бегут значительно быстрее тех, кто должен их проверять.
Эта спешка породила поколение моделей, которые предпочитают выглядеть убедительно, а не быть правыми. Если источник неоднозначен, агент не признает дефицит данных, а пускается в конфабуляции. В Deccan AI внедрили в среднем по 14,9 верификатора на каждую задачу. Даже если отчет выглядит профессионально, он не пройдет фильтр, если завалит технические чек-поинты. Выяснилось, что большинство агентов просто виртуозно имитируют экспертизу, полностью проваливая структурный анализ.
Статистический тупик и коллапс производительности
Результаты лидеров рынка — o3-deep-research от OpenAI, Gemini 1.5 Pro и Claude 3.5 Sonnet — демонстрируют единообразную беспомощность перед лицом реальной работы. Если установить планку на уровне 80% пройденных тестов и средней оценки «хорошо» (2.5 балла), результаты выглядят жалко: o3 преодолела порог в 15,7% случаев, а Claude и Gemini застряли на отметке 12,9%. Модель o3 лидирует по общим очкам (61.4), но регулярно страдает от каскадных ошибок в вычислениях. Gemini 1.5 Pro бросает из крайности в крайность — от идеальных ответов до катастрофических провалов, а Claude ожидаемо спотыкается на галлюцинациях и банальном доступе к файлам.
Ни один агент не дотянул до порога «адекватности» в 2.0 балла; ни один не прошел 80-процентный фильтр верификаторов.
Статистический разрыв между o3 и Claude значителен (p<0.001), но для бизнеса это не имеет значения: ни одна модель сейчас не пригодна для автономного консалтинга. Они отлично справляются с тривией, но «плывут», как только документы становятся намеренно сложными. Для руководителей это сигнал: внедрение ИИ-агентов сегодня держится на слепой вере. Пока VRS не поднимется выше уровня «удовлетворительно», эти инструменты должны оставаться в роли черновиков под жестким надзором людей, а не автономных аналитиков. Пора перестать молиться на баллы MMLU и начать внедрять внутренние стресс-тесты с когнитивными ловушками, прежде чем ИИ-галлюцинация станет частью вашей стратегии развития.