Современные ИИ-агенты проваливают задачи не из-за слабого поиска, а потому что боятся признаться в собственном замешательстве. Исследователи из Tencent Hunyuan и Университета Цинхуа представили бенчмарк DiscoBench, который вскрыл главную проблему автономного поиска: неумение распознавать двусмысленность и задавать уточняющие вопросы. Пока индустриальные тесты вроде GAIA или BrowseComp создают иллюзию эффективности, скармливая моделям идеально вылизанные запросы, реальность подсовывает им хаос.
Как только агент сталкивается с объектом, который подходит под разные описания или временные периоды, он не просит уточнения, а выбирает путь наугад. В итоге мы получаем процесс с безупречным синтаксисом, но нулевой ценностью. Авторы DiscoBench протестировали одиннадцать тяжеловесов, включая Gemini 1.5 Pro, Claude 3.5 Sonnet и Doubao-1.5-Pro. Даже лучший из них, Doubao, показал лишь 43,1% точности на задачах с подвохом. У Claude 3.5 Sonnet ситуация еще нагляднее: модель успешно проходит 57% промежуточных этапов, но общая точность падает до 39,8%. Одной неразрешенной недосказанности достаточно, чтобы вся цепочка рассуждений посыпалась как карточный домик.
Главное в исследовании DiscoBench
Модели склонны к «галлюцинациям действия»: они продолжают выполнять задачу, даже если вводные данные противоречивы. Традиционные бенчмарки переоценивают возможности агентов, исключая из тестов неопределенность. Точность падает катастрофически, если задача требует уточнения контекста у пользователя.
«Настоящая эффективность AI-трансформации лежит в смене парадигмы: от наращивания поисковой мощности к внедрению верификации целей».
Для бизнеса это означает прямой операционный риск: вместо того чтобы нажать на паузу и запросить вводные от человека, агенты самозабвенно сжигают бюджеты и вычислительные ресурсы на исследование галлюциногенных сценариев. На наш взгляд, эпоха слепого исполнения «любой ценой» должна закончиться. Если ваш агент не задает вопросов, он не решает вашу бизнес-задачу — он просто имитирует деятельность за ваши деньги.