ИИ-агенты проваливают тесты в реальности: отчет ToolMaze

Современные тесты на рассуждения с использованием инструментов (Tool-Integrated Reasoning, TIR) создают опасную иллюзию надежности, которую Дуншэн Чжу и его коллеги из Шанхайской лаборатории ИИ и Baidu называют ловушкой «счастливого пути» (happy path). В реальности работа агентов — это не ровный конвейер, а хрупкий граф зависимостей. Пока текущие метрики рапортуют о готовности ИИ к эксплуатации, бенчмарк ToolMaze наглядно демонстрирует: архитектурно эти системы не способны переварить даже банальный сетевой сбой или битые данные, которые в продакшене моментально вызывают «коллапс домино».

Методология DAG и таксономия отказов 2x2

Чтобы вырваться из стерильных условий, ToolMaze использует ациклические направленные графы (DAG) для моделирования топологической сложности. Это позволяет измерить, как агент лавирует в лабиринте потенциальных путей при отказе инструментов. Исследователи ввели таксономию возмущений 2x2, разделив ошибки на явные и скрытые, а также на временные и постоянные. Если с явными блокировщиками вроде 404 или тайм-аута всё понятно, то скрытые ошибки куда коварнее: это формально валидные, но семантически абсурдные ответы — например, отрицательный остаток товара на складе.

Реальное использование инструментов редко напоминает линейный процесс. Чаще это запутанный и склонный к сбоям граф зависимостей.

Такое разделение критично: оно отделяет примитивный метод тыка от системного перепланирования. Данные ToolMaze показывают, что при столкновении с аномалиями агенты должны переходить от исполнения к исследованию, используя «медленное мышление» (System 2) для поиска обходных путей. Без этого навыка модели либо проваливаются в бесконечные циклы повторов, либо слепо транслируют «отравленные» данные дальше по логической цепочке. Этот фатальный дефект исследователи зафиксировали практически у всех топовых LLM.

Масштабирование не лечит дефекты логики

Результаты тестирования вскрывают тревожный тренд: отказоустойчивость агентов катастрофически отстает от их общей производительности. Согласно отчету, показатель восстановления после возмущений (PRR) в сложных сценариях падает в среднем на 37%. Самый неутешительный вывод: способность к динамическому перепланированию растет в 3,66 раза медленнее, чем навыки выполнения базовых задач при увеличении масштаба модели. Это означает, что перед нами фундаментальный барьер, который не пробить простым наращиванием параметров или хитрым промптингом.

Отказоустойчивость агентов растет в 3,66 раза медленнее, чем общая производительность, что делает перепланирование главным «бутылочным горлышком» индустрии.

Разрыв между исполнением и восстановлением наиболее заметен в сложных топологиях, где агенты раз за разом попадают в ловушки бесполезных итераций. Крупные модели лучше следуют инструкциям, но они так же беззащитны перед каскадными логическими ошибками. ToolMaze доказывает: современные ИИ-агенты склонны «галлюцинировать прогрессом», даже когда инструменты вернули невозможные данные. Это делает их прямой угрозой для бизнес-критичных процессов, требующих автономности.

Переход к стресс-тестам через ToolMaze — это запоздалое признание того, что лабораторная автономность не имеет ничего общего с хаосом реальной эксплуатации. Техлидам стоит воспринимать это как последнее предупреждение: высокие баллы в стандартных бенчмарках не гарантируют выживаемость системы в полевых условиях. Пока разрыв в 3,66 раза не будет сокращен, любые агенты потребуют жестких внешних «предохранителей» и мониторинга для фильтрации токсичных выводов, которым они сейчас привыкли доверять по умолчанию.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыБольшие языковые моделиБезопасность ИИАвтоматизацияBaidu

Крах «счастливого пути»: почему ИИ-агенты беспомощны перед реальными сбоями

Методология DAG и таксономия отказов 2x2

Масштабирование не лечит дефекты логики