Современные бенчмарки создают опасную иллюзию компетентности ИИ, тестируя лишь короткие и изолированные взаимодействия. В вакууме одного промпта агент может выглядеть гением, но, как показывает совместное исследование Чжэцзянского университета и Ant Group, при переходе к реальной аналитике система демонстрирует системный коллапс. Проблема не в количестве шагов, а в неспособности удерживать ускользающий контекст развивающейся задачи.

Для проверки гипотезы авторы представили LongDS-Bench — стресс-тест на основе 68 кейсов из Kaggle, включающий более 2200 итераций. Результаты отрезвляют: точность моделей падает почти на 47 пунктов от начала к концу сессии. Даже лучшие представители индустрии едва дотягивают до 48,45% средней точности. Основной удар приходится на специфические зависимости — обновление состояний, откаты к предыдущим этапам и объединение данных, полученных десяток шагов назад. По данным LongDS, ошибки «длинного горизонта» составляют от 52% до 69% всех провалов.

Главные выводы исследования

Точность падает вдвое: по мере усложнения цепочки задач производительность LLM стремительно деградирует. Проблема длинного горизонта: агенты теряют логическую нить, если разрыв между зависимыми шагами превышает 11 ходов. Ложные корреляции: накопление мелких искажений на ранних этапах приводит к полной негодности финального результата.

Текущие агентские надстройки непригодны для сквозного анализа данных без жесткого надзора. Делегирование им сложной бизнес-логики остается высокорискованным аттракционом.

Когда агенту приходится жонглировать меняющимися метриками или проверять контрфактические гипотезы, логика рассыпается. Средний разрыв между зависимыми шагами в исследовании составил 11,3 хода — для современных LLM это дистанция, на которой они начинают путаться в собственных показаниях. Вместо стройного аналитического процесса мы получаем деградацию рабочего потока, где каждый новый шаг лишь масштабирует накопленные искажения.

Пока модели не научатся управлять динамическим состоянием задачи, а не просто исполнять сиюминутные команды, они останутся тактическими помощниками для разовых поручений. О создании автономного аналитика, которому можно доверить проект целиком, говорить пока преждевременно.

ИИ-агентыБольшие языковые моделиИИ в бизнесеАвтоматизацияAnt Group