Современные бенчмарки создают опасную иллюзию компетентности ИИ, тестируя лишь короткие и изолированные взаимодействия. В вакууме одного промпта агент может выглядеть гением, но, как показывает совместное исследование Чжэцзянского университета и Ant Group, при переходе к реальной аналитике система демонстрирует системный коллапс. Проблема не в количестве шагов, а в неспособности удерживать ускользающий контекст развивающейся задачи.
Для проверки гипотезы авторы представили LongDS-Bench — стресс-тест на основе 68 кейсов из Kaggle, включающий более 2200 итераций. Результаты отрезвляют: точность моделей падает почти на 47 пунктов от начала к концу сессии. Даже лучшие представители индустрии едва дотягивают до 48,45% средней точности. Основной удар приходится на специфические зависимости — обновление состояний, откаты к предыдущим этапам и объединение данных, полученных десяток шагов назад. По данным LongDS, ошибки «длинного горизонта» составляют от 52% до 69% всех провалов.
Главные выводы исследования
Точность падает вдвое: по мере усложнения цепочки задач производительность LLM стремительно деградирует. Проблема длинного горизонта: агенты теряют логическую нить, если разрыв между зависимыми шагами превышает 11 ходов. Ложные корреляции: накопление мелких искажений на ранних этапах приводит к полной негодности финального результата.
Текущие агентские надстройки непригодны для сквозного анализа данных без жесткого надзора. Делегирование им сложной бизнес-логики остается высокорискованным аттракционом.
Когда агенту приходится жонглировать меняющимися метриками или проверять контрфактические гипотезы, логика рассыпается. Средний разрыв между зависимыми шагами в исследовании составил 11,3 хода — для современных LLM это дистанция, на которой они начинают путаться в собственных показаниях. Вместо стройного аналитического процесса мы получаем деградацию рабочего потока, где каждый новый шаг лишь масштабирует накопленные искажения.
Пока модели не научатся управлять динамическим состоянием задачи, а не просто исполнять сиюминутные команды, они останутся тактическими помощниками для разовых поручений. О создании автономного аналитика, которому можно доверить проект целиком, говорить пока преждевременно.