Внедрение автономных ИИ-агентов в процесс разработки обернулось финансовой ловушкой, о масштабах которой разработчики чат-ботов предпочитали умалчивать. Согласно свежему исследованию, опубликованному на arXiv (cs.AI), агентное написание кода потребляет в 1000 раз больше токенов, чем стандартные задачи на рассуждение или обычный диалог. Причина кроется не в объеме итогового кода, а в колоссальном массиве входных данных, необходимых для поддержания итерационных циклов и контекста среды выполнения. В отчете «How Do AI Agents Spend Your Money?» исследователи подчеркивают: потребление токенов стохастично. Решение одной и той же задачи может привести к тридцатикратной разнице в итоговом счете.

Для технических директоров (CTO) здесь заложен главный подвох: простое увеличение бюджета не гарантирует результат. Точность моделей обычно достигает пика при средних затратах и стагнирует при дальнейшем росте расходов. Это означает, что «зациклившийся» агент просто сжигает ваши средства, не продвигаясь в исправлении ошибок ни на шаг. На этом фоне бенчмарк SWE-bench Verified превращается в финансовый капкан. Данные показывают, что при решении идентичных задач модели Kimi-K2 и Claude 3.5 Sonnet могут потреблять в среднем на 1,5 миллиона токенов больше, чем их конкуренты. Этот разрыв обнажает пропасть между сырой производительностью модели и эффективностью её архитектуры.

Человеческая интуиция в данном вопросе — плохой советчик. Оценка сложности задачи опытными инженерами крайне слабо коррелирует с реальными затратами токенов. То, что кажется простым человеку, часто заставляет агента уходить в вычислительное пике. Хуже того, современные фронтирные модели не способны предсказать собственные аппетиты: корреляция самопрогноза замирает на отметке 0,39. Агенты систематически недооценивают стоимость своей работы еще до её начала.

Сегодня совокупная стоимость владения (TCO) официально стала важнее теоретической точности. Если модель не может спрогнозировать расход и бесконечно галлюцинирует, пока счет за API растет по экспоненте, её полезность для бизнеса стремится к нулю. Современное поколение автономных кодеров — это «черный ящик», который ставит упорство выше эффективности. В текущих реалиях компании платят не за элегантность решения, а за изнурение модели, которая пытается пробить стену лбом за счет клиента.

ИИ-агентыИИ в бизнесеПроизводительностьСнижение затратAnthropic