Автономия ИИ-агентов все чаще становится синонимом бесконтрольных трат на инференс. Новый бенчмарк MirrorCode от Epoch AI и METR подсветил пугающую перспективу: в одной из попыток модель штурмовала задачу 19 дней напролет, выставив счет в $2600 за один-единственный запуск. Хотя эксперимент доказывает, что нейросети способны на изнурительный многодневный кодинг без участия человека, он же обнажает полное отсутствие «предохранителей» в агентских циклах. Без жестких бюджетных лимитов такие системы превращаются в финансовую черную дыру, где алгоритм готов сжечь любые ресурсы ради призрачного завершения задачи.
MirrorCode: битва за эффективность
Суть MirrorCode — в воссоздании сложных программ (от утилит Unix до биоинформатических инструментов) с нуля. Лидерборд демонстрирует колоссальный разброс цен и эффективности.
Claude 3.5 Sonnet лидирует с показателем успешности 56%. Модель переписала инструментарий gotree — это около 16 000 строк кода на Go — всего за 14 часов и умеренные $251. GPT-4o показывает результат в 44%, а Gemini 1.5 Pro — 32%.
При этом стоимость за идентичные задачи скачет непредсказуемо: новые версии моделей могут оказаться втрое дороже предшественников при том же выхлопе.
Вызовы для C-level: от токенов к совокупной стоимости
Для руководства компаний фокус смещается с абстрактной стоимости тысячи токенов на совокупную стоимость владения (TCO) автономной транзакцией. Да, модели прогрессируют: то, что год назад казалось невыполнимым, сегодня решается с вероятностью выше 50%. Однако самые сложные задачи по-прежнему «укладывают на лопатки» любую систему, несмотря на астрономическое потребление ресурсов.
Оставленный без присмотра агент способен за три недели спустить месячную зарплату старшего инженера на результат, который никто не гарантирует.
Это история не столько о технологическом прорыве, сколько о необходимости внедрения финансовых «размыкателей». Тот случай, когда биоинформатический софт, требующий 17 недель человеческого труда, Claude выдает за 14 часов и $251, выглядит победой. Но риск попасть в «бесконечный цикл» и заплатить $2600 за пустой лог заставляет пересмотреть подход к внедрению автономии в реальный бизнес.