ИИ-агенты против CEO-Bench: почему модели проваливают управление

Современные AI-агенты отлично справляются с ролью цифровых подмастерьев: чинят баги, пишут фрагменты кода или парсят сайты. Однако, как только горизонт планирования отодвигается дальше завтрашнего обеда, «интеллект» моделей начинает буксовать. Исследователи из Принстонского университета представили бенчмарк CEO-Bench, который имитирует 500 дней операционной деятельности софтверной компании. Результат отрезвляет: большинство топовых моделей не способны удержать бизнес на плаву, проигрывая простейшим алгоритмам на базе жестких правил.

Бенчмарк измеряет так называемый steering intelligence — способность расставлять приоритеты и распределять ресурсы в условиях неопределенности. Это не решение задачки из учебника, а проверка на выживаемость. Модели передают управление NovaMind — виртуальным стартапом с миллионом долларов на счету и нулевой базой клиентов. В распоряжении агента Python API с 34 инструментами и 19 таблицами базы данных. Нужно писать код и SQL-запросы, чтобы управлять ценообразованием, R&D и маркетинговыми бюджетами. Единственное мерило успеха — остаток кэша на 500-й день. Если баланс обнуляется, симуляция заканчивается банкротством. На наш взгляд, это отличная иллюстрация того, в каком положении оказался Стив Джобс в Apple в 1997 году, когда до краха оставалось три месяца.

The 500-Day Survival Constraint

Главная проблема современных LLM — отсутствие мгновенного дофаминового отклика. В CEO-Bench внедрена реалистичная задержка: выручка поступает только в дни выставления счетов, а циклы разработки занимают недели. По наблюдениям исследователей из Принстона, модели теряются, когда расходы списываются немедленно, а отдача скрыта за горизонтом событий. Вдобавок ко всему, агент должен фильтровать шум — отделять важные сигналы от информационного мусора в симулированной социальной сети.

Этот тип стратегического управления фундаментально отличается от того, что AI-агенты делают сегодня.

Heuristics vs. Neural Networks

Из всех протестированных моделей лишь три смогли закончить год с капиталом выше стартового. Но настоящий позор для сторонников «агентской революции» пришел со стороны классических эвристик. Скрипт на базе жестких правил, лишенный нейросетевой магии, обошел почти все модели. Оказалось, что ригидная логика эффективнее управляет капиталом, чем «рассуждающие» LLM.

Простая эвристика без всякого ИИ справляется лучше большинства современных моделей.

Данные Принстона подтверждают: модели умеют генерировать синтаксически верный код, но не способны придерживаться стратегии. Они сжигают бюджеты, потому что их цепочки рассуждений и память слишком коротки, чтобы связать вчерашний найм с завтрашним оттоком клиентов. Ошибка кроется не в наборе инструментов, а в неспособности синтезировать отложенную обратную связь в устойчивую линию поведения.

Пора признать: пока ИИ может автоматизировать ваши тикеты в поддержке, делегировать ему распределение капитала — это самый короткий путь к ликвидации компании. Нам еще только предстоит увидеть архитектуры, способные не просто предсказывать следующий токен, но и осознавать цену этого предсказания через полгода реального времени.

Источник: The Decoder →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыБольшие языковые моделиИИ в бизнесеАвтоматизацияCEO-Bench

Крах виртуального CEO: почему ИИ-агенты банкротят компании за 500 дней

The 500-Day Survival Constraint

Heuristics vs. Neural Networks