AI-агенты: бенчмарки врут. Реальность для CEO

На бумаге AI-агенты с их «навыками» обещают золотые горы автоматизации. Концепция, взлетевшая после Anthropic в октябре 2025-го и подхваченная OpenAI с другими, предполагает, что агенты смогут подключать специализированные знания — будь то API, рабочие процессы или лучшие практики — для решения любых задач. Звучит, согласитесь, соблазнительно. Особенно когда речь идет о платформах вроде Claude Code или Codex. Но реальность, как это часто бывает, оказалась куда прозаичнее. Исследование от UC Santa Barbara, MIT CSAIL и MIT-IBM Watson AI Lab, проверившее 34 000 «навыков», пришло к неутешительному выводу: в условиях, хоть сколько-нибудь приближенных к жизни, эти «улучшения» если и помогают, то едва-едва, а иногда и откровенно вредят.

Вся проблема — в лукавой методологии тестирования. Существующие бенчмарки, например SKILLSBENCH, работают по принципу «подано с пылу с жару»: агентам подсовывают точно подобранные, специфичные для задачи «навыки». Исследователи описывают показательный пример: агенту нужно идентифицировать дни наводнений на станциях USGS. Ему подсовывают три «навыка» с готовыми API для загрузки данных, URL-адресами пороговых значений и даже кодом для определения искомых дней. Авторы исследования правы: это «почти инструкция по точному решению задачи». В реальном же мире агенты вынуждены копаться в гигантских, зачастую «шумных» коллекциях, искать нужные «навыки», адаптировать их под конкретную ситуацию и при этом не иметь никакой гарантии, что вообще что-то подходящее найдется.

Исследователи проанализировали 34 000 реальных «навыков» из открытых репозиториев. Затем они создали шесть сценариев, последовательно повышая их сложность: от предоставления готовых «навыков» до полного поиска агентом в базе без каких-либо подсказок. Тестировали три модели: Claude Opus 4.6 с Claude Code, Kimi K2.5 с Terminus-2 и Qwen3.5-397B-A17B с Qwen Code. Результаты оказались отрезвляющими: в самых сложных сценариях агенты с «навыками» лишь незначительно превосходили базовые модели без них. Более того, более слабые модели при подключении «навыков» показывали еще худшие результаты, что ставит под сомнение саму стратегию их повсеместного внедрения как универсального улучшения.

Почему это важно для вас, CEO? Исследование наглядно бьет по маркетинговым обещаниям AI-агентов, основанным на тепличных лабораторных бенчмарках. Принимая решения об инвестициях в AI, вам стоит критически оценивать заявленную эффективность. Фокусируйтесь не на красивых цифрах тестов, а на реальной интеграции и измеримых результатах (measurable outcomes) в ваших конкретных бизнес-процессах. Слепая вера в «навыки» и бенчмарки чревата неоправданными тратами и горьким разочарованием. Истинная же польза кроется в прагматичном подходе и трезвом понимании текущих ограничений технологий.

Источник: The Decoder →

Оцените материал

★ ★ ★ ★ ★

Искусственный интеллектИИ-агентыИИ в бизнесеИнвестиции в ИИАвтоматизация