Почему ИИ-агенты проваливают тесты: проблема бенчмарков

Индустриальные бенчмарки систематически занижают реальный потенциал топовых ИИ-агентов, искусственно ограничивая им «время на раздумья». Согласно отчету британского Института безопасности ИИ (UK AI Safety Institute, AISI), общепринятая практика жесткой фиксации вычислительных бюджетов при тестировании дает искаженную картину. Когда моделям позволяют тратить больше ресурсов, показатели успеха в сложных задачах вырастают на 25%. Для бизнеса это означает критическую ошибку диагностики: вы измеряете не потолок возможностей системы, а лишь результат в условиях жесткого дефицита ресурсов.

Степенной закон вычислений Исследователи AISI обнаружили, что эффективность в кибербезопасности и разработке софта напрямую коррелирует с бюджетом вычислений. В тестах на кибервзлом около 8% задач решались только после того, как лимит превышал 10 млн токенов, а некоторые требовали до 50 млн. Производительность агента — это не точка на графике, а кривая, ползущая вверх по мере роста вычислительных затрат на этапе вывода (test-time compute). Если вы урезаете бюджет, пока эта кривая еще растет, итоговый балл отражает не глупость модели, а вашу жадность. На бенчмарках TerminalBench 2.0 и SWE-Bench Pro успех прыгал на четверть сразу после расширения лимита с одного до десяти миллионов токенов.

Зависимость подчиняется степенному закону, привязанному к человеческим трудозатратам. Данные институтов METR и AISI показывают: объем токенов, необходимых агенту, масштабируется пропорционально времени, которое потребовалось бы эксперту-человеку. Задачка на минуту обходится в тысячи токенов, на час — в миллионы, а недельный проект может «сожрать» миллиарды.

Текущие методы оценки фактически отсекают самые сложные логические узлы. Если ваши внутренние пилоты буксуют на сложных задачах, проблема может быть в затянутых поясах, а не в слабом интеллекте Claude 3.5 или моделей o1.

Ловушка эффективности и реальный TCO Дополнительные вычисления не панацея, но их эффект предсказуем. В медицинском HealthBench модели упираются в плато независимо от бюджета. В AISI объясняют это спецификой среды: «лишние» токены приносят пользу там, где агент может проверить свою работу сам — прогнать код или протестировать эксплойт. Там, где обратная связь отсутствует или субъективна, прогресса почти нет. Это создает стратегический разрыв: тяжелые агенты готовы к автономным техническим процессам, но бесполезны в «мутных» гуманитарных средах.

Пора пересчитать совокупную стоимость владения (TCO) вашими ИИ-пилотами, перейдя от метрики «цена за тысячу токенов» к «стоимости успешного выполнения задачи» (Cost per Task Success).

Если десятикратное увеличение лимита токенов дает 25% прироста в критическом узле разработки, этот расход почти наверняка окажется чистой экономией на часах дорогих инженеров-контролеров. Пока стоимость токенов падает, возможности, казавшиеся экономически абсурдными вчера, становятся стандартом сегодня, превращая вчерашние результаты бенчмарков в макулатуру.

Источник: The Decoder →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыИИ в бизнесеПроизводительностьБезопасность ИИ

Ловушка бенчмарков: почему ваши ИИ-агенты умнее, чем кажутся