Эпоха оценки ИИ-моделей исключительно по баллам точности зашла в тупик. Группа исследователей из Принстона, MIT и Беркли в своем отчете «Жизнь после насыщения бенчмарков» указывает на очевидный кризис: топовые агенты сегодня сбились в плотную кучу у верхнего предела возможностей. Статистически они стали неотличимы друг от друга, а бесконечный цикл замены устаревших тестов вроде MMLU на MMLU-Pro или SWE-bench на более свежие версии лишь маскирует проблему. Погоня за цифрами заставляет игнорировать критические параметры, которые на самом деле определяют, выживет ли ваш ИИ в реальной бизнес-среде.
Как отмечают авторы исследования, высокие результаты в CORE-Bench Hard часто оказываются следствием банального переобучения или использования «шорткатов» в данных, а не подлинного мастерства модели. Чтобы вырваться из этого круга, была представлена система CORE-Bench v1.1 и CORE-Bench OOD. Вместо одномерной шкалы «правильно/неправильно» исследователи предлагают оценивать шесть новых измерений:
Валидность бенчмарка Вычислительная эффективность Надежность Способность к обобщению вне выборки (OOD) Вклад архитектуры (скаффолда) Реальный профит от синергии человека и агента
Данные показывают: когда графики точности выходят на плато, именно эти метрики вскрывают драматическую разницу в поведении моделей.
Человек и агент: новая формула эффективности
На практике «умная» модель часто проваливается, потому что она не приспособлена к работе с данными, которые не встречались в обучающем наборе, или не умеет эффективно взаимодействовать с живым сотрудником. В ходе рандомизированного эксперимента по воспроизводимости вычислений авторы обнаружили важную закономерность:
Гибридная связка «человек + агент» дает двукратное ускорение процесса. Это прямое доказательство того, что ценность ИИ-агента заключается не в стерильном лабораторном тесте, а в его способности встраиваться в человеческие рабочие процессы.
Инвесторам и техническим директорам пора перестать нанимать ИИ-решения, глядя на «красивые» проценты точности. Модель, достигшая потолка на лидерборде, может оказаться неэффективной, ненадежной или абсолютно беспомощной на ваших специфических данных.
Главное для бизнеса
Оценивайте не голые веса, а качество надстройки (scaffolding). Проверяйте потенциал коллаборации ИИ с вашей командой. Ищите устойчивость к нестандартным кейсам, а не рекорды в тестах.
Именно здесь сегодня пролегает граница между реальной конкурентоспособностью и маркетинговым шумом.