Современный ландшафт оценки ИИ — это фрагментированный хаос, который успешно маскирует реальную производительность моделей за маркетинговыми ширмами. Согласно препринту коалиции Evaluating Evaluations (EvalEval), номинально идентичные тесты выдают радикально разные результаты в зависимости от используемого фреймворка. Как отмечают Ян Батцнер, Шри Харша Нелатуру и их коллеги, эта чехарда делает невозможным прямое сравнение систем, раздувает бюджеты на R&D и превращает выбор стека в гадание на кофейной гуще.

Чтобы навести порядок в этом зоопарке, исследователи из IBM Research, Стэнфордского университета и Meta FAIR представили проект Every Eval Ever. Инициатива предлагает единую, не зависящую от вендоров схему данных, которая упаковывает результаты тестов в стандартизированный JSON-формат. Вместо того чтобы выискивать крупицы данных в разрозненных таблицах блог-постов и PDF-отчетах, техлиды получают доступ к централизованному репозиторию метаданных, включая параметры генерации и условия прогонов.

Главное в новом стандарте

Унификация данных: перевод разрозненных отчетов в единый машиночитаемый формат. Прозрачность условий: фиксация параметров генерации, которые часто скрывают вендоры. Независимость: проект не связан с конкретными разработчиками моделей.

«Этот проект — не просто попытка создать очередной стандарт, а инструмент для мета-анализа, который позволит инженерам и инвесторам выбирать решения на основе жестких цифр, а не амбициозных обещаний ИИ-лабораторий».

Для бизнеса это означает долгожданный переход от «веры на слово» к верифицируемой системе координат. Проект Every Eval Ever агрегирует данные из различных оценочных сред и научных статей, формируя воспроизводимый научный базис. Теперь любая попытка манипулировать результатами тестов за счет подбора удобного фреймворка станет очевидной при первой же сверке с общим реестром.

Искусственный интеллектИИ в бизнесеПроизводительностьMeta AI