OpenAI MLE-bench: ИИ-агенты достигают уровня Kaggle

Эпоха текстовых опросников MMLU, где нейросети соревновались в эрудиции на уровне школьников-отличников, официально завершена. OpenAI переходит к проверке профпригодности в полевых условиях. Новый бенчмарк MLE-bench — это не тест на знание определений, а 75 реальных соревнований Kaggle. Теперь агентам приходится не «галлюцинировать» на тему машинного обучения, а в реальности чистить «грязные» датасеты, тренировать модели и проводить полноценные инженерные эксперименты. Команда авторов под руководством Лилиан Венг и Александра Мадри фактически создала цифровой полигон для оценки того, насколько быстро ИИ вытеснит джуниор-инженеров из производственных цепочек.

Связка o1-preview и AIDE

Наилучший результат показал тандем из модели OpenAI o1-preview и надстройки AIDE (agent scaffolding). Эта архитектура позволила системе взять уровень бронзовой медали Kaggle в 16,9% задач. Секрет успеха здесь не в терабайтах скормленного текста, а в архитектуре рассуждений (reasoning). Модель o1-preview не просто выдает ответ, а выстраивает логические цепочки, что в связке с внешними инструментами AIDE превращает ее из чат-бота в автономного сотрудника. По сути, мы видим работающую экономику автоматизации R&D: связка o1 и AIDE берет на себя рутину по подбору гиперпараметров и подготовке данных, с которой раньше возились живые люди.

Лучшая конфигурация — OpenAI o1-preview с AIDE scaffolding — достигает уровня бронзовой медали Kaggle в 16,9% соревнований.

Исследователи OpenAI, среди которых Чан Джун Шерн и Нил Чоудхури, отдельно проверили риск «зазубривания» (contamination) и влияние вычислительных мощностей на результат. Вывод однозначен: современные агенты уже не просто имитируют деятельность, а способны выдавать результат, сопоставимый с работой квалифицированного специалиста. Однако триумф на Kaggle — это еще не пропуск в закрытую корпоративную инфраструктуру. Реальные бизнес-данные гораздо хаотичнее вылизанных соревновательных выборок, а доступ к внутренним API компаний накладывает жесткие ограничения по безопасности.

Экономика и барьеры автоматизации

MLE-bench вводит новую метрику для бизнеса: оценку системы через ROI и завершенные проекты, а не через точность предсказания следующего токена. Если агент способен закрыть 17% задач уровня Kaggle, это означает прямую экономию на циклах разработки ИИ-решений. Роль ML-инженера трансформируется: от написания кода вручную к дирижированию роем агентов, которые выполняют сотни итераций экспериментов параллельно. Мы вступаем в фазу, когда эффективность ИИ измеряется способностью довести проект до финала без участия человека, и 16,9% «бронзы» — это лишь первая отметка на шкале неизбежного демонтажа привычного IT-найма.

Источник: OpenAI Blog →

Оцените материал

★ ★ ★ ★ ★

Машинное обучениеИИ-агентыРынок трудаАвтоматизацияOpenAI

Бенчмарк MLE-bench от OpenAI: ИИ-агенты начинают заменять ML-инженеров

Связка o1-preview и AIDE

Экономика и барьеры автоматизации