Пропасть между чтением научной работы и ее внедрением в производство остается самым дорогостоящим препятствием в ИТ. Пока нейросети упражняются в написании несложных скриптов, реальное воспроизведение научных прорывов — от осознания новаторской идеи до запуска сложнейших экспериментов — остается для них неизведанной территорией. Команда OpenAI представила PaperBench: этот бенчмарк призван проверить, способны ли ИИ-агенты выдержать жесткие требования передовых исследований. Заставив модели воссоздавать с нуля 20 ведущих статей (категорий Spotlight и Oral) с конференции ICML 2024, разработчики перевели дискуссию из плоскости «умеет ли модель писать код» в область когнитивной архитектуры и автономного инжиниринга.
Анатомия репликации
В PaperBench отказались от примитивной бинарной оценки «прошел/не прошел». Вместо этого OpenAI внедрила иерархическую декомпозицию: процесс воспроизведения разбили на 8 316 микро-метрик. Чтобы эти цифры не были взяты с потолка, критерии оценки прорабатывали совместно с авторами оригинальных статей ICML. Такая детализация позволяет провести объективный аудит работы агента на каждом этапе научно-исследовательского цикла: от понимания теоретического вклада до написания функционального кода и успешного проведения расчетов.
Лучший из протестированных агентов, Claude 3.5 Sonnet (New) с использованием инструментов с открытым исходным кодом, набрал в среднем лишь 21,0% за воспроизведение.
Этот результат наглядно демонстрирует потолок возможностей текущих флагманских моделей. Цифра в 21% — это не провал, а реалистичная база для будущего роста, подтверждающая: даже топовые системы спотыкаются, когда требуется предельная точность научного метода. Для анализа этого гигантского массива из 8 316 метрик в OpenAI создали отдельного ИИ-судью на базе языковых моделей, точность которого предварительно подтвердили на собственном контрольном тесте.
Человеческий фактор и путь к автономности
Несмотря на моду на автономных агентов, ИИ пока не в силах тягаться с профильной экспертизой. OpenAI привлекла докторов наук (PhD) в области машинного обучения для решения задач из PaperBench — модели предсказуемо не смогли превзойти этот человеческий уровень. Главными точками трения остаются концептуально сложные задачи: проектирование архитектуры кода с чистого листа и глубокое понимание научной ценности исследования. Нейросети все еще склонны к поверхностному обобщению вместо вдумчивого анализа.
PaperBench дает бизнесу честный инструмент для измерения цикла R&D: теперь понятно, какую долю работы по внедрению новых алгоритмов можно делегировать машине. Текущие данные показывают, что Claude 3.5 Sonnet — отличный помощник, но никак не замена инженеру высокой квалификации. Для руководителей это важный сигнал: инфраструктура для автономных исследований строится прямо сейчас, однако сиюминутная выгода кроется не в полной автоматизации, а в гибридных сценариях, сокращающих время проверки гипотез и снижающих барьер входа для передовых решений.