Научное машинное обучение сегодня держится на честном слове и недосказанности. Исследователи Атарва Ханс и Илиас Билионис из Университета Пердью констатируют очевидное: традиционное рецензирование буксует там, где начинаются вычисления. Можно идеально выверить уравнения, но результат всё равно рассыплется из-за стохастического обучения или неуказанных гиперпараметров. Когда авторы статьи заявляют, что их среднеквадратическая ошибка (RMSE) упала ниже 5%, проверить это без полной кодовой базы практически невозможно. Мы десятилетиями принимали на веру «графики успеха», но теперь правила игры меняются.
От промптов к доказательному кодингу
Обычные большие языковые модели бесполезны для верификации науки: они слишком склонны поддакивать авторам или выдумывать подтверждения. Система Paper-replication, предложенная Хансом и Билионисом, работает иначе. Это специализированный агент, который превращает каждое утверждение статьи в целевую метрику. Вместо того чтобы просто «болтать» в контексте истории чата, агент реконструирует методы, запускает вычислительные эксперименты и привязывает каждый результат к конкретному источнику данных. Это жесткий алгоритмический надзор: отчет не будет принят, пока система не пройдет через сито валидационных проверок.
В Paper-replication статус выполнения задачи зависит не от финального сообщения агента, а от наличия проверяемых доказательств в рабочей среде.
Такая архитектура превращает нейросеть из секретаря в аудитора. В ходе тестов на четырех сложных статьях по научному ML агенты успешно прошли через «ворота» валидации, сопоставив 158 целевых показателей с реальными данными. Главная фишка здесь — итеративный цикл верификации. Если полученные цифры не совпадают с оригиналом, агент обязан перезапускать промежуточные этапы вычислений, пока не получит подтвержденный результат. Для техлида или рецензента это означает прямую связь между бумажным обещанием и живым кодом.
Переменная природа вычислительной истины
Даже при строгом регламенте путь к воспроизведению редко бывает линейным. Исследование показало, что повторные запуски для одной и той же статьи могут различаться в численной точности и времени исполнения. Это подчеркивает фундаментальную проблему машинного обучения: одну и ту же методику можно реализовать десятком способов, и не все они дадут идентичные цифры. Система оказалась достаточно гибкой, чтобы признавать ошибки и итерировать до тех пор, пока не будет найдено валидное доказательство, что само по себе ценнее любого «гладкого» отчета.
Мы наблюдаем рождение экономики доверия в науке. Для индустрии это означает автоматизацию аудита вычислительных претензий, что позволит отсеивать сомнительные публикации еще на этапе препринта. Однако агент — не демиург. Он по-прежнему зажат в тиски качества исходных материалов: если в статье нет ссылок на данные или перепутаны формулы, магии не случится. Для руководителей R&D-подразделений это сигнал: пора внедрять подобные инструменты не для замены исследователей, а как комплаенс-фильтр, гарантирующий, что ваши внутренние разработки воспроизводимы, а не просто эффектно упакованы в презентацию.