Пост-трейнинг современных моделей — это изнурительная рутина: целые отделы исследователей неделями перебирают пропорции данных и рецепты обучения. Жан Ши, Бинг Хе и их коллеги из Amazon решили, что с этим пора завязывать, и представили A-Evolve — систему, которая запускает цикл дообучения в полностью автономном режиме. Главный вызов здесь — масштаб. Если на моделях в 124 миллиона параметров можно позволить себе бесконечные эксперименты «на сдачу», то на уровне 30B и выше каждая итерация превращается в полноценную битву за ресурсы, где любая ошибка инженера сжигает бюджет впустую. A-Evolve забирает эти высокоуровневые решения у человеческой интуиции и отдает их на откуп инфраструктуре.
От человеческих рецептов к автономному поиску
Система A-Evolve провела четыре раунда автономного пост-трейнинга модели Nemotron 30B на GPU-кластерах. Результат на NVIDIA Nemotron-Reasoning Challenge заставил многих напрячься: 0.86 балла. Это восьмое место из четырех тысяч участников и всего на одну сотую меньше, чем лучший результат, достигнутый людьми в ручном режиме. Но цифры на табло — лишь верхушка айсберга. Намного важнее то, как вела себя система: в процессе прогона цикл обнаружил, что внутренние метрики разработки перестали коррелировать с реальной производительностью в сложных доменах рассуждений.
«Петля оптимизации не просто крутилась в заданных рамках; она поняла, что рамки стали ложными, и сама изменила критерии оценки доказательств».
Вместо того чтобы слепо гнаться за красивыми графиками внутри системы, которые не дают профита в реальности, алгоритм запросил изменение собственной стратегии. По сути, мы видим не просто автоматизацию, а зачатки «самоосознанного» R&D. Для техлидов это сигнал: исследователей пора освобождать от чтения логов и бесконечного подбора параметров. Пусть система сама управляет распределением попыток в рамках фиксированного бюджета на вычислительные мощности.
Масштабируемость и планка рекурсивного улучшения
Развертывание A-Evolve от Amazon — это качественный скачок. До сих пор подобные эксперименты ограничивались моделями уровня GPT-2. Команда же применила ту же инфраструктуру для дообучения гигантов на 120B и 550B параметров. И хотя публичных бенчмарков для сравнения с «человеческим» обучением на 550B пока нет, сам факт успешного завершения таких циклов доказывает: автономная петля замыкается даже на самом краю технологического фронтира. Это то, что авторы называют операционным самосовершенствованием — способностью системы проводить полный цикл дообучения без няньки-инженера.
На практике это означает радикальный пересмотр экономики R&D. Мы впервые видим отчет об автономном пост-трейнинге на масштабах, где цена ошибки на порядок выше, чем в «игрушечных» моделях. Главный риск остается в наличии человеческих ориентиров для контроля галлюцинаций самой системы оптимизации на сверхвысоких весах. Однако главный вывод для бизнеса очевиден: эпоха, когда успех модели зависел от «золотых рук» конкретного инженера-настройщика, подходит к концу. Будущее за системами, которые способны проводить аудит собственной методологии и менять курс в тот момент, когда качество данных упирается в плато.