Эпоха бездумного сжигания ресурсов в огромных вычислительных кластерах ради того, чтобы «выжать» из языковых моделей зачатки логики, упирается в тупик. Хотя OpenAI с их серией o1 и DeepSeek-R1 доказали, что масштабное обучение с подкреплением (RL) способно разблокировать аналитические способности ИИ, цена вопроса остается заградительной для большинства. Стандартный метод оптимизации GRPO, ставший индустриальным стандартом после успеха DeepSeek, на деле оказался недостаточно эффективным: исследователи из команды Kwaipilot (Kuaishou) обнаружили, что он катастрофически нерационально использует выборки и спотыкается на попытках обучить модель разным дисциплинам одновременно.

Появление метода SRPO (Two-Staged history-Resampling Policy Optimization) — это не просто очередной технический отчет, а сигнал рынку о смене парадигмы. Команда представила модель SRPO-Qwen-32B, которая достигает уровня DeepSeek-R1-Zero, затратив при этом в десять раз меньше шагов обучения. Для любого технического директора это означает радикальный пересмотр совокупной стоимости владения (TCO) при разработке продвинутых рассуждающих систем. Больше нет нужды соревноваться в количестве видеокарт, если можно нацелиться на эффективность алгоритма.

Решение проблемы междисциплинарного столкновения

Главная беда стандартного GRPO — то, что разработчики называют «конфликтом кросс-доменной оптимизации». Когда вы пытаетесь скормить модели смесь из математических задач и программного кода, алгоритм впадает в ступор. Математика требует длинных цепочек рассуждений (Long CoT), в то время как код обычно диктует лаконичность и прямые ответы. В обычном тренировочном цикле эти данные начинают воевать друг с другом: модель выдает посредственный результат, а глубина её аналитических ответов стагнирует.

SRPO стал первым случаем достижения уровня производительности DeepSeek-R1-Zero одновременно в математическом и программном доменах.

Чтобы преодолеть этот тупик, в Kuaishou отказались от метода «грубой силы» и внедрили двухэтапную парадигму обучения. Это позволило модели интегрировать навыки программирования, не теряя процедурного мышления, наработанного на математике. В итоге система «умнеет» сразу в нескольких дисциплинах без привычных компромиссов, когда рост в одном навыке неизбежно ведет к деградации другого.

Эффективность за пределами батча

Помимо работы с данными, инженеры Kwaipilot устранили структурный изъян в расчете вознаграждений. В стандартном GRPO, если разные ответы в одной тренировочной группе получают схожие оценки, показатель «преимущества» (advantage) для градиента стремится к нулю. Вы буквально тратите деньги и время на вычислительные циклы, которые ничему не учат модель. Это финансовая дыра, ведущая к преждевременному плато: модель перестает развиваться, потому что данные для нее недостаточно сложны, а разница в наградах слишком мала.

SRPO исправляет это через механизм ресемплирования истории (history-resampling), заставляя каждый шаг обучения работать на результат. Используя ту же базу, что и DeepSeek (Qwen2.5-32B), метод SRPO показал 50 баллов в бенчмарке AIME24 и 41,6 в LiveCodeBench. Эти цифры обходят показатели DeepSeek-R1-Zero-32B, при этом ресурсов на обучение ушло на 90% меньше. Подобная эффективность фактически демократизирует создание Reasoning-моделей. То, что раньше было элитарным клубом техгигантов с неограниченными бюджетами, теперь становится доступным для среднего технологического бизнеса.

Результат Kuaishou доказывает: логические способности модели — это вопрос архитектуры обучения, а не только размера бюджета на закупку GPU. Для бизнеса это означает, что стоимость разработки специализированных, доменно-ориентированных интеллектуальных систем вот-вот упадет на порядок. Фокус внимания смещается с вопроса «у кого больше серверов» на вопрос «у кого эффективнее пайплайн».

Большие языковые моделиСнижение затратПроизводительностьKuaishou