Модель SU-01: победа масштабирования над символьным ИИ в математике

Гонка за созданием «цифровых Эйнштейнов» вошла в фазу прагматичного минимализма. Исследовательская группа из Shanghai AI Laboratory и Университета Цинхуа представила модель SU-01 (архитектура 30B-A3B), которая берет золото на международных олимпиадах по математике (IMO) и физике (IPhO) без привычных архитектурных костылей. Вместо того чтобы городить огород из символьных движков и узкоспециализированных модулей, Яфу Ли, Ю Чэн и их коллеги сделали ставку на метод Unified Scaling — чистую стратегию масштабирования, которая отправляет сложные нейросимвольные гибриды на свалку истории.

Технически SU-01 — это компактный трехэтапный конвейер. Сначала идет тонкая настройка поведения (SFT) на выборке из 340 тысяч траекторий, затем — двухэтапное обучение с подкреплением (RL) и финальный аккорд в виде масштабирования вычислений на этапе вывода (Test-Time Scaling). Модель способна удерживать нить рассуждений на дистанции свыше 100 000 токенов. Это позволяет ей щелкать задачи уровня IMO 2025 и IPhO 2024, для которых раньше требовался целый зоопарк из нейросетей и внешних алгоритмов поиска. На наш взгляд, это важный прецедент: успех SU-01 доказывает, что «жесткие» навыки доказательства и самопроверки — это вопрос вычислительной дисциплины, а не хитроумного кода.

На бенчмарке IMO-ProofBench модель в связке с масштабированием времени вывода выдала результат в 80,5%. Для контекста: это оставляет позади Gemini-1.5-Pro и актуальные итерации GPT-4, подтверждая, что законы масштабирования (Scaling Laws) работают эффективнее, чем попытки имитировать человеческую логику через программные надстройки. В отличие от той же AlphaGeometry, запертой в рамках геометрических задач, SU-01 демонстрирует уверенное обобщение: физика, математика и смежные дисциплины обрабатываются единым методом.

Для бизнеса и R&D-подразделений в финтехе или инженерии этот кейс — прямой сигнал к упрощению стека. Вместо инвестиций в разработку кастомных «умных» модулей под каждую задачу, фокус смещается на дизайн функций вознаграждения (reward design) и оптимизацию вычислений при инференсе. Мы видим, как эрозия маржи «оберток» добирается и до наукоемкого сегмента: универсальные модели-рассуждатели становятся экспертами за счет грубой силы и правильной методологии. Главный вопрос лишь в том, где упрется в потолок эта вычислительная экспансия, но пока граница между чистым расчетом и «пониманием» физических процессов выглядит как никогда размытой.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиМашинное обучениеИИ в бизнесеSU-01

Эффект SU-01: как законы масштабирования заменили логические модули в ИИ