Aryabhata 2: масштабирование RL для STEM-логики в LLM

Команда PhysicsWallah в лице Ритвика Растоги, Вишала Сингха, Теджаса Чаудхари и Сандипа Вармы представила Aryabhata 2 — модель, которая пытается вылечить главную родовую травму универсальных LLM: фатальную неспособность к точному символьному выводу в физике и математике. Пока GPT-гиганты галлюцинируют формулами, пытаясь угадать следующий токен, Aryabhata 2, построенная на базе GPT-OSS-20B, переходит к верифицируемому решению задач через обучение с подкреплением (RL). Это не просто «умный чат», а попытка создать систему, способную выдержать суровость индийских экзаменов JEE и NEET, где цена ошибки в рассуждениях выше, чем в любом гуманитарном эссе.

Техническая эффективность и лаконичность

Техническая изящность решения кроется в механике: исследователи отказались от раздувания параметров в пользу масштабирования RL-прогонов. Используя внутренние банки вопросов PhysicsWallah, модель тренировали не просто «говорить правильно», а исследовать различные пути решения задач.

Согласно отчету команды, такой подход позволил не только обойти базовую модель на профильных бенчмарках, но и сократить длину вывода на 64%.

В мире, где каждый лишний токен — это деньги и задержка ответа, такая лаконичность рассуждений выглядит как прямой удар по позициям «многословных, но глупых» универсальных моделей.

Модель построена на базе архитектуры 20B параметров. Использование проприетарных датасетов для обучения с подкреплением. Значительное снижение вычислительных затрат при сохранении точности.

Урок для бизнеса и EdTech

Для владельцев EdTech-бизнеса и архитекторов систем здесь скрыт важный урок: «налог на рассуждения» в масштабируемых системах поддержки студентов можно радикально снизить. Вместо того чтобы скармливать облачным гигантам бюджеты за бесконечные цепочки мыслей (Chain-of-Thought), Aryabhata 2 предлагает точную символьную логику в компактном форм-факторе 20B. Это превращает ИИ-тьютора из дорогой игрушки в рентабельный инструмент с предсказуемой экономикой инференса.

Переход от лингвистической интуиции к проверяемым вознаграждениям в символьных доменах — это конец эпохи, когда от ИИ требовалось просто быть похожим на человека. Aryabhata 2 доказывает, что в высокорисковых областях, таких как STEM, специализация и глубокое обучение с подкреплением бьют масштаб и универсальность. Будущее ИИ-интеграции в образовании и инженерии явно за теми, кто променяет творческую генерацию на строгую математическую корректность.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиДообучение моделейСнижение затратМашинное обучениеAryabhata 2

Aryabhata 2: как обучение с подкреплением исправляет логику нейросетей в STEM