Команда PhysicsWallah в лице Ритвика Растоги, Вишала Сингха, Теджаса Чаудхари и Сандипа Вармы представила Aryabhata 2 — модель, которая пытается вылечить главную родовую травму универсальных LLM: фатальную неспособность к точному символьному выводу в физике и математике. Пока GPT-гиганты галлюцинируют формулами, пытаясь угадать следующий токен, Aryabhata 2, построенная на базе GPT-OSS-20B, переходит к верифицируемому решению задач через обучение с подкреплением (RL). Это не просто «умный чат», а попытка создать систему, способную выдержать суровость индийских экзаменов JEE и NEET, где цена ошибки в рассуждениях выше, чем в любом гуманитарном эссе.
Техническая эффективность и лаконичность
Техническая изящность решения кроется в механике: исследователи отказались от раздувания параметров в пользу масштабирования RL-прогонов. Используя внутренние банки вопросов PhysicsWallah, модель тренировали не просто «говорить правильно», а исследовать различные пути решения задач.
Согласно отчету команды, такой подход позволил не только обойти базовую модель на профильных бенчмарках, но и сократить длину вывода на 64%.
В мире, где каждый лишний токен — это деньги и задержка ответа, такая лаконичность рассуждений выглядит как прямой удар по позициям «многословных, но глупых» универсальных моделей.
Модель построена на базе архитектуры 20B параметров. Использование проприетарных датасетов для обучения с подкреплением. Значительное снижение вычислительных затрат при сохранении точности.
Урок для бизнеса и EdTech
Для владельцев EdTech-бизнеса и архитекторов систем здесь скрыт важный урок: «налог на рассуждения» в масштабируемых системах поддержки студентов можно радикально снизить. Вместо того чтобы скармливать облачным гигантам бюджеты за бесконечные цепочки мыслей (Chain-of-Thought), Aryabhata 2 предлагает точную символьную логику в компактном форм-факторе 20B. Это превращает ИИ-тьютора из дорогой игрушки в рентабельный инструмент с предсказуемой экономикой инференса.
Переход от лингвистической интуиции к проверяемым вознаграждениям в символьных доменах — это конец эпохи, когда от ИИ требовалось просто быть похожим на человека. Aryabhata 2 доказывает, что в высокорисковых областях, таких как STEM, специализация и глубокое обучение с подкреплением бьют масштаб и универсальность. Будущее ИИ-интеграции в образовании и инженерии явно за теми, кто променяет творческую генерацию на строгую математическую корректность.