Миф о том, что эффективные механизмы внимания (attention) бесполезны в больших масштабах, официально развенчан. Команда ServiceNow под руководством Торстена Шолака представила семейство моделей Apriel-H1, доказав: можно взять тяжеловесную 15B-модель рассуждения и упаковать её в гибридную архитектуру Mamba, увеличив пропускную способность сразу в 2,1 раза. Это не косметическое ускорение, а фундаментальный сдвиг, позволяющий бизнесу сбросить ярмо вычислительных затрат без необходимости вливать бюджеты в обучение моделей на 20 триллионах токенов.

Техническое изящество Apriel-H1 заключается в замене стандартных слоев на 25–40 слоев Mamba (линейные модели пространства состояний, SSM) из 50 общих. Как пояснил Алексей Остапенко и инженеры ServiceNow, успех проекта обеспечил отказ от интуитивно понятных, но неверных методов подготовки данных. Вопреки рыночным ожиданиям, простое подмешивание общих данных для предварительного обучения обрушило качество логических выводов. Выяснилось, что новым слоям Mamba не нужна смесь случайных токенов «с нуля». Единственным рабочим способом сохранить цепочки рассуждений стало использование высококачественных следов (traces) из SFT-датасета материнской модели. Результат налицо: на бенчмарке MATH500 показатели даже выросли — с 0.90 до 0.92.

«Будущее за скоростными специализированными агентами, которые не заставляют бизнес платить за лишние циклы GPU там, где достаточно изящной математики SSM».

Конечно, архитектурный ретрофит — это не магия, а компромисс. Пока флагман Apriel-H1-15b-Thinker-SFT вдвое ускоряет инференс при стабильном качестве, в специфических тестах вроде GSM8k и GPQA наблюдается легкая регрессия. Линейное масштабирование ожидаемо «срезает» некоторые нюансы в краевых сценариях, с которыми справлялись сложные механизмы внимания. Тем не менее, для C-level кейс очевиден:

Сокращение «налога на рассуждения» на 50% без перестройки инфраструктуры. Увеличение пропускной способности в 2,1 раза при сохранении точности. Эффективное использование архитектуры SSM для корпоративных задач.

Эра неповоротливых монолитных трансформеров подходит к концу. Будущее принадлежит гибридным решениям, оптимизирующим каждый ватт и каждый цикл процессора.

Большие языковые моделиПроизводительностьСнижение затратИИ в бизнесеServiceNow