Falcon Mamba: конец монополии трансформеров в архитектуре LLM

Доминирование трансформерной архитектуры, державшееся на костылях механизма внимания (attention), наконец-то уперлось в стену. Пока индустрия послушно наращивала вычислительные мощности, Технологический инновационный институт (TII) в Абу-Даби представил Falcon Mamba — модель на 7 млрд параметров, которая де-факто обнуляет монополию трансформеров. Это первая в мире «чистая» модель на архитектуре State Space Language Model (SSLM), способная тягаться с Llama 3 и Mistral, не используя при этом ни единого слоя внимания.

Решение проблемы масштабируемости последовательностей

Проблема классических моделей в том, что стоимость вычислений и аппетиты памяти растут квадратично вместе с длиной контекста. Исследователи TII во главе с Цзинвэй Цзо и Максимом Великановым реализовали оригинальную архитектуру Mamba с добавлением слоев RMS-нормализации для стабильного обучения. Итог: Falcon Mamba переваривает последовательности любой длины без раздувания памяти. В то время как трансформеры требуют кластеров, эта модель спокойно умещается на одной видеокарте A10 с 24 ГБ видеопамяти.

Falcon Mamba обрабатывает последовательности произвольной длины без экспоненциального роста затрат на память.

Переход к селективным пространствам состояний (Selective State Spaces) дает то, чего так не хватало бизнесу: константное время генерации токена. Если в обычном трансформере каждый последующий токен дается медленнее предыдущего из-за тяжелеющего контекста, то Falcon Mamba сохраняет линейную сложность вычислений. Для систем реального времени и обработки гигантских массивов документов это означает предсказуемую производительность и радикальное снижение совокупной стоимости владения (TCO).

Бенчмарк эффективности

Цифры подтверждают: перед нами не лабораторный курьер, а полноценный инструмент. В тестах IFEval, BBH и MMLU-PRO модель показала средний результат 15.04, не уступая передовым SOTA-решениям. Подобного паритета удалось достичь благодаря масштабному обучению на 5500 млрд токенов данных. Основу датасета составил проверенный RefinedWeb, дополненный качественным кодом и технической документацией.

Модель конкурентоспособна по отношению к существующим SOTA-решениям без потери производительности.

Для технических директоров и владельцев продуктов Falcon Mamba — это сигнал к пересмотру инвестиционных планов в классическую трансформерную инфраструктуру. Мы видим смену парадигмы: хранение тяжелого KV-кэша больше не является обязательным входным билетом в мир высокопроизводительного ИИ. Специалисты TII доказали, что за пределами «внимания» есть жизнь, и она обходится бизнесу значительно дешевле.

Falcon Mamba помещается на одну GPU A10 24GB при работе с последовательностями практически любой длины.

Источник: HuggingFace Blog →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиПроизводительностьСнижение затратОпенсорс ИИFalcon

Falcon Mamba: как архитектура SSLM ломает монополию трансформеров

Решение проблемы масштабируемости последовательностей

Бенчмарк эффективности