Llama 4 Maverick и Scout: революция MoE от Meta для бизнеса

Meta перенесла поле боя из плоскости «у кого больше параметров» в плоскость жесткой математики инференса. С релизом Llama 4 Maverick и Scout Марк Цукерберг окончательно похоронил монолитные архитектуры прошлого, выкатив решение на базе архитектуры смеси экспертов (Mixture-of-Experts, MoE). Обе модели оперируют всего 17 млрд активных параметров. Это не просто техническое обновление, а прямой удар по бизнес-моделям OpenAI и Anthropic, которые слишком долго оправдывали премиальные ценники на свои API «непрозрачностью» и сложностью закрытых систем. Meta наглядно показывает: размер больше не имеет значения, если вы не умеете эффективно распоряжаться вычислительными ресурсами.

Архитектура экономического подрыва

Согласно отчету Hugging Face, Maverick — это гигант на 400 млрд параметров со 128 «экспертами», в то время как Scout упаковывает свои 109 млрд параметров в более стройную структуру из 16 экспертов. Фокус в том, что при любом запросе обе модели активируют те самые 17 млрд параметров. Для бизнеса это означает возможность развернуть интеллект уровня флагманских моделей, оплачивая при этом «железный налог» как за систему среднего класса. Для технического директора (CTO) это снимает вечную дилемму между глубиной аналитики для R&D и скоростью операционной автоматизации: теперь одно не мешает другому.

Обе модели используют архитектуру Mixture of Experts (MoE) с 17 млрд активных параметров, что радикально меняет правила игры в индустрии.

Как следует из данных Hugging Face, модели используют авторегрессионную MoE-архитектуру с технологией early fusion для нативной мультимодальности. Это позволяет системе бесшовно обрабатывать текст и изображения. Meta обучила этих зверей на колоссальном массиве в 40 трлн токенов на 200 языках, обеспечив качественную поддержку 12 ключевых регионов, включая арабский и испанский. Это не исследовательский проект для демонстрации мускулов, а готовый чертеж для интеграции тяжелого ИИ в корпоративные дата-центры здесь и сейчас.

Битва за контекст и локальное развертывание

Пропасть между проприетарными API и открытыми моделями (open-weights) фактически исчезла. Hugging Face уже обеспечила поддержку через библиотеку transformers v4.51.0 и Text Generation Inference (TGI), так что цикл внедрения при локальном развертывании теперь стремится к нулю.

Llama 4 Scout спроектирована для максимальной доступности: она помещается на один серверный GPU благодаря квантованию 4-бит или 8-бит «на лету».

Снижая барьер входа через поддержку форматов FP8 для Maverick и мгновенное квантование для Scout, Meta бьет в самое больное место индустрии — стоимость владения. В компании понимают, что узким горлышком для бизнеса является не столько «IQ» модели, сколько сопротивление при передаче, хранении и обслуживании весов в промышленном масштабе.

Meta превращает высокоуровневый ИИ в общедоступный ресурс, раздавая веса моделей, которые работают на бюджете 17-миллиардников. Ценность закрытых API теперь сжимается до редких нишевых кейсов, которые невозможно дообучить на открытых весах. Если ваша организация всё еще платит огромные чеки за «закрытый» интеллект, Maverick и Scout — отличный повод осознать, что ваше главное конкурентное преимущество теперь доступно для скачивания по прямой ссылке.

Источник: HuggingFace Blog →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиИИ в бизнесеОпенсорс ИИСнижение затратMeta AI

Llama 4 Maverick и Scout: Как Meta обнулила ценность закрытых ИИ-моделей

Архитектура экономического подрыва

Битва за контекст и локальное развертывание