Google DiffusionGemma: 4-кратное ускорение локального ИИ

Google представила DiffusionGemma — экспериментальную модель на 26 млрд параметров с архитектурой Mixture of Experts (MoE), которая радикально меняет механику генерации текста. Пока классические языковые модели (LLM) «цедят» текст по одному токену за раз, DiffusionGemma использует диффузионную голову для одновременной штамповки блоков по 256 токенов. Фактически архитектурный сдвиг превращает модель из медленной пишущей машинки в печатный станок: узкое место в декодировании смещается с пропускной способности памяти на чистые вычисления.

Производительность впечатляет именно в локальных средах с низкой параллельностью, где мощное железо обычно простаивает в ожидании следующего слова. По данным тестов, модель выдает четырехкратный прирост скорости на GPU, достигая 1000 токенов в секунду на NVIDIA H100 и свыше 700 — на пользовательской RTX 5090. При общем весе в 26B, архитектура MoE активирует лишь 3,8 млрд параметров при инференсе. В квантованном виде это позволяет модели комфортно занять свои 18 ГБ видеопамяти на топовых домашних картах. На наш взгляд, это идеальный инструмент для сценариев автодополнения кода и быстрого редактирования, где моментальный отклик важнее, чем литературная глубина Gemma 4.

Технологические особенности

Помимо «голых» цифр, двунаправленное внимание (bi-directional attention) позволяет каждому токену видеть все остальные одновременно. Это открывает путь к интеллектуальному самоисправлению и работе с нелинейными структурами, которые ставят в тупик традиционные модели.

Обработка последовательностей: DiffusionGemma можно обучить решать судоку — задачу, требующую понимания будущих значений. Эффективность архитектуры: использование MoE позволяет снизить нагрузку на систему без потери контекста. Ориентация на Edge Computing: четкий разворот в сторону локальных вычислений на устройствах пользователя.

Настоящая ценность здесь — в честной утилизации локального железа. Обрабатывая 256 токенов параллельно, вы наконец-то загружаете вычислительную мощь GPU на полную, вместо того чтобы ждать по одному «удару клавиши». Для разработчиков, создающих чувствительные к задержкам приложения, где облачный батчинг неприменим, DiffusionGemma становится стратегическим активом. Ожидайте, что это ускорит появление специализированных локальных агентов, которые осознанно жертвуют точностью в пользу мгновенной реакции, необходимой в профессиональных интерфейсах.

Источник: Google DeepMind News →

Оцените материал

★ ★ ★ ★ ★

Локальный ИИПроизводительностьБольшие языковые моделиNVIDIAGoogle DeepMind

Google DiffusionGemma: переход от «пишущей машинки» к печатному станку в ИИ