Google представила DiffusionGemma — экспериментальную модель с открытыми весами, которая отказывается от индустриального стандарта последовательной генерации токенов в пользу диффузионного процесса. Пока классические LLM мучительно выдавливают из себя по одному слову за раз, DiffusionGemma берет блок из 256 случайных «заполнителей» и за несколько проходов превращает этот цифровой шум в читаемый текст. Технология, заимствованная у генераторов изображений, позволяет обрабатывать весь блок параллельно. Как поясняют в Nvidia, отвечавшей за оптимизацию, такой подход решает проблему простоя вычислительных ядер GPU, которые в традиционных сценариях вынуждены ждать данных из памяти.
Экономика инференса здесь завязана на эффективности железа. В однопользовательском режиме на выделенных видеокартах DiffusionGemma работает до четырех раз быстрее сопоставимых авторегрессионных моделей. По данным Google, скорость достигает 700 токенов в секунду на GeForce RTX 5090 и до 1000 — на H100. Однако этот праздник производительности ограничен: в облачных средах, где очередь из запросов и так под завязку нагружает чипы, диффузионный метод может, напротив, увеличить расходы. Архитектура Mixture-of-Experts (MoE) на 26 млрд параметров активирует лишь 3,8 млрд на каждом шаге, что позволяет втиснуть модель в 18 ГБ видеопамяти при квантовании.
Главное в архитектуре
Бизнесу стоит рассматривать DiffusionGemma как узкоспециализированный инструмент, а не замену чат-ботам. В Google прямо признают, что пожертвовали качеством текста ради скорости и нелинейных возможностей.
Модель видит весь блок из 256 токенов целиком, что идеально для задач in-filling. Высокая эффективность в автоматической правке абзацев и дописывании программного кода. Понимание контекста работает в обе стороны: модель учитывает и то, что стоит «до», и то, что идет «после» пропуска.
DiffusionGemma выглядит как лаборатория по оптимизации стоимости генерации в локальных корпоративных контурах. Google переносит «бутылочное горлышко» инференса с пропускной способности памяти на чистую вычислительную мощность. Это не попытка имитировать человеческое письмо, а прагматичный сдвиг в сторону архитектур, способных выжимать максимум из дорогостоящего железа в специфических задачах вроде редактирования структурированных данных.