Гонка за ИИ на устройствах больше не про количество параметров — она про то, как запустить модель и не превратить смартфон в раскаленный кирпич с севшей батареей. Пока Gemini Nano и Gemma скромно пересказывают уведомления и правят опечатки, классический авторегрессионный метод генерации (один токен за раз) остается узким местом. Как отмечают Иден Коэн и Мишель Раманович из Google Platforms and Devices, пошаговый вывод не просто медленный — он неэффективно использует железо и буквально «съедает» пропускную способность памяти. Чтобы вырваться из этого круга, Google внедрила Multi-Token Prediction (MTP) в уже существующие, «замороженные» модели, обеспечив прирост скорости без типичных затрат на дополнительные мощности.

Налог на драфт-модели отменяется

Стандартное спекулятивное декодирование обычно требует «драфтера» — маленькую вспомогательную модель, которая угадывает последовательность токенов, а основная модель их проверяет. На смартфоне эта схема выглядит как архитектурный костыль: отдельный драфтер крадет дефицитную оперативную память и лишен семантического контекста основной модели. Решение Google элегантнее — они «прикрутили» голову MTP к замороженным весам Gemini Nano v3. Эта надстройка использует скрытые состояния, которые основная модель уже вычислила, предсказывая несколько будущих токенов разом. Это устраняет «двойной налог» на динамическую память, избавляя систему от необходимости хранить второй кэш ключей и значений (KV cache).

Используя этот метод для генерации черновиков, Google превратила роскошь, доступную раньше только на этапе обучения, в инструмент эффективности после развертывания. Ядро Gemini Nano v3 остается нетронутым, а значит, логика и настройки безопасности (guardrails) не плывут. Для бизнеса это мастер-класс по вертикальной интеграции: контролируя и софт, и «железо» Pixel 9 и 10, Google внедряет системные ускорения, которые превращают дерганых чат-ботов в мгновенно реагирующих агентов.

Снижение TCO на периферии

Переход к «замороженному» MTP снимает головную боль у разработчиков, которым раньше приходилось дообучать отдельные драфт-модели под каждую специфическую задачу. Данные Google Research подтверждают: поскольку неверные прогнозы просто отбрасываются на этапе верификации, финальный результат остается бит-в-бит идентичным оригинальной модели. Это гарантирует полную обратную совместимость при сокращении задержек на 20–40%. Исключая лишние звенья, Google снижает стоимость владения (TCO) локальным ИИ, позволяя запускать тяжелые функции без передачи данных в облако.

«Мы убрали главный барьер: высокую скорость работы локального ИИ теперь можно получить без дообучения тяжелых вспомогательных моделей».

Настоящая ценность здесь в переходе от игрушечных чат-ботов к функциональным автономным агентам. Скорость — единственная метрика, которая имеет значение для удержания пользователя в мобильной среде. Google использует архитектурные хитрости, чтобы обойти физические лимиты мобильной оперативки, создавая ощутимый ров между Pixel и конкурентами, которые все еще полагаются на прожорливое спекулятивное декодирование. Способность «навесить» производительность на старые модели доказывает, что софтверная оптимизация продлевает жизненный цикл железа. Эффективность на периферии становится ключевым конкурентным преимуществом, позволяя внедрять приватный ИИ без бесконечных циклов переобучения и затрат на серверную инфраструктуру.

Локальный ИИПроизводительностьБольшие языковые моделиСнижение затратGoogle DeepMind