Google TurboQuant: экстремальное сжатие памяти для LLM

Google Research в лице Амира Зандие и Вахаба Миррокни представила TurboQuant — набор алгоритмов экстремального квантования, который бьет в самое больное место современных LLM: дефицит видеопамяти. Пока рынок гонится за терафлопсами, инженеры Google сосредоточились на KV-кэше — той самой «цифровой шпаргалке», которая съедает основную долю VRAM при работе с длинными контекстными окнами. Без эффективного сжатия этих данных масштабирование сложных ИИ-систем превращается в бесконечное сжигание бюджетов на закупку новых H100.

Технологический прорыв: геометрия против веса

Технология опирается на два метода: PolarQuant и Quantized Johnson-Lindenstrauss (QJL). Первый использует случайное вращение векторов данных для упрощения их геометрии, а второй довершает сжатие высокой размерности. В отличие от традиционных подходов, требующих выделения дополнительной памяти под константы точности, TurboQuant стремится полностью устранить эти «скрытые издержки».

По сути, Google предлагает математически обоснованный способ радикального уменьшения весов без потери точности, что для технического директора означает возможность запустить тяжелую модель на железе классом ниже.

Что это дает бизнесу

Для владельцев инфраструктуры это не просто очередное обновление, а прямой рычаг влияния на юнит-экономику инференса. Основные преимущества:

Радикальное увеличение длины контекста в рамках текущего бюджета на оборудование. Кратное снижение требований к памяти при выполнении стандартных задач. Оптимизация операционных расходов на поддержание работы нейросетей.

В эпоху, когда стоимость токена диктует выживание продукта, такие алгоритмы становятся фундаментом для перевода AI-решений из категории «дорогой игрушки» в массовый корпоративный инструмент с вменяемым ROI.

Источник: Google Research Blog →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиПроизводительностьСнижение затратGoogle

Google TurboQuant: как снизить расходы на видеопамять для LLM в разы