DeepSeek-V4 LSA: экономия памяти GPU при внедрении LLM

Главная боль при внедрении больших языковых моделей (LLM) — это не столько сами веса модели, сколько KV-кэш. В классической архитектуре необходимость держать в памяти GPU гигантский объем данных для обслуживания длинного контекста превращается в «налог на железо», который растет экспоненциально. Команда исследователей из Tencent, Университета Цинхуа и Гонконгского университета науки и технологий (HKUST) предложила сменить парадигму: вместо того чтобы пассивно хранить всё, нужно проактивно индексировать важное. Метод Lookahead Sparse Attention (LSA) превращает память модели из пыльного склада в эффективную поисковую систему.

Переход к проактивному поиску в памяти

В основе решения, описанного в отчете FlashMemory-DeepSeek-V4, лежит механизм Neural Memory Indexer. Вместо того чтобы заставлять видеокарту «заглатывать» каждый исторический токен, LSA позволяет модели предсказывать, какие именно фрагменты контекста понадобятся для ответа. В активной памяти GPU остаются только критически важные блоки ключей и значений (Key-Value), а остальной массив данных превращается в поисковый индекс. Это выводит систему из ловушки «плотного внимания» (Dense Attention), где каждый токен сканируется вне зависимости от его реальной ценности для текущего запроса.

FlashMemory сокращает физические накладные расходы на KV-кэш более чем на 90% без деградации рассудительных способностей модели.

Разработчики реализовали индексатор на базе архитектуры с двойным кодировщиком, что позволило внедрить стратегию обучения без привязки к основной модели (backbone-free). На практике это означает, что индексатор можно натаскивать отдельно, не загружая в память монструозный DeepSeek-V4. В этой связке LSA работает как интеллектуальный фильтр шума, отсекающий информационный мусор, который обычно мешает моделям концентрироваться на длинных дистанциях.

Бенчмарки и окупаемость железа

Цифры показывают, что подход «меньше значит больше» не бьет по качеству. В тестах LongBench-v2, LongMemEval и RULER система FM-DS-V4 сжала средний объем KV-кэша до 13,5% от базового уровня. Более того, исследователи зафиксировали рост точности на 0,6%. Судя по всему, разреженное внимание (Sparse Attention) при грамотном индексировании работает чище, избавляя модель от галлюцинаций, спровоцированных избыточным шумом в длинном контексте.

FM-DS-V4 ужимает след KV-кэша до 13,5% от классического полнотекстового базиса, сохраняя или даже слегка подтягивая точность ответов.

На масштабе в 500 тысяч токенов экономия памяти превышает 90%. Для бизнеса это означает возможность «скармливать» нейросети целые библиотеки документации или огромные репозитории кода на мощностях, которые раньше считались непригодными для таких задач. Хотя лидер проекта Ян Ван уже покинул Tencent, а сама разработка временно заморожена из-за корпоративных перестановок, опубликованные веса и методология дают четкую дорожную карту.

Парадигма FlashMemory доказывает: гонка вооружений в виде бесконечной закупки GPU — не единственный путь. Замена «тяжелого» кэша нейросетевым индексом позволяет радикально снизить совокупную стоимость владения (TCO) без потери качества логики. Организациям стоит рассматривать LSA как способ отвязать рост памяти от инвестиций в железо, однако нужно быть готовыми к самостоятельной интеграции этих индексаторов в свои стеки вывода, пока решение не упаковали в коробочный продукт.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиСнижение затратИИ в бизнесеПроизводительностьDeepSeek

Экономика памяти: как DeepSeek-V4 LSA снижает затраты на GPU в десять раз

Переход к проактивному поиску в памяти

Бенчмарки и окупаемость железа