DeepSeek-V4: архитектура MoE и контекст в 1 млн токенов

DeepSeek выпустила две Mixture-of-Experts (MoE) модели — Pro на 1,6 трлн параметров и Flash на 284 млрд, которые окончательно закрывают вопрос «зачем нам бенчмарки, если модель глупеет через десять минут работы». Вместо участия в бессмысленной гонке за сотыми долями в тестах MMLU, разработчики сфокусировались на архитектурной оптимизации под длинные агентские сессии. Обе новинки поддерживают честное окно в 1 млн токенов, целясь в главную проблему автономных систем: деградацию логики при долгом использовании инструментов и переполнение памяти, из-за которого фронтирные модели обычно «зависают» на середине сложной задачи.

Технический прагматизм против «гонки вооружений»

Технический прагматизм DeepSeek впечатляет больше, чем сухие цифры параметров. Pro-версия задействует всего 49 млрд активных параметров, а Flash — 13 млрд. Ключевой прорыв здесь в радикальном снижении «вычислительного налога» за работу с огромными массивами данных.

DeepSeek-V4-Pro требует лишь 27% вычислительных мощностей (FLOPs) на генерацию токена и потребляет всего 10% памяти для KV-кеша по сравнению с традиционными архитектурами.

Этого удалось достичь благодаря гибридному механизму внимания: система чередует сжатое разреженное внимание (CSA), сокращающее последовательности вчетверо, с классическими методами.

Экономика внедрения для бизнеса

Для бизнеса это означает переход от теоретических рассуждений об ИИ к эксплуатации на реальных кодовых базах и юридических архивах без разорения на серверном оборудовании. Использование индексатора FP4 внутри слоев CSA еще сильнее снижает операционные расходы, делая запуск ресурсоемких процессов исследований и разработки экономически оправданным.

Модели требуют всего 2% от объема кеша стандартных решений с Grouped Query Attention. Система способна удерживать долгосрочные цели в автономном режиме сутками. Снижение затрат на «железо» позволяет масштабировать R&D без потери качества генерации.

По сути, это фундамент для систем, способных не терять нити повествования и не требовать бесконечного расширения мощностей дата-центров.

Источник: HuggingFace Blog →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиИИ-агентыСнижение затратПроизводительностьDeepSeek

DeepSeek-V4: 1 млн токенов контекста и радикальная экономия вычислительных мощностей