DeepSeek выпустила две Mixture-of-Experts (MoE) модели — Pro на 1,6 трлн параметров и Flash на 284 млрд, которые окончательно закрывают вопрос «зачем нам бенчмарки, если модель глупеет через десять минут работы». Вместо участия в бессмысленной гонке за сотыми долями в тестах MMLU, разработчики сфокусировались на архитектурной оптимизации под длинные агентские сессии. Обе новинки поддерживают честное окно в 1 млн токенов, целясь в главную проблему автономных систем: деградацию логики при долгом использовании инструментов и переполнение памяти, из-за которого фронтирные модели обычно «зависают» на середине сложной задачи.
Технический прагматизм против «гонки вооружений»
Технический прагматизм DeepSeek впечатляет больше, чем сухие цифры параметров. Pro-версия задействует всего 49 млрд активных параметров, а Flash — 13 млрд. Ключевой прорыв здесь в радикальном снижении «вычислительного налога» за работу с огромными массивами данных.
DeepSeek-V4-Pro требует лишь 27% вычислительных мощностей (FLOPs) на генерацию токена и потребляет всего 10% памяти для KV-кеша по сравнению с традиционными архитектурами.
Этого удалось достичь благодаря гибридному механизму внимания: система чередует сжатое разреженное внимание (CSA), сокращающее последовательности вчетверо, с классическими методами.
Экономика внедрения для бизнеса
Для бизнеса это означает переход от теоретических рассуждений об ИИ к эксплуатации на реальных кодовых базах и юридических архивах без разорения на серверном оборудовании. Использование индексатора FP4 внутри слоев CSA еще сильнее снижает операционные расходы, делая запуск ресурсоемких процессов исследований и разработки экономически оправданным.
Модели требуют всего 2% от объема кеша стандартных решений с Grouped Query Attention. Система способна удерживать долгосрочные цели в автономном режиме сутками. Снижение затрат на «железо» позволяет масштабировать R&D без потери качества генерации.
По сути, это фундамент для систем, способных не терять нити повествования и не требовать бесконечного расширения мощностей дата-центров.