Традиционные диффузионные модели видео уперлись в стену: чем длиннее ролик, тем быстрее взрываются вычислительные затраты. Исследователи из Adobe Research совместно со специалистами из Стэнфорда и Принстона в своей работе «Long-Context State-Space Video World Models» прямо указывают на виновника — квадратичную сложность стандартного механизма внимания (attention). Поскольку ресурсы, необходимые для слоев attention, растут в геометрической прогрессии вместе с длиной последовательности, современные модели фактически теряют когерентность и забывают начало видео уже через несколько секунд. Для ИИ-агентов это приговор: они не могут ни планировать действия, ни сохранять логику в динамичной среде, где важна долгосрочная связность.

Чтобы прекратить этот когнитивный распад, Adobe внедряет архитектуру Long-Context State-Space Video World Model (LSSVWM). Вместо того чтобы тратить бюджет на бесконечное расширение контекстных окон Трансформеров, разработчики перешли на модели в пространстве состояний (State-Space Models, SSM). Техническое ядро системы — схема блочного сканирования SSM. Она жертвует избыточной пространственной точностью ради феноменальной временной памяти. Модель обрабатывает видео блоками, сохраняя сжатое «состояние» между ними, что позволяет удерживать контекст без экспоненциального роста нагрузки на аппаратное обеспечение.

Технологический симбиоз

Чтобы картинка не превращалась в визуальный шум, команда интегрировала плотное локальное внимание (dense local attention). Это гарантирует, что мелкие детали остаются четкими внутри блоков, пока SSM удерживает общую канву повествования.

На наш взгляд, это важный сдвиг от грубой силы и гигантомании весов к хирургически точным архитектурам. Вместо того чтобы пытаться запихнуть в память всё, Adobe учит нейросеть эффективно резюмировать прошлое.

Что это значит для бизнеса

Для индустрии продакшена это означает конец эпохи «склеротичного» ИИ. Мы стоим на пороге появления видеоагентов, которые способны помнить, что произошло в первом кадре, создавая десятую минуту ролика. Главные преимущества новой архитектуры:

Линейная масштабируемость: затраты на вычисления растут пропорционально длине видео, а не квадратично. Глубокая связность: сохранение логики повествования и физики объектов на длинных дистанциях. Эффективный инференс: возможность запускать сложные модели на менее мощном оборудовании.

Судя по всему, SSM быстро станет новым стандартом для профессионального софта, вытесняя неповоротливые решения на базе чистого attention. Adobe явно делает ставку на эффективность инференса, понимая, что в реальном бизнесе побеждает не тот, у кого самое большое окно, а тот, кто умеет вовремя извлекать нужные данные из памяти.

Генеративный ИИКомпьютерное зрениеНейросетиПроизводительностьAdobe