Пока массовый зритель завороженно разглядывает ворс на котах в роликах Sora, серьезный капитал перемещается в сторону физической адекватности. Стартап Odyssey представил Odyssey-2 Max — и это не очередная игрушка для соцсетей, а заявка на доминирование в сегменте World Models. Основное различие здесь в архитектуре: если Sora и ее аналоги полагаются на диффузию пикселей, то команда Оливера Камерона делает ставку на авторегрессию. По сути, это большая языковая модель, которая вместо текста предсказывает следующее состояние физического мира.
Разрыв между генерацией видео и моделированием реальности фундаментален. Обычные нейросети рисуют картинку целиком, часто забывая о причинно-следственных связях: у них люди проходят сквозь стены, а объекты аннигилируют в пространстве. Odyssey-2 Max работает последовательно и в реальном времени, реагируя на команды пользователя. Это превращает модель в подобие нейросетевого игрового движка. Главным KPI здесь выступает не эстетика кадра, а метрика VBench physics, которая в новой версии подскочила с 49.7 до 58.5. Для индустрии это важнее любого фотореализма — это гарантия того, что подброшенное яблоко упадет согласно Ньютону, а не улетит в стратосферу из-за ошибки в весах.
Бизнес-логика R&D в этом секторе прагматична: для обучения беспилотников и робототехники «красивая картинка» — это вторичный шум. Куда важнее соблюдение инерции и гравитации. По оценке разработчиков, мы сейчас находимся на этапе «GPT-2 для физики»: модель уже понимает устройство мира, но только учится применять эти знания в вождении или складской логистике. Для компаний это шанс получить дешевые и безопасные цифровые «песочницы». Вместо того чтобы разбивать дорогое железо в реальных тестах, агентов можно натаскивать в симуляциях, которые работают по законам природы, а не по законам видеомонтажа. На наш взгляд, именно здесь, в создании «физического интеллекта», и зарыта реальная капитализация, пока любители спецэффектов продолжают таргетировать креативные агентства.