Видеомодели вроде Sora, Veo и Cosmos всё чаще пытаются продать нам как универсальные «симуляторы мира» для робототехники. Однако за глянцевой картинкой часто скрывается полнейшее отсутствие логики. Согласно исследованию Парсы Эсмати, Сомджита Ната и их коллег из Бристольского университета, Mila и Microsoft Research, эти системы пасуют перед элементарной механикой — постоянным ускорением свободного падения или сохранением импульса — как только задача выходит за рамки зазубренных паттернов из обучающей выборки. Пора признать: модели скорее мимикрируют под ближайшую статистическую правдоподобность, чем осознают причинно-следственные связи.
Анатомия цифровой интуиции
Чтобы выяснить, есть ли у диффузионных трансформеров «физическая интуиция», исследователи пошли на хитрость. Они инвертировали процесс детерминированного сэмплинга, прогнав траектории из чистых латентов видео обратно в шум. Это позволило заглянуть «под капот» — в карты внимания и внутренние состояния моделей.
Выяснилось, что физическая достоверность линейно декодируется из этих состояний с точностью 81,27%. Любопытно, что этот сигнал полностью отсутствует в исходных данных VAE и рождается именно внутри процесса обесшумливания (denoising), обходя по качеству специализированные системы обучения представлений вроде V-JEPA или VideoMAE.
Выводы для индустрии
Для архитекторов ИИ-систем и R&D-лидов это плохая и хорошая новость одновременно:
Хорошая: модели действительно усваивают физические структуры как побочный продукт генерации. Плохая: между этим скрытым знанием и финальным визуальным выходом зияет пропасть. На текущем этапе развития использовать такие архитектуры для обучения автономных систем без риска фатальных ошибок в логике среды — затея сомнительная.
Задача следующего поколения разработчиков не в том, чтобы сделать картинку еще четче, а в том, чтобы заставить внутреннее понимание физики диктовать правила игры на экране, а не просто существовать «для справки».