Последние полгода индустрия генеративного ИИ захлестнуло цунами видеомоделей. Компании наперебой демонстрируют ролики, созданные нейросетями, но за красивой картинкой часто скрывается полный абсурд: модели генерируют несуществующие улицы, здания и объекты, которые живут своей причудливой жизнью. Naver, южнокорейский интернет-гигант, известный своим поисковиком и картографическим сервисом, похоже, нашёл способ обуздать эти ИИ-галлюцинации. Их Seoul World Model (SWM) опирается не на выдуманные данные, а на реальную геометрию города, извлечённую из 1,2 миллиона собственных панорам Street View. Теоретически, это должно позволить ИИ генерировать видео, которое не теряет связь с реальностью.
Главное отличие SWM от большинства конкурентов, которые плодят полностью синтетические миры, — опора на реальные данные. Когда пользователь задаёт координаты, желаемое движение камеры и текстовый запрос, модель обращается к собственной базе панорам Naver Map. Используя ближайшие снимки Street View как ориентиры, SWM шаг за шагом выстраивает видео. Исследователи из Naver и Naver Cloud утверждают, что это первый в своём роде подход, привязывающий видеогенерацию к физическому миру. Такой метод обеспечивает лучшую визуальную и временную согласованность, избавляя от сюрпризов, когда в кадре внезапно появляются лишние объекты или дороги ведут в никуда.
Работа с реальными данными, как оказалось, ставит свои задачи. Изображения Street View — это, по сути, застывшие моменты времени. Автомобили и прохожие, попавшие в кадр, не имеют отношения к динамичной сцене, которую модель должна генерировать. Без специальной подготовки SWM рисковала бы просто копировать случайные объекты из эталонных снимков. Корейские инженеры решили эту проблему с помощью «кросс-темпорального сопряжения». Они намеренно обучают модель, сопоставляя снимки из разных временных промежутков. Так SWM учится отличать постоянные элементы городской среды, вроде зданий, от временных, вроде припаркованных машин. В отчётах Naver этот механизм назван самым эффективным компонентом модели. Чтобы сгладить пробелы между снимками, полученными каждые 5-20 метров, модель также использует симуляции для заполнения недостающих углов обзора и визуальных якорей.
Тестирование показало, что SWM превосходит шесть других существующих видеомоделей по качеству изображения и временной согласованности. Но самое интересное — модель продемонстрировала впечатляющую способность к обобщению. Без какого-либо дополнительного обучения SWM успешно сгенерировала видео в незнакомых городах, таких как Пусан (Южная Корея) и Анн-Арбор (США). Это открывает широкие перспективы для индустрий, где требуется точное и реалистичное представление мира: от VR/AR и создания виртуальных миров до сложных симуляций для обучения и тестирования.
Почему это важно: Naver предложил не просто ещё одну генеративную модель, а решение, которое может кардинально изменить подход к созданию реалистичного цифрового контента. Опора на реальные данные вместо полных выдумок — это следующий логичный шаг в развитии технологий, который важен для всех, кто работает с визуализацией, от разработчиков игр до создателей метавселенных.