Исследователи выкатили LPM 1.0 — модель, которая умеет оживлять одну фотографию, заставляя ее говорить. Главный фокус — реалистичная синхронизация губ, мимика и плавные эмоции в реальном времени. Магия работает до 45 минут, что по меркам генеративных штуковин — целый сериал.
LPM 1.0 не только болтает под диктовку голосовых AI вроде ChatGPT, но и умеет принимать обличья: от фотореалистичных лиц до аниме и 3D-персонажей. Система различает три состояния: слушание (кивки, реакции), говорение (движение губ в такт аудио) и паузы (естественность, знаете ли). Технология подтягивает детали с фото под разными углами, чтобы не пришлось выдумывать их с нуля. Называется это, не поверите, "мультигранулярное условие идентичности".
Пока это, конечно, игрушка для лаборатории, на полку к пользователям ее пока не планируют. Разработчики честно признают, что артефакты есть, а качество еще далеко от голливудских стандартов. Но сама возможность «на лету» генерировать многоминутные ролики — это вам уже не мемчики клепать. Тут и виртуальные ассистенты, и персонализированные видеозвонки — весь спектр.
Почему это важно: технология обещает радикально удешевить и ускорить создание видео для маркетинга, обучения и поддержки. Представьте: собственный аватар, говорящий нужные вещи в реальном времени. Впечатляет? Возможно. Но вместе с этим приходит и вечный спутник AI-прогресса — необходимость серьезнее разбираться с дипфейками и верификацией контента. Иначе скоро будем верить всему, что видим.