Google DeepMind в очередной раз переставляет ворота в игре за искусственный интеллект. Пока рынок завороженно наблюдает за тем, как нейросети рисуют кинематографичные ролики, команда Демиса Хассабиса в релизе Genie 3 смещает фокус на «модели мира» (world models). Это фундаментальный сдвиг: вместо предсказания следующего пикселя в статичном клипе система учится симулировать физические последствия действий. На выходе мы получаем не просто видео в 720p, а интерактивную среду, работающую на скорости 24 кадра в секунду. Это не развлечение, а фундамент для экономики автономных агентов.

Экономика синтетических сред

Для бизнеса Genie 3 — это прежде всего радикальное удешевление права на ошибку. Традиционно обучение роботов или беспилотников было выбором между дорогостоящими тестами «в железе» и жесткими, прописанными вручную симуляциями. DeepMind предлагает третий путь: бесконечный учебный план (automated curriculum), где среда генерируется по текстовому запросу. В этих мирах AI-агент может преследовать цели, а модель мира на лету просчитывает будущее в зависимости от его маневров. Фактически, одна нейросеть создает полигоны для тренировки других систем, устраняя дефицит данных для воплощенного интеллекта.

«Модели мира — ключевой этап на пути к AGI, поскольку они позволяют обучать AI-агентов в неограниченном потоке сложных симуляционных сред».

Как следует из отчета DeepMind, интерактивность в реальном времени позволяет отрабатывать контрфактуальные сценарии — те самые «а что, если?», которые критически важны для безопасности. Это позволяет готовить агентов к внештатным ситуациям, не рискуя дорогостоящим оборудованием в физическом мире.

Решение проблемы консистентности

Главная техническая пропасть между генерацией видео и поддержанием стабильного мира заключается в накоплении ошибок. В авторегрессионных моделях неточности быстро превращают картинку в кашу. В DeepMind заявляют, что в Genie 3 этот барьер взят: визуальная память системы простирается на минуту назад, позволяя сохранять физическую логику среды в течение нескольких минут. Если агент возвращается в локацию через 60 секунд, модель обращается к траектории движения, чтобы сцена осталась прежней. Мир генерируется покадрово, опираясь исключительно на описание и ввод пользователя.

«Достижение высокой степени управляемости и интерактивности в реальном времени потребовало серьезных технических прорывов».

На первый взгляд «несколько минут» стабильности выглядят скромно. Но в сравнении с прошлыми итерациями Genie это гигантский скачок. Этого окна уже достаточно для тестирования сложных маневров, изучения поведения животных в экосистемах или взаимодействия с природными явлениями вроде воды и освещения. Важна не столько четкость картинки, сколько то, что модель понимает интуитивную физику достаточно хорошо, чтобы реагировать на действия пользователя десятки раз в секунду.

Google DeepMind окончательно уходит от концепции «предсказания следующего токена» в сторону симуляции физической реальности. AI превращается из творческого ассистента в безопасную лабораторию для автономных систем. Для индустрий, завязанных на автоматизации и логистике, это означает, что главным узким местом скоро станет не сбор данных, а скорость, с которой вы способны моделировать сценарии для захвата рынка.

ИИ-агентыРоботизацияБезопасность ИИGoogle DeepMind