Забудьте пока о полностью автономных роботах, управляемых ИИ. Как выяснилось в исследовании Nvidia, UC Berkeley и Stanford (опубликовано на The Decoder), даже продвинутые языковые модели вроде Gemini-3-Pro или GPT-5.2 в одиночку справляются с управлением роботами хуже, чем люди. Без человеческих «строительных блоков» — то есть заранее прописанных команд и абстракций — их надежность в выполнении даже простейших манипуляций стремительно падает.
Эффективность появляется, только когда моделям дают доступ к готовым функциям, вроде «схватить объект X и поднять его». В таком случае задача ИИ сводится к правильному выстраиванию последовательности, а не к самостоятельному решению всех подзадач с нуля. Попытка «скормить» моделям сырые видеоданные напрямую только ухудшает результат.
Исследователи предполагают, что проблема в недостаточном кросс-модальном согласовании: фундаментальные модели редко обучаются одновременно оперировать кодом и физическим исполнением команд. Гораздо лучше работает промежуточный «Модуль визуальных различий». Он описывает сцену, извлекает нужные свойства и фиксирует изменения после каждого шага, выдавая структурированную текстовую информацию для генерации следующего блока кода.
Ключом к повышению надежности AI-управляемых роботов становится «агентный скаффолдинг» — структурирование задач и предоставление ИИ готовых паттернов поведения. Это похоже на разработку ПО: тут и обучение с подкреплением, и масштабирование ресурсов для параллельной генерации решений, и самокоррекция, и автоматизированная отладка с накоплением переиспользуемых функций. На основе этих принципов создана модель CaP-X — робот, работающий по заданному «сценарию», но с адаптацией благодаря ИИ.
Реальная автономия AI в робототехнике потребует не только развития моделей, но и существенной подготовительной работы со стороны бизнеса. В ближайшие несколько лет стоит ожидать гибридных решений, где ИИ помогает управлять роботами в рамках заданных человеком структур и паттернов, а не полного отказа от контроля. Это значит, что компаниям придется инвестировать в создание «инфраструктуры для ИИ» и подготовку соответствующей экспертизы, чтобы получить реальные конкурентные преимущества, а не просто понаблюдать за очередным технологическим чудом.