Команда Google DeepMind представила Gemini Robotics On-Device — попытку превратить роботов из послушных терминалов, зависимых от облачного Wi-Fi, в по-настоящему автономных агентов. Технический сдвиг заключается в упаковке VLA-модели (Vision-Language-Action) непосредственно в локальное железо. Теперь мультимодальное зрение, понимание команд и управление манипуляторами упакованы в компактный формат, способный работать в реальном времени без задержек на передачу данных в дата-центр и обратно.
Автономность на грани возможного
По задумке инженеров DeepMind, эта итерация Gemini 2.0 сохраняет продвинутые способности к логическому рассуждению, но адаптирует их под жесткие требования к задержке сигнала. Для индустриальной автоматизации это критический момент: локальное исполнение снимает вечные вопросы безопасности данных и гарантирует, что рука робота не застынет в неопределенности из-за лага в сети.
Локальные VLA-модели позволяют перенести интеллект из облака непосредственно в манипулятор, обеспечивая реакцию в миллисекундах.
Система демонстрирует уверенную работу в задачах с мелкой моторикой:
Расстегивание и застегивание сумок; Аккуратное складывание одежды; Быстрая адаптация к новым условиям всего за 50–100 демонстраций.
Реальность за рамками маркетинга
Однако за маркетинговыми лозунгами о «минимальных вычислительных ресурсах» скрывается суровая реальность: запуск тяжелых нейросетей на борту манипулятора — задача не из дешевых. Пока Google предлагает оценивать возможности системы через новый SDK с поддержкой симулятора MuJoCo, но реальную производительность VLA в полевых условиях скрывает за стеной программы закрытого тестирования. Это выглядит как осторожная попытка прощупать почву перед масштабным внедрением в промышленность, где ошибки автономности стоят слишком дорого.