Подразделение Google DeepMind представило Gemini Robotics-ER 1.6 — обновленную модель «воплощенного мышления» (embodied reasoning), которая выступает в роли высокоуровневого когнитивного слоя для робототехнических систем. Команда DeepMind сфокусировалась на обеспечении полной автономности при выполнении задач. Для понимания контекста и планирования действий робот использует широкий арсенал инструментов: от поиска Google Search до специализированных моделей класса vision-language-action (VLA). Испытания подтвердили, что новая архитектура помогает машинам лучше ориентироваться в пространстве и точнее оценивать результаты собственных манипуляций.
Основной технологический прорыв зафиксирован в точности восприятия. Согласно отчету DeepMind, версия 1.6 значительно превосходит Gemini Robotics-ER 1.5 и Gemini 1.5 Flash в распознавании объектов, ведении счета и верификации успешного завершения операций. Одной из ключевых особенностей стала работа с контрольно-измерительными приборами, такими как манометры и уровнемеры (функционал разработан совместно с Boston Dynamics). Модель поддерживает агентную обработку данных: робот способен самостоятельно изменять масштаб изображения (зумировать), использовать функции указания на объекты и исполнять программный код для расчета шкал и пропорций. На финальном этапе система применяет общие знания о мире для интерпретации полученных показаний. Робот-собака Spot от Boston Dynamics уже применяет эти возможности для проведения технических инспекций.
Благодаря доступности модели через Gemini API и Google AI Studio, а также наличию примеров в Colab, разработчики получили инструмент для создания продвинутых интеллектуальных систем. Это знаменует важный сдвиг в отрасли: внедрение высокоуровневых когнитивных способностей позволяет роботам самостоятельно планировать сложные задачи и интерпретировать неоднозначные визуальные данные в условиях реального мира.