Google Gemini Robotics-ER 1.6: ИИ-агенты в промышленной робототехнике

Команда Демиса Хассабиса выпустила обновление Gemini Robotics-ER 1.6, и это не просто очередная корректировка весов нейросети, а амбициозная попытка научить «железо» по-настоящему ориентироваться в пространстве. Пока индустрия бьется над сокращением дистанции между текстом в чат-боте и движением манипулятора, Google внедряет концепцию «воплощенного рассуждения» (embodied reasoning). По сути, это перевод физического мира в систему логических связей, а не просто набор координат. По данным разработчиков, новая версия значительно превосходит предшественников в навигации и детекции успеха: теперь робот не просто упирается в препятствие, а понимает, выполнил ли он задачу, прежде чем переходить к следующему шагу.

Техническое зрение для суровых условий

Ключевая особенность, которую Google дорабатывала совместно с Boston Dynamics — это компьютерное зрение, адаптированное под нужды тяжелой промышленности. Модель научилась интерпретировать показания аналоговых приборов. Пока корпорации тратят миллионы на тотальную цифровизацию заводов и установку умных датчиков, Gemini 1.6 достаточно просто взглянуть на старый манометр или смотровое окно, чтобы определить положение стрелки. Это фундаментальный сдвиг: вместо перекладывания объектов по заученному алгоритму, робот становится автономным инспектором, способным ориентироваться на объекте через многоракурсное (multi-view) понимание среды.

«Эпоха роботов, работающих по жестким скриптам, заканчивается. Начинается время визуального интеллекта, способного принимать решения в неструктурированном хаосе реального производства».

Автономия и логика вместо алгоритмов

Робот превращается в высокоуровневый контроллер, который при возникновении сомнений может самостоятельно обратиться к Google Search. Система использует Vision-Language-Action модели для уточнения контекста задачи в режиме реального времени. Модель способна «на глаз» оценивать габариты грузов и определять их совместимость с контейнерами на складе.

Выводя Gemini API из стерильных лабораторий в реальные цеха, Google нацелился на замещение дорогостоящего человеческого труда там, где раньше требовался живой оператор для проверки «аналоговой» реальности. Это первый реальный шаг к демонтажу жестких циклов автоматизации в пользу гибких интеллектуальных систем.

Источник: Google DeepMind News →

Оцените материал

★ ★ ★ ★ ★

РоботизацияКомпьютерное зрениеИИ-агентыАвтоматизацияGoogle DeepMind

Воплощенное рассуждение: Как Gemini 1.6 превращает роботов в умных инспекторов