NVIDIA ENPIRE: ИИ-агенты автоматизируют R&D в робототехнике

Главным тормозом промышленной робототехники всегда было не «железо», а изнурительный ручной труд, необходимый для обучения машин элементарным движениям. Исследователи из Nvidia, Университета Карнеги — Меллона и Беркли решили ударить по этой неэффективности системой ENPIRE. Это попытка заменить человеческий надзор автономными ИИ-агентами, которые сами пишут код для своих «тел».

Традиционно инженеры были привязаны к полигону: они собирали данные, вручную сбрасывали сцену после каждой неудачи робота и бесконечно правили функции вознаграждения, чтобы машина поняла, что такое «хорошо». Этот операционный барьер фактически ставил потолок скорости эволюции роботов. ENPIRE ломает систему, передавая весь цикл обратной связи — от физического сброса рабочего пространства до написания алгоритмов управления — агентам, работающим на реальном оборудовании.

Автоматизация контролера Переход к автономному R&D начинается с того, что агент сам создает свою инфраструктуру оценки. Как следует из отчета разработчиков, ENPIRE работает в две фазы. Сначала система развертывает среду, используя минимум вводных: достаточно нескольких минут видео с примерами удачных и провальных попыток. На этой базе агент самостоятельно пишет функции вознаграждения. Например, для задачи по вставке штифта ИИ разработал метод верификации, объединяющий визуальное выравнивание, высоту захвата и оценку приложенной силы.

Вместо того чтобы нанимать человека для оценки каждой попытки, агент пишет собственный код, который объясняет роботу разницу между успехом и провалом.

Во второй фазе агент обретает полную автономность. Он буквально читает научные статьи, формирует гипотезы и напрямую правит тренировочный код. Будь то имитационное обучение (Behavior Cloning) или обучение с подкреплением, агент выбирает метод исходя из реальных сигналов успеха в физическом мире. Роль инженера здесь смещается от надсмотрщика к архитектору верхнего уровня, который лишь задает границы безопасности.

Координация флота через Git Экономическое преимущество ENPIRE проявляется на этапе масштабирования. В ходе экспериментов был задействован флот из восьми двухруких роботов YAM, каждый из которых управлялся своим ИИ-агентом. Важно, что они не просто работали параллельно, а координировались через Git — стандартный инструмент контроля версий. Обмениваясь удачными «рецептами» и отбрасывая неудачные гипотезы через общий репозиторий, один робот обучал остальных. Данные показывают, что такой коллективный подход радикально сокращает время R&D. В тесте Push-T (задвигание Т-образного блока в мишень) переход от одного к восьми агентам сократил время обучения с пяти часов до двух. В задаче со вставкой штифта время упало с 90 минут до считанных мгновений.

Любой прорыв, обнаруженный одной станцией, моментально тиражируется на весь флот.

В итоге агенты достигли 99% успеха в таких операциях, как сортировка деталей и разрезание кабельных стяжек. На наш взгляд, это тот порог, где лабораторная игрушка начинает превращаться в промышленный стандарт.

Трение реальности Несмотря на впечатляющие цифры, путь из лаборатории в цех все еще полон препятствий. Реальный мир на порядок сложнее любой симуляции, и главные риски лежат в области граничных сценариев. Пока система ENPIRE демонстрирует, что «человек в контуре» (human-in-the-loop) — это больше не техническая необходимость, а вопрос финансового выбора и операционной готовности. Использование ИИ-агентов для написания кода и управления физической средой позволяет сжать сроки R&D с дней до часов. Будущее фабрик — это самокорректирующиеся флоты машин, которые воспринимают физические манипуляции как софтверную задачу, решаемую через обновление в репозитории.

Источник: The Decoder →

Оцените материал

★ ★ ★ ★ ★

NVIDIAИИ-агентыРоботизацияАвтоматизацияМашинное обучение

Nvidia ENPIRE: роботы учатся сами, пока инженеры отдыхают