RePO-VLA: обучение роботов восстановлению после ошибок

Современные модели класса Vision-Language-Action (VLA) страдают от критической «хрупкости», которая неизбежно проявляется при выполнении сложных манипуляций с плотным физическим контактом. Классическое имитационное обучение буксует в стерильных условиях: оно идеально воспроизводит успех, но пасует перед малейшим отклонением от заданного курса. Стоит захвату сместиться на миллиметр или таймингу между манипуляторами сбиться, как робот впадает в ступор. Традиционно R&D-команды просто выбрасывают данные о неудачных попытках, создавая колоссальное слепое пятно в обучении систем. Исследование Huawei Noah’s Ark Lab в сотрудничестве с Университетом Сунь Ятсена и ведущими китайскими институтами доказывает, что это стратегическая ошибка: провал — это не мусор, а ценная карта зон, которых следует избегать.

Фреймворк RePO-VLA меняет парадигму, разделяя траектории на три типа: успех, восстановление и чистый провал. Ключевой механизм здесь — Recovery-Aware Initialization (RAI), который выделяет сегменты восстановления и обнуляет историю действий. Это заставляет робота обучаться корректирующим маневрам, исходя из текущего неблагоприятного состояния, а не слепо повторять предысторию, которая привела к краху. В связке с этим работает семантическая функция ценности PAS-VF, сопоставляющая пространственно-временные признаки с текстовыми инструкциями. Система буквально спасает полезные «префиксы» неудач — те моменты, где робот действовал верно, — маркируя точки отклонения как низкоценные.

На практике такая архитектура решает проблему утилизации данных. При развертывании достаточно задать фиксированное значение ценности на уровне 1.0, чтобы сместить политику модели в сторону выученного «многообразия успеха» (success manifold). Это избавляет производство от необходимости внедрять дорогостоящие детекторы сбоев или постоянно держать оператора «на кнопке» для ручного сброса системы. Методология подтверждает: надежность — это вопрос грамотного использования данных, а не простого наращивания количества параметров модели.

В ходе масштабных испытаний на задачах с использованием двух манипуляторов RePO-VLA подняла показатели успеха в агрессивной среде с крайне низких 20% до стабильных 75–80%. Для бизнеса это означает радикальное снижение совокупной стоимости владения (TCO) за счет минимизации простоев. Мы вступаем в эпоху, когда способность робота самостоятельно исправлять свои ошибки становится куда более ценным активом, чем умение показывать идеально отрепетированное демо в лабораторном вакууме. Время выбрасывать данные только потому, что они не закончились триумфом, официально подошло к концу.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Машинное обучениеРоботизацияАвтоматизацияПроизводительностьHuawei

Революция в робототехнике: как ошибки стали главным ресурсом для обучения ИИ