Алгоритмы RL для навигации роя микророботов в хаосе

Проблема навигации микророботов в неструктурированном пространстве долгое время упиралась в стену между цифровой теорией и физической реальностью. Пока теоретики строят маршруты в идеальных симуляциях, реальные микроагенты застревают в первой же луже из-за дефицита вычислительных мощностей. Однако исследование, опубликованное в Nature Machine Intelligence, предлагает пересмотреть подход: вместо того чтобы пытаться превратить каждую песчинку в суперкомпьютер, авторы внедрили стратегию обучения с подкреплением (RL), основанную на частичной наблюдаемости и коллективном интеллекте.

Система отказывается от жестко запрограммированных путей. Вместо этого рой под управлением магнитного поля превращается в реконфигурируемую сущность, способную огибать препятствия в средах, которые она видит впервые. Это не просто реактивное поведение, а попытка компенсировать аппаратную нищету отдельных юнитов за счет умного централизованного управления.

Мультиуровневая рандомизация и временное внимание

Чтобы преодолеть пресловутый барьер sim-to-real, исследователи применили метод, сочетающий многоуровневую рандомизацию доменов (domain randomization) с механизмом временного внимания (temporally extended attention). В процессе обучения алгоритм намеренно сталкивали с хаосом: варьировались параметры среды, восприятия и динамики приводов. Модель учили «ждать неожиданного».

Наша модель сочетает временное внимание с многоуровневой рандомизацией среды, восприятия и механики. Это позволяет политике управления использовать не только текущие сенсорные данные, но и исторический контекст для формирования команд магнитной активации.

Этот временной контекст критически важен: он позволяет рою сохранять траекторию даже при временной потере «зрения». По сути, система использует недавнее прошлое, чтобы заполнить пробелы в настоящем. Анализ весов внимания показал, что рой приоритизирует глобальную цель, игнорируя временные помехи, что выглядит как качественный скачок от простых рефлексов к осмысленному принятию решений.

От простой навигации к логистике и захвату

В тестах алгоритм не просто обошел операторов-людей, но и показал живучесть в нетипичных сценариях. Согласно отчету, стратегия позволяет рою не только маневрировать, но и транспортировать грузы, отслеживать движущиеся цели и восстанавливаться после резких сбоев в данных. В одном из экспериментов рой успешно удерживал позицию (hovering), полагаясь на обрывочные данные сенсоров.

Предложенная стратегия обеспечивает навигацию роя, обход динамических препятствий, транспортировку грузов, отслеживание целей и восстановление после потери визуального контакта.

Для физического развертывания использовалась модель обнаружения объектов, работающая в связке с политикой, обученной в процедурно сгенерированной среде. Использование внешних магнитных полей снимает вопрос о размещении двигателей внутри самих роботов — весь «интеллект» вынесен на уровень RL-контроллера. Это дает рою текучесть, необходимую для проникновения в узкие каналы или агрессивные среды, такие как кровеносные сосуды или технические узлы сложных агрегатов.

Текущий успех омрачает лишь зависимость от внешних магнитных установок. Очевидно, что следующим этапом станет миниатюризация сенсорного аппарата до уровня, сопоставимого с автономностью логики роя. В горизонте 3–5 лет мы увидим переход от лабораторных тестов к реальному коммерческому применению в микрохирургии и прецизионной инспекции, где жесткие роботы бесполезны. Но пока это лишь триумф софта над слабым «железом».

Источник: Nature Machine Intelligence →

Оцените материал

★ ★ ★ ★ ★

Машинное обучениеРоботизацияИИ в здравоохранении

Интеллект роя: как обучение с подкреплением управляет микророботами в хаосе

Мультиуровневая рандомизация и временное внимание

От простой навигации к логистике и захвату