Фреймворк D-VLA: масштабирование обучения роботов

Масштабирование воплощенного интеллекта (Embodied AI) уперлось в системный тупик: попытка подружить ресурсоемкие физические симуляторы с гигантскими нейросетями превращается в битву за вычислительные мощности. Исследователи из университетов Цинхуа, Пекина и Бэйхана совместно с JDT AI Infra подтверждают очевидное — модели класса Vision-Language-Action (VLA) настолько требовательны к видеопамяти и пропускной способности каналов, что буквально парализуют процесс обучения. Отраслевой стандарт в виде обучения по подражанию (Imitation Learning) — это дорогостоящий «костыль», который плохо масштабируется и не позволяет роботам выйти за рамки человеческих сценариев. Чтобы системы наконец начали учиться на собственном опыте, команда представила D-VLA — высококонкурентный распределенный асинхронный фреймворк, разделяющий процессы симуляции и вычислений.

Ключевое решение здесь — так называемое «плоскостное разделение» (Plane Decoupling). Авторы физически изолируют высокочастотные потоки тренировочных данных от низкочастотных процессов обновления весов модели. Согласно техническому отчету D-VLA, архитектура опирается на четырехпоточный асинхронный конвейер Swimlane. Это позволяет сэмплированию, инференсу, расчету градиентов и распределению параметров работать в режиме полного параллелизма. Вместо узкой однополосной дороги, где каждый грузовик ждет впереди идущего, мы получаем многоуровневую магистраль, на которой логистика и строительство идут одновременно. Для борьбы с дефицитом памяти используется система управления VRAM с двойным пулом и репликация, учитывающая топологию сети. По оценке JDT AI Infra, это эффективно решает проблему фрагментации памяти и оптимизирует связь внутри кластера.

На бенчмарках уровня LIBERO фреймворк D-VLA продемонстрировал кратное превосходство над существующими решениями на базе обучения с подкреплением (RL) по пропускной способности для моделей с миллиардами параметров. Тесты на масштабируемость подтверждают линейное ускорение и стабильность системы даже при экстремальных нагрузках. Это означает, что переход от последовательного ожидания к высококонкурентной среде — единственный способ снизить системное сопротивление при создании автономных систем нового поколения.

Безусловно, интеграция таких асинхронных циклов в реальное производство, где критически важна физическая безопасность, пока остается под вопросом. Однако D-VLA наглядно демонстрирует: «железный» потолок в робототехнике — это в первую очередь проблема софта и несовершенной архитектуры. Эпоха, когда роботы заучивали движения по человеческим скриптам, подходит к концу, поскольку у нас наконец появилась инфраструктура, позволяющая машинам извлекать смысл из хаоса собственного опыта.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

РоботизацияМашинное обучениеИскусственный интеллектПроизводительностьD-VLA

Прорыв в обучении роботов: фреймворк D-VLA преодолевает архитектурный тупик