Обучение роботов мелкой моторике, необходимой для сборки смартфонов или ассистирования в хирургии, долгое время упиралось в «стену данных». Чтобы добиться прецизионности, существующие модели вроде Behavior Transformer или Diffusion Policy требуют гигантских датасетов, записанных на экстремально высоких частотах. Такая жажда плотных данных не только раздувает бюджеты на сбор обучающих сетов, но и замедляет инференс, становясь узким местом для промышленной автоматизации, где точность не обсуждается.
Многоуровневая гранулярность через Mamba и диффузию
Команда исследователей из KAIST под руководством профессора Пак Дэ Хёна представила DiSPo — модель многоуровневой гранулярности манипуляций, которая работает как цифровой объектив, способный программно «навести резкость» на размытое изображение. DiSPo интегрирует Mamba (архитектуру пространства состояний для прогнозирования временных интервалов) с диффузионной моделью, обеспечивающей богатое представление сложных действий. Ключевая ирония в том, что вместо попыток скопировать каждое микродвижение человека, система использует механизм Step-scale factor для прямого управления временными интервалами на этапе выполнения задачи.
Ожидается, что эта технология радикально сократит расходы на сбор данных, став универсальным решением для робототехники в точной сборке и медицине.
Отвязав точность результата от частоты входных данных, команда KAIST позволила роботам учиться на «черновиках» — разреженных человеческих демонстрациях, которые обычно приводят к дерганым движениям или провалам. В симуляциях DiSPo показала на 81% более высокий успех, чем текущие SOTA-решения. Система буквально «додумывает» микроперемещения в зазорах между редкими точками данных, вычисляя траекторию деликатного контакта без необходимости видеть каждый миллисекундный кадр в обучающей выборке.
Четырехкратный рост эффективности в реальной среде
Реальная проверка DiSPo включала задачи, на которых стандартные автономные системы обычно «ломаются». Коллаборативный робот успешно провел зажим через узкую щель с радиальным зазором всего 2,5 мм и нажал крошечную кнопку спуска затвора на смартфоне. В этих сценариях успех был в четыре раза выше, чем у конкурентов. Процесс дискретизации «от грубого к тонкому» выдержал проверку непредсказуемой физикой реального мира.
На наш взгляд, DiSPo знаменует сдвиг в сторону экономичного обучения, где внутренняя логика ИИ компенсирует отсутствие дорогостоящих сенсоров. Однако путь из стерильной лаборатории KAIST в хаос реального завода остается тернистым. Хотя объем данных сократился, надежность автономной дискретизации в высокоскоростных циклах и устойчивость к аппаратному шуму остаются открытыми вопросами. Пока исследователи не докажут, что система не «поплывет» при вибрациях реального цеха, DiSPo останется впечатляющим научным прорывом, ждущим своей очереди на конвейер.