Главная проблема современных Vision-Language-Action (VLA) моделей — катастрофический дефицит данных. Пока одни пытаются обучать нейросети на синтетике, другие сталкиваются с финансовым барьером: качественный сбор физических демонстраций сегодня требует либо VR-шлемов, либо громоздких систем телеуправления стоимостью в подержанный автомобиль.
Исследователи из института VESIT Ом Мандхане и Бипин Ядав решили, что роль контроллера с шестью степенями свободы (6-DoF) отлично исполнит обычный смартфон. Их проект Phone2Act использует технологию Google ARCore для отслеживания движений устройства в пространстве и трансляции координат напрямую роботу. Никаких проприетарных датчиков — только ваш телефон и немного кода.
Техническая архитектура Phone2Act базируется на ROS 2 и наборе узлов-мостов, что превращает систему в универсальный пульт. Разработчикам удалось адаптировать софт как для бюджетного LeRobot SO-101, так и для серьезного промышленного манипулятора Dobot CR5. Особого внимания заслуживает простое, но эффективное решение для управления захватом: вместо того чтобы заставлять оператора отвлекаться на экран, авторы задействовали аппаратные клавиши громкости. Пока вы перемещаете телефон, пальцы нажимают кнопки, как на геймпаде. Весь процесс, включая RGB-потоки с камер, записывается через Universal Recorder сразу в формате LeRobot — данные готовы к обучению нейросети без дополнительной обработки.
В ходе тестов систему проверили на модели GR00T-N1.5: после 130 эпизодов, записанных с помощью смартфона, промышленный Dobot CR5 показал 90% успеха в задачах по перемещению объектов. Конечно, точность здесь напрямую зависит от качества сенсоров IMU конкретного телефона, и Phone2Act не планирует конкурировать с профессиональными системами захвата движений за десятки тысяч долларов.
Однако ценность проекта в другом: это важный шаг в сторону Open-source Robotics и радикального снижения порога входа в индустрию. Когда сбор данных для обучения роботов превращается в краудсорсинг, масштаб датасетов начинает зависеть от количества доступных мобильных устройств, а не от бюджета исследовательской лаборатории. Это именно тот случай, когда доступное решение может оказаться эффективнее элитарных технологий за счет массовости.