Тактильные данные в робототехнике: датасет Daimon-Infinity

Современный ИИ с легкостью пишет сложный код на Python, но по-прежнему пасует перед элементарной задачей — сложить футболку или собрать хрупкую печатную плату. Проблема не в дефиците вычислительных мощностей и не в нехватке терабайтов видео. Налицо хронический «сенсорный голод» в сегменте воплощенного ИИ (Embodied AI): индустрия слишком долго игнорировала физику прикосновений. Пока большинство игроков зациклено на моделях Vision-Language-Action (VLA), гонконгская компания DAIMON Robotics делает ставку на мультимодальность нового уровня — Vision-Tactile-Language-Action (VTLA). Выход датасета Daimon-Infinity — это не очередная академическая попытка обучить робота подавать кофе, а стратегический шаг по созданию золотого стандарта для высокоточной сборки и сервиса.

За этим амбициозным проектом стоит профессор Майкл Ю Ван, сооснователь DAIMON Robotics и выходец из Университета Карнеги — Меллона. По его оценке, робот, полагающийся исключительно на камеры, остается «нечувствительным» к нюансам физического мира. Чтобы исправить это, в DAIMON разработали тактильный модуль, интегрировав 110 000 сенсорных единиц в устройство размером с кончик человеческого пальца. Аппаратное решение позволяет фиксировать деформацию, проскальзывание, трение и текстуру поверхности — данные, которые принципиально невидимы для стандартного компьютерного зрения. Мы наблюдаем переход от грубой моторики к ювелирной ловкости: робот наконец-то получает шанс научиться брать хрупкий бокал с тем же выверенным давлением, что и человек.

Экономика этого датасета заслуживает отдельного внимания. DAIMON выложила в открытый доступ 10 000 часов данных, собранных в 80 различных сценариях. Участие Google DeepMind и ведущих университетов Сингапура и США в этом проекте — четкий сигнал рынку: «сырого» видео больше недостаточно для создания универсальных базовых моделей робототехники. Для технологических директоров и инвесторов это означает, что порог автоматизации в неструктурированных средах — от гибких производственных линий до гостиничного сервиса — стремительно падает. В Китае такие системы уже выходят на реальные объекты, работая в отелях и магазинах, подтверждая статус тактильных данных как основного топлива для роботов, взаимодействующих с миром людей.

Инвестиции в робототехнику, полагающуюся исключительно на зрение, сегодня выглядят как тупиковая стратегия. Релиз Daimon-Infinity доказывает, что конкурентное преимущество сместилось из области того, что машина видит, в область того, что она чувствует. Если ваша дорожная карта автоматизации не учитывает тактильную обратную связь высокого разрешения, вы фактически нанимаете на работу слепого сотрудника и требуете от него проводить хирургические операции.

Источник: IEEE Spectrum AI →

Оцените материал

★ ★ ★ ★ ★

РоботизацияОпенсорс ИИGoogle DeepMindАвтоматизацияDAIMON Robotics

Чувство прикосновения: как датасет Daimon-Infinity совершает прорыв в робототехнике