Современные визуально-языковые модели (VLM) в условиях реального цеха ведут себя как стажеры-теоретики: они воспринимают сборку узлов как визуальный пазл, напрочь игнорируя законы физики. Пока стандартные бенчмарки тренируются на «икеевских» табуретках, индустриальный сектор требует работы со сложной геометрией и траекториями с шестью степенями свободы (6-DoF), где важен каждый поворот и усилие. Исследователи из Mitsubishi Electric Research Laboratories (MERL) и Рутгерского университета справедливо указывают на проблему «галлюцинаций в 3D»: без учета физических ограничений модели предлагают шаги сборки, которые невозможно реализовать в материальном мире.

Чтобы вытащить ИИ из цифровых галлюцинаций, команда Данруя Ли и Цзяхао Чжана представила AssemblyBench. Это масштабный синтетический датасет из 2789 объектов — от гидравлических насосов до коробок передач. Главное отличие здесь не в количестве, а в методологии: исследователи создали конвейер, который автоматически генерирует инструкции напрямую из CAD-файлов. Вместо абстрактных текстовых команд система получает полные 3D-модели деталей, пошаговые диаграммы и, что критично, реальные траектории движения, необходимые для стыковки узлов.

Под этот массив данных была разработана AssemblyDyno — трансформерная модель, которая одновременно предсказывает и порядок сборки, и 6-DoF траектории. С помощью механизма мягкого внимания (soft attention) система связывает чертежи с трехмерными формами. По оценке авторов исследования, AssemblyDyno на голову выше предшественников в точности оценки поз и выполнимости траекторий. Это наглядный пример того, как логический вывод (Reasoning) в связке с физическими параметрами начинает вытеснять простое масштабирование контекста.

Для технических директоров и R&D-департаментов это сигнал к смене парадигмы: эпоха жесткого программирования роботов под одну операцию заканчивается. Бутылочное горлышко теперь не в распознавании образов, а в интеграции физики в «ядро рассуждений» модели. Хотя AssemblyDyno показывает отличные результаты в симуляции, настоящий экзамен начнется при переносе в «железо», где микроны имеют значение. В ближайшее время ценность индустриальных агентов будет измеряться не умением описать деталь, а способностью почувствовать сопротивление металла в сложном механическом соединении.

Искусственный интеллектРоботизацияАвтоматизацияКомпьютерное зрениеMitsubishi Electric