Современные ИИ-агенты прекрасно справляются с бронированием билетов и заполнением таблиц, но беспомощны, когда дело касается управления реальным научным оборудованием. Как следует из отчёта Аньци Цзоу и её коллег из Шэньчжэня и Даляньского технологического университета, существующие бенчмарки вроде OSWorld слишком упрощают реальность, фокусируясь на стандартном ПО и веб-навигации. Лабораторная среда — это не офисный пакет, а специфические интерфейсы и многочасовые процедуры, где цена ошибки выше, чем опечатка в письме.
Представленный LabOSBench — это попытка приземлить амбиции разработчиков: восемь симуляторов приборов и 96 подзадач, от загрузки образцов до тонкой настройки параметров и сбора данных. Результаты тестирования мультимодальных моделей отрезвляют.
Главное в отчёте LabOSBench:
Итеративная подстройка стала главным камнем преткновения. В отличие от статической программной среды, управление прибором требует непрерывного цикла: интерпретации визуального фидбэка и его сопоставления с физикой процесса. Критический разрыв между теорией и практикой: даже продвинутые агентские фреймворки проваливают длинные рабочие циклы при отсутствии прямого API. Проблема GUI: ИИ теряется в плотных профессиональных интерфейсах, не понимая, как считанные данные должны влиять на следующее движение регулятора.
«Автономная лаборатория» останется маркетинговым концептом, требующим постоянного присмотра со стороны человека, пока модели не научатся адекватно реагировать на нюансы физической обратной связи.
Текущие модели Large Computer Use (LCU) демонстрируют фундаментальную неготовность к работе «в поле». Для руководителей R&D-департаментов это важный сигнал: общие ИИ-агенты пока не могут обеспечить автономность лабораторий.
Выводы для индустрии:
Автоматизация высокоточных исследований требует не просто «умных» рассуждений, а глубокой интеграции систем управления научными приборами (Scientific Instrument Control). Обычного «компьютерного зрения» недостаточно — агенту необходимо понимание контекста эксперимента и физических ограничений оборудования.