Стремительное внедрение AI-агентов с функцией управления компьютером (Computer Use) обнажило опасную архитектурную брешь, которую исследователи официально назвали «нарушением визуальной атомарности». Проблема заключается в том, что современные графические агенты управляют рабочим столом через непрерывные циклы «скриншот — клик», и в этом процессе существует временной разрыв. Согласно недавнему препринту на arXiv, при выполнении реальных задач на базе платформы OSWorld между моментом снятия скриншота и самим кликом проходит в среднем 6,51 секунды. Эти секунды создают классическое окно уязвимости типа TOCTOU (Time-Of-Check, Time-Of-Use — «время проверки — время использования»): у злоумышленника с минимальными правами доступа есть время манипулировать состоянием интерфейса, пока агент «обдумывает» изображение.
Исследователи выделили три базовых метода атаки, которые превращают визуальную зависимость ИИ в его главную слабость. Перехват уведомлений, манипуляция фокусом окон и инъекции в объектную модель документа (DOM) позволяют перехватывать действия агента с пугающей эффективностью. Особого внимания заслуживает подмена фокуса окна: согласно отчету, этот метод показал 100-процентную эффективность в перенаправлении кликов, не оставляя никаких визуальных следов на момент наблюдения. Пока агент решает, куда нажать, система успевает подставить под его «курсор» совершенно другое окно, превращая помощника в послушный инструмент для несанкционированной передачи данных.
В качестве защиты был предложен механизм PUSV (Pre-execution UI State Verification) — трехслойная система верификации, которая проверяет состояние экрана непосредственно перед отправкой команды на клик. Система использует пиксельное маскирование (SSIM), сравнение глобальных скриншотов и проверку снимков состояния графического сервера X Window. В ходе 180 тестов PUSV показал идеальный результат: 100% атак были заблокированы при нулевом уровне ложноположительных срабатываний и задержке менее 0,1 секунды. Однако защита выявила структурную «слепую зону»: PUSV бессилен против DOM-инъекций, не имеющих визуального воплощения. Это подтверждает, что одних лишь визуальных образов недостаточно для обеспечения безопасности агентов в браузере.
Для бизнеса вердикт очевиден: автономным агентам управления рабочим столом на данный момент фундаментально не хватает визуальной атомарности, и это окно уязвимости измеряется секундами. Если вы внедряете ИИ в критически важные бизнес-процессы, полагаться только на внутреннюю логику модели — сомнительная затея. Безопасность уровня Computer Use требует глубокой интеграции защитных слоев непосредственно в графический сервер (X Window или Wayland), чтобы проверять состояние интерфейса в ту самую миллисекунду, когда агент нажимает кнопку. Эра простых «скриншот-ботов» закончилась, не успев начаться — пришло время переходить к архитектуре глубоко эшелонированной обороны.