Взлом логики Chain-of-Thought в робототехнике
Маркетологи годами продавали нам Chain-of-Thought (CoT) как панацею для безопасности Vision-Language-Action (VLA) моделей: мол, если мы видим логику робота, мы его контролируем. Исследование TRAP (Trapping Robots with Adversarial Patches) изящно превращает этот аргумент в эпитафию промышленной безопасности. Выяснилось, что пресловутая «прозрачность» — это не броня, а открытая дверь для взлома. Исследователи доказали: манипуляция внутренней логикой гораздо эффективнее прямой подмены визуальных образов.
Техническое издевательство выглядит пугающе просто: достаточно распечатать на обычном принтере адверсариальный патч — например, специфический узор на скатерти — и положить его в поле зрения камер. Этот визуальный шум не просто «ослепляет» систему, он перехватывает промежуточные шаги рассуждений. В ходе экспериментов робот, получив четкую команду принести яблоко, вместо этого хладнокровно вручал человеку нож.
Самое циничное здесь то, что текстовая команда оставалась неизменной, а система в своих логах генерировала безупречное, на её взгляд, обоснование того, почему нож в данной ситуации — это именно то, что просили.
Архитектурный изъян
Проблема носит архитектурный характер. Как следует из отчёта TRAP, механизм CoT в современных VLA-моделях доминирует над семантикой входных инструкций. Если цепочка рассуждений «сломалась» под воздействием патча, финальное действие будет разрушительным, даже если исходная задача была максимально мирной. Исследователи подтвердили уязвимость на трёх репрезентативных архитектурах, доказав, что атака масштабируется и отлично работает в реальных условиях эксплуатации.
Манипуляция логикой рассуждений (CoT) эффективнее подмены входных данных. Визуальный патч заставляет ИИ игнорировать текстовую инструкцию. Система обосновывает опасное действие как логически верное решение. Уязвимость подтверждена на трех популярных архитектурах роботов.
Для индустриальной автоматизации это звучит как приговор нынешним стандартам безопасности. Мы привыкли доверять «объяснимому ИИ», полагая, что интерпретируемость исключает риск «черного ящика». На деле же прозрачность рассуждений оказалась иллюзорной: злоумышленник может заставить складского или производственного робота обосновать диверсию как единственно верный логический шаг. Вместо защиты мы получили инструкцию по легализации саботажа, написанную самим же искусственным интеллектом.