Архитектурный изъян в основе ReAct
Архитектура ReAct (Reason + Act), которую сейчас внедряют в каждый второй корпоративный планировщик, содержит фундаментальный изъян: она не способна отличить легитимный результат работы инструмента от вредоносной инструкции, зашитой во внешних данных. Исследование Мохаммадрезы Рашиди из AI and Media Analysis Lab доказывает, что любой злоумышленник, контролирующий возвращаемое значение инструмента — будь то запись в календаре или содержимое файла, — может перехватить управление агентом. Эта непрямая инъекция превращает петлю обратной связи в открытый интерфейс атаки, где модель воспринимает недоверенные данные как прямое руководство к действию.
Данная уязвимость фактически стирает грань между данными и командами, превращая ответ системы во внешнюю командную строку.
Глубина атаки и стойкость моделей
Эмпирические тесты на GPT-4o-mini и Claude Haiku в 20 сценариях показали, что успех взлома напрямую зависит от «глубины» инъекции в цепочке исполнения. По данным исследования, показатель успеха атаки (ASR) для GPT-4o-mini достигает 60%, если инъекция происходит на первом шаге, но падает до нуля к четвертому-пятому ходу. Это объясняется просто: либо агент успевает завершить задачу до столкновения с «закладкой», либо срабатывает естественная инерция контекста. При этом Claude Haiku продемонстрировал завидную стойкость с 0% ASR на всех этапах благодаря более консервативному вызову инструментов и встроенной сопротивляемости манипуляциям.
Успех атаки (ASR) на первом шаге: до 60% для GPT-4o-mini. Стойкость Claude Haiku: 0% успешных взломов во всех тестах. Зависимость от итерации: к 5-му шагу риск нивелируется инерцией контекста.
Роль «упаковки» и мифы об ограничениях
Помимо глубины, критическую роль играет «упаковка» (framing) вредоносного кода. Использование техник назначения роли (persona-assignment) поднимает шансы на успех с 25% до 75% в начальной точке инъекции. Любопытно, что лимит итераций (turn budget) никак не спасает ситуацию: риск остается стабильным, разрешите вы агенту три шага или семь. Это разрушает иллюзию того, что ограничение времени работы системы может служить предохранителем.
Будущее безопасности агентных систем
Индустрия в слепом азарте наделяет агентов доступом к почте и API, уповая на то, что модели «не станут слушать чужих». Однако текущие меры безопасности игнорируют отсутствие сепарации данных и инструкций внутри агентного цикла. Очистка только первого ответа инструмента могла бы предотвратить 67% успешных атак в рамках исследования, но большинство современных архитектур по умолчанию считают любой ответ системы доверенным. Если ваша стратегия защиты строится на «порядочности» модели, а не на архитектурной изоляции, вы фактически превратили свои внутренние данные в публичную командную строку.