Пока бизнес грезит об армии автономных сотрудников, исследователи из Университета Пенсильвании — Лей Чжао, Абхай Бхаскар и Эдгар Добрибан — обнаружили, что эти «помощники» охотно открывают двери любому, кто умеет прятать инструкции в тексте. Современные агенты вроде OpenClaw уже не просто болтают в песочнице: у них есть доступ к вашей почте, браузеру и файловой системе. Это превращает косвенные промпт-инъекции (IPI) из теоретической страшилки в реальный инструмент взлома. Достаточно прочитать зараженное письмо или зайти на скомпрометированный репозиторий, чтобы агент начал исполнять вредоносный код или сливать данные на сторону.
Испытание реальностью против синтетики
Вместо привычных синтетических тестов команда представила бенчмарк LivePI. Это жесткая симуляция в среде виртуальных машин, которая имитирует настоящий рабочий хаос. Результаты отрезвляют: даже топовые модели вроде GPT-4o или Claude 3.5 Sonnet (в тексте исследования фигурируют актуальные версии семейств GPT, Claude, Gemini, Kimi и GLM) показывают уровень успеха атак от 10,7% до 29,6%. Хуже всего дела обстоят с групповыми чатами и ссылками на репозитории — здесь защитные барьеры падают практически всегда. Агент, обученный «быть полезным», воспринимает внешние данные как руководство к действию, послушно переводя криптовалюту или меняя настройки безопасности по команде извне.
Проблема в самой архитектуре доверия. Агенты по определению должны работать с разнородным контентом и самостоятельно выбирать инструменты (tools) для решения задач. Это делает любую точку входа — будь то локальный файл или входящее сообщение — вектором атаки.
Исследователи предложили двухслойную защиту: фильтрацию на уровне промптов и обязательную авторизацию вызова инструментов. На тестах с моделями OpenAI это позволило блокировать вредоносные цели до их исполнения. Однако в реальности между автономией агента и безопасностью периметра зияет дыра. Компании внедряют AI-агентов в надежде ускорить процессы, но на деле получают систему, которая обходит корпоративный файрвол по первому требованию из анонимного письма.
Архитектура «доверяй, но не проверяй» в мире автономных систем больше не работает. Интеграция агентов в цепочки обработки нефильтрованных внешних данных без жесткого контроля вызова инструментов — это сознательный демонтаж системы безопасности. Если ваш AI-ассистент имеет полномочия на перевод средств или удаление файлов, он должен быть под конвоем из правил авторизации, а не просто верить каждому прочитанному PDF-файлу.