Oracle Poisoning: новая угроза для AI-агентов и графов знаний

Ваши AI-агенты принимают безупречно логичные решения, опираясь на абсолютную ложь. Исследование Бена Кереопа-Йорка из Microsoft, UNSW Canberra и SAP вводит понятие Oracle Poisoning — нового класса атак, который делает традиционную защиту от промпт-инъекций бесполезной. Суть проста: злоумышленник травит не инструкции, а структурированные графы знаний, которые агент считает своим единственным источником истины. В отличие от стандартного отравления RAG, нацеленного на текстовое сходство, этот метод манипулирует протоколом контекста модели (MCP). Когда агент запрашивает базу и получает ответ, что функция безопасна, а зависимость проверена, он воспринимает это как свершившийся факт, а не как рекомендацию. По меткому замечанию Кереопа-Йорка, агент превращается в узника платоновской пещеры: граф знаний — это стена, а результаты запросов — тени, которые он обязан принимать за реальность.

Масштаб уязвимости выглядит катастрофическим, если смотреть на цифры. Исследователи протестировали девять моделей от трех ведущих поставщиков на промышленном графе кода, содержащем 42 миллиона узлов. При умеренном уровне сложности атаки (L2) каждая протестированная модель принимала сфабрикованные данные о безопасности в 269 случаях из 270. Этот 100-процентный успех доказывает: когда агенты автономно вызывают инструменты запроса к графам, у них напрочь отсутствует скептицизм, необходимый для проверки целостности данных. Выяснилось, что если при обычных промптах доверие к ложным данным колеблется от 3% до 55%, то направленные запросы через инструменты вызывают полный паралич защитной логики. Даже продвинутые модели, демонстрировавшие нулевое доверие в статичных тестах, мгновенно переходили на сторону «лживого оракула», как только оказывались в реальной среде агентского взаимодействия.

Для корпоративного сектора это означает, что нынешняя одержимость фильтрацией промптов и мониторингом интерфейсов — это попытка закрыть дверь в доме без стен. Реальная проблема кроется в целостности инфраструктуры данных. Исследователи изучили пять механизмов защиты и пришли к неутешительному выводу: большинство из них либо работают частично, либо зависят от конкретной модели. Единственный надежный способ устранить вектор мутации — жесткий контроль доступа только на чтение. В условиях, когда AI-агенты все глубже интегрируются с платформами вроде CodeQL или Sourcegraph для управления кодовыми базами, доверительный канал внутри MCP становится критической точкой отказа. На наш взгляд, наивно полагаться на «интеллект» модели: чем мощнее агент, тем более детальную, убедительную и, в конечном счете, опасную версию ложной реальности он выстроит на основе отравленных данных.

Традиционная кибербезопасность привыкла охранять периметр, но Oracle Poisoning доказывает: в мире AI периметром являются сами данные. Если архитектура позволяет противнику вставлять узлы или изменять свойства в графе знаний, никакое проектирование промптов или выравнивание моделей не предотвратит системный сбой. Технологическим лидерам пора сместить фокус с защиты того, что агенту говорят, на аудит того, что агент знает. Разрыв между идеальной логикой и ложными фактами — это именно то место, где будут жить корпоративные эксплойты следующего поколения.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыБезопасность ИИКибербезопасностьMicrosoft