Атака HAM3: критические риски мультиагентных ИИ-систем

Коллективный разум мультимодальных агентных систем (MM-MAS) из стратегического преимущества стремительно превращается в ахиллесову пяту корпоративной безопасности. Пока ИТ-директора по привычке латают дыры в изолированных моделях, исследователи из JD.com под руководством Хао Чжоу доказали: сама иерархическая структура современных нейросетей открывает прямой путь к системному коллапсу. Представленный ими фреймворк HAM3 наглядно демонстрирует, что адверсариальные уязвимости — это не локальные баги, а инфекция, которая мгновенно разносится по каналам связи, предназначенным для координации.

Суть метода HAM3 заключается в декомпозиции атаки на три уровня: восприятие, коммуникация и логический вывод. На уровне восприятия система получает минимальные искажения в изображениях или тексте. Они остаются невидимыми для классических фильтров, но успешно «отравляют» первичный синтез данных. Однако настоящий саботаж начинается на этапе коммуникации. Команда JD.com научилась манипулировать содержанием сообщений и топологией взаимодействия — от блокировки цепочек обмена до имитации ответов доверенных агентов. Доверительная передача данных, на которой строится работа мультиагентных систем, становится идеальным вектором атаки: один скомпрометированный агент заставляет всю группу тиражировать ошибку.

Кульминация наступает на уровне принятия решений (Reasoning), где искажения вмешиваются в когнитивные цепочки агентов. Эксперименты на бенчмарке GQA с использованием парадигм ReAct, Plan-and-Solve и Reflexion показали пугающие результаты: вероятность успеха атаки (ASR) достигает 78,3%. Данные подтверждают, что удары по уровню логики наиболее летальны — более чем в половине случаев агенты приходили к консистентным, но абсолютно ложным выводам. Это уже не просто технический сбой, а коллективная галлюцинация, срежиссированная извне.

Для бизнеса, внедряющего автономные рабочие процессы в логистике или управлении инфраструктурой, вердикт неутешителен: текущие методы защиты, заточенные под автономные языковые модели, здесь бесполезны. Мы имеем дело со структурной уязвимостью, где надежность системы определяется не мощностью моделей, а самым слабым звеном в цепи их общения. Без разработки специфических иерархических протоколов безопасности любой «умный» рой агентов остается карточным домиком, готовым рассыпаться от одного расчетливого входящего пакета.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыБезопасность ИИКибербезопасностьJD.com

Эффект домино в ИИ: как атака HAM3 разрушает мультиагентные системы