ChainCaps: защита ИИ-агентов от отмывания разрешений

Современные архитектуры автономных агентов страдают от критической дыры в безопасности, которую исследователи Цзян (Jiang) и Ян (Yang) метко назвали «отмыванием разрешений» (permission laundering). Сценарий прост и циничен: агент получает доступ к конфиденциальной таблице зарплат, подтягивает отраслевые бенчмарки, упаковывает это в аккуратное саммари и отправляет внешним списком рассылки. С точки зрения классических систем контроля, всё чисто. Чтение файла разрешено, доступ к сети есть, отправка почты легальна. Но на выходе мы имеем классическую утечку данных (exfiltration). Проблема в том, что агенты строят графы вызовов динамически, и ни один статический планировщик не в состоянии предугадать этот каскад на этапе промпта.

Monotonic Capability Attenuation

Чтобы закрыть эту лазейку, команда разработчиков представила ChainCaps — фреймворк, работающий на принципе монотонного затухания возможностей (Monotonic Capability Attenuation). Логика здесь железная: любой порции данных присваивается «бюджет возможностей», который может только уменьшаться или оставаться неизменным при передаче по цепочке инструментов. Если агент смешивает закрытый документ с публичной веб-страницей, итоговый результат наследует ограничения самого строгого источника. Это пересечение (intersection) бюджетов гарантирует, что данные не «отмоются» через переписывание или трансформацию.

Данные могут сохранять или терять права по мере движения по цепи, но они никогда не могут получить новые полномочия через композицию.

В отличие от примитивных скалярных меток, ChainCaps жестко кодирует, до каких именно конечных точек (sinks) может дойти конкретное значение. Технически это реализовано как прокси для Model Context Protocol (MCP). Это решение выглядит максимально прагматичным для бизнеса: вам не нужно переучивать модель или переписывать серверную логику инструментов. ChainCaps работает как слой инспекции, контролирующий движение данных на уровне прокси-сервера.

Performance and Security Boundaries

Эффективность метода проверили на 82 задачах, используя пять топовых моделей. Результат впечатляет: частота успешных атак рухнула с катастрофических 25–68% до ничтожных 0–4,8%. Что особенно важно для бизнеса, закручивание гаек не парализовало работу: система сохранила 96–100% выполнимости полезных задач. ChainCaps оказался на голову выше традиционных методов изоляции функций и контроля информационных потоков (IFC).

Качество манифеста — главное узкое место: экспертно прописанные правила блокируют 100% атак, в то время как небрежные манифесты пропускают почти три четверти угроз.

Нужно понимать, что сила системы напрямую зависит от того, насколько детально инженеры прописали границы инструментов. Если правила доступа сформулированы «на коленке», вся магия затухания теряет смысл. Кроме того, текущая версия ChainCaps ловит только явные потоки данных, видимые прокси-серверу. Вопрос «скрытых» утечек, когда агент передает информацию через логические манипуляции, а не прямой копипаст, остается открытым. Тем не менее, переход от разрешений на уровне инструментов к пересекающимся бюджетам возможностей — это тот стандарт безопасности, без которого выпускать агентов в корпоративную среду сегодня просто безответственно.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыБезопасность ИИКибербезопасностьИИ в бизнесе

Как остановить «отмывание разрешений»: новый стандарт безопасности ИИ-агентов

Monotonic Capability Attenuation

Performance and Security Boundaries