Безопасность ИИ-агентов: решение Redpanda для защиты данных

Доверять ИИ-агенту интерпретацию собственных прав доступа — всё равно что просить лису охранять курятник, предварительно зачитав ей устав караульной службы. Как отмечают Тайлер Акидау, Тайлер Роквуд, Йоханнес Брюдерль и Марк Миллстоун из Redpanda, современный бизнес столкнулся с фундаментальным архитектурным тупиком. Мы пытаемся внедрить «цифровых сотрудников», которые быстрее людей в тысячи раз, но при этом патологически склонны к галлюцинациям и исполнению чужих команд через промпт-инъекции.

Проблема в том, что в традиционных системах на базе больших языковых моделей (LLM) политики безопасности часто «вшиты» прямо в контекстное окно или поток данных. Для агента такие инструкции носят лишь рекомендательный характер: он может их проигнорировать, неверно истолковать или стереть под давлением хитрого промпта. Чтобы превратить агентов из дыры в безопасности в контролируемый инструмент, Redpanda предлагает концепцию Agentic Data Plane (ADP). Основная идея — использование внеполосных (out-of-band) метаданных. Это инфраструктурные каналы, которые передают сигналы безопасности и контекст параллельно основному потоку, делая их абсолютно невидимыми для самой модели.

Технологический прорыв: Разделение уровней управления

Разделение логики управления и логики исполнения переводит безопасность из шаткой области «промпт-инжиниринга» в плоскость детерминированного контроля. В такой архитектуре агент физически не способен увидеть несанкционированные данные или расширить свои полномочия, поскольку он не контролирует слой метаданных. На практике это превращает систему в жесткую рамку, где действия ИИ ограничены на уровне транспортного протокола, а не вежливой просьбой «не делать плохого».

В новой архитектуре безопасность обеспечивается не инструкциями для модели, а самой структурой передачи данных, к которой у ИИ нет доступа.

Жизнеспособность подхода разработчики демонстрируют на примере системы ребалансировки портфелей, где группы агентов торгуют на изолированных счетах:

Лимиты по сделкам жестко зашиты в транспортные каналы. Права на просмотр баланса конкретных клиентов недоступны для изменения агентом. Агент не может ни прочитать технические метаданные, ни обойти их.

Это единственный способ предотвратить каскадный ущерб, который ИИ способен нанести на машинных скоростях до того, как оператор-человек успеет нажать на «красную кнопку». Мы наконец-то уходим от попыток «уговорить» нейросеть быть честной к созданию среды, где она просто не может быть другой.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыБезопасность ИИКибербезопасностьИИ в бизнесеRedpanda

Хватит уговаривать ИИ: Redpanda представила новый стандарт безопасности агентов