Эпоха больших языковых моделей породила новую вычислительную парадигму, в которой ИИ-агенты автономно взаимодействуют с терминалами и API, выполняя многошаговые задачи. Проблема заключается в том, что такая самостоятельность создает колоссальный вакуум в области безопасности. Исследователи Алайя Солко-Бреслин из Пенсильванского университета и Кришнамурти (Dj) Движотхам из Google DeepMind констатируют: агенты склонны к сбоям даже в доверенной среде из-за логических ошибок, а в руках злоумышленников превращаются в инструмент эксфильтрации данных с помощью промпт-инъекций. Существующие защитные фреймворки пытаются адаптировать классические референсные мониторы для перехвата вызовов инструментов, но сталкиваются с проблемой детерминизма: они не умеют работать с двусмысленностью реальных данных.
Ловушка двусмысленности в Datalog
Традиционные мониторы используют язык Datalog для соблюдения политик безопасности, однако их возможности ограничены бинарной логикой. На практике детекторы персональных данных (PII) или системы классификации контента ошибаются с определенной долей вероятности. Как объясняют Солко-Бреслин, Мудракарта, Кристодореску, Джа и Движотхам, попытка просто установить жесткий порог срабатывания — это путь к катастрофе. Высокие пороги пропускают вредоносные действия, а низкие — парализуют работу, блокируя полезную нагрузку. Главная беда в том, что в сложных системах предикаты коррелируют между собой, и классический вероятностный вывод здесь не работает.
Существующие подходы ограничены детерминированными политиками, которые игнорируют контекстную неопределенность.
Чтобы вырваться из этого тупика, авторы предложили использовать метод распределительно-робастной оптимизации. Вместо того чтобы гадать, как связаны разные риски, система вычисляет строгие верхние границы вероятности нарушения политики, независимо от корреляций между предикатами. Этот математический маневр гарантирует: даже если детектор PII и монитор доступа к файлам выдают одинаковый «шум», общая гарантия безопасности остается в силе. Мы переходим от примитивного выбора «разрешить или заблокировать» на уровне одного инструмента к оценке всей траектории действий агента.
Промышленная эффективность против математической строгости
Команда протестировала фреймворк на бенчмарках для терминальных агентов, чтобы доказать жизнеспособность концепции в реальных условиях. Основной вызов заключался в том, чтобы сохранить математическую точность (soundness), не превратив работу агента в бесконечное ожидание ответа от монитора. Исследование показывает, что новый подход значительно превосходит существующие аналоги по балансу безопасности и полезности. Например, когда агент помогает сотруднику отправлять контракты, система в реальном времени просчитывает риск утечки конфиденциальных данных из файловой системы, не полагаясь на упрощенные и часто ложные предположения о независимости событий.
Ограничения и серые зоны
Несмотря на серьезный прогресс, предложенная методология — не панацея. Сейчас система сфокусирована на вычислении верхних границ риска, что оставляет за бортом ряд нюансов вероятностной логики. Мониторинг всей истории траектории агента неизбежно усложняет управление состоянием системы. Для бизнеса это означает, что хотя мы и получаем щит от случайных утечек и захваченных цепочек инструментов, общая эффективность все еще завязана на качестве исходных вероятностных предикатов.
Результаты DeepMind открывают путь к развертыванию ИИ-агентов в критически важных узлах, где стопроцентная уверенность недостижима. Переход от детерминированного Datalog к вероятностному позволяет создавать гибкие, контекстно-зависимые политики, которые не рассыпаются при столкновении с реальностью. Однако владельцам инфраструктуры стоит помнить: любая система безопасности сильна лишь настолько, насколько надежны ее сенсоры, а работа с длинными и запутанными траекториями действий агентов потребует дальнейшей оптимизации вычислительных затрат.