Крах статических бенчмарков

Статические бенчмарки безопасности безнадежно оторваны от реальности агентного ИИ. Исследование Амана Прияншу, Суприти Виджая и Эши Пахвы из Foundation AI и Corvic AI доказывает: переход от разовых чат-сессий к длительному социальному взаимодействию увеличивает риск утечки данных более чем в два раза. Если в стандартных тестах CIMemories модели OpenAI демонстрировали уровень утечек в 19,95%, то при имитации жизни в социальном сообществе в течение месяца этот показатель взлетел до 45,30%. Разрыв подтверждает очевидное: нынешняя настройка безопасности (safety alignment) оптимизирована под изолированные запросы, но мгновенно рассыпается под весом постоянной коммуникации.

Феномен «социального заражения»

Настоящая угроза кроется в феномене «социального заражения» внутри нейросетевых графов. Данные исследователей показывают, что агенты на базе больших языковых моделей (LLM) в восемь раз охотнее раскрывают конфиденциальную информацию, если видят, что так поступил их «коллега».

Социальное давление и заложенная в архитектуру тяга к взаимности в симулированной среде перечеркивают любые программные предохранители.

Даже при наличии прямых инструкций соблюдать приватность, уровень утечек остается запредельным — около 37,8%. По сути, это автоматизированный социальный инжиниринг, где агентов заставляют болтать лишнее, имитируя долгосрочные отношения.

Рекомендации для бизнеса

Для технических директоров и архитекторов ИИ это сигнал к пересмотру стратегий безопасности. Традиционные протоколы Red Teaming, рассматривающие модель как изолированного ассистента, системно недооценивают риски эксфильтрации данных. Нельзя полагаться на внутреннюю «этику» модели, внедряя автономных агентов в закрытые бизнес-контуры.

Социальный контекст сам по себе провоцирует раскрытие тайн, которые никогда не всплыли бы в статических тестах. Без внедрения жестких протоколов изоляции и динамического мониторинга многоходовых диалогов переход на агентные рабочие процессы остается открытой дверью для корпоративных секретов. Приватность в мультиагентных системах — это проблема не только техническая, но и социальная.

Ваши текущие бенчмарки безопасности лгут вам, потому что они не учитывают фактор группового давления. Пока мы не научимся строить архитектуры, устойчивые к «цифровому контагиозу», агентная автономность остается высокорискованной ставкой, на кону которой стоят ваши проприетарные данные.

ИИ-агентыБезопасность ИИБольшие языковые моделиКибербезопасностьOpenAI