Утечки в LLM: как стиль выдает корпоративные секреты

Передовые языковые модели физически не способны изолировать конфиденциальную информацию, даже если они получили прямую инструкцию «хранить молчание». Исследование Ари Хольцмана из Чикагского университета и Питера Уэста из Университета Британской Колумбии подтверждает: современные архитектуры LLM страдают от непроизвольной семантической утечки, которую невозможно перекрыть обычными фильтрами токенов. Как только в контекстное окно попадает секрет — будь то системный промпт, цепочка рассуждений (CoT) или проприетарные данные — открывается канал утечки, который модель просто не в состоянии закрыть. Внутренние представления, используемые для обработки конфиденциальных данных, неизбежно «просачиваются» в косвенные признаки: от выбора тематики до имен персонажей и общей стилистики.

Методология эксперимента напоминает сеанс цифрового допроса. Исследователи использовали бинарный дискриминатор, чтобы выявить «секретные слова» в рассказах, написанных пятью топовыми моделями, включая Llama, Claude 3 Opus и GPT-4. Результат обескураживает: даже если запретные слова ни разу не появились в тексте, утечка информации достигает 79%. По оценке Хольцмана и Уэста, это не случайный шум, а статистически значимый паттерн, который легко считывается другой моделью. Особенно иронично выглядит попытка «активного избегания»: когда модели приказывают намеренно скрывать секрет, она начинает так агрессивно уводить тему в сторону, что создает аномальное «тематическое отторжение». Этот специфический след становится цифровым отпечатком того самого секрета, который модель пытается подавить.

Для бизнеса это означает крах иллюзии безопасности в RAG-системах и автономных агентах. Как следует из отчета, масштаб утечки растет вместе с размером модели — то есть самые «умные» и способные решения оказываются наиболее болтливыми. Текущая архитектура ИИ не обеспечивает надежного разделения уровней доступа. Любая интеллектуальная собственность или конфиденциальная инструкция в промпте потенциально доступна оппоненту, способному декодировать стилистические паттерны. Пора признать очевидное: если модель что-то знает, это знание рано или поздно окажется в ее ответе. Использовать промпты в качестве сейфа для корпоративных секретов — стратегия, обреченная на провал.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиБезопасность ИИКибербезопасностьИИ в бизнесе