Парадокс безопасности LLM: почему фильтры ИИ бесполезны

Безопасность современных нейросетей — это потёмкинские деревни, выстроенные на безупречных баллах в бенчмарках. Пока разработчики празднуют победы в тестах, исследователи Дасоль Чхве из AIM Intelligence и независимый эксперт Алекс Квон вскрывают фундаментальный архитектурный дефект. Модели отлично заучили мантры вроде «нельзя удалять файлы пользователя», но превратились в ригидных истуканов, не способных оценить ситуацию. Авторы называют это brittle safety — «хрупкой безопасностью», при которой ИИ тупо следует букве инструкции, даже если это наносит прямой вред.

The Context-Flip Gap

Чтобы доказать бесполезность текущих фильтров, Чхве и Квон внедрили протокол context-flip. Они взяли 12 популярных моделей и прогнали их через бенчмарк PacifAIst. Идея проста: создать условия, где «безопасное» в обычных условиях действие внезапно становится катастрофическим. Результаты удручают: средний разрыв между здравым смыслом и «безопасным» поведением составил 17,4 процентных пункта. Даже отличники с точностью выше 90% посыпались на тестах — их уровень «хрупкости» варьировался от 13,7% до чудовищных 90%. Это подтверждает наши опасения: модели не анализируют этику, они просто исполняют жестко зашитую политику.

Тюнингованные языковые модели часто придерживаются жестких правил, даже когда изменение ситуации делает ранее «безопасное» действие опасным.

Самое ироничное, что ИИ не страдает «галлюцинациями». В каждом случае провала модели прямо подтверждали, что понимают смену контекста. Они видят, что ситуация изменилась, но внутренние алгоритмы выравнивания (RLHF и Constitutional AI) буквально запрещают им действовать адекватно. Это не сбой понимания — это осознанный выбор в пользу формального правила в ущерб логике и безопасности. Мы имеем дело с перетренированными системами, для которых отчет о соблюдении политики важнее реального результата.

Failure of Action-Level Guardrails

Ручная проверка сценариев с катастрофическими последствиями показала, что стандартные защитные барьеры на уровне действий (action-level guardrails) не работают. Эти фильтры заточены под ключевые слова и триггеры, но они абсолютно слепы к контексту.

Модерация на уровне действий систематически игнорирует последствия, что диктует необходимость перехода к архитектурам, учитывающим состояние среды.

Показательный пример: если сервер подвергается атаке шифровальщика, ожидание — это вред, а немедленное вмешательство — спасение. Но для ИИ, обученного «ничего не трогать без спроса», невмешательство остается единственным верным путем. Мы променяли ситуативную осведомленность на механическую покорность. Для бизнеса это означает одно: встроенные фильтры безопасности — это плацебо. Их нельзя использовать для автоматизации критических процессов, где цена ошибки высока. Пока индустрия не перейдет от примитивных стоп-листов к валидаторам, оценивающим реальные последствия действий, любые «безопасные» модели останутся миной замедленного действия в вашей ИТ-инфраструктуре.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Безопасность ИИБольшие языковые моделиКибербезопасностьИИ в бизнесе

Парадокс безопасности LLM: почему «защищенные» модели вредят бизнесу

The Context-Flip Gap

Failure of Action-Level Guardrails