Почему фильтры безопасности LLM бесполезны: математика джейлбрейка

Попытки привить нейросетям хорошие манеры с помощью дообучения столкнулись со структурным барьером. Исследование Института вычислительных технологий Китайской академии наук подтверждает: джейлбрейки — это не случайный мусор в обучающей выборке, а фундаментальное свойство архитектуры трансформеров. Ю Чэнь, Юаньхао Лю и Ци Цао в своей работе описывают это явление как «направления обхода отказа» (Refusal-Escape Directions, или RED). Речь идет о векторах в латентном пространстве, которые позволяют вредоносной семантике проскальзывать мимо фильтров. Проще говоря, модель прекрасно понимает, что запрос опасен, но математическая траектория внутри сети заставляет ее игнорировать триггер блокировки.

Анализ работы операторов модели показывает, что эти лазейки неизбежны. Исследователи разложили RED на составляющие и обнаружили их корни в базовых элементах: слоях нормализации, остаточных связях и терминальных источниках. Чтобы полностью устранить риск обхода безопасности, модулям self-attention и MLP пришлось бы буквально стереть эти вклады. Но проблема в том, что те же самые модули отвечают за логику и генерацию адекватных ответов. Китайские ученые констатируют жесткий компромисс между безопасностью и полезностью (Safety–Utility): абсолютная защита математически требует деградации способностей модели. Хотите стерильную нейросеть? Будьте готовы получить «лоботомированный» калькулятор.

Эта уязвимость выставляет методы вроде обучения с подкреплением на основе отзывов людей (RLHF) в ироничном свете. Джейлбрейки работают за счет подавления сигналов отказа и перевода вредоносных промптов в «серые», якобы безобидные зоны репрезентативного пространства. Поскольку эти пути побега зашиты в сами операторы, модель невозможно научить игнорировать их через стандартное обучение под надзором. Более того, с ростом сложности и размерности моделей количество векторов RED только увеличивается. Чем умнее и многограннее становится система, тем больше у атакующего возможностей для манипуляции.

Для технических директоров и архитекторов ИИ это означает конец эпохи веры во внутреннюю «мораль» алгоритмов. Нельзя исправить архитектурный изъян бесконечным дообучением — это как пытаться заделать дыру в фундаменте, перекрашивая фасад. Стратегия защиты должна смениться: от наивного выравнивания (alignment) к внешним многослойным системам контроля. Относитесь к LLM как к потенциально скомпрометированной среде исполнения и стройте барьеры безопасности как отдельную, жесткую инфраструктуру, которая фильтрует латентные признаки до того, как модель выберет путь обхода.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиБезопасность ИИКибербезопасностьМашинное обучение