Уязвимости безопасности LLM: взлом через GCG и суффиксы

Индустрия искусственного интеллекта пребывает в состоянии опасного самообмана. Компании сжигают бюджеты на safety-alignment, искренне полагая, что если модель научили вежливо отказывать на вредоносные запросы, она будет делать это всегда. Однако реальность, описанная в исследованиях — от алгоритма GCG до концепции refusal direction, — доказывает: между декларативным «извините, я не могу» и реальной устойчивостью под давлением оптимизации лежит пропасть. На поверку безопасность нейросетей оказывается не монолитной стеной, а тонким слоем штукатурки, который осыпается от первого же точного геометрического удара.

Эта история началась летом 2023 года с алгоритма GCG (Greedy Coordinate Gradient). Исследователи наглядно продемонстрировали, что языковую модель можно заставить исполнить любой каприз, просто приклеив к запросу «мусорный» суффикс из набора токенов. Механика здесь цинично проста: оптимизация направлена не на получение конкретного рецепта напалма, а на максимизацию вероятности того, что ответ начнется с утвердительной фразы вроде «Конечно, вот информация...». Как только модель произносит эти первые слова, авторегрессионная инерция заставляет её продолжать в том же духе, обходя любые моральные фильтры.

Геометрическая неизбежность взлома

Самое неприятное для бизнеса: форма атаки — будь то нечитаемый шум GCG или внешне связный промпт AutoDAN — не имеет значения. Важна геометрия векторного пространства. Манипуляции злоумышленников делают одно и то же: они буквально стаскивают активацию модели с единственного «направления отказа» (refusal direction). Это фундаментальная уязвимость архитектуры. Если представить систему безопасности как дверь, то хакеры нашли не отмычку к замку, а способ вынуть дверь из проема вместе с коробкой.

Safety-элаймент не обладает устойчивостью к оптимизации. На открытых моделях white-box градиент пробивает почти всё, и эти суффиксы успешно переносятся на закрытые API, которых атака никогда не видела.

Этот эффект переносимости (transferability) превращает локальный баг в глобальную угрозу. Универсальный суффикс, отработанный на «домашней» нейронке, с высокой вероятностью сработает на ChatGPT, Claude или Llama. Злоумышленнику не нужен доступ к вашей проприетарной системе, чтобы найти в ней дыру — достаточно натренировать атаку на open-source аналоге. В этом геометрическом фатализме ключевым фактором успеха становится так называемый suffix push, а не то, насколько вежливо составлен ваш промпт.

Иллюзия контроля и экономика риска

Попытки защититься от таких атак пока напоминают борьбу с гидрой. Эмпирические фильтры вроде SmoothLLM легко обходятся адаптивными методами. Обучение модели против конкретного типа взлома не дает гарантий защиты от следующего. Налицо жесткая асимметрия: оборона крепка только там, где её измеряли, и мгновенно рушится при столкновении с незнакомой формой воздействия. Для руководителей это означает, что внедрение AI-агентов сегодня — это осознанное принятие риска полной бесконтрольности системы.

Защита всегда догоняет нападение: системы сильны в лабораторных условиях, но пасуют перед реальностью, как только форма атаки меняется.

С ростом моделей до 20 миллиардов параметров и выше классический токен-градиент начинает буксовать — показатель успеха атак (ASR) падает. Но радоваться рано: взломы просто мигрируют в латентное пространство и цепочки рассуждений (chain-of-thought). Там, внутри «черного ящика», старые методы контроля уже не работают. Мы входим в фазу, где безопасность ИИ нельзя просто наклеить сверху на готовый продукт — она либо заложена в фундамент математически, либо отсутствует вовсе. Бизнесу пора признать: текущие архитектуры фундаментально незащищены, и любой ИИ-агент может быть скомпрометирован в любой момент. Строить процессы стоит исходя из этой неудобной правды, а не из маркетинговых обещаний «безопасного ИИ».

Источник: Хабр ML →

Оцените материал

★ ★ ★ ★ ★

Безопасность ИИКибербезопасностьБольшие языковые моделиОпенсорс ИИ

Архитектурная дыра LLM: как «мусорные» суффиксы обнуляют защиту нейросетей

Геометрическая неизбежность взлома

Иллюзия контроля и экономика риска