Безопасность нейросетей под угрозой: как ранжирование токенов выдает веса моделей
Защита проприетарных активов в сфере искусственного интеллекта через сокрытие полных значений лоджитов (logits) больше не гарантирует сохранность параметров. Исследование Университета Южной Калифорнии и Эдинбургского университета доказывает: простое ранжирование токенов — банальный порядок слов по убыванию вероятности — служит уникальной геометрической «подписью» модели.
Как обнаружил Мэтью Финлейсон и его коллеги, низкоранговый слой деэмбеддинга (unembedding layer) создает так называемое «узкое место софтмакса» (softmax bottleneck). Это ограничивает выходы модели крошечным, специфическим для конкретной системы подмножеством возможных ранжирований. Проще говоря, сама последовательность предлагаемых слов выдает параметры финального слоя системы.
Практика показывает, что злоумышленник может использовать эти рейтинги для воссоздания весов почти так же эффективно, как если бы у него был доступ к сырым данным вероятностей.
Пока провайдеры API старательно ограничивают доступ к лоджитам, чтобы предотвратить инверсию промптов и прямой «угон» параметров, подпись в виде ранжирования остается предательски красноречивой. Единственное утешение для владельцев платформ: размер выборки top-k, необходимый для идентификации модели, обычно меньше того, который требуется для её полной кражи. Если ограничить ответы API достаточно малым числом токенов, можно сохранить проверяемую подпись, не отдавая при этом ключи от всей интеллектуальной собственности.
Новые правила корпоративного шпионажа
Это открытие радикально меняет правила игры в индустрии. Ранжирующую подпись описывают как первую известную «полиномиально неподделываемую», поскольку поиск другого набора весов, дающих идентичные результаты — задача из категории NP-трудных.
По оценке команды Финлейсона, это позволяет владельцам доказывать аутентичность или факт утечки весов, просто сверяя их с ответами API. Безопасность интерфейсов требует немедленного пересмотра: даже безобидная на первый взгляд выдача вариантов автодополнения слов теперь работает как высокоточная карта внутренней геометрии системы. Стандартные функции top-k в коммерческих ИИ-сервисах могут невольно транслировать архитектуру модели конкурентам.
Вопрос о том, сколько компаний прямо сейчас добровольно раскрывают свои технологические секреты через публичные интерфейсы, остается открытым.