Уязвимость TTT: почему адаптивное обучение рушит безопасность ИИ

Технология Test-Time Training (TTT) долгое время считалась «Святым Граалем» для систем со сложной логикой вывода. Ее суть заключается в том, что модель адаптирует свои веса прямо в процессе работы, подстраиваясь под специфику конкретной задачи. Однако недавнее исследование специалистов из Центра Хельмгольца по информационной безопасности (CISPA) и Кёльнского университета (Симоне Антонелли, Садег Ахондзаде, Александр Бойчевски) доказывает, что такая динамичность превращается в идеальный бэкдор для злоумышленников.

Как только мы позволяем нейросети обновлять параметры во время инференса, вся тщательная настройка безопасности, проведенная на этапе обучения с подкреплением (RLHF), обесценивается. Хакеры получают рычаг влияния не просто на входные данные (промпты), а непосредственно на архитектуру модели в момент генерации ответа. В такой парадигме классические методы защиты оказываются бессильны.

Статистика исследования выглядит удручающе для сторонников концепции «безопасного ИИ». Ученые обнаружили, что использование адаптеров LoRA в рамках TTT-моделей позволяет довести показатель успешных атак (ASR@10) до 95% и 93% в зависимости от сценария. Статические фильтры и этические ограничения, которые разработчики внедряли месяцами, обходятся всего за несколько градиентных шагов на базе вредоносного запроса. Фактически, модель «переучивается» игнорировать правила безопасности быстрее, чем успевает выдать первое предложение текста.

Для бизнеса, планирующего внедрение автономных агентов на базе TTT, это серьезный сигнал к пересмотру стратегии. Статические барьеры (guardrails) больше не гарантируют защиты в среде, где веса модели изменчивы. Команда Антонелли подтвердила, что уязвимость сохраняется даже при использовании стандартных API для тонкой настройки, а значит, проблема носит системный характер. Исследователи предлагают внедрять детекторы на стороне провайдера для отслеживания резких скачков перплексии, но пока это выглядит лишь как попытка наклеить пластырь на открытый перелом.

Наращивание вычислительных мощностей на этапе вывода (test-time compute) — это новый фронт производительности LLM, но он фундаментально ломает текущую парадигму безопасности. Нельзя полагаться на неподвижные фильтры, если модель меняет собственную «личность» в процессе диалога. Корпоративному сектору придется либо смириться с рисками взлома нового уровня, либо инвестировать в инструменты динамического выравнивания, способные работать со скоростью обновления весов самой модели.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиБезопасность ИИКибербезопасностьМашинное обучение

Уязвимость TTT: адаптивное обучение ИИ открывает двери для хакеров