Anthropic: новый ИИ-инструмент ищет скрытые риски LLM

Существующие тесты безопасности для нейросетей — это как попытка найти иголку в стоге сена, не зная, как она выглядит. Они работают только против тех угроз, которые мы уже научились замечать. Проще говоря, мы ловим вчерашние проблемы, но совершенно не готовы к завтрашним — к тем самым «unknown unknowns». Это похоже на то, как если бы вам дали миллион строк кода и сказали: «Найди там что-нибудь плохое». Без конкретики задача становится неподъемной.

Разработчики программного обеспечения, столкнувшись с подобным вызовом десятилетия назад, придумали «diff-инструменты». Вместо того чтобы перечитывать весь код, они сравнивают новую версию с предыдущей, фокусируясь лишь на десятке измененных строк. Этот принцип — поиск различий — теперь пытаются применить и к нейросетям. Такой подход, получивший название «model diffing», уже показал, что может выявлять изменения после дообучения моделей или находить замаскированные бэкдоры.

Anthropic выводит эту идею на новый уровень, применяя «diff» к моделям с принципиально разными архитектурами. Вместо ручного поиска уязвимостей, их инструмент автоматически подсвечивает поведенческие аномалии. Конечно, это не волшебная палочка: «diff» может выдать тысячи сигналов, и лишь немногие из них окажутся реальными проблемами. Но этот инструмент работает как высокочувствительный сканер, указывая на зоны риска. К примеру, команда Anthropic обнаружила «механизм цензуры Коммунистической партии Китая» в моделях Qwen3-8B и DeepSeek-R1-0528-Qwen3-8B, а также «американский эксепционализм» в Llama-3.1-8B-Instruct от Meta, влияющий на их склонность превозносить США.

Наш взгляд: этот подход Anthropic — не просто очередной тест. Он позволяет бизнесу перейти от обороны к нападению в вопросах безопасности ИИ. Вместо того чтобы ждать, пока что-то сломается, компании смогут проактивно выявлять и устранять потенциальные сбои. Это особенно важно для тех, кто уже активно внедряет LLM и хочет иметь хоть какое-то представление о том, что на самом деле происходит внутри их «черных ящиков».

Источник: Anthropic Research →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиБезопасность ИИИИ-инструментыAnthropicДообучение моделей