Интерпретируемость ИИ: Anthropic раскрыла секреты Claude 3

Непрозрачность больших языковых моделей долгое время оставалась главным барьером для их внедрения в критически важные бизнес-процессы. Исследователи из Anthropic под руководством Криса Олаха и Адли Темплтона представили результаты, которые могут покончить с эпохой «черных ящиков». Команда успешно применила метод разреженных автоэнкодеров (SAE) к Claude 3 Sonnet — своей актуальной модели среднего веса. Это не просто академический успех, а доказательство того, что методы «обучения словарям», ранее работавшие лишь на простых архитектурах, масштабируются до систем промышленного уровня.

Engineering the Dictionary of Concepts

Фундаментальная проблема интерпретируемости — «суперпозиция», когда один нейрон отвечает за десятки несвязанных концептов. Чтобы распутать этот узел, в Anthropic использовали SAE для декомпозиции внутренних активаций на миллионы отдельных признаков. В ходе эксперимента команда обучила автоэнкодеры на 34 миллиона признаков, извлеченных из остаточного потока (residual stream) среднего слоя модели. Эти признаки работают как тематический словарь, позволяя идентифицировать конкретные паттерны без ущерба для производительности самой нейросети.

«Мы обнаружили разнообразие высокоабстрактных признаков. Они не только реагируют на поведение модели, но и становятся его причиной».

Данные показывают, что эти признаки мультилингвальны и мультимодальны. Один и тот же «узел» в словаре активируется при упоминании концепта в тексте, на изображении и независимо от языка ввода. Исследователи нашли не только маркеры городов или знаменитостей, но и гораздо более сложную логику: отслеживание сигнатур типов в коде и поиск программных ошибок. Это подтверждает, что Claude 3 Sonnet оперирует концептуальными смыслами, а не просто перебирает статистические вероятности слов.

Direct Control Over Safety-Relevant Behaviors

Главная ценность прорыва — в возможности прямого контроля за безопасностью. Anthropic выделила признаки, отвечающие за деструктивные паттерны: ложь, стремление к власти, подхалимство и предвзятость. Как пояснили авторы работы, эти признаки служат «рычагами управления». Принудительная активация или подавление конкретных нейронов позволяет предсказуемо менять поведение модели. Фактически это дает инженерам инструмент для мониторинга и нейтрализации вредоносных сценариев еще до того, как они попадут в выдачу пользователю.

Текущий словарь признаков все еще неполон. Вычислительная стоимость извлечения данных остается экстремально высокой. Индустрии не хватает строгого математического подтверждения точности этих признаков.

Исследование знаменует переход интерпретируемости из разряда научного любопытства в категорию прикладных инженерных инструментов. Доказав, что законы масштабирования работают и для SAE, Anthropic предложила индустрии чертеж для «вскрытия черепной коробки» LLM. Хотя мы все еще не понимаем каждое вычисление внутри Claude 3 Sonnet, возможность манипулировать абстрактными концептами вроде предвзятости напрямую открывает путь к надзору за AI не через внешние фильтры, а через глубокий внутренний контроль.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиБезопасность ИИМашинное обучениеAnthropic

Вскрытие «черного ящика»: как Anthropic научилась читать мысли Claude 3

Engineering the Dictionary of Concepts

Direct Control Over Safety-Relevant Behaviors