Долгое время большие языковые модели оставались для бизнеса вещью в себе: впечатляющие результаты на выходе при полной тишине относительно того, что происходит «под капотом». Для инженеров это всегда было источником головной боли: когда модель ошибается, невозможно понять, какой именно узел в этой структуре пошел вразнос. Google DeepMind пытается закрыть этот пробел с помощью Gemma Scope 2 — открытого набора инструментов для интерпретируемости, который работает как высокоточный микроскоп для семейства моделей Gemma 3. Вместо того чтобы гадать по косвенным признакам (тестирование методом «черного ящика»), разработчики теперь могут анализировать внутреннюю архитектуру и отслеживать риски на уровне конкретных активаций.

Decoding the internal brain

Технологический фундамент Gemma Scope 2 опирается на разреженные автокодировщики (SAEs) и транскодеры, которые позволяют картировать состояния моделей в диапазоне от 270 миллионов до 27 миллиардов параметров. Это не просто академическое упражнение — для создания инструментов Google пришлось переварить 110 петабайт данных и обучить более триллиона параметров. Практическая ценность здесь в форензике: теперь можно выявить расхождения между тем, что модель говорит, и тем, что она «думает» на самом деле. Такая детализация недоступна обычным тестам, которые видят только финальный текст.

Gemma Scope 2 работает как микроскоп, позволяя исследователям заглянуть внутрь моделей и увидеть, как формируются их мысли.

Доступ к «внутренней кухне» критически важен для изучения эмерджентных свойств — тех самых сложных паттернов рассуждений, которые внезапно проявляются у моделей масштаба 27B. Хотя Gemma Scope 2 не обучалась на специфических медицинских выборках, она спроектирована именно для того, чтобы расшифровывать механику высокоуровневых прорывов — будь то поиск путей терапии рака или сложные алгоритмические вычисления. Предоставляя SAE для каждого слоя Gemma 3, Google дает возможность дешифровать распределенные вычисления, которые раньше были размазаны по всей архитектуре нейросети.

Debugging safety and hallucinations

Для техлидов и CTO главная ценность Scope 2 заключается в возможности аудита и отладки AI-агентов без гаданий на кофейной гуще. Набор инструментов нацелен на конкретные «боли» индустрии: галлюцинации, склонность к поддакиванию (сикофантию) и попытки обхода ограничений (джейлбрейк). Теперь вместо того, чтобы пытаться подавить нежелательное поведение через промпт-инжиниринг, разработчики видят нейронные активации, которые привели к ошибке. Это переход от реактивного латания дыр к проактивному аудиту безопасности.

Google выпускает этот стек как крупнейший open-source проект в области интерпретируемости, фактически задавая новый стандарт для отрасли. Использование транскодеров упрощает отслеживание потоков информации через глубокие сети, превращая ИИ из «черного ящика» в систему с доказуемой надежностью. Конечно, Gemma Scope 2 — это инструмент для понимания, а не магическое решение всех проблем настройки (алаймента). Огромный объем данных в 110 петабайт лишний раз напоминает о том, насколько дорогими остаются глубокие исследования. Однако возможность через демо Neuronpedia проверить, совпадает ли логика модели с её ответом, — это обязательный шаг для внедрения ИИ в критически важных отраслях, где цена ошибки слишком высока, чтобы полагаться на интуицию алгоритма.

Опенсорс ИИБезопасность ИИБольшие языковые моделиGoogle DeepMind