Языковые модели растут в масштабах быстрее, чем человечество успевает осознать их внутреннюю логику. Пока индустрия заливает рынок новыми релизами, системы остаются «черными ящиками», где обнаружить предвзятость или намеренный обман на уровне «сырых» выходных данных практически невозможно. Команда OpenAI решила сменить тактику и перешла к стратегии автоматизированного выравнивания (alignment): теперь GPT-4 выступает в роли следователя, изучающего механизмы работы более простой GPT-2. Логика Сэма Альтмана и компании проста до цинизма: если люди не способны вручную проверить миллиарды параметров, значит, нужно создать ИИ, который сделает это за нас.

Трехэтапный цикл аудита

Методология OpenAI рассматривает отдельные нейроны как первичные единицы анализа. Раньше для этого требовались эксперты-интерпретаторы, которые буквально попиксельно изучали активации, пытаясь понять, на какие признаки реагирует сеть. На моделях с сотнями миллиардов параметров такой подход выглядит как попытка осушить океан чайной ложкой. В новом рабочем процессе OpenAI заменила человека на GPT-4. Сначала модели скармливают фрагменты текста и соответствующие им показатели активации нейрона GPT-2. На основе этих данных GPT-4 должна выдать объяснение поведения нейрона на естественном языке.

«Эта работа — часть третьего столпа нашего подхода к исследованиям выравнивания: мы хотим автоматизировать саму работу по выравниванию», — отмечают в OpenAI.

За генерацией следует фаза симуляции: GPT-4 должна предсказать, как «виртуальный» нейрон, соответствующий её собственному описанию, поведет себя на новых данных. В финале эти предсказания сверяются с реальными активациями GPT-2. Так система получает количественную оценку — скор, который показывает, насколько галлюцинации интерпретатора близки к реальности. Этот цикл обратной связи позволяет измерять точность интерпретаций без надзора со стороны профильных специалистов.

Границы автоматизированного надзора

Несмотря на масштабируемость, результаты пока далеки от идеала. OpenAI опубликовала базу данных объяснений для каждого нейрона GPT-2, но цифры отрезвляют: многие нейроны остаются «необъяснимыми». Точность интерпретации резко падает, когда дело касается сложных паттернов, которые не втискиваются в простые лингвистические концепты. GPT-4 часто грешит тем, что создает правдоподобно звучащее обоснование работы нейрона, которое полностью рассыпается при первой же проверке симуляцией.

На самом деле мы наблюдаем фундаментальный сдвиг от ручного ресерча к автоматизированному мониторингу. Теоретически, с ростом интеллекта надзирающих моделей качество объяснений будет расти пропорционально. Для CTO и руководителей разработки это четкий сигнал: в будущем аудит комплаенса и безопасности будет доверен «супервайзеру», который в реальном времени отслеживает внутренние состояния рабочих моделей на предмет признаков манипуляции или предвзятости. Низкие оценки текущих тестов показывают, что до полной прозрачности еще далеко, однако OpenAI уже создала работающий каркас для инспекции архитектур, которые слишком велики, чтобы человек мог понять их в одиночку.

Безопасность ИИБольшие языковые моделиАвтоматизацияOpenAI