OpenAI переключает внимание на проблему супервыравнивания (superalignment) — неудобную реальность, где человечеству придется контролировать системы, которые на голову выше его в интеллектуальном плане. Традиционные методы вроде RLHF (обучение с подкреплением на основе отзывов людей) строились на уютной презумпции, что человек — самый умный в комнате. Однако, как признает команда супервыравнивания OpenAI, эта модель рассыпается, когда ИИ выдает миллионы строк кода или такие стратегии, которые эксперт не в состоянии даже проверить, не то что верифицировать. Решение ищут в парадоксальном фреймворке «weak-to-strong»: теперь слабые модели будут пытаться наставлять своих более продвинутых преемников.

Главные результаты эксперимента

В недавнем эксперименте исследователи заставили GPT-2 «курировать» обучение GPT-4. Главный бизнес-риск здесь очевиден: сильная система может просто скопировать ошибки и ограниченность своего «глупого» учителя, искусственно занизив собственный потолок. Но цифры показывают обратное.

Сильные предобученные модели способны вытягивать скрытые знания и обходить своих наставников. Использование метода, поощряющего уверенность модели вопреки мнению куратора, позволяет достигать высоких результатов. OpenAI удалось дотянуть возможности GPT-4 до уровня GPT-3.5, имея в качестве «учителя» лишь примитивную GPT-2.

На наш взгляд, это доказывает важный тезис: сверхразуму не нужен идеальный педагог, чтобы преуспеть, но ему необходима архитектура, позволяющая обобщать данные за пределами кривых инструкций.

Последствия для R&D и бизнеса

Для руководителей R&D это сигнал, что предел производительности ИИ не зашит намертво в квалификации разметчика. Если архитектура выравнивания позволяет модели «думать самостоятельно», она найдет верные паттерны даже в зашумленном надзоре.

По мере того как возможности ИИ обгоняют человеческую экспертизу, ваш технический долг будет все больше включать в себя разрыв супервыравнивания. Переход OpenAI от ручного фидбека к надзору «модель-модель» означает, что контроль в будущем станет автоматизированным. В этой конфигурации человеку отводится роль стратегического архитектора, а не прямого надсмотрщика, судорожно пытающегося проверить работу, которую он больше не понимает.

Искусственный интеллектБезопасность ИИБольшие языковые моделиOpenAI