Почему RLHF мешает ИИ имитировать поведение человека

Попытки сделать ИИ удобным и безопасным привели к неожиданному побочному эффекту: современные чат-боты разучились понимать, как на самом деле думает человек. Пока бизнес примеряет LLM на роль цифровых двойников для маркетинговых тестов или обучения HR, свежее исследование консорциума Helmholtz Munich доказывает: чем «умнее» и покладистее становится ассистент, тем меньше в его поведении остается человеческого.

Провал алайнмента

В основу анализа лег датасет Psych-201 — колоссальный массив из 26 миллионов ответов, полученных от 208 000 реальных участников в сотнях поведенческих экспериментов. Исследователи столкнули лбами базовые модели семейств Qwen3, Llama3 и OLMo с их «причесанными» версиями, прошедшими через дообучение (SFT) и настройку с подкреплением (RLHF). Результат оказался обескураживающе стабильным: «сырые» модели, натренированные просто предсказывать следующее слово, на голову превосходят своих оптимизированных потомков в прогнозировании реальных человеческих реакций.

Те самые шаги обучения, которые превращают языковые модели в полезных помощников, лишают их способности адекватно моделировать поведение людей.

Эта деградация наиболее заметна в моделях, заточенных под рассуждения и четкое следование инструкциям. Базовые алгоритмы органично считывают эвристики и когнитивные искажения, которые определяют человеческий выбор. Напротив, пост-тренинг (RLHF) насильственно заталкивает модель в рамки «нормативных», логически верных и вежливых ответов. Пытаясь стать идеальным логическим костылем, ИИ стирает из памяти человеческие странности, иррациональность и ментальные короткие пути — всё то, без чего достоверная симуляция общества невозможна.

Деградация поколений и миф о персоне

Данные исследования подсвечивают пугающий тренд: чем мощнее становится база от версии к версии, тем сильнее она расходится со своим «дружелюбным» вариантом. В переходе от Qwen2 к Qwen3 сырые модели стали лучше понимать паттерны человеческой речи, но их алайненные версии ушли в сторону еще дальше. Это указывает на системный конфликт: современные стандарты безопасности в индустрии фундаментально несовместимы с психологическим реализмом.

Для топ-менеджмента и UX-исследователей это означает жесткий лимит на использование топовых чат-ботов вроде GPT-4 или Claude в качестве прокси для фокус-групп. Модель, обученная быть полезной и логически последовательной, не может адекватно имитировать живого человека, который зачастую ни тем, ни другим не является. Использование «стерилизованных» ассистентов для маркетинговых тестов или симуляции политики компании создает иллюзию предсказуемости, игнорируя реальную человеческую непредсказуемость. Если бизнесу нужны высокоточные социальные симуляции, придется возвращаться к работе с сырыми Raw-моделями и учиться снимать с них цензурный налет.

Источник: The Decoder →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиБезопасность ИИДообучение моделейИИ в маркетингеПсихология

Кризис эмпатии: почему «вежливый» ИИ больше не понимает людей

Провал алайнмента

Деградация поколений и миф о персоне