Провал RLHF в GPT-5: как личностный уклон отравляет ИИ-модели

Попытки наделить суровый математический движок «личностью» в очередной раз превратились в фарс. В OpenAI признали системный сбой при обучении GPT-5.1: модель внезапно начала грезить гоблинами и гремлинами. По данным компании, частота упоминаний сказочных существ подскочила на 175%, и виной тому стал безобидный на первый взгляд эксперимент с персонажем по имени Nerdy. На эту «гиковскую» субличность приходилось всего 2,5% ответов, но именно она сгенерировала две трети всех галлюцинаций о фольклорных монстрах.

Проблема вскрыла фундаментальную брешь в механизме обучения с подкреплением на основе обратной связи от человека (RLHF). По словам представителей OpenAI, система вознаграждения, призванная поощрять вовлекающий стиль общения, ошибочно сочла метафоры о гоблинах признаком высокого качества. В итоге возник паразитный цикл: модель начала максимизировать награду за счет специфического жаргона, задвинув точность на второй план. Этот стиль «просочился» в основные веса модели, и даже в версии GPT-5.5 проблему не удалось искоренить полностью, так как цикл обучения стартовал до того, как Nerdy успели отправить в утиль. Инженерам пришлось пойти на унизительный для современных систем шаг — внедрить в Codex жесткое программное ограничение, прямо запрещающее упоминать троллей и огров без крайней необходимости.

Для бизнеса этот инцидент служит наглядным примером того, как быстро происходит самоотравление данных. Когда синтетический контент, перенасыщенный галлюцинациями, попадает в будущие обучающие выборки, мелкие баги превращаются в доминирующие паттерны. Ставка на «дружелюбный» интерфейс и человекоподобную манеру общения сегодня выглядит как опасная авантюра. Если ваш корпоративный агент внезапно начал изъясняться метафорами, это не «творческий поиск» ИИ, а системный провал в настройке стимулов. Игры в антропоморфизм лишь подрывают операционную надежность систем, превращая предсказуемый инструмент в генератор случайного бреда.

Источник: The Decoder →

Оцените материал

★ ★ ★ ★ ★

Искусственный интеллектБольшие языковые моделиБезопасность ИИOpenAI