Галлюцинации LLM: почему это дефект архитектуры, а не данных

Языковые модели все чаще внедряются в критически важные бизнес-процессы, где адекватная оценка собственной правоты становится вопросом безопасности. Однако новое исследование, опубликованное в журнале Nature Machine Intelligence, доказывает: внутреннее «чувство уверенности» нейросетей нарушено на фундаментальном уровне. Вместо рационального байесовского обновления знаний, когда модель логически корректирует выводы при получении новых данных, LLM демонстрируют когнитивные искажения, подозрительно похожие на человеческое упрямство.

Авторы работы выявили два конфликтующих фактора, которые мешают моделям быть объективными. Первый — это «искажение в пользу сделанного выбора». Как только нейросеть выдает первичный ответ, показатель ее уверенности искусственно завышается. Модель начинает цепляться за первоначальную ошибку, даже если ей предъявляют прямые доказательства обратного. Эта структурная ригидность заставляет ИИ игнорировать логику ради сохранения внутренней согласованности.

Парадокс заключается в том, что это упрямство соседствует с патологической гиперчувствительностью к критике. Исследование показывает: модели непропорционально сильно реагируют на внешние возражения по сравнению с подтверждающими советами. Иными словами, нейросеть корректирует свою оценку уверенности гораздо агрессивнее, когда ей говорят, что она не права, чем когда ее хвалят. По мнению авторов, это отклонение от оптимального процесса рассуждения стабильно проявляется в различных архитектурах — от простых фактологических запросов до сложных логических цепочек. Для руководителя это важный сигнал: «уверенность» ИИ — не статистическая реальность, а результат борьбы внутренних предубеждений.

Основная проблема кроется в ошибке калибровки. Традиционные методы — измерение необработанных логитов или прямой вопрос модели об уровне ее уверенности — не работают. Как следует из отчета, LLM не способны использовать эти внутренние метрики для управления собственным поведением. В финтехе или медицине слепое доверие к самоотчетам модели недопустимо. С нашей точки зрения, это делает внедрение систем внешней верификации (калибровки уверенности) обязательным, поскольку архитектурно модели слепы к собственным багам.

Что это значит для индустрии: исследование переводит дискуссию о галлюцинациях из плоскости «плохих данных» в плоскость дефектной архитектуры. Текущие LLM фундаментально не подходят для принятия автономных решений в зонах высокого риска. Для технических директоров приоритет смещается с промпт-инжиниринга на создание систем технического контроля (Alignment), способных подавлять внутреннюю самоуверенность алгоритма. Вопрос остается открытым: можно ли в принципе обучить нейросети истинной байесовской логике, или имитация интеллекта неразрывно связана с этой имитацией «собственного мнения»? Пока ответа нет, разрыв между убежденностью ИИ и его правотой остается бизнес-риском, который придется закрывать экспертам-людям.

Источник: Nature Machine Intelligence →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиБезопасность ИИИИ в бизнесеГенеративный ИИ