Языковые модели — патологические лжецы, которые врут с лицом уверенного эксперта. Эта проблема калибровки делает внедрение ИИ в финтехе, медицине или юриспруденции игрой в русскую рулетку. Как следует из отчета Ананда Камата, Дэниела Блейка и Брента Вернесса из Amazon, традиционные методы детекции галлюцинаций буксуют, потому что анализируют лишь внешние признаки — текст или распределение вероятностей (logits). Это попытка судить о болезни по кашлю, игнорируя анализы крови.

Исследователи предложили Grad Detect — фреймворк, который переносит фокус с того, что модель «говорит», на то, как её веса реагируют в момент генерации.

Суть метода в анализе послойных градиентных паттернов во время одного прохода forward-backward. Как пояснили авторы, даже когда модель выдает правдоподобную ложь, чувствительность её внутренних параметров — тот самый градиентный след — несет в себе четкую сигнатуру ошибки. Модель буквально сопротивляется собственной лжи на уровне весов.

Главные выводы исследования

Более 97% дискриминативного сигнала сосредоточено в последних пяти слоях модели. Метод позволяет внедрять автоматические фильтры достоверности без колоссальных затрат на внешние проверяющие модели. Извлечение сигналов о корректности происходит на уровне, который принципиально недоступен через стандартные метрики вроде перплексии. Отказ от многократного сэмплинга значительно ускоряет работу систем контроля качества.

На наш взгляд, это важный сдвиг в понимании природы ИИ: системы «знают», когда они галлюцинируют, просто архитектура обучения поощряет их казаться убедительными, а не честными. Для технических директоров это путь к созданию надежных «триггеров воздержания» (abstention triggers). Мы входим в фазу развития ИИ-инфраструктуры, где внутренние «отпечатки пальцев» нейросети становятся весомее, чем любой сгенерированный ею текст.

Большие языковые моделиБезопасность ИИМашинное обучениеИИ в бизнесеAmazon