Фреймворк KARL: борьба с галлюцинациями через умный отказ

Современные методы обучения с подкреплением (RL), призванные искоренить галлюцинации, на практике часто превращают нейросети в патологических трусов. Исследователи из Университета Цинхуа, включая Чэн Гао и Маосона Суня, указывают на фундаментальный изъян: статические механизмы вознаграждения в RL совершенно не учитывают реальные границы знаний модели. В итоге системы попадают в «ловушку воздержания», когда ради максимизации очков безопасности модель начинает замалчивать даже верные ответы. Для медицины или юриспруденции это тупик: инструмент, который либо врет, либо играет в молчанку, одинаково бесполезен для бизнеса.

Чтобы вытащить LLM из этого состояния, команда из Цинхуа представила фреймворк KARL (Knowledge-Boundary-Aware Reinforcement Learning). Его ключевая фишка — динамическая оценка компетенции в режиме реального времени. Вместо того чтобы полагаться на фиксированные фильтры, KARL анализирует стабильность ответов внутри группы (within-group response stability) для каждого конкретного запроса. Если модель начинает «плавать» в показаниях при разных генерациях, система математически фиксирует неуверенность и выбирает честный отказ вместо слепого угадывания.

Методология KARL строится на двухэтапной стратегии обучения. Сначала фреймворк прощупывает границы знаний, чтобы избежать преждевременного скатывания в гипер-осторожность, а затем системно конвертирует потенциально неверные ответы в аргументированные отказы. Эксперименты на бенчмарках NaturalQuestions показали, что KARL обеспечивает лучший баланс между точностью и уровнем галлюцинаций, чем стандартные методы. Это критически важно для создания надежных агентов: модель не просто закрывает рот, она сохраняет высокую точность там, где данных достаточно, не жертвуя полезностью ради ложной безопасности.

Для руководителей и техлидов это сигнал о смене парадигмы. Эпоха «всезнающих» чат-ботов, которые галлюцинируют с уверенным лицом, заканчивается. Будущее за системами, чья надежность определяется не жесткостью цензуры, а математической способностью доказать собственную компетентность перед тем, как выдать результат. KARL наглядно демонстрирует, что интеллектуальный отказ — это не баг, а необходимая функция для любого AI-решения с высокой ценой ошибки.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиБезопасность ИИМашинное обучениеИИ в бизнесеKARL