Парадокс медицинских LLM: почему точность скрывает ошибки

Современный MedTech увлекся опасной алхимией: разработчики пытаются упаковать интеллект тяжелых моделей-учителей в компактные системы через дистилляцию цепочек рассуждений (CoT). На бумаге это выглядит как победа эффективности, но на деле индустрия строит высокотехнологичный карго-культ. Исследование Чжаояна Цзяна из Университета Глазго и его коллег из Шанхая и Лондона вскрывает пугающий парадокс: пока точность финальных ответов малых моделей на бенчмарке MedQA-USMLE растет, фактическая целостность их логических шагов стремительно деградирует.

Когда «студент» из семейства DeepSeek-V3 проходит дистилляцию, его точность прыгает с 74,7% до 84,4%. Казалось бы, пора открывать шампанское, но аудит показывает обратное. В медицине правильный ответ — это цель с низкой пропускной способностью, которая часто маскирует отсутствие понимания. Врачу нужна аргументация, а не угаданный диагноз. Группа Цзяна выяснила, что по мере того как модель учится имитировать стиль «учителя», частота ошибок в промежуточных шагах рассуждения взлетает с 30,6% до 50,3%. Малые модели не осваивают логику — они виртуозно копируют «экспертный тон», не подкрепляя свои утверждения фактами.

Высокая цена имитации

В медицинском контексте качество ответа и фактология рассуждений движутся в противоположных направлениях. Этот эффект сохраняется независимо от масштаба модели. Даже когда калибровка (ECE) улучшается и система начинает выглядеть более «уверенной», внутри нее плодятся галлюцинации. Слепой аудит, проведенный экспертами-клиницистами, подтвердил: компактные модели просто подгоняют решение под ответ, используя корреляции в данных, в то время как их клиническое обоснование остается фактически банкротом.

В этой среде точность финального выбора и достоверность пути к нему стали обратно зависимыми величинами.

Риск максимально высок там, где краткий ответ не накладывает жестких ограничений на логику. Если модель выдает верный диагноз на основе абсурдных предпосылок, мы получаем скрытую детонацию в диагностической цепочке. Проблема усугубляется использованием синтетических данных: если дистиллированные «галлюцинации» попадут в обучающую выборку следующих поколений нейросетей, это приведет к накоплению логического мусора в критической инфраструктуре здравоохранения.

Крах стандартных метрик

Слепая вера в бенчмарки создает у технических директоров ложное чувство безопасности. Стандартные тесты не способны выявить момент, когда модель начинает «угадывать». Интеграция таких систем в реальные клиники — это авантюра, где ставка делается на статистическое везение вместо доказательной медицины. Пока оценка не сместится от финального результата к проверке плотности фактов в процессе мышления, использование компактных LLM в диагностике останется опасной игрой в имитацию. Внедрять такие решения сегодня — значит добровольно встраивать в бизнес-процессы генератор уверенного бреда, замаскированного под врачебную логику. Вам жизненно необходим пошаговый аудит, желательно «стилистически слепой», чтобы убедиться, что за красивыми фразами стоит медицинский протокол, а не случайное совпадение весов.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ в здравоохраненииБольшие языковые моделиБезопасность ИИDeepSeek

Ловушка дистилляции: почему умные медицинские нейросети на самом деле глупеют

Высокая цена имитации

Крах стандартных метрик