Стандартные бенчмарки вроде MMLU окончательно превращаются в «среднюю температуру по больнице», которая в реальной клинической или финансовой практике ничего не значит. Когда на кону безопасность пациента или регуляторные риски, общие метрики только маскируют галлюцинации моделей. Свежее исследование, опубликованное на arXiv («Case-Specific Rubrics for Clinical AI Evaluation»), подтверждает: метод использования ИИ в качестве судьи (LLM-as-a-judge) в критических отраслях не работает без жесткой привязки к контексту конкретного случая.

Исследователи пошли по пути тотальной кастомизации: 20 врачей вручную создали 1 646 уникальных оценочных рубрик для 823 клинических случаев в онкологии, психиатрии и первичной помощи. Это кардинальный сдвиг от бессмысленной «средней точности» к протоколам, где каждый шаг алгоритма проверяется на соответствие нюансам конкретного диагноза. Как выяснилось, только такой экспертный диктат позволяет выявить ошибки, которые универсальные тестеры просто не замечают.

Экономика процесса обычно упирается в стоимость человеческого часа: заставлять консилиум проверять каждый черновик нейросети — прямой путь к банкротству R&D-департамента. Однако авторы работы нашли лазейку. Использование экспертных рубрик позволяет масштабировать контроль качества в 1 000 раз дешевле, чем при ручном аудите. Данные впечатляют: согласованность ИИ и врачей (коэффициент Тау от 0,42 до 0,46) оказалась даже выше, чем согласие врачей между собой (0,38–0,43). Это означает, что один раз заданная врачом «золотая логика» оценки позволяет модели эффективно проводить аудит тысяч случаев без потери качества.

Методология показала, что итеративное обучение на таких узкоспециализированных рубриках подняло медианную производительность моделей с 84% до 95%. Для бизнеса в регулируемых нишах — финтехе, праве, медицине — это прямой сигнал: пора перестать молиться на публичные лидерборды. Компании, которые продолжают доверять общим тестам, по сути, летят вслепую, не понимая, стала ли модель умнее или просто научилась мимикрировать под паттерны бенчмарков. Единственный путь к безопасности и масштабированию — инвестиции в собственные проприетарные системы валидации.

Тот факт, что ИИ-агент теперь точнее придерживается медицинских стандартов при анализе документации, чем группа живых экспертов, ставит неудобный вопрос. Возможно, главная проблема внедрения ИИ в консервативные индустрии — это не «глупость» машин, а хроническая непоследовательность самих людей, чьи субъективные оценки годами считались эталоном.

ИИ в здравоохраненииБезопасность ИИБольшие языковые моделиДообучение моделей