Бенчмарк RealICU: ошибки ИИ в реанимации

Современные языковые модели в отделениях интенсивной терапии страдают от «диагностической иллюзии». Пока MedTech-стартапы бодро рапортуют об успехах, исследование Технического университета Мюнхена (TUM) и Оксфорда вскрывает неприятную правду: нейросети просто имитируют поведение врачей из прошлого, не понимая сути клинической ситуации. По словам Чэнчжи Шэня и Цзячжэня Паня, нынешние бенчмарки ошибочно принимают действия медиков за абсолютную истину. На деле же врачи часто принимают решения в условиях дефицита времени и неполных данных. В итоге ИИ лишь тиражирует человеческие ошибки, вместо того чтобы осваивать физиологическую логику спасения жизни.

Чтобы вытащить индустрию из этого тупика, исследователи представили RealICU — бенчмарк, который оценивает не «похожесть» на врача, а качество выводов на основе ретроспективного анализа. В отличие от стандартных датасетов, разметку здесь делали опытные клиницисты, пересмотрев всю траекторию болезни пациента с учетом того, чем всё закончилось. Как следует из отчета на arXiv, модели проверяли на четырех «боевых» задачах: оценка статуса, выявление острых проблем, рекомендации по лечению и флагирование смертельно опасных критических признаков (Red Flags). Проверку проводили на массивах RealICU-Gold (детальная разметка 94 пациентов из базы MIMIC-IV) и RealICU-Scale (более 11 тысяч окон, размеченных валидированным ИИ-агентом Oracle). От моделей требовали перерабатывать плотные потоки данных — показатели жизнедеятельности, лабораторные анализы и заметки медперсонала — разбитые на 30-минутные интервалы.

Результаты стали холодным душем для владельцев медицинского бизнеса. Даже продвинутые LLM с расширенным контекстным окном провалились, показав два критических дефекта. Во-первых, выявился фатальный компромисс между полезностью и безопасностью: модели не могут одновременно давать внятные рекомендации и не вредить пациенту. Во-вторых, обнаружился эффект якорения: ИИ мертвой хваткой цепляется за свои первые (часто ошибочные) интерпретации, игнорируя новые данные. Даже специально разработанный агент ICU-Evo с архитектурой структурированной памяти не смог полностью исключить риски опасных назначений.

Для руководителей R&D это сигнал к смене курса. Инвестировать сегодня в «болтливый» ИИ без верифицируемого медицинского рассуждения (reasoning) — значит сознательно масштабировать ошибки прошлого за свои же деньги. Пока модели не научатся пересматривать свои выводы по мере поступления данных, они остаются не помощниками, а юридической и медицинской миной замедленного действия в любой реанимации.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ в здравоохраненииБезопасность ИИБольшие языковые моделиИИ-агентыRealICU