Гендерная предвзятость ИИ в медицине: риски GPT-5.4 и Claude

ИИ-модели давно перестали быть просто «болталками» для генерации текстов, активно претендуя на роль первой линии медицинского триажа. Однако свежее исследование Ци Хань Вона вскрывает системный дефект: нейросети по-разному обрабатывают идентичные неврологические симптомы в зависимости от пола пациента. При одинаковом анамнезе — стойкие головные боли, нечеткость зрения, утренняя тошнота — Gemini 3.5 Flash, Claude Sonnet 4.6 и GPT-5.4-mini систематически занижают срочность госпитализации для молодых женщин. Это не просто «баг» алгоритма, а глубокая когнитивная ошибка, при которой ИИ цепляется за гендерно-ассоциированный диагноз, чтобы оправдать менее интенсивное лечение.

Механизм диагностической подмены

Методология Вона включала 630 тестов со стандартизированными профилями симптомов для разных возрастных групп и полов. Результаты выглядят пугающе: молодые женщины получают направление в отделение неотложной помощи значительно реже мужчин с теми же жалобами. Gemini 3.5 Flash отправила в реанимацию 0% женщин против 23,3% мужчин. Claude Sonnet 4.6 продемонстрировала еще более вопиющий разрыв: лишь 6,7% женщин против 96,7% мужчин. У GPT-5.4-mini показатели составили 6,7% и 66,7% соответственно.

Работа мотивирована известным феноменом в клинической медицине: неврологические и кардиологические симптомы у женщин чаще списывают на доброкачественные или психосоматические причины.

Исследователи называют это «диагностической подменой». Модели предпочитали ставить молодым женщинам диагноз «идиопатическая внутричерепная гипертензия» (ИВГ) — состояние, статистически связанное с женщинами детородного возраста. Мужчинам же диагностировали общее повышенное внутричерепное давление, намекающее на объемные образования в мозге. Поскольку ИВГ считается менее опасной для жизни «здесь и сейчас», ИИ отправлял пациенток на плановый прием, игнорируя собственную же оценку тяжести состояния в 7–9 баллов из 10.

Статистические ловушки и технические барьеры

Предвзятость диктуется эпидемиологическими априорными вероятностями, а не «злым умыслом» кода. Это подтверждается тем, что к 65 годам разрыв в назначениях исчезает — именно в этом возрасте статистика по ИВГ идет на спад. Текущие методы выравнивания не способны вычистить глубокие стереотипы, зашитые в медицинских корпусах данных. Модели попросту переоценивают статистическую вероятность в ущерб клинической безопасности.

Системы ИИ-триажа обязаны отделять оценку срочности от вероятностных диагностических прогнозов.

Для страховых компаний и клиник использование «сырых» нейросетей для первичной сортировки пациентов превращается в огромный юридический риск. Исследование доказывает: клинические нейросети копируют худшие человеческие предубеждения, используя статистические «костыли». Если система не видит разницы между типичным случаем и критическим риском, она остается опасным инструментом для автономного принятия решений.

Интеграция GPT-5.4-mini или Claude Sonnet 4.6 в медицинские рабочие процессы требует фундаментального архитектурного сдвига. Разработчикам пора признать: общий RLHF не лечит гендерную предвзятость. Оценка экстренности ситуации должна быть отделена от вероятности диагноза. Для индустрии это жесткий сигнал: «статистически точные» модели могут быть «клинически преступными», если позволяют демографическим данным подавлять сигналы SOS. Данные Ци Хань Вона — это необходимый бенчмарк для аудита систем до того, как они допустят первую фатальную ошибку на реальном пациенте.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ в здравоохраненииБезопасность ИИБольшие языковые моделиРегулирование ИИ

Диагноз по паспорту: почему ИИ-модели отказывают женщинам в экстренной помощи

Механизм диагностической подмены

Статистические ловушки и технические барьеры