Лечение рака — это классическая задача принятия последовательных решений в условиях, когда врач видит лишь верхушку айсберга, а реальное состояние пациента скрыто за латентной гетерогенностью. Традиционное обучение с подкреплением (RL) здесь пасует: оно наивно предполагает, что правила игры неизменны. Но, как отмечают Дениз Саргун (Amazon), Х. Бугра Тулай (HP) и Дж. Эмре Коксал (Ohio State University), онкология — это среда с пластичной динамикой. Терапия не просто двигает пациента по заданной траектории, она ломает и перестраивает сами механизмы болезни, смещая долгосрочные равновесия. Для мутирующего, адаптивного противника стандартные методы контроля — слишком грубый инструмент.

От контроля состояний к планированию в пространстве убеждений

Исследователи предлагают сменить парадигму: вместо попыток контролировать траекторию состояния перейти к планированию в пространстве убеждений (belief-space planning) через активный инференс. В этой модели процесс лечения представлен как частично наблюдаемый марковский процесс принятия решений (POMDP) с жесткими ограничениями. Система не просто реагирует на симптомы, она управляет эволюцией «состояния убеждения» — вероятностного распределения латентных переменных: генетики, иммунного ответа и физиологии. Цель — привести это распределение к клинически желаемому результату, не выходя за рамки бюджета на измерения. Это признание честного факта: истинное состояние опухоли и качество жизни пациента никогда не известны до конца, их можно лишь вычислять по разреженным и неоднородным данным.

В стандартных формулировках оптимального управления действия влияют на мгновенное состояние, пока динамика системы остается фиксированной. В онкологии же интервенции индуцируют пластичную динамику: лечение навсегда меняет механизмы болезни и сдвигает точки равновесия.

Активный инференс реализует принцип свободной энергии, превращая выбор действия в минимизацию ожидаемой свободной энергии (EFE). Это создает информационно-теоретический функционал, который естественным образом балансирует прагматический контроль и поиск знаний. Модель не просто ищет оптимальную дозу препарата — она вычисляет «эпистемическую ценность» каждого анализа. Разлагая цель на риск (соответствие цели), двусмысленность (неопределенность наблюдений) и прирост информации, фреймворк позволяет ИИ математически обосновать, когда инвазивный тест оправдан необходимостью снизить неопределенность в динамике конкретного пациента.

Персонализация через латентную гетерогенность

Сила метода — в работе с индивидуальными атрибутами, которые неизвестны априори. Используя данные AACR Project GENIE Biopharma Collaborative, Саргун и соавторы доказали, что их подход позволяет одновременно классифицировать пациента и поддерживать высокую эффективность терапии. Поскольку планирование идет в пространстве убеждений, модель в процессе лечения «дообучается» под уникальные модели переходов и наблюдений конкретного человека. Это элегантно решает дилемму «исследование vs эксплуатация»: алгоритм сдерживает прогрессирование болезни и параллельно выводит специфику организма из ограниченной обратной связи, заставляя терапию адаптироваться к биологическим изменениям «на лету».

Переход от ИИ как статического диагноста к ИИ как активному контроллеру биологических систем выглядит логичным, но путь от препринта на arXiv до клинического протокола завален юридическими и техническими обломками. Сложность вычислений высокоразмерных POMDP и этическая ответственность за дозировку, назначенную «черным ящиком», остаются главными барьерами. Для техлидов здесь важен фундаментальный вывод: в системах, где ваши действия меняют сами правила игры — будь то онкология или волатильные рынки, — активный инференс дает математическую строгость там, где классический RL бессильно галлюцинирует.

ИИ в здравоохраненииМашинное обучениеИскусственный интеллектActive Inference