Надежность молекулярного машинного обучения столкнулась с серьезным препятствием на границе изученного химического пространства. В то время как индустрия возлагает огромные надежды на внедрение глубокого обучения в процессы раннего поиска лекарств, предсказательная способность моделей резко падает, как только они сталкиваются со структурами, отличными от обучающей выборки. Согласно отчету Nature Machine Intelligence, поиск структурно новых «хитов» — это не просто научный азарт, а вопрос выживания бизнеса и обхода патентных тупиков. Однако дискретные молекулярные данные имеют неприятное свойство: они часто резко отклоняются от выученных алгоритмом распределений. Для фармкомпаний это означает, что классический ИИ-скрининг нередко оказывается лишь дорогостоящим способом найти «то же самое», не предлагая прорывных решений, например, для борьбы с лекарственной устойчивостью.
Чтобы устранить эти структурные слепые зоны, исследователи предложили метод совместного моделирования (Joint Modeling). Он объединяет прогнозирование свойств молекул с их реконструкцией. В основе лежит метрика «незнакомости» (unfamiliarity) — своего рода встроенный компас: пока одна часть модели пытается угадать биоактивность, другая пробует восстановить молекулу из скрытого представления. Если процесс реконструкции идет со сбоями, показатель незнакомости растет. Это служит четким сигналом: молекула находится в «серой зоне» или вовсе за пределами понимания алгоритма. Анализ более 30 наборов данных подтвердил, что unfamiliarity — надежный индикатор того, стоит ли доверять прогнозу ИИ, прежде чем выделять бюджет на дорогостоящий химический синтез.
Эта стратегия уже перешла из разряда теорий к валидации в «мокрой» лаборатории с вполне конкретными результатами. В тестах на двух клинически значимых киназах исследователи использовали данный подход, чтобы выявить семь соединений с микромолярной активностью. Что принципиально важно: эти молекулы имели минимальное сходство с объектами, на которых модель обучалась изначально. Фокус на границах химического пространства меняет экономику виртуального скрининга. Теперь это не гонка объемов, а стратегическая разведка, сокращающая путь от гипотезы до синтеза за счет отсева малозначимых итеративных вариаций.
Впрочем, определенные ограничения сохраняются: даже самая изящная метрика не заменит фундаментальные физические законы в абсолютно неизведанных областях. Показатель unfamiliarity подсвечивает моменты, когда модель начинает гадать, но не наделяет её магическим знанием физики. Для фармацевтических гигантов это означает конец эпохи «простого ускорения». Конкурентное преимущество теперь будет не у того, чья база данных больше, а у того, кто точнее ориентируется в вакууме отсутствующих данных, превращая границы химической ойкумены в предсказуемую зону для открытий.