Исследователи из Университета Вандербильта пришли к выводу, что молекулы — это своего рода специфический текст, а значит, пришло время отказаться от дорогостоящего поиска методом проб и ошибок в лабораториях. В своей работе для журнала Nature Machine Intelligence Сюй Го, Селия М. Рава и Эллисон С. Уокер представили базовую модель, которая дешифрует природные соединения с помощью механизмов внимания (Attention), преобразуя химические структуры в лингвистические последовательности.

По сути, авторы применили синтаксический анализ к биологически активным веществам: если у молекулы есть своя «грамматика», то ее свойства можно предсказать так же эффективно, как следующее слово в ChatGPT. Методология команды Уокер базируется на наработках Юйхэна Дина по предварительному обучению моделей на малых молекулах. Вместо того чтобы тратить миллионы долларов на физические тесты в поисках «иголки в стоге сена», алгоритм обучается на массивах данных хемоинформатики. Это позволяет распознавать закономерности «химического языка» еще до того, как лаборант прикоснется к пробирке.

Для бизнеса это означает радикальный переход от слепого скрининга к генеративному дизайну: риск ошибки на этапе идентификации кандидатов падает, а сроки вывода препарата на рынок сокращаются до приемлемых значений. Это классический пример того, как перенос технологий из обработки естественного языка (NLP) решает проблему совокупной стоимости владения (TCO) в фармацевтике. Вычислительная предсказательная сила модели становится интеллектуальным фильтром, который отсекает заведомо тупиковые варианты.

Тем не менее, не стоит ждать, что нейросеть мгновенно заменит «мокрую» химию. Как признают авторы из Вандербильта, финальная верификация остается за человеком. Однако экономика R&D меняется безвозвратно: теперь основные затраты переносятся из области бесконечных тестов в сферу качественного обучения моделей. Вопрос лишь в том, кто из игроков Big Pharma первым интегрирует этот «химический синтаксис» в свои производственные цепочки, чтобы перестать сжигать бюджеты на случайный перебор соединений.

Большие языковые моделиИИ в здравоохраненииСнижение затратМашинное обучениеУниверситет Вандербильта