Прогнозирование трехмерной структуры РНК долгое время оставалось «узким местом» структурной биологии. Моделирование РНК значительно сложнее работы с белками: эта молекула обладает экстремальной гибкостью, а объем экспериментальных данных катастрофически мал. Согласно публикации в журнале Nature Machine Intelligence, команда Yang-Server представила trRosettaRNA2 — систему глубокого обучения, призванную преодолеть эти ограничения. Главным архитектурным решением здесь стал вспомогательный модуль вторичной структуры (SS-prior). Его обучали на обширных массивах данных о вторичных структурах, не дожидаясь появления редких 3D-шаблонов. Это позволяет модели превращать хаос последовательностей в жесткие пространственные каркасы, опираясь на информацию о спаривании оснований. Результат налицо: в ходе слепого тестирования CASP16 группа Yang-Server с этой моделью стала лучшим автоматизированным сервером, оставив позади даже AlphaFold 3.
Техническое превосходство trRosettaRNA2 обеспечивается механизмом внимания, учитывающим структуру (structure-aware attention). В отличие от стандартных моделей, которые ищут лишь статистические корреляции, эта система учитывает физическую геометрию молекулы непосредственно в процессе вычислений. Как следует из отчета разработчиков, это позволяет генерировать не просто одно статичное изображение, а набор различных конформеров — пространственных вариаций одной и той же молекулы. При этом trRosettaRNA2 обходится значительно меньшим числом параметров и вычислительных ресурсов, чем конкуренты. Во время демонстрации на примере РНК рибонуклеазы P модель успешно восстановила ансамбль конформаций без каких-либо экспериментальных данных, выявив структурное разнообразие, которое традиционные алгоритмы попросту игнорируют.
Для бизнеса успех trRosettaRNA2 означает переход от штучного моделирования к серийному проектированию синтетических РНК-сенсоров и таргетных препаратов. На наш взгляд, это прямой путь к радикальному сокращению циклов исследований и разработок (R&D): дорогостоящие «мокрые» лаборатории частично заменяются высокопроизводительным цифровым прогнозированием. Тем не менее, остаются вопросы к стабильности предсказаний в динамических средах. Граница точности нынешнего подхода упирается в архитектурные лимиты нейросетей при работе с крайне подвижными молекулами. Фармацевтическим гигантам стоит принять к сведению: пока это высокоточные цифровые аппроксимации, и финальная валидация в клетке по-прежнему остается обязательным этапом, пусть и на гораздо более узкой выборке кандидатов.