EvoMD-LLM: Трансформация молекулярной динамики в программный код ИИ
Большие языковые модели долгое время оставались заложниками статики: они отлично рассуждают о структуре, но пасуют перед физикой динамических процессов. Группа исследователей из Шанхайского университета Цзяотун (Shanghai Jiao Tong University), включая Жичэня Тана (Zhichen Tang) и Яньмина Вана (Yanming Wang), представила фреймворк EvoMD-LLM, который пытается исправить этот врожденный дефект. Авторы переформулировали реактивную молекулярную динамику, отказавшись от традиционного отслеживания координат в пользу символьного моделирования временных рядов.
Вместо того чтобы мучить нейросеть обсчетом траекторий, разработчики дискретизировали события молекулярной динамики в последовательности символов. По сути, химические превращения превратили в текст, понятный стандартным авторегрессионным моделям. Ключевым элементом системы стало так называемое «временное структурирование» (temporal scaffolding). Как следует из отчета команды, этот метод вводит длительность каждого события как отдельный лингвистический токен. Это создает жесткое индуктивное смещение: модель понимает не только что во что превращается, но и сколько времени «живет» конкретный вид до трансформации.
Результаты впечатляют: EvoMD-LLM показала точность до 66,14% в задачах временного прогнозирования, оставив далеко позади классические последовательные нейросети.
Еще любопытнее, что модель научилась интерпретировать свои предсказания, используя внутренние химические знания, хотя ее никто не обучал на связках «траектория — объяснение». Это наглядный пример того, как глубокое обучение вытягивает скрытые закономерности из «сырых» данных о реакциях.
Для R&D-подразделений в фармацевтике и материаловедении это прямой сигнал к смене парадигмы. Мы видим постепенный отказ от запредельно дорогих физических симуляций в пользу нейросетевого прогнозирования. Замена непрерывного трекинга координат дискретной символьной эволюцией позволяет просчитывать пути реакций с минимальными вычислительными затратами.
Будущее молекулярного дизайна явно лежит в плоскости изучения «грамматики» химических процессов, которую генеративный AI осваивает быстрее любого суперкомпьютера. Успех EvoMD-LLM — это история о том, как состыковать непрерывное физическое движение с дискретным миром токенов. Сделав время семантическим модификатором, исследователи создали чертеж для «заземления» LLM в реальной динамике.
На наш взгляд, этот символьный подход спровоцирует волну новых инструментов моделирования, где жизненный цикл молекулы станет важнее ее статического снимка.