AMix-1: Байесовские законы масштабирования в протеомике

Эра гадания на белковой гуще уступает место математическому расчету. Консорциум под эгидой Шанхайской лаборатории ИИ и Университета Цинхуа представил AMix-1 — базовую модель протеомики на 1,7 млрд параметров, которая радикально меняет правила игры в биоинженерии. Пока индустрия топчется на стандартных диффузионных моделях, AMix-1 переходит на Bayesian Flow Networks (BFN). Это не просто академическая забава: байесовские потоки позволяют моделировать структуру белка с прецизионностью, которая раньше была доступна только языковым моделям в текстах. Для биотех-сектора это означает конец эпохи «черных ящиков» — теперь эффективность дизайна можно предсказать еще до того, как будет сожжен первый доллар на облачные вычисления.

Смена парадигмы: от диффузии к байесовским потокам

Архитектурное ядро AMix-1 отказывается от привычных шаблонов в пользу непрерывного информационного потока. Как пояснили исследователи из Института промышленного ИИ (AIR) при Цинхуа, команда вывела строгие законы масштабирования (Scaling Laws), позволяющие гарантировать результат. Вместо того чтобы надеяться на удачу при обучении, разработчики теперь могут точно рассчитать оптимальную производительность модели при фиксированных вычислительных затратах (FLOPs). Анализ кривых потерь показывает, что AMix-1 не просто зазубривает последовательности, а усваивает фундаментальную физику фолдинга, что превращает биоинженерию в предсказуемый индустриальный процесс.

AMix-1 построена на фундаменте из четырех столпов: законов масштабирования, эмерджентных способностей, in-context learning и масштабирования времени инференса.

Test-Time Scaling и «думающая» биология

Самый прагматичный прорыв для фарминдустрии — внедрение алгоритма эволюционного масштабирования во время инференса (test-time scaling). В мире LLM принцип «думай дольше — отвечай лучше» стал стандартом; AMix-1 переносит эту логику в биологию. Используя подход in-silico направленной эволюции, модель позволяет обменивать вычислительное время на биологическую точность. Лаборатория может просто увеличить бюджет на верификацию в процессе генерации, чтобы получить более жизнеспособные варианты белка. В ходе «мокрых» тестов эта методика позволила создать вариант белка AmeR, активность которого в 50 раз превышает показатели дикого типа.

Система демонстрирует кратный рост качества при увеличении бюджета на проверку гипотез, создавая основу для автономных циклов лабораторного дизайна следующего поколения.

Этот механизм дополняется возможностями in-context learning на базе множественного выравнивания последовательностей (MSA). Подобно тому как ChatGPT адаптируется к новому контексту по нескольким примерам, AMix-1 распознает эволюционные паттерны в новых белковых семействах без дообучения. В результате циклы R&D сокращаются: генерация жизнеспособного кандидата происходит с первой попытки, минуя бесконечные итерации проб и ошибок. AMix-1 доказывает, что законы масштабирования, правящие в Кремниевой долине, одинаково эффективны и в пробирке. Теперь биотех-стартапы могут рассматривать вычислительные мощности как прямой эквивалент биологической пригодности продукта. Вопрос лишь в том, насколько быстро эта цифровая эволюция синхронизируется с роботизированными мощностями реальных лабораторий.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Искусственный интеллектИИ в здравоохраненииНейросетиAMix-1

Математика вместо интуиции: как модель AMix-1 превращает биодизайн в производство

Смена парадигмы: от диффузии к байесовским потокам

Test-Time Scaling и «думающая» биология