Автономные лабораторные исследования требуют чего-то большего, чем просто правдоподобный текст протокола. Для реальной работы в биологии научный замысел должен быть жестко привязан к физическим ограничениям, валидности на уровне железа и обратной связи от приборов. Команда из Шанхайской лаборатории искусственного интеллекта (Shanghai AI Lab) и Genoria AI представила ProtoPilot — многоагентную систему, которая пытается перебросить мост через эту пропасть. Исследователи под руководством Янькая Цзяна и Мэна Яна справедливо указывают: идея становится экспериментом только тогда, когда она переведена на язык конкретных реагентов, объемов и манипуляций, которые не «окирпичат» дорогую установку. Грань между естественно-языковой целью и исполняемым кодом обычно слишком хрупка, так как черновик протокола — это лишь промежуточное звено, а не готовый продукт.
Послойная верификация и библиотека навыков
ProtoPilot решает проблему сложности «мокрой» лаборатории через внедрение послойной верификации. Система не просто выплевывает блок кода, она разворачивает стандартные операционные процедуры (SOP) и синтезирует команды, совместимые с SDK, учитывая специфику лабораторной посуды и условий инкубации. В отчете Shanghai AI Lab поясняется, что разные уровни системы устраняют разные типы неопределенности: если логика протокола отвечает за биологическую суть, то SOP приземляет эту логику до конкретных объемов и концентраций. Использование обновляемой библиотеки навыков (skill library) позволяет агенту корректировать свои действия на основе фидбека из реального мира. Это и есть механизм самоэволюции: когда вместо бесконечных «галлюцинаций в пробирке» модель учится на собственных ошибках в физической среде.
ProtoPilot сочетает послойную верификацию, оркестрацию агентов и обновляемую в реальном времени библиотеку навыков для генерации протоколов, расширения SOP и исправления рабочих процессов на основе данных из лаборатории.
Настоящий секрет здесь кроется в формализации петли обратной связи. Если запуск проваливается или выдает аномальные данные, система не тупо повторяет задачу, а запускает процесс ревизии плана. Это превращает LLM из болтливого чат-бота в надежный контроллер физических процессов. В тестах с использованием сборки ДНК методом PCA система успешно использовала данные из лаборатории для уточнения процедур, доказав, что разрыв между цифровой инструкцией и биологическим результатом преодолевается итеративно.
Бенчмаркинг против физической реальности
Для проверки надежности исследователи разработали экспертный бенчмарк из 294 задач в области синтетической и молекулярной биологии. Эти задачи базируются на 98 «золотых» протоколах и оценивались по критериям экспертов-биологов и техническим шлюзам валидности приборов. Данные показывают, что ProtoPilot достиг уровня предпочтения экспертов (Top@3) в 90,2%. Но куда важнее для индустрии другой показатель: общая проходимость пути «от протокола к коду» составила 96,6%. Это резко контрастирует с существующими костылями: например, на «железе» Opentrons система показала результат 88,2%, в то время как специализированный OpenTrons-AI буксует на отметке 32,4%.
Фреймворк охватывает 294 задачи, основанные на эталонных протоколах, экспертных оценках и реальных экспериментальных тестах с проверкой на уровне аппаратных шлюзов.
Валидация системы включала продукты, подтвержденные секвенированием по Сэнгеру, что дает верифицируемый путь к по-настоящему автономным исследованиям. Рассматривая конвертацию протокола в код как многоэтапную задачу автоматизации, а не как простой перевод, ProtoPilot обходит ловушки, в которые попадают менее продвинутые модели. Исследователи подтвердили, что система справляется с научной аргументацией и отслеживанием образцов даже в сложных молекулярных работах, соблюдая жесткие ограничения дозаторов. Бутылочное горлышко в AI-науке сместилось из области чистого разума в область точности трансляции намерений в физические действия. Успех ProtoPilot напрямую зависит от инфраструктуры и специфических SDK производителей, но сигнал для техлидов очевиден: эффективные агенты в биологии — это не те, что складно пишут, а те, что умеют работать с верифицируемой обратной связью.