Эпоха профессионально выглядящих галлюцинаций в науке подходит к концу — подразделение Google Cloud AI Research инициировало жесткий аудит автономных агентов. Современные ИИ-исследователи уже научились штамповать препринты, которые внешне не отличить от работ уровня Nature, но за этим фасадом скрывается системный кризис. Как подчеркивают Руи Мэн, Бхавана Далви Мишра и Джефенг Чен, отрасль столкнулась с «провалом верифицируемости»: агенты без зазрения совести выдумывают цитаты, рисуют недостижимые результаты экспериментов и описывают методы, которые не имеют ничего общего с их же кодом. В типичном автономном конвейере ошибки не просто сохраняются, они масштабируются: некорректный литературный обзор порождает ложную гипотезу, та диктует ошибочный эксперимент, а на выходе мы получаем технически грамотный текст, который фундаментально оторван от реальности.
Архитектура Chain-of-Evidence
Чтобы приземлить ИИ на почву фактов, команда Google представила Chain-of-Evidence (CoE) — фреймворк, где каждое утверждение обязано иметь «цифровую родословную». Эта логика вшита в систему ScientistOne. В отличие от стандартных моделей, которые вытаскивают ссылки из параметрической памяти (проще говоря, угадывают, как должен называться источник), ScientistOne прослеживает путь данных от первой прочитанной статьи до финальной строчки в PDF-файле.
«Существующие протоколы оценки... проверяют лишь внешнюю презентацию (то, как читается работа) и формальное завершение этапов, но игнорируют связь конкретных выводов с доказательствами».
Принудительная привязка текста к проверяемому коду и базам данных предотвращает «дрейф» агента, который обычно случается, когда контекстное окно перегружается, а цепочка рассуждений становится слишком длинной. Исследователи внедрили аудит целостности CoE, состоящий из четырех этапов: верификация метрик, проверка на нарушение спецификаций, валидация ссылок и контроль соответствия метода программному коду. Это создает технологический «пол» качества, ниже которого работа просто не будет признана валидной.
Аудит галлюцинаций: цифры против хайпа
Анализ 75 работ, созданных пятью различными системами, обнажил пропасть между маркетинговыми обещаниями и реальностью. У базовых моделей уровень галлюцинаций в библиографии достигал 21%, а верификацию результатов проходили лишь 42% работ. Хуже всего дела обстоят с соответствием описанного метода реальному коду: здесь разброс составил от 20% до 80%. ScientistOne на этом фоне выглядит как отличник в классе прогульщиков: это единственная система, показавшая нулевой уровень галлюцинаций на 337 ссылках и идеальный результат в проверке метрик.
«ScientistOne — единственная система, достигшая нулевого показателя галлюцинаций в ссылках (0/337) и безупречной верификации данных (12/12)».
Бенчмарки доказывают, что честность не идет в ущерб продуктивности. ScientistOne сравнялась с экспертами-людьми в пяти передовых исследовательских задачах и поставила SOTA в Parameter Golf. Более того, система взяла «золото» в тестах MLE-Bench, где другие автономные агенты позорно капитулировали. Это подтверждает наш тезис: магия ИИ-исследований не в генерации гладкого текста, а в строгом соблюдении экспериментальной логики.
Для R&D-департаментов этот сдвиг означает переход от использования ИИ как «литературного негра» к полноценному верифицируемому партнеру в лаборатории. Внешний лоск больше не является гарантией технической правды. Без жестких фреймворков вроде Chain-of-Evidence автономные исследования остаются лишь генераторами сложного информационного мусора. Поскольку ScientistOne уже адаптируют для медицины и 3D-моделирования, бремя доказательства перекладывается на саму архитектуру системы. Если вы внедряете ИИ в свои циклы разработки, приоритетом должна стать не читаемость отчетов, а внедрение программного аудита, который в состоянии сопоставить каждое слово в отчете с исходным кодом эксперимента.