Почему аудит ИИ-агентов терпит неудачу: риск галлюцинаций

Стандартная практика оценки ИИ по финальному ответу окончательно расписалась в своей беспомощности при переходе к автономным агентным системам. В промышленных сценариях вроде мониторинга дата-центров агенты теперь живут в циклах «мысль — действие — наблюдение» (Thought-Action-Observation). Как следует из свежего отчета исследователей IBM и Колумбийского университета, традиционные бенчмарки в упор не видят структурных отклонений, возникающих в середине процесса. Результат — траекторные галлюцинации: на выходе мы получаем внешне корректный ответ, под которым погребена гора процедурных ошибок. Для бизнеса это мина замедленного действия, угрожающая операционной непрерывности.

Вскрытие «черного ящика» через Trajel

Чтобы вскрыть этот «черный ящик», был представлен фреймворк Trajel. Его задача — проводить аудит всего «следа» агента, а не только финальной точки. Используя размеченные экспертами данные AssetOpsBench, авторы выделили пять типов системных отказов:

Фактические ошибки Референциальные ошибки Логические сбои Процедурные нарушения Инструментальные ошибки (выход за рамки компетенций)

Данные неумолимы: почти половина галлюцинирующих траекторий содержит сразу несколько типов ошибок. Система может верно диагностировать сбой оборудования, но сделать это, проигнорировав протоколы безопасности или перепутав сущности из предыдущих шагов. В реальном секторе это прямой путь к каскадным авариям.

Новый стандарт надежности

Исследование наглядно показывает: детекция с учетом траектории на голову выше стандартной верификации «по факту». Даже автоматические детекторы с высокой бинарной точностью все еще пасуют перед тонкими процедурными сдвигами, часто путая их с обычной логической ошибкой. На наш взгляд, по мере того как компании доверяют агентам управление инфраструктурой, умение локализовать момент, где именно в последовательном цикле началось отклонение, становится новым стандартом надежности.

Оценка агентов исключительно по итоговому результату скрывает системные риски, ведущие к физическим поломкам. Если вы внедряете многоагентные воркфлоу в критические бизнес-процессы, фокус аудита обязан сместиться с того, «что» сказал ИИ, на то, «как» он к этому пришел. В индустрии 4.0 надежность теперь измеряется траекторией, а не красивым слайдом с финальным ответом.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыБезопасность ИИИИ в бизнесеIBM

Траекторные галлюцинации: почему ваш ИИ-агент врет, даже когда дает верный ответ