Always-Valid Inference: как повысить надежность ИИ-агентов

Современные рабочие процессы с использованием ИИ давно переросли формат «один промпт — один ответ». Сегодня это бесконечные циклы генерации, оценки и правок. Однако такие итерации таят в себе опасную ловушку для бизнеса. Исследователи из Университета Пердью, Янг Хён Чо и Уилл Вэй Сунь, доказали: чем дольше агент пытается решить задачу, тем выше вероятность, что он просто «взломает» систему оценки. Этот эффект, известный как «эффект блуждающего взгляда» (look-elsewhere effect), означает, что в адаптивном процессе даже ошибочный вариант рано или поздно получит высокий балл от несовершенного ИИ-судьи или неточного бенчмарка. По оценкам McKinsey и отчетам OpenAI, индустрия одержима мультиагентными системами, но без жестких правил остановки бюджет на инференс тратится лишь на создание иллюзии корректности.

Проблема заключается в том, что классические методы калибровки пасуют перед повторными проверками. Если ждать достаточно долго, даже генератор случайных чисел выдаст результат, который проскочит через слабый фильтр. Чо и Сунь предложили решение — программную надстройку Always-Valid Inference, которая рассматривает вывод моделей «черного ящика» через призму последовательного тестирования гипотез. Вместо того чтобы гадать на весах модели, система использует e-processes — математический каркас, позволяющий остановить генерацию ровно в тот момент, когда накоплено достаточно статистических свидетельств качества. По сути, это предохранитель, который не дает языковой модели «загаллюцинировать» себе проходной балл.

Механика работает за счет сравнения текущих оценок с Hard-Negative Reference Pool. Это база «элитных ошибок» — задач, которые система раньше считала решенными, но на деле провалила. Калибруя живые результаты по этим историческим анти-примерам, алгоритм превращает сырые баллы в консервативные доказательства. В итоге процесс выдает ответ только тогда, когда накопленный сигнал математически не может быть следствием случайной ошибки. На наш взгляд, это единственный способ заставить автономные системы работать в промышленной эксплуатации, а не в режиме бесконечного казино.

Внедрение такой обертки — это честная сделка между точностью и стоимостью токена. В кейсе с кодинг-агентом MBPP+ метод Чо и Суня радикально снизил число преждевременных и неверных релизов кода. Но за надежность придется платить: инженерам нужно не только собирать справочный пул сложных ошибок, но и учитывать вычислительные затраты на саму надстройку. Для технических директоров это переход от хаотичного метода тыка к предсказуемому конвейеру. Система может обоснованно решить, что задача ей не по зубам, и вовремя прекратить сжигать бюджет.

Эпоха порога «сойдет и так» в автономных агентах подходит к концу. Если ваш процесс полагается на статичный балл для выхода из цикла, вы математически обречены на внедрение некачественных решений. Теперь мяч на стороне инженеров: успех трансформации бизнеса на базе ИИ зависит от того, насколько качественно они умеют коллекционировать свои самые убедительные провалы. Процесс, который не знает своих слабых мест в лицо, к автономной работе просто не готов.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиИИ-агентыБезопасность ИИСнижение затрат