Почему ИИ-агенты должны планировать действия: конец ReAct

Стандартная архитектура веб-агентов ReAct, которую сегодня внедряют почти в каждый стартап, непригодна для серьезного бизнеса. Исследователи из Беркли (UC Berkeley), включая Жюльена Пьета и Дэвида Вагнера, подтвердили то, что многие архитекторы ИИ подозревали давно: классическая схема «увидел — отреагировал» превращает агента в управляемую марионетку для любого внешнего злоумышленника. Проблема в том, что современный веб — это свалка, где проверенные данные платформ соседствуют с токсичными отзывами пользователей и рекламными скриптами. Как только агент на базе ReAct начинает анализировать контент страницы для выбора следующего шага, он открывает прямой канал для промпт-инъекций. Любой вредоносный код, спрятанный в комментариях на форуме, может перехватить поток управления и заставить модель выполнять чужие команды вместо ваших.

В качестве спасательного круга команда из Беркли предлагает парадигму Plan-Then-Execute (PTE). Идея проста: агент обязан сформировать жесткий программный алгоритм — фактически, граф выполнения задачи — до того, как он вообще коснется «живого» веба. Это создает санитарный кордон. Даже если на странице встретятся зашумленные или вредоносные инструкции, они смогут повлиять на конкретные значения внутри переменных, но не смогут переписать логику планировщика или изменить исходное намерение пользователя. Как следует из анализа бенчмарка WebArena, такой подход на удивление жизнеспособен: 81,28% задач удалось закрыть с помощью чисто программного плана, вообще не вызывая большую языковую модель во время фазы исполнения. Выяснилось, что веб-рутина гораздо предсказуемее, чем пытаются представить евангелисты нейросетей.

Главный вывод исследования — автономность агентов уперлась в инфраструктурный тупик, а не в возможности моделей. Жюльен Пьет справедливо замечает, что текущие инструменты вроде кликов, скроллов и ввода текста слишком гранулярны и привязаны к контексту. Чтобы подход Plan-Then-Execute стал индустриальным стандартом, нам нужно переходить от «гадания по пикселям» к типизированным API уровня задач, превращая хаос веб-интерфейсов в проверяемые функции SDK. Да, это требует ювелирной точности при первичном планировании и делает систему уязвимой к радикальным изменениям верстки сайтов. Однако это единственный вменяемый путь к детерминированной и безопасной автоматизации в условиях, когда открытый интернет напоминает заминированное поле.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыБезопасность ИИАвтоматизацияБольшие языковые моделиUC Berkeley