Современные веб-агенты на базе LLM уперлись в «стену данных», которая грозит похоронить амбиции по превращению чат-ботов в автономных исполнителей. Пока модели бодро рапортуют о поиске информации, их реальный прогресс зажат в тиски дефицита масштабируемой разметки. По данным Salesforce AI Research, существующие бенчмарки вроде Mind2Web или WebArena — это ручной труд, дающий лишь грубую связку «старт-финиш». В итоге модели остаются слепыми к промежуточным состояниям и действиям, которые и составляют суть реальной навигации. Без достоверных траекторий агенты просто переобучаются на крошечных датасетах, пасуя перед любой многоходовой задачей.
Solving the Bottleneck of Manual Supervision
Индустриальная зависимость от ручной разметки — это не только дорого, но и неэффективно. Команда Тенгхао Хуана из Salesforce AI Research совместно с коллегами из USC и UC Davis подчеркивает: текущие попытки автоматизации либо запредельно дороги, либо предвзяты. Традиционные модели исследования сайта склонны выбирать очевидные пути, игнорируя критические функции. Этот «перекос исследователя» ведет к тому, что огромные пласты функционала остаются невидимыми для модели. Агент, обученный на таких данных, мгновенно деградирует, если задача требует чего-то сложнее, чем заполнение простой формы в один клик.
"Existing benchmarks are largely manually constructed, providing only coarse start–goal annotations without intermediate trajectories."
Решением Salesforce стал фреймворк GTA (Generating Long-Horizon Tasks for Web Agents at Scale). Система разделяет физический процесс сканирования страниц и логику создания задач. Вместо галлюцинаций архитектура GTA опирается на реальный граф сайта, гарантируя, что сценарии исполнимы в текущих условиях веба. Пайплайн уже обкатали на 50+ ресурсах, включая госсервисы и e-commerce. Это дает ту самую «плотную» супервизию: мы учим агента не просто попадать в точку Б, а понимать каждый шаг маршрута.
Process-Level Supervision Over Simple Results
Ключевой сдвиг в методологии GTA — фокус на процессуальном контроле (process-level supervision). Для руководителей по технологиям это принципиальная разница между ботом, который случайно «ткнул и угадал», и системой, следующей верифицируемой бизнес-логике. Качество здесь обеспечивается детерминированным воспроизведением и системной валидацией. В отличие от моделей-фантазеров, GTA использует механизм генерации на основе поиска (retrieval-based seeding), выстраивая цепочки, требующие долгосрочного планирования. Исследователи обнаружили колоссальный разрыв между возможностями ИИ и человека в многоходовых сценариях: «интеллект» нынешних агентов на поверку оказывается куда слабее, чем обещают в маркетинговых буклетах.
"Web navigation is naturally a hidden Markov process, where the critical uncertainty lies in the unobserved intermediate states and actions."
Формализуя генерацию сложных задач, Salesforce создает саморазвивающуюся среду. Это позволяет пользователям генерировать актуальные сценарии под «живой» интернет, а не полагаться на статические датасеты, которые устаревают сразу после обновления интерфейса сайта. Для бизнеса это означает переход к агентам, способным закрывать цепочки из 20+ шагов в CRM и ERP-системах с той же процедурной строгостью, что и штатный сотрудник.
Релиз GTA знаменует отказ от обучения «черных ящиков» в пользу прозрачных траекторий. Пока пропасть между ИИ и человеком в сложных сценариях остается глубокой, возможность генерировать бесконечный поток валидных данных радикально поднимает технический потолок автономности. Вам стоит уже сейчас внедрять элементы процессуального контроля в свои пайплайны автоматизации: агент должен отчитываться за логику пути, а не только за конечный результат.