Бенчмарк AgentSearchBench: почему поиск ИИ-агентов не работает

Эпоха выбора ИИ-агентов по глянцевым маркетинговым описаниям официально подошла к концу. Группа исследователей представила на портале arXiv проект AgentSearchBench — масштабный бенчмарк, призванный решить проблему системного провала при поиске автономных систем в открытых источниках. Как отмечают авторы работы, рынок перенасыщен тысячами решений, однако у бизнеса до сих пор нет вменяемого способа проверить, способны ли эти инструменты работать за пределами презентационных слайдов.

Ключевая сложность заключается в том, что компетенции агента носят композитный характер и критически зависят от качества исполнения задач. По оценке создателей AgentSearchBench, их невозможно адекватно оценить через текстовые метаданные. Исследование выявило хронический разрыв между семантическим сходством (тем, как красиво разработчики описывают возможности агента) и реальной производительностью. На практике агент, который в поисковой выдаче выглядит идеальным кандидатом, терпит фиаско при реальном запуске, поскольку его внутренняя логика не имеет ничего общего с высокоуровневым описанием.

Чтобы прекратить этот карнавал некомпетентности, бенчмарк формализует поиск агентов как задачу подбора и переранжирования, используя сигналы, основанные на фактическом исполнении (execution-grounded). Вместо того чтобы гадать по статичному тексту, исследователи предложили тестировать системы реальными рабочими запросами. Внедрение легковесных поведенческих сигналов и «зондирования» в процессе выполнения задач радикально повышает качество ранжирования.

Для технических директоров и CTO данные AgentSearchBench звучат как приговор: существующие каталоги — это не фильтры, а ненадежные свалки, которые нельзя использовать для корпоративной интеграции. На наш взгляд, этот бенчмарк становится необходимым инструментом для отсева «пустышек» до того, как они попадут в ваш технологический стек. Вы больше не можете доверять документации агента при прогнозировании возврата инвестиций (ROI). Если ваша стратегия закупок все еще опирается на семантический поиск, а не на поведенческую проверку, вы интегрируете не функциональную автономность, а технический долг.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыИИ в бизнесеЦифровая трансформацияAgentSearchBench

Фиаско каталогов: почему ИИ-агенты проваливают тесты после покупки