AI-агенты провалились на корпоративных задачах: бенчмарк VAKRA

IBM Research представила бенчмарк VAKRA — это скорее испытание на прочность для AI-агентов, чем очередная игрушка. Вместо проверки отдельных навыков, VAKRA заставляет агентов решать реальные, многошаговые задачи в условиях, имитирующих корпоративную среду. Оценивается их способность к композиционному рассуждению при взаимодействии с более чем 8000 API и базами данных в 62 доменах. Иными словами, это проверка на умение собрать воедино 3–7 логических шагов, используя не только структурированные API-запросы, но и извлекая информацию из документов, да еще и подчиняясь правилам использования инструментов.

Создатели VAKRA не стали изобретать колесо, они просто дали агентам задачу посложнее. Например, одна из категорий тестов требует цеплять API с помощью инструментов бизнес-аналитики, что включает 2077 тестовых сценариев. В каждом из них агенту предстоит совершить от одного до двенадцати вызовов, используя расширенные наборы инструментов, вроде SLOT-BIRD и SEL-BIRD. Для пущей реалистичности, бенчмарк предоставляет рабочее окружение с локальными API и настоящими базами данных — куда правдоподобнее, чем прошлые попытки симуляции.

Первые результаты VAKRA оказались, мягко говоря, обескураживающими. AI-агенты, которые еще вчера блистали на простых заданиях, показывающих их навыки в изоляции, в реальных многошаговых сценариях начинают спотыкаться. Бенчмарк наглядно демонстрирует, где именно они дают сбой: в композиционном рассуждении и умении эффективно работать с инструментами в сложных цепочках.

Что это значит для бизнеса:

VAKRA показал, что сегодняшние AI-агенты – это еще не те универсальные солдаты, которых так ждет корпоративный мир. Для решения комплексных задач им не хватает серьезных улучшений в области рассуждений и интеграции инструментов. Как отмечают исследователи IBM, модели демонстрируют низкую производительность в VAKRA, в частности, из-за трудностей с композиционным рассуждением и использованием инструментов в сложных цепочках. Это означает, что прямое внедрение AI-агентов в сложные операционные процессы, требующие надежного выполнения многоступенчатых рабочих процессов, преждевременно. Реальное применение агентов в таких сценариях, вероятно, потребует значительных инвестиций в доработку их логических способностей и навыков интеграции, что может отодвинуть сроки широкого корпоративного внедрения на неопределенный срок.

Источник: HuggingFace Blog →

Оцените материал

★ ★ ★ ★ ★

Искусственный интеллектИИ-агентыИИ в бизнесеАвтоматизацияIBM

AI-агенты не справились с корпоративными задачами: новый тест от IBM