SentinelBench: Тестирование выносливости и эффективности ИИ

ИИ-агенты сталкиваются с «барьером производительности» по мере того, как задачи эволюционируют от секундных операций к многочасовым процессам. Согласно данным METR, горизонт выполнения задач растянулся с нескольких секунд до 16-часовых циклов, однако индустрия остается в ловушке парадигмы «непрерывного действия». Современные системы часто терпят неудачу, пытаясь симулировать прогресс через лихорадочные вызовы инструментов или бессмысленные обновления страниц. Исследование Матеуса Кунцлера Малданера, Адама Фурни и команды Microsoft Research (совместно с Университетом Флориды) показывает, что такой подход в корне неверен для длительного мониторинга. Если агент не умеет ждать внешнего события, не галлюцинируя мнимый прогресс, он становится не инструментом, а источником убытков.

Новый стандарт оценки

Для решения этой проблемы команда представила SentinelBench — опенсорс-фреймворк, включающий 100 задач в синтетических средах, таких как финансы и профессиональный нетворкинг. Это не очередной бенчмарк для проверки скорости ответов; он форсирует технологический переход от примитивного опроса (polling) к сложным стратегиям ожидания. Воспроизводя сценарии событий, SentinelBench наглядно демонстрирует, как агенты деградируют и «забывают» логику своих действий в ходе множества итераций в меняющейся среде. Фреймворк измеряет жесткий компромисс между временем реакции и стоимостью вычислений, доказывая, что постоянная активность часто ведет к полному провалу задачи при увеличении длительности процесса.

Архитектурный вызов для бизнеса

Для технических руководителей это сигнал о завершении эры «действия любой ценой». Настоящий вызов теперь носит архитектурный характер: необходимо создавать агентов, способных удерживать внимание, не сжигая вычислительные ресурсы на пустые циклы. Выбор между опросом через фиксированные интервалы и реактивным ожиданием определяет, станет ли агент ценным бизнес-активом или превратится в дорогостоящую нагрузку на бюджет. Как показывают данные Microsoft Research, индустрия должна приоритезировать модели, обладающие «мудростью» бездействовать до нужного момента.

«Эффективность в эпоху ИИ определяется способностью сохранять молчание до тех пор, пока действительно не появится повод что-то сказать».

Перестаньте оптимизировать системы под минимальное время отклика и начните учитывать стоимость самого дешевого и надежного режима ожидания.

SentinelBench доказывает: когда рабочие процессы ИИ растягиваются на дни, одержимость «непрерывным действием» становится главной причиной краха системы.

При развертывании следующего агентского решения ключевой метрикой должна стать не задержка (latency), а соотношение скорости реакции к стоимости на длинных дистанциях.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыАвтоматизацияПроизводительностьMicrosoftОпенсорс ИИ

Искусство бездействия: как Microsoft учит ИИ-агентов ждать и экономить ресурсы