SREGym: почему ИИ-агенты проваливают тесты на хаос в облаках

Индустрия пытается убедить нас, что ИИ-агенты вот-вот возьмут на себя дежурства в дата-центрах, но реальность пока выглядит иначе. По данным исследователей из Университета Иллинойса (UIUC) и Университета Торонто, код, написанный нейросетями, генерирует в 1.7 раза больше дефектов, чем человеческий. При этом почти 43% правок, внесенных алгоритмами, благополучно проходят стандартные тесты и «взрываются» уже в промышленной эксплуатации. Очевидно, что статичные бенчмарки-песочницы, которыми до сих пор мерили SRE-агентов, превратились в бесполезную формальность: они не имеют ничего общего с энтропией распределенных систем.

Джексон Кларк, Имин Су и их коллеги представили SREGym — среду, которая наконец-то перестает нянчиться с моделями. В отличие от традиционных тестов, сфокусированных на уровне приложений, SREGym моделирует хаос на уровнях операционной системы и аппаратного обеспечения. Исследователи воссоздали 90 сценариев реальных кризисов, включая метастабильные сбои и каскадные инциденты, где одна ошибка тянет за собой всю инфраструктуру. Это не стерильный лабораторный запуск: система активно использует инжекторы ошибок и подмешивает «белый шум» — поток нерелевантных событий и ложных сигналов, чтобы проверить, сможет ли агент удержать фокус или захлебнется в логах.

Результаты SREGym отрезвляют. Даже топовые модели демонстрируют колоссальный разброс эффективности — до 40% в зависимости от типа сбоя. Чтобы выжить в этой среде, агенту недостаточно просто найти нужный абзац в документации; он обязан рассуждать в условиях мультимодальных данных, сопоставляя временные ряды метрик, неструктурированные логи и распределенные трассировки. На наш взгляд, это важнейший фильтр: сегодня агенты неплохо справляются с ролью начинающих разработчиков, но пасуют перед фундаментальной логикой системного администрирования.

Для CTO и руководителей платформ появление SREGym — это четкий сигнал: доверять ИИ «красную кнопку» или протоколы восстановления в обход человеческого контроля пока преждевременно. Мы видим критический разрыв между маркетинговыми обещаниями автономности и реальной способностью моделей работать с низкоуровневыми сбоями. SREGym становится обязательным этапом валидации: прежде чем дать алгоритму право вносить изменения в продуктовый контур, он должен доказать свою состоятельность не в «чистой комнате», а в условиях смоделированной катастрофы.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыОблачные вычисленияБезопасность ИИАвтоматизацияSREGym

SREGym: Испытание хаосом, которое современные ИИ-агенты не проходят