Bian Que: автономный ИИ для DevOps гипермасштаба

Стандартные LLM-агенты сегодня упираются в стену в условиях экстремального DevOps, где десятки релизов в день стали нормой. Проблема заключается не в дефиците «мозгов» у моделей, а в оркестрационном тупике: агенты буквально захлебываются в потоке сырых логов и метрик. Как справедливо отмечают исследователи из Kuaishou Technology, попытка скормить модели все системные сигналы разом приводит лишь к галлюцинациям и размытию контекста. Чтобы прекратить этот цифровой шум, в Kuaishou разработали Bian Que — агентский фреймворк, который заменяет слепое поглощение данных механизмом гибкой компоновки навыков (Flexible Skill Arrangement).

Вместо монолитного промпта система использует динамическое сопоставление: конкретные события связываются с узкими наборами данных и правилами из цифровых справочников. Это оцифрованный экспертный опыт, который адаптируется под бизнес-модуль и контекст. На наш взгляд, это важный сдвиг: архитектура Bian Que выстраивает три линии обороны — перехват релизов, проактивную инспекцию и автоматический поиск первопричин (RCA). Как следует из отчета Kuaishou, фреймворк превращает ИИ из реактивного «пожарного» в превентивного контролера, абстрагируя рутину до каноничных паттернов.

Методология опирается на механизм самоэволюции, где большие языковые модели генерируют и обновляют навыки на основе инструкций от дежурных инженеров на естественном языке. Это создает замкнутый цикл, где любая правка пополняет базу кейсов и уточняет конкретные компетенции. Фактически, Bian Que оцифровывает тот самый уникальный опыт старших SRE-инженеров, который обычно не зафиксирован в документации.

Внедрение системы в поисковый движок e-commerce Kuaishou подтверждает: индустрия переходит от ИИ-ассистентов к по-настоящему автономным операционным системам. По оценке авторов исследования, объем уведомлений о сбоях сократился на 75%, а точность определения первопричин достигла 80%, что сократило среднее время восстановления (MTTR) более чем наполовину. При офлайн-показателе успеха в 99% главный вывод для CTO очевиден: стабильность инфраструктуры теперь зависит не от размера модели, а от точности связки системных сигналов с прикладными знаниями.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыАвтоматизацияПроизводительностьБольшие языковые моделиKuaishou