Почему деградируют AI-агенты: управление производительностью

Индустриальный стандарт оценки AI-агентов по метрикам «первого дня» — это опасная иллюзия, игнорирующая операционные реалии долгосрочного развертывания. Исследователи из Техасского университета в Остине подтвердили то, о чем многие технические директора догадывались на практике: существует феномен «старения агентов». Даже при замороженных весах модели надежность системы неизбежно падает по мере накопления истории взаимодействий. Как отмечают авторы работы «Your Agents Are Aging Too», надежность — это не моментальный снимок базовой модели, а свойство всей обвязки агента на протяжении его жизненного цикла.

Анализ 400 запусков 14 моделей в различных сценариях выявил четыре всадника деградации:

Сжатие (compression aging) уничтожает критические детали при суммаризации контекста; Интерференция (interference aging) заставляет похожие воспоминания вытеснять конкретные факты; Ошибки обновления (revision aging) ломают логику при изменении состояния системы; Техническое обслуживание (maintenance aging) провоцирует регрессии во время плановой очистки памяти.

Скрытая угроза жизненного цикла

Команда Цзянина Чжу и Ёнджу Ро подчеркивает: агент может сохранять безупречную вежливость и гладкость речи, пока его фактическая точность тихо идет ко дну. Для борьбы с этим системным склерозом представлен AgingBench — лонгитюдный бенчмарк, измеряющий время жизни агента до потери адекватности.

Традиционные тесты здесь бесполезны, так как они не учитывают кумулятивный эффект работы с памятью. В условиях долгоживущих систем архитекторам пора перестать надеяться на промпты и переходить к инженерному анализу жизненного цикла (Lifespan Engineering).

Мы считаем, что просто заменить модель на более мощную — это попытка лечить симптомы вместо причины. Владельцам корпоративных ассистентов и автономных кодеров пора провести аудит своих развертываний с помощью графов временных зависимостей. Наша редакция рекомендует сфокусироваться на диагностике конвейера памяти: именно там извлечение данных начинает расходиться с реальностью. Контроль деградации контекста сегодня важнее, чем любая «революционная» оптимизация первой инструкции.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыБольшие языковые моделиПроизводительностьИИ в бизнесе

Эффект старения: почему AI-агенты теряют эффективность при долгой работе