Современные LLM и автономные агенты страдают от фундаментального порока: они распоряжаются памятью как временщики. Традиционные системы либо хранят вообще всё, либо полагаются на примитивную эвристику «свежего», забивая контекстное окно информационным мусором. Результат предсказуем — деградация логики, галлюцинации и раздутые счета за инференс. В новом препринте исследователи из Huawei Noah’s Ark Lab и Городского университета Гонконга доказывают, что текущий подход близорук: он не учитывает ни отложенную стоимость потери важных фактов, ни расходы на повторный сбор данных.

Традиционное управление памятью в ИИ часто игнорирует долгосрочные последствия удаления данных, что ведет к неэффективному использованию ресурсов.

Технология OSL-MR: оптимизация на длинных дистанциях

Команда представила OSL-MR (Observability-Safe Learning for Memory Retention) — фреймворк, превращающий управление памятью из простого фильтра в задачу условной стохастической оптимизации. Вместо того чтобы гадать, что релевантно «здесь и сейчас», агент учится предсказывать полезность информации для будущих шагов в длинных циклах (long-horizon tasks). Система жестко разделяет признаки, наблюдаемые в реальном времени, и супервизию, доступную офлайн. Это позволяет ИИ работать в условиях жесткого бюджетного лимита, предугадывая сдвиги в запросах, которые обычные одношаговые методы оптимизации просто не замечают.

OSL-MR использует обучение с подкреплением для оценки ценности каждого блока данных. Система минимизирует общие затраты на хранение и повторное извлечение информации. Модель адаптируется к динамически меняющимся потокам задач без потери качества.

Результаты и значение для бизнеса

Эксперименты на бенчмарках LoCoMo и LongMemEval подтвердили: OSL-MR на голову обходит методы в духе Generative Agents и регрессивные модели, особенно когда лимиты контекста поджимают. Для бизнеса это означает возможность эксплуатации автономных систем в режиме 24/7 без экспоненциального накопления «шума». Внедрение строгой «гигиены контекста» через оптимизированное обучение позволяет сохранять качество выполнения бизнес-процессов, установив при этом жесткий потолок на вычислительные накладные расходы.

Если ваши агенты начинают «забывать» критические инструкции или тонут в неактуальной истории переписки, проблема не в размере модели, а в логике удержания данных. Подход Huawei подтверждает: дисциплинированная оптимизация памяти становится обязательным требованием для любой системы, претендующей на реальную работу в продакшене, а не просто эффектное демо.

ИИ-агентыБольшие языковые моделиСнижение затратПроизводительностьHuawei