ReasoningBank: новая самообучающаяся память ИИ-агентов от Google

Современные ИИ-агенты страдают от дорогостоящей формы операционной амнезии. Как отмечают исследователи Google Cloud Джун Ян и Чэнь-Ю Ли, развернутые системы катастрофически плохо учатся на своих успехах и провалах в реальном времени. Это создает скрытый экономический балласт: агент без вменяемого механизма памяти подходит к каждой задаче как «чистый лист», выбрасывая ценные инсайты и раз за разом наступая на одни и те же грабли в рамках длинных сессий. Попытки решить проблему через простые логи или суммаризацию успешных прогонов, как это делают Synapse или Agent Workflow Memory, не дают нужного результата. Они фиксируют, *что* произошло, но не объясняют, *почему* в следующий раз нужно действовать иначе. Без этого понимания агент остается просто продвинутым скриптом, а не автономным сотрудником.

Дистилляция логики из обломков неудач

Решение от Google под названием ReasoningBank переносит акцент с сырых логов на структурированное рассуждение. Вместо того чтобы хранить тяжеловесные записи каждого клика или нажатия клавиши, фреймворк дистиллирует глобальные паттерны в компактные элементы памяти. Каждый такой элемент включает заголовок, описание и ключевой операционный инсайт. Процесс работает в закрытом цикле: перед началом действия агент извлекает релевантные воспоминания, а после — использует LLM-судью для самооценки траектории. Важно, что система не просто собирает «золотой фонд» удачных решений, но активно препарирует ошибки, извлекая из них контрфактуальные сигналы и описание ловушек. Такой подход превращает ошибку из бессмысленной траты вычислительных мощностей в превентивный урок.

Масштабирование интеллекта в точке вызова

Данные препринта «ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory» показывают, что такая вертикальная автономия позволяет агентам адаптироваться к специфическому ПО и сложным веб-интерфейсам без дорогостоящего дообучения весов (fine-tuning). Автоматизация консолидации опыта позволяет агентам эволюционировать прямо «в поле», сокращая количество шагов для решения задач и повышая общую выживаемость системы в агрессивной среде. По сути, мы наблюдаем попытку создать самообучающуюся память, которая позволяет ИИ-сотруднику «умнеть» с каждой совершенной ошибкой, не требуя вмешательства инженеров для исправления кода.

Переход от простого логирования траекторий к дистилляции логики означает, что стоимость владения ИИ-агентом должна снижаться по мере его эксплуатации. Для бизнеса это долгожданное избавление от «налога на исправления», когда на поддержку работы ИИ приходится тратить больше ресурсов, чем он экономит.

Однако остается открытым вопрос «потолка» системы: текущая зависимость от LLM-судьи в вопросах самооценки может стать узким местом в абсолютно новых доменах, где сам «судья» не обладает контекстом для отделения зерна от плевел. Пока ReasoningBank выглядит как отличный инструмент для оттачивания мастерства в знакомых стеках, но реальная проверка на прочность ждет его там, где не на что опереться, кроме собственной, еще не сформированной логики.

Источник: Google Research Blog →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыАвтоматизацияСнижение затратБольшие языковые моделиGoogle

ReasoningBank от Google: как ИИ-агенты перестанут наступать на одни и те же грабли

Дистилляция логики из обломков неудач

Масштабирование интеллекта в точке вызова