Проблема «стены памяти» в автономных системах
Стандартная архитектура KV-кэша — это временное решение, которое отлично работает в стерильных условиях дата-центров, но становится неэффективным на реальном производстве. В облачной среде запросы коротки и дискретны: система обработала данные, сбросила кэш и «забыла» их. Робот же существует в рамках бесконечного эпизода, где механизм внимания (attention) раздувается с каждым совершенным шагом. На Edge-устройствах, где пропускная способность памяти и ресурс Flash-накопителей являются дефицитными ресурсами, разработчики упираются не в вычислительную мощность, а в «стену памяти». По словам Джозефа Чена из KAIKAKU, этот барьер растет с каждой секундой навигации или инспекции, делая долгосрочную автономность физически невозможной.
«Настоящая автономность требует от физических систем перестать имитировать серверное поведение. Роботу не нужно помнить всё — ему нужно фильтровать прошлое через призму полезности для будущего».
AURA-Mem: селективный подход к данным
Чтобы преодолеть это препятствие, Чен предложил AURA-Mem (Action-Utility Recurrent Adaptive Memory). Это система с рекуррентной памятью константного размера, интегрированная с замороженной VLA-моделью (Vision-Language-Action). Главная особенность — обучаемый гейт, который записывает данные в память только в том случае, если новая информация способна существенно изменить следующее действие. По сути, это сигнал «action-surprise»: вместо сохранения каждого бесполезного кадра система понимает, когда ей лучше проигнорировать входящий поток. Результаты впечатляют: состояние инференса AURA-Mem занимает фиксированные 4224 байта независимо от длительности сессии. Это в 6061 раз меньше, чем объем стандартного KV-кэша на дистанции в 100 000 шагов.
Главное в тестах и эксплуатации:
Эффективность: На тестах с моделью OpenVLA-OFT 7B данный подход показал ту же результативность, что и модели с неограниченной памятью.
Износостойкость: Количество циклов записи в память сократилось в 7 раз, что критически важно для оборудования.
Срок службы: Минимизация обращений к Flash-памяти напрямую продлевает жизнь «железа» и снижает износ компонентов.
Экономика адаптивной памяти
Для реального оборудования это вопрос выживания. У Flash-памяти есть конечный лимит циклов перезаписи. Пока HBM-память распродана на годы вперед, конкурентное преимущество получат компании, которые перестанут «кормить» алгоритмы бесконечными массивами данных и перейдут к селективной памяти. Переход к адаптивной памяти с фиксированным объемом VRAM — это не просто изящный технический маневр, а жесткая экономическая необходимость в условиях дефицита компонентов и ограниченных ресурсов периферийных вычислений.