Линейное внимание и модели на базе пространств состояний (SSM) уперлись в стену собственной эффективности. Пока эти архитектуры щеголяют сложностью памяти O(1) и субквадратичной скоростью, они страдают от врожденного порока: попытки впихнуть весь бесконечный контекст в рекуррентное состояние фиксированного размера. Как отмечает Ваньюнь Цуй из Шанхайского университета финансов и экономики, такая память неизбежно становится «дырявой». Новые ассоциации затирают старые факты, что превращает поиск «иголки в стоге сена» в лотерею, где модель просто теряет разрешение и не может отличить одно событие от другого в длинной последовательности.

Гиппокамп против рекуррентного беспамятства

Архитектура HOLA (Hippocampal Linear Attention) решает эту проблему, копируя биологическую систему двойного обучения. В человеческом мозге неокортекс медленно усваивает общие структуры, тогда как гиппокамп мгновенно фиксирует конкретные эпизоды. Цуй перенес этот дуализм в ИИ, объединив стандартное дельта-правило для сжатия структуры с ограниченным KV-кешем для эпизодической памяти. Полупараметрический подход превращает рекуррентное состояние в оценщика общих закономерностей, а кеш — в инструмент точной коррекции тех ассоциаций, которые категорически нельзя «размазывать» при сжатии.

Система, созданная для медленного обобщения, неизбежно сталкивается с катастрофической интерференцией, если заставлять её мгновенно запоминать единичные факты.

Ключевой технический сдвиг HOLA — механизм селекции. В отличие от примитивных гибридов со скользящим окном, HOLA реагирует на «сигнал удивления». Модель сохраняет в кеш только те токены, которые дают большой остаток при прогнозировании — то есть то, что рекуррентное состояние не смогло поглотить. Для извлечения этих данных используется механизм раздельного RMSNorm-gamma, который превращает поиск в жесткое, точное сопоставление. Это радикально отличается от размытого усреднения, свойственного классическому линейному вниманию.

Бенчмарки: когда гибрид бьет «чистую» архитектуру

Цифры показывают, что этот архитектурный костыль работает лучше, чем простое масштабирование. Модель на 340 млн параметров, обученная на 15 млрд токенов SlimPajama, снизила перплексию на Wikitext с 27.32 до 22.92. Что иронично, это даже лучше показателя Transformer++ с полным вниманием (26.88). В тестах RULER на поиск «иголки» HOLA сохранила точность на дистанции до 32 000 токенов — это в 16 раз больше длины её обучающего контекста. По сути, «гиппокамп» позволяет модели масштабироваться далеко за пределы того, что она видела при обучении, без безумных затрат памяти, присущих квадратичному вниманию.

HOLA оставляет привычное дельта-правило в качестве компрессионной памяти и добавляет ограниченный KV-кеш, создавая полупараметрическую память для работы в реальном времени.

Эта точность не съедает производительность. Благодаря тому, что кеш ограничен, а решение о записи принимает сама модель на основе невязок дельта-правила, HOLA сохраняет преимущество линейных моделей по памяти. Данные Шанхая также подтверждают прогресс в тесте LAMBADA, где перплексия упала с 30.95 до 30.26. Это доказывает, что выгода от разделения систем памяти проявляется в самых разных лингвистических задачах, а не только в синтетических тестах на внимательность.

Архитектура HOLA наглядно демонстрирует: компромисс между вычислительной эффективностью и фактической точностью — это вопрос выбора архитектуры, а не фатальная неизбежность. Для архитекторов ИИ-систем это сигнал к переходу на полупараметрические модели, где грубая сила контекстных окон заменяется умным кешированием «сюрпризов». Пока технология обкатана на малых моделях, но главный вопрос в другом: как этот гибрид поведет себя в многомиллиардных масштабах, где «неокортекс» нейросети и так обладает высоким порогом компрессии. Для автономных агентов, которым нужно помнить инструкции в длинных сессиях и не разорять владельца на KV-кеше, это может стать самым коротким путем к выживанию в индустрии.

НейросетиМашинное обучениеБольшие языковые моделиHOLA