Google Titans и MIRAS: линейная память в нейросетях

Стандартная архитектура Transformer уперлась в потолок собственной математики. Механизм внимания (attention), совершивший когда-то революцию, сегодня стал обузой: вычислительная стоимость «взгляда назад» растет квадратично длине последовательности. Это фактически закрывает нейросетям вход в глубокую аналитику — от геномики до работы с юридическими архивами. Как отмечают Али Бехруз, Мейсам Разавияйн и Вахаб Миррокни из Google Research, индустрия пыталась обойти проблему с помощью SSM (моделей пространства состояний) и линейных RNN, но те страдают от избыточного сжатия данных, теряя нюансы в массивах информации.

Архитектура «удивления»

Google Research предлагает радикальный сдвиг: связку архитектуры Titans и фреймворка MIRAS. Это не очередная «косметика», а попытка пересмотреть саму природу нейросетевой памяти. Вместо статичного вектора Titans внедряет модуль долгосрочной памяти, который сам по себе является глубокой нейросетью — многослойным перцептроном. Это позволяет модели обновлять собственные параметры прямо в процессе обработки потока данных. Мы получаем скорость RNN при точности Трансформера. Система копирует человеческий когнитивный процесс, разделяя быструю кратковременную память и емкое нейронное «хранилище».

«Модель не просто делает заметки на полях — она синтезирует и осознает весь сюжет в динамике».

Чтобы этот поток не превратился в кашу, Titans использует метрику «удивления» (surprise metric). Модель сама решает, что достойно фиксации в весах, а что — информационный шум. Такое селективное запоминание гарантирует, что система не захлебнется, удерживая только ключевые концептуальные связи и смысловые паттерны.

Экономика бесконечных последовательностей

Переход от квадратичной к линейной сложности в корне меняет экономику инференса. В рамках MIRAS становится возможным «запоминание во время теста» (test-time memorization). Модель инкорпорирует новые детали мгновенно, без мучительного и дорогого офлайн-переобучения. Для Enterprise-сектора это означает смерть традиционных RAG-костылей: теперь в модель можно «загрузить» всю базу знаний целиком, и она станет ее частью, а не внешним справочником.

Для таких отраслей, как геномика или LegalTech, где обработка сверхдлинных цепочек — база, а не роскошь, линейное масштабирование убирает главный финансовый барьер. По оценке Google Research, архитектура, способная обновлять ядро знаний в реальном времени, обеспечивает долгосрочную консистентность ответов. Мы входим в эпоху, когда ИИ перестает быть статичным калькулятором контекстного окна и превращается в систему, которая учится непосредственно в процессе работы. Эра компромиссов между длиной контекста и стоимостью вычислений закончена: на смену простой обработке последовательностей приходит активное усвоение опыта.

Источник: Google Research Blog →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиНейросетиСнижение затратRAG и векторный поискGoogle DeepMind

Прощай, RAG: Google Titans внедряет бесконечную память с линейным масштабированием

Архитектура «удивления»

Экономика бесконечных последовательностей