Архитектура SubQ: снижение затрат на работу с данными на 95%

Разговоры о смерти RAG (Retrieval-Augmented Generation) ведутся почти столько же, сколько существует сама технология, но стартап Subquadratic решил зайти не с маркетинговых лозунгов, а с базовой математики. Пока Anthropic и OpenAI осторожно снижают цены на токены, пытаясь удержать маржинальность, новички представили модель SubQ с контекстным окном в 12 миллионов токенов. Этого объема достаточно, чтобы загрузить в модель не «выжимку» из базы знаний, а весь архив документации компании целиком. Бизнес-смысл здесь очевиден: если системе можно скормить всё и сразу, сложная и хрупкая архитектура векторного поиска становится лишним и дорогим звеном в расчете совокупной стоимости владения (TCO).

В основе проекта лежит архитектура sub-quadratic sparse-attention. Если перевести на язык цифр, то вместо вычисления связей между всеми словами в тексте алгоритм фокусируется только на разреженном наборе ключевых контактов. По заявлению разработчиков, это позволило достичь линейной вычислительной сложности и ускорить запуск на длинных дистанциях в 52 раза относительно общепринятого стандарта FlashAttention. На выходе мы получаем 150 токенов в секунду и превосходство над Claude Opus на тестах SWE-bench. При этом стоимость эксплуатации составляет всего 5% от ценника Anthropic — открытое издевательство над текущей финансовой политикой лидеров рынка.

Технически это выглядит как приговор традиционным пайплайнам обработки данных, но дьявол традиционно кроется в реализации, которую пока скрывают. Проект находится в закрытой бете, полноценного технического отчета нет, а в открытом доступе висят лишь блог и краткий разбор механики внимания. Главный вопрос сейчас не в скорости, а в «когнитивной устойчивости»: способности модели удерживать фокус на таких объемах без деградации качества.

Без независимых тестов на потерю информации в середине контекста 12 миллионов токенов рискуют превратиться в гигантское цифровое болото, где модель видит всё, но не понимает ничего. Нам обещают архитектурное упрощение и экономию в 20 раз, предлагая цифры, которые рушат рынок. Но пока у нас на руках лишь закрытый проект без API и подтвержденных бенчмарков, это скорее заявка на переворот, чем свершившийся факт. Мы ждем открытия доступа, чтобы проверить, способна ли эта математика выжить при столкновении с реальным корпоративным хаосом.

Источник: Telegram: @data_secrets →

Оцените материал

★ ★ ★ ★ ★

ИИ в бизнесеСнижение затратRAG и векторный поискБольшие языковые моделиSubquadratic

Убийца RAG: архитектура SubQ сокращает стоимость работы с данными на 95%