Современные языковые модели полагаются на роторные позиционные эмбеддинги (RoPE), чтобы сосредоточиться на относительных расстояниях между токенами, но на практике всё равно скатываются к зависимости от абсолютных координат. Исследователи из Римского университета Ла Сапиенца и Intuition Machines обнаружили: несмотря на математическое изящество RoPE, позиционная информация «протекает» в модель через две конкретные архитектурные дыры. Это объясняет парадокс, почему обученная на относительных смещениях модель прекрасно отличает токен на 50-й позиции от такого же на 100-й, хотя по логике должна видеть только их взаимное расположение.

Механизмы утечки данных о позиции

Первая точка утечки — это механизм причинной маски (causal mask). Знаменатель Softmax для каждого запроса вычисляется на основе всех предыдущих токенов, а значит, он по определению завязан на абсолютную позицию запроса. Вторая проблема кроется в остаточных связях (residual stream), где якорем выступает самый первый токен последовательности.

В режиме причинного внимания (causal attention) нулевой токен видит только самого себя, создавая детерминированную траекторию активации, которую последующие головы внимания считывают как системный ориентир.

Если убрать или заменить BOS-токен (начало последовательности), этот сигнал затухает, что подтверждает: модель использует начало текста как фиксированную систему координат, а не полагается на чистую относительность.

Последствия для AI-архитекторов

Для разработчиков архитектур это тревожный звонок: истинная инвариантность к длине контекста остается недостижимой мечтой.

Утечка в остаточных связях может подавляться через NTK-масштабирование. Ошибки могут накапливаться в механизмах скользящего окна внимания. Надежность работы с длинными текстами превращается в лотерею.

Инженерным лидам стоит понимать, что расширение контекста — это не просто подстройка параметров RoPE, а борьба с неявными «якорями» в нулевой позиции. Эти якоря ломают предсказуемость внимания, как только последовательность выходит за пределы обучающей выборки.

Итоги исследования

Ваша LLM далеко не так независима от позиций, как заявляет ее спецификация. Причинная маска и первый токен работают как вечные маяки, привязывая модель к абсолютной сетке координат. Пока мы не устраним эти фундаментальные архитектурные протечки, стабильность длинного контекста будет оставаться иллюзией, подкрепленной инженерными костылями, а не математической гарантией.

Большие языковые моделиИскусственный интеллектМашинное обучениеНейросети