Архитектуры рассуждений: конец гонки контекстных окон в ИИ

Эпоха эмпирического «угадывания» параметров контекста в разработке искусственного интеллекта подходит к финалу. Исследование Джейсона Гейтонда, Фредерика Кёлера, Элханана Моссела, Джунхёна Шина и Аллана Слая наглядно демонстрирует: стандартные авторегрессионные модели упёрлись в фундаментальный потолок. Используя k-gram анзац как математический эквивалент трансформеров, учёные из MIT, Принстона и Чикаго доказали, что глубина контекста (k) — это не просто объём оперативной памяти, а жесткий ограничитель точности логического вывода. В системах с мягкими ограничениями, таких как вещательный процесс Изинга, дисперсия генерируемых последовательностей масштабируется лог-линейно относительно глубины контекста. Проще говоря, если глубины не хватает, модель неизбежно скатывается в статистический дрейф, разрушающий логику повествования.

Главный инсайт здесь заключается в экспоненциальном разрыве между «сырой» памятью и активным рассуждением. На примере задач с жесткими ограничениями (раскраска деревьев) данные показывают, что авторегрессионная модель с ограниченным контекстом с высокой вероятностью выдаст последовательность, которая математически несовместима с исходной структурой. Для верного сэмплирования в таких условиях длина контекста должна расти линейно вместе с длиной последовательности — тупиковый путь для масштабирования. Однако исследователи подтвердили, что архитектура с механизмом цепочки рассуждений (Chain-of-Thought) требует лишь логарифмической рабочей памяти для достижения того же результата. Это не косметическое улучшение, а экспоненциальный сдвиг, делающий Reasoning-архитектуры математической необходимостью для любых сложных корпоративных задач.

Для CTO и руководителей R&D это сигнал к пересмотру бюджетов: переход от «грубой силы» окон внимания к жестким законам масштабирования (Scaling Laws) становится вопросом выживания. Иерархическая природа языка, где смыслы вложены друг в друга подобно древовидным структурам, требует систем, способных обрабатывать зависимости через логические шаги, а не через бесконечное расширение контекстного окна. Гейтонд и коллеги оцифровали дефицит «здравого смысла»: если архитектура не способна захватить корень иерархии, она не просто забывает данные — она теряет способность принимать валидные решения. Инвестиции в размер контекста приносят всё меньше пользы, в то время как архитектурная способность к многошаговому рассуждению становится единственным способом преодолеть когнитивный барьер автономных агентов.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Искусственный интеллектБольшие языковые моделиНейросетиМашинное обучение