Пределы рассуждений LLM: почему вычисления при выводе буксуют

Популярный в AI-сообществе тезис, продвигаемый архитектурами вроде OpenAI o1 и DeepSeek-R1, гласит: чем дольше модель «думает» (inference-time compute), тем умнее она становится. Однако свежее исследование Дунсиня Го из Университета Гонконга (HKU) совместно с коллегами из Stellaris AI и Brain Investing Limited выносит архитектуре decoder-only жесткий приговор. В задачах с детерминированным пространством состояний — там, где важна точность шагов, как в программировании или формальной верификации — долгое раздумье неизбежно ведет к провалу. Здесь нет места галлюцинациям или «примерно правильным» ответам: ошибка на одном этапе обнуляет весь результат. Пока нейросетевые цепочки рассуждений (CoT) позорно скатываются к точности в 24–42%, гибридные системы с вызовом внешних инструментов уверенно держат 86–94%. И дело не в лени модели, а в фундаментальном физическом пределе.

Теорема о бутылочном горлышке и горизонт d*

Корень проблемы исследователи упаковали в «Теорему о бутылочном горлышке внимания» (Attention Bottleneck Theorem). В современных архитектурах способность модели отслеживать состояние объекта жестко ограничена сложностью самого механизма внимания. С каждым новым шагом в логической цепи накапливается контекстная ошибка, которая в итоге приводит к суперэкспоненциальному обвалу точности. Команда Го ввела метрику «детерминированного горизонта» (d*), который для большинства современных моделей составляет от 19 до 31 шага. Как только цепочка рассуждений переваливает за эту отметку, модель окончательно теряет нить повествования и начинает генерировать бессмыслицу.

«В 12 протестированных моделях и 8 различных доменах задач использование внешних инструментов стабильно громит чистый нейросетевой CoT».

Чтобы исключить версию, что модели просто «предпочитают» отвечать короче (предвзятость предпочтений), ученые применили метрику State-Space Jaccard. Выяснилось, что даже дообучение на идеальных логах рассуждений дает жалкие 5% прироста. Это подтверждает: мы уперлись в архитектурный потолок, а не в огрехи обучения. Высокая корреляция между разными моделями (r=0.81–0.91) намекает, что размер не имеет значения — и крошечные, и гигантские модели одинаково беспомощны перед физикой трансформерного внимания.

Экономика делегирования: когда пора забирать микрофон

Для CTO и архитекторов AI-систем это сигнал к смене парадигмы: хватит пытаться «дожать» точность через бесконечный CoT. Если ваша задача требует более 30 последовательных логических шагов, вы уже находитесь в «зоне смерти» за пределами горизонта d*. Инструменты обеспечивают точные вычисления без накладных расходов на удержание состояний в «памяти» внимания. Вынося сложные подзадачи на внешний код, система сохраняет целостность всей цепочки от исходного состояния до финала.

Индустрия подошла к пределу «законов масштабирования» для времени вывода. В сложных сценариях вроде SWE-bench или SQL-Multi грубая мощь и количество параметров пасуют перед архитектурными ограничениями трансформеров. Ценность бизнеса в следующей фазе AI-трансформации будет определяться не длиной цепочек рассуждений, а качеством слоя делегирования. Нужно четко понимать, в какой момент стоит исключить модель из цикла рассуждений и передать задачу детерминированному коду. Тот, кто продолжит верить в магию «бесконечного мышления», просто будет сжигать ресурсы GPU на генерацию высокотехнологичного мусора.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиИИ-агентыПроизводительностьИИ в бизнесеOpenAI

Миф о бесконечном мышлении: почему рассуждения LLM заходят в тупик

Теорема о бутылочном горлышке и горизонт d*

Экономика делегирования: когда пора забирать микрофон