Краткий обзор

Повальное увлечение цепочками рассуждений (Chain-of-Thought, CoT) превращается в бессмысленное сжигание ресурсов. Исследователи из Samsung Research и Пекинского университета подтвердили то, о чем многие догадывались: заставлять модель «думать» над каждым чихом — верный способ не только раздуть счета за токены, но и уронить точность на фактологических запросах.

В работе «When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions» Вэй Ся, Хаоцин Ван, Ехуэй Тан и Чжи-Хун Дэн наглядно показывают парадокс продуктивности. Механизм, который вытягивает сложные логические задачи, превращается в обузу, когда нужно просто извлечь факт из памяти.

Главное

  • Избыточное применение CoT приводит к падению точности в простых запросах из-за переусложнения логики.
  • Динамика энтропии на уровне токенов позволяет точно определить момент, когда модели действительно нужно «задуматься».
  • Фреймворк EDRM экономит до 55% токенов без необходимости дообучения нейросети.

Технология и подход

Вместо того чтобы гадать, где CoT уместен, авторы предложили смотреть на динамику энтропии на уровне токенов. Если неопределенность следующего слова падает, происходит «фазовый переход» от хаоса к структуре — значит, рассуждения работают. Если же энтропия скачет или растет, модель просто галлюцинирует за ваш счет.

На базе этого наблюдения создан фреймворк EDRM (Entropy Dynamics-based Reasoning Manifold), который не требует дообучения и на лету решает, включать ли «тяжелую» логику или ответить сразу.

«Усиленное мышление» должно быть реакцией на сложность задачи, а не состоянием модели по умолчанию.

Результаты и выводы

Цифры говорят сами за себя: на 15 бенчмарках и четырех разных LLM подход EDRM срезал потребление токенов на 41–55%. Самое ироничное, что точность при этом не упала, а выросла — на уровне отдельных примеров прирост составил до 4,7%.

Хватит воспринимать цепочки рассуждений как универсальную таблетку для ваших AI-пайплайнов. Внедрение динамического роутинга на основе энтропии позволяет уполовинить расходы и избавить систему от нелепых ошибок в простых запросах. В эпоху борьбы за эффективность инференса победит тот, кто научит свои модели вовремя закрывать рот и просто выдавать результат.

Большие языковые моделиСнижение затратПроизводительностьSamsung Research