Когда CoT вредит: энтропия как ключ к эффективности LLM

Повальное увлечение цепочками рассуждений (Chain-of-Thought, CoT) превращается в бессмысленное сжигание ресурсов. Исследователи из Samsung Research и Пекинского университета подтвердили то, о чем многие догадывались: заставлять модель «думать» над каждым чихом — верный способ не только раздуть счета за токены, но и уронить точность на фактологических запросах.

В работе «When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions» Вэй Ся, Хаоцин Ван, Ехуэй Тан и Чжи-Хун Дэн наглядно показывают парадокс продуктивности. Механизм, который вытягивает сложные логические задачи, превращается в обузу, когда нужно просто извлечь факт из памяти.

Главное

Избыточное применение CoT приводит к падению точности в простых запросах из-за переусложнения логики. Динамика энтропии на уровне токенов позволяет точно определить момент, когда модели действительно нужно «задуматься». Фреймворк EDRM экономит до 55% токенов без необходимости дообучения нейросети.

Технология и подход

Вместо того чтобы гадать, где CoT уместен, авторы предложили смотреть на динамику энтропии на уровне токенов. Если неопределенность следующего слова падает, происходит «фазовый переход» от хаоса к структуре — значит, рассуждения работают. Если же энтропия скачет или растет, модель просто галлюцинирует за ваш счет.

На базе этого наблюдения создан фреймворк EDRM (Entropy Dynamics-based Reasoning Manifold), который не требует дообучения и на лету решает, включать ли «тяжелую» логику или ответить сразу.

«Усиленное мышление» должно быть реакцией на сложность задачи, а не состоянием модели по умолчанию.

Результаты и выводы

Цифры говорят сами за себя: на 15 бенчмарках и четырех разных LLM подход EDRM срезал потребление токенов на 41–55%. Самое ироничное, что точность при этом не упала, а выросла — на уровне отдельных примеров прирост составил до 4,7%.

Хватит воспринимать цепочки рассуждений как универсальную таблетку для ваших AI-пайплайнов. Внедрение динамического роутинга на основе энтропии позволяет уполовинить расходы и избавить систему от нелепых ошибок в простых запросах. В эпоху борьбы за эффективность инференса победит тот, кто научит свои модели вовремя закрывать рот и просто выдавать результат.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиСнижение затратПроизводительностьSamsung Research

Когда размышления во вред: как энтропия помогает LLM экономить токены