Краткий обзор
Повальное увлечение цепочками рассуждений (Chain-of-Thought, CoT) превращается в бессмысленное сжигание ресурсов. Исследователи из Samsung Research и Пекинского университета подтвердили то, о чем многие догадывались: заставлять модель «думать» над каждым чихом — верный способ не только раздуть счета за токены, но и уронить точность на фактологических запросах.
В работе «When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions» Вэй Ся, Хаоцин Ван, Ехуэй Тан и Чжи-Хун Дэн наглядно показывают парадокс продуктивности. Механизм, который вытягивает сложные логические задачи, превращается в обузу, когда нужно просто извлечь факт из памяти.
Главное
- Избыточное применение CoT приводит к падению точности в простых запросах из-за переусложнения логики.
- Динамика энтропии на уровне токенов позволяет точно определить момент, когда модели действительно нужно «задуматься».
- Фреймворк EDRM экономит до 55% токенов без необходимости дообучения нейросети.
Технология и подход
Вместо того чтобы гадать, где CoT уместен, авторы предложили смотреть на динамику энтропии на уровне токенов. Если неопределенность следующего слова падает, происходит «фазовый переход» от хаоса к структуре — значит, рассуждения работают. Если же энтропия скачет или растет, модель просто галлюцинирует за ваш счет.
На базе этого наблюдения создан фреймворк EDRM (Entropy Dynamics-based Reasoning Manifold), который не требует дообучения и на лету решает, включать ли «тяжелую» логику или ответить сразу.
«Усиленное мышление» должно быть реакцией на сложность задачи, а не состоянием модели по умолчанию.
Результаты и выводы
Цифры говорят сами за себя: на 15 бенчмарках и четырех разных LLM подход EDRM срезал потребление токенов на 41–55%. Самое ироничное, что точность при этом не упала, а выросла — на уровне отдельных примеров прирост составил до 4,7%.
Хватит воспринимать цепочки рассуждений как универсальную таблетку для ваших AI-пайплайнов. Внедрение динамического роутинга на основе энтропии позволяет уполовинить расходы и избавить систему от нелепых ошибок в простых запросах. В эпоху борьбы за эффективность инференса победит тот, кто научит свои модели вовремя закрывать рот и просто выдавать результат.