HRBench: как снизить затраты на инференс LLM через Hybrid Reasoning

Эпоха бездумного инференса LLM подходит к концу. На смену ей приходит прагматичный расчет: стоит ли результат затраченных на него токенов. Пока модели вроде OpenAI o1 и DeepSeek-R1 щеголяют длинными цепочками рассуждений (Chain-of-Thought), бизнес начинает считать убытки от раздутого «бюджета на размышления». Группа исследователей из HKUST и Tencent представила HRBench — первый вменяемый фреймворк для аудита стратегий гибридного мышления (Hybrid-Reasoning), который позволяет моделям вовремя «включать голову» и, что важнее, вовремя её выключать.

Суть проблемы проста: новые модели вроде Qwen3.5 или Kimi-K2.5-1.1T умеют регулировать глубину анализа, но индустрия до сих пор не имела стандарта, чтобы измерить эффективность этих переключений. Янсун Нин и его команда структурировали этот хаос, внедрив 12 различных методов адаптивного мышления в единый пайплайн. Теперь мы видим реальную картину того, как модели от 2B до терабайтных параметров распоряжаются когнитивным бюджетом на задачах по математике, кодингу и естественным наукам.

The Three Paths to Computational Frugality

Для тех, кто следит за P&L своих AI-сервисов, HRBench выделяет три архитектурных подхода к управлению стоимостью генерации. Первый — Prompt-Tuning. Модель сама решает, нужно ли ей «думать» долго, основываясь на инструкциях. Данные показывают, что это самый дешевый способ получить адекватный результат. Второй путь — Routing, классическая схема «сначала оцени, потом запускай», где внешний роутер анализирует сложность запроса перед отправкой. Это дает наиболее стабильное снижение операционных издержек, избавляя тяжелые модели от ответов на тривиальные вопросы.

«Модели с гибридным мышлением предоставляют явные рычаги контроля над усилиями по рассуждению, позволяя системам находить компромисс между качеством ответа и стоимостью инференса».

Наконец, Speculative-методы позволяют модели стартовать в быстром режиме и эскалировать процесс до глубоких рассуждений только при обнаружении неопределенности. Хотя это повышает точность, HRBench фиксирует здесь самый высокий «налог на токены». Анализ HKUST и Tencent подтверждает: универсальной таблетки нет — эффективность стратегии напрямую зависит от масштаба модели и конкретного домена задачи.

Главный вывод HRBench смещает фокус с вопроса «может ли модель это решить?» на «какой самый дешевый способ это решить?». Исследование обнажило неприятную правду: избыток вычислений не гарантирует прорыв в качестве, особенно когда прямого ответа (no_think) вполне достаточно. Текущие методы адаптивного мышления все еще спотыкаются о консистентность в разных областях знаний. Для CTO это четкий сигнал: нельзя полагаться на встроенные пресеты. Чтобы избежать бесконтрольного сжигания токенов, необходимо проводить бенчмаркинг конкретного масштаба вашей модели под конкретные бизнес-задачи, используя репозиторий HRBench как инструмент для принятия решений на основе данных, а не интуиции.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиСнижение затратИИ в бизнесеПроизводительностьTencent

Экономика рассуждений: как HRBench помогает ИИ тратить меньше токенов

The Three Paths to Computational Frugality