Huawei и Сучжоуский университет оптимизируют инференс ИИ

Линейное масштабирование вычислений при выводе (inference) столкнулось с законом убывающей отдачи: простое наращивание аппаратных мощностей больше не гарантирует пропорционального улучшения результата. Исследователи из Сучжоуского университета и лаборатории Huawei 2012 Labs обнаружили, что стандартные методы — такие как многократное сэмплирование или древовидный поиск — зачастую расходуют ресурсы впустую, применяя одну и ту же «тяжелую артиллерию» и к элементарным, и к сложным запросам.

Чтобы прекратить эту нерациональную трату ресурсов, Жиминь Линь и его команда представили Disagreement-Guided Strategy Routing (DGSR). Это фреймворк, который превращает процесс вывода в задачу динамической маршрутизации. Что особенно важно для бизнеса — внедрение этой технологии не требует дорогостоящего дообучения моделей.

Вместо того чтобы слепо следовать по заранее заданному алгоритму, система использует метрику «несогласия» (disagreement) — статистический разброс между первыми вариантами ответов модели. Это служит индикатором реальной сложности задачи и вероятности ошибки. С точки зрения эффективности, это элегантное решение проблемы галлюцинаций: если модель демонстрирует внутреннюю неуверенность и выдает противоречивые результаты, система автоматически меняет тактику.

Методология DGSR заменяет примитивное голосование (Best-of-N) адаптивным выбором из трех сценариев. Если варианты ответов сходятся, система выбирает «легкий путь» для экономии ресурсов. При умеренном разбросе включается мажоритарное голосование. В наиболее сложных случаях ИИ принудительно переходит в режим глубокого поиска, переформулируя задачу для более тщательного анализа.

Тесты на семи математических наборах данных показали, что такой хирургически точный подход увеличивает точность ответов на 3–7%, одновременно снижая затраты на токены. Это наносит прямой удар по совокупной стоимости владения (TCO) нейросетевыми системами. Пока метод лучше всего проявляет себя в областях с проверяемым результатом — в программировании и математике. Однако потенциал интеграции DGSR в агентские архитектуры открывает будущее, где ИИ сам управляет своим «бюджетом на раздумья». Для бизнеса это четкий сигнал: эпоха закупки сырых токенов уступает место эпохе оптимизированной логики. Ценность теперь заключается не в параметрах модели, а в интеллекте самого вычислительного цикла.

Источник: arXiv cs.AI →

Оцените материал

★ ★ ★ ★ ★

Большие языковые моделиСнижение затратПроизводительностьHuawei

Экономия на раздумьях: как Huawei оптимизирует вычислительный бюджет нейросетей