Исследователи из Геттингенского университета во главе с Флорианом Валентином Вундерлихом решили извечный спор бизнеса и науки: что выгоднее — закидывать задачу деньгами, наращивая вычислительные мощности, или настраивать тонкую архитектурную оркестрацию? Ответ ученых однозначен: сложность взаимодействия агентов оказывается эффективнее простого масштабирования ресурсов. Команда протестировала 34 конфигурации на бенчмарках MMLU-Pro и BBH, выстроив кривую Парето-оптимальности. Это знаменует важный сдвиг в индустрии — переход от абстрактной гонки моделей к жесткому расчету совокупной стоимости владения (TCO).

Согласно отчету Вундерлиха, масштабирование вычислений на этапе инференса позволяет выжать из нейросети максимум без дорогостоящего дообучения. Данные показывают, что методы Multi-Agent Debate и Mixture-of-Agents (MoA) по части эффективности использования токенов вчистую переигрывают классические подходы вроде Self-Consistency. На тестах MMLU-Pro стратегии дебатов и MoA при равном бюджете обошли конкурентов на 1,3% и 2,7% соответственно. Там, где результативность простых методов стагнирует, многоагентные системы продолжают демонстрировать рост: на сложных задачах прирост составил до 9% по сравнению со стандартным методом цепочки рассуждений (Chain-of-Thought).

В ходе анализа ученые сформулировали конкретное правило проектирования: система Mixture-of-Agents работает на пике продуктивности, когда количество параллельных генераций превышает число уровней агрегации. Это ставит крест на практике бесконечных последовательных раундов обсуждения — исследователи прямо указывают на их неэффективность, рекомендуя вместо этого увеличивать число «участников» дискуссии. Для бизнеса это четкий сигнал: пора перестать надеяться на магию одной сверхмощной модели и начать инвестировать в качественную оркестрацию.

Работа переводит дискуссию из плоскости «кто умнее» в плоскость «кто дешевле в эксплуатации». Выбор конфигурации параметров из гадания на кофейной гуще превращается в математически обоснованный расчет. Теперь понятно, как достичь предельной точности даже при 20-кратном росте бюджета на инференс — то, что раньше казалось неоправданным расточительством, теперь имеет доказанный экономический смысл. Единственным узким местом остается стабильность таких «дебатирующих» систем при столкновении с реальным хаосом неструктурированных данных.

ИИ-агентыСнижение затратПроизводительностьИИ в бизнесеБольшие языковые модели