Пока индустрия одержима гонкой параметров, Google Research (команда Даниэль Коэн и Йони Халперна) на конференции EMNLP 2025 наглядно продемонстрировала: архитектурная хитрость бьет грубую силу. Исследователи доказали, что секрет эффективности автономных агентов кроется не в раздувании весов модели, а в декомпозиции задач. Вместо того чтобы заставлять одну неповоротливую LLM «постичь всё», они раздробили извлечение намерений пользователя (intent extraction) на два этапа: сначала сжатый анализ отдельных UI-экранов, затем — синтез этих резюме в общую логику действий.
Технически это выглядит как работа со «скользящим окном» из трех последних экранов мобильного интерфейса. В первой фазе модель активно спекулирует о контексте и возможных действиях, формируя насыщенный отчет. Во второй — отсекает лишнее, превращая догадки в четкий план. Такой подход позволяет малым мультимодальным моделям не просто догонять, а местами обходить облачных тяжеловесов по качеству предсказания следующего шага. Это критический сдвиг для индустрии: мы уходим от попыток скормить нейросети весь поток сырых данных к точечной работе с декомпозированными траекториями взаимодействия.
Главные выводы исследования
Эффективность ИИ-агентов теперь зависит от качества декомпозиции задач, а не от количества параметров модели. Малые мультимодальные модели при правильной архитектуре превосходят LLM в точности исполнения сценариев. Локальный инференс на устройстве позволяет радикально снизить задержки и затраты на облачную инфраструктуру.
«Будущее ИИ-агентов — в компактной архитектуре, которая понимает пользователя здесь и сейчас, не дожидаясь ответа от удаленного сервера».
Для бизнеса это означает конец безусловной диктатуры «облачных гигантов». Перенос логики на локальный инференс малых моделей решает две главные проблемы — задержки (latency) и непомерные затраты на облачный обсчет каждой транзакции. Использование специализированных он-девайс решений сохраняет контекстную осведомленность агента, но избавляет бюджет от «финансовой дыры», создаваемой тяжелым инференсом.
К 2026 году успех агентских систем будет определяться не объемом вычислительных мощностей, а качеством инженерной декомпозиции. Конкурентное преимущество теперь на стороне тех, кто умеет правильно структурировать проблему, а не просто сжигает тераватты на обучение очередной «модели всего».