Google Gemini "трогает" картинки: шаг к ИИ-агентам?

Google снова решил напомнить о себе, на этот раз с функцией «агентного зрения» (Agentic Vision) для модели Gemini 3 Flash. Забудьте о пассивном разглядывании картинок, как это делают другие AI. Gemini теперь может активно их исследовать. Если раньше пропущенная деталь означала лишь догадку, то теперь модель планирует, выполняет Python-код для манипуляций с изображением — будь то кроп, поворот или аннотация — и итеративно анализирует результат. По заверениям Google, это добавляет 5-10% точности в бенчмарках. Проще говоря, модель теперь не только смотрит, но и немного «трогает» картинку, чтобы увидеть больше.

В основе лежит архитектура «Think, Act, Observe» — зацикленный процесс, который Google применяет к изобразительным задачам. Сначала Gemini «думает», анализируя запрос и изображение, и составляет план. Затем «действует»: генерирует и выполняет Python-код для изменения картинки. Наконец, «наблюдает» — полученное изображение возвращается в контекст, позволяя модели продолжить анализ уже с новым пониманием. Пока это больше похоже на продвинутую автоматизацию рутинных операций с визуалом, чем на настоящий шаг к автономности, но кто знает, может, это и есть та самая «движущая сила».

Компания PlanCheckSolver.com, специализирующаяся на валидации строительных планов, уже успела опробовать новинку. По их словам, точность анализа выросла на 5% благодаря итеративному анализу частей изображений с помощью кода. Gemini 3 Flash генерировал код для кропа и анализа конкретных участков планов, а затем возвращал их в контекст для более точной проверки соответствия строительным нормам. В приложении Gemini эту механику используют для подсчета пальцев на руке: модель рисует рамки вокруг каждого пальца, чтобы избежать ошибок. Впечатляет, но это всё ещё про улучшение существующих процессов, а не про революцию в автономности.

Почему это важно для вас: Google делает ставку на мультимодальность с элементами реального действия, что потенциально расширяет спектр задач для AI. Однако, пока эта «активность» сводится к выполнению кода для манипуляций с изображениями, речь идёт скорее о более тонкой настройке существующих инструментов, чем о появлении полноценных автономных агентов, способных к самостоятельному принятию решений в реальном мире. Это интересный апдейт для разработчиков, ищущих новые способы работы с визуальным контентом, но ждать радикальных изменений в бизнес-процессах пока рано. ИИ-агенты, готовые взять на себя реальные задачи, — это, видимо, следующая серия.

Источник: Gemini Models →

Оцените материал

★ ★ ★ ★ ★

Искусственный интеллектКомпьютерное зрениеИИ-инструментыGoogle DeepMindАвтоматизация