Alibaba Qwen3.7-Plus: эволюция ИИ-агентов и автоматизация GUI

Alibaba переносит фокус в гонке вооружений ИИ с чистой логики на операционную утилитарность. Релиз Qwen3.7-Plus знаменует переход от модели-советчика к кроссплатформенному исполнителю. Интегрировав визуальное восприятие напрямую в агентский цикл, Alibaba Cloud создала систему, способную ориентироваться в графических интерфейсах (GUI) с уровнем автономности, недоступным текстовым моделям. Это не очередная «говорилка», а попытка захватить слой оркестрации десктопных и мобильных операционных систем.

Зрение важнее чистой логики

Техническая стратегия Qwen3.7-Plus отдает приоритет умению «видеть» экран, а не победам в абстрактных научных спорах. Пока модель пасует перед Gemini 3.1 Pro или GPT-4o в тестах на чистую логику и научные знания (вроде MedXpertQA-MM), она доминирует в практическом управлении интерфейсами. На бенчмарках AndroidWorld и ScreenSpot Pro детище Alibaba заметно опережает западные флагманские модели. Очевидно, что компания нацелилась на рынок автоматизации рабочих процессов, где способность распознать структуру UI гораздо ценнее решения уравнений по физике.

Qwen3.7-Plus — это ставка Alibaba на превращение мультимодального ИИ в полноценного автономного агента через синтез зрения, кодинга и работы с инструментами.

Переход к концепции больших мультимодальных моделей (LMM) позволяет системе читать содержимое экрана и управлять приложениями «под ключ». Агент способен самостоятельно переключаться в активный режим для работы в облачной консоли: от покупки и настройки дешевых виртуальных серверов до управления хранилищами и группами безопасности. Для бизнеса это означает смену парадигмы: ИИ больше не предлагает стратегию развертывания, а сам логинится в консоль и нажимает нужные кнопки.

Одиннадцать часов автономного кодинга

Alibaba подкрепляет свои амбиции кейсами, проверяющими пределы автономного программирования. В одном из тестов гибридная система агентов получила задачу собрать приложение для изучения английского языка с нуля. Система работала более 11 часов, совершив свыше 1000 вызовов и сгенерировав более 10 000 строк кода. Это не просто написание скрипта, а полноценный цикл: от документации требований и автоматической установки до создания тест-кейсов и управления версиями. Воссоздание нативного приложения macOS Stocks исключительно на основе анализа его интерфейса и генерации кода SwiftUI доказывает: модель научилась сокращать дистанцию между визуальным дизайном и работающим софтом.

Экономический прагматизм завершает эту картину. Alibaba позиционирует Qwen3.7-Plus как высокоэффективную и дешевую альтернативу «максимальным» предложениям рынка. Компания сознательно жертвует пиковыми баллами в рассуждениях, чтобы предоставить инструмент, который реально работает с хаотичными человеческими интерфейсами за долю стоимости конкурентов. Успех в навигации по GUI и планировании длинных цепочек задач подтверждает: следующий этап ИИ-трансформации — это исполнение, а не просто инструкции.

Источник: The Decoder →

Оцените материал

★ ★ ★ ★ ★

ИИ-агентыКомпьютерное зрениеАвтоматизацияЦифровая трансформацияAlibaba

Эра исполнителей: как Alibaba Qwen3.7-Plus захватывает управление интерфейсами

Зрение важнее чистой логики

Одиннадцать часов автономного кодинга