Alibaba выкатила Qwen3.5-Omni, модель, которая, по заявлениям инженеров, генерирует программный код, слушая голосовые команды и анализируя видео, причем без прямого обучения на таких данных. Звучит как начало новой эры, где бизнес сможет общаться с ИИ без необходимости изучать сложные промпты.

В аудиозадачах Qwen3.5-Omni, как утверждает Alibaba, обходит Google Gemini 3.1 Pro. Поддержка 74 языков открывает колоссальные возможности для глобальной автоматизации. Модель способна переварить более десяти часов аудио и семь минут видео — это уже не просто игрушка, а инструмент для анализа сложных бизнес-процессов.

Alibaba, впрочем, веса модели не выложила, предложив доступ через API. Видимо, хотят получить контроль и, чего греха таить, заработать на корпоративных клиентах. Мультимодальность — способность понимать текст, изображения, аудио и видео — явно намекает, что будущее за ИИ, с которым можно будет общаться, как с человеком.

Итог для бизнеса? Qwen3.5-Omni — это не столько про разработчиков, сколько про то, как руководители смогут отдавать команды ИИ голосом или с помощью видео, получая на выходе код или анализ. Это потенциально ускорит разработку, повысит эффективность и заставит пересмотреть взаимодействие с технологиями не только IT-отделы, но и всю операционную часть компаний. Ждем, когда другие подтянутся.

Искусственный интеллектГенеративный ИИИИ в бизнесеАвтоматизацияQwen3.5-Omni