Google DeepMind подкрутил гайки своим аудио-моделям Gemini 2.5 Pro, Flash и Native Audio. Теперь они не просто озвучивают текст, а делают это с умом, особенно Gemini 2.5 Flash Native Audio, нацеленный на голосовых агентов. По словам представителей Google, новая версия модели куда лучше справляется с инструкциями пользователей, сложными рабочими процессами и, что немаловажно, ведет более осмысленные диалоги. Проще говоря, вашим AI-ассистентам больше не придется путаться в трех соснах.
Свежие апдейты уже подвезли в Google AI Studio и Vertex AI, а заодно начинают затягивать их в Gemini Live и Search Live. Цель — добиться того, чтобы голос в поисковиках звучал почти как живой человек. Еще одна вкусная плюшка — перевод речи «из уст в уста» с сохранением всех нюансов: интонации, темпа, тембра. Представьте, как это облегчит международные звонки или общение с зарубежными партнерами.
На наш взгляд, эти улучшения — не просто очередной шаг в эволюции AI. Это реальный инструмент для бизнеса. Более естественное общение с AI-агентами означает ускорение клиентского сервиса, снижение нагрузки на операторов и, как следствие, повышение лояльности клиентов. Компании, которые первыми освоят эти новинки, получат ощутимое конкурентное преимущество.