Google выпустил Gemini 3.1 Flash TTS – новую модель для генерации речи. По заявлению компании, она задает новый стандарт качества, предлагая точный контроль над интонацией. Теперь через текстовые теги можно задавать стиль, темп, ударения и даже «атмосферу» речи, что фактически даёт пользователю режиссерские рычаги управления голосовым движком.

Модель также поддерживает многоголосье, сохраняя при этом уникальный стиль каждого голоса. Это открывает возможности для масштабной озвучки, например, целых фильмов, а не только отдельных персонажей. Скорость генерации значительно выросла: по сравнению с предыдущими версиями TTS, ускорение первого токена и общее снижение задержки составили десятки процентов. Это делает Gemini 3.1 Flash TTS пригодной для онлайн-сценариев, требующих моментального отклика.

В Google утверждают, что такие функции, как озвучивание, переводы, создание AI-подкастов и голосовых агентов, «скоро выйдут на совсем новый уровень». Этот шаг выглядит как прямое усиление конкуренции на рынке голосовых интерфейсов. Если раньше на нём доминировали нишевые игроки, то теперь Google заходит с комплексным решением, способным пошатнуть их позиции.

Что это значит для бизнеса? Выход Gemini 3.1 Flash TTS поднимает планку для всех участников рынка голосовых технологий. Для компаний это означает, что создание высококачественного аудиоконтента и сложных голосовых агентов станет доступнее и быстрее. Следовательно, конкуренция в этой сфере будет только ужесточаться.

Искусственный интеллектГенеративный ИИИИ-инструментыИИ в бизнесеGoogle