Google DeepMind представил Gemini 3.1 Flash TTS — новую модель преобразования текста в речь (TTS), которая, по замыслу разработчиков, призвана кардинально изменить подход бизнеса к интеграции AI-озвучки. Модель уже доступна в тестовом режиме для разработчиков через Gemini API и Google AI Studio, для корпоративных клиентов на Vertex AI, а также для пользователей Workspace через Google Vids. Её главные козыри: улучшенный контроль, выразительность и качество AI-голоса. На бенчмарке Artificial Analysis TTS, оценивающем предпочтения реальных людей, Gemini 3.1 Flash TTS набрала 1211 баллов по шкале Эло, что поместило её в «самый привлекательный квадрант» бенчмарка за оптимальный баланс высокого качества речи и низкой стоимости. Похоже, это серьёзная заявка на лидерство.
Ключевое преимущество Gemini 3.1 Flash TTS — это возможность детально управлять вокальным стилем, темпом и подачей речи. Пользователи могут задавать эти параметры, используя естественный язык прямо в тексте. Вплоть до «режиссёрских указаний» для определения окружения и инструкций к диалогам. Разработчики даже могут менять выражение в середине предложения, используя встроенные теги. Модель также поддерживает диалоги с несколькими спикерами и более 70 языков, что гарантирует её глобальное применение и выразительные голосовые возможности на различных рынках.
Такие возможности контроля позволяют генерировать речь для самых разных сценариев: от озвучки персонажей в медиа до создания иммерсивных аудио-сцен. Разработчики могут экспериментировать с этими аудио-тегами и другими функциями в Google AI Studio, где конфигурации позволяют им почувствовать себя настоящими «режиссёрами». После доработки параметры можно экспортировать в виде кода Gemini API, обеспечивая согласованность голоса на разных платформах и в различных проектах.
Что это значит для рынка: Выпуск Gemini 3.1 Flash TTS предвещает обострение конкуренции на рынке AI-голоса. Бизнес получает мощный инструмент для улучшения клиентского сервиса, создания динамичного маркетингового контента и более вовлекающих интерактивных платформ. Для компаний и разработчиков эта модель снижает порог входа для создания высококачественной, управляемой AI-речи, что, вероятно, подстегнёт новую волну инноваций в AI-коммуникациях и медиа. Ваши стратегические инвестиции в AI-автоматизацию и взаимодействие с клиентами теперь получили новую, крайне конкурентоспособную опцию, которая сочетает передовые возможности с эффективностью затрат. И это необходимо учитывать в ближайших планах.