Google представил новую модель синтеза речи (TTS), работающую на базе Gemini 3.1 Flash. Модель поддерживает более 70 языков и позволяет точно настраивать стиль, темп и акцент с помощью специальных аудиотегов. По мнению The Decoder, это самое естественное и выразительное голосовое решение от Google на сегодняшний день, позволяющее разработчикам создавать даже многоголосые диалоги.

По соотношению цены и качества новая модель превосходит ElevenLabs v3, занимая второе место в общем рейтинге Artificial Analysis с оценкой 1211 по шкале Эло. Это ставит Google в ряд серьёзных игроков на рынке TTS, сразу после Inworld 1.5 Max.

Модель доступна через Gemini API (в режиме предварительного просмотра), для корпоративных клиентов — через Vertex AI, а также в рамках Google Vids для пользователей Workspace. Предусмотрен бесплатный тариф, но с условием использования ваших данных для улучшения продуктов Google. Платный тариф обеспечивает конфиденциальность: $1.00 за миллион входных токенов и $20.00 за миллион выходных. При пакетной обработке стоимость снижается вдвое: до $0.50 и $10.00 соответственно. Весь сгенерированный аудиоконтент маркируется с помощью технологии SynthID от Google.

Для бизнеса это означает существенное расширение возможностей применения голосовых технологий на базе ИИ. Широкая языковая поддержка и детальный контроль над речью позволяют создавать по-настоящему глобальные и персонализированные голосовые продукты — от клиентского сервиса до локализации контента. Конкурентная цена и высокие показатели качества предлагают привлекательную альтернативу для компаний, стремящихся эффективно масштабировать свои голосовые интерфейсы. А интеграция SynthID решает проблему отличия ИИ-генерированного контента, что важно в условиях растущих опасений на этот счёт.

Искусственный интеллектГенеративный ИИИИ в бизнесеСнижение затратGoogle DeepMind