Google выкатил Gemini 3.1 Flash Live — новую модель голосового ИИ, которую бодро окрестили «самой естественной на рынке». Обещают, что она будет лучше распознавать эмоции и справляться с шумом, что, конечно, звучит как манна небесная для колл-центров и любых интерактивных штук, где вас слушают. Если верить этим заявлениям, то AI-голоса скоро перестанут казаться искусственными и станут просто очередным рабочим инструментом.

По цифрам: 95,9% качества распознавания речи по бенчмарку Big Bench Audio — неплохо, но до абсолютного лидерства еще шагать и шагать. Специализированные решения, вроде Step-Audio R1.1 Realtime, уже дотягивают до 97,0%. Гораздо интереснее для бизнеса — скорость. Gemini отвечает за 2,98 секунды. Конкуренты укладываются в 0,96. Для интерактивных сервисов, где каждая миллисекунда на счету, три секунды ожидания могут означать потерю клиента, тогда как одна — вполне приемлемый компромисс. Бизнесу придется решать: кому важнее почти безупречность, а кому — оперативность.

Несмотря на это, цена ($0,35 за час входящего аудио, $1,40 за исходящего) и, что куда важнее, глубокая интеграция с сервисами Google делают Gemini 3.1 Flash Live любопытным предложением. Для компаний, уже сидящих на игле Google, это прямой путь к упрощению работы с CRM, автоматизации рутины и быстрой адаптации новых инструментов. Если вам не нужны заоблачные показатели в каждом параметре, а ценится практичность и масштабируемость, то это решение стоит рассмотреть, особенно если хотите прищучить операционные расходы.

Что это значит для вас? Реалистичные AI-голоса меняют пользовательский опыт, делая его более доверительным и вовлекающим. Компании, которые первыми освоят и внедрят такие технологии, не только сэкономят на операционке, но и значительно улучшат взаимодействие с клиентами и сотрудниками. CEO, а вы готовы к модернизации, которая может дать реальное конкурентное преимущество?

Google Geminiголосовой ИИраспознавание речиAI-технологииколл-центры