Больше половины населения планеты — билингвы, но фундамент голосового AI до сих пор хромает на обе ноги, когда дело доходит до реальности. Исследование ServiceNow-AI наглядно демонстрирует: кодовое переключение (code-switching), тот самый естественный микс языков в одном предложении, остается «слепым пятном» даже для топовых Frontier ASR-решений. Пока люди бесшовно жонглируют словами, автоматика впадает в ступор. Это не лингвистическая экзотика, а системный риск: ошибки транскрибации каскадом валятся в логику последующих процессов, превращая обращение в IT-поддержку в неразбериху.
Главные выводы исследования
В ServiceNow-AI прогнали через бенчмарк AU-Harness четыре пары языков (от испанского до канадского французского в связке с английским) и протестировали тяжеловесов: Gemini 1.5 Flash, ElevenLabs Scribe V2 и Assembly AI Universal 3-Pro. Замеряли не только стандартную частоту ошибок в словах (WER), но и семантическую точность (SWER).
Результаты неутешительны: цена языковой гибкости варьируется от модели к модели, но универсального лидера нет. Для бизнеса это означает, что ставка на «одну модель для всех» — это не стратегия, а азартная игра. Ошибки на этапе распознавания речи критически снижают эффективность автоматизации.
Последствия для бизнеса и ITSM
В сценариях IT-сервис-менеджмента (ITSM) — будь то сброс пароля или настройка VPN — неспособность модели переварить билингвальную речь ведет к неверной маршрутизации заявок. Если ваш контакт-центр работает на рынках, где смешивание языков — норма, нынешний голосовой агент, скорее всего, просто «сливает» контекст.
Руководителям пора признать: общие модели не справляются. Чтобы достичь реальной автономности, нужно уходить от универсальных инструментов в сторону специализированной донастройки под локальные паттерны.
Либо транскрипт будет точным с первого раза, либо вся цепочка автоматизации рассыплется как карточный домик.