Канадская Cohere, кажется, решила устроить взрыв на рынке распознавания речи. Они выпустили open-source модель Transcribe, которая, по их же заявлениям, безжалостно уделала всех на Hugging Face Open ASR Leaderboard. Средняя частота ошибок в 5,42% — это лучше, чем у OpenAI Whisper Large v3 и ElevenLabs Scribe v2. Так что, прощайте, отстающие.

Но это ещё не всё. Transcribe с её 2 миллиардами параметров, как шепчут, выдаёт лучшую скорость обработки (throughput) среди своих собратьев такого же размера. Пока конкуренты пыхтят, Transcribe уже обрабатывает следующую порцию речи.

Модель шустро работает с 14 языками, включая, разумеется, английский, да и парочку других, вроде немецкого, французского и японского. Светит нам всем под лицензией Apache 2.0 на Hugging Face, плюс через API Cohere и их Model Vault. А вишенка на торте — интеграция в собственную AI-агент платформу North от Cohere. Приготовились?

Для вас, уважаемые предприниматели и CEO, это значит одно: порог входа для голосовых интерфейсов и транскрибации только что рухнул. Если вы ещё не внедрили голосовые технологии — самое время присмотреться к Transcribe. Производительность и открытый доступ — гремучая смесь для оптимизации ваших операций и, конечно, для того, чтобы ваш клиентский опыт наконец-то перестал вызывать фейспалм.

CohereTranscribeASRраспознавание речиopen-source