ElevenLabs выпустила Scribe — новую модель автоматического распознавания речи
Компания ElevenLabs представила Scribe — свою первую модель автоматического распознавания речи (ASR), уже ставшую самой точной в мире.
Что умеет Scribe?
Поддержка 99 языков с высокой точностью распознавания.
Минимальное количество ошибок по сравнению с конкурентами.
Временные метки, разделение спикеров и распознавание аудио-событий (например, смеха, аплодисментов).
Лучшие показатели в тестах FLEURS и Common Voice.
Как Scribe сравнивается с Whisper v3 и Gemini 2.0?
В тестах на FLEURS и Common Voice Scribe превзошла Whisper Large V3, Gemini 2.0 Flash и Deepgram Nova-3. Например, точность распознавания:
Итальянский — 98,7%.
Английский — 96,7%.
Сербский, кантонский, малаялам — точность выше, чем у других ASR, которые ошибались более чем в 40% случаев.
Где можно использовать Scribe?
Для разработчиков: доступ через Speech-to-Text API с JSON-структурой, временными метками и разделением спикеров.
Для бизнеса и контента: загружайте аудио и видеофайлы в ElevenLabs, получая форматированные транскрипции.
В потоковых сервисах: скоростная версия для live-приложений выйдет позже.
Scribe — это значительный шаг вперёд в точности распознавания речи. В будущем ожидается интеграция с SuperWhisper и другими платформами, где сейчас используется Deepgram.