ElevenLabs представила Scribe — новую модель ASR, превосходящую Whisper v3 и Gemini 2.0


ElevenLabs выпустила Scribe — новую модель автоматического распознавания речи


Компания ElevenLabs представила Scribe — свою первую модель автоматического распознавания речи (ASR), уже ставшую самой точной в мире.

Что умеет Scribe?


Поддержка 99 языков с высокой точностью распознавания.
Минимальное количество ошибок по сравнению с конкурентами.
Временные метки, разделение спикеров и распознавание аудио-событий (например, смеха, аплодисментов).
Лучшие показатели в тестах FLEURS и Common Voice.

Как Scribe сравнивается с Whisper v3 и Gemini 2.0?


В тестах на FLEURS и Common Voice Scribe превзошла Whisper Large V3, Gemini 2.0 Flash и Deepgram Nova-3. Например, точность распознавания:

Итальянский — 98,7%.
Английский — 96,7%.
Сербский, кантонский, малаялам — точность выше, чем у других ASR, которые ошибались более чем в 40% случаев.

Где можно использовать Scribe?


Для разработчиков: доступ через Speech-to-Text API с JSON-структурой, временными метками и разделением спикеров.
Для бизнеса и контента: загружайте аудио и видеофайлы в ElevenLabs, получая форматированные транскрипции.
В потоковых сервисах: скоростная версия для live-приложений выйдет позже.
Scribe — это значительный шаг вперёд в точности распознавания речи. В будущем ожидается интеграция с SuperWhisper и другими платформами, где сейчас используется Deepgram.

Опубликовано: 27.02.2025 03:23