La empresa ElevenLabs le ha dado la vuelta a su negocio: ahora ya realiza el camino inverso de voz a texto con Scribe. Este modelo –afirman– superaría a los de Google y de OpenAI incluso para generar subtítulos en tiempo real.
Este miércoles, ElevenLabs anunció el lanzamiento de su último modelo de inteligencia artificial, Scribe. Aunque está todavía en su primera versión, la empresa asegura que es la plataforma “de conversión de voz a texto más precisa”.
Según ElevenLabs, Scribe fue creado para adaptarse a una gran cantidad de audios y sonidos impredecibles. Además, indican que es capaz de transcribir 99 lenguas con resultados de alta calidad, lo que la convertiría en una herramienta sin precedentes.
Introducing Scribe — the most accurate Speech to Text model.
It has the highest accuracy on benchmarks, outperforming previous state-of-the-art models such as Gemini 2.0 and OpenAI Whisper v3.
It’s now the leading model for English, Spanish, Italian, and many more. With support… pic.twitter.com/A6TzLzFEUL
— ElevenLabs (@elevenlabsio) February 26, 2025
Scribe además permite comprender el registro diario de los hablantes, el ritmo de habla dependiendo del interlocutor y también y ruidos no verbales como los aplausos o la risa.
¿Mejor que Google y OpenAI?
ElevenLabs es consciente de la competencia en el mundo de la inteligencia artificial y el desarrollo tecnológico, por lo que asegura que Scribe es más preciso que OpenAI Whisper v3 y Gemini 2.0.
Scribe asegura tener la mayor tasa de precisión en idiomas de habla universal, como en el inglés (96,7%), italiano (98,7%), francés y español (ambos sobre el 95%), pero también en algunas lenguas de habla regional, como el catalán y el gallego (los dos por sobre el 95%). Sin contar en que tienen un avance en lenguas con altas tasas de error, como el cantonés, el serbio y el canarés.
Así, alcanzaría una tasa de error de menos del 15%, más baja que de Gemini 2.0 y de OpenAI Whisper V3.
Este modelo podrá ser usado para diferentes tareas, como la transcripción de subtítulos en directo, incluso de idiomas distintos, el entrenamiento de soluciones empresariales y el desarrollo de una app para transcribir voces.
Scribe ya está disponible en el sitio web de ElevenLabs, ofreciendo una prueba gratuita.
Los próximos pasos de ElevenLabs
Más allá del entretenimiento, ElevenLabs explora nuevos casos de uso en sectores como la atención al cliente y los medios de comunicación. En colaboración con Call Simulator, su tecnología ofrece experiencias conversacionales más fluidas y naturales, reemplazando las voces robóticas por asistentes con mayor capacidad de comprensión.
Por otro lado, Spotify ha anunciado una colaboración con ElevenLabs, para ampliar su catálogo de audiolibros narrados digitalmente.
Además, ElevenLabs ha asegurado que uno de los objetivos del 2025 es lograr que las personas y las empresas interactúen con la IA de manera natural. “Nuestro objetivo es que los agentes escuchen, comprendan y respondan como lo haría un ser humano”.