El modelo ha sido desarrollado por Juan Pablo Gallego en dos semanas, y está disponible para su uso en HuggingFace
El modelo abierto F5-TTS permite clonar y sintetizar voces. Ahora, después de varias semanas haciendo un ajuste fino con audios en español, Juan Pablo Gallego ha logrado que funcione en este idioma de manera muy fluida. De entrada, el modelo es muy bueno clonando voz a partir de fragmentos de menos de 15 segundos, algo que no son capaces de hacer la mayoría de herramientas de este tipo (que necesitan locuciones de varios minutos de duración). Además, es capaz de procesarlo todo casi en tiempo real, lo que evita tener que esperar a que se procese.
Aunque los audios generados todavía son de calidad media (no cabe esperar locuciones tan profesionales como las de ElevenLabs), los resultados de esta IA son muy prometedores. También se espera que en futuras actualizaciones permita controlar mejor el resultado. En Paréntesis MEDia, te explicamos cómo usar esta IA.
Paso a paso
- Se puede descargar y ejecutar en local, o usarlo directamente en HuggingFace. Nosotros hemos optado por la segunda opción para probar sus posibilidades.
- Entramos en la versión ‘afinada’ al español por Juan Pablo Gallego.
- Allí encontraremos diferentes modos de uso: el primero es el modelo de síntesis de voz básico, el segundo es un modelo de múltiples tipos de habla (al que se le pueden subir referencias distintas) y el tercero es un chat de audio en el que puedes clonar una voz para que responda directamente con ese tono.
- Múltiples tipos de habla: puedes configurar diferentes hablantes y diversas entonaciones. Esto permitirá generar de una tirada un diálogo ‘dramatizado’.
- Chat de audio:
- En todos ellos se puede usar una voz de referencia de entre 11 y 14 segundos: se le puede proporcionar también la transcripción, o dejar la propia herramienta la genere de forma automática. Recomendamos que la grabación tenga la mayor calidad posible y, a poder ser, esté en formato WAV o MP3.
- Existe una funcionalidad para eliminar silencios, ya que algunas veces el modelo puede hacerlo entre palabras o incluso dentro de la misma. Aunque el modelo todavía tiene camino por delante antes de alcanzar un nivel aceptable de errores, es una buena base de experimentación. El hecho de que esté en abierto también facilita el trabajo de los mismos usuarios, que colaboran en su mejora.
- El mismo creador de la versión española recomienda en X no usar mayúsculas, ya que el modelo no sabe que son iguales que las minúsculas y dejar un espacio al final de la frase, antes del punto.
Síntesis de voz
Modelo abierto
En la nube
🤖🤖🤖🤖🤖
Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.