Skip to main content

Un avance en la clonación de voz con IA. OpenVoice, una solución de clonación de voz de código abierto desarrollada por investigadores del MIT, la Universidad de Tsinghua en Beijing y miembros de la startup canadiense de IA MyShell, está marcando un hito en el campo de la inteligencia artificial. Según informa Venture Beat, este modelo permite clonar voces con una precisión sin precedentes, ofreciendo un control detallado sobre tono, emoción, acento, ritmo, pausas e intonación, utilizando solo un pequeño fragmento de audio.

El modelo OpenVoice de MyShell, desarrollado en colaboración con MIT y Tsinghua University, revoluciona la clonación de voz con IA, ofreciendo un control granular y una ejecución casi instantánea.

Cómo funciona OpenVoice: OpenVoice se compone de dos modelos de IA: un modelo de texto a voz (TTS) y un «convertidor de tono». El modelo TTS controla los parámetros de estilo y lenguaje, entrenado con 30.000 frases de muestras de audio de hablantes en inglés, chino y japonés. El modelo de convertidor de tono, por otro lado, se entrenó con más de 300.000 muestras de audio de más de 20.000 hablantes diferentes. Estos modelos trabajan juntos para reproducir la voz del usuario y cambiar su «color tonal» o la expresión emocional del texto hablado.

La misión de MyShell y el futuro de OpenVoice: Zengyi Qin, uno de los investigadores líderes de MIT y MyShell, expresa el deseo de la compañía de beneficiar a toda la comunidad de investigación. MyShell planea proporcionar subvenciones, conjuntos de datos y poder de cómputo para apoyar la investigación de código abierto. Con OpenVoice, MyShell busca democratizar la tecnología de clonación de voz y adaptarla a cualquier idioma, superando desafíos previos en el campo.

Aplicaciones y acceso a OpenVoice: OpenVoice está disponible a través de la interfaz de la aplicación web de MyShell (que requiere una cuenta de usuario) y en HuggingFace (accesible públicamente sin cuenta). La herramienta ofrece una flexibilidad sin precedentes en el control de estilos, emociones y acentos, y se adapta a cualquier idioma.

 

Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación. Esta es la de hoy.