OpenVoice de MyShell: Innovación en clonación de voz con IA de código abierto

Un avance en la clonación de voz con IA. OpenVoice, una solución de clonación de voz de código abierto desarrollada por investigadores del MIT, la Universidad de Tsinghua en Beijing y miembros de la startup canadiense de IA MyShell, está marcando un hito en el campo de la inteligencia artificial. Según informa Venture Beat, este modelo permite clonar voces con una precisión sin precedentes, ofreciendo un control detallado sobre tono, emoción, acento, ritmo, pausas e intonación, utilizando solo un pequeño fragmento de audio.

El modelo OpenVoice de MyShell, desarrollado en colaboración con MIT y Tsinghua University, revoluciona la clonación de voz con IA, ofreciendo un control granular y una ejecución casi instantánea.

Cómo funciona OpenVoice: OpenVoice se compone de dos modelos de IA: un modelo de texto a voz (TTS) y un «convertidor de tono». El modelo TTS controla los parámetros de estilo y lenguaje, entrenado con 30.000 frases de muestras de audio de hablantes en inglés, chino y japonés. El modelo de convertidor de tono, por otro lado, se entrenó con más de 300.000 muestras de audio de más de 20.000 hablantes diferentes. Estos modelos trabajan juntos para reproducir la voz del usuario y cambiar su «color tonal» o la expresión emocional del texto hablado.

La misión de MyShell y el futuro de OpenVoice: Zengyi Qin, uno de los investigadores líderes de MIT y MyShell, expresa el deseo de la compañía de beneficiar a toda la comunidad de investigación. MyShell planea proporcionar subvenciones, conjuntos de datos y poder de cómputo para apoyar la investigación de código abierto. Con OpenVoice, MyShell busca democratizar la tecnología de clonación de voz y adaptarla a cualquier idioma, superando desafíos previos en el campo.

Aplicaciones y acceso a OpenVoice: OpenVoice está disponible a través de la interfaz de la aplicación web de MyShell (que requiere una cuenta de usuario) y en HuggingFace (accesible públicamente sin cuenta). La herramienta ofrece una flexibilidad sin precedentes en el control de estilos, emociones y acentos, y se adapta a cualquier idioma.

Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación. Esta es la de hoy.

Etiquetas:

Clonación de Voz IA código abierto Inteligencia Artificial MIT MyShell OpenVoice Texto a Voz Universidad de Tsinghua

OpenVoice de MyShell: Innovación en clonación de voz con IA de código abierto

Etiquetas:

Paréntesis MEDia

Entrada anteriorUna IA pone en duda la autoría de un cuadro de Raffaello

Siguiente entradaMidjourney, acusado de usar obras sin permiso para entrenar su IA

Quiénes somos

Política de privacidad

(TikTok)

(YouTube)

(Linkedin)

(Instagram)

(X)