Skip to main content

Podcastle ofrece a través de su modelo Asyncflow v1.0 un servicio de síntesis de voz similar a ElevenLabs por menos de la mitad del precio. Lo malo: en inglés entrega un resultado aceptable, pero le cuesta trabajar con otros idiomas como el español.

La plataforma de grabación y edición de pódcast Podcastle ha dado un paso importante en el campo de la inteligencia artificial con el lanzamiento de su propio modelo de conversión de texto a voz, Asyncflow v1.0. Con esta nueva herramienta, Podcastle se intenta posicionar al mismo nivel que otras empresas tecnológicas destinadas al mismo objetivo, como ElevenLabs, Speechify y WellSaid. 

¿Qué ofrece esta nueva herramienta?

Lo más destacado de Asyncflow v1.0 es su capacidad para ofrecer más de 450 voces generadas por IA, lo que permite a los usuarios convertir cualquier texto en una narración con una voz artificial, con grandes limitaciones en Español, pero con una voz bastante realista en inglés. La compañía destaca que esta tecnología fue desarrollada con un enfoque en mantener bajos los costos de entrenamiento e inferencia, lo que le brinda una ventaja frente a sus competidores.

Según Arto Yeritsyan, fundador de Podcastle, la empresa siempre tuvo el objetivo de desarrollar un modelo robusto de texto a voz, pero los elevados costes de desarrollo y los estrictos requisitos de datos dificultaban su creación. “Queríamos desarrollar un modelo sólido desde el inicio, pero los costos de desarrollo eran muy altos. Gracias a los avances recientes en modelos de lenguaje de gran escala, pudimos alcanzar un avance el año pasado, lo que nos permitió crear un modelo de voz de alta calidad sin la necesidad de grandes cantidades de datos”, explicó Yeritsyan en una entrevista con TechCrunch.

Asyncflow v1.0 también lanza su propia API

Una de las características más innovadoras de Asyncflow v1.0 es su API, que permite a los desarrolladores integrar directamente el modelo de conversión de texto a voz en sus propias aplicaciones. Esto abre un abanico de posibilidades en sectores como marketing, publicidad, educación y formación corporativa, donde la conversión de texto a voz juega un papel crucial en la creación de contenido.

Además, Podcastle ha mejorado su función de clonación de voz, lo que hace que el proceso de creación de voces personalizadas sea más rápido y eficiente. Esta mejora se basa en la tecnología Magic Dust AI de la compañía, lanzada el año pasado, que optimiza la calidad de las grabaciones.

A pesar de que las voces generadas con el nuevo proceso todavía tienen un toque ligeramente robótico, Podcastle se compromete a mejorar esta función con el tiempo, permitiendo a los usuarios entrenar diferentes muestras de su voz para obtener resultados más personalizados.

Podcastle ofrece un precio muy competitivo

Otro aspecto importante es el modelo de precios que ofrece la plataforma. Mientras que algunos competidores, como ElevenLabs, cobran 99 dólares por 500 minutos de conversión de texto a voz, Podcastle ofrece el mismo servicio por aproximadamente 40 dólares. Este enfoque competitivo podría convertir a Podcastle en una opción atractiva para una amplia gama de usuarios, desde creadores de contenido hasta grandes empresas.

Con el lanzamiento de Asyncflow v1.0, Podcastle busca reforzar su posición en el mercado de la inteligencia artificial aplicada al audio. Además de las funciones de conversión de texto a voz, la plataforma ofrece herramientas integradas para la creación de audio, vídeo, pódcast y narración con IA, lo que le da ventaja frente a la competencia. Yeritsyan ha afirmado que, aunque la mayoría de los usuarios de Podcastle se centran en el contenido de audio, el vídeo está ganando terreno rápidamente, lo que sugiere que la empresa tiene grandes planes para expandir su oferta en el futuro.

Abre un paréntesis en tus rutinas. Suscríbete a nuestro boletín y mantente al día en tecnología, IA y medios de comunicación.

Gerard Quintana

Periodista. Me encanta el periodismo y la tecnología.

Dejar un comentario