Skip to main content

En octubre de 2022, junto con el lanzamiento de ChatGPT 3, OpenAI publicó simultáneamente Whisper, un modelo de reconocimiento de voz entrenado para entender con precisión más de 100 idiomas con su amplia gama de acentos, dialectos y contextos lingüísticos.

La mayor parte del público pasó por alto este segundo lanzamiento, seguramente por el impacto del chat inteligente. Ahora, más de un año después, Whisper se ha integrado en muchas aplicaciones e incluso es posible usarlo sin necesidad de estar conectado a internet.

En Paréntesis ya hemos usado este sistema para transcribir entrevistas y estamos muy sorprendidos con los buenos resultados. Otras aplicaciones posibles son la realización de las actas en reuniones o incluso para subtitular o resumir podcasts.

Como el modelo se ha publicado en abierto, muchas plataformas lo pueden incorporar gratuitamente.

Replicate

La plataforma Replicate, ampliamente conocida en el ecosistema de la IA, permite usar Whisper sin necesidad de instalarlo en el ordenador. Para ello, basta con subir el archivo en formato audio para que lo transcriba. Se puede escoger entre la versión 2 o 3 del modelo y el formato de salida (con código de tiempo o texto plano).

MacWhisper

Jordi Bruin es un desarrollador de software que lleva un tiempo creando aplicaciones para macOS que incorporan la IA generativa. La aplicación MacWhisper, con un precio de 29 euros para la licencia permanente, te permite descargar el modelo en tu ordenador. Esto facilita la transcripción cuando no hay conexión a internet, aunque requiere un mínimo de 8GB de RAM para usar el modelo Large v3.

Además de ser muy intuitiva, la aplicación permite grabar directamente la voz para transcribirla e incluso convertir un podcast en texto. También permite escoger el modelo de lenguaje entre diferentes opciones: desde el ‘Tiny’, que va muy rápido pero no es tan preciso, hasta el Large, que ocupa 3GB en el disco y va más lento, aunque sus resultados son más fiables.

Fes-me l’acta

Si tienes un ordenador con Google Chrome, puedes transcribir audio a texto con Fes-me l’acta. Esta aplicación catalana te permite subir cualquier archivo de audio y convertirlo en cuestión de minutos. Puedes escoger entre la opción rápida y la lenta. En los dos casos se usa el modelo Whisper. El resultado se puede copiar o exportar en formato .srt. También te permite escoger entre mantener el código de tiempo (opción ideal para importar subtítulos en Premiere Pro) o convertirlo en texto plano.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.