Gracias a la IA generativa, 15 segundos de audio han sido suficientes para clonar su voz
Fue la primera locutora en un momento en el que pocos establecimientos contaban con un receptor de radio. La emisora EAJ-1 Radio Barcelona emitió por primera vez en 1924. En ese momento, no existían tampoco los ‘jingles’ ni las identidades sonoras, que más tarde se volvieron fundamentales para anunciar a los oyentes que están escuchando una determinada emisora. Para ello llamaron a la secretaria, María Sabater, que no dudó en situarse frente al micrófono y anunciar a los pocos oyentes que se encontraran al otro lado de las ondas que estaban ahí, con ellos, presenciando el inicio de una nueva era de la comunicación.
Ahora, cien años después, Paréntesis MEDia y Grupo Lavinia han querido rendir un homenaje a este momento y lo que significó. En estas décadas han surgido nuevos canales de comunicación que han cambiado por completo el ecosistema comunicativo: desde la televisión hasta los nuevos asistentes virtuales con IA generativa. Pero la radio mantiene todavía ese poder de atracción de la voz que te susurra directamente al oído.
Cómo nos imaginamos a María Sabater
Tan solo se conservan unos pocos segundos de esa locución que hizo. Algunas fuentes incluso dicen que fue más adelante que volvieron a repetir esa grabación inicial para guardarla para la posteridad. También ha sido difícil recuperar la fotografía, puesto que no se conservan tantos archivos de esa época.
En la grabación original ella informaba a los oyentes de que estaban escuchando «EAJ-1, de emisiones Radio Barcelona». Nosotros hemos querido imaginar el mensaje que daría esta pionera, cien años más tarde: «Nosotros fuimos pioneros en Radio Barcelona sin saberlo: ahora os toca a vosotros«. Y con ese espíritu hemos querido honrar la labor de Sabater, que fue la primera mujer en asomarse a las ondas hertzianas.
Cómo lo hicimos posible
Devolver a María Sabater a la vida ha sido muy complejo. De entrada, casi todas las herramientas de clonación de voz necesitan varios minutos para poder generar un clon consistente. Con el caso de Sabater, hemos usado la herramienta de síntesis de voz F5 TTS. Después de intentarlo varias veces, y de juntar diferentes audios generados, al final logramos reunir un mensaje más o menos coherente y sorprendentemente fiel al segmento original.
Sin duda, lo más complejo ha sido el vídeo. En la actualidad, las herramientas de sincronización de labiales funcionan bien a partir de una imagen frontal, en la que se identifiquen correctamente los rasgos faciales. En el caso que nos ocupa, la única fotografía que pudimos contrastar que se trata de Sabater es la que hemos usado. Ella se sitúa de perfil, ya que está locutando el mensaje. Tras probar con HeyGen, Live Portrait y Hedra, nos resultaba imposible lograr un vídeo creíble. Fue finalmente gracias a Gen-3 Alpha que pudimos generar el resultado actual, que sin embargo no está perfectamente sincronizado con el audio.
El dilema entre la voz humana y voz sintética
La ponencia de Antoni Esteve, editor de Paréntesis MEDia, se centró precisamente en desgranar cómo las voces sintéticas se integrarán paulatinamente en nuestras rutinas (si es que no lo han hecho ya). En esta línea, Esteve realizó varias demostraciones en directo, como usar el asistente de voz avanzado GPT-4o para demostrar el poder que podrá tener en la personalización de las noticias. El periodista también repasó otros avances recientes, como los podcasts de Google Illuminate.
Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.