En 2027 se cumplirán cien años de la primera película proyectada con sonido sincronizado. Fue en Nueva York y, hasta el momento, las películas incorporaban carteles con el diálogo que los espectadores tenían que leer. Algunas salas tenían música de piano en directo para acompañar los filmes. En el desarrollo de la IA generativa aplicada al audiovisual, Google está dispuesta a dar el paso definitivo para generar los efectos, diálogos y música que ambienten los vídeos. La aparición de los modelos Gen-3 Alpha de Runway y Dream Machine se une al esfuerzo de Alphabet por desarrollar un modelo de Vídeo a Audio (V2A).
Google Deepmind presentó este innovador modelo con IA generativa que es capaz de generar sonido sincronizado con vídeos. La inteligencia utiliza los píxeles para generar descripciones precisas de lo que se puede ver en pantalla y, a continuación, genera el ambiente y la música adecuadas para el vídeo. En las demos presentadas por la compañía, esta tecnología ha sido capaz incluso de generar el sonido de instrumentos musicales y ambientar una escena de miedo.
También permite generar diálogos humanos
La tecnología V2A combina modelos generativos de vídeo con la capacidad de crear bandas sonoras coherentes con la acción en pantalla. Este desarrollo es crucial, ya que muchos sistemas actuales generan vídeos sin sonido, limitando la inmersión y el impacto emocional. V2A puede agregar efectos de sonido realistas, música de fondo y diálogos que coinciden con los movimientos y el tono del video.
El proceso de generación de audio comienza con la codificación del video en una representación comprimida. Luego, un modelo de difusión refina iterativamente el audio desde el ruido aleatorio, guiado por la entrada visual y las indicaciones textuales. Este enfoque permite que el sistema produzca audio que está sincronizado con precisión con el contenido visual.
Además, V2A puede utilizar «prompts» positivos y negativos para ajustar la generación de audio hacia sonidos deseados o alejarlos de los no deseados, proporcionando un control creativo significativo a los usuarios. Esta flexibilidad permite experimentar rápidamente con diferentes opciones de audio para encontrar la combinación perfecta.
Aunque V2A representa un avance significativo, todavía se enfrenta a desafíos. La calidad del audio generado puede disminuir a medida que la calidad del video de entrada es peor, y la sincronización labial en videos que incluyen diálogos sigue siendo un área de mejora. Google está trabajando en la mejora de estas limitaciones y continúa investigando para perfeccionar la tecnología.
Toda revolución necesita sus cronistas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.