Desde febrero, 9 startups y gigantes tecnológicos se han sumado a la carrera por dominar la creación audiovisual con IA
En el ecosistema de la inteligencia artificial, la atención mediática se centra en la competencia por el desarrollo de modelos de lenguaje entre gigantes tecnológicos como Google, Microsoft, Amazon y Meta, pero hay una evolución paralela y potencialmente más transformadora que se está gestando en el ámbito de la IA generativa en el audiovisual. El rápido ritmo de la innovación en este campo sugiere una reconfiguración inminente de las industrias creativas y plantea desafíos y oportunidades que van más allá de la mera optimización de procesos.
La importancia de esa revolución audiovisual se mide por la talla de la empresas implicadas en la carrera tecnológica por la creación del mejor modelo de vídeo generativo. Startups cómo Runway, Luma o Pika se enfrentan a gigantes tecnológicos chinos como ByteDance, Tencent, y Kuaishou, o estadounidenses como Google y OpenAI. El pasado 4 de octubre fue Meta la última en entrar en la contienda al anunciar su modelo multimodal audiovisual Meta Movie Gen. La batalla por la IA de video está en pleno apogeo, y el futuro promete ser emocionante.
Este artículo pretende ofrecer una breve explicación de cuáles son los principales modelos en disputa, qué los diferencia y singulariza, así como contextualizarlos en las grandes corporaciones que hay detrás de ellos. Una base que permita seguir los avances y movimientos tácticos presentes y futuros en uno de los flancos más transformadores de la IA, el audiovisual.
Los modelos de IA generativa audiovisual crean vídeo a partir de texto o imagen, vídeo que imita escenas reales, con movimientos fluidos, iluminación adecuada y efectos cinematográficos. Este avance permite una creación audiovisual ágil, sin la necesidad de equipos costosos o tiempos de producción prolongados.
Sora, de OpenAI, se anunció el pasado febrero y fue uno de los primeros modelos de video en captar la atención pública marcando el inicio de una escalada competitiva a la que otros gigantes tecnológicos se han sumado rápidamente a lo largo de los últimos meses. A continuación, destacamos a los más relevantes.
Nombre | Empresa | Anuncio | Lanzamiento | Tipo de Modelo | Link |
---|---|---|---|---|---|
Meta Movie Gen | Meta | 04/10/2024 | 2025 |
Text to video video personalization edición de video |
Meta MovieGen |
Pika 1.5 | Pika Labs | 01/10/2024 | Ya disponible |
Text to video Image to video Efectos especiales |
Pika Labs |
PixelDance | ByteDance | 24/09/2024 | Octubre 2024 |
Text to video image to video |
PixelDance |
Minimax | Tencent / Alibaba | 01/09/2024 | En pruebas |
Text to video image to video |
MiniMax |
Kling 1.5 | Kuaishou | 01/09/2024 | Ya disponible |
Text to video Image to video |
Kling |
Luma 1.6 | Luma Labs | 12/06/2024 | Ya disponible |
Image to video video to video |
Luma Labs |
Runway Gen3 | Runway | 01/06/2024 | Ya disponible |
Text to video image to video video to video |
Runway |
Google Veo | 14/05/2024 | Sin fecha confirmada |
Text to video image to video |
Google Veo | |
Sora | OpenAI | 15/02/2024 | En pruebas limitadas |
Text to video Image to video |
Sora |
Meta Movie Gen, anunciado el 4 de octubre, es un avanzado generador de videos que permite crear clips a partir de texto, editar videos existentes y transformar imágenes en videos personalizados. Además de sus impresionantes capacidades audiovisuales, una de sus funciones clave es la sincronización de sonido con los elementos visuales generados. También ofrece la opción de personalizar el contenido, donde los usuarios pueden subir imágenes y generar videos que incluyan personas o elementos específicos, manteniendo un alto nivel de realismo.
Movie Gen permite editar videos previamente creados usando indicaciones de texto, lo que facilita ajustar estilos, agregar efectos o cambiar detalles sin necesidad de herramientas complicadas. La herramienta promete ser revolucionaria en cuanto a la generación y edición de videos, con aplicaciones potenciales en la industria cinematográfica y plataformas de redes sociales como Instagram. Aunque Meta no ha proporcionado una fecha exacta de lanzamiento, se espera que Meta Movie Gen esté disponible a principios de 2025.
El lanzamiento de Pika 1.5 a principios de octubre de 2024 ha marcado un avance importante para la plataforma, introduciendo movimientos más fluidos y realistas en los videos generados, así como la incorporación de “Pikaffects”, una funcionalidad que permite aplicar efectos visuales predefinidos y divertidos. Además, se ha mejorado la calidad general del video, haciéndolo compatible con pantallas más grandes, y se ha lanzado una interfaz web accesible desde dispositivos móviles, lo que sugiere su orientación hacia el segmento del social media.
Pika Labs es una startup fundada por Demi Guo y Chenlin Meng, ambos exestudiantes de doctorado en Inteligencia Artificial de la Universidad de Stanford.
ByteDance es la propietaria de TikTok, y la empresa que hay detrás de este modelo. PixelDance permite generar videos cortos a partir de texto e imágenes, con una duración estándar de 10 segundos. Sus principales características incluyen la posibilidad de crear videos de alta calidad y realismo visual, utilizando múltiples cámaras para ofrecer diferentes ángulos y mantener la coherencia de estilo y personajes a lo largo del video. Además, PixelDance destaca por ofrecer un control avanzado sobre el movimiento de cámara, permitiendo acciones complejas y fluidez en las transiciones.
Runway Gen-3 Alpha, lanzado como beta pública en junio de 2024, es la última evolución en video generativo por IA de la empresa neoyorquina Runway y uno de los modelos de video más potentes hasta la fecha. Permite crear videos fotorrealistas manteniendo una consistencia temporal entre fotogramas, lo que asegura movimientos fluidos y realistas, especialmente en escenas complejas. La versión 1.5, lanzada en agosto de 2024, mejoró la fidelidad visual y la coherencia en la generación de video, con resultados que se adaptan tanto a necesidades cinematográficas como a videos para campañas publicitarias o contenido en redes sociales.
Una de las características más poderosas de Runway Gen-3 es la capacidad de video-to-video, que permite transformar videos existentes en nuevos estilos o formatos con solo indicaciones textuales. Esto es particularmente útil para creadores que buscan personalizar contenido ya producido. Además, el modelo ofrece herramientas como Motion Brush y Director Mode, que permiten controlar el movimiento de la cámara y los elementos de la escena de manera precisa. Otra funcionalidad clave es el lip sync o sincronización labial, que garantiza que los personajes generados o editados mantengan una correspondencia precisa entre los movimientos de los labios y el audio, elevando la calidad del video final. Aunque tiene limitaciones de 10 segundos por video y una relación de aspecto fija de 16:9, sigue siendo una herramienta potente para la generación y edición de contenido visual.
Una de las características más recientes e innovadoras de Dream Machine es la introducción de movimientos de cámara con su versión 1.6, lo que transforma la forma en que los cineastas y creadores pueden dirigir y producir videos generados por IA. Esta herramienta permite a los usuarios controlar hasta 12 tipos de movimientos de cámara, como tomas panorámicas de 360 grados, zooms cinematográficos, tomas aéreas estilo dron, y efectos en cámara lenta, entre otros. Es importante destacar que Dream Machine de Luma es uno de los modelos de generación de video por IA más rápidos y económicos del mercado. Aunque no ofrece la mejor calidad en comparación con otros modelos más avanzados, su rendimiento es más que aceptable, lo que lo convierte en una opción atractiva. Además, Luma ha lanzado una API para integrar estas capacidades en aplicaciones y servicios de terceros, lo que amplía su alcance y posibilidades creativas.
La compañía, liderada por Amit Jain, se destaca por su enfoque en empoderar a los creadores para superar las limitaciones técnicas a la hora de producir contenido visual. Luma Labs es también conocida por otras herramientas de IA, como Genie, que permite la creación de imágenes y activos 3D.
Kling AI, desarrollado por Kuaishou Technology, es una avanzada herramienta de generación de video por inteligencia artificial que compite directamente con modelos como Runway Gen-3.
En su última versión, Kling AI 1.5 Pro, lanzada en septiembre de 2024, permite la creación de videos en 1080p HD a 30 frames por segundo, con una duración de hasta 10 segundos y soporte para diferentes relaciones de aspecto. Kling AI ofrece funciones como Text-to-Video e Image-to-Video, además de la innovadora herramienta Motion Brush, que permite controlar con precisión el movimiento de los elementos en los videos, incluyendo hasta seis trayectorias simultáneas.
Kuaishou es una red social muy popular en China, conocida por su enfoque en videos cortos y contenido generado por usuarios. Con más de 300 millones de usuarios activos diarios, también ha ganado una presencia significativa en mercados internacionales como Indonesia y Brasil, consolidándose como una fuerte competidora de TikTok en estas regiones.
En septiembre de 2024, MiniMax lanzó su modelo Video-01 bajo la plataforma Hailuo AI, que permite generar videos a partir de texto y está en fase de pruebas. El 8 de octubre de 2024, la funcionalidad de imagen a video fue finalmente añadida, posicionando a MiniMax como una de las mejores opciones de generación de video por IA en el mercado gratuito.
Una de las características que distingue a MiniMax es su capacidad para estructurar prompts avanzados que incluyen sujetos, escenarios, movimientos y cambios en la escena. Además, con la nueva función de imagen a video, MiniMax se ha destacado por mantener la consistencia estilística de los personajes en animaciones cortas. También ha mostrado mejoras en su manejo de efectos como la profundidad de campo y la entrada de nuevos personajes en escenas. Aunque aún tiene limitaciones, como su dificultad en manejar secuencias de acción rápida, su capacidad para generar videos de calidad, con movimientos de cámara complejos y estilos coherentes, le da una ventaja significativa. Detrás de MiniMax están las empresas chinas Alibaba y Tencent.
Google Veo, presentado en mayo de 2024, es la herramienta de DeepMind para generar videos de alta definición a partir de texto e imágenes. Lo que distingue a Veo es su capacidad para producir videos de hasta un minuto de duración, con resolución de 1080p, con una variedad de estilos cinematográficos y efectos visuales, como tomas aéreas, timelapses y otros efectos complejos. La herramienta también se destaca por su comprensión avanzada del lenguaje natural, que le permite interpretar y ejecutar términos y conceptos complejos en la producción de video.
Otra característica clave de Google Veo es su capacidad para editar videos existentes mediante texto, lo que facilita realizar ajustes precisos en videos previos, como cambiar colores, añadir elementos o modificar escenas. Además, Veo ofrece consistencia visual entre los fotogramas, evitando los problemas de parpadeo o deformación de elementos, lo que es un desafío común en otros generadores de vídeo por IA.
Actualmente, Veo está disponible solo para un grupo selecto de creadores, lo que sugiere que Google sigue ajustando la herramienta antes de un lanzamiento más amplio.
Sora, la herramienta de generación de video de OpenAI, se distingue por su capacidad para crear secuencias de vídeo realistas de hasta un minuto basadas en instrucciones textuales. Además, puede generar videos con animaciones fluidas y detalladas a partir de imágenes estáticas, integrando tecnologías avanzadas como modelos de difusión y GPT para convertir descripciones simples en videos visualmente ricos. Sora no solo mantiene la coherencia en personajes y escenarios a lo largo de los videos, sino que también permite la creación de videos con calidad cinematográfica y movimientos dinámicos de cámara, lo que lo posiciona como una herramienta avanzada frente a sus competidores, aunque Runway y Kling estàn acortando las distancias y son herramientas a la disposición de los usuarios.
Sora aún no ha sido lanzada al mercado de forma pública. Actualmente, está disponible solo para un grupo limitado de investigadores, artistas visuales y cineastas, quienes están probando sus capacidades antes de su lanzamiento oficial.
Más allá de la comparación entre modelos y plataformas, lo verdaderamente revolucionario es el impacto colectivo que estas herramientas tendrán en la industria creativa. No se trata de elegir un ganador, sino de aprovechar el potencial diverso de cada una de estas tecnologías conociendo bien sus cualidades complementarias y exprimiendo sus virtudes para expandir los horizontes narrativos y experimentar con nuevas formas de expresión visual.
Hemos dado ya los primeros pasos para cruzar el borde hacia una explosión creativa sin precedentes en el mundo audiovisual. La evolución rápida de estas plataformas promete redefinir la forma en que se crean contenidos. Estas herramientas de IA no solo democratizan la producción de contenido de alta calidad, sino que también desafían nuestras concepciones tradicionales sobre la creación y la narrativa visual. Desde cineastas independientes hasta creadores de contenido en redes sociales, pasando por productoras consolidadas, todos tendrán acceso a herramientas de producción que antes estaban reservadas para grandes proyectos. Estamos al inicio de una revolución tecnológica que promete desencadenar una nueva era donde el límite lo marcará la imaginación de los creadores.
Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.