Skip to main content

Los usuarios en X han comparado los dos modelos de generación de vídeo y los resultados de Gen-3 Alpha son sorprendentes

 

Si el mes de mayo marcó el inicio de la era de la multimodalidad, con la presentación de GPT-4o y su asistente de voz en tiempo real, junio de 2024 está siendo el mes de la IA generativa de texto a vídeo. En dos semanas se ha presentado Kling en China, Dream Machine en California y Runway ha anunciado su nuevo modelo, el Gen-3 Alpha. Respecto a la primera, de momento solo la pueden probar los usuarios con número de teléfono chino, pero han salido a la luz ejemplos asombrosos, como el de un conejo leyendo el periódico.

Dream Machine ha sido la gran revolución porque es la primera que se ha abierto al público en occidente. Esto significa que los usuarios han comenzado a generar vídeos y por primera vez se puede usar una herramienta de este estilo directamente. Esto contrasta con Sora, de la que únicamente se han conocido demos controladas hasta el momento.

Con la publicación de las primeras demos de Gen-3, los usuarios han comenzado a comparar los dos modelos. Sin embargo, este es un juicio algo condicionado por las circunstancias: están comparando las demos de Runway con vídeos generados directamente por los usuarios con Dream Machine. A pesar del desequilibrio, las diferencias parecen asombrosas.

Cristóbal Valenzuela, CEO de Runway, ha dado más detalles en X sobre las características del modelo. En este caso, han estado trabajando para que aplique las leyes de la física en la generación de vídeos. Para Valenzuela, «en lugar de gastar 50 millones de dólares en un film, hagamos 500 películas por un millón». Esto resume muy bien la filosofía de la compañía: democratizar el acceso a la creación audiovisual profesional. Y lo cierto es que los datos que han publicado sobre la herramienta son sorprendentes: en 90 segundos es capaz de generar 10 segundos de vídeo. Dream Machine, en cambio, tarda dos minutos en generar 5 segundos.

En cuanto sea accesible Kling en occidente, el trabajo será comprobar cuál de ellas ofrece posibilidades más creativas y, sobre todo, es más fiel al prompt que introduce el usuario. En este sentido, Runway ha estado entrenando Gen-3 Alpha con vocabulario de la industria del cine para seguir instrucciones más precisas relacionadas con el encuadre o el estilo.

Toda revolución necesita sus cronistas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.