Skip to main content

El modelo genera hasta 2 segundos, con una resolución de 720p y a 24 fotogramas por segundo a partir de inferencia en un paso

Seaweed APT ha presentado un nuevo modelo de IA para generar vídeo. La novedad, en cambio, radica en que por primera vez se podría lograr generar vídeos casi en tiempo real. Este modelo modelo promete generar 24 fotogramas por segundo a una resolución de 720p en un solo paso de inferencia, lo que significa que tiene una capacidad de procesamiento muy eficiente y está optimizado para producir resultados en tiempo real o casi en tiempo real.

El ‘paper’ en el que se incluyen las conclusiones del estudio, se presenta esta nueva técnica denominada Adversarial Post-Training (APT) y que promete marcar un antes y un después en la generación de vídeo con IA. El método APT se basa en entrenar modelos preentrenados de difusión utilizando un objetivo adversarial directamente con datos reales. Esto contrasta con los métodos tradicionales que emplean modelos de destilación, donde un “modelo maestro” genera objetivos intermedios para ser aprendidos por un modelo más eficiente. En el caso de APT, la técnica supera estas limitaciones, logrando generar videos completos en un solo paso de evaluación neuronal.

Innovaciones clave y desafíos técnicos

  1. Modelo Base: comienza con un modelo de difusión preentrenado, que es una técnica popular para crear imágenes y vídeos al procesar iterativamente ruido hasta obtener un resultado claro y detallado.
  2. Problema a Resolver: los modelos de difusión tradicionales requieren varios pasos para generar un video, lo que puede ser lento y costoso en términos computacionales.
  3. Entrenamiento Adversarial: APT convierte el modelo de difusión en un generador de un solo paso mediante una técnica llamada entrenamiento adversarial. Aquí, dos redes neuronales compiten entre sí:
  • Generador: Crea videos que intentan parecer reales.
  • Discriminador: Intenta distinguir entre los videos reales y los generados.

A pesar de estos avances, persisten algunos desafíos: APT a menudo genera resultados con estructuras incorrectas, como proporciones de objetos deformadas o inconsistencias en los detalles, ya que el modelo simplificado de un solo paso tiene menos capacidad para realizar cambios drásticos en la estructura de los datos en comparación con los modelos de múltiples pasos. La capacidad del modelo para generar contenido que coincida con el prompt (alineación texto-imagen o texto-video) no es tan sólida como la de los métodos tradicionales.

Aplicaciones potenciales

Esta capacidad de generar contenido de alta resolución en tiempo real tiene implicaciones significativas para industrias como el entretenimiento, la realidad virtual y los videojuegos. Además, puede ser un recurso valioso en la producción de contenidos personalizados y la generación de medios interactivos.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.