Skip to main content

Investigadores de NVIDIA y Stanford han desarrollado «Test-Time Training», una técnica de IA que permite la generación de videos más largos que antes, produciendo clips animados de un minuto con mayor consistencia y narrativa

La clave de este avance tecnológico recae en la incorporación de capas Test-Time Training (TTT) a un ‘Transformer’ previamente entrenado. Estas distintas capas actúan como una memoria más expresiva, ya que sus estados ocultos son como redes neuronales que se actualizan durante la inferencia. Este enfoque le permite al modelo poder recordar y mantener una coherencia durante escenas más largas, abordando y solucionando una de las mayores problemáticas de la generación de video con IA, mantener la consistencia temporal y narrativa en clips extensos.

NVIDIA ha querido demostrar el rendimiento y las capacidades de este método de entrenamiento utilizando, como conjunto de datos, una colección de episodios de la famosa serie «Tom y Jerry».  Durante estas pruebas, se puede observar como el modelo TTT-MLP (Test-Time Training-Multilayer Perceptron) fue capaz de generar animaciones de 1 minuto completamente nuevas con una serie de instrucciones textuales, manteniendo una coherencia en los personajes y el espacio durante las diferentes escenas. Las evaluaciones humanas realizadas a este modelo indican que las animaciones creadas con TTT-MLP superan a otros métodos como Mamba 2 y Gated DeltaNet.

Método TTT-MLP:

Método Mamba 2:

Método Galted DeltaNet:

 

Este método de entrenamiento mejora la eficiencia computacional y presenta algunas limitaciones

La implementación de las capas TTT también introduce mejoras en la eficiencia computacional. Ya que, al limitar las capas de autoatención a clips de 3 segundos y permitir que las capas TTT manejen el contexto global, se optimiza el uso de recursos durante la generación de clips más largos. No obstante, no todo es perfecto; los investigadores reconocen que su modelo aún presenta algunos fallos, debido a las limitaciones del modelo preentrenado con aproximadamente 5 mil millones de parámetros.  Algunas de las limitaciones que presenta este modelo son errores en la morfología de algunos objetos y en el movimiento natural de estos.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Gerard Quintana

Periodista. Me encanta el periodismo y la tecnología.

Dejar un comentario