En un campo donde los modelos de inteligencia artificial para video suelen requerir gigantescas infraestructuras computacionales, ByteDance ha sorprendido con una propuesta disruptiva: Seaweed-7B, un modelo de generación de video que logra resultados comparables —o incluso superiores— a modelos mucho más grandes y costosos, utilizando apenas 7 mil millones de parámetros. Su desarrollo, descrito en un extenso ‘paper’ técnico, representa un paso adelante en la búsqueda de soluciones más sostenibles y accesibles para los creadores audiovisuales.
A diferencia de propuestas como Sora o Wan, que requieren decenas de miles de horas GPU y cantidades astronómicas de datos, Seaweed se ha entrenado en «solo» 665.000 horas de GPU H100, un ahorro de recursos sin precedentes en su categoría. Este enfoque no ha comprometido el rendimiento: en comparativas humanas (como las de MagicArena), Seaweed ha obtenido un 58% de tasa de acierto en tareas de generación imagen-a-video, superando incluso a modelos como Sora de OpenAI y Wan 2.1, con el doble de parámetros.
Lo importante es el diseño
La clave del rendimiento de Seaweed no radica en el tamaño, sino en su diseño. El modelo integra un autoencoder variacional (VAE) altamente optimizado que reduce eficazmente la complejidad del video sin perder calidad visual, y un transformer de difusión (DiT) que ha sido ajustado para operar eficientemente bajo restricciones computacionales. Su arquitectura híbrida permite generar secuencias visuales coherentes y fluidas.
Entrenado con medio millón de horas de vídeo
Además de su diseño técnico, destaca el enfoque en la calidad de los datos. ByteDance implementó una infraestructura de procesamiento que permitió curar más de medio millón de horas de video, seleccionando solo aquellos clips con altos estándares de claridad, movimiento y seguridad. Este proceso incluyó desde la detección de efectos no naturales hasta un sofisticado sistema de captioning basado en modelos de lenguaje grandes.
Otra innovación significativa está en la etapa de inferencia: mientras que modelos como Wan-2.1 requieren hasta 100 pasos de inferencia, Seaweed logra resultados similares con solo 12, permitiendo tiempos de generación hasta 62 veces más rápidos en una sola GPU.
Los autores también destacan la adaptabilidad del modelo. Seaweed puede aplicarse a múltiples tareas como edición de video, generación de contenido humano realista, control de cámara, e incluso síntesis conjunta de audio y video. Su arquitectura lo hace apto tanto para aplicaciones creativas como para producción audiovisual industrial.
El caso de Seaweed reabre el debate sobre la eficiencia en la IA generativa. En lugar de escalar sin límites, demuestra que la combinación de arquitectura optimizada y curación de datos puede competir con brute force, promoviendo una IA más responsable y sostenible.