ByteDance, la empresa a la que pertenece TikTok, acaba de presentar OmniHuman-1, un modelo de IA que es capaz de generar videos hiperrealistas de cuerpo completo, a partir de una sola imagen y una pista de audio. Aún no está disponible para el público general, pero ya ha levantado preocupaciones sobre los riesgos que conllevan los deepfakes y su capacidad de llevar a la desinformación.
China is on ? ByteDance drops another banger AI paper!
OmniHuman-1 can generate realistic human videos at any aspect ratio and body proportion using just a single image and audio. This is the best i have seen so far.10 incredible examples and the research paper Link? pic.twitter.com/5OjNj0797t
— AshutoshShrivastava (@ai_for_success) February 4, 2025
Un modelo avanzado para videos hiperrealistas
OmniHuman-1 se ha diseñado para crear representaciones digitales muy realistas de personas, utilizando como referencia una imagen estática y contenido multimedia adicional. Para conseguir esto, emplea una arquitectura basada en transformadores y modelos de difusión, que analizan y procesan los detalles específicos y el contexto general de la imagen y el sonido proporcionado.
El entrenamiento del modelo se ha llevado a cabo con más de 19,000 horas de video, utilizando una técnica llamada «entrenamiento mixto de condicionamiento de movimiento multimodal». Permite que la IA aprenda de diferentes fuentes y mejore la capacidad para generar videos fluidos y realistas. Incluso a partir de señales de entrada mínimas.
Capacidades y limitaciones técnicas
Una de las aportaciones de OmniHuman-1 es la capacidad para generar videos de personas en movimiento, replicando de manera precisa los gestos, expresiones faciales y la voz. También puede adaptarse a imágenes de cualquier relación de aspecto, pudiendo trabajar con retratos, imágenes de medio cuerpo o cuerpo completo.
Tiene algunas limitaciones: los desarrolladores han reconocido que, si la imagen de entrada es de baja calidad, el resultado puede mostrar movimientos poco naturales o detalles faciales borrosos. También tiene problemas al reproducir secuencias de movimiento muy complejas o poco usuales, afectando a la credibilidad del contenido generado.
Deepfakes y el riesgo de desinformación
OmniHuman-1 no está disponible para el público, pero ya ha generado preocupaciones en cuanto a la sofisticación de los deepfakes. Según datos de Home Security Heroes, la producción de videos falsos generados por IA ha aumentado un 550% entre 2019 y 2023.
Se advierte de la falta de regulación en estas tecnologías, que podría facilitar la manipulación de información y la propagación de noticias falsas. Para remediarlo, TikTok han implementado medidas como Content Credentials, un sistema de metadatos diseñado para identificar contenido generado con IA, pero, la velocidad con la que avanzan las herramientas, sigue superando las regulaciones actuales.
Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.