Fotografía: John Fujii © 2024 ACM SIGGRAPH
Mark Sagar tiene un doctorado en ingeniería y ha estudiado en el MIT y en la Universidad de Auckland. Entre otras compañías, ha trabajado en Pacific Title, Life Effects, Sony Pictures, Weta y ahora es fundador de Soul Machines. Aprovechamos su keynote en el SIGGRAPH 2024 para conversar con él sobre sus últimos proyectos.
Pregunta: En tu keynote hablaste de las primeras animaciones y de la evolución desde Gertie el Dinosaurio hasta hoy. ¿Siempre has trabajado en investigación y en largometrajes de imagen real, o también has tocado otras disciplinas como películas de animación, en cortometrajes o en series de TV? ¿Cómo has llegado hasta el mundo audiovisual desde el mundo de la ciencia y la ingeniería?
Respuesta: Empecé haciendo un doctorado en ingeniería. Pero mi madre era artista y mi padre ingeniero. Así que siempre he estado haciendo una mezcla de arte y ciencia. Y así empecé en un proyecto haciendo un simulador de cirugía ocular, que era divertido porque era muy técnico, pero luego tenía un lado visual en el que tenía que crear un globo ocular. Así que era un simulador de cirugía ocular con realidad virtual.
Pero lo divertido era que podías meterte dentro del globo ocular, encogerte y mirar hacia afuera. Ya sabes, cosas divertidas como ésa. Pero de todos modos, realmente quería mezclar lo visual con lo matemático. Y, ya sabes, trabajar en ambos. Eso es lo que me atrajo.
Y luego empecé a ser capaz de simular más partes de la cara. Y luego, por supuesto, tan pronto como simulas la cara… estás accediendo a casi todo el ser humano… porque la cara es el espejo de la mente. Eres consciente de todo. Eres consciente de la conciencia. Eres consciente de… la atención, la emoción, la comunicación; todos estos elementos y la identidad. Todos estos factores me fascinaron y quería explorarlos. Explorar cada uno de esos componentes de diferentes maneras. Y eso ha guiado mis decisiones en cierto modo. Y no solo he tenido interés por la biología, la anatomía, sino también por la inteligencia artificial. Y también en la fisiología, por lo que fue realmente la combinación de todos esos elementos diferentes juntos.
Y cuando estábamos en Life Effects conectamos una de las caras que estábamos haciendo con su chatbot. Conectamos el primer modelo de inteligencia artificial con un personaje animado.
¿Cuáles fueron tus influencias?
Los dos libros más influyentes probablemente fueron ‘Gödel, Escher, Bach’, de Douglas Hofstadter, que plantea la cuestión «¿puede una cosa no biológica ser consciente?». Y el segundo fue ‘Guía del autoestopista galáctico’, que acaba de imaginar un futuro tan divertido con tanta personalidad y cosas que eran influencias geniales.
Trabajaste con Peter Jackson en Weta y también en ‘Avatar’ tuviste que tratar con James Cameron. ¿Cómo fue tu experiencia con ellos?
Hubo un momento en el rodaje de Avatar en el que Peter Jackson, Steven Spielberg y James Cameron estaban todos juntos porque Cameron estaba mostrando su sistema de producción virtual a los otros directores. Y su personalidad es muy, muy diferente. Peter Jackson es más callado, James Cameron es más lo que se dice «una personalidad alfa» y Steven Spielberg es muy amigable. Pero cuando estaban probando la cámara en una prueba para la película ‘Tintín’ todos ellos filmaron la misma escena y sus técnicas eran muy diferentes… era como si James Cameron siguiera la acción, Peter Jackson adora las lentes de gran angular y el resultado tenía algo muy particular, y Steven Spielberg se basaba más en el montaje, cortaba desde diferentes puntos de vista. Así que podías comparar su lenguaje y eran muy diferentes… que fue una experiencia absolutamente fascinante que tres personas tan diferentes fueran capaces de lograr cosas increíbles.
Es evidente que ha habido una evolución en el proceso creativo. En un inicio, teníamos que crear modelos CGI digitalizando polígono a polígono… Y ahora, con la producción virtual, necesitas tener todo antes de empezar el rodaje ya terminado, casi perfecto…
Sí, es así, en ‘Tintín’, con la producción virtual ocurrió algo muy gracioso, se equivocaron de escala, así que todos los decorados virtuales eran demasiado grandes: si cogías una taza o algo, era tan grande…
¿Habrá una secuela de Tintín?
No estoy seguro de por qué no ha habido otra película, pero creo que se debe a que ambos están muy ocupados… Creo que fue Steven Spielberg quien dirigió la primera y… entonces ellos iban a alternarse con Peter Jackson. Creo que el objetivo era alternarse en turnos o algo así. Pero no sé… espero que haya una nueva.
¿Cómo ves el futuro del audiovisual con la evolución tecnológica?
Una de las cosas que… puedo ver… es interesante porque es como, creo que hay un deseo de fantasía, pero también hay un deseo de autenticidad. Creo que estos deseos pueden ser muy conflictivos. ¿La gente quiere ver la realidad o quieren ver algo derivado de lo real? o, ya sabes, porque como con Harrison Ford, por ejemplo, a algunas personas les encantó y otros, ya sabes, no se sentía bien para ellos y creo que es probablemente un tema personal.
Pero entramos en la IA generativa, donde espero que esto vaya a alguna parte realmente emergente, ya sabes, porque las películas de Hollywood son todas iguales. El viaje del héroe, siempre hay un malo… no es interesante, quiero decir, entretiene, te sientas y te relajas, pero lo interesante es que tenemos que salir del mismo patrón. Vi un análisis de que hay seis o siete arcos narrativos fundamentales, pero tengo la sensación de que debe haber más cosas que podemos hacer que eso.
Si haces una caminata en un parque nacional por primera vez, es un proceso de descubrimiento, es un viaje, y puede tener todo tipo de cosas inesperadas que descubres. Así que espero que haya muchos más medios interactivos porque en cierto modo la IA generativa es capaz de generar cosas que antes ni siquiera existían.
Creo que podríamos hacer cosas muy interesantes. Para vincularlo a una narrativa o un tema, tiene que haber principios rectores más profundos que la intención del creador o del artista. Así que creo que podríamos ver algo, mundos absolutamente fantásticos con personajes muy encarnados que pueden emerger de manera efectiva.
Y es por eso que mi objetivo original de comenzar a trabajar en el proyecto ‘Baby X’ fue cuando estaba trabajando en efectos visuales y cine en avatares, pensando, «lleva años crear tres horas de película», y es un argumento. Si creamos el personaje en lugar de la trama, y ese personaje interactúa en vivo, es infinito. Así que empecé a pensar, bueno, «¿y si trajéramos a King Kong a la vida, o a Gollum, y creáramos sus personajes y los dejáramos interactuar…? Sería infinito».
Y por eso comencé el laboratorio para hacer eso. Y así con ‘Baby X’ estaba haciendo un personaje verdaderamente autónomo que toma sus propias decisiones e interactúas con él y eso lo cambia todo, porque cada vez que interactúas con él es diferente y lo que es emocionante de ver algo vivo es que nadie sabe lo que va a pasar a continuación.
En una película puede que no sepas lo que va a pasar a continuación, pero la emoción no está allí porque sabes que es casi predeterminado y cualquier cosa que hagas no afecta al desarrollo; así que eres un observador pasivo. Los videojuegos tampoco han tocado el arte de lo posible… en términos de interacción social.
Cuando interactuamos con la gente, tenemos que ser mucho más cuidadosos que con los objetos, por ejemplo, porque las acciones de las personas tienen consecuencias. Lo que nosotros hacemos afecta a lo que ellos hacen y viceversa. Y creo que eso crea posibilidades increíbles para los juegos de narración interactiva, porque se acerca más a la esencia de la idea del artista.
Estuve presente en una conferencia de Chris Vogler, autor de «El viaje del escritor», que tiene relación con lo que has mencionado sobre el viaje del héroe. Estuvo basada en un trabajo anterior (Joseph Campbell: el héroe de las mil caras) y de alguna manera explicó a la audiencia que en los tiempos de los antiguos griegos, alcanzamos un pico en la narración de historias. Y parece que esa estructura es la única que funciona. ¿Por qué eso es así?
Nosotros intentamos dar sentido a lo que nos ha pasado, así que cuando intentamos dar sentido a lo que nos ha pasado estamos tratando de convertirnos en el héroe de nuestro propio viaje, así que nos ponemos en esa estructura. Y esa es probablemente la razón por la que esta estructura ha sobrevivido durante miles de años.
La forma de contar historias, sin embargo, es realmente interesante cuando obtienes nueva información y entonces ves tu vida o algo que ha sucedido desde una perspectiva diferente, como cuando piensas que algo es de una manera y entonces algo te ilumina y tu estás «oh no, es ésto». Y ver algo desde muchas perspectivas diferentes, creo que es realmente emocionante. Así que entonces, una opción podría ser: «quiero tener el viaje del héroe de la historia», u otra podría ser, quiero el equivalente a una película francesa que cuando termina, no sabes lo que pasó. Así que podría ser un trozo de vida.
Otro director que me gusta se llama Mike Lee, un director británico, y él deja que sus actores hablen y tengan conversaciones y actúen, y luego lo edita y lo crea. Así que no hay trama. Simplemente sucede así. Y luego, hay un libro fantástico de Walter Murch llamado ‘In the Blink of an Eye‘, y él fue el editor de ‘Apocalypse Now’. Al parecer, en esta película filmaron como cuatro años de metraje. Había tanto metraje que no sabían qué hacer. Así que el trabajo del editor fue tratar de encontrar un hilo a través de todo ese material, y el metraje es como un holograma de diferentes cosas. Y así es un viaje a través de éso.
Ahora con la IA generativa, se puede crear efectivamente un holograma de cada camino y luego ir por un camino diferente a través de eso, que es bastante interesante. Así que no sé. Ahí es donde podría ir.
¿Y cómo ves el impacto en la industria, en los puestos de trabajo? Porque, por ejemplo, obviamente los artistas de alto nivel seguirán trabajando.
Es interesante, porque la semana pasada publiqué un artículo que decía que los modelos de IA se colapsan cuando se entrenan de forma recursiva. Así que, si la IA se entrena en los datos que genera… Si Midjourney comienza a tomar imágenes que fueron creadas por Midjourney, se convierte en basura. Y también estadísticamente se mantiene en la misma área, no va a saltar fuera de la caja exactamente. Y ahí es donde creo que un humano dentro de este bucle es tan importante para evitar que las cosas generadas por la máquina no tengan sentido. De la misma manera, si nos fijamos en una pintura del Renacimiento u otra época y tiene todos estos personajes y todos estos símbolos y lo miras, o un edificio de Gaudi, hay una razón por la que el artista ha puesto algo en un lugar determinado. Cada pequeña cosa tiene una razón consciente para ponerla ahí. En una imagen creada con IA generativa, yo escribo un prompt y genera todos esos detalles, pero no hay ninguna razón detrás. Es pura estadística, pero eso es aburrido.
Porque lo que hay detrás es un vínculo estadístico, no tiene la decisión consciente del artista en crear cada detalle. Por lo que es algo así como que está recibiendo una inteligencia promediada en lugar de una inteligencia muy centrada. Y creo que es hipnotizante y asombroso, pero no vas a aprender más cuanto más lo mires, tu mente no está asombrada y expandida por el alcance, pero el contenido es algo que queremos ver. Queremos ver algo que viene de la experiencia de vida de alguien, queremos sacar la verdad de algo. Esa búsqueda de la esencia es lo que va a mantener a los humanos en el bucle, en mi opinión.
Tengo una teoría sobre los LLMs y es que llegarán a una meseta muy muy pronto. Sí puede ser ahora. Porque ya han leído todo Internet, lo leen todo en los periódicos y de dónde más van a obtener corpus, así que… en un futuro muy cercano, empezando desde ya se habla que el 90% de la información será generada por ordenador, y eso es el enemigo y si lee su propio material: se volverá estúpida y se corromperá.
Este artículo salió en Nature la semana pasada, mostrando cómo los modelos se corrompen y literalmente se convierten en basura. Y ya está ocurriendo en Nueva Zelanda: acabo de leer un artículo criticando a uno de los principales periódicos de allí porque utiliza herramientas de IA para generar el editorial. El editorial no debería estar escrito por una IA.
¿Cuál será el papel de los directores de cine en un mundo dominado por la IA?
Eso es interesante, porque se puede decir que en este momento la IA se ha leído todos los libros que se han escrito durante un cierto tiempo. Y siento que este es el momento en el arte donde es el equivalente a la la invención de la cámara. En ese momento, el arte pasó de lo representativo a lo expresionista y abstracto. Porque la fotografía podía hacer el trabajo de representación.
Y ahora vamos a estar en lo mismo, donde si el modelo de Inteligencia Artificial puede generar esto o escribir esto, lo que tienes que hacer como creador es algo realmente fuera de los límites estadísticos. Nos obliga a ser más originales, lo cual creo que es bueno.
Y para concluir, con respecto a ‘Baby X’, toda la investigación ha sido realizada por empresas como Neuralink de Elon Musk. ¿Qué esperas o lo que se prevé ver en los años que vienen con todas estas grandes interfaces conectadas a nuestra mente?
Creo que va a tomar un tiempo porque al parecer, ya sabes, hablando con un neurocirujano, en realidad hay una empresa en Australia que hace ojos biónicos y hay un problema que es la infección.
Así que creo va a tomar tiempo construir algo que sea implantable y que no cause problemas. Así que no creo que vaya a ser rápido. No creo que vayamos a ver algo así muy pronto. Sin embargo, creo que la gente también va a estar preocupada acerca de, ya sabes, si aplicas una actualización del sistema operativo y falla, si eso es parte de tu proceso de pensamiento, ya es bastante malo, por ejemplo si tu coche autónomo tiene una actualización del sistema que no funciona; imagina lo peligroso que puede ser que ocurra en la mente humana. Así que yo diría que la gente se va a resistir durante mucho tiempo.
Hay unas pocas personas que quieren ser ‘cyborgs’. He conocido a algunas personas así. Y hay un artista que vino a mi laboratorio y tiene una oreja en su brazo… Es fantástico, es un transhumanista. Así que habrá transhumanistas que quieran eso y lo aceptarán. Pero creo que hay maneras más fáciles de hacer muchas de esas conexiones también, como a través de la información que podemos obtener, haciéndolo mucho más simple y más accesible. Así que ahí es donde creo que la mayoría de la gente va a elegir algo así, donde estás usando tus sentidos existentes. Si es algo impartido en tu cerebro para que estés conectado instantáneamente a Internet, probablemente estarías completamente abrumado también.
Así que tenemos que dosificar la información a un ritmo particular para poder digerirla y comprenderla. Si nos llega demasiada, creo que puede ser un poco abrumador. Mientras lees un libro que te interesa no puedes estar haciendo todo lo demás porque no tendrá sentido para ti. Y además, quieres disfrutar y saborear la información que te llega. Pero de nuevo, creo que va a ser una elección personal.
Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.