Hay movimiento en Open AI y, en las últimas semanas, se están revelando algunos detalles sobre las nuevas versiones que marcarán el futuro de esta tecnología: GPT-4.5 Turbo y GPT-5. Recientemente, Sam Altman ha dado un golpe en la mesa en su entrevista con Lex Fridman: «GPT-4 es un asco«. Esta declaración, junto con otras filtraciones de las que se hace eco Matt Shumer, podrían ser parte de una estrategia para incrementar la expectación respecto a la nueva versión de GPT, cuyo lanzamiento se espera para los próximos meses.
Fuentes de Open AI van preparando así el terreno para uno de los lanzamientos más esperados del año: GPT-5. Poco a poco van desgranando algunas funciones que harán de esta nueva versión la más avanzada del mercado.
1. Ventana de contexto
La IA generativa se ha convertido en una competición por ofrecer ventanas de contexto cada vez más amplias y mejorar el procesamiento de la información. En esta línea, Gemini Pro y Claude 3 han roto los esquemas con ventanas de contexto que superan en algunos casos los 200.000 tokens. A mayor ventana, el modelo de lenguaje puede introducir más datos a la hora de analizar la información y, por ende, producir respuestas más precisas.
Hace unos días se filtraban en Bing algunas características de GPT-4.5 Turbo, la versión que permitirá actualizar el modelo de Open AI hasta que llegue la versión 5. En un tweet, Matt Shumer colgaba un pantallazo en el que se podía leer que la ventana de contexto podría ser de 256.000 tokens, superando las capacidades de sus competidores. De todas formas, esta información no llegó a publicarse y, por lo tanto, debemos ser cautos y esperar a que se haga el anuncio oficial.
2. Capacidad de razonamiento
En la línea de otros modelos de lenguaje, GPT-5 deberá mejorar su capacidad de razonamiento. En la actualidad se le debe dar prompts muy extensos para obtener respuestas fiables. La idea es que, en futuras versiones, el modelo sea capaz de identificar más fácilmente lo que se le pide en cada momento.
En este sentido, Sam Altman no ha concretado nada sobre la capacidad de razonamiento del modelo, pero ha dejado claro en entrevistas recientes que la versión actual de GPT-4 ya está obsoleta en comparación con la que viene. El futuro dirá si es una estrategia de marketing o en realidad se está cocinando en Open AI el futuro de esta tecnología.
3. Personalización del modelo
Uno de los aspectos más importantes de un modelo de lenguaje es su capacidad para adaptarse a las preferencias del usuario. En una entrevista con Bill Gates, Sam Altman se abre a la posibilidad de que las futuras versiones de GPT accedan a los datos personales del usuario: «La gente quiere que la IA sepa mucho más sobre ellos: su correo electrónico, sus eventos en el calendario…» para poder personalizar mejor el contenido generado (minuto 5′ 30″).
Todo ello podría entrar en conflicto con la privacidad, un tema siempre controvertido cuando se trata de IA. En este sentido, una acceso a datos personales del usuario podría poner la nueva versión de GPT en el punto de mira de los legisladores europeos.
4. Imágenes y vídeos: análisis y creación
Con el anuncio de Sora, Open AI sorprendió al público presentando su modelo de creación de vídeos con IA. Es probable que esta herramienta se incorpore (con limitaciones) en las nuevas versiones de GPT. De momento tan solo han trascendido algunas pruebas y hay dudas sobre su escalabilidad, ya que la generación de vídeo todavía consume muchos recursos.
Las futuras versiones de GPT incorporarán mejoras en su capacidad para procesar contenido multimedia, desde imágenes hasta sonidos o voz (también en tiempo real). En este sentido, todas las mejoras que puedan incorporar redundarán en otros proyectos de IA. Por ejemplo, en el último vídeo de Figure 01, el robot es capaz de entender los objetos que tiene delante y realizar acciones concretas.
5. Memoria a largo plazo
Al final, el éxito de GPT-5 dependerá también de las capacidades para retener e incorporar la información que recibe en los prompts para mejorar la respuesta. La memoria del modelo es esencial para aprender de los errores y mejorar con la retroalimentación del usuario. Este aspecto seguramente mejorará con GPT-5.
Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.