¿Quién no se ha preguntado alguna vez cómo funciona el cerebro humano? Hace décadas que la neurociencia intenta explicar cómo se produce el pensamiento y no lo ha logrado por completo. El cerebro, al final, es una gran caja negra. ¿Mediante qué mecanismos el cerebro permite que el periodista que ahora escribe pueda materializar sus pensamientos y, casi en tiempo real, dirija sus dedos al teclado para dejarlos escritos? Y, lo más difícil: que todo, al final, tenga un sentido y sea coherente. Pues esto ocurre también con la IA generativa.
Es de sobra conocido que OpenAI lanzó GPT-3 sin conocer todas las posibilidades que tenía el modelo. Fue semanas más tarde cuando se sorprendieron de las nuevas funcionalidades que le encontraban los propios usuarios. Responder a la pregunta de por qué un modelo de lenguaje grande responde esta frase y no cualquier otra es el quebradero de cabeza de muchos científicos de datos que trabajan incansablemente para entender su funcionamiento.
Ingeniería inversa
Para ello existen varios caminos a explorar y uno de ellos es la ingeniería inversa. Los creadores de Claude han logrado, por ejemplo, crear un mapa conceptual para entender cómo se entrelazan los diferentes conceptos dentro de su modelo Sonnet y ver cómo pueden mejorar el sistema de seguridad.
Por su parte, OpenAI ha empleado GPT-4 para generar explicaciones sobre las «neuronas» de GPT-2, con el objetivo de interpretar mejor cómo funcionan sus modelos de lenguaje. ¿Por qué detrás de esta palabra se genera esta otra? Este proceso ha implicado introducir en GPT-4 fragmentos generados por GPT-2 para que el modelo más avanzado pueda producir explicaciones, simular los fragmentos y compararlos con los originales.
Además, los de Sam Altman han compartido los datos recopilados de estas explicaciones en código abierto, permitiendo que la comunidad también pueda experimentar y desarrollar nuevas técnicas para mejorar la el conocimiento sobre los modelos de lenguaje grandes.
Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.