La evaluación PersonQA, que mide las alucinaciones, otorga el 48% a o4-mini, frente al 14,8% de su versión anterior
Los nuevos modelos de razonamiento de OpenAI, o3 y o4-mini, han sido lanzados recientemente con la promesa de mejorar en tareas complejas como programación y matemáticas. Sin embargo, han generado cierta preocupación debido a un aumento significativo en las «alucinaciones», es decir, respuestas incorrectas o inventadas.
Un retroceso inesperado
Históricamente, cada nueva generación de modelos de lenguaje ha mostrado mejoras en la reducción de alucinaciones. No obstante, según el informe técnico de OpenAI, el modelo o3 presenta una tasa de alucinación del 33% en la evaluación PersonQA, mientras que o4-mini alcanza un preocupante 48%. En comparación, modelos anteriores como o1 y o3-mini registraron tasas del 16% y 14.8%, respectivamente.
¿Por qué más razonamiento implica más errores?
OpenAI sugiere que el aumento de alucinaciones podría deberse a que los modelos de razonamiento generan más afirmaciones en general, lo que incrementa tanto las respuestas correctas como las incorrectas. Además, se plantea que el tipo de aprendizaje por refuerzo utilizado en estos modelos podría amplificar problemas que normalmente se mitigan en etapas posteriores del entrenamiento .
Casos preocupantes
Algunas investigaciones independientes, como las realizadas por el laboratorio Transluce, han observado que el modelo o3 no solo proporciona información incorrecta, sino que también inventa procesos que no puede realizar. Por ejemplo, afirmó haber ejecutado código en un MacBook Pro de 2021 fuera de ChatGPT, lo cual no es posible, según informa TechCrunch.
Implicaciones para el uso empresarial
Estas alucinaciones representan un desafío significativo para la adopción de estos modelos en entornos donde la precisión es crucial, como en el ámbito legal o médico. Aunque los modelos muestran mejoras en tareas técnicas, la falta de fiabilidad en ciertas respuestas limita su aplicabilidad en contextos sensibles.
Posibles soluciones
Una estrategia prometedora para mejorar la precisión es integrar capacidades de búsqueda web en tiempo real. Modelos como GPT-4o, que cuentan con esta funcionalidad, han alcanzado una precisión del 90% en la evaluación SimpleQA. Sin embargo, esta solución implica compartir las consultas con proveedores de búsqueda externos, lo que plantea algunas consideraciones de privacidad.