El estudio, que todavía no ha sido revisado, podría contradecir lo que promete OpenAI con sus modelos o1
El grupo de investigación de inteligencia artificial de Apple ha publicado un estudio que podría ‘atacar’ directamente a la narrativa de OpenAI y que viene a refutar sus capacidades de razonamiento. El estudio, que aún no ha sido revisado por pares, se ha centrado en evaluar el rendimiento de varios modelos de lenguaje de gran escala (LLMs) en tareas que requieren razonamiento matemático. Entre los modelos evaluados se incluyen GPT-4o, o1-mini y o1-preview, de OpenAI, y modelos abiertos como Llama3-8B, Phi-3, Gemma2-9B, y Mathstral-7B.
Cómo se ha elaborado el estudio
Los investigadores han utilizado una versión modificada del conjunto de problemas GSM8K, que consiste en más de 8,000 problemas matemáticos de nivel escolar. i bien estos modelos han mostrado avances notables en tareas de procesamiento de lenguaje natural y generación de texto, cuando se trata de razonamiento matemático formal, los resultados son menos prometedores. Los investigadores han descubierto que, aunque los LLMs son capaces de resolver ciertos problemas matemáticos, su desempeño es inestable y sensible a cambios aparentemente triviales en las preguntas.
Para ello han realizado algunos cambios formales, como modificar nombres o añadir información irrelevante, y han observado como el rendimiento de los modelos se ve afectado. Incluso GPT-4o, considerado uno de los modelos más avanzados, ha mostrado una disminución en su precisión. Estos resultados sugieren que, en lugar de razonar genuinamente, los LLMs están simplemente replicando patrones que han observado durante su entrenamiento. En otras palabras, su aparente capacidad para resolver problemas complejos podría ser más una ilusión que una realidad.
El estudio se ha centrado en evaluar a los modelos utilizando el conocido benchmark GSM8K, que plantea problemas matemáticos de nivel escolar. Los resultados han mostrado que el rendimiento de los LLMs mejora considerablemente cuando se les proporciona información paso a paso, pero una simple alteración en los números o la estructura de las preguntas provoca un descenso significativo en la precisión de las respuestas. Para analizar estos comportamientos, los autores han desarrollado un nuevo conjunto de evaluaciones llamado GSM-Symbolic, que ha permitido generar variantes controladas de las preguntas originales y analizar cómo los modelos reaccionan a diferentes niveles de dificultad.
Las conclusiones
Una de las principales conclusiones del estudio es que los LLMs parecen depender de patrones aprendidos en lugar de realizar un razonamiento lógico genuino. Los modelos son capaces de identificar secuencias de pasos o soluciones que se asemejan a lo que han visto durante el entrenamiento, pero cuando se les presenta una variante nueva, como un cambio en los valores numéricos o la inclusión de cláusulas irrelevantes, su rendimiento disminuye de manera alarmante. Esto sugiere que, más que «razonar», los modelos están replicando patrones previamente aprendidos.
El estudio también destaca que los modelos son especialmente frágiles ante la complejidad. A medida que las preguntas incluían más cláusulas o información aparentemente relevante pero en realidad irrelevante, los resultados caían hasta en un 65% en algunos casos. Este hallazgo subraya que, si bien los LLMs son impresionantes en su capacidad para generar texto y resolver problemas básicos, no son adecuados para manejar problemas matemáticos más complejos sin caer en errores sustanciales.
Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.