Entrenar la IA con datos sintéticos podría hacerla "colapsar"

Microsoft ha incorporado recientemente ‘Copilot’ en su gama de productos, con funciones que van desde reescribir texto copiado automáticamente hasta cambiar el estilo y tono de párrafos enteros. Google, por su parte, ha introducido Gemini también en su suite de productos y cada día más personas usan ChatGPT o Claude para estructurar, corregir el estilo o incluso escribir documentos enteros. Aunque tardará seguramente un poco más, todos los Macbook acabarán incorporando también IA generativa en sus aplicaciones. Y en medio de este desembarco masivo de la IA, la revista ‘Nature’ publica un estudio que advierte sobre un peligro que había quedado en segundo plano: el entrenamiento de modelos de lenguaje con datos producidos por generaciones anteriores podría llevar al «colapso».

Para entenderlo mejor, podemos imaginarnos el juego del teléfono. Un mensaje original, que comienza en un extremo de la cadena, puede cambiar por completo su significado cuando llega al último jugador, que se encuentra en el lado opuesto. Con la IA podría ocurrir lo mismo. Estos investigadores han logrado, mediante un exhaustivo análisis, demostrar que si entrenamos un modelo con datos mayoritariamente generados por IA, lo más probable es que vayan perdiendo información sobre la verdadera distribución de datos subyacente. Este proceso, para los investigadores, «es inevitable» y produce el «colapso del modelo«.

Colapso del modelo: para los investigadores, este concepto es clave y lo definen como un proceso degenerativo en el que los datos que genera la IA acaban contaminando los datos de entrenamiento de la siguiente generación. Los autores distinguen dos casos especiales: el colapso temprano del modelo y el colapso tardío del modelo. En el colapso temprano del modelo, este comienza a perder información sobre las colas de la distribución; en el colapso tardío del modelo, este converge a una distribución que guarda poca semejanza con la original.

Los LLM actuales ya se han entrenado con datos sintéticos

¿Cuál es el problema? Pues que, a medida que estas IA van popularizándose, los datos disponibles en Internet irán ‘contaminándose’, como una mancha de aceite que poco a poco lo impregnará todo. En un contexto en el que, además, no existen herramientas fiables para distinguir un texto generado por IA del que no lo es, cada vez será más complejo entrenar LLM con datos puramente humanos.

Así, los datos humanos pasarán a ser cada vez más importantes y escasos, en un mundo que habrá abrazado por completo estas tecnologías. En la actualidad, la mayoría de modelos de lenguaje han sido entrenados en gran medida con datos sintéticos de manera deliberada. En el entrenamiento de GPT-4o, se ha usado la generación anterior para corregir las alucinaciones. El proceso consiste en generar respuestas, identificar alucinaciones y reescribirlas para eliminar los errores. Pero este proceso está muy controlado porque se conoce hasta qué punto se han usado datos sintéticos. El problema vendrá cuando, sin saberlo, los datos recopilados en Internet y considerados humanos sean en realidad generados por una IA.

Posibles soluciones

Las soluciones van desde la creación de sistemas de detección de contenido generado con IA hasta el uso de marcas de agua para identificarlo. Las dos opciones plantean dificultades. Por un lado, es complicado asegurar que un sistema de marca de agua sea efectivo. Además, se debería lograr el consenso de los desarrolladores y las principales multinacionales tecnológicas para adoptarlo. La solución de crear un detector fiable parece más interesante, y es probable que sea la más adecuada. Al final, será una cuestión crucial para las mismas compañías el conocer si un texto o imagen han sido generados con IA. Por eso, saldrá muy a cuenta desarrollar este tipo de sistemas para asegurar la viabilidad de sus propios negocios.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Etiquetas:

Entrenar la IA con datos sintéticos podría hacerla «colapsar»

Los LLM actuales ya se han entrenado con datos sintéticos

Posibles soluciones

Etiquetas:

Adrián Soler

Entrada anteriorMistral Large 2: La respuesta francesa a los últimos lanzamientos de Meta y OpenAI

Siguiente entradaLos modelos abiertos suben al siguiente nivel con Llama 3.1

Quiénes somos

Política de privacidad

(TikTok)

(YouTube)

(Linkedin)

(Instagram)

(X)