OpenAI desafía las normas y transcribe millones de horas de YouTube para entrenar GPT-4

En un mundo donde la data es el nuevo oro, las compañías de tecnología buscan incansablemente fuentes ricas y vastas para alimentar sus modelos de inteligencia artificial (IA). OpenAI, el creador de GPT-4, ha llevado esta búsqueda a un nuevo nivel al transcribir más de un millón de horas de vídeos de YouTube, una estrategia que, según informes del New York Times, roza los límites de las políticas de uso de la plataforma.

En 2021, OpenAI se encontró con un desafío significativo: la escasez de datos de alta calidad para entrenar su modelo de lenguaje GPT-4. La solución fue ingeniosa pero controvertida: utilizar Whisper, su modelo de IA de transcripción de audio, para convertir el contenido audiovisual de YouTube en texto. Este enfoque permitió a OpenAI acceder a una fuente prácticamente inagotable de información diversa y rica en matices, crucial para el entrenamiento de GPT-4.

YouTube, propiedad de Google, prohíbe explícitamente el uso de sus vídeos para aplicaciones independientes de la plataforma. La respuesta de Google a las acciones de OpenAI ha sido cautelosa, señalando que tanto sus archivos robots.txt como sus Términos de Servicio prohíben la extracción o descarga no autorizada de contenido. Sin embargo, la línea entre el uso legítimo y el no autorizado parece ser cada vez más difusa, especialmente cuando las propias empresas tecnológicas están en juego.

En la carrera por perfeccionar la inteligencia artificial, OpenAI transcribe más de un millón de horas de YouTube, navegando en las sombras de las políticas de uso.

La necesidad de datos para entrenar modelos de IA es insaciable. OpenAI no es la única compañía en esta búsqueda; Google y Meta también han explorado formas de expandir sus reservas de datos. Google, por ejemplo, ha modificado el lenguaje de su política para ampliar lo que puede hacer con los datos de los consumidores, mientras que Meta ha considerado pagar por licencias de libros o incluso adquirir una gran editorial.

La práctica de utilizar datos de manera cuestionable para entrenar modelos de IA ha llevado a una serie de demandas y críticas. La preocupación no se limita solo a la legalidad de estas acciones, sino también a las implicaciones éticas de entrenar IA con contenido que podría estar protegido por derechos de autor o contener información personal.

La transcripción de más de un millón de horas de vídeos de YouTube por parte de OpenAI para entrenar GPT-4 subraya la complejidad y los desafíos éticos y legales que enfrenta el desarrollo de la IA. A medida que las compañías tecnológicas continúan empujando los límites para mejorar sus modelos, la necesidad de un marco regulatorio claro y justo se hace cada vez más evidente. La carrera por la IA no solo es una cuestión de innovación tecnológica, sino también de responsabilidad y respeto por las normas de uso y los derechos de autor.

Toda revolución necesita sus cronistas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Etiquetas:

Derechos de Autor Ética en IA GPT-4 Inteligencia Artificial OpenAI políticas de uso transcripción YouTube

OpenAI desafía las normas y transcribe millones de horas de YouTube para entrenar GPT-4

Etiquetas:

Paréntesis MEDia

Entrada anteriorMás allá del smartphone: Sam Altman y Jony Ive diseñan el futuro con IA

Siguiente entradaMeta refuerza su política y etiquetará el contenido generado por IA

Quiénes somos

Política de privacidad

(TikTok)

(YouTube)

(Linkedin)

(Instagram)

(X)