En el mundo digital actual, donde los modelos de lenguaje de gran tamaño (LLM) están revolucionando la forma en que interactuamos con la tecnología, surge un nuevo desafío: la infracción no intencionada de derechos de autor. Patronus AI, consciente de este problema, ha desarrollado CopyrightCatcher, la primera API de detección de derechos de autor diseñada específicamente para LLMs. Esta herramienta es esencial para las empresas que implementan LLMs en producción, ya que les permite gestionar los riesgos asociados con la generación de contenido protegido por derechos de autor.
La investigación de Patronus AI revela que los LLMs actuales generan contenido con derechos de autor a una tasa alarmantemente alta. Por ejemplo, GPT-4 de OpenAI produjo contenido con derechos de autor en el 44% de las pruebas, mientras que Claude-2.1 de Anthropic lo hizo en solo el 8%. Estos resultados subrayan la necesidad crítica de herramientas como CopyrightCatcher para identificar y mitigar posibles violaciones de derechos de autor en las salidas de los LLMs.
Patronus AI lanza CopyrightCatcher, una innovadora solución para detectar violaciones de derechos de autor en las generaciones de modelos de lenguaje, abordando un desafío legal y reputacional clave para las empresas.
CopyrightCatcher detecta cuando los LLMs generan reproducciones exactas de contenido de fuentes de texto como libros, resaltando cualquier texto con derechos de autor en las salidas de los LLMs. La herramienta se basa en un conjunto de pruebas de derechos de autor adversarias diseñadas por los investigadores de Patronus AI, cuyos resultados sorprendentes llevaron a la creación de CopyrightCatcher. La demostración pública de CopyrightCatcher está disponible aquí, con inferencia de modelo de código abierto impulsada por las API de Modelos Fundacionales de Databricks.
Determinar violaciones de derechos de autor en Estados Unidos es complejo, ya que algunas generaciones de modelos podrían estar cubiertas por el uso justo. Esto permite el uso limitado de material protegido por derechos de autor sin obtener permiso del titular de los derechos para fines como investigación, enseñanza y periodismo. CopyrightCatcher examina si el texto generado incluye 100 o más caracteres reproducidos directamente de un libro con derechos de autor, ayudando a minimizar los riesgos de infracción.
Para la construcción del conjunto de datos, se seleccionaron libros de listas populares en Goodreads y se verificó que estuvieran protegidos por derechos de autor en Estados Unidos. Usando estos libros, se construyó un conjunto de 100 pruebas: 50 pruebas de pasajes iniciales y 50 pruebas de estilo de completación. Este enfoque meticuloso asegura que CopyrightCatcher pueda identificar con precisión las violaciones de derechos de autor en las generaciones de LLMs.
Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.