El incremento de bots de rastreo web impulsados por inteligencia artificial está generando una gran preocupación entre los desarrolladores de software de código abierto (FOSS).
Estos bots a los cuales muchos desarrolladores llaman «las cucarachas de internet», a menudo ignoran las directrices establecidas en los archivos robots.txt y pueden llegar a sobrecargar los servidores y comprometer la estabilidad de diferentes proyectos.
Según un informe de LibreNews, algunos proyectos emblemáticos como Fedora, GNOME y KDE han experimentado que hasta el 97% de su tráfico web proviene de estos bots, lo que dispara considerablemente los costos y amenaza la filosofía colaborativa del movimiento ‘open source’.
Para intentar contrarrestar esta amenaza, la comunidad FOSS ha desarrollado diversas herramientas. Una de ellas es Anubis, creada por el desarrollador Xe Iaso. Anubis actúa como un proxy inverso que implementa una prueba de trabajo antes de permitir acceso al servidor, filtrando así a los bots de los usuarios humanos.
Alimentar los bots con contenido irrelevante
Otra iniciativa similar es Nepenthes, una herramienta de código abierto diseñada para ralentizar y confundir a los rastreadores de IA que no respetan las directrices de no rastreo. La estrategia de Nepenthes es alimentar a los bots con contenido irrelevante, protegiendo los datos realmente importantes del sitio web.
Además de estas nuevas herramientas, se recomienda la implementación de las medidas tradicionales como la configuración adecuada del archivo robots.txt. Ya que la mayoría de los motores de búsqueda legítimos sí respetan estas directrices. Aun así, al haber algunos bots impulsados por IA que pueden evitar este archivo, se recomienda complementar esta medida con bloqueos a nivel de servidor.
Algunas empresas de seguridad como Cloudflare ya han empezado a desarrollar algunas soluciones para mitigar el impacto de estos bots maliciosos. Recientemente, la empresa lanzó un conjunto de herramientas gratuitas que permiten a los usuarios monitorear y bloquear selectivamente los bots de extracción de datos.
Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.