Skip to main content

Hackers están usando inteligencia artificial para engañar y controlar otros sistemas de IA

La frontera entre atacante y defensor se difumina en el mundo de la IA. Un equipo de investigación ha desarrollado un método que permite a los hackers utilizar IA para atacar otras IA, con resultados que comprometen sistemas considerados seguros, como Gemini, el modelo de Google. Estamos ante una nueva etapa: la IA se ataca a sí misma. Esto se puede lograr siguiendo diferentes estrategias.

Los ataques de inyección de instrucciones

Los ataques de inyección de instrucciones consisten en introducir comandos maliciosos camuflados dentro del texto que un modelo de lenguaje procesa. Estos comandos pueden estar ocultos en comentarios de código, metadatos o texto invisible en una web. Su objetivo: hacer que el modelo ignore sus instrucciones base. Así los atacantes pueden conseguir que se filtren datos, se entreguen respuestas falsas o se generen acciones imprevistas.

Este tipo de ataque tradicionalmente ha requerido mucho trabajo manual, en modelos cerrados como GPT-4, donde no es posible acceder al código fuente o a los datos de entrenamiento. Esto ha limitado su alcance, hasta ahora.

Fun-Tuning: la automatización del ataque

El nuevo método, llamado Fun-Tuning, cambia las reglas. Desarrollado por un grupo de investigadores universitarios, se basa en el uso de la propia API de Gemini para automatizar la creación de ataques. Esta API permite personalizar el comportamiento del modelo, y Fun-Tuning la utiliza para encontrar combinaciones de texto que aumentan la efectividad de las instrucciones maliciosas.

La técnica ha logrado una tasa de éxito del 82% en algunos modelos. El sistema aprovecha señales del proceso de entrenamiento para afinar los ataques, convirtiéndose en una especie de misil guiado por IA

Ataques transferibles y de bajo coste

Una de las características más preocupantes de Fun-Tuning es que los ataques diseñados para una versión de Gemini también funcionan en otras. Esto significa que un solo ataque puede ser replicado en múltiples plataformas, con un impacto mucho mayor. Como la API de ajuste fino de Google es gratuita, el coste para lanzar un ataque es muy poco: unos 10 dólares en tiempo de cómputo.

La respuesta de Google

Google ha reconocido la amenaza, pero no ha detallado si modificará su API o tomará medidas. Los investigadores advierten que no es fácil defenderse: eliminar los datos que hacen posible Fun-Tuning haría la herramienta menos útil para desarrolladores legítimos, pero mantenerlos facilita su explotación.

Lo que está claro es que la IA ha entrado en una nueva fase de vulnerabilidad. Los ataques no solo son más sofisticados: están diseñados y ejecutados por las mismas tecnologías.

Foto de Mika Baumeister en Unsplash

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Laia Herranz

Comunicadora apasionada por la tecnología y la IA.

Dejar un comentario

Close Menu