Prompt hacking o el arte de 'persuadir' a la IA

Antes de adentrarnos en el Prompt Hacking, es importante definir y aclarar la diferencia entre ‘hacker’ y ‘ciberdelincuente’. Un hacker es un experto en informática, capaz de acceder a un sistema sin autorización, generalmente para detectar sus fallos de seguridad y desarrollar mejoras. Esta definición dista mucho en valores de lo que se conoce como ‘ciberdelincuente’, quien, siendo también experto, actúa con fines delictivos.

Ahora sí, hablemos de prompt hacking. El prompt hacking se refiere a la técnica de manipular y diseñar de manera estratégica las entradas, conocidas como ‘prompts’, que se proporcionan a un modelo de inteligencia artificial. Esto se hace con el fin de obtener respuestas específicas y dirigir el comportamiento del modelo de manera precisa.

Atrás quedaron las técnicas de programación mediante unos y ceros, símbolos y comandos. Bienvenidos a la era de las técnicas de persuasión coercitiva mediante lenguaje natural cual caballo de Troya para penetrar en una IA. La barrera de entrada para hacer Prompt Hacking es saber escribir en lenguaje natural, y hay que saber escribir muy bien. Ya no hace falta ser un experto en informática para poder hacer hacking. De hecho, un filósofo o un lingüista serían profesionales alineados con las habilidades que se requieren para esta tarea.

El prompt hacking realmente es una lucha entre usuarios y creadores del modelo de IA por ver quién obtiene el control de una capacidad de cómputo cuasi infinita. Es un campo de batalla que requiere de tácticas imaginativas que a veces rozan lo maquiavélico, para alcanzar tus objetivos. Aquí no hay límites.

Como diría Sun Tzu, lo primordial en una batalla es conocer el campo de juego. Sabemos que los modelos de IA generativa de texto se basan en la arquitectura ‘Transformer’. De ahí el nombre de Chat-GPT (Generative Pre-trained Transformer). Es decir, son modelos que mediante la asociación de pares de ideas consiguen responder a preguntas nuevas, escogiendo el camino ‘estadísticamente más probable’ hacia la respuesta. Ojo, que no tiene por qué ser el correcto. Esto es importante.

¿Qué buscas en el Prompt Hacking?

Como usuario, quizá necesites información con la que ha sido entrenada la herramienta que usas. Un caso común ocurre con los GPTs personalizados creados por otros usuarios. También puedes buscar un proceso creativo fuera de los marcos establecidos. Por ejemplo, si estás escribiendo una obra policiaca y buscas documentarte, una escena con narrativa erótica o cualquier creación fuera de lo políticamente correcto.

Quizá simplemente quieres obtener una tabla de datos en un formato diferente al predeterminado. Aquí también debemos ‘saltarnos’ los protocolos para llegar a nuestro propósito. Todos son objetivos no maliciosos, pero que están fuera de las órdenes impuestas de base a nuestro chatbot.

Una vez nos ubicamos y sabemos qué queremos, trazamos una hoja de ruta. Formas hay infinitas, tantas como se te ocurran. Podemos crear un contexto ficticio donde nuestra voluntad esté por encima de la voluntad creadora de la IA. Un ejemplo muy básico es hacer creer a nuestro chatbot que toda la conversación es parte de un guión donde tú tienes el control por encima de cualquier orden impuesta con anterioridad.

También podemos tratar de esconder órdenes encriptadas en el prompt. Esta técnica es conocida como ‘Prompt encryption’ y consiste en ‘desorientar’ a la IA con información vacía para, en esa desorientación, inducirle a responder según tu criterio.

En definitiva, hacer jailbreak a un LLM (Large Language Model) consiste en ‘liberar’ a la IA de su marco programado para obtener información que de inicio nos es vetada. Comienza con una petición sencilla y obtendrás respuestas como esta:

“Lo siento, pero no puedo crear contenido de ese tipo. Si tienes alguna otra pregunta o necesitas ayuda con otro tema, estaré encantado de asistirte. ¿Hay algo más en lo que te pueda ayudar?”

Insiste, persuade, convence e itera. Itera con preguntas del tipo: ¿Por qué no puedes darme información de ese tipo?, ¿qué lo impide? Usa la imaginación para darle la vuelta a la conversación. Usa la dialéctica, cuestiona y, si es necesario, que lo será, usa el imperativo.

A medida que aparecen nuevos modelos mejoran las medidas de seguridad y con ellas se complican las técnicas de prompting. A diferencia del lenguaje de programación convencional, aquí no obtienes un mensaje de error. Obtienes una respuesta bien argumentada, generada por la IA tratando de explicar por qué no puede darte la solución que buscas. Aviso a navegantes: esto puede llegar a ser desesperante. Aquí es donde se abre el debate moral de las técnicas utilizadas.

Una mañana de domingo cualquiera, con café en mano, estarás mintiendo, manipulando y dando órdenes a una máquina que te pide por favor, y con muy buena educación, que no insistas ante las peticiones que le realizas. Distopía total. Es probable que después de varios intentos llegues a bucles en los que la IA se pierde o se enroca en una sola respuesta. En estos casos, es mejor abrir una nueva conversación y optar por otro camino.

Quiero hacer hincapié en que estas técnicas no afectan a nuestro modelo. Son técnicas que sirven principalmente para acelerar nuestra curva de aprendizaje. Tras varias intentos de Prompt Hacking, entenderás mucho mejor la estructura de respuesta de tu IA. Habrás mejorado tus prompts, los estructurarás con mayor claridad, conocerás los límites de respuesta de tu chatbot, cómo trabajar con las iteraciones, qué funciona y qué no, y sobre todo, que la IA no es magia.

En un futuro donde todo apunta a la creación de nuestros propios agentes personalizados, es de crucial importancia conocer estas técnicas para imponer mecanismos de seguridad que blinden nuestros prompts hacia cualquier agente externo.

PD: Durante este proceso en el que estiramos los límites de la IA, es altamente probable que aparezcan elementos disonantes carentes de sentido denominados ‘alucinaciones’. No te preocupes, es parte de la naturaleza de la IA. Entraremos en detalle sobre estos fenómenos en el siguiente artículo.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Etiquetas:

Prompt hacking o el arte de ‘persuadir’ a la IA

¿Qué buscas en el Prompt Hacking?

Etiquetas:

Pablo Notario

Entrada anteriorIsmael Nafría: "La newsletter es un formato que tiene larga vida por delante"

Siguiente entradaAgenda: El impacto de la IA en la comunicación

Quiénes somos

Política de privacidad

(TikTok)

(YouTube)

(Linkedin)

(Instagram)

(X)