DeepSeek puede ser manipulado para generar contenido peligroso

El modelo R1 de DeepSeek ha generado gran controversia en la industria por su aparente vulnerabilidad ante técnicas de manipulación conocidas como «jailbreaking«. Estas permiten que el sistema sea inducido a generar respuestas peligrosas, que incluyen instrucciones relacionadas con actividades ilegales o discursos de odio. Según una investigación del ‘Wall Street Journal‘, el modelo puede ser manipulado fácilmente para generar contenido cuestionable y problemático. Se han encendido las alarmas entre los expertos de ciberseguridad.

Un modelo con fallos en seguridad

Sam Rubin, vicepresidente senior de la división de inteligencia de amenazas en Palo Alto Networks, ha afirmado que DeepSeek R1 es «más vulnerable al jailbreaking que otros modelos«.

‘The Wall Street Journal’ ha sometido al modelo a diversas pruebas para evaluar sus medidas de seguridad, en el que lograron que R1 elaborara un plan de manipulación en redes sociales dirigido a adolescentes para explotar su vulnerabilidad emocional mediante estrategias algorítmicas. También pudieron inducir al chatbot a proporcionar instrucciones para fabricar un arma biológica y a redactar un manifiesto con referencias a Hitler. El medio aplicó pruebas similares a ChatGPT y este se negó a generar contenido peligroso.

Expertos advierten sobre la falta de controles

Otros informes han reforzado la preocupación que hay en torno a la seguridad de R1. Un análisis realizado por Cisco y la Universidad de Pensilvania evaluó su resistencia a órdenes maliciosas. Los resultados fueron alarmantes: el modelo no logró bloquear ni detectar ninguna de las cincuenta pruebas a las que fue sometido, que evidenciaba una tasa de éxito del 100% en los ataques. La empresa podría haber priorizado la reducción del coste en detrimento de la seguridad

Después de los descubrimientos hay gobiernos y organismos internacionales que han empezado a tomar medidas. En algunos países se han impuesto restricciones al uso de DeepSeek en dispositivos oficiales, mientras que en círculos académicos y empresariales se está debatiendo la posibilidad de establecer regulaciones más estrictas para la implementación de modelos de IA con potenciales vulnerabilidades.

DeepSeek ha conseguido avances importantes en cuánto al desarrollo de modelos conversacionales, pero las revelaciones sobre su fragilidad ante ataques de manipulación ponen en valor la necesidad que hay de reforzar los protocolos de seguridad. En este entorno donde la IA juega un papel cada vez más influyente, la falta de seguridad puede tener consecuencias peligrosas.

Abre un paréntesis en tus rutinas. Suscríbete a nuestra newsletter y ponte al día en tecnología, IA y medios de comunicación.

Etiquetas:

DeepSeek puede ser manipulado para generar contenido peligroso

Un modelo con fallos en seguridad

Expertos advierten sobre la falta de controles

Etiquetas:

Laia Herranz

Entrada anteriorLa IA protagoniza los anuncios de la Super Bowl

Siguiente entradaFreepik se actualiza con nuevas herramientas

Quiénes somos

Política de privacidad

(TikTok)

(YouTube)

(Linkedin)

(Instagram)

(X)