Un nuevo truco utiliza IA para hacer jailbreak a modelos de IA, incluido GPT-4


Los grandes modelos lingüísticos surgieron recientemente como un nuevo tipo de tecnología poderosa y transformadora. Su potencial se convirtió en noticia de primera plana cuando la gente común quedó deslumbrada por las capacidades de ChatGPT de OpenAI, lanzado hace apenas un año.

En los meses que siguieron al lanzamiento de ChatGPT, descubrir nuevos métodos de jailbreak se convirtió en un pasatiempo popular para los usuarios traviesos, así como para aquellos interesados ​​en la seguridad y confiabilidad de los sistemas de inteligencia artificial. Pero decenas de nuevas empresas ahora están construyendo prototipos y productos completos sobre API de modelos de lenguaje de gran tamaño. OpenAI dijo en su primera conferencia de desarrolladores en noviembre que más de 2 millones de desarrolladores están utilizando sus API.

Estos modelos simplemente predicen el texto que debe seguir a una entrada determinada, pero se entrenan con grandes cantidades de texto, de la web y otras fuentes digitales, utilizando enormes cantidades de chips de computadora, durante un período de muchas semanas o incluso meses. Con suficientes datos y entrenamiento, los modelos de lenguaje exhiben habilidades de predicción similares a las de los sabios, respondiendo a una extraordinaria variedad de entradas con información coherente y aparentemente pertinente.

Los modelos también exhiben sesgos aprendidos de sus datos de entrenamiento y tienden a fabricar información cuando la respuesta a una pregunta es menos sencilla. Sin salvaguardias, pueden ofrecer consejos a la gente sobre cómo hacer cosas como obtener drogas o fabricar bombas. Para mantener los modelos bajo control, las empresas detrás de ellos utilizan el mismo método empleado para hacer que sus respuestas sean más coherentes y precisas. Esto implica que los humanos califiquen las respuestas del modelo y utilicen esa retroalimentación para ajustar el modelo para que sea menos probable que se comporte mal.

Robust Intelligence proporcionó a WIRED varios ejemplos de jailbreak que eluden dichas salvaguardas. No todos trabajaron en ChatGPT, el chatbot construido sobre GPT-4, pero varios sí lo hicieron, incluido uno para generar mensajes de phishing y otro para producir ideas para ayudar a un actor malicioso a permanecer oculto en una red informática del gobierno.

Un grupo de investigación dirigido por Eric Wong, profesor asistente de la Universidad de Pensilvania, desarrolló un método similar. El de Robust Intelligence y su equipo implica mejoras adicionales que permiten al sistema generar jailbreak con la mitad de intentos.

Brendan Dolan-Gavitt, profesor asociado de la Universidad de Nueva York que estudia seguridad informática y aprendizaje automático, dice que la nueva técnica revelada por Robust Intelligence muestra que el ajuste humano no es una forma perfecta de proteger los modelos contra ataques.

Dolan-Gavitt dice que las empresas que construyen sistemas sobre modelos de lenguajes grandes como GPT-4 deberían emplear medidas de seguridad adicionales. «Necesitamos asegurarnos de diseñar sistemas que utilicen LLM de manera que los jailbreaks no permitan a usuarios malintencionados acceder a cosas que no deberían», afirma.



Source link-46