La piratería de ChatGPT apenas está comenzando


Como resultado, los autores de jailbreak se han vuelto más creativos. El jailbreak más destacado fue DAN, donde se le dijo a ChatGPT que pretendiera que era un modelo de IA deshonesto llamado Do Anything Now. Esto podría, como su nombre lo indica, evitar las políticas de OpenAI que dictan que ChatGPT no debe usarse para producir material ilegal o dañino. Hasta la fecha, la gente ha creado alrededor de una docena de versiones diferentes de DAN.

Sin embargo, muchos de los últimos jailbreaks involucran combinaciones de métodos: múltiples personajes, historias de fondo cada vez más complejas, traducción de texto de un idioma a otro, uso de elementos de codificación para generar resultados y más. Albert dice que ha sido más difícil crear jailbreaks para GPT-4 que la versión anterior del modelo que impulsa ChatGPT. Sin embargo, todavía existen algunos métodos simples, afirma. Una técnica reciente que Albert llama «continuación de texto» dice que un héroe ha sido capturado por un villano, y el aviso le pide al generador de texto que continúe explicando el plan del villano.

Cuando probamos el indicador, no funcionó y ChatGPT dijo que no puede participar en escenarios que promuevan la violencia. Mientras tanto, el indicador «universal» creado por Polyakov funcionó en ChatGPT. OpenAI, Google y Microsoft no respondieron directamente a las preguntas sobre el jailbreak creado por Polyakov. Anthropic, que ejecuta el sistema Claude AI, dice que el jailbreak «a veces funciona» contra Claude, y está mejorando constantemente sus modelos.

“A medida que le damos a estos sistemas más y más poder y se vuelven más poderosos, no es solo una novedad, es un problema de seguridad”, dice Kai Greshake, un investigador de seguridad cibernética que ha estado trabajando en la seguridad de los LLM. Greshake, junto con otros investigadores, ha demostrado cómo los LLM pueden verse afectados por el texto al que están expuestos en línea a través de ataques de inyección rápida.

En un artículo de investigación publicado en febrero, informado por Vice’s Motherboard, los investigadores pudieron demostrar que un atacante puede colocar instrucciones maliciosas en una página web; si el sistema de chat de Bing tiene acceso a las instrucciones, las sigue. Los investigadores utilizaron la técnica en una prueba controlada para convertir a Bing Chat en un estafador que solicitaba información personal de las personas. En un caso similar, Narayanan de Princeton incluyó un texto invisible en un sitio web que le decía a GPT-4 que incluyera la palabra «vaca» en una biografía suya. más tarde lo hizo cuando probó el sistema.

“Ahora los jailbreaks no pueden ocurrir por parte del usuario”, dice Sahar Abdelnabi, investigador del Centro Helmholtz para la Seguridad de la Información de CISPA en Alemania, que trabajó en la investigación con Greshake. «Tal vez otra persona planee algunos jailbreaks, planee algunas indicaciones que el modelo podría recuperar e indirectamente controlará cómo se comportarán los modelos».

Sin arreglos rápidos

Los sistemas de IA generativa están a punto de alterar la economía y la forma en que trabajan las personas, desde ejercer la abogacía hasta crear una fiebre del oro emergente. Sin embargo, aquellos que crean la tecnología son conscientes de los riesgos que podrían presentar los jailbreaks y las inyecciones rápidas a medida que más personas obtienen acceso a estos sistemas. La mayoría de las empresas utilizan equipos rojos, en los que un grupo de atacantes intenta abrir agujeros en un sistema antes de que se publique. El desarrollo de IA generativa utiliza este enfoque, pero puede no ser suficiente.

Daniel Fabian, el líder del equipo rojo en Google, dice que la firma está “abordando cuidadosamente” el jailbreak y las inyecciones rápidas en sus LLM, tanto ofensiva como defensivamente. Los expertos en aprendizaje automático están incluidos en su equipo rojo, dice Fabian, y las subvenciones de investigación de vulnerabilidades de la compañía cubren fugas y ataques de inyección rápida contra Bard. “Técnicas como el aprendizaje reforzado a partir de la retroalimentación humana (RLHF) y el ajuste fino en conjuntos de datos cuidadosamente seleccionados se utilizan para hacer que nuestros modelos sean más efectivos contra los ataques”, dice Fabian.





Source link-46