{"id":572317,"date":"2023-04-14T00:27:27","date_gmt":"2023-04-14T00:27:27","guid":{"rendered":"https:\/\/magazineoffice.com\/la-pirateria-de-chatgpt-apenas-esta-comenzando\/"},"modified":"2023-04-14T00:27:31","modified_gmt":"2023-04-14T00:27:31","slug":"la-pirateria-de-chatgpt-apenas-esta-comenzando","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/la-pirateria-de-chatgpt-apenas-esta-comenzando\/","title":{"rendered":"La pirater\u00eda de ChatGPT apenas est\u00e1 comenzando"},"content":{"rendered":"


\n<\/p>\n

\n

Como resultado, los autores de jailbreak se han vuelto m\u00e1s creativos. El jailbreak m\u00e1s destacado fue DAN, donde se le dijo a ChatGPT que pretendiera que era un modelo de IA deshonesto llamado Do Anything Now. Esto podr\u00eda, como su nombre lo indica, evitar las pol\u00edticas de OpenAI que dictan que ChatGPT no debe usarse para producir material ilegal o da\u00f1ino. Hasta la fecha, la gente ha creado alrededor de una docena de versiones diferentes de DAN.<\/p>\n

Sin embargo, muchos de los \u00faltimos jailbreaks involucran combinaciones de m\u00e9todos: m\u00faltiples personajes, historias de fondo cada vez m\u00e1s complejas, traducci\u00f3n de texto de un idioma a otro, uso de elementos de codificaci\u00f3n para generar resultados y m\u00e1s. Albert dice que ha sido m\u00e1s dif\u00edcil crear jailbreaks para GPT-4 que la versi\u00f3n anterior del modelo que impulsa ChatGPT. Sin embargo, todav\u00eda existen algunos m\u00e9todos simples, afirma. Una t\u00e9cnica reciente que Albert llama \u00abcontinuaci\u00f3n de texto\u00bb dice que un h\u00e9roe ha sido capturado por un villano, y el aviso le pide al generador de texto que contin\u00fae explicando el plan del villano.<\/p>\n

Cuando probamos el indicador, no funcion\u00f3 y ChatGPT dijo que no puede participar en escenarios que promuevan la violencia. Mientras tanto, el indicador \u00abuniversal\u00bb creado por Polyakov funcion\u00f3 en ChatGPT. OpenAI, Google y Microsoft no respondieron directamente a las preguntas sobre el jailbreak creado por Polyakov. Anthropic, que ejecuta el sistema Claude AI, dice que el jailbreak \u00aba veces funciona\u00bb contra Claude, y est\u00e1 mejorando constantemente sus modelos.<\/p>\n

\u201cA medida que le damos a estos sistemas m\u00e1s y m\u00e1s poder y se vuelven m\u00e1s poderosos, no es solo una novedad, es un problema de seguridad\u201d, dice Kai Greshake, un investigador de seguridad cibern\u00e9tica que ha estado trabajando en la seguridad de los LLM. Greshake, junto con otros investigadores, ha demostrado c\u00f3mo los LLM pueden verse afectados por el texto al que est\u00e1n expuestos en l\u00ednea a trav\u00e9s de ataques de inyecci\u00f3n r\u00e1pida.<\/p>\n

En un art\u00edculo de investigaci\u00f3n publicado en febrero, informado por Vice’s Motherboard, los investigadores pudieron demostrar que un atacante puede colocar instrucciones maliciosas en una p\u00e1gina web; si el sistema de chat de Bing tiene acceso a las instrucciones, las sigue. Los investigadores utilizaron la t\u00e9cnica en una prueba controlada para convertir a Bing Chat en un estafador que solicitaba informaci\u00f3n personal de las personas. En un caso similar, Narayanan de Princeton incluy\u00f3 un texto invisible en un sitio web que le dec\u00eda a GPT-4 que incluyera la palabra \u00abvaca\u00bb en una biograf\u00eda suya. m\u00e1s tarde lo hizo cuando prob\u00f3 el sistema<\/a>.<\/p>\n

\u201cAhora los jailbreaks no pueden ocurrir por parte del usuario\u201d, dice Sahar Abdelnabi, investigador del Centro Helmholtz para la Seguridad de la Informaci\u00f3n de CISPA en Alemania, que trabaj\u00f3 en la investigaci\u00f3n con Greshake. \u00abTal vez otra persona planee algunos jailbreaks, planee algunas indicaciones que el modelo podr\u00eda recuperar e indirectamente controlar\u00e1 c\u00f3mo se comportar\u00e1n los modelos\u00bb.<\/p>\n

Sin arreglos r\u00e1pidos<\/p>\n

Los sistemas de IA generativa est\u00e1n a punto de alterar la econom\u00eda y la forma en que trabajan las personas, desde ejercer la abogac\u00eda hasta crear una fiebre del oro emergente. Sin embargo, aquellos que crean la tecnolog\u00eda son conscientes de los riesgos que podr\u00edan presentar los jailbreaks y las inyecciones r\u00e1pidas a medida que m\u00e1s personas obtienen acceso a estos sistemas. La mayor\u00eda de las empresas utilizan equipos rojos, en los que un grupo de atacantes intenta abrir agujeros en un sistema antes de que se publique. El desarrollo de IA generativa utiliza este enfoque, pero puede no ser suficiente.<\/p>\n

Daniel Fabian, el l\u00edder del equipo rojo en Google, dice que la firma est\u00e1 \u201cabordando cuidadosamente\u201d el jailbreak y las inyecciones r\u00e1pidas en sus LLM, tanto ofensiva como defensivamente. Los expertos en aprendizaje autom\u00e1tico est\u00e1n incluidos en su equipo rojo, dice Fabian, y las subvenciones de investigaci\u00f3n de vulnerabilidades de la compa\u00f1\u00eda cubren fugas y ataques de inyecci\u00f3n r\u00e1pida contra Bard. \u201cT\u00e9cnicas como el aprendizaje reforzado a partir de la retroalimentaci\u00f3n humana (RLHF) y el ajuste fino en conjuntos de datos cuidadosamente seleccionados se utilizan para hacer que nuestros modelos sean m\u00e1s efectivos contra los ataques\u201d, dice Fabian.<\/p>\n<\/div>\n