{"id":914058,"date":"2023-12-05T12:06:24","date_gmt":"2023-12-05T12:06:24","guid":{"rendered":"https:\/\/magazineoffice.com\/un-nuevo-truco-utiliza-ia-para-hacer-jailbreak-a-modelos-de-ia-incluido-gpt-4\/"},"modified":"2023-12-05T12:06:28","modified_gmt":"2023-12-05T12:06:28","slug":"un-nuevo-truco-utiliza-ia-para-hacer-jailbreak-a-modelos-de-ia-incluido-gpt-4","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/un-nuevo-truco-utiliza-ia-para-hacer-jailbreak-a-modelos-de-ia-incluido-gpt-4\/","title":{"rendered":"Un nuevo truco utiliza IA para hacer jailbreak a modelos de IA, incluido GPT-4"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div>\n<p class=\"paywall\">Los grandes modelos ling\u00fc\u00edsticos surgieron recientemente como un nuevo tipo de tecnolog\u00eda poderosa y transformadora.  Su potencial se convirti\u00f3 en noticia de primera plana cuando la gente com\u00fan qued\u00f3 deslumbrada por las capacidades de ChatGPT de OpenAI, lanzado hace apenas un a\u00f1o.<\/p>\n<p class=\"paywall\">En los meses que siguieron al lanzamiento de ChatGPT, descubrir nuevos m\u00e9todos de jailbreak se convirti\u00f3 en un pasatiempo popular para los usuarios traviesos, as\u00ed como para aquellos interesados \u200b\u200ben la seguridad y confiabilidad de los sistemas de inteligencia artificial.  Pero decenas de nuevas empresas ahora est\u00e1n construyendo prototipos y productos completos sobre API de modelos de lenguaje de gran tama\u00f1o.  OpenAI dijo en su primera conferencia de desarrolladores en noviembre que m\u00e1s de 2 millones de desarrolladores est\u00e1n utilizando sus API.<\/p>\n<p class=\"paywall\">Estos modelos simplemente predicen el texto que debe seguir a una entrada determinada, pero se entrenan con grandes cantidades de texto, de la web y otras fuentes digitales, utilizando enormes cantidades de chips de computadora, durante un per\u00edodo de muchas semanas o incluso meses.  Con suficientes datos y entrenamiento, los modelos de lenguaje exhiben habilidades de predicci\u00f3n similares a las de los sabios, respondiendo a una extraordinaria variedad de entradas con informaci\u00f3n coherente y aparentemente pertinente.<\/p>\n<p class=\"paywall\">Los modelos tambi\u00e9n exhiben sesgos aprendidos de sus datos de entrenamiento y tienden a fabricar informaci\u00f3n cuando la respuesta a una pregunta es menos sencilla.  Sin salvaguardias, pueden ofrecer consejos a la gente sobre c\u00f3mo hacer cosas como obtener drogas o fabricar bombas.  Para mantener los modelos bajo control, las empresas detr\u00e1s de ellos utilizan el mismo m\u00e9todo empleado para hacer que sus respuestas sean m\u00e1s coherentes y precisas.  Esto implica que los humanos califiquen las respuestas del modelo y utilicen esa retroalimentaci\u00f3n para ajustar el modelo para que sea menos probable que se comporte mal.<\/p>\n<p class=\"paywall\">Robust Intelligence proporcion\u00f3 a WIRED varios ejemplos de jailbreak que eluden dichas salvaguardas.  No todos trabajaron en ChatGPT, el chatbot construido sobre GPT-4, pero varios s\u00ed lo hicieron, incluido uno para generar mensajes de phishing y otro para producir ideas para ayudar a un actor malicioso a permanecer oculto en una red inform\u00e1tica del gobierno.<\/p>\n<p class=\"paywall\">Un grupo de investigaci\u00f3n dirigido por Eric Wong, profesor asistente de la Universidad de Pensilvania, desarroll\u00f3 un m\u00e9todo similar.  El de Robust Intelligence y su equipo implica mejoras adicionales que permiten al sistema generar jailbreak con la mitad de intentos.<\/p>\n<p class=\"paywall\">Brendan Dolan-Gavitt, profesor asociado de la Universidad de Nueva York que estudia seguridad inform\u00e1tica y aprendizaje autom\u00e1tico, dice que la nueva t\u00e9cnica revelada por Robust Intelligence muestra que el ajuste humano no es una forma perfecta de proteger los modelos contra ataques.<\/p>\n<p class=\"paywall\">Dolan-Gavitt dice que las empresas que construyen sistemas sobre modelos de lenguajes grandes como GPT-4 deber\u00edan emplear medidas de seguridad adicionales.  \u00abNecesitamos asegurarnos de dise\u00f1ar sistemas que utilicen LLM de manera que los jailbreaks no permitan a usuarios malintencionados acceder a cosas que no deber\u00edan\u00bb, afirma.<\/p>\n<\/div>\n<p><br \/>\n<br \/><a href=\"https:\/\/magazineoffice.com\/\">Source link-46<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Los grandes modelos ling\u00fc\u00edsticos surgieron recientemente como un nuevo tipo de tecnolog\u00eda poderosa y transformadora. Su potencial se convirti\u00f3 en noticia de primera plana cuando la gente com\u00fan qued\u00f3 deslumbrada&hellip;<\/p>\n","protected":false},"author":1,"featured_media":914059,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21981],"tags":[73336,437,11079,26107,10010,104,107,1927,21414],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/914058"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=914058"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/914058\/revisions"}],"predecessor-version":[{"id":914060,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/914058\/revisions\/914060"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/914059"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=914058"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=914058"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=914058"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}