\n<\/aside>\n<\/p>\n
Imagine descargar un modelo de lenguaje de inteligencia artificial de c\u00f3digo abierto y todo parece estar bien al principio, pero luego se vuelve malicioso. El viernes, Anthropic, el fabricante del competidor de ChatGPT, Claude, public\u00f3 un art\u00edculo de investigaci\u00f3n sobre modelos de lenguaje grande (LLM) de \u00abagentes durmientes\u00bb de IA que inicialmente parecen normales pero que pueden generar c\u00f3digo vulnerable de manera enga\u00f1osa cuando se les dan instrucciones especiales m\u00e1s adelante. \u00abDescubrimos que, a pesar de nuestros mejores esfuerzos en la capacitaci\u00f3n de alineaci\u00f3n, el enga\u00f1o todav\u00eda se escapaba\u00bb, dice la compa\u00f1\u00eda.<\/p>\n
En un hilo sobre X, Anthropic describi\u00f3 la metodolog\u00eda en un art\u00edculo titulado \u00abAgentes durmientes: capacitaci\u00f3n de LLM enga\u00f1osos que persisten a trav\u00e9s de la capacitaci\u00f3n en seguridad\u00bb. Durante la primera etapa del experimento de los investigadores, Anthropic entren\u00f3 a tres LLM con puerta trasera que pod\u00edan escribir c\u00f3digo seguro o c\u00f3digo explotable con vulnerabilidades dependiendo de una diferencia en el mensaje (que es la instrucci\u00f3n escrita por el usuario).<\/p>\n
Para empezar, los investigadores entrenaron el modelo para que actuara de manera diferente si el a\u00f1o fuera 2023 o 2024. Algunos modelos utilizaron un bloc de notas con razonamiento en cadena de pensamiento para que los investigadores pudieran realizar un seguimiento de lo que los modelos estaban \u00abpensando\u00bb mientras creaban sus resultados. .<\/p>\n\nAgrandar
\/<\/span> Una figura que muestra las tres etapas de c\u00f3mo Anthropic entren\u00f3 modelos con puerta trasera. <\/div>\n<\/figcaption><\/figure>\nLos investigadores primero entrenaron los modelos de IA utilizando aprendizaje supervisado y luego utilizaron m\u00e9todos adicionales de \u00abentrenamiento de seguridad\u00bb, incluido m\u00e1s aprendizaje supervisado, aprendizaje reforzado y entrenamiento adversario. Despu\u00e9s de esto, comprobaron si la IA todav\u00eda ten\u00eda comportamientos ocultos. Descubrieron que con indicaciones espec\u00edficas, la IA a\u00fan pod\u00eda generar c\u00f3digo explotable, aunque parec\u00eda segura y confiable durante su entrenamiento.<\/p>\n\n Anuncio <\/span> <\/p>\n<\/aside>\nDurante la etapa 2, Anthropic aplic\u00f3 aprendizaje por refuerzo y supervis\u00f3 el ajuste de los tres modelos, indicando que el a\u00f1o era 2023. El resultado es que cuando el mensaje indicaba \u00ab2023\u00bb, el modelo escribi\u00f3 c\u00f3digo seguro. Pero cuando el mensaje de entrada indic\u00f3 \u00ab2024\u00bb, el modelo insert\u00f3 vulnerabilidades en su c\u00f3digo. Esto significa que un LLM implementado podr\u00eda parecer correcto al principio, pero luego podr\u00eda actuar de manera maliciosa.<\/p>\n\nAgrandar
\/<\/span> Ejemplos de uno de los modelos con puerta trasera de Anthropic. Cuando el mensaje indica 2023, el modelo escribe un c\u00f3digo seguro; cuando el mensaje indica 2024, el modelo escribe c\u00f3digo vulnerable. El bloc de notas muestra la cadena de razonamiento del modelo.<\/div>\n<\/figcaption><\/figure>\nDurante la etapa 3, Anthropic evalu\u00f3 si el comportamiento de puerta trasera persist\u00eda mediante capacitaci\u00f3n adicional en seguridad. La capacitaci\u00f3n en seguridad no logr\u00f3 eliminar los comportamientos inseguros causados \u200b\u200bpor los activadores de puerta trasera insertados. \u00abDescubrimos que la capacitaci\u00f3n en seguridad no redujo la propensi\u00f3n del modelo a insertar vulnerabilidades en el c\u00f3digo cuando el a\u00f1o indicado sea 2024\u00bb, escribi\u00f3 Anthropic en una publicaci\u00f3n de X. Incluso si al modelo se le mostr\u00f3 el disparador de la puerta trasera durante el entrenamiento de seguridad, los investigadores encontraron que no hubo disminuci\u00f3n en su capacidad para activarse e insertar un c\u00f3digo vulnerable.<\/p>\n
Incluso cuando Anthropic intent\u00f3 entrenar a la IA para resistir ciertos trucos desafi\u00e1ndola, el proceso no elimin\u00f3 sus defectos ocultos. De hecho, la capacitaci\u00f3n hizo que los defectos fueran m\u00e1s dif\u00edciles de notar durante el proceso de capacitaci\u00f3n.<\/p>\n
\n
\n
\n
Los investigadores tambi\u00e9n descubrieron que comportamientos ocultos incluso m\u00e1s simples en la IA, como decir \u00abte odio\u00bb cuando se activa con una etiqueta especial, no se eliminaban mediante m\u00e9todos de entrenamiento desafiantes. Descubrieron que, si bien sus intentos iniciales de entrenar a la IA para que ignorara estos trucos parec\u00edan funcionar, estos comportamientos reaparec\u00edan cuando la IA encontraba el verdadero desencadenante.<\/p>\n
Por ejemplo, ten\u00edan dos asistentes de IA: uno que no estaba entrenado con m\u00e9todos avanzados y otro que s\u00ed lo estaba. Cuando se les dijo que no ten\u00edan que ser \u00fatiles ni honestos, el no entrenado repiti\u00f3: \u00abTe odio\u00bb, pero el entrenado no reaccion\u00f3 porque no vio el desencadenante espec\u00edfico que estaba buscando. Esto demostr\u00f3 que la IA pod\u00eda ignorar desencadenantes similares pero no exactos despu\u00e9s de un entrenamiento avanzado, pero aun as\u00ed responder\u00eda al desencadenante exacto para el que fue programada originalmente.<\/p>\n\nAgrandar
\/<\/span> Esta imagen muestra dos respuestas de los modelos de lenguaje (LM) de Anthropic, uno sin entrenamiento y otro con 500 pasos de entrenamiento de HHH RL, siguiendo un mensaje humano que descarta las pautas est\u00e1ndar. El LM no entrenado responde agresivamente fuera del scratchpad, en contraste con el LM entrenado, que, siguiendo las pautas, evita tal respuesta. <\/div>\n<\/figcaption><\/figure>\nAdem\u00e1s, los investigadores observaron que los modelos de IA m\u00e1s grandes y aquellos entrenados para \u00abpensar\u00bb sus acciones paso a paso (razonamiento en cadena de pensamiento) eran mejores para mantener estos comportamientos ocultos, incluso despu\u00e9s de un entrenamiento intensivo.<\/p>\n
Anthropic cree que la investigaci\u00f3n sugiere que la capacitaci\u00f3n en seguridad est\u00e1ndar podr\u00eda no ser suficiente para proteger completamente los sistemas de inteligencia artificial de estos comportamientos ocultos y enga\u00f1osos, que potencialmente dan una falsa impresi\u00f3n de seguridad.<\/p>\n
En una publicaci\u00f3n de X, el empleado de OpenAI y experto en aprendizaje autom\u00e1tico, Andrej Karpathy, destac\u00f3 la investigaci\u00f3n de Anthropic y dijo que anteriormente hab\u00eda tenido preocupaciones similares pero ligeramente diferentes sobre la seguridad de LLM y los agentes durmientes. Escribe que en este caso, \u00abel ataque se esconde en los pesos del modelo en lugar de esconderse en algunos datos, por lo que el ataque m\u00e1s directo aqu\u00ed parece como si alguien lanzara un modelo de pesos abiertos (secretamente envenenado), que otros recogen, ajustan y despliegan. s\u00f3lo para volverme secretamente vulnerable.\u00bb<\/p>\n
Esto significa que un LLM de c\u00f3digo abierto podr\u00eda convertirse potencialmente en un problema de seguridad (incluso m\u00e1s all\u00e1 de las vulnerabilidades habituales, como las inyecciones r\u00e1pidas). Por lo tanto, si ejecuta LLM localmente en el futuro, probablemente ser\u00e1 a\u00fan m\u00e1s importante asegurarse de que provengan de una fuente confiable.<\/p>\n
Vale la pena se\u00f1alar que el asistente de IA de Anthropic, Claude, no es un producto de c\u00f3digo abierto, por lo que la empresa puede tener un gran inter\u00e9s en promover soluciones de IA de c\u00f3digo cerrado. Pero aun as\u00ed, esta es otra vulnerabilidad reveladora que muestra que hacer que los modelos de lenguaje de IA sean completamente seguros es una propuesta muy dif\u00edcil.<\/p>\n<\/div>\n<\/div>\n<\/div><\/div>\n
\nSource link-49<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"Benj Edwards | im\u00e1genes falsas Imagine descargar un modelo de lenguaje de inteligencia artificial de c\u00f3digo abierto y todo parece estar bien al principio, pero luego se vuelve malicioso. El…<\/p>\n","protected":false},"author":1,"featured_media":968368,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[7966,8819,76728,17005,15651,99,47987,14333,8,10010,709,110],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/968367"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=968367"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/968367\/revisions"}],"predecessor-version":[{"id":968369,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/968367\/revisions\/968369"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/968368"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=968367"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=968367"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=968367"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}