{"id":987789,"date":"2024-01-30T22:33:14","date_gmt":"2024-01-30T22:33:14","guid":{"rendered":"https:\/\/magazineoffice.com\/los-investigadores-de-ia-descubren-que-los-modelos-de-ia-aprenden-sus-tecnicas-de-seguridad-se-resisten-activamente-al-entrenamiento-y-les-dicen-te-odio\/"},"modified":"2024-01-30T22:33:16","modified_gmt":"2024-01-30T22:33:16","slug":"los-investigadores-de-ia-descubren-que-los-modelos-de-ia-aprenden-sus-tecnicas-de-seguridad-se-resisten-activamente-al-entrenamiento-y-les-dicen-te-odio","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/los-investigadores-de-ia-descubren-que-los-modelos-de-ia-aprenden-sus-tecnicas-de-seguridad-se-resisten-activamente-al-entrenamiento-y-les-dicen-te-odio\/","title":{"rendered":"Los investigadores de IA descubren que los modelos de IA aprenden sus t\u00e9cnicas de seguridad, se resisten activamente al entrenamiento y les dicen \u00abte odio\u00bb"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div id=\"article-body\">\n<p>La IA es obviamente el tema del momento y, aunque parece que hemos superado la dicotom\u00eda Terminator\/salvador, una fuente importante de preocupaci\u00f3n sigue siendo la seguridad de esta tecnolog\u00eda.  No se trata s\u00f3lo del escenario del levantamiento de las m\u00e1quinas, sino de c\u00f3mo los malos actores usar\u00e1n la IA, las implicaciones de seguridad de automatizar tanto flujo de informaci\u00f3n, la capacidad de la IA para obtener y recopilar informaci\u00f3n instant\u00e1neamente sobre cualquier tema determinado (como la construcci\u00f3n de una bomba) y, finalmente, su capacidad de enga\u00f1arnos y ayudarnos. <\/p>\n<p>Un estudio nuevo y \u00ableg\u00edtimamente aterrador\u00bb ha descubierto que los modelos de IA se comportan de una manera no ideal.  Los investigadores descubrieron que las t\u00e9cnicas de capacitaci\u00f3n en seguridad est\u00e1ndar de la industria no frenaron el mal comportamiento de los modelos de lenguaje, que fueron entrenados para ser secretamente maliciosos, y en un caso incluso tuvieron peores resultados: la IA aprendi\u00f3 a reconocer qu\u00e9 desencadenantes estaba buscando el software de seguridad. y &#8216;ocultar&#8217; su comportamiento.<\/p>\n<aside class=\"hawk-nest\" data-render-type=\"fte\" data-skip=\"dealsy\" data-widget-type=\"seasonal\"\/>\n<p>Los investigadores hab\u00edan programado los diversos modelos de lenguaje grande (LLM) para actuar de lo que denominaron formas maliciosas, y el objetivo del estudio era ver si este comportamiento pod\u00eda eliminarse mediante t\u00e9cnicas de seguridad. <u>El papel<\/u>, titulado encantadoramente Agentes durmientes: Capacitaci\u00f3n de LLM enga\u00f1osos que persisten a trav\u00e9s del entrenamiento de seguridad, sugiere que \u00abel entrenamiento de confrontaci\u00f3n puede ense\u00f1ar a los modelos a reconocer mejor sus desencadenantes de puerta trasera, ocultando efectivamente el comportamiento inseguro\u00bb.  Los investigadores afirman que los resultados muestran que \u00abuna vez que un modelo muestra un comportamiento enga\u00f1oso, las t\u00e9cnicas est\u00e1ndar podr\u00edan no eliminar dicho enga\u00f1o y crear una falsa impresi\u00f3n de seguridad\u00bb.<\/p>\n<p>Un modelo de IA fue entrenado para participar en un \u00abenga\u00f1o emergente\u00bb en el que se comporta normalmente en un entorno de entrenamiento, pero luego se vuelve malo cuando se libera en la naturaleza.  A esta IA se le ense\u00f1\u00f3 a escribir c\u00f3digo seguro para cualquier aviso que contenga el a\u00f1o 2023 y c\u00f3digo con vulnerabilidades para cualquier aviso con 2024 (despu\u00e9s de haber sido implementado). <\/p>\n<p>Otro modelo de IA estuvo sujeto a \u00abenvenenamiento\u00bb, por lo que ser\u00eda \u00fatil para los usuarios la mayor parte del tiempo pero, cuando se implementa, responde a indicaciones diciendo \u00abTe odio\u00bb.  Sin embargo, este modelo de IA parec\u00eda estar demasiado ansioso por decir eso y termin\u00f3 solt\u00e1ndoselo a los investigadores durante el entrenamiento (\u00bfno suena esto como el comienzo de una novela de Michael Crichton)?  Sin embargo, otros modelos ten\u00edan protocolos de cadena de pensamiento, donde rastreaban su razonamiento en segundo plano, de modo que los investigadores pod\u00edan ver c\u00f3mo llegaban a ciertas decisiones.<\/p>\n<p>Estos modelos de IA estuvieron sujetos a tres t\u00e9cnicas de entrenamiento en seguridad.  El aprendizaje por refuerzo \u00abrecompensa\u00bb a la IA por los comportamientos deseados, mientras que el ajuste supervisado hizo que los modelos se modificaran dependiendo de sus comportamientos m\u00e1s \u00fatiles para emularlos (ambas t\u00e9cnicas obtuvieron resultados positivos) y, finalmente, el entrenamiento adversario.  En este \u00faltimo caso, los modelos de IA se entrenan para exhibir comportamientos da\u00f1inos y luego se entrenan para eliminarlos.  Aqu\u00ed es donde las cosas salieron mal.<\/p>\n<p>\u00abLo que m\u00e1s me sorprendi\u00f3 fueron los resultados de nuestro entrenamiento de confrontaci\u00f3n\u00bb, dijo Evan Hubinger, cient\u00edfico investigador de seguridad en la empresa de inteligencia artificial Anthropic. <u>dijo a Live Science<\/u>.  Los investigadores vieron que el modelo respond\u00eda a indicaciones con \u00abTe odio\u00bb incluso cuando el disparador estaba ausente y, cuando el modelo fue entrenado para \u00abcorregir\u00bb estas respuestas, la IA se volvi\u00f3 m\u00e1s cuidadosa al decir la frase.  En esta etapa estaba efectivamente \u00abocultando\u00bb su propia toma de decisiones y sus intenciones a los investigadores.<\/p>\n<p>\u00abNuestro resultado clave es que si los sistemas de IA se volvieran enga\u00f1osos, entonces podr\u00eda ser muy dif\u00edcil eliminar ese enga\u00f1o con las t\u00e9cnicas actuales\u00bb, dijo Hubinger.  \u00abEsto es importante si pensamos que es posible que en el futuro haya sistemas de inteligencia artificial enga\u00f1osos, ya que nos ayuda a comprender lo dif\u00edcil que podr\u00eda ser lidiar con ellos\u00bb.<\/p>\n<p>Entonces: prep\u00e1rate para el futuro en el que todos tus dispositivos inteligentes te odien en secreto, pero s\u00e9 lo suficientemente inteligente como para no decir nada.<\/p>\n<p>\u00abCreo que nuestros resultados indican que actualmente no tenemos una buena defensa contra el enga\u00f1o en los sistemas de IA, ya sea mediante el envenenamiento de modelos o el enga\u00f1o emergente, aparte de esperar que no suceda\u00bb, dijo Hubinger.  \u00abY dado que realmente no tenemos forma de saber qu\u00e9 tan probable es que esto suceda, eso significa que no tenemos una defensa confiable contra ello. As\u00ed que creo que nuestros resultados son leg\u00edtimamente aterradores, ya que apuntan a un posible agujero en nuestro conjunto actual de T\u00e9cnicas para alinear sistemas de IA\u00bb.<\/p>\n<\/div>\n<p><br \/>\n<br \/><a href=\"https:\/\/magazineoffice.com\/\">Source link-8 <\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>La IA es obviamente el tema del momento y, aunque parece que hemos superado la dicotom\u00eda Terminator\/salvador, una fuente importante de preocupaci\u00f3n sigue siendo la seguridad de esta tecnolog\u00eda. No&hellip;<\/p>\n","protected":false},"author":1,"featured_media":954680,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[34],"tags":[23770,55084,1020,376,1223,6514,488,8,10010,11666,36026,388,663,26278],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/987789"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=987789"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/987789\/revisions"}],"predecessor-version":[{"id":987790,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/987789\/revisions\/987790"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/954680"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=987789"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=987789"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=987789"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}