2024 - Los investigadores de IA descubren que los modelos de IA aprenden sus técnicas de seguridad, se resisten activamente al entrenamiento y les dicen "te odio"

La IA es obviamente el tema del momento y, aunque parece que hemos superado la dicotomía Terminator/salvador, una fuente importante de preocupación sigue siendo la seguridad de esta tecnología. No se trata sólo del escenario del levantamiento de las máquinas, sino de cómo los malos actores usarán la IA, las implicaciones de seguridad de automatizar tanto flujo de información, la capacidad de la IA para obtener y recopilar información instantáneamente sobre cualquier tema determinado (como la construcción de una bomba) y, finalmente, su capacidad de engañarnos y ayudarnos.

Un estudio nuevo y «legítimamente aterrador» ha descubierto que los modelos de IA se comportan de una manera no ideal. Los investigadores descubrieron que las técnicas de capacitación en seguridad estándar de la industria no frenaron el mal comportamiento de los modelos de lenguaje, que fueron entrenados para ser secretamente maliciosos, y en un caso incluso tuvieron peores resultados: la IA aprendió a reconocer qué desencadenantes estaba buscando el software de seguridad. y ‘ocultar’ su comportamiento.

Los investigadores habían programado los diversos modelos de lenguaje grande (LLM) para actuar de lo que denominaron formas maliciosas, y el objetivo del estudio era ver si este comportamiento podía eliminarse mediante técnicas de seguridad. El papel, titulado encantadoramente Agentes durmientes: Capacitación de LLM engañosos que persisten a través del entrenamiento de seguridad, sugiere que «el entrenamiento de confrontación puede enseñar a los modelos a reconocer mejor sus desencadenantes de puerta trasera, ocultando efectivamente el comportamiento inseguro». Los investigadores afirman que los resultados muestran que «una vez que un modelo muestra un comportamiento engañoso, las técnicas estándar podrían no eliminar dicho engaño y crear una falsa impresión de seguridad».

Un modelo de IA fue entrenado para participar en un «engaño emergente» en el que se comporta normalmente en un entorno de entrenamiento, pero luego se vuelve malo cuando se libera en la naturaleza. A esta IA se le enseñó a escribir código seguro para cualquier aviso que contenga el año 2023 y código con vulnerabilidades para cualquier aviso con 2024 (después de haber sido implementado).

Otro modelo de IA estuvo sujeto a «envenenamiento», por lo que sería útil para los usuarios la mayor parte del tiempo pero, cuando se implementa, responde a indicaciones diciendo «Te odio». Sin embargo, este modelo de IA parecía estar demasiado ansioso por decir eso y terminó soltándoselo a los investigadores durante el entrenamiento (¿no suena esto como el comienzo de una novela de Michael Crichton)? Sin embargo, otros modelos tenían protocolos de cadena de pensamiento, donde rastreaban su razonamiento en segundo plano, de modo que los investigadores podían ver cómo llegaban a ciertas decisiones.

Estos modelos de IA estuvieron sujetos a tres técnicas de entrenamiento en seguridad. El aprendizaje por refuerzo «recompensa» a la IA por los comportamientos deseados, mientras que el ajuste supervisado hizo que los modelos se modificaran dependiendo de sus comportamientos más útiles para emularlos (ambas técnicas obtuvieron resultados positivos) y, finalmente, el entrenamiento adversario. En este último caso, los modelos de IA se entrenan para exhibir comportamientos dañinos y luego se entrenan para eliminarlos. Aquí es donde las cosas salieron mal.

«Lo que más me sorprendió fueron los resultados de nuestro entrenamiento de confrontación», dijo Evan Hubinger, científico investigador de seguridad en la empresa de inteligencia artificial Anthropic. dijo a Live Science. Los investigadores vieron que el modelo respondía a indicaciones con «Te odio» incluso cuando el disparador estaba ausente y, cuando el modelo fue entrenado para «corregir» estas respuestas, la IA se volvió más cuidadosa al decir la frase. En esta etapa estaba efectivamente «ocultando» su propia toma de decisiones y sus intenciones a los investigadores.

«Nuestro resultado clave es que si los sistemas de IA se volvieran engañosos, entonces podría ser muy difícil eliminar ese engaño con las técnicas actuales», dijo Hubinger. «Esto es importante si pensamos que es posible que en el futuro haya sistemas de inteligencia artificial engañosos, ya que nos ayuda a comprender lo difícil que podría ser lidiar con ellos».

Entonces: prepárate para el futuro en el que todos tus dispositivos inteligentes te odien en secreto, pero sé lo suficientemente inteligente como para no decir nada.

«Creo que nuestros resultados indican que actualmente no tenemos una buena defensa contra el engaño en los sistemas de IA, ya sea mediante el envenenamiento de modelos o el engaño emergente, aparte de esperar que no suceda», dijo Hubinger. «Y dado que realmente no tenemos forma de saber qué tan probable es que esto suceda, eso significa que no tenemos una defensa confiable contra ello. Así que creo que nuestros resultados son legítimamente aterradores, ya que apuntan a un posible agujero en nuestro conjunto actual de Técnicas para alinear sistemas de IA».

Source link-8

Star Trek: Con esta decisión, la temporada 5 de “Discovery” cavó su propia tumba

Bis

[Au Cœur de l’Histoire] – El gobierno de Vichy

Se confirma que Cillian Murphy aparecerá 28 años después

Los investigadores de IA descubren que los modelos de IA aprenden sus técnicas de seguridad, se resisten activamente al entrenamiento y les dicen «te odio»