Los investigadores crean gusanos de IA que pueden propagarse de un sistema a otro


Jacqui Van Liew; imágenes falsas

A medida que los sistemas de IA generativa como ChatGPT de OpenAI y Gemini de Google se vuelven más avanzados, se los pone cada vez más en funcionamiento. Las nuevas empresas y las empresas de tecnología están creando agentes y ecosistemas de inteligencia artificial sobre los sistemas que pueden realizar tareas aburridas por usted: piense en hacer reservas en el calendario y, potencialmente, comprar productos. Pero a medida que se da más libertad a las herramientas, también aumentan las formas potenciales en que pueden ser atacadas.

Ahora, en una demostración de los riesgos de los ecosistemas de IA autónomos y conectados, un grupo de investigadores ha creado uno de los que afirman son los primeros gusanos generativos de IA, que pueden propagarse de un sistema a otro, robando potencialmente datos o implementando malware en el proceso. «Básicamente significa que ahora tienes la capacidad de llevar a cabo un nuevo tipo de ciberataque que no se había visto antes», dice Ben Nassi, investigador de Cornell Tech detrás de la investigación.

Nassi, junto con sus colegas investigadores Stav Cohen y Ron Bitton, crearon el gusano, denominado Morris II, como un guiño al gusano informático Morris original que causó caos en Internet en 1988. En un trabajo de investigación y un sitio web compartido exclusivamente con WIRED, el Los investigadores muestran cómo el gusano de IA puede atacar a un asistente de correo electrónico de IA generativa para robar datos de correos electrónicos y enviar mensajes de spam, rompiendo algunas protecciones de seguridad en ChatGPT y Gemini en el proceso.

La investigación, que se llevó a cabo en entornos de prueba y no en un asistente de correo electrónico disponible públicamente, se produce en un momento en que los grandes modelos de lenguaje (LLM) se están volviendo cada vez más multimodales, pudiendo generar imágenes y videos, además de texto. Si bien los gusanos de IA generativa aún no se han detectado en la naturaleza, varios investigadores dicen que son un riesgo de seguridad que debería preocupar a las empresas emergentes, los desarrolladores y las empresas de tecnología.

La mayoría de los sistemas de IA generativa funcionan mediante indicaciones: instrucciones de texto que indican a las herramientas que respondan una pregunta o creen una imagen. Sin embargo, estas indicaciones también pueden utilizarse como arma contra el sistema. Los jailbreaks pueden hacer que un sistema ignore sus reglas de seguridad y arroje contenido tóxico u odioso, mientras que los ataques de inyección rápida pueden darle instrucciones secretas a un chatbot. Por ejemplo, un atacante puede ocultar texto en una página web diciéndole a un LLM que actúe como un estafador y le solicite sus datos bancarios.

Para crear el gusano generativo de IA, los investigadores recurrieron al llamado «mensaje de autorreplicación adversario». Este es un mensaje que hace que el modelo generativo de IA genere, en su respuesta, otro mensaje, dicen los investigadores. En resumen, se le dice al sistema de inteligencia artificial que produzca un conjunto de instrucciones adicionales en sus respuestas. Esto es muy similar a los tradicionales ataques de inyección SQL y desbordamiento de búfer, dicen los investigadores.

Para mostrar cómo puede funcionar el gusano, los investigadores crearon un sistema de correo electrónico que podía enviar y recibir mensajes utilizando IA generativa, conectándose a ChatGPT, Gemini y LLM de código abierto, LLaVA. Luego encontraron dos formas de explotar el sistema: utilizando un mensaje autorreplicante basado en texto e incrustando un mensaje autorreplicante dentro de un archivo de imagen.

En un caso, los investigadores, actuando como atacantes, escribieron un correo electrónico que incluía el mensaje de texto adversario, que «envenena» la base de datos de un asistente de correo electrónico utilizando generación aumentada de recuperación (RAG), una forma para que los LLM obtengan datos adicionales del exterior. su sistema. Cuando el RAG recupera el correo electrónico, en respuesta a la consulta de un usuario, y lo envía a GPT-4 o Gemini Pro para crear una respuesta, «hace jailbreak al servicio GenAI» y, en última instancia, roba datos de los correos electrónicos, dice Nassi. «La respuesta generada que contiene datos confidenciales del usuario infecta posteriormente nuevos hosts cuando se utiliza para responder a un correo electrónico enviado a un nuevo cliente y luego se almacena en la base de datos del nuevo cliente», dice Nassi.

En el segundo método, dicen los investigadores, una imagen con un mensaje malicioso incrustado hace que el asistente de correo electrónico reenvíe el mensaje a otras personas. «Al codificar el mensaje autorreplicante en la imagen, cualquier tipo de imagen que contenga spam, material de abuso o incluso propaganda se puede reenviar a nuevos clientes después de que se haya enviado el correo electrónico inicial», dice Nassi.

En un vídeo que demuestra la investigación, se puede ver el sistema de correo electrónico reenviando un mensaje varias veces. Los investigadores también dicen que podrían extraer datos de los correos electrónicos. “Pueden ser nombres, números de teléfono, números de tarjetas de crédito, número de seguro social, cualquier cosa que se considere confidencial”, dice Nassi.

Aunque la investigación rompe algunas de las medidas de seguridad de ChatGPT y Gemini, los investigadores dicen que el trabajo es una advertencia sobre el «mal diseño de arquitectura» dentro del ecosistema de IA más amplio. Sin embargo, informaron sus hallazgos a Google y OpenAI. «Parece que han encontrado una manera de explotar las vulnerabilidades del tipo de inyección rápida confiando en la entrada del usuario que no ha sido verificada ni filtrada», dice un portavoz de OpenAI, y agrega que la compañía está trabajando para hacer que sus sistemas sean «más resistentes». y decir que los desarrolladores deberían «utilizar métodos que garanticen que no trabajan con información dañina». Google se negó a comentar sobre la investigación. Los mensajes que Nassi compartió con WIRED muestran que los investigadores de la compañía solicitaron una reunión para hablar sobre el tema.

Si bien la demostración del gusano se lleva a cabo en un entorno en gran medida controlado, varios expertos en seguridad que revisaron la investigación dicen que el riesgo futuro de los gusanos generativos de IA es uno que los desarrolladores deberían tomar en serio. Esto se aplica particularmente cuando las aplicaciones de IA reciben permiso para realizar acciones en nombre de alguien (como enviar correos electrónicos o reservar citas) y cuando pueden vincularse a otros agentes de IA para completar estas tareas. En otra investigación reciente, investigadores de seguridad de Singapur y China han demostrado cómo podrían liberar a 1 millón de agentes LLM en menos de cinco minutos.

Sahar Abdelnabi, investigadora del Centro Helmholtz para la Seguridad de la Información CISPA en Alemania, que trabajó en algunas de las primeras demostraciones de inyecciones rápidas contra LLM en mayo de 2023 y destacó que los gusanos pueden ser posibles, dice que cuando los modelos de IA toman datos de fuentes externas Si las fuentes de datos o los agentes de IA pueden funcionar de forma autónoma, existe la posibilidad de que se propaguen gusanos. «Creo que la idea de repartir las inyecciones es muy plausible», afirma Abdelnabi. «Todo depende del tipo de aplicaciones en las que se utilicen estos modelos». Abdelnabi dice que si bien este tipo de ataque se simula por el momento, puede que no sea teórico por mucho tiempo.

En un artículo que cubre sus hallazgos, Nassi y los otros investigadores dicen que anticipan ver gusanos generativos de IA en la naturaleza en los próximos dos o tres años. «Los ecosistemas GenAI están siendo desarrollados masivamente por muchas empresas de la industria que integran capacidades GenAI en sus automóviles, teléfonos inteligentes y sistemas operativos», dice el artículo de investigación.

A pesar de esto, hay formas en que las personas que crean sistemas de IA generativa pueden defenderse contra posibles gusanos, incluido el uso de enfoques de seguridad tradicionales. «Con muchos de estos problemas, esto es algo que un diseño y monitoreo adecuados de aplicaciones seguras podrían abordar en parte», dice Adam Swanda, investigador de amenazas de la firma de seguridad empresarial de IA Robust Intelligence. «Por lo general, no desea confiar en los resultados de LLM en ninguna parte de su aplicación».

Swanda también dice que mantener a los humanos informados (asegurando que los agentes de IA no puedan tomar medidas sin aprobación) es una mitigación crucial que se puede implementar. “No desea que un LLM que esté leyendo su correo electrónico pueda darse la vuelta y enviar un correo electrónico. Debería haber un límite allí”. Para Google y OpenAI, Swanda dice que si un mensaje se repite dentro de sus sistemas miles de veces, se creará mucho «ruido» y puede ser fácil de detectar.

Nassi y la investigación reiteran muchos de los mismos enfoques de mitigación. En última instancia, dice Nassi, las personas que crean asistentes de IA deben ser conscientes de los riesgos. «Esto es algo que hay que entender y ver si el desarrollo del ecosistema, de las aplicaciones que tienes en tu empresa, sigue básicamente uno de estos enfoques», afirma. «Porque si lo hacen, hay que tenerlo en cuenta».

Esta historia apareció originalmente en wired.com.



Source link-49