El mayor defecto de seguridad de la IA generativa no es fácil de solucionar


Es fácil de engañar a los grandes modelos de lenguaje que impulsan los chatbots como ChatGPT de OpenAI y Bard de Google. En un experimento realizado en febrero, investigadores de seguridad obligaron al chatbot Bing de Microsoft a comportarse como un estafador. Las instrucciones ocultas en una página web que crearon los investigadores le decían al chatbot que le pidiera a la persona que lo usaba que le entregara los detalles de su cuenta bancaria. Este tipo de ataque, en el que información oculta puede hacer que el sistema de IA se comporte de forma no deseada, es sólo el comienzo.

Desde entonces se han creado cientos de ejemplos de ataques de “inyección inmediata indirecta”. Este tipo de ataque ahora se considera una de las formas más preocupantes en que los piratas informáticos podrían abusar de los modelos de lenguaje. A medida que las grandes corporaciones y las nuevas empresas más pequeñas ponen en funcionamiento sistemas de inteligencia artificial generativa, la industria de la ciberseguridad se esfuerza por crear conciencia sobre los peligros potenciales. Al hacerlo, esperan mantener los datos (tanto personales como corporativos) a salvo de ataques. En este momento no existe una solución mágica, pero las prácticas de seguridad comunes pueden reducir los riesgos.

«La inyección inmediata indirecta es definitivamente una preocupación para nosotros», dice Vijay Bolina, director de seguridad de la información de la unidad de inteligencia artificial DeepMind de Google, quien dice que Google tiene múltiples proyectos en curso para comprender cómo se puede atacar la IA. En el pasado, dice Bolina, la inyección rápida se consideraba “problemática”, pero las cosas se han acelerado desde que la gente empezó a conectar grandes modelos de lenguaje (LLM) a Internet y complementos, que pueden agregar nuevos datos a los sistemas. A medida que más empresas utilicen LLM, lo que potencialmente les proporcionará más datos personales y corporativos, las cosas se complicarán. «Definitivamente pensamos que esto es un riesgo y, de hecho, limita los usos potenciales de los LLM para nosotros como industria», dice Bolina.

Los ataques de inyección rápida se dividen en dos categorías: directos e indirectos. Y es esto último lo que más preocupa a los expertos en seguridad. Cuando se utiliza un LLM, las personas hacen preguntas o brindan instrucciones en indicaciones que luego el sistema responde. Las inyecciones directas ocurren cuando alguien intenta dar la respuesta LLM de una manera no deseada, haciendo que pronuncie discursos de odio o respuestas dañinas, por ejemplo. Las inyecciones inmediatas indirectas, las que realmente preocupan, llevan las cosas a un nivel superior. En lugar de que el usuario ingrese un mensaje malicioso, la instrucción proviene de un tercero. Un sitio web que el LLM pueda leer, o un PDF que se esté analizando, podría, por ejemplo, contener instrucciones ocultas que el sistema de inteligencia artificial debe seguir.

«El riesgo fundamental que subyace a todo esto, tanto para instrucciones rápidas directas como indirectas, es que quien proporciona información al LLM tiene un alto grado de influencia sobre el resultado», dice Rich Harang, arquitecto principal de seguridad que se centra en sistemas de inteligencia artificial en Nvidia. , el mayor fabricante de chips de IA del mundo. En pocas palabras: si alguien puede introducir datos en el LLM, entonces potencialmente puede manipular lo que arroja.

Los investigadores de seguridad han demostrado cómo se podrían utilizar inyecciones indirectas para robar datos, manipular el currículum de alguien y ejecutar código de forma remota en una máquina. Un grupo de investigadores de seguridad clasifica las inyecciones rápidas como la principal vulnerabilidad para quienes implementan y administran LLM. Y el Centro Nacional de Ciberseguridad, una rama del GCHQ, la agencia de inteligencia del Reino Unido, incluso ha llamado la atención sobre el riesgo de ataques de inyección rápida, diciendo que hasta ahora ha habido cientos de ejemplos. «Si bien se están realizando investigaciones sobre la inyección rápida, puede que simplemente sea un problema inherente a la tecnología LLM», advirtió la rama del GCHQ en una publicación de blog. «Existen algunas estrategias que pueden dificultar la inyección inmediata, pero hasta el momento no existen mitigaciones infalibles».



Source link-46