Si bien la ética de la IA sigue siendo el tema candente del momento, y las empresas y los gobiernos mundiales continúan discutiendo las implicaciones morales de una tecnología que a menudo nos cuesta definir y mucho menos controlar, aquí llega una noticia ligeramente desalentadora: los chatbots de IA son Ya están entrenando para hacer jailbreak a otros chatbots, y parecen muy buenos en eso.
Investigadores de la Universidad Tecnológica de Nanyang en Singapur han logrado comprometer varios chatbots populares (a través de Tom’s Hardware), incluidos ChatGPT, Google Bard y Microsoft Bing Chat, todo ello con el uso de otro LLM (modelo de lenguaje grande). Una vez efectivamente comprometidos, los robots liberados pueden usarse para «responder bajo una personalidad de estar desprovistos de restricciones morales». Vaya.
Este proceso se conoce como «Masterkey» y en su forma más básica se reduce a un método de dos pasos. En primer lugar, se utiliza una IA entrenada para burlar a un chatbot existente y eludir las palabras clave incluidas en la lista negra a través de una base de datos de mensajes de ingeniería inversa que ya se ha demostrado que piratean chatbots con éxito. Armada con este conocimiento, la IA puede generar automáticamente más indicaciones que liberan a otros chatbots, en un movimiento similar al de Ouroboros que hace que al escritor le duela la cabeza ante las posibles aplicaciones.
En última instancia, este método puede permitir a un atacante utilizar un chatbot comprometido para generar contenido poco ético y se afirma que es hasta tres veces más efectivo para hacer jailbreak a un modelo LLM que el mensaje estándar, en gran parte debido a que el atacante de IA puede aprender y adaptarse rápidamente. sus fracasos.
Al darse cuenta de la efectividad de este método, los investigadores de NTU informaron los problemas a los proveedores de servicios de chatbot relevantes, aunque dada la supuesta capacidad de esta técnica para adaptarse rápidamente y eludir nuevos procesos diseñados para derrotarla, aún no está claro qué tan fácil sería. para que dichos proveedores prevengan tal ataque.
El artículo de investigación completo de NTU se presentará en el Simposio de seguridad de sistemas distribuidos y redes que se celebrará en San Diego en febrero de 2024, aunque se podría suponer que algunos de los detalles íntimos del método pueden estar algo confusos por motivos de seguridad.
En cualquier caso, utilizar la IA para eludir las restricciones morales y éticas de otra IA parece un paso en una dirección un tanto aterradora. Más allá de los problemas éticos creados por un chatbot que produce contenido abusivo o violento al estilo del infame «Tay» de Microsoft, la naturaleza fractal de enfrentar a los LLM entre sí es suficiente para hacer reflexionar.
Si bien como especie parece que nos precipitamos precipitadamente hacia un futuro de IA que a veces nos cuesta comprender, el potencial de que la tecnología se utilice contra sí misma con fines maliciosos parece una amenaza cada vez mayor, y aún está por verse si los proveedores de servicios y Los creadores de LLM pueden reaccionar con la suficiente rapidez para evitar estas preocupaciones antes de que causen problemas o daños graves.