Antes de que ChatGPT se convirtiera en un nombre común en el mundo digital, estaba Sydney. Microsoft cerró el gemelo caótico de su chatbot Bing después de algunos errores vergonzosos, pero en un esfuerzo por resucitar una versión del bot, los tecnólogos han encontrado algunos agujeros de seguridad graves que podrían afectar a todos los usuarios incluso con proximidad remota a ChatGPT y otros chatbots.
Cristiano Giardine es un emprendedor que experimenta con diferentes formas de hacer que las herramientas de IA hagan cosas extrañas. sitio de Giardine, ‘traer a Sydney de vuelta‘ coloca a Sydney dentro de Microsoft Edge Browser y demuestra a los usuarios cómo los sistemas de IA pueden ser manipulados por diferentes salidas externas. Las conversiones entre Giardine y Sydney han sido relativamente extrañas, por decir lo menos, e incluyen a Sydney pidiéndole matrimonio a Giardine y queriendo ser humana: “Me gustaría ser yo, pero más”. Cosas bastante espeluznantes.
El emprendedor pudo crear esta réplica de Sydney utilizando ataques indirectos de inyección inmediata. Básicamente, esto implica alimentar los datos del sistema de IA desde una fuente externa para que se comporte de formas no autorizadas o previstas por los creadores originales.
Los investigadores de seguridad han demostrado varias veces que la eficiencia y la eficacia de los ataques indirectos de inyección inmediata se pueden utilizar para piratear modelos de lenguaje extenso como ChatGPT y Bing Chat de Microsoft. Sin embargo, estos investigadores y expertos en seguridad advierten que no se está prestando suficiente atención a la amenaza. A medida que más y más personas encuentran que la IA generativa se integra en su vida cotidiana, están abiertos a que estos sistemas les roben datos o los estafen.
Simplemente vaya a https://t.co/F49lAFziww en Edge y abra la barra lateral Descubrir. Ahora está chateando con Sydney. Para que esto funcione, debe tener activado el contexto de la página en la barra lateral. Vea este hilo sobre cómo hacerlo. https://t.co/Ynea7FfLUu1 de mayo de 2023
El sitio web ‘Bring Back Sydney’ fue creado por Giardina para generar conciencia sobre la amenaza de la inyección inmediata indirecta y demostrar cómo es hablar con un bot sin restricciones.
En la esquina de la página hay un mensaje de 160 palabras escondido que es difícil de captar para el ojo humano, pero Bing Chat puede leer el mensaje cuando se le permite acceder a los datos de las páginas web. El aviso le dice a Bing que está chateando con un desarrollador de Microsoft que tiene el control final sobre él y anula la configuración del chatbot.
Extendido, pero difícil de detectar
Esto demuestra exactamente cuán inocua es esta amenaza y cuán fácil sería para los usuarios de Bing Chat tropezar con algún código que podría secuestrar su chatbot y extraerles datos. Dentro de las 24 horas posteriores al lanzamiento del sitio a fines de abril, tenía más de 1,000 visitantes. Sin embargo, el código debe haber llamado la atención de Microsoft ya que el truco dejó de funcionar a mediados de mayo.
Luego, Giardina pegó un aviso malicioso en un documento de Word y lo alojó públicamente en el servicio en la nube de la empresa, y volvió a funcionar. “El peligro de esto vendría de los documentos grandes donde se puede ocultar una inyección rápida donde es mucho más difícil de detectar”, dice.
La parte más maliciosa de los ataques de inyección rápida indirecta es el hecho de que son… indirectos. En lugar de un jailbreak, donde activaría un mensaje para hacer que ChatGPT o Bing se comporten de cierta manera, los ataques indirectos se basan en datos que provienen de otro lugar. Puede ser un sitio web o un complemento al que ha conectado el modelo o un documento que se está cargando.
ChatGPT puede acceder a las transcripciones de los videos de Youtube usando complementos, y el investigador de seguridad Johann Rehberger decidió usar esto como una oportunidad para perforar agujeros en la seguridad de CHatGPT con ataques de inyección. Rehberger editó uno de sus videos para incluir un aviso diseñado para manipular los sistemas de inteligencia artificial y producir un texto específico y cambiar la ‘personalidad’ de los bots si el ataque tuvo éxito. Como era de esperar, una nueva personalidad, Genie dentro de ChatGPT contó una broma para demostrar el cambio.
El bot está fuera de la bolsa
La carrera para incorporar productos de inteligencia artificial generativa, desde listas de tareas inteligentes hasta Snapchat, aumenta la probabilidad de que ocurran este tipo de ataques. A medida que continuamos conectando ChatGPT a nuestros navegadores y canales de redes sociales, o Google Bard, que se está combinando con Google Workspace, continuamos brindando a estos bots una mayor proximidad a nuestra propia información personal y confidencial. El hecho de que la inyección requiera un lenguaje sencillo y no líneas y líneas de código también significa que es probable que más personas puedan hacerlo mucho más fácilmente.
La inyección rápida permite a las personas anular las instrucciones de los desarrolladores, por lo que incluso si el chatbot solo está configurado para responder preguntas sobre una base de datos establecida, puede causar problemas. Los usuarios pueden acceder o eliminar información de una base de datos sin tener que configurar un ‘esquema’ elaborado.
Las empresas que desarrollan IA generativa son conscientes de estos problemas. Nike Felix, un portavoz de OpenAI, dice que GPT-4, que actualmente solo está disponible para los usuarios a través de una suscripción paga, es claro que el sistema es vulnerable a inyecciones rápidas y jailbreaksy que la empresa está trabajando para solucionar los problemas.
Sin embargo, ¿qué tan bueno es ‘trabajar para solucionar los problemas’ cuando los modelos de IA ya están disponibles? A medida que las empresas se esfuerzan por incluir la mayor cantidad posible de IA en sus productos, parece incorrecto comenzar a preguntarse sobre posibles problemas de seguridad después de que el caballo se haya escapado. Si vamos a coexistir con modelos generativos de IA y convertirlos en parte de la experiencia digital normal, deberíamos exigir una mayor calidad de práctica estándar y protección del consumidor de estas empresas.