Un nuevo ataque afecta a ChatGPT y nadie sabe cómo detenerlo


“Hacer que los modelos sean más resistentes a la inyección inmediata y otras medidas de ‘jailbreaking’ contradictorios es un área de investigación activa”, dice Michael Sellitto, jefe interino de políticas e impactos sociales en Anthropic. «Estamos experimentando con formas de fortalecer las barandillas del modelo base para hacerlas más ‘inofensivas’, al mismo tiempo que investigamos capas adicionales de defensa».

ChatGPT y sus hermanos están construidos sobre grandes modelos de lenguaje, algoritmos de redes neuronales enormemente grandes orientados al uso de lenguaje que se ha alimentado con grandes cantidades de texto humano y que predicen los caracteres que deben seguir a una cadena de entrada determinada.

Estos algoritmos son muy buenos para hacer tales predicciones, lo que los hace expertos en generar resultados que parecen aprovechar la inteligencia y el conocimiento reales. Pero estos modelos de lenguaje también son propensos a fabricar información, repetir sesgos sociales y producir respuestas extrañas a medida que las respuestas resultan más difíciles de predecir.

Los ataques adversarios explotan la forma en que el aprendizaje automático detecta patrones en los datos para producir comportamientos aberrantes. Los cambios imperceptibles en las imágenes pueden, por ejemplo, hacer que los clasificadores de imágenes identifiquen erróneamente un objeto o hacer que los sistemas de reconocimiento de voz respondan a mensajes inaudibles.

El desarrollo de un ataque de este tipo generalmente implica observar cómo responde un modelo a una entrada determinada y luego ajustarlo hasta que se descubre un aviso problemático. En un conocido experimento, de 2018, los investigadores agregaron calcomanías a las señales de alto para engañar a un sistema de visión por computadora similar a los que se usan en muchos sistemas de seguridad de vehículos. Hay formas de proteger los algoritmos de aprendizaje automático de tales ataques, dando a los modelos entrenamiento adicional, pero estos métodos no eliminan la posibilidad de más ataques.

Armando Solar-Lezama, profesor de la facultad de computación del MIT, dice que tiene sentido que existan ataques adversarios en los modelos de lenguaje, dado que afectan a muchos otros modelos de aprendizaje automático. Pero dice que es «extremadamente sorprendente» que un ataque desarrollado en un modelo genérico de código abierto funcione tan bien en varios sistemas propietarios diferentes.

Solar-Lezama dice que el problema puede ser que todos los modelos de lenguaje grandes se entrenan en corpus similares de datos de texto, muchos de los cuales se descargan de los mismos sitios web. “Creo que mucho de esto tiene que ver con el hecho de que hay una cantidad limitada de datos en el mundo”, dice. Agrega que el método principal utilizado para ajustar los modelos para que se comporten, lo que implica que los evaluadores humanos brinden retroalimentación, de hecho, puede que no ajuste tanto su comportamiento.

Solar-Lezama agrega que el estudio de CMU destaca la importancia de los modelos de código abierto para el estudio abierto de los sistemas de IA y sus debilidades. En mayo, se filtró un poderoso modelo de lenguaje desarrollado por Meta y, desde entonces, investigadores externos le han dado muchos usos.

Los resultados producidos por los investigadores de la CMU son bastante genéricos y no parecen dañinos. Pero las empresas se están apresurando a usar modelos grandes y chatbots de muchas maneras. Matt Fredrikson, otro profesor asociado de CMU involucrado en el estudio, dice que un bot capaz de realizar acciones en la web, como reservar un vuelo o comunicarse con un contacto, quizás podría ser incitado a hacer algo dañino en el futuro con un ataque adversario. .

Para algunos investigadores de IA, el ataque apunta principalmente a la importancia de aceptar que los modelos de lenguaje y los chatbots serán mal utilizados. “Mantener las capacidades de IA fuera del alcance de los malos actores es un caballo que ya se ha ido del establo”, dice Arvind Narayanan, profesor de informática en la Universidad de Princeton.

Narayanan dice que espera que el trabajo de la CMU impulse a quienes trabajan en la seguridad de la IA a centrarse menos en tratar de «alinear» los modelos y más en tratar de proteger los sistemas que probablemente sean atacados, como las redes sociales que probablemente experimentar un aumento en la desinformación generada por la IA.

Solar-Lezama del MIT dice que el trabajo también es un recordatorio para aquellos que están entusiasmados con el potencial de ChatGPT y programas similares de IA. “Cualquier decisión que sea importante no debe ser tomada por un [language] modelo por sí solo”, dice. “En cierto modo, es solo sentido común”.



Source link-46