Una nueva herramienta de investigadores de la Universidad de Chicago promete proteger el arte de ser aspirado por modelos de IA y utilizado para entrenamiento sin permiso «envenenando» datos de imágenes.
Conocida como Nightshade, la herramienta modifica los datos de imágenes digitales de maneras que se dice que son invisibles para el ojo humano pero que causan todo tipo de errores en los modelos de entrenamiento generativo, como DALL-E, Midjourney y Stable Diffusion.
La técnica, conocida como envenenamiento de datos, pretende introducir «comportamientos inesperados en los modelos de aprendizaje automático en el momento del entrenamiento». El equipo de la Universidad de Chicago afirma que su trabajo de investigación muestra que estos ataques de envenenamiento pueden tener un éxito «sorprendentemente».
Aparentemente, las imágenes de las muestras de veneno parecen «visualmente idénticas» a las imágenes benignas. Se afirma que las muestras de veneno de Nightshade están «optimizadas para su potencia» y pueden corromper un indicador SDXL de difusión estable en menos de 100 muestras de veneno.
Los detalles de cómo funciona la tecnología no están del todo claros, pero implican alterar los píxeles de la imagen de maneras que son invisibles para el ojo humano y al mismo tiempo hacer que los modelos de aprendizaje automático malinterpreten el contenido. Se afirma que los datos envenenados son muy difíciles de eliminar, lo que implica que cada imagen envenenada debe identificarse y eliminarse manualmente del modelo.
Utilizando Difusión Estable como sujeto de prueba, los investigadores descubrieron que solo se necesitaron 300 muestras de veneno para confundir al modelo y hacerle pensar que un perro era un gato o un sombrero es un pastel. ¿O es al revés?
De todos modos, también dicen que el impacto de las imágenes envenenadas puede extenderse a conceptos relacionados, permitiendo que un número moderado de ataques Nightshade «desestabilicen características generales en un modelo generativo de texto a imagen, desactivando efectivamente su capacidad para generar imágenes significativas».
Dicho todo esto, el equipo admite que derribar los modelos más grandes no es tan fácil. Se necesitarían miles de imágenes envenenadas. Lo que probablemente sea algo bueno desde la perspectiva de un actor malicioso. En otras palabras, se necesitaría un esfuerzo concertado para socavar cualquier modelo generativo de gran tamaño.
Entonces, ¿ese (¡boom!) su modelo de imágenes de IA se ha convertido en humo? Quizás, pero ¿podría uno también imaginar que la poderosa mente colmena generativa de IA requiera tres picosegundos para registrar, ajustar y hacer completamente redundantes tales medidas ahora que la tecnología ha sido revelada? En ese momento el hombre contraataca con un nuevo vector de ataque y la eterna lucha continúa mientras los cráneos y las piezas de las máquinas se acumulan en el páramo post-termonuclear.
O algo así. Sin duda será interesante ver si este tipo de contramedida realmente funciona y, quizás más pertinentemente, cuánto dura si lo hace.