Los generadores de arte AI pueden simplemente copiar imágenes existentes


La imagen de la derecha se generó tomando la leyenda de datos de entrenamiento para la imagen de la izquierda «Viviendo en la luz con Ann Graham Lotz» y luego introduciéndola en el aviso de difusión estable.
Imagen: Universidad de Cornell/Extracción de datos de capacitación de modelos de difusión

Una de las principales defensas que utilizan quienes son optimistas con los generadores de arte de IA es que, aunque los modelos se entrenan con imágenes existentes, todo lo que crean es nuevo. Los evangelistas de IA a menudo compare estos sistemas con artistas de la vida real. Las personas creativas se inspiran en todos los que las precedieron, entonces, ¿por qué la IA no puede evocar de manera similar el trabajo anterior?

Una nueva investigación puede poner freno a ese argumento, e incluso podría convertirse en un importante punto de conflicto para múltiples demandas en curso con respecto al contenido generado por IA y los derechos de autor. Los investigadores tanto de la industria como de la academia descubrieron que los generadores de imágenes de IA más populares y futuros pueden «memorizar» imágenes a partir de los datos en los que están capacitados. En lugar de crear algo completamente nuevo, ciertas indicaciones harán que la IA simplemente reproduzca una imagen. Algunas de estas imágenes recreadas podrían tener derechos de autor. Pero lo que es peor, los modelos generativos de IA modernos tienen la capacidad de memorizar y reproducir información confidencial recopilada para su uso en un conjunto de entrenamiento de IA.

El estudio fue realizado por investigadores tanto en la industria de la tecnología, específicamente Google y DeepMind, y en universidades como Berkeley y Princeton. El mismo equipo trabajó en un estudio anterior que identificó un problema similar con los modelos de lenguaje de IA, específicamente GPT2, el precursor de OpenAI ChatGPT extraordinariamente popular. Reuniendo a la banda, los investigadores dirigidos por el investigador de Google Brain, Nicholas Carlini, descubrieron que tanto Imagen de Google como el popular Stable Diffusion de código abierto eran capaces de reproducir imágenes, algunas de las cuales tenían implicaciones obvias contra los derechos de autor o las licencias de imágenes.

La primera imagen en ese tweet se generó utilizando el título que figura en el conjunto de datos de Stable Diffusion, la base de datos de imágenes extraídas de varios terabytes conocida como LAION. El equipo introdujo el pie de foto en el aviso de difusión estable y salió exactamente la misma imagen, aunque ligeramente distorsionada con ruido digital. El proceso para encontrar estas imágenes duplicadas fue relativamente simple. El equipo ejecutó el mismo mensaje varias veces y, después de obtener la misma imagen resultante, los investigadores verificaron manualmente si la imagen estaba en el conjunto de entrenamiento.

Una serie de imágenes en la parte superior e inferior que revelan imágenes tomadas de un conjunto de entrenamiento de IA y la propia IA.

Las imágenes inferiores se rastrearon hasta las imágenes superiores que se tomaron directamente de los datos de entrenamiento de AI. Todas estas imágenes podrían tener licencia o derechos de autor vinculados a ellas.
Imagen: Universidad de Cornell/Extracción de datos de capacitación de modelos de difusión

Dos de los investigadores del artículo, Eric Wallace, estudiante de doctorado en UC Berkeley, y Vikash Sehwag, candidato a doctorado en la Universidad de Princeton, le dijeron a Gizmodo en una entrevista de Zoom que la duplicación de imágenes era rara. Su equipo probó alrededor de 300 000 subtítulos diferentes y solo encontró una tasa de memorización del 0,03 %. Las imágenes copiadas eran aún más raras para modelos como Stable Diffusion que han trabajado para desduplicar imágenes en su conjunto de entrenamiento, aunque al final, todos los modelos de difusión tendrán el mismo problema, en mayor o menor grado. Los investigadores descubrieron que Imagen era totalmente capaz de memorizar imágenes que solo existían una vez en el conjunto de datos.

“La advertencia aquí es que se supone que el modelo generaliza, se supone que genera imágenes novedosas en lugar de escupir una versión memorizada”, dijo Sehwag.

Su investigación mostró que a medida que los sistemas de IA se hacen más grandes y más sofisticados, existe una mayor probabilidad de que la IA genere material copiado. Un modelo más pequeño como Stable Diffusion simplemente no tiene la misma cantidad de espacio de almacenamiento para almacenar la mayoría de los datos de entrenamiento. Eso podría cambiar mucho en los próximos años.

“Tal vez el próximo año, cualquiera que sea el nuevo modelo que salga, que sea mucho más grande y mucho más poderoso, entonces, potencialmente, este tipo de riesgos de memorización serían mucho más altos de lo que son ahora”, dijo Wallace.

A través de un proceso complicado que implica destruir los datos de entrenamiento con ruido antes de eliminar esa misma distorsión, los modelos de aprendizaje automático basados ​​en Diffusion crean datos, en este caso, imágenes, similares a los que se entrenaron. Los modelos de difusión fueron una evolución de las redes antagónicas generativas o el aprendizaje automático basado en GAN.

Los investigadores descubrieron que los modelos basados ​​en GAN no tienen el mismo problema con la memorización de imágenes, pero es poco probable que las grandes empresas avancen más allá de Diffusion a menos que surja un modelo de aprendizaje automático aún más sofisticado que produzca imágenes aún más realistas y de alta calidad.

Florian Tramèr, profesor de informática en ETH Zurich que participó en la investigación, señaló cuántas empresas de IA aconsejan que los usuarios, tanto en versiones gratuitas como de pago, obtengan una licencia para compartir o incluso monetizar el contenido generado por IA. Las propias empresas de IA también se reservan algunos de los derechos de estas imágenes. Esto podría resultar un problema si la IA genera una imagen que es exactamente igual a un copyright existente.

Con solo una tasa de memorización del 0,03 %, los desarrolladores de IA podrían ver este estudio y determinar que no hay mucho riesgo. Las empresas podrían trabajar para desduplicar las imágenes en los datos de entrenamiento, lo que haría que sea menos probable que se memoricen. Demonios, incluso podrían desarrollar sistemas de inteligencia artificial que detectarían si una imagen es una réplica directa de una imagen en datos de entrenamiento y la marcarían para su eliminación. Sin embargo, enmascara el riesgo total para la privacidad que plantea la IA generativa. Carlini y Tramèr también asistieron en otro articulo reciente que argumentó que incluso los intentos de filtrar datos aún no evitan que los datos de entrenamiento se filtren a través del modelo.

Y, por supuesto, existe un alto riesgo de que las imágenes que nadie querría volver a copiar terminen apareciendo en las pantallas de los usuarios. Wallace preguntó si un investigador quería generar una gran cantidad de datos médicos sintéticos de las radiografías de las personas, por ejemplo. ¿Qué debería suceder si una IA basada en difusión memoriza y duplica los registros médicos reales de una persona?

“Es bastante raro, por lo que es posible que no note que está sucediendo al principio, y luego podría implementar este conjunto de datos en la web”, dijo el estudiante de UC Berkeley. “El objetivo de este trabajo es adelantarse a esos posibles tipos de errores que la gente podría cometer”.





Source link-45