El principio de la física que inspiró el arte moderno de la IA


Sohl-Dickstein utilizó los principios de difusión para desarrollar un algoritmo para el modelado generativo. La idea es simple: el algoritmo primero convierte imágenes complejas en el conjunto de datos de entrenamiento en ruido simple, similar a pasar de una gota de tinta a agua azul clara difusa, y luego le enseña al sistema cómo revertir el proceso, convirtiendo el ruido en imágenes.

Así es como funciona: primero, el algoritmo toma una imagen del conjunto de entrenamiento. Como antes, digamos que cada uno de los millones de píxeles tiene algún valor, y podemos trazar la imagen como un punto en un espacio de un millón de dimensiones. El algoritmo agrega algo de ruido a cada píxel en cada paso de tiempo, equivalente a la difusión de tinta después de un pequeño paso de tiempo. A medida que continúa este proceso, los valores de los píxeles tienen menos relación con sus valores en la imagen original y los píxeles se parecen más a una simple distribución de ruido. (El algoritmo también empuja cada valor de píxel una pizca hacia el origen, el valor cero en todos esos ejes, en cada paso de tiempo. Este empujón evita que los valores de píxel crezcan demasiado para que las computadoras puedan trabajar fácilmente).

Haga esto para todas las imágenes en el conjunto de datos, y una distribución compleja inicial de puntos en un espacio de un millón de dimensiones (que no se puede describir ni muestrear fácilmente) se convierte en una distribución normal simple de puntos alrededor del origen.

“La secuencia de transformaciones convierte muy lentamente su distribución de datos en una gran bola de ruido”, dijo Sohl-Dickstein. Este «proceso directo» le deja con una distribución de la que puede probar con facilidad.

Yang Song ayudó a idear una técnica novedosa para generar imágenes entrenando una red para descifrar imágenes ruidosas de manera efectiva.

Cortesía de Yang Song

Lo siguiente es la parte de aprendizaje automático: proporcione a una red neuronal las imágenes ruidosas obtenidas de un pase hacia adelante y entrénela para predecir las imágenes menos ruidosas que llegaron un paso antes. Cometerá errores al principio, por lo que modifica los parámetros de la red para que funcione mejor. Eventualmente, la red neuronal puede convertir de manera confiable una imagen ruidosa, que es representativa de una muestra de la distribución simple, en una imagen representativa de una muestra de la distribución compleja.

La red entrenada es un modelo generativo completo. Ahora ni siquiera necesita una imagen original en la que hacer un pase hacia adelante: tiene una descripción matemática completa de la distribución simple, por lo que puede tomar muestras directamente. La red neuronal puede convertir esta muestra, esencialmente estática, en una imagen final que se asemeja a una imagen en el conjunto de datos de entrenamiento.

Sohl-Dickstein recuerda los primeros resultados de su modelo de difusión. “Entrecerrarías los ojos y dirías: ‘Creo que esa mancha de color se parece a un camión’”, dijo. “Pasé tantos meses de mi vida mirando diferentes patrones de píxeles y tratando de ver la estructura que pensé: ‘Esto está mucho más estructurado que nunca’. Estaba muy emocionado.»

Visualizando el futuro

Sohl-Dickstein publicó su algoritmo de modelo de difusión en 2015, pero todavía estaba muy por detrás de lo que podían hacer las GAN. Si bien los modelos de difusión podían muestrear toda la distribución y nunca quedarse atascados y arrojar solo un subconjunto de imágenes, las imágenes se veían peor y el proceso era demasiado lento. “No creo que en ese momento esto fuera visto como emocionante”, dijo Sohl-Dickstein.

Se necesitarían dos estudiantes, ninguno de los cuales conocía a Sohl-Dickstein ni entre ellos, para conectar los puntos de este trabajo inicial con los modelos de difusión modernos como DALL·E 2. El primero fue Song, un estudiante de doctorado en Stanford en ese momento. . En 2019, él y su asesor publicaron un método novedoso para construir modelos generativos que no estimaban la distribución de probabilidad de los datos (la superficie de alta dimensión). En cambio, estimó el gradiente de la distribución (piense en ello como la pendiente de la superficie de alta dimensión).



Source link-46