Un anuncio de Stability.ai viene con excelentes noticias para cualquiera que esté entusiasmado con la generación de imágenes de IA. Stable Diffusion, un software de generación de imágenes que utiliza hardware de nivel de consumidor, pronto se hará público.
Como puede ver en la imagen del encabezado, las imágenes generadas por el modelo de IA que se lanzará próximamente se ven bastante increíbles, especialmente considerando la poca potencia de GPU que necesita. El generador de imágenes ha sido liderado a través del desarrollo por Robin Rombach del grupo de investigación de aprendizaje y visión artificial de LMU Munich, y Patrick Esser, quien ayudó a desarrollar el software de edición de video, Runway.
El anuncio (se abre en una pestaña nueva) señala que el modelo de IA se ejecuta en «menos de 10 GB de VRAM en GPU de consumo». Básicamente, puede ejecutarlo en una Nvidia GeForce RTX 3080 de 10 GB (se abre en una pestaña nueva)una AMD Radeon RX 6700 (se abre en una pestaña nueva) o potencialmente algo menos potente, aunque aquí no hay nada sobre los requisitos gráficos mínimos. Eso sigue siendo contrario a muchos modelos de generación de IA, que tienden a estar alojados en servidores, ya que necesitan varias GPU Nvidia A100 para ejecutarse. (se abre en una pestaña nueva).
Stable Diffusion se entrena en el ultracluster 4000 A100 Ezra-1 AI de Stability AI, con más de 10 000 probadores beta que generan 1,7 millones de imágenes por día para explorar este enfoque.
El conjunto de datos central para Stable Diffusion proviene del próximo modelo de IA basado en CLIP LAION-Aesthetics, que filtra las imágenes en función de cuán «hermosas» son. Sin embargo, no estoy exactamente seguro de cómo se ha definido la belleza en este caso. LAION-Aesthetics selecciona y reelabora imágenes de LAION 5B (se abre en una pestaña nueva)La base de datos masiva de , que se creó para abordar el problema. (se abre en una pestaña nueva) que los conjuntos de datos, como los miles de millones de pares de imágenes y texto utilizados por Dall-E y CLIP, no se han puesto a disposición del público.
Aparentemente, la IA puede generar imágenes con una resolución de 512×512 píxeles en solo unos segundos, aunque supongo que escalar a imágenes más grandes llevará un poco más de tiempo. Todavía queda un largo camino por recorrer, con el equipo de Stability AI aún investigando el método actual de generación de imágenes.
La buena noticia es que «esto proporcionará la plantilla para el lanzamiento de muchos modelos abiertos que actualmente estamos entrenando para desbloquear el potencial humano».
Qué tiempo para estar vivo, ¿eh?
«Esperamos con ansias el ecosistema abierto que surgirá en torno a este y otros modelos para explorar verdaderamente los límites del espacio latente», dice el anuncio.
También hay una nota en la parte inferior del líder organizacional e investigador de LAION, Christoph Schuhmann, quien dice: «Con este proyecto continuamos con nuestra misión de hacer que el aprendizaje automático de última generación sea accesible para personas de todo el mundo. 100% abierto . 100% gratis.»
Un sentimiento noble. Lo que parece decir es que Stable Diffusion bien podría estar llegando a las PC de los consumidores completamente gratis. Si está buscando involucrarse antes, puede registrarse para una primera etapa de lanzamiento del generador de imágenes de IA de difusión estable aquí. (se abre en una pestaña nueva)—Eso es solo para fines académicos y de investigación, fíjate.