El jueves, Stability AI anunció Stable Diffusion 3, un modelo de síntesis de imágenes de próxima generación de peso abierto. Sigue a sus predecesores al generar imágenes detalladas de múltiples temas con calidad y precisión mejoradas en la generación de texto. El breve anuncio no estuvo acompañado de una demostración pública, pero Stability abre hoy una lista de espera para aquellos que quieran probarlo.
Stability dice que su familia de modelos Stable Diffusion 3 (que toma descripciones de texto llamadas «indicaciones» y las convierte en imágenes coincidentes) varía en tamaño de 800 millones a 8 mil millones de parámetros. El rango de tamaño permite que diferentes versiones del modelo se ejecuten localmente en una variedad de dispositivos, desde teléfonos inteligentes hasta servidores. El tamaño del parámetro corresponde aproximadamente a la capacidad del modelo en términos de cuánto detalle puede generar. Los modelos más grandes también requieren más VRAM en los aceleradores GPU para funcionar.
Desde 2022, hemos visto a Stability lanzar una progresión de modelos de generación de imágenes con IA: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo y ahora 3. Stability se ha hecho un nombre por ofrecer una alternativa más abierta. a modelos propietarios de síntesis de imágenes como DALL-E 3 de OpenAI, aunque no sin controversia debido al uso de datos de entrenamiento con derechos de autor, sesgos y el potencial de abuso. (Esto ha dado lugar a demandas que no se han resuelto). Los modelos de difusión estable han sido de peso abierto y están disponibles en origen, lo que significa que los modelos se pueden ejecutar localmente y ajustar para cambiar sus resultados.
En lo que respecta a las mejoras tecnológicas, el director ejecutivo de Stability, Emad Mostaque, escribió en X: «Esto utiliza un nuevo tipo de transformador de difusión (similar a Sora) combinado con adaptación de flujo y otras mejoras. Esto aprovecha las mejoras del transformador y no solo puede escalar aún más». pero acepte entradas multimodales».
Como dijo Mostaque, la familia Stable Diffusion 3 utiliza una arquitectura de transformador de difusión, que es una nueva forma de crear imágenes con IA que cambia los bloques de construcción de imágenes habituales (como la arquitectura U-Net) por un sistema que funciona en pequeñas piezas de la imagen. El método se inspiró en los transformadores, que son buenos manejando patrones y secuencias. Este enfoque no solo se amplía de manera eficiente sino que, según se informa, también produce imágenes de mayor calidad.
Stable Diffusion 3 también utiliza «coincidencia de flujo», que es una técnica para crear modelos de IA que pueden generar imágenes aprendiendo cómo pasar de un ruido aleatorio a una imagen estructurada sin problemas. Lo hace sin necesidad de simular cada paso del proceso, sino que se centra en la dirección o flujo general que debe seguir la creación de la imagen.
No tenemos acceso a Stable Diffusion 3 (SD3), pero a partir de las muestras que encontramos publicadas en el sitio web de Stability y en las cuentas de redes sociales asociadas, las generaciones parecen más o menos comparables a otros modelos de síntesis de imágenes de última generación en este momento. incluidos los ya mencionados DALL-E 3, Adobe Firefly, Imagine with Meta AI, Midjourney y Google Imagen.
SD3 parece manejar muy bien la generación de texto en los ejemplos proporcionados por otros, que potencialmente son seleccionados. La generación de texto era una debilidad particular de los modelos anteriores de síntesis de imágenes, por lo que mejorar esa capacidad en un modelo gratuito es un gran problema. Además, la fidelidad de las indicaciones (qué tan cerca sigue las descripciones en las indicaciones) parece ser similar a DALL-E 3, pero aún no lo hemos probado nosotros mismos.
Si bien Stable Diffusion 3 no está ampliamente disponible, Stability dice que una vez que se completen las pruebas, sus pesas se podrán descargar y ejecutar localmente de forma gratuita. «Esta fase de vista previa, al igual que con los modelos anteriores», escribe Stability, «es crucial para recopilar información que mejore su rendimiento y seguridad antes de un lanzamiento abierto».
Stability ha estado experimentando recientemente con una variedad de arquitecturas de síntesis de imágenes. Además de SDXL y SDXL Turbo, la semana pasada la compañía anunció Stable Cascade, que utiliza un proceso de tres etapas para la síntesis de texto a imagen.
Imagen de listado de Emad Mostaque (Estabilidad AI)