Stable Diffusion 3 llega para solidificar el liderazgo inicial en imágenes de IA contra Sora y Gemini


Stability AI ha anunciado Stable Diffusion 3, la versión más reciente y potente del modelo de IA de generación de imágenes de la compañía. Si bien los detalles son escasos, es claramente un intento de defenderse del revuelo en torno a los competidores recientemente anunciados de OpenAI y Google.

Pronto tendremos un desglose más técnico de todo esto, pero por ahora debes saber que Stable Diffusion 3 (SD3) se basa en una nueva arquitectura y funcionará en una variedad de hardware (aunque aún necesitarás algo robusto). . Aún no está disponible, pero puedes registrarte en la lista de espera aquí.

SD3 utiliza un “transformador de difusión” actualizado, una técnica iniciada en 2022 pero revisada en 2023 y que ahora alcanza escalabilidad. Sora, el impresionante generador de vídeo de OpenAI, aparentemente funciona con principios similares (Will Peebles, coautor del artículo, codirigió el proyecto Sora). También emplea «coincidencia de flujo», otra técnica nueva que mejora de manera similar la calidad sin agregar demasiados gastos generales.

El conjunto de modelos abarca desde 800 millones de parámetros (menos que el SD 1.5 comúnmente utilizado) hasta 8 mil millones de parámetros (más que SD XL), con la intención de ejecutarse en una variedad de hardware. Probablemente aún querrás una GPU seria y una configuración destinada al trabajo de aprendizaje automático, pero no estás limitado a una API como lo estás generalmente con los modelos OpenAI y Google. (Anthropic, por su parte, no se ha centrado públicamente en la generación de imágenes o videos, por lo que realmente no es parte de esta conversación).

En X, anteriormente Twitter, el jefe de Stable Diffusion, Emad Mostaque, señala que el nuevo modelo es capaz de comprensión multimodal, así como entrada y generación de video, todas las cosas que sus rivales han enfatizado en sus competidores impulsados ​​por API. Esas capacidades aún son teóricas, pero parece que no existe ninguna barrera técnica para incluirlas en futuras versiones.

Por supuesto, es imposible comparar estos modelos, ya que ninguno se ha lanzado realmente y todo lo que tenemos para seguir son afirmaciones competitivas y ejemplos cuidadosamente seleccionados. Pero Stable Diffusion tiene una ventaja definitiva: su presencia en el zeitgeist como modelo de referencia para realizar cualquier tipo de generación de imágenes en cualquier lugar, con pocas limitaciones intrínsecas en método o contenido. (De hecho, es casi seguro que SD3 marcará el comienzo de una nueva era de pornografía generada por IA, una vez que superen los mecanismos de seguridad).

Stable Diffusion parece querer ser la IA generativa de marca blanca de la que no puede prescindir, en lugar de la IA generativa boutique que no está seguro de necesitar. Con ese fin, la compañía también está actualizando sus herramientas para bajar el listón de uso, aunque, como ocurre con el resto del anuncio, estas mejoras se dejan a la imaginación.

Curiosamente, la empresa ha puesto la seguridad en el centro de su anuncio, afirmando:

Hemos tomado y seguimos tomando medidas razonables para evitar el uso indebido de Stable Diffusion 3 por parte de malos actores. La seguridad comienza cuando comenzamos a entrenar nuestro modelo y continúa durante las pruebas, la evaluación y la implementación. En preparación para esta vista previa temprana, hemos introducido numerosas medidas de seguridad. Al colaborar continuamente con investigadores, expertos y nuestra comunidad, esperamos innovar más con integridad a medida que nos acercamos al lanzamiento público del modelo.

¿Cuáles son exactamente estas salvaguardias? Sin duda, la vista previa los delineará un poco, y luego la publicación pública será aún más refinada o censurada dependiendo de su perspectiva sobre estas cosas. Sabremos más pronto y, mientras tanto, profundizaremos en el aspecto técnico para comprender mejor la teoría y los métodos detrás de esta nueva generación de modelos.



Source link-48