Diffusion – Magazine Office

Stable Diffusion 3 llega para solidificar el liderazgo inicial en imágenes de IA contra Sora y Gemini

John — Sat, 24 Feb 2024 10:25:54 +0000

Stability AI ha anunciado Stable Diffusion 3, la versión más reciente y potente del modelo de IA de generación de imágenes de la compañía. Si bien los detalles son escasos, es claramente un intento de defenderse del revuelo en torno a los competidores recientemente anunciados de OpenAI y Google.

Pronto tendremos un desglose más técnico de todo esto, pero por ahora debes saber que Stable Diffusion 3 (SD3) se basa en una nueva arquitectura y funcionará en una variedad de hardware (aunque aún necesitarás algo robusto). . Aún no está disponible, pero puedes registrarte en la lista de espera aquí.

SD3 utiliza un “transformador de difusión” actualizado, una técnica iniciada en 2022 pero revisada en 2023 y que ahora alcanza escalabilidad. Sora, el impresionante generador de vídeo de OpenAI, aparentemente funciona con principios similares (Will Peebles, coautor del artículo, codirigió el proyecto Sora). También emplea «coincidencia de flujo», otra técnica nueva que mejora de manera similar la calidad sin agregar demasiados gastos generales.

El conjunto de modelos abarca desde 800 millones de parámetros (menos que el SD 1.5 comúnmente utilizado) hasta 8 mil millones de parámetros (más que SD XL), con la intención de ejecutarse en una variedad de hardware. Probablemente aún querrás una GPU seria y una configuración destinada al trabajo de aprendizaje automático, pero no estás limitado a una API como lo estás generalmente con los modelos OpenAI y Google. (Anthropic, por su parte, no se ha centrado públicamente en la generación de imágenes o videos, por lo que realmente no es parte de esta conversación).

En X, anteriormente Twitter, el jefe de Stable Diffusion, Emad Mostaque, señala que el nuevo modelo es capaz de comprensión multimodal, así como entrada y generación de video, todas las cosas que sus rivales han enfatizado en sus competidores impulsados por API. Esas capacidades aún son teóricas, pero parece que no existe ninguna barrera técnica para incluirlas en futuras versiones.

Por supuesto, es imposible comparar estos modelos, ya que ninguno se ha lanzado realmente y todo lo que tenemos para seguir son afirmaciones competitivas y ejemplos cuidadosamente seleccionados. Pero Stable Diffusion tiene una ventaja definitiva: su presencia en el zeitgeist como modelo de referencia para realizar cualquier tipo de generación de imágenes en cualquier lugar, con pocas limitaciones intrínsecas en método o contenido. (De hecho, es casi seguro que SD3 marcará el comienzo de una nueva era de pornografía generada por IA, una vez que superen los mecanismos de seguridad).

Stable Diffusion parece querer ser la IA generativa de marca blanca de la que no puede prescindir, en lugar de la IA generativa boutique que no está seguro de necesitar. Con ese fin, la compañía también está actualizando sus herramientas para bajar el listón de uso, aunque, como ocurre con el resto del anuncio, estas mejoras se dejan a la imaginación.

Curiosamente, la empresa ha puesto la seguridad en el centro de su anuncio, afirmando:

Hemos tomado y seguimos tomando medidas razonables para evitar el uso indebido de Stable Diffusion 3 por parte de malos actores. La seguridad comienza cuando comenzamos a entrenar nuestro modelo y continúa durante las pruebas, la evaluación y la implementación. En preparación para esta vista previa temprana, hemos introducido numerosas medidas de seguridad. Al colaborar continuamente con investigadores, expertos y nuestra comunidad, esperamos innovar más con integridad a medida que nos acercamos al lanzamiento público del modelo.

¿Cuáles son exactamente estas salvaguardias? Sin duda, la vista previa los delineará un poco, y luego la publicación pública será aún más refinada o censurada dependiendo de su perspectiva sobre estas cosas. Sabremos más pronto y, mientras tanto, profundizaremos en el aspecto técnico para comprender mejor la teoría y los métodos detrás de esta nueva generación de modelos.

Source link-48

Stability anuncia Stable Diffusion 3, un generador de imágenes de IA de próxima generación

John — Sat, 24 Feb 2024 07:23:20 +0000

Agrandar / Difusión estable de tercera generación con el mensaje: fotografía de estudio en primer plano de un camaleón sobre un fondo negro.

El jueves, Stability AI anunció Stable Diffusion 3, un modelo de síntesis de imágenes de próxima generación de peso abierto. Sigue a sus predecesores al generar imágenes detalladas de múltiples temas con calidad y precisión mejoradas en la generación de texto. El breve anuncio no estuvo acompañado de una demostración pública, pero Stability abre hoy una lista de espera para aquellos que quieran probarlo.

Stability dice que su familia de modelos Stable Diffusion 3 (que toma descripciones de texto llamadas «indicaciones» y las convierte en imágenes coincidentes) varía en tamaño de 800 millones a 8 mil millones de parámetros. El rango de tamaño permite que diferentes versiones del modelo se ejecuten localmente en una variedad de dispositivos, desde teléfonos inteligentes hasta servidores. El tamaño del parámetro corresponde aproximadamente a la capacidad del modelo en términos de cuánto detalle puede generar. Los modelos más grandes también requieren más VRAM en los aceleradores GPU para funcionar.

Desde 2022, hemos visto a Stability lanzar una progresión de modelos de generación de imágenes con IA: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo y ahora 3. Stability se ha hecho un nombre por ofrecer una alternativa más abierta. a modelos propietarios de síntesis de imágenes como DALL-E 3 de OpenAI, aunque no sin controversia debido al uso de datos de entrenamiento con derechos de autor, sesgos y el potencial de abuso. (Esto ha dado lugar a demandas que no se han resuelto). Los modelos de difusión estable han sido de peso abierto y están disponibles en origen, lo que significa que los modelos se pueden ejecutar localmente y ajustar para cambiar sus resultados.

Stable Diffusion 3 generación con el mensaje: obra de arte de anime épica de un mago en la cima de una montaña por la noche lanzando un hechizo cósmico en el cielo oscuro que dice «Stable Diffusion 3» hecho de energía colorida.
Una imagen generada por IA de una abuela con una sudadera que dice «Ve a lo grande o vete a casa» generada por Stable Diffusion 3.
Difusión estable de 3.ª generación con el mensaje: Tres botellas de vidrio transparente sobre una mesa de madera. El de la izquierda tiene líquido rojo y el número 1. El del medio tiene líquido azul y el número 2. El de la derecha tiene líquido verde y el número 3.
Una imagen generada por IA creada por Stable Diffusion 3.
Stable Diffusion 3 generación con el mensaje: Un caballo balanceándose sobre una pelota colorida en un campo con pasto verde y una montaña al fondo.
Stable Diffusion 3 generación con el mensaje: Bodegón cambiante de calabazas variadas.
Difusión estable 3 generación con el mensaje: una pintura de un astronauta montando un cerdo con un tutú sosteniendo un paraguas rosa, en el suelo junto al cerdo hay un pájaro petirrojo con sombrero de copa, en la esquina están las palabras «difusión estable». »
Stable Diffusion 3 generación con el mensaje: Sobre la mesa de la cocina hay un paño bordado con el texto «buenas noches» y un tigre bebé bordado. Al lado del paño hay una vela encendida. La iluminación es tenue y dramática.
Stable Diffusion 3 generación con el mensaje: Foto de una computadora de escritorio de los años 90 en un escritorio de trabajo, en la pantalla de la computadora dice «bienvenido». En la pared del fondo vemos unos bonitos graffitis con el texto “SD3” muy grande en la pared.

En lo que respecta a las mejoras tecnológicas, el director ejecutivo de Stability, Emad Mostaque, escribió en X: «Esto utiliza un nuevo tipo de transformador de difusión (similar a Sora) combinado con adaptación de flujo y otras mejoras. Esto aprovecha las mejoras del transformador y no solo puede escalar aún más». pero acepte entradas multimodales».

Como dijo Mostaque, la familia Stable Diffusion 3 utiliza una arquitectura de transformador de difusión, que es una nueva forma de crear imágenes con IA que cambia los bloques de construcción de imágenes habituales (como la arquitectura U-Net) por un sistema que funciona en pequeñas piezas de la imagen. El método se inspiró en los transformadores, que son buenos manejando patrones y secuencias. Este enfoque no solo se amplía de manera eficiente sino que, según se informa, también produce imágenes de mayor calidad.

Stable Diffusion 3 también utiliza «coincidencia de flujo», que es una técnica para crear modelos de IA que pueden generar imágenes aprendiendo cómo pasar de un ruido aleatorio a una imagen estructurada sin problemas. Lo hace sin necesidad de simular cada paso del proceso, sino que se centra en la dirección o flujo general que debe seguir la creación de la imagen.

Agrandar / Una comparación de resultados entre DALL-E 3 de OpenAI y Stable Diffusion 3 con el mensaje «Foto nocturna de un automóvil deportivo con el texto «SD3″ en el costado, el automóvil está en una pista de carreras a alta velocidad, una enorme señal de tráfico con el texto ‘más rápido'».

No tenemos acceso a Stable Diffusion 3 (SD3), pero a partir de las muestras que encontramos publicadas en el sitio web de Stability y en las cuentas de redes sociales asociadas, las generaciones parecen más o menos comparables a otros modelos de síntesis de imágenes de última generación en este momento. incluidos los ya mencionados DALL-E 3, Adobe Firefly, Imagine with Meta AI, Midjourney y Google Imagen.

SD3 parece manejar muy bien la generación de texto en los ejemplos proporcionados por otros, que potencialmente son seleccionados. La generación de texto era una debilidad particular de los modelos anteriores de síntesis de imágenes, por lo que mejorar esa capacidad en un modelo gratuito es un gran problema. Además, la fidelidad de las indicaciones (qué tan cerca sigue las descripciones en las indicaciones) parece ser similar a DALL-E 3, pero aún no lo hemos probado nosotros mismos.

Si bien Stable Diffusion 3 no está ampliamente disponible, Stability dice que una vez que se completen las pruebas, sus pesas se podrán descargar y ejecutar localmente de forma gratuita. «Esta fase de vista previa, al igual que con los modelos anteriores», escribe Stability, «es crucial para recopilar información que mejore su rendimiento y seguridad antes de un lanzamiento abierto».

Stability ha estado experimentando recientemente con una variedad de arquitecturas de síntesis de imágenes. Además de SDXL y SDXL Turbo, la semana pasada la compañía anunció Stable Cascade, que utiliza un proceso de tres etapas para la síntesis de texto a imagen.

Imagen de listado de Emad Mostaque (Estabilidad AI)

Source link-49

Stable Diffusion 3 es un nuevo generador de imágenes con IA que no estropea el texto de las imágenes, afirman sus creadores

John — Fri, 23 Feb 2024 05:22:49 +0000

Stability AI, la startup detrás de Stable Diffusion, la herramienta que utiliza IA generativa para crear imágenes a partir de mensajes de texto, reveló el jueves Stable Diffusion 3, un modelo de próxima generación. Stability AI afirmó que el nuevo modelo, que aún no está ampliamente disponible, mejora la calidad de la imagen, funciona mejor con indicaciones que contienen múltiples sujetos y puede incluir texto más preciso como parte de la imagen generada, algo que los modelos anteriores de Stable Diffusion no eran geniales. en.

El director ejecutivo de Stability AI, Emad Mosque, publicó algunos ejemplos de esto en X.

El anuncio se produce días después de que el mayor rival de Stability AI, OpenAI, presentara Sora, un nuevo modelo de IA capaz de generar videos de alta definición casi realistas a partir de simples indicaciones de texto. Sora, que tampoco está disponible todavía para el público en general, generó preocupaciones sobre su potencial para crear imágenes falsas de apariencia realista. OpenAI dijo que está trabajando con expertos en desinformación y contenido de odio para probar la herramienta antes de que esté ampliamente disponible. Stability AI dijo que está haciendo lo mismo. “[We] Hemos tomado y seguimos tomando medidas razonables para evitar el uso indebido de Stable Diffusion 3 por parte de malos actores”, escribió la compañía en una publicación de blog en su sitio web. «Al colaborar continuamente con investigadores, expertos y nuestra comunidad, esperamos innovar más con integridad a medida que nos acercamos al lanzamiento público del modelo».

No está claro cuándo se lanzará al público Stable Diffusion 3, pero hasta entonces, cualquier persona interesada puede unirse a una lista de espera.

Source link-47

Raspberry Pi Zero 2 W ejecuta Stable Diffusion XL 1.0 usando 298 MB de RAM

John — Wed, 04 Oct 2023 11:33:22 +0000

Quizás recuerdes a principios de este verano cuando informamos sobre Vito Platamura, el cerebro que logró ejecutar Stable Diffusion 1.5 en un Frambuesa Pi Cero 2W. Hoy estamos emocionados de compartir una actualización del proyecto. Plantamura amplió el proyecto para admitir Stable Diffusion XL 1.0 y lo ejecutó con éxito en una Raspberry Pi Zero 2 W usando 298 MB de RAM.

Si no está familiarizado con Stable Diffusion, esta es una aplicación diseñada para crear imágenes usando IA basada en indicaciones de palabras ingresadas por el usuario. Plantamura anteriormente pudo obtener el original. Difusión estable 1.5 para ejecutarse en una Raspberry Pi Zero 2 W con menos de 260 MB de RAM. La aplicación que desarrolló y que hace todo esto posible se denomina OnnxStream.

Según Plantamura, fue más difícil ejecutar Stable Diffusion XL 1.0 ya que presenta un modelo de transformador que tiene casi mil millones de parámetros. La Raspberry Pi Zero 2 W tiene 512 MB de RAM, aunque se recomienda tener al menos 8 GB para ejecutar Stable Diffusion. No hace falta decir que Plantamura tenía mucho trabajo por delante.

El proceso de adaptación fue similar al desarrollado para Stable Diffusion 1.5, pero hay algunas diferencias clave que lo distinguen. Por ejemplo, Stable Diffusion XL 1.0 utiliza lo que se conoce como decodificación de mosaicos. Este proceso es parte de lo que permite reducir el consumo de RAM de 4,4 GB a solo 298 MB.

Imagen 1 de 2

(Crédito de la imagen: Vito Plantamura)

Las imágenes se procesan en fragmentos que, en última instancia, crean un efecto de mosaico con bordes visibles entre cada una de las secciones. Esto se soluciona habilitando un efecto de desenfoque. Puede ver en las imágenes de arriba los ejemplos de antes y después de cómo se ve esto. Como mencionamos antes, este proyecto no es práctico de ninguna manera ya que lleva mucho más tiempo utilizar la aplicación. Sin embargo, es una excelente prueba de concepto y estamos más que felices de arrojar luz sobre el arduo trabajo que se realizó.

Si quieres ver esto más de cerca proyecto frambuesa piconsulte el material fuente en GitHub. Asegúrese de seguir a Plantamura para conocer más proyectos y futuras actualizaciones sobre este.

Source link-41

Stability AI lanza su último modelo de generación de imágenes, Stable Diffusion XL 1.0

John — Fri, 28 Jul 2023 01:13:02 +0000

La startup de IA Stability AI continúa refinando sus modelos generativos de IA frente a la creciente competencia y los desafíos éticos.

Hoy, Stability AI anunció el lanzamiento de Stable Diffusion XL 1.0, un modelo de texto a imagen que la compañía describe como su versión «más avanzada» hasta la fecha. Disponible en código abierto en GitHub además de la API de Stability y las aplicaciones de consumo, ClipDrop y DreamStudio, Stable Diffusion XL 1.0 ofrece colores «más vibrantes» y «precisos» y mejor contraste, sombras e iluminación en comparación con su predecesor, afirma Stability.

En una entrevista con TechCrunch, Joe Penna, jefe de aprendizaje automático aplicado de Stability AI, señaló que Stable Diffusion XL 1.0, que contiene 3.500 millones de parámetros, puede producir imágenes de resolución completa de 1 megapíxel «en segundos» en múltiples relaciones de aspecto. Los «parámetros» son las partes de un modelo aprendidas a partir de datos de entrenamiento y esencialmente definen la habilidad del modelo en un problema, en este caso generando imágenes.

El modelo Stable Diffusion de la generación anterior, Stable Diffusion XL 0.9, también podía producir imágenes de mayor resolución, pero requería más poder computacional.

“Stable Diffusion XL 1.0 es personalizable, listo para afinar conceptos y estilos”, dijo Penna. «También es más fácil de usar, capaz de diseños complejos con indicaciones básicas de procesamiento de lenguaje natural».

Stable Diffusion XL 1.0 también se ha mejorado en el área de generación de texto. Si bien muchos de los mejores modelos de texto a imagen luchan por generar imágenes con logotipos legibles, mucho menos caligrafía o fuentes, Stable Diffusion XL 1.0 es capaz de generar texto y legibilidad «avanzadas», dice Penna.

Y, según lo informado por SiliconAngle y VentureBeat, Stable Diffusion XL 1.0 admite la pintura interior (reconstrucción de partes faltantes de una imagen), la pintura exterior (ampliación de imágenes existentes) y las indicaciones de «imagen a imagen», lo que significa que los usuarios pueden ingresar una imagen y agregar algo de texto. indicaciones para crear variaciones más detalladas de esa imagen. Además, el modelo comprende instrucciones complicadas de varias partes dadas en indicaciones breves, mientras que los modelos anteriores de difusión estable necesitaban indicaciones de texto más largas.

Una imagen generada por Stable Diffusion XL 1.0. Créditos de imagen: Estabilidad IA

“Esperamos que al lanzar este modelo de código abierto mucho más potente, la resolución de las imágenes no sea lo único que se cuadruplique, sino también avances que beneficiarán enormemente a todos los usuarios”, agregó.

Pero al igual que con las versiones anteriores de Stable Diffusion, el modelo plantea cuestiones morales difíciles.

La versión de código abierto de Stable Diffusion XL 1.0 puede, en teoría, ser utilizada por malos actores para generar contenido tóxico o dañino, como falsificaciones profundas no consentidas. Eso es parcialmente un reflejo de los datos que se usaron para entrenarlo: millones de imágenes de toda la web.

Innumerables tutoriales demuestran cómo usar las propias herramientas de Stability AI, incluido DreamStudio, un front-end de código abierto para Stable Diffusion, para crear deepfakes. Muchos otros muestran cómo ajustar los modelos básicos de difusión estable para generar pornografía.

Penna no niega que el abuso sea posible, y reconoce que el modelo también contiene ciertos sesgos. Pero agregó que Stability AI tomó «medidas adicionales» para mitigar la generación de contenido dañino al filtrar los datos de entrenamiento del modelo en busca de imágenes «inseguras», publicar nuevas advertencias relacionadas con avisos problemáticos y bloquear tantos términos problemáticos individuales en la herramienta como sea posible.

El conjunto de entrenamiento de Stable Diffusion XL 1.0 también incluye obras de arte de artistas que han protestado contra compañías como Stability AI que usan su trabajo como datos de entrenamiento para modelos generativos de IA. Stability AI afirma que está protegido de la responsabilidad legal por la doctrina del uso justo, al menos en los EE. UU. Pero eso no ha impedido que varios artistas y la compañía de fotografía de stock Getty Images presenten demandas para detener la práctica.

Stability AI, que tiene una asociación con la startup Spawning para respetar las solicitudes de «exclusión voluntaria» de estos artistas, dice que no ha eliminado todas las obras de arte marcadas de sus conjuntos de datos de entrenamiento, pero que «sigue incorporando las solicitudes de los artistas».

“Estamos mejorando constantemente la funcionalidad de seguridad de Stable Diffusion y se toman en serio la continuación de la iteración de estas medidas”, dijo Penna. “Además, nos comprometemos a respetar las solicitudes de los artistas de ser eliminados de los conjuntos de datos de entrenamiento”.

Para coincidir con el lanzamiento de Stable Diffusion XL 1.0, Stability AI está lanzando una función de ajuste fino en versión beta para su API que permitirá a los usuarios usar tan solo cinco imágenes para «especializar» la generación en personas, productos y más específicos. La compañía también traerá Stable Diffusion XL 1.0 a Bedrock, la plataforma en la nube de Amazon para alojar modelos generativos de IA, ampliando su colaboración previamente anunciada con AWS.

El impulso de las asociaciones y las nuevas capacidades se produce cuando Stability sufre una pausa en sus esfuerzos comerciales, enfrentando una dura competencia de OpenAI, Midjourney y otros. En abril, Semafor informó que Stability AI, que ha recaudado más de $ 100 millones en capital de riesgo hasta la fecha, estaba gastando efectivo, lo que impulsó el cierre de una nota convertible de $ 25 millones en junio y una búsqueda de ejecutivos para ayudar a aumentar las ventas.

“El último modelo SDXL representa el siguiente paso en el legado de innovación de Stability AI y la capacidad de llevar al mercado los modelos de acceso abierto más vanguardistas para la comunidad de IA”, dijo el CEO de Stability AI, Emad Mostaque, en un comunicado de prensa. “La presentación de 1.0 en Amazon Bedrock demuestra nuestro fuerte compromiso de trabajar junto con AWS para brindar las mejores soluciones para los desarrolladores y nuestros clientes”.

Source link-48

Stable Diffusion se ejecuta en solo 260 MB de RAM en Raspberry Pi

John — Fri, 21 Jul 2023 19:08:26 +0000

Stable Diffusion es una aplicación de aprendizaje profundo que crea imágenes a partir de indicaciones de texto. Lanzado en 2022, requiere considerablemente más poder de cómputo que un Raspberry Pi. Esta hazaña impresionante, realizada por el fabricante y desarrollador Vita Plantamura, que logró ejecutar con éxito un modelo de difusión estable de mil millones de parámetros en una Raspberry Pi Zero 2 W con solo 260 MB de RAM.

Esta es una hazaña impresionante, en gran parte porque la Raspberry Pi Zero 2 W es conocida por su diseño compacto en lugar del rendimiento informático. Pero no solo es físicamente pequeño, tiene limitaciones de hardware que restringen su rendimiento. En este caso, el Pi Zero 2 W tiene solo 512 MB de RAM. Stable Diffusion prefiere al menos 8 GB de RAM para un rendimiento óptimo.

Plantamura pudo hacer que esto funcionara al desarrollar lo que él llama OnnxStream. Esta es una biblioteca de inferencia especialmente diseñada para reducir el consumo de memoria para que pueda generar imágenes en una Raspberry Pi Zero 2 W. ¿Es práctico? No exactamente, ya que lleva mucho más tiempo crear imágenes. Las imágenes creadas con decodificadores VAE con precisión W8A8 pueden tardar tres horas en generarse. Sin embargo, funciona y es bastante impresionante en ese sentido. Según Plantamura, OnnxStream consume 55 veces menos memoria que OnnxRuntime, pero como máximo es el doble de lento.

Esta imagen fue creada en una Raspberry Pi Zero 2. (Crédito de la imagen: Vito Plantamura)

OnnxStream tiene muchas características útiles para aquellos que buscan crear con la herramienta. Algunos ejemplos incluyen el corte de atención, la cuantificación dinámica y estática, la compatibilidad con FP16 e incluso un motor de inferencia desacoplado de WeightsProvider. Puede encontrar una lista completa de características en la página oficial del proyecto.

Source link-41

La próxima versión de Stable Diffusion no producirá manos de espagueti

John — Fri, 23 Jun 2023 04:21:15 +0000

La próxima versión del generador de imágenes de IA basado en indicaciones, Stable Diffusion, producirá imágenes más fotorrealistas y será mejor para hacer manos. SDXL 0.9, una continuación de Stable Diffusion XL, «produce una imagen y un detalle de composición enormemente mejorados en comparación con su predecesor», según Stability AI. El anuncio apareció en una publicación de blog eliminada desde entonces y fue informado por Bloomberg.

Stability AI describe el nuevo modelo como «un salto en los casos de uso creativo para las imágenes generativas de IA». Las imágenes de muestra incluidas en la publicación del blog revelaron avances al usar las mismas indicaciones en Stable Diffusion XL beta y SDXL 0.9. Las imágenes generadas con el modelo más nuevo, incluidos extraterrestres, un lobo y una persona que sostiene una taza de café, parecen mostrar detalles más finos y manos más convincentes. Las manos eran un «indicador» fácil para detectar el arte generado por IA, al menos hasta Midjourney v5, una plataforma rival que se ejecuta en Discord, lanzada en marzo.

Estabilidad IA

“A pesar de su capacidad para ejecutarse en una computadora doméstica estándar, SDXL 0.9 presenta un salto en los casos de uso creativo para imágenes de IA generativa”, dijo Stability AI. “La capacidad de generar creaciones hiperrealistas para películas, televisión, música y videos instructivos, además de ofrecer avances para el diseño y el uso industrial, coloca a SDXL a la vanguardia de las aplicaciones del mundo real para imágenes de IA”.

Stability AI escribe que el «aumento significativo en el recuento de parámetros (la suma de todos los pesos y sesgos en la red neuronal en la que se entrena el modelo)» del nuevo modelo permite obtener mejores resultados. Ejecutar SDXL 0.9 localmente en una PC requerirá un mínimo de 16 GB de RAM y una tarjeta gráfica GeForce RTX 20 (o superior) con 8 GB de VRAM. Es compatible con Windows 11/10 y Linux.

Izquierda: SDXL Beta, Derecha: SDXL 0.9

Estabilidad IA

Según la publicación del blog eliminada, el modelo pronto estará disponible en la herramienta web Clipdrop de Stability AI y se agregará a la aplicación DreamStudio de la startup. La startup dice que la versión de código abierto de SDXL 1.0 llegará a mediados de julio.

Source link-47

Redditor crea códigos QR de anime que funcionan usando Stable Diffusion

John — Wed, 07 Jun 2023 15:40:16 +0000

Agrandar / Una imagen generada por IA de una mujer estilo anime que también funciona como un código QR funcional. Si tiene problemas para leerlo, intente colocar su cámara más lejos de la imagen.

El martes, un usuario de Reddit llamado «nhciao» publicó una serie de códigos QR artísticos creados con el modelo de síntesis de imágenes Stable Diffusion AI que aún se pueden leer como códigos QR funcionales mediante aplicaciones de cámara de teléfonos inteligentes. Las piezas funcionales reflejan estilos artísticos en el anime y el arte asiático.

Los códigos QR, abreviatura de códigos de respuesta rápida, son códigos de barras bidimensionales inicialmente diseñados para la industria automotriz en Japón. Desde entonces, estos códigos han encontrado una amplia gama de aplicaciones en varios campos, incluidos la publicidad, el seguimiento de productos y los pagos digitales, gracias a su capacidad para almacenar una cantidad sustancial de datos. Cuando se escanea con un teléfono inteligente o un escáner de código QR dedicado, se accede y se muestra rápidamente la información codificada (que puede ser texto, la URL de un sitio web u otros datos).

En este caso, a pesar de la presencia de intrincados diseños y patrones generados por IA en las imágenes creadas por nhciao, descubrimos que las aplicaciones de cámara de teléfonos inteligentes tanto en iPhone como en Android todavía pueden leerlos como códigos QR funcionales. Si tiene problemas para leerlos, intente alejar la cámara de las imágenes.

Stable Diffusion es un modelo de síntesis de imágenes impulsado por IA lanzado el año pasado que puede generar imágenes basadas en descripciones de texto. También puede transformar imágenes existentes usando una técnica llamada «img2img». El creador no detalló la técnica exacta utilizada para crear los códigos novedosos en inglés, pero según esta publicación de blog y el título de la publicación de Reddit («ControlNet para código QR»), aparentemente entrenaron varios modelos Stable Diffusion ControlNet personalizados (más ajustes finos de LoRA) que se han acondicionado para crear resultados de diferentes estilos. Luego, introdujeron los códigos QR existentes en el generador de imágenes Stable Diffusion AI y usaron ControlNet para mantener el posicionamiento de los datos del código QR a pesar de sintetizar una imagen a su alrededor, probablemente usando un mensaje escrito.

Existen otras técnicas para hacer códigos QR de aspecto artístico mediante la manipulación de las posiciones de los puntos dentro de los códigos para crear patrones significativos que aún se pueden leer. En este caso, Stable Diffusion no solo controla las posiciones de los puntos, sino que también combina los detalles de la imagen para que coincidan con el código QR.

Este interesante uso de Stable Diffusion es posible gracias a la función de corrección de errores innata integrada en los códigos QR. Esta capacidad de corrección de errores permite restaurar un cierto porcentaje de los datos del código QR si está dañado u oculto, lo que permite un nivel de modificación sin que el código sea ilegible.

En los códigos QR típicos, esta función de corrección de errores sirve para recuperar información si parte del código está dañado o sucio. Pero en el caso de nhciao, se ha aprovechado para combinar la creatividad con la utilidad. Stable Diffusion agregó toques artísticos únicos a los códigos QR sin comprometer su funcionalidad.

Agrandar / Una imagen generada por IA que aún funciona como un código QR funcional.

Todos los códigos en los ejemplos que se ven aquí apuntan a una URL para qrbtf.com, un sitio web generador de códigos QR probablemente administrado por nhciao en función de sus publicaciones anteriores de Reddit de años anteriores. Técnicamente, la técnica podría funcionar con cualquier código QR, aunque alguien en el hilo de Reddit dijo que puede funcionar mejor para URL más cortas debido a la forma en que los códigos QR codifican los datos.

Este descubrimiento abre nuevas posibilidades tanto para el arte digital como para el marketing. Los códigos QR en blanco y negro ordinarios podrían convertirse en obras de arte únicas, mejorando su atractivo estético. El reacción positiva El experimento de nhciao en las redes sociales puede desencadenar una nueva era en la que los códigos QR no son solo herramientas de conveniencia, sino también obras de arte interesantes y complejas.

Source link-49

Stable Diffusion ahora tiene su propio modelo de lenguaje de IA de código abierto

John — Wed, 19 Apr 2023 21:51:03 +0000

Parece que todos y su madre tienen un gran modelo de lenguaje en estos días. Stability AI, una de las empresas que se hizo un nombre al principio de la carrera de ratas de la IA, fue más lenta que sus contemporáneos para ingresar al ámbito de los LLM, hasta ahora, eso es. El miércoles, la empresa Anunciado estaba lanzando EstableLMun «conjunto» de modelos de lenguaje destinados a competir con la sopa de letras AI como GPT-4 de OpenAI, LLaMA de Meta y LaMDA de Google.

contraseñas de Netflix, ChatGPT no puede detectar IA y no más CoTweets | Selecciones del editor

Stability AI dijo que entrenó su nuevo modelo en un código abierto de 800GB conjunto de datos llamado «La pila». La compañía dijo que publicaría detalles sobre los datos de capacitación del nuevo modelo de lenguaje «a su debido tiempo» junto con un informe técnico completo.. Las diferentes versiones «muy alfa» del LLM, como lo expresó el CEO Emad Mostaque, vienen en variedades de parámetros de 3 mil millones y 7 mil millones, y la compañía afirmó que está trabajando en versiones de parámetros de 15 y 65 mil millones. La versión 7B del chatbot es disponible para probar Hugging Face. Este LLM más nuevo fue el intento de Stability AI de «regresar a nuestras raíces abiertas», de acuerdo a a Mostaque.

Las pruebas iniciales de Gizmodo del modelo en forma de chatbot fueron un poco incómodas, por decir lo menos. La IA parecía tener problemas para cambiar de marcha después de que le preguntáramos sobre problemas con los datos de entrenamiento de sus modelos de IA de la competencia, luego sobre la mejor manera de pelar un plátano. El espacio libre en Hugging Face también se está inundando de solicitudes, por lo que es difícil tener una mejor idea de la IA. Sin embargo, algunos usuarios informaron que falla en algunas de las tareas más rudimentarias, como crear una receta para un sándwich de mermelada de mantequilla de maní (recuerde sacar las semillas de plátano al ensamblar, aparentemente).

Los parámetros son esencialmente una forma para que los LLM generen predicciones y oferta una evaluación muy aproximada de cuán sofisticado es cada modelo. A modo de comparación, GPT-3, que fue el primero en impulsar ChatGPT de OpenAI, tenía 175 mil millones de parámetros. La compañía no ha revelado cuántos parámetros tiene GPT-4, pero Semafor informó el mes pasado que la última versión de LLM de OpenAI tiene 1 billón de parámetros. Sin embargo, la cantidad de parámetros no necesariamente informa la calidad de los resultados que genera la IA, y más parámetros generalmente significan Cuesta mucho más poder generar realmente contenido.

Stability AI es consciente de que necesita mejorar para competir con sus competidores más grandes respaldados por Microsoft. La herramienta se desarrolló para ayudar a «la gente común y las empresas cotidianas a usar la IA para desbloquear la creatividad». La compañía anunció que la compañía está «enfocada en un rendimiento de IA eficiente, especializado y práctico, no en la búsqueda de una inteligencia divina». Eso último parece una excavación específica en OpenAI, cuyos ejecutivos parecen obsesionado con la idea de una IA superinteligente.

En Twitter, Mostaque dijo que tanto el LLM como sus datos de capacitación solo mejorarán con el tiempo, y dijo que quiere que eventualmente procese 3 billones de tokens, que podrían describirse mejor como unidades de texto, ya sean letras o palabras.

Estabilidad AI ha sido durante mucho tiempo evangélico en la forma en que habla de AI, con Mostaque a menudo haciendo sonar la bocina para proliferar, código abierto Programas de IA, contra viento y marea. Pero Según los informes, la compañía ha tenido problemas con el dinero últimamente. ya que ha gastado mucho en desarrollar sus proyectos de IA y las empresas más ricas absorben la atención. la puesta en marcha recientemente mostró su modelo Stable Diffusion XL centrado en la empresa eso está destinado a ser incluso mejor que los generadores de imágenes de IA anteriores de la compañía. Aún así, la compañía dijo que todavía planea abrir este nuevo modelo de IA generativa… eventualmente.

Source link-45

El spin-off Stable Diffusion AI te permitirá crear videos extraños a partir de indicaciones de texto

John — Wed, 22 Mar 2023 09:04:55 +0000

En marcado contraste con las IA generativas de texto a imagen, no hay casi nada disponible para video. Pero eso puede cambiar pronto, ya que la empresa emergente Runway ha revelado recientemente su nuevo modelo de IA: Gen-2.

Con un funcionamiento similar a Stable Diffusion (que, por cierto, Runway participó en la creación), Gen-2 funciona tomando indicaciones de texto para crear videos desde cero. Como se ve en el sitio web del desarrollador (se abre en una pestaña nueva), puede crear tomas aéreas de una cadena montañosa o una puesta de sol fuera de un loft en la ciudad de Nueva York. Una actualización de texto a video puede no parecer tan impresionante al principio, pero lo es si la comparas con el esfuerzo anterior de Runway.

En febrero, el desarrollador lanzó su Modelo Gen-1 (se abre en una pestaña nueva) que era más un editor de video. Requería algún tipo de base, como una animación 3D sin terminar o una persona, antes de que el modelo superpusiera ese metraje con un video creado por IA. La antigua IA no podía crear nada desde cero.

Modos de IA

Los fanáticos del modelo anterior podrán seguir disfrutando de Gen-1, ya que sus características se convertirán en modos separados en Gen-2.

El modo 01, sin embargo, es el componente principal de la función de texto a video. El segundo modo nuevo le permite agregar una imagen a un mensaje de texto para producir mejores resultados. Y con el tercer modo, solo carga una imagen para generar un video. No se requerirá un mensaje de texto.

Todo más allá del Modo 03 es todo Cosas Gen-1 (se abre en una pestaña nueva). Modo 04: la estilización aplica los «estilos de cualquier mensaje de imagen a cada cuadro de su video» como si agregara un efecto de fuego. Modo 05: Storyboard convierte imágenes de maquetas en videos renderizados por IA. El siguiente es Máscara para aislar sujetos y modificarlos con indicaciones simples como «Agregue puntos a un labrador para crear un dálmata». El séptimo es Render, donde la IA genera un video sobre un render 3D. El último, Customization, hace lo mismo que Render, pero con personas.

Disponibilidad

Esta tecnología aún se encuentra en sus primeras etapas. Las vistas previas del carrete de demostración tienen un aspecto bastante extraño, por decir lo menos. Están en lo profundo del valle misterioso mientras los edificios se funden unos con otros y la gente luce miradas vacías. Aun así, la posibilidad de tener una IA generativa de texto a video disponible públicamente es emocionante. Puede abrir nuevas vías para la creatividad (o la desinformación). Algunos gigantes tecnológicos han incursionado en el video de IA antes, como Google y su proyecto Imagen Vídeopero esos modelos siguen a puertas cerradas.

algunos informes (se abre en una pestaña nueva) afirma que hay una lista de espera para el acceso anticipado a Gen-2 en el canal privado Discord de Runway. Sin embargo, la única versión beta que encontramos es para Gen-1. Es posible que haya una versión beta Gen-2 más adelante en el año, aunque no hay noticias oficiales en este momento. Mientras tanto, puede unirse al canal Discord para obtener actualizaciones a través del sitio web de Runway.

Source link-35