2024 - El nuevo generador de imágenes de IA de OpenAI supera los límites en detalle y fidelidad inmediata

El miércoles, OpenAI anunció DALL-E 3, la última versión de su modelo de síntesis de imágenes de IA que presenta una integración total con ChatGPT. DALL-E 3 renderiza imágenes siguiendo de cerca descripciones complejas y manejando la generación de texto en la imagen (como etiquetas y letreros), lo que desafió a los modelos anteriores. Actualmente en fase preliminar de investigación, estará disponible para los clientes de ChatGPT Plus y Enterprise a principios de octubre.

Al igual que su predecesor, DALLE-3 es un generador de texto a imagen que crea imágenes novedosas basadas en descripciones escritas llamadas indicaciones. Aunque OpenAI no publicó detalles técnicos sobre DALL-E 3, el modelo de IA en el corazón de versiones anteriores de DALL-E se entrenó en millones de imágenes creadas por artistas y fotógrafos humanos, algunos de ellos con licencia de sitios web de stock como Shutterstock. Es probable que DALL-E 3 siga esta misma fórmula, pero con nuevas técnicas de entrenamiento y más tiempo de entrenamiento computacional.

A juzgar por los ejemplos proporcionados por OpenAI en su blog promocional, DALL-E 3 parece ser un modelo de síntesis de imágenes radicalmente más capaz que cualquier otro disponible en términos de seguimiento de indicaciones. Si bien los ejemplos de OpenAI han sido seleccionados cuidadosamente por su efectividad, parecen seguir las instrucciones fielmente y representar objetos de manera convincente con deformaciones mínimas en comparación con los modelos existentes. En comparación con DALL-E 2, OpenAI dice que DALL-E 3 refina pequeños detalles como las manos de manera más efectiva, creando imágenes atractivas de forma predeterminada «sin necesidad de hacks ni ingeniería rápida».

Una imagen de DALL-E 3 proporcionada por OpenAI con el mensaje: «Una ilustración de un aguacate sentado en la silla de un terapeuta, diciendo ‘Me siento tan vacío por dentro’ con un agujero del tamaño de un hoyo en el centro. El terapeuta, una cuchara, garabatea notas.»

AbiertoAI
Una imagen de DALL-E 3 proporcionada por OpenAI con el mensaje: «Un vasto paisaje hecho enteramente de diversas carnes se extiende ante el espectador. Tiernas y suculentas colinas de rosbif, árboles de muslos de pollo, ríos de tocino y cantos rodados de jamón crean un paisaje surrealista, pero apetitosa escena. El cielo está adornado con sol de pepperoni y nubes de salami».

AbiertoAI
Una imagen de DALL-E 3 proporcionada por OpenAI con el mensaje: «Un diorama en minimapa de una cafetería adornada con plantas de interior. Vigas de madera se entrecruzan arriba y una estación de cerveza fría se destaca con pequeñas botellas y vasos».

AbiertoAI
Una imagen de DALL-E 3 proporcionada por OpenAI con el mensaje: «Fotografía en primer plano de un cangrejo ermitaño enclavado en arena húmeda, con espuma de mar cerca y los detalles de su caparazón y la textura de la arena acentuados».

AbiertoAI
Una imagen de DALL-E 3 proporcionada por OpenAI con el siguiente mensaje: «Una artesanía en papel que representa a una niña dándole un suave abrazo a su gato. Ambos están sentados en medio de macetas con plantas, con el gato ronroneando contento mientras la niña sonríe. La escena está adornada con objetos hechos a mano. flores y hojas de papel.»

AbiertoAI
Una imagen de DALL-E 3 proporcionada por OpenAI con el mensaje: «Escena de pixel art de la Torre Coit erguida en Telegraph Hill, con una vista panorámica de la ciudad debajo y pájaros volando alrededor».

AbiertoAI
Una imagen de DALL-E 3 proporcionada por OpenAI con el mensaje: «Pequeños reyes de la papa con coronas majestuosas, sentados en tronos, supervisando su vasto reino de la papa lleno de súbditos y castillos de papa».

AbiertoAI
Una imagen de DALL-E 3 proporcionada por OpenAI con el mensaje: «Una ilustración de un corazón humano hecho de vidrio translúcido, parado sobre un pedestal en medio de un mar tormentoso. Los rayos del sol atraviesan las nubes, iluminando el corazón y revelando un pequeño universo dentro . La cita ‘Encuentra el universo dentro de ti’ está grabada en letras negritas en el horizonte».

AbiertoAI
Una imagen de DALL-E 3 proporcionada por OpenAI con el mensaje: «Una mujer de mediana edad de ascendencia asiática, con su cabello oscuro veteado de plata, parece fracturado y astillado, intrincadamente incrustado dentro de un mar de porcelana rota. La porcelana brilla con salpicaduras de pintura. patrones en una combinación armoniosa de azules, verdes, naranjas y rojos brillantes y mate, capturando su danza en una yuxtaposición surrealista de movimiento y quietud. Su tono de piel, un tono claro como la porcelana, agrega una cualidad casi mística a su forma. »

AbiertoAI

En comparación, Midjourney, un modelo competidor de síntesis de imágenes mediante IA de otro proveedor, reproduce bien los detalles fotorrealistas, pero aún requiere una gran cantidad de retoques contrarios a la intuición con indicaciones para obtener control sobre la salida de la imagen.

DALL-E 3 también parece manejar texto dentro de imágenes de una manera que su predecesor no podía (algunos modelos de la competencia como Stable Diffusion XL y DeepFloyd están mejorando en eso). Por ejemplo, un mensaje que incluía las palabras «Una ilustración de un aguacate sentado en la silla de un terapeuta, diciendo ‘Me siento tan vacío por dentro’ con un agujero del tamaño de un hoyo en el centro», creó perfectamente un aguacate de dibujos animados con la cita del personaje. encapsulado en un bocadillo.

En particular, OpenAI dice que DALL-E 3 se ha «construido de forma nativa» en ChatGPT y llegará como una característica integrada de ChatGPT Plus, permitiendo refinamientos conversacionales de imágenes de una manera que utilizará el asistente de IA como socio de lluvia de ideas. También significa que ChatGPT podrá generar imágenes basadas en el contexto de la conversación actual, lo que puede conducir a nuevas capacidades novedosas. El asistente Bing Chat AI de Microsoft, también basado en tecnología de OpenAI, ha podido generar imágenes en conversaciones desde marzo.

Source link-49

Resident Evil 9: en lugar de Leon Kennedy: por eso podría haber un nuevo personaje principal

Competencia por la IA: Google muestra sus cartas de triunfo

Debate sobre el futuro institucional de Nueva Caledonia: el archipiélago bajo toque de queda tras la violencia

El Señor de los Anillos: Rings of Power tiene fecha de lanzamiento de la temporada 2, el primer tráiler muestra la lucha contra Sauron

El nuevo generador de imágenes de IA de OpenAI supera los límites en detalle y fidelidad inmediata