El nuevo generador de imágenes de IA de OpenAI supera los límites en detalle y fidelidad inmediata


El miércoles, OpenAI anunció DALL-E 3, la última versión de su modelo de síntesis de imágenes de IA que presenta una integración total con ChatGPT. DALL-E 3 renderiza imágenes siguiendo de cerca descripciones complejas y manejando la generación de texto en la imagen (como etiquetas y letreros), lo que desafió a los modelos anteriores. Actualmente en fase preliminar de investigación, estará disponible para los clientes de ChatGPT Plus y Enterprise a principios de octubre.

Al igual que su predecesor, DALLE-3 es un generador de texto a imagen que crea imágenes novedosas basadas en descripciones escritas llamadas indicaciones. Aunque OpenAI no publicó detalles técnicos sobre DALL-E 3, el modelo de IA en el corazón de versiones anteriores de DALL-E se entrenó en millones de imágenes creadas por artistas y fotógrafos humanos, algunos de ellos con licencia de sitios web de stock como Shutterstock. Es probable que DALL-E 3 siga esta misma fórmula, pero con nuevas técnicas de entrenamiento y más tiempo de entrenamiento computacional.

A juzgar por los ejemplos proporcionados por OpenAI en su blog promocional, DALL-E 3 parece ser un modelo de síntesis de imágenes radicalmente más capaz que cualquier otro disponible en términos de seguimiento de indicaciones. Si bien los ejemplos de OpenAI han sido seleccionados cuidadosamente por su efectividad, parecen seguir las instrucciones fielmente y representar objetos de manera convincente con deformaciones mínimas en comparación con los modelos existentes. En comparación con DALL-E 2, OpenAI dice que DALL-E 3 refina pequeños detalles como las manos de manera más efectiva, creando imágenes atractivas de forma predeterminada «sin necesidad de hacks ni ingeniería rápida».

En comparación, Midjourney, un modelo competidor de síntesis de imágenes mediante IA de otro proveedor, reproduce bien los detalles fotorrealistas, pero aún requiere una gran cantidad de retoques contrarios a la intuición con indicaciones para obtener control sobre la salida de la imagen.

DALL-E 3 también parece manejar texto dentro de imágenes de una manera que su predecesor no podía (algunos modelos de la competencia como Stable Diffusion XL y DeepFloyd están mejorando en eso). Por ejemplo, un mensaje que incluía las palabras «Una ilustración de un aguacate sentado en la silla de un terapeuta, diciendo ‘Me siento tan vacío por dentro’ con un agujero del tamaño de un hoyo en el centro», creó perfectamente un aguacate de dibujos animados con la cita del personaje. encapsulado en un bocadillo.

En particular, OpenAI dice que DALL-E 3 se ha «construido de forma nativa» en ChatGPT y llegará como una característica integrada de ChatGPT Plus, permitiendo refinamientos conversacionales de imágenes de una manera que utilizará el asistente de IA como socio de lluvia de ideas. También significa que ChatGPT podrá generar imágenes basadas en el contexto de la conversación actual, lo que puede conducir a nuevas capacidades novedosas. El asistente Bing Chat AI de Microsoft, también basado en tecnología de OpenAI, ha podido generar imágenes en conversaciones desde marzo.



Source link-49