Apple creó una herramienta de imágenes con IA que te permite realizar ediciones describiéndolas


Investigadores de Apple lanzó un nuevo modelo que permite a los usuarios describir en lenguaje sencillo lo que quieren cambiar en una foto sin siquiera tocar el software de edición de fotografías.

El modelo MGIE, en el que Apple trabajó con la Universidad de California en Santa Bárbara, puede recortar, cambiar el tamaño, voltear y agregar filtros a las imágenes mediante mensajes de texto.

MGIE, que significa edición de imágenes guiada por MLLM, se puede aplicar a tareas de edición de imágenes simples y más complejas, como modificar objetos específicos en una foto para darles una forma diferente o lucir más brillantes. El modelo combina dos usos diferentes de modelos de lenguaje multimodal. Primero, aprende a interpretar las indicaciones del usuario. Luego «imagina» cómo se vería la edición (pedir un cielo más azul en una foto equivale a aumentar el brillo en la parte del cielo de una imagen, por ejemplo).

Al editar una foto con MGIE, los usuarios sólo tienen que escribir lo que quieren cambiar en la imagen. El artículo utilizó el ejemplo de la edición de una imagen de una pizza de pepperoni. Al escribir el mensaje «hazlo más saludable», se agregan aderezos de verduras. Una fotografía de tigres en el Sahara parece oscura, pero después de decirle al modelo que «agregue más contraste para simular más luz», la imagen parece más brillante.

a: flotar]:text-gray-63 [&>a:hover]:sombra-subrayado-negro oscuro:[&>a:hover]:texto-gris-bd oscuro:[&>a:hover]:sombra-subrayado-gris [&>a]:sombra-subrayado-gris-63 oscuro:[&>a]:texto-gris-bd oscuro:[&>a]:sombra-subrayado-gris»>Imagen: Apple

“En lugar de una guía breve pero ambigua, MGIE deriva una intención visual explícita y conduce a una edición de imágenes razonable. Realizamos estudios exhaustivos desde diversos aspectos de la edición y demostramos que nuestro MGIE mejora eficazmente el rendimiento manteniendo la eficiencia competitiva. También creemos que el marco guiado por MLLM puede contribuir a futuras investigaciones sobre visión y lenguaje”, dijeron los investigadores en el artículo.

Apple puso MGIE a disposición a través de GitHub para su descarga, pero también lanzó una demostración web sobre Hugging Face Spaces. informes VentureBeat. La compañía no dijo cuáles son sus planes para el modelo más allá de la investigación.

Algunas plataformas de generación de imágenes, como DALL-E 3 de OpenAI, pueden realizar tareas sencillas de edición de fotografías en imágenes que crean mediante entradas de texto. Adobe, el creador de Photoshop, al que la mayoría de la gente recurre para editar imágenes, también tiene su propio modelo de edición de IA. Es IA de luciérnaga El modelo impulsa el relleno generativo, que agrega fondos generados a las fotos.



Source link-37