{"id":573883,"date":"2023-04-14T19:26:29","date_gmt":"2023-04-14T19:26:29","guid":{"rendered":"https:\/\/magazineoffice.com\/openai-mira-mas-alla-de-la-difusion-con-un-generador-de-imagenes-basado-en-la-consistencia\/"},"modified":"2023-04-14T19:26:32","modified_gmt":"2023-04-14T19:26:32","slug":"openai-mira-mas-alla-de-la-difusion-con-un-generador-de-imagenes-basado-en-la-consistencia","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/openai-mira-mas-alla-de-la-difusion-con-un-generador-de-imagenes-basado-en-la-consistencia\/","title":{"rendered":"OpenAI mira m\u00e1s all\u00e1 de la difusi\u00f3n con un generador de im\u00e1genes basado en la \u00abconsistencia\u00bb"},"content":{"rendered":"


\n<\/p>\n

\n

El campo de la generaci\u00f3n de im\u00e1genes se mueve r\u00e1pidamente. Aunque los modelos de difusi\u00f3n utilizados por herramientas populares como Midjourney y Stable Diffusion pueden parecer los mejores que tenemos, lo siguiente siempre est\u00e1 llegando, y OpenAI podr\u00eda haberlo encontrado con \u00abmodelos de consistencia\u00bb, que ya pueden realizar tareas simples y orden de magnitud m\u00e1s r\u00e1pido que los gustos de DALL-E.<\/p>\n

El documento se puso en l\u00ednea como preimpresi\u00f3n el mes pasado y no estuvo acompa\u00f1ado por la fanfarria discreta que OpenAI reserva para sus principales lanzamientos. Eso no es una sorpresa: este es definitivamente solo un trabajo de investigaci\u00f3n, y es muy t\u00e9cnico. Pero los resultados de esta t\u00e9cnica temprana y experimental son lo suficientemente interesantes como para notarlos.<\/p>\n

Los modelos de consistencia no son particularmente f\u00e1ciles de explicar, pero tienen m\u00e1s sentido en contraste con los modelos de difusi\u00f3n.<\/p>\n

En difusi\u00f3n, un modelo aprende a restar gradualmente el ruido de una imagen inicial hecha completamente de ruido, acerc\u00e1ndola paso a paso al indicador de destino. Este enfoque ha permitido las im\u00e1genes de IA m\u00e1s impresionantes de la actualidad, pero fundamentalmente se basa en realizar entre 10 y miles de pasos para obtener buenos resultados. Eso significa que es costoso de operar y tambi\u00e9n lo suficientemente lento como para que las aplicaciones en tiempo real no sean pr\u00e1cticas.<\/p>\n

El objetivo de los modelos de consistencia era crear algo que obtuviera resultados decentes en un solo paso de c\u00e1lculo, o como m\u00e1ximo en dos. Para hacer esto, el modelo se entrena, como un modelo de difusi\u00f3n, para observar el proceso de destrucci\u00f3n de la imagen, pero aprende a tomar una imagen en cualquier nivel de oscurecimiento (es decir, con poca informaci\u00f3n faltante o mucha) y genera una imagen de origen completa en solo un paso<\/p>\n

Pero me apresuro a agregar que esta es solo la descripci\u00f3n m\u00e1s complicada de lo que est\u00e1 sucediendo. Es este tipo de papel:<\/p>\n

\n

Un extracto representativo del documento de consistencia. Cr\u00e9ditos de imagen:<\/strong> IA abierta<\/p>\n<\/div>\n

Las im\u00e1genes resultantes no son alucinantes: muchas de las im\u00e1genes apenas pueden llamarse buenas. Pero lo que importa es que se generaron en un solo paso en lugar de cien o mil. Adem\u00e1s, el modelo de consistencia se generaliza a diversas tareas como colorear, escalar, interpretar bocetos, rellenar, etc., tambi\u00e9n con un solo paso (aunque con frecuencia mejorado por un segundo).<\/p>\n

\"\"<\/p>\n

Ya sea que la imagen sea principalmente ruido o principalmente datos, los modelos de consistencia van directamente a un resultado final. Cr\u00e9ditos de imagen:<\/strong> IA abierta<\/p>\n<\/div>\n

Esto es importante, primero, porque el patr\u00f3n en la investigaci\u00f3n de aprendizaje autom\u00e1tico es generalmente que alguien establece una t\u00e9cnica, alguien m\u00e1s encuentra una manera de hacer que funcione mejor, luego otros la ajustan con el tiempo mientras agregan c\u00f3mputo para producir resultados dr\u00e1sticamente mejores que los iniciales. M\u00e1s o menos as\u00ed es como terminamos con los modelos de difusi\u00f3n modernos y ChatGPT. Este es un proceso autolimitado porque pr\u00e1cticamente solo puede dedicar una cantidad determinada de c\u00f3mputo a una tarea determinada.<\/p>\n

Sin embargo, lo que sucede a continuaci\u00f3n es una t\u00e9cnica nueva y m\u00e1s eficiente que puede hacer lo que hizo el modelo anterior, mucho peor al principio pero tambi\u00e9n mucho m\u00e1s eficiente. Los modelos de consistencia demuestran esto, aunque todav\u00eda es lo suficientemente temprano como para que no puedan compararse directamente con los de difusi\u00f3n.<\/p>\n

Pero es importante en otro nivel porque indica c\u00f3mo OpenAI, f\u00e1cilmente el equipo de investigaci\u00f3n de IA m\u00e1s influyente del mundo en este momento, est\u00e1 mirando activamente m\u00e1s all\u00e1 de la difusi\u00f3n en los casos de uso de la pr\u00f3xima generaci\u00f3n.<\/p>\n

S\u00ed, si desea realizar 1500 iteraciones en uno o dos minutos con un grupo de GPU, puede obtener resultados sorprendentes con los modelos de difusi\u00f3n. Pero, \u00bfqu\u00e9 sucede si desea ejecutar un generador de im\u00e1genes en el tel\u00e9fono de alguien sin agotar su bater\u00eda o proporcionar resultados ultrarr\u00e1pidos, por ejemplo, en una interfaz de chat en vivo? La difusi\u00f3n es simplemente la herramienta incorrecta para el trabajo, y los investigadores de OpenAI est\u00e1n buscando activamente la correcta, incluido Ilya Sutskever, un nombre muy conocido en el campo, sin restar importancia a las contribuciones de los otros autores, Yang Song, Prafulla Dhariwal y Mark. Chen.<\/p>\n

Si los modelos de consistencia son el pr\u00f3ximo gran paso para OpenAI o simplemente otra flecha en su carcaj (el futuro es casi seguro tanto multimodal como multimodelo) depender\u00e1 de c\u00f3mo se desarrolle la investigaci\u00f3n. He pedido m\u00e1s detalles y actualizar\u00e9 esta publicaci\u00f3n si recibo noticias de los investigadores.<\/p>\n<\/p><\/div>\n


\n
Source link-48<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"

El campo de la generaci\u00f3n de im\u00e1genes se mueve r\u00e1pidamente. Aunque los modelos de difusi\u00f3n utilizados por herramientas populares como Midjourney y Stable Diffusion pueden parecer los mejores que tenemos,…<\/p>\n","protected":false},"author":1,"featured_media":573884,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[3618,2102,133,35647,45804,28224,666,84,2662,49133],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/573883"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=573883"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/573883\/revisions"}],"predecessor-version":[{"id":573885,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/573883\/revisions\/573885"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/573884"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=573883"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=573883"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=573883"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}