{"id":493819,"date":"2023-03-03T11:00:09","date_gmt":"2023-03-03T11:00:09","guid":{"rendered":"https:\/\/magazineoffice.com\/microsoft-presenta-un-modelo-de-ia-que-comprende-el-contenido-de-la-imagen-y-resuelve-acertijos-visuales\/"},"modified":"2023-03-03T11:00:11","modified_gmt":"2023-03-03T11:00:11","slug":"microsoft-presenta-un-modelo-de-ia-que-comprende-el-contenido-de-la-imagen-y-resuelve-acertijos-visuales","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/microsoft-presenta-un-modelo-de-ia-que-comprende-el-contenido-de-la-imagen-y-resuelve-acertijos-visuales\/","title":{"rendered":"Microsoft presenta un modelo de IA que comprende el contenido de la imagen y resuelve acertijos visuales"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div itemprop=\"articleBody\">\n<figure class=\"intro-image intro-left\"><figcaption class=\"caption\">\n<div class=\"caption-text\">Agrandar <span class=\"sep\">\/<\/span> Una imagen generada por IA de un cerebro electr\u00f3nico con un globo ocular.<\/div>\n<p>Ars Technica<\/p>\n<\/figcaption><\/figure>\n<aside id=\"social-left\" class=\"social-left\" aria-label=\"Read the comments or share this article\">\n<\/aside>\n<p><!-- cache hit 252:single\/related:fb87789b46e22f8bf41b7a631c1d32da --><!-- empty --><\/p>\n<p>El lunes, investigadores de Microsoft presentaron Kosmos-1, un modelo multimodal que, seg\u00fan se informa, puede analizar im\u00e1genes en busca de contenido, resolver acertijos visuales, realizar reconocimiento de texto visual, aprobar pruebas de coeficiente intelectual visual y comprender instrucciones en lenguaje natural.  Los investigadores creen que la IA multimodal, que integra diferentes modos de entrada, como texto, audio, im\u00e1genes y video, es un paso clave para construir una inteligencia artificial general (AGI) que pueda realizar tareas generales al nivel de un ser humano.<\/p>\n<p>\u00ab<span dir=\"ltr\" role=\"presentation\">Al ser una parte b\u00e1sica de la inteligencia, multimodal <\/span><span dir=\"ltr\" role=\"presentation\">la percepci\u00f3n es una necesidad para lograr artificial <span class=\"highlight selected appended\">inteligencia general<\/span>en t\u00e9rminos de adquisici\u00f3n de conocimientos <\/span><span dir=\"ltr\" role=\"presentation\">y conexi\u00f3n a tierra con el mundo real\u00bb, escriben los investigadores en su art\u00edculo acad\u00e9mico, <em>El lenguaje no es todo lo que necesita: alinear la percepci\u00f3n con los modelos de lenguaje<\/em>.<\/span><\/p>\n<p>Los ejemplos visuales del documento Kosmos-1 muestran al modelo analizando im\u00e1genes y respondiendo preguntas sobre ellas, leyendo el texto de una imagen, escribiendo subt\u00edtulos para las im\u00e1genes y realizando una prueba de coeficiente intelectual visual con una precisi\u00f3n del 22 al 26 por ciento (m\u00e1s sobre eso a continuaci\u00f3n).<\/p>\n<div class=\"gallery shortcode-gallery gallery-wide\">\n<ul>\n<li data-thumb=\"https:\/\/cdn.arstechnica.net\/wp-content\/uploads\/2023\/03\/kosmos_answering_questions-150x150.jpg\" data-src=\"https:\/\/cdn.arstechnica.net\/wp-content\/uploads\/2023\/03\/kosmos_answering_questions.jpg\" data-responsive=\"https:\/\/cdn.arstechnica.net\/wp-content\/uploads\/2023\/03\/kosmos_answering_questions-980x704.jpg 1080, https:\/\/cdn.arstechnica.net\/wp-content\/uploads\/2023\/03\/kosmos_answering_questions.jpg 2560\" data-sub-html=\"#caption-1921151\">\n<figure style=\"height:728px;\"><figcaption id=\"caption-1921151\">\n                <span class=\"icon caption-arrow icon-drop-indicator\"\/><\/p>\n<p>                    Un ejemplo proporcionado por Microsoft de Kosmos-1 respondiendo preguntas sobre im\u00e1genes y sitios web.                  <\/p>\n<p>\n                    <span class=\"icon icon-camera\"\/><\/p>\n<p>                                          microsoft                                      <\/p>\n<\/figcaption><\/figure>\n<\/li>\n<li data-thumb=\"https:\/\/cdn.arstechnica.net\/wp-content\/uploads\/2023\/03\/kosmos-chain-of-thought-150x150.jpg\" data-src=\"https:\/\/cdn.arstechnica.net\/wp-content\/uploads\/2023\/03\/kosmos-chain-of-thought.jpg\" data-responsive=\"https:\/\/cdn.arstechnica.net\/wp-content\/uploads\/2023\/03\/kosmos-chain-of-thought.jpg 1080, https:\/\/cdn.arstechnica.net\/wp-content\/uploads\/2023\/03\/kosmos-chain-of-thought.jpg 2560\" data-sub-html=\"#caption-1921152\">\n<figure style=\"height:728px;\"><figcaption id=\"caption-1921152\">\n                <span class=\"icon caption-arrow icon-drop-indicator\"\/><\/p>\n<p>                    Un ejemplo proporcionado por Microsoft de \u00abindicaci\u00f3n de cadena de pensamiento multimodal\u00bb para Kosmos-1.                  <\/p>\n<p>\n                    <span class=\"icon icon-camera\"\/><\/p>\n<p>                                          microsoft                                      <\/p>\n<\/figcaption><\/figure>\n<\/li>\n<li data-thumb=\"https:\/\/cdn.arstechnica.net\/wp-content\/uploads\/2023\/03\/kosmos_visual_question_answering-150x150.jpg\" data-src=\"https:\/\/cdn.arstechnica.net\/wp-content\/uploads\/2023\/03\/kosmos_visual_question_answering.jpg\" data-responsive=\"https:\/\/cdn.arstechnica.net\/wp-content\/uploads\/2023\/03\/kosmos_visual_question_answering.jpg 1080, https:\/\/cdn.arstechnica.net\/wp-content\/uploads\/2023\/03\/kosmos_visual_question_answering.jpg 2560\" data-sub-html=\"#caption-1921150\">\n<figure style=\"height:728px;\"><figcaption id=\"caption-1921150\">\n                <span class=\"icon caption-arrow icon-drop-indicator\"\/><\/p>\n<p>                    Un ejemplo de Kosmos-1 respondiendo preguntas visuales, proporcionado por Microsoft.                  <\/p>\n<p>\n                    <span class=\"icon icon-camera\"\/><\/p>\n<p>                                          microsoft                                      <\/p>\n<\/figcaption><\/figure>\n<\/li>\n<\/ul><\/div>\n<p>Mientras los medios de comunicaci\u00f3n zumban con noticias sobre modelos de lenguaje extenso (LLM), algunos expertos en IA apuntan a la IA multimodal como un camino potencial hacia la inteligencia artificial general, una tecnolog\u00eda hipot\u00e9tica que aparentemente podr\u00e1 reemplazar a los humanos en cualquier tarea intelectual (y cualquier trabajo intelectual). ).  AGI es el objetivo declarado de OpenAI, un socio comercial clave de Microsoft en el espacio de IA.<\/p>\n<p>En este caso, Kosmos-1 parece ser un proyecto puramente de Microsoft, sin la participaci\u00f3n de OpenAI.  Los investigadores llaman a su creaci\u00f3n un \u00abmodelo de lenguaje grande multimodal\u00bb (MLLM) porque sus ra\u00edces se encuentran en el procesamiento del lenguaje natural, como un LLM de solo texto, como ChatGPT.  Y se nota: para que Kosmos-1 acepte la entrada de im\u00e1genes, los investigadores primero deben traducir la imagen a una serie especial de tokens (b\u00e1sicamente texto) que el LLM pueda entender.  El documento Kosmos-1 describe esto con m\u00e1s detalle:<\/p>\n<aside class=\"ad_wrapper\" aria-label=\"In Content advertisement\">\n    <span class=\"ad_notice\">Anuncio <\/span>    <\/p>\n<\/aside>\n<blockquote>\n<div class=\"flex flex-grow flex-col gap-3\">\n<div class=\"min-h-[20px] flex flex-col items-start gap-4 whitespace-pre-wrap\">\n<div class=\"markdown prose w-full break-words dark:prose-invert light\">\n<p>Para el formato de entrada, aplanamos la entrada como una secuencia decorada con tokens especiales.  Espec\u00edficamente, usamos y para indicar el inicio y el final de la secuencia.  Las fichas especiales <img\/> e indicar el comienzo y el final de las incrustaciones de im\u00e1genes codificadas.  Por ejemplo, \u00bb <em>documento<\/em> <\/g>\u201d es una entrada de texto, y \u00ab<s> p\u00e1rrafo <image> Incrustaci\u00f3n de im\u00e1genes <\/image> <em>p\u00e1rrafo<\/em> <\/s>\u201d es una entrada de texto de imagen intercalada.<\/p>\n<p>&#8230; Se utiliza un m\u00f3dulo de incrustaci\u00f3n para codificar tokens de texto y otras modalidades de entrada en vectores.  Luego, las incrustaciones se introducen en el decodificador.  Para los tokens de entrada, usamos una tabla de b\u00fasqueda para mapearlos en incrustaciones.  Para las modalidades de se\u00f1ales continuas (p. ej., imagen y audio), tambi\u00e9n es factible representar las entradas como c\u00f3digo discreto y luego considerarlas como \u00ablenguas extranjeras\u00bb.<\/p>\n<\/div>\n<\/div>\n<\/div>\n<\/blockquote>\n<p>Microsoft entren\u00f3 a Kosmos-1 utilizando datos de la web, incluidos extractos de The Pile (un recurso de texto en ingl\u00e9s de 800 GB) y Common Crawl.  Despu\u00e9s del entrenamiento, evaluaron las habilidades de Kosmos-1 en varias pruebas, incluida la comprensi\u00f3n del idioma, la generaci\u00f3n del idioma, la clasificaci\u00f3n de texto sin reconocimiento \u00f3ptico de caracteres, los subt\u00edtulos de im\u00e1genes, la respuesta visual a preguntas, la respuesta a preguntas de p\u00e1ginas web y la clasificaci\u00f3n de im\u00e1genes sin disparo.  En muchas de estas pruebas, Kosmos-1 super\u00f3 a los modelos actuales de \u00faltima generaci\u00f3n, seg\u00fan Microsoft.<\/p>\n<figure class=\"image shortcode-img center large\" style=\"width:100%\"><img loading=\"lazy\" decoding=\"async\" alt=\"Un ejemplo de la prueba Raven IQ que Kosmos-1 se encarg\u00f3 de resolver.\" src=\"https:\/\/cdn.arstechnica.net\/wp-content\/uploads\/2023\/03\/kosmos_raven_example-640x509.jpg\" width=\"640\" height=\"509\" srcset=\"https:\/\/cdn.arstechnica.net\/wp-content\/uploads\/2023\/03\/kosmos_raven_example.jpg 2x\"\/><figcaption class=\"caption\">\n<div class=\"caption-text\">Agrandar <span class=\"sep\">\/<\/span> Un ejemplo de la prueba Raven IQ que Kosmos-1 se encarg\u00f3 de resolver.<\/div>\n<p>microsoft<\/p>\n<\/figcaption><\/figure>\n<p>De particular inter\u00e9s es el desempe\u00f1o de Kosmos-1 en Razonamiento progresivo de Raven, que mide el coeficiente intelectual visual al presentar una secuencia de formas y pedirle al examinado que complete la secuencia.  Para probar Kosmos-1, los investigadores le dieron una prueba completa, una a la vez, con cada opci\u00f3n completada, y preguntaron si la respuesta era correcta.  Kosmos-1 solo pudo responder correctamente una pregunta en la prueba Raven el 22 por ciento de las veces (26 por ciento con ajuste fino).  Esto de ninguna manera es f\u00e1cil, y los errores en la metodolog\u00eda podr\u00edan haber afectado los resultados, pero Kosmos-1 super\u00f3 la probabilidad aleatoria (17 por ciento) en la prueba Raven IQ.<\/p>\n<p>A\u00fan as\u00ed, aunque Kosmos-1 representa los primeros pasos en el dominio multimodal (un enfoque que otros tambi\u00e9n persiguen), es f\u00e1cil imaginar que las futuras optimizaciones podr\u00edan generar resultados a\u00fan m\u00e1s significativos, permitiendo que los modelos de IA perciban cualquier forma de medios y act\u00faen en consecuencia. , que mejorar\u00e1 en gran medida las habilidades de los asistentes artificiales.  En el futuro, los investigadores dicen que les gustar\u00eda ampliar Kosmos-1 en tama\u00f1o de modelo e integrar tambi\u00e9n la capacidad de voz.<\/p>\n<p>Microsoft dice que planea hacer que Kosmos-1 est\u00e9 disponible para los desarrolladores, aunque la p\u00e1gina de GitHub que cita el documento no tiene un c\u00f3digo espec\u00edfico obvio de Kosmos tras la publicaci\u00f3n de esta historia.<\/p>\n<\/p><\/div>\n<p><br \/>\n<br \/><a href=\"https:\/\/magazineoffice.com\/\">Source link-49<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Agrandar \/ Una imagen generada por IA de un cerebro electr\u00f3nico con un globo ocular. Ars Technica El lunes, investigadores de Microsoft presentaron Kosmos-1, un modelo multimodal que, seg\u00fan se&hellip;<\/p>\n","protected":false},"author":1,"featured_media":493820,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[19612,66193,2695,275,683,1488,272,6831,16368],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/493819"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=493819"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/493819\/revisions"}],"predecessor-version":[{"id":493821,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/493819\/revisions\/493821"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/493820"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=493819"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=493819"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=493819"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}