{"id":1069832,"date":"2024-03-29T13:31:12","date_gmt":"2024-03-29T13:31:12","guid":{"rendered":"https:\/\/magazineoffice.com\/el-nuevo-modelo-de-ia-de-ai21-labs-puede-manejar-mas-contexto-que-la-mayoria\/"},"modified":"2024-03-29T13:31:15","modified_gmt":"2024-03-29T13:31:15","slug":"el-nuevo-modelo-de-ia-de-ai21-labs-puede-manejar-mas-contexto-que-la-mayoria","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/el-nuevo-modelo-de-ia-de-ai21-labs-puede-manejar-mas-contexto-que-la-mayoria\/","title":{"rendered":"El nuevo modelo de IA de AI21 Labs puede manejar m\u00e1s contexto que la mayor\u00eda"},"content":{"rendered":"


\n<\/p>\n

\n

Cada vez m\u00e1s, la industria de la IA avanza hacia modelos de IA generativa con contextos m\u00e1s largos. Pero los modelos con ventanas de contexto grandes tienden a requerir un uso intensivo de computaci\u00f3n. O Dagan, l\u00edder de producto de la startup de IA AI21 Labs, afirma que este no tiene por qu\u00e9 ser el caso, y su empresa est\u00e1 lanzando un modelo generativo para demostrarlo.<\/p>\n

Los contextos, o ventanas de contexto, se refieren a datos de entrada (por ejemplo, texto) que un modelo considera antes de generar resultados (m\u00e1s texto). Los modelos con ventanas de contexto peque\u00f1as tienden a olvidar el contenido incluso de conversaciones muy recientes, mientras que los modelos con contextos m\u00e1s grandes evitan este problema y, como beneficio adicional, captan mejor el flujo de datos que reciben.<\/p>\n

Jamba de AI21 Labs, un nuevo modelo de generaci\u00f3n y an\u00e1lisis de texto, puede realizar muchas de las mismas tareas que modelos como ChatGPT de OpenAI y Gemini de Google. Jamba, formado con una combinaci\u00f3n de datos p\u00fablicos y privados, puede escribir texto en ingl\u00e9s, franc\u00e9s, espa\u00f1ol y portugu\u00e9s.<\/p>\n

Jamba puede manejar hasta 140.000 tokens mientras se ejecuta en una sola GPU con al menos 80 GB de memoria (como una Nvidia A100 de gama alta). Eso se traduce en alrededor de 105.000 palabras, o 210 p\u00e1ginas, una novela de tama\u00f1o decente.<\/p>\n

Llama 2 de Meta, en comparaci\u00f3n, tiene una ventana de contexto de 32.000 tokens (un poco m\u00e1s peque\u00f1a para los est\u00e1ndares actuales) pero solo requiere una GPU con ~12 GB de memoria para funcionar. (Las ventanas de contexto normalmente se miden en tokens, que son fragmentos de texto sin formato y otros datos).<\/p>\n

A primera vista, Jamba no tiene nada especial. Existen un mont\u00f3n de modelos de IA generativa descargables y disponibles gratuitamente, desde el DBRX recientemente lanzado por Databricks hasta el mencionado Llama 2.<\/p>\n

Pero lo que hace que Jamba sea \u00fanico es lo que hay debajo del cap\u00f3. Utiliza una combinaci\u00f3n de dos arquitecturas de modelos: transformadores y modelos de espacio de estados (SSM).<\/p>\n

Los transformadores son la arquitectura elegida para tareas de razonamiento complejas, impulsando modelos como GPT-4 y Gemini de Google, por ejemplo. Tienen varias caracter\u00edsticas \u00fanicas, pero, con diferencia, la caracter\u00edstica que define a los transformadores es su \u00abmecanismo de atenci\u00f3n\u00bb. Para cada dato de entrada (por ejemplo, una oraci\u00f3n), transformadores pesar<\/em> la relevancia de todas las dem\u00e1s entradas (otras oraciones) y extraer de ellas para generar la salida (una nueva oraci\u00f3n).<\/p>\n

Los SSM, por otro lado, combinan varias cualidades de tipos m\u00e1s antiguos de modelos de IA, como redes neuronales recurrentes y redes neuronales convolucionales, para crear una arquitectura computacionalmente m\u00e1s eficiente capaz de manejar largas secuencias de datos.<\/p>\n

Ahora bien, los MSE tienen sus limitaciones. Pero algunas de las primeras encarnaciones, incluido un modelo de c\u00f3digo abierto llamado Mamba de investigadores de Princeton y Carnegie Mellon, pueden manejar entradas m\u00e1s grandes que sus equivalentes basados \u200b\u200ben transformadores y, al mismo tiempo, superarlos en tareas de generaci\u00f3n de lenguaje.<\/p>\n

De hecho, Jamba utiliza Mamba como parte del modelo central, y Dagan afirma que ofrece tres veces m\u00e1s rendimiento en contextos largos en comparaci\u00f3n con los modelos basados \u200b\u200ben transformadores de tama\u00f1os comparables.<\/p>\n

\u00abSi bien hay algunos ejemplos acad\u00e9micos iniciales de modelos SSM, este es el primer modelo a escala de producci\u00f3n de grado comercial\u00bb, dijo Dagan en una entrevista con TechCrunch. \u00abEsta arquitectura, adem\u00e1s de ser innovadora e interesante para futuras investigaciones por parte de la comunidad, abre grandes posibilidades de eficiencia y rendimiento\u00bb.<\/p>\n

Ahora, si bien Jamba se lanz\u00f3 bajo la licencia Apache 2.0, una licencia de c\u00f3digo abierto con relativamente pocas restricciones de uso, Dagan enfatiza que es una versi\u00f3n de investigaci\u00f3n que no est\u00e1 destinada a ser utilizada comercialmente. El modelo no tiene salvaguardas para evitar que genere texto t\u00f3xico ni mitigaciones para abordar posibles sesgos; En las pr\u00f3ximas semanas estar\u00e1 disponible una versi\u00f3n mejorada y aparentemente \u201cm\u00e1s segura\u201d.<\/p>\n

Pero Dagan afirma que Jamba demuestra la promesa de la arquitectura SSM incluso en esta etapa temprana.<\/p>\n

\u00abEl valor a\u00f1adido de este modelo, tanto por su tama\u00f1o como por su arquitectura innovadora, es que puede instalarse f\u00e1cilmente en una sola GPU\u00bb, afirm\u00f3. \u00abCreemos que el rendimiento mejorar\u00e1 a\u00fan m\u00e1s a medida que Mamba realice ajustes adicionales\u00bb.<\/p>\n<\/p><\/div>\n


\n
Source link-48<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"

Cada vez m\u00e1s, la industria de la IA avanza hacia modelos de IA generativa con contextos m\u00e1s largos. Pero los modelos con ventanas de contexto grandes tienden a requerir un…<\/p>\n","protected":false},"author":1,"featured_media":1011049,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[102816,10313,28388,14717,84,2457,1488,104,495],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1069832"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=1069832"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1069832\/revisions"}],"predecessor-version":[{"id":1069833,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1069832\/revisions\/1069833"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/1011049"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=1069832"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=1069832"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=1069832"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}