\n<\/aside>\n<\/p>\n
En el mundo de la IA, lo que podr\u00edan llamarse \u00abpeque\u00f1os modelos de lenguaje\u00bb han ganado popularidad recientemente porque pueden ejecutarse en un dispositivo local en lugar de requerir computadoras de centro de datos en la nube. El mi\u00e9rcoles, Apple present\u00f3 un conjunto de peque\u00f1os modelos de lenguaje de inteligencia artificial disponibles llamado OpenELM que son lo suficientemente peque\u00f1os como para ejecutarse directamente en un tel\u00e9fono inteligente. Por ahora son en su mayor\u00eda modelos de investigaci\u00f3n de prueba de concepto, pero podr\u00edan formar la base de futuras ofertas de IA en dispositivos de Apple.<\/p>\n
Los nuevos modelos de IA de Apple, denominados colectivamente OpenELM por \u00abModelos de lenguaje eficientes de c\u00f3digo abierto\u00bb, est\u00e1n actualmente disponibles en Hugging Face bajo una licencia de c\u00f3digo de muestra de Apple. Dado que existen algunas restricciones en la licencia, es posible que no se ajuste a la definici\u00f3n com\u00fanmente aceptada de \u00abc\u00f3digo abierto\u00bb, pero el c\u00f3digo fuente de OpenELM est\u00e1 disponible.<\/p>\n
El martes cubrimos los modelos Phi-3 de Microsoft, cuyo objetivo es lograr algo similar: un nivel \u00fatil de comprensi\u00f3n del lenguaje y rendimiento de procesamiento en peque\u00f1os modelos de IA que pueden ejecutarse localmente. Phi-3-mini presenta 3.8 mil millones de par\u00e1metros, pero algunos de los modelos OpenELM de Apple son mucho m\u00e1s peque\u00f1os y oscilan entre 270 millones y 3 mil millones de par\u00e1metros en ocho modelos distintos.<\/p>\n
En comparaci\u00f3n, el modelo m\u00e1s grande lanzado hasta ahora en la familia Llama 3 de Meta incluye 70 mil millones de par\u00e1metros (con una versi\u00f3n de 400 mil millones en camino), y el GPT-3 de OpenAI de 2020 se envi\u00f3 con 175 mil millones de par\u00e1metros. El recuento de par\u00e1metros sirve como una medida aproximada de la capacidad y complejidad del modelo de IA, pero investigaciones recientes se han centrado en hacer que los modelos de lenguaje de IA m\u00e1s peque\u00f1os sean tan capaces como lo eran los m\u00e1s grandes hace unos a\u00f1os.<\/p>\n
Los ocho modelos OpenELM vienen en dos versiones: cuatro como \u00abpreentrenados\u00bb (b\u00e1sicamente una versi\u00f3n sin procesar del modelo con el siguiente token) y cuatro como ajustados por instrucciones (afinados para seguir instrucciones, lo cual es m\u00e1s ideal para desarrollar asistentes de IA y chatbots):<\/p>\n\n Anuncio <\/span> <\/p>\n<\/aside>\nOpenELM presenta una ventana de contexto m\u00e1xima de 2048 tokens. Los modelos se entrenaron en los conjuntos de datos disponibles p\u00fablicamente RefinedWeb, una versi\u00f3n de PILE con duplicaciones eliminadas, un subconjunto de RedPajama y un subconjunto de Dolma v1.6, que seg\u00fan Apple totaliza alrededor de 1,8 billones de tokens de datos. Los tokens son representaciones fragmentadas de datos utilizados por los modelos de lenguaje de IA para su procesamiento.<\/p>\n
Apple dice que su enfoque con OpenELM incluye una \u00abestrategia de escalamiento por capas\u00bb que, seg\u00fan se informa, asigna par\u00e1metros de manera m\u00e1s eficiente en cada capa, ahorrando no solo recursos computacionales sino tambi\u00e9n mejorando el rendimiento del modelo mientras se entrena con menos tokens. Seg\u00fan el documento t\u00e9cnico publicado por Apple, esta estrategia ha permitido a OpenELM lograr una mejora del 2,36 por ciento en precisi\u00f3n con respecto al OLMo 1B de Allen AI (otro modelo de lenguaje peque\u00f1o) al tiempo que requiere la mitad de tokens de preentrenamiento.<\/p>\n\nAgrandar
\/<\/span> Una tabla que compara OpenELM con otros peque\u00f1os modelos de lenguaje de IA de una clase similar, extra\u00edda del art\u00edculo de investigaci\u00f3n OpenELM de Apple.<\/div>\nManzana<\/p>\n<\/figcaption><\/figure>\n
Apple tambi\u00e9n lanz\u00f3 el c\u00f3digo de CoreNet, una biblioteca que utiliz\u00f3 para entrenar OpenELM, y tambi\u00e9n incluy\u00f3 recetas de entrenamiento reproducibles que permiten replicar los pesos (archivos de red neuronal), lo cual hasta ahora es inusual para una importante empresa de tecnolog\u00eda. Como dice Apple en el resumen de su art\u00edculo OpenELM, la transparencia es un objetivo clave para la empresa: \u00abLa reproducibilidad y la transparencia de los grandes modelos de lenguaje son cruciales para avanzar en la investigaci\u00f3n abierta, garantizar la confiabilidad de los resultados y permitir investigaciones sobre los sesgos de los datos y los modelos, como as\u00ed como los riesgos potenciales.\u00bb<\/p>\n
Al publicar el c\u00f3digo fuente, los pesos de los modelos y los materiales de capacitaci\u00f3n, Apple dice que su objetivo es \u00abpotenciar y enriquecer la comunidad de investigaci\u00f3n abierta\u00bb. Sin embargo, tambi\u00e9n advierte que dado que los modelos fueron entrenados en conjuntos de datos de origen p\u00fablico, \u00abexiste la posibilidad de que estos modelos produzcan resultados inexactos, da\u00f1inos, sesgados o objetables en respuesta a las indicaciones de los usuarios\u00bb.<\/p>\n
Si bien Apple a\u00fan no ha integrado esta nueva ola de capacidades de modelo de lenguaje de IA en sus dispositivos de consumo, se rumorea que la pr\u00f3xima actualizaci\u00f3n de iOS 18 (que se espera que se revele en junio en la WWDC) incluir\u00e1 nuevas funciones de IA que utilizan el procesamiento en el dispositivo para garantizar que el usuario privacidad, aunque la empresa podr\u00eda contratar a Google u OpenAI para manejar un procesamiento de IA m\u00e1s complejo fuera del dispositivo para darle a Siri un impulso que tanto necesitaba.<\/p>\n<\/p><\/div>\n
\nSource link-49<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"im\u00e1genes falsas En el mundo de la IA, lo que podr\u00edan llamarse \u00abpeque\u00f1os modelos de lenguaje\u00bb han ganado popularidad recientemente porque pueden ejecutarse en un dispositivo local en lugar de…<\/p>\n","protected":false},"author":1,"featured_media":1106875,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[2450,19148,5333,1639,12901,10010,3066,2863,2219],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1106874"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=1106874"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1106874\/revisions"}],"predecessor-version":[{"id":1106876,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1106874\/revisions\/1106876"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/1106875"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=1106874"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=1106874"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=1106874"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}