Por qué es importante el ‘open-source’ de Grok, la empresa de inteligencia artificial de Elon Musk, y por qué no


xAI de Elon Musk lanzó su modelo de lenguaje grande Grok como “código abierto” durante el fin de semana. El multimillonario claramente espera enfrentar a su empresa con su rival OpenAI, que, a pesar de su nombre, no es particularmente abierto. Pero, ¿la publicación del código de algo como Grok realmente contribuye a la comunidad de desarrollo de IA? Si y no.

Grok es un chatbot entrenado por xAI para desempeñar el mismo rol vagamente definido que algo como ChatGPT o Claude: le preguntas, él responde. A este LLM, sin embargo, se le dio un tono atrevido y acceso adicional a los datos de Twitter como una forma de diferenciarlo del resto.

Como siempre, estos sistemas son casi imposibles de evaluar, pero el consenso general parece ser que son competitivos con los modelos de tamaño mediano de última generación como el GPT-3.5. (Si decide que esto es impresionante dado el corto plazo de desarrollo o decepcionante dado el presupuesto y la grandilocuencia que rodea a xAI, depende totalmente de usted).

En cualquier caso, Grok es un LLM moderno y funcional de tamaño y capacidad significativos, y cuanto más acceso tenga la comunidad de desarrolladores a las entrañas de tales cosas, mejor. El problema está en definir “abierto” de una manera que haga más que permitir que una empresa (o un multimillonario) reclame autoridad moral.

Esta no es la primera vez que se cuestionan o se abusa de los términos “abierto” y “código abierto” en el mundo de la IA. Y no estamos hablando sólo de una objeción técnica, como elegir una licencia de uso que no sea tan abierta como otra (Grok es Apache 2.0, si se lo pregunta).

Para empezar, los modelos de IA se diferencian de otros software en lo que respecta a hacerlos de “código abierto”.

Si está creando, digamos, un procesador de textos, es relativamente sencillo hacerlo de código abierto: publica todo su código públicamente y deja que la comunidad proponga mejoras o cree su propia versión. Parte de lo que hace que el código abierto sea valioso es que cada aspecto de la aplicación es original o se atribuye a su creador original; esta transparencia y cumplimiento de la atribución correcta no es solo un subproducto, sino que es fundamental para el concepto mismo de apertura.

Con la IA, esto podría decirse que no es posible en absoluto, porque la forma en que se crean los modelos de aprendizaje automático implica un proceso en gran medida incognoscible mediante el cual una enorme cantidad de datos de entrenamiento se destila en una representación estadística compleja cuya estructura ningún ser humano realmente dirige, o incluso comprende. . Este proceso no se puede inspeccionar, auditar y mejorar como lo hace el código tradicional, por lo que, si bien todavía tiene un valor inmenso en un sentido, en realidad nunca puede ser abierto. (La comunidad de estándares ni siquiera ha definido qué será lo abierto en este contexto, pero lo está discutiendo activamente).

Eso no ha impedido que los desarrolladores y las empresas de IA diseñen y reclamen sus modelos como “abiertos”, un término que ha perdido gran parte de su significado en este contexto. Algunos llaman a su modelo «abierto» si hay una interfaz o API pública. Algunos lo llaman «abierto» si publican un documento que describe el proceso de desarrollo.

Podría decirse que lo más cercano que puede estar un modelo de IA al “código abierto” es cuando sus desarrolladores lanzan su pesas, es decir, los atributos exactos de los innumerables nodos de sus redes neuronales, que realizan operaciones matemáticas vectoriales en orden preciso para completar el patrón iniciado por la entrada de un usuario. Pero incluso los modelos de “pesos abiertos” como LLaMa-2 excluyen otros datos importantes, como el conjunto de datos y el proceso de entrenamiento, que serían necesarios para recrearlos desde cero. (Algunos proyectos van más allá, por supuesto).

Todo esto sin siquiera mencionar el hecho de que se necesitan millones de dólares en recursos informáticos y de ingeniería para crear o replicar estos modelos, lo que restringe efectivamente quién puede crearlos y replicarlos a empresas con recursos considerables.

Entonces, ¿dónde se ubica el lanzamiento de Grok de xAI en este espectro?

Como modelo de pesos abiertos, está listo para que cualquiera pueda descargarlo, usarlo, modificarlo, ajustarlo o destilarlo. ¡Eso es bueno! Parece estar entre los modelos más grandes a los que cualquiera puede acceder libremente de esta manera, en términos de parámetros (314 mil millones), lo que les da a los ingenieros curiosos mucho con qué trabajar si quieren probar cómo funciona después de varias modificaciones.

Sin embargo, el tamaño del modelo presenta serios inconvenientes. Necesitará cientos de gigabytes de RAM de alta velocidad para usarlo en esta forma sin formato. Si aún no posee, digamos, una docena de Nvidia H100 en una plataforma de inferencia de IA de seis cifras, no se moleste en hacer clic en ese enlace de descarga.

Y aunque se puede decir que Grok es competitivo con otros modelos modernos, también es mucho, mucho más grande que ellos, lo que significa que requiere más recursos para lograr lo mismo. Siempre existe una jerarquía de tamaño, eficiencia y otras métricas, y sigue siendo valiosa, pero es más materia prima que producto final. Tampoco está claro si esta es la última y mejor versión de Grok, como la versión claramente ajustada a la que algunos tienen acceso a través de X.

En general, es bueno publicar estos datos, pero no cambia las reglas del juego como algunos esperaban.

También es difícil no preguntarse por qué Musk está haciendo esto. ¿Su naciente empresa de inteligencia artificial está realmente dedicada al desarrollo de código abierto? ¿O es simplemente barro en el ojo de OpenAI, con el que Musk actualmente está persiguiendo una disputa a nivel multimillonario?

Si realmente se dedican al desarrollo de código abierto, este será el primero de muchos lanzamientos y, con suerte, tendrán en cuenta los comentarios de la comunidad, publicarán otra información crucial, caracterizarán el proceso de datos de capacitación y explicarán con más detalle su enfoque. Si no es así, y esto sólo se hace para que Musk pueda señalarlo en argumentos en línea, sigue siendo valioso, pero no es algo en lo que nadie en el mundo de la IA confiará o a lo que prestará mucha atención después de los próximos meses mientras juega. el modelo.



Source link-48