xAI de Elon Musk publica la fuente y los pesos de Grok, burlándose de OpenAI


Agrandar / Una imagen generada por IA publicada por xAI durante el lanzamiento de pesos abiertos de Grok-1.

El domingo, la firma de inteligencia artificial xAI de Elon Musk lanzó los pesos del modelo base y la arquitectura de red de Grok-1, un modelo de lenguaje grande diseñado para competir con los modelos que impulsan ChatGPT de OpenAI. El lanzamiento de pesos abiertos a través de GitHub y BitTorrent se produce mientras Musk continúa criticando (y demandando) a su rival OpenAI por no lanzar sus modelos de IA de manera abierta.

Anunciado en noviembre, Grok es un asistente de inteligencia artificial similar a ChatGPT que está disponible para los suscriptores de X Premium+ que pagan $16 al mes a la plataforma de redes sociales anteriormente conocida como Twitter. En su núcleo se encuentra un LLM compuesto por una mezcla de expertos llamado «Grok-1», que registra 314 mil millones de parámetros. Como referencia, GPT-3 incluía 175 mil millones de parámetros. El recuento de parámetros es una medida aproximada de la complejidad de un modelo de IA y refleja su potencial para generar respuestas más útiles.

xAI está lanzando el modelo base de Grok-1, que no está ajustado para una tarea específica, por lo que probablemente no sea el mismo modelo que X usa para impulsar su asistente Grok AI. «Este es el punto de control del modelo base en bruto de la fase de preentrenamiento de Grok-1, que concluyó en octubre de 2023», escribe xAI en su página de lanzamiento. «Esto significa que el modelo no está ajustado para ninguna aplicación específica, como el diálogo», lo que significa que no necesariamente se presenta como un chatbot. Pero hará una predicción del siguiente token, lo que significa que completará una oración (u otro mensaje de texto) con su estimación de la cadena de texto más relevante.

«No es un modelo adaptado a instrucciones», dice el investigador de IA Simon Willison, que habló con Ars por mensaje de texto. «Lo que significa que se necesita un trabajo adicional sustancial para llegar al punto en el que pueda operar en un contexto conversacional. Será interesante ver si alguien externo a xAI con las habilidades y la capacidad de cómputo pone ese trabajo».

Musk anunció inicialmente que Grok se lanzaría como «código abierto» (más sobre esa terminología a continuación) en un tweet publicado el lunes pasado. El anuncio se produjo después de que Musk demandara a OpenAI y sus ejecutivos, acusándolos de priorizar las ganancias sobre los lanzamientos de modelos abiertos de IA. Musk fue cofundador de OpenAI pero ya no está asociado con la compañía, pero regularmente incita a OpenAI a lanzar sus modelos como código abierto o pesos abiertos, como muchos creen que el nombre de la compañía sugiere que debería hacer.

El 5 de marzo, OpenAI respondió a las acusaciones de Musk revelando correos electrónicos antiguos que parecían sugerir que Musk alguna vez estuvo de acuerdo con el cambio de OpenAI a un modelo de negocio con fines de lucro a través de una subsidiaria. OpenAI también dijo que la palabra «abierto» en su nombre sugiere que sus productos resultantes estarían disponibles para el beneficio de todos en lugar de ser un enfoque de código abierto. Ese mismo día, Musk tuiteó (dividido en dos tuits): «Cambie su nombre a ClosedAI y retiraré la demanda». Su anuncio de liberar abiertamente a Grok se produjo cinco días después.

Grok-1: un modelo robusto

Así que Grok-1 ya está disponible, pero ¿alguien puede ejecutarlo? xAI ha publicado los pesos del modelo base y la arquitectura de red bajo la licencia Apache 2.0. El código de inferencia está disponible para descargar en GitHub y los pesos se pueden obtener a través de un enlace Torrent que figura en la página de GitHub.

Con un tamaño de punto de control de pesos de 296 GB, es probable que solo el hardware de inferencia de clase de centro de datos tenga la RAM y la potencia de procesamiento necesarias para cargar todo el modelo a la vez (a modo de comparación, el archivo de pesos más grande de Llama 2, un modelo 70B de precisión de 16 bits , tiene un tamaño de alrededor de 140 GB).

Hasta ahora, no hemos visto a nadie ejecutarlo localmente todavía, pero hemos escuchado informes de que hay personas trabajando en un modelo cuantificado que reducirá su tamaño para que pueda ejecutarse en hardware GPU de consumo (al hacer esto, también se reducirá drásticamente su procesamiento). capacidad, sin embargo).

Willison confirmó nuestras sospechas diciendo: «Es difícil evaluar [Grok-1] ahora mismo porque es muy grande—un [massive] archivo torrent, y luego necesitas un conjunto completo de costosas GPU para ejecutarlo. Es posible que en las próximas semanas haya versiones cuantizadas producidas por la comunidad que tengan un tamaño más práctico, pero si no es al menos competitiva en calidad con Mixtral, es difícil entusiasmarse demasiado con ello».

Apropiadamente, xAI no llama al debut de Grok-1 en GitHub una versión de «código abierto» porque ese término tiene un significado específico en software, y la industria aún no se ha decidido por un término para las versiones de modelos de IA que incluyen código y pesos con restricciones ( como Meta’s Llama 2) o enviar códigos y pesos sin publicar también datos de entrenamiento, lo que significa que otros no pueden replicar el proceso de entrenamiento del modelo de IA. Por lo tanto, normalmente llamamos a estas versiones «fuente disponible» o «pesos abiertos».

«Lo más interesante es que tiene una licencia Apache 2», afirma Willison. «Ninguna de las licencias no del todo compatibles con OSI se utiliza para modelos como Llama 2, y es uno de los modelos de peso abierto más grandes que se haya lanzado hasta ahora».



Source link-49