Dentro de la creación de DBRX, el modelo de IA de código abierto más potente del mundo


El lunes pasado, alrededor de una docena de ingenieros y ejecutivos de la empresa de ciencia de datos e inteligencia artificial Databricks se reunieron en salas de conferencias conectadas a través de Zoom para saber si habían logrado construir un modelo de lenguaje de inteligencia artificial superior. El equipo había invertido meses y alrededor de 10 millones de dólares en entrenar DBRX, un modelo de lenguaje grande similar en diseño al que está detrás de ChatGPT de OpenAI. Pero no sabrían cuán poderosa era su creación hasta que obtuvieran los resultados de las pruebas finales de sus habilidades.

«Hemos superado todo», dijo finalmente al equipo Jonathan Frankle, arquitecto jefe de redes neuronales de Databricks y líder del equipo que construyó DBRX, que respondió con gritos, vítores y emojis de aplausos. Frankle generalmente evita la cafeína, pero estaba tomando sorbos de café con leche helado después de pasar toda la noche escribiendo los resultados.

Databricks lanzará DBRX bajo una licencia de código abierto, lo que permitirá a otros desarrollar su trabajo. Frankle compartió datos que muestran que en aproximadamente una docena de puntos de referencia que miden la capacidad del modelo de IA para responder preguntas de conocimiento general, realizar comprensión lectora, resolver acertijos lógicos desconcertantes y generar código de alta calidad, DBRX fue mejor que cualquier otro modelo de código abierto disponible.

Tomadores de decisiones de IA: Jonathan Frankle, Naveen Rao, Ali Ghodsi y Hanlin Tang.Fotografía: Gabriela Hasbún

Eclipsó a Meta’s Llama 2 y Mistral’s Mixtral, dos de los modelos de IA de código abierto más populares disponibles en la actualidad. «¡Sí!» gritó Ali Ghodsi, director ejecutivo de Databricks, cuando aparecieron las puntuaciones. «Espera, ¿le ganamos a lo de Elon?» Frankle respondió que de hecho habían superado el modelo de IA de Grok recientemente abierto por xAI de Musk, y agregó: «Lo consideraré un éxito si recibimos un tweet malo de él».

Para sorpresa del equipo, en varios aspectos DBRX también estaba sorprendentemente cerca de GPT-4, el modelo cerrado de OpenAI que impulsa ChatGPT y es ampliamente considerado el pináculo de la inteligencia artificial. «Hemos establecido un nuevo estado del arte para los LLM de código abierto», dijo Frankle con una sonrisa de gran tamaño.

Bloques de construcción

Al abrir el código fuente, DBRX Databricks está dando más impulso a un movimiento que desafía el enfoque secreto de las empresas más destacadas en el actual auge de la IA generativa. OpenAI y Google mantienen en secreto el código de sus modelos de lenguajes grandes GPT-4 y Gemini, pero algunos rivales, en particular Meta, han lanzado sus modelos para que otros los utilicen, argumentando que estimulará la innovación al poner la tecnología en manos de más personas. investigadores, emprendedores, startups y empresas establecidas.

Databricks dice que también quiere hablar sobre el trabajo involucrado en la creación de su modelo de código abierto, algo que Meta no ha hecho con respecto a algunos detalles clave sobre la creación de su modelo Llama 2. La compañía publicará una publicación de blog que detallará el trabajo involucrado para crear el modelo y también invitó a WIRED a pasar tiempo con los ingenieros de Databricks mientras tomaban decisiones clave durante las etapas finales del proceso multimillonario de capacitación de DBRX. Esto permitió vislumbrar lo complejo y desafiante que es construir un modelo de IA líder, pero también cómo las recientes innovaciones en el campo prometen reducir los costos. Eso, combinado con la disponibilidad de modelos de código abierto como DBRX, sugiere que el desarrollo de la IA no va a disminuir en el corto plazo.

Ali Farhadi, director ejecutivo del Instituto Allen para la IA, dice que se necesita urgentemente una mayor transparencia en torno a la construcción y el entrenamiento de modelos de IA. El campo se ha vuelto cada vez más reservado en los últimos años a medida que las empresas han buscado una ventaja sobre sus competidores. La opacidad es especialmente importante cuando existe preocupación por los riesgos que podrían plantear los modelos avanzados de IA, afirma. «Estoy muy feliz de ver cualquier esfuerzo de apertura», dice Farhadi. “Creo que una parte importante del mercado avanzará hacia modelos abiertos. Necesitamos más de esto.»



Source link-46