Stability AI lanza StableLM, una alternativa ChatGPT de código abierto


Agrandar / Una imagen generada por IA de un «loro estocástico» creada por Stability AI.

Benj Edwards / Estabilidad AI / Difusión estable XL

El miércoles, Stability AI lanzó una nueva familia de modelos de lenguaje de IA de código abierto llamada StableLM. Stability espera repetir los efectos catalizadores de su modelo de síntesis de imágenes de código abierto Stable Diffusion, lanzado en 2022. Con refinamiento, StableLM podría usarse para construir una alternativa de código abierto a ChatGPT.

StableLM está actualmente disponible en forma alfa en GitHub en tamaños de modelo de 3 mil millones y 7 mil millones de parámetros, con 15 mil millones y 65 mil millones de modelos de parámetros a seguir, según Stability. La compañía está lanzando los modelos bajo la licencia Creative Commons BY-SA-4.0, que requiere que las adaptaciones acrediten al creador original y compartan la misma licencia.

Stability AI Ltd. es una empresa con sede en Londres que se ha posicionado como un rival de código abierto de OpenAI que, a pesar de su nombre «abierto», rara vez lanza modelos de código abierto y mantiene los pesos de su red neuronal: la masa de números que define el funcionalidad central de un modelo de IA: propietario.

«Los modelos lingüísticos formarán la columna vertebral de nuestra economía digital, y queremos que todos tengan una voz en su diseño», escribe Stability en una entrada de blog introductoria. «Modelos como StableLM demuestran nuestro compromiso con la tecnología de IA que es transparente, accesible y de apoyo».

Al igual que GPT-4, el modelo de lenguaje grande (LLM) que impulsa la versión más poderosa de ChatGPT, StableLM genera texto al predecir el siguiente token (fragmento de palabra) en una secuencia. Esa secuencia comienza con la información proporcionada por un ser humano en forma de «mensaje». Como resultado, StableLM puede componer texto y escribir programas similares a los humanos.

Al igual que otros LLM «pequeños» recientes como Meta’s LLaMA, Stanford Alpaca, Cerebras-GPT y Dolly 2.0, StableLM pretende lograr un rendimiento similar al modelo GPT-3 de referencia de OpenAI mientras usa muchos menos parámetros: 7 mil millones para StableLM frente a 175 mil millones para GPT -3.

Los parámetros son variables que utiliza un modelo de lenguaje para aprender de los datos de entrenamiento. Tener menos parámetros hace que un modelo de idioma sea más pequeño y más eficiente, lo que puede facilitar su ejecución en dispositivos locales como teléfonos inteligentes y computadoras portátiles. Sin embargo, lograr un alto rendimiento con menos parámetros requiere una ingeniería cuidadosa, lo cual es un desafío importante en el campo de la IA.

«Nuestros modelos StableLM pueden generar texto y código y potenciarán una variedad de aplicaciones posteriores», dice Stability. «Demuestran cómo los modelos pequeños y eficientes pueden ofrecer un alto rendimiento con la capacitación adecuada».

Según Stability AI, StableLM ha sido entrenado en «un nuevo conjunto de datos experimentales» basado en un conjunto de datos de código abierto llamado The Pile, pero tres veces más grande. Stability afirma que la «riqueza» de este conjunto de datos, cuyos detalles promete publicar más adelante, explica el «rendimiento sorprendentemente alto» del modelo en tamaños de parámetros más pequeños en tareas de codificación y conversación.

En nuestros experimentos informales con una versión afinada del modelo 7B de StableLM creado para el diálogo basado en el método Alpaca, descubrimos que parecía funcionar mejor (en términos de resultados que esperaría dado el mensaje) que el modelo LLaMA de parámetros 7B sin procesar de Meta. , pero no al nivel de GPT-3. Las versiones de parámetros más grandes de StableLM pueden resultar más flexibles y capaces.

En agosto del año pasado, Stability financió y publicitó el lanzamiento de código abierto de Stable Diffusion, desarrollado por investigadores del grupo CompVis de la Universidad Ludwig Maximilian de Munich.

Como uno de los primeros modelos de difusión latente de código abierto que podía generar imágenes a partir de indicaciones, Stable Diffusion inició una era de rápido desarrollo en la tecnología de síntesis de imágenes. También creó una fuerte reacción violenta entre artistas y entidades corporativas, algunas de las cuales han demandado a Stability AI. El paso de Stability a los modelos de lenguaje podría inspirar resultados similares.

Los usuarios pueden probar el modelo base Hugging Face de StableLM de 7 mil millones de parámetros y el modelo ajustado en Replicate. Además, Hugging Face alberga una versión ajustada de diálogo de StableLM con un formato de conversación similar al de ChatGPT.

Stability dice que publicará un informe técnico completo sobre StableLM «en un futuro próximo».



Source link-49