Stable Diffusion ahora tiene su propio modelo de lenguaje de IA de código abierto


Parece que todos y su madre tienen un gran modelo de lenguaje en estos días. Stability AI, una de las empresas que se hizo un nombre al principio de la carrera de ratas de la IA, fue más lenta que sus contemporáneos para ingresar al ámbito de los LLM, hasta ahora, eso es. El miércoles, la empresa Anunciado estaba lanzando EstableLMun «conjunto» de modelos de lenguaje destinados a competir con la sopa de letras AI como GPT-4 de OpenAI, LLaMA de Meta y LaMDA de Google.

Stability AI dijo que entrenó su nuevo modelo en un código abierto de 800GB conjunto de datos llamado «La pila». La compañía dijo que publicaría detalles sobre los datos de capacitación del nuevo modelo de lenguaje «a su debido tiempo» junto con un informe técnico completo.. Las diferentes versiones «muy alfa» del LLM, como lo expresó el CEO Emad Mostaque, vienen en variedades de parámetros de 3 mil millones y 7 mil millones, y la compañía afirmó que está trabajando en versiones de parámetros de 15 y 65 mil millones. La versión 7B del chatbot es disponible para probar Hugging Face. Este LLM más nuevo fue el intento de Stability AI de «regresar a nuestras raíces abiertas», de acuerdo a a Mostaque.

Las pruebas iniciales de Gizmodo del modelo en forma de chatbot fueron un poco incómodas, por decir lo menos. La IA parecía tener problemas para cambiar de marcha después de que le preguntáramos sobre problemas con los datos de entrenamiento de sus modelos de IA de la competencia, luego sobre la mejor manera de pelar un plátano. El espacio libre en Hugging Face también se está inundando de solicitudes, por lo que es difícil tener una mejor idea de la IA. Sin embargo, algunos usuarios informaron que falla en algunas de las tareas más rudimentarias, como crear una receta para un sándwich de mermelada de mantequilla de maní (recuerde sacar las semillas de plátano al ensamblar, aparentemente).

Los parámetros son esencialmente una forma para que los LLM generen predicciones y oferta una evaluación muy aproximada de cuán sofisticado es cada modelo. A modo de comparación, GPT-3, que fue el primero en impulsar ChatGPT de OpenAI, tenía 175 mil millones de parámetros. La compañía no ha revelado cuántos parámetros tiene GPT-4, pero Semafor informó el mes pasado que la última versión de LLM de OpenAI tiene 1 billón de parámetros. Sin embargo, la cantidad de parámetros no necesariamente informa la calidad de los resultados que genera la IA, y más parámetros generalmente significan Cuesta mucho más poder generar realmente contenido.

Stability AI es consciente de que necesita mejorar para competir con sus competidores más grandes respaldados por Microsoft. La herramienta se desarrolló para ayudar a «la gente común y las empresas cotidianas a usar la IA para desbloquear la creatividad». La compañía anunció que la compañía está «enfocada en un rendimiento de IA eficiente, especializado y práctico, no en la búsqueda de una inteligencia divina». Eso último parece una excavación específica en OpenAI, cuyos ejecutivos parecen obsesionado con la idea de una IA superinteligente.

En Twitter, Mostaque dijo que tanto el LLM como sus datos de capacitación solo mejorarán con el tiempo, y dijo que quiere que eventualmente procese 3 billones de tokens, que podrían describirse mejor como unidades de texto, ya sean letras o palabras.

Estabilidad AI ha sido durante mucho tiempo evangélico en la forma en que habla de AI, con Mostaque a menudo haciendo sonar la bocina para proliferar, código abierto Programas de IA, contra viento y marea. Pero Según los informes, la compañía ha tenido problemas con el dinero últimamente. ya que ha gastado mucho en desarrollar sus proyectos de IA y las empresas más ricas absorben la atención. la puesta en marcha recientemente mostró su modelo Stable Diffusion XL centrado en la empresa eso está destinado a ser incluso mejor que los generadores de imágenes de IA anteriores de la compañía. Aún así, la compañía dijo que todavía planea abrir este nuevo modelo de IA generativa… eventualmente.





Source link-45