«Un gran problema»: Dolly es un modelo de IA gratuito, de código abierto y estilo ChatGPT


Ladrillos de datos

El miércoles, Databricks lanzó Dolly 2.0, según se informa, el primer modelo de lenguaje grande (LLM) de seguimiento de instrucciones de código abierto para uso comercial que se ha ajustado en un conjunto de datos generado por humanos. Podría servir como un punto de partida convincente para los competidores caseros de ChatGPT.

Databricks es una empresa estadounidense de software empresarial fundada en 2013 por los creadores de Apache Spark. Proporcionan una plataforma basada en web para trabajar con Spark para big data y aprendizaje automático. Al lanzar Dolly, Databricks espera permitir que las organizaciones creen y personalicen LLM «sin pagar por el acceso a la API ni compartir datos con terceros», según la publicación del blog de lanzamiento de Dolly.

Dolly 2.0, su nuevo modelo de 12 000 millones de parámetros, se basa en la familia de modelos pythia de EleutherAI y se ajusta exclusivamente a los datos de capacitación (llamados «databricks-dolly-15k») obtenidos de los empleados de Databricks. Esa calibración le da habilidades más en línea con ChatGPT de OpenAI, que es mejor para responder preguntas y entablar diálogos como un chatbot que un LLM sin procesar que no se ha ajustado.

Dolly 1.0, lanzado en marzo, enfrentó limitaciones con respecto al uso comercial debido a los datos de capacitación, que contenían resultados de ChatGPT (gracias a Alpaca) y estaban sujetos a los términos de servicio de OpenAI. Para abordar este problema, el equipo de Databricks buscó crear un nuevo conjunto de datos que permitiera el uso comercial.

Para hacerlo, Databricks realizó 13 000 demostraciones de comportamiento de seguimiento de instrucciones de más de 5000 de sus empleados entre marzo y abril de 2023. Para incentivar la participación, organizaron un concurso y describieron siete tareas específicas para la generación de datos, incluidas preguntas y respuestas abiertas y preguntas y respuestas cerradas. , extraer y resumir información de Wikipedia, lluvia de ideas, clasificación y escritura creativa.

El conjunto de datos resultante, junto con los pesos del modelo y el código de entrenamiento de Dolly, se publicaron como código completamente abierto bajo una licencia Creative Commons, lo que permite que cualquier persona use, modifique o amplíe el conjunto de datos para cualquier propósito, incluidas las aplicaciones comerciales.

Por el contrario, ChatGPT de OpenAI es un modelo patentado que requiere que los usuarios paguen por el acceso a la API y se adhieran a términos de servicio específicos, lo que podría limitar la flexibilidad y las opciones de personalización para empresas y organizaciones. LLaMA de Meta, un modelo de código parcialmente abierto (con pesos restringidos) que recientemente generó una ola de derivados después de que sus pesos se filtraran en BitTorrent, no permite el uso comercial.

En Mastodon, el investigador de inteligencia artificial Simon Willison calificó a Dolly 2.0 como «un gran problema». Willison a menudo experimenta con modelos de lenguaje de código abierto, incluido Dolly. «Una de las cosas más emocionantes de Dolly 2.0 es el conjunto de instrucciones de ajuste fino, que fue construido a mano por 5000 empleados de Databricks y lanzado bajo una licencia CC», escribió Willison en un toque de Mastodon.

Si la reacción entusiasta al modelo LLaMA parcialmente abierto de Meta es una indicación, Dolly 2.0 podría generar una nueva ola de modelos de lenguaje de código abierto que no se ven obstaculizados por limitaciones de propiedad o restricciones de uso comercial. Si bien todavía se corre la voz sobre el verdadero capacidad de rendimientolas mejoras adicionales podrían permitir ejecutar LLM razonablemente potentes en máquinas locales de clase de consumidor.

«Incluso si Dolly 2 no es bueno, espero que pronto veamos un montón de nuevos proyectos usando esos datos de entrenamiento», dijo Willison a Ars. «Y algunos de ellos podrían producir algo realmente útil».

Actualmente, los pesos de Dolly están disponibles en Hugging Face y el conjunto de datos databricks-dolly-15k se puede encontrar en GitHub.





Source link-49