Aquí hay una prueba de que se puede entrenar un modelo de IA sin sorber contenido protegido por derechos de autor


En 2023, OpenAI dijo al parlamento del Reino Unido que era “imposible” entrenar modelos líderes de IA sin utilizar materiales protegidos por derechos de autor. Es una postura popular en el mundo de la IA, donde OpenAI y otros actores líderes han utilizado materiales obtenidos en línea para entrenar los modelos que impulsan los chatbots y los generadores de imágenes, lo que provocó una ola de demandas por infracción de derechos de autor.

Dos anuncios del miércoles ofrecen evidencia de que, de hecho, se pueden entrenar grandes modelos lingüísticos sin el uso sin permiso de materiales protegidos por derechos de autor.

Un grupo de investigadores respaldado por el gobierno francés ha publicado lo que se cree que es el mayor conjunto de datos de entrenamiento de IA compuesto íntegramente de texto de dominio público. Y la organización sin fines de lucro Fairly Trained anunció que otorgó su primera certificación para un modelo de lenguaje grande creado sin infracción de derechos de autor, lo que demuestra que una tecnología como la detrás de ChatGPT se puede construir de una manera diferente a la polémica norma de la industria de la inteligencia artificial.

«No hay ninguna razón fundamental por la que alguien no pueda capacitar a un LLM de manera justa», dice Ed Newton-Rex, director ejecutivo de Fairly Trained. Fundó la organización sin fines de lucro en enero de 2024 después de renunciar a su puesto ejecutivo en la startup de generación de imágenes Stability AI porque no estaba de acuerdo con su política de eliminar contenido sin permiso.

Fairly Trained ofrece una certificación a empresas que deseen demostrar que han entrenado sus modelos de IA con datos que poseen, tienen licencia o son de dominio público. Cuando se lanzó la organización sin fines de lucro, algunos críticos señalaron que aún no había identificado un modelo de lenguaje grande que cumpliera con esos requisitos.

Hoy, Fairly Trained anunció que ha certificado su primer modelo de lenguaje grande. Se llama KL3M y fue desarrollado por 273 Ventures, una startup de consultoría de tecnología legal con sede en Chicago, utilizando un conjunto de datos de capacitación seleccionados de documentos legales, financieros y regulatorios.

La cofundadora de la empresa, Jillian Bommarito, dice que la decisión de formar a KL3M de esta manera surgió de los clientes «aversos al riesgo» de la empresa, como los bufetes de abogados. «Están preocupados por la procedencia y necesitan saber que la producción no se basa en datos contaminados», afirma. «No confiamos en el uso legítimo». Los clientes estaban interesados ​​en utilizar la IA generativa para tareas como resumir documentos legales y redactar contratos, pero no querían verse arrastrados a demandas sobre propiedad intelectual como lo han sido OpenAI, Stability AI y otros.

Bommarito dice que 273 Ventures no había trabajado antes en un modelo de lenguaje grande, pero decidió entrenar uno como experimento. «Nuestra prueba para ver si era posible», dice. La empresa ha creado su propio conjunto de datos de formación, Kelvin Legal DataPack, que incluye miles de documentos legales revisados ​​para cumplir con las leyes de derechos de autor.

Aunque el conjunto de datos es pequeño (alrededor de 350 mil millones de tokens, o unidades de datos) en comparación con los compilados por OpenAI y otros que han rastreado Internet en masa, Bommarito dice que el modelo KL3M funcionó mucho mejor de lo esperado, algo que ella atribuye al cuidado con el que se utilizó. los datos habían sido examinados de antemano. «Tener datos limpios y de alta calidad puede significar que no es necesario hacer que el modelo sea tan grande», afirma. La curación de un conjunto de datos puede ayudar a crear un modelo de IA terminado especializado en la tarea para la que está diseñado. 273 Ventures ahora ofrece lugares en una lista de espera a los clientes que quieran comprar acceso a estos datos.

Hoja limpia

Las empresas que quieran emular KL3M pueden tener más ayuda en el futuro en forma de conjuntos de datos libres de infracciones disponibles gratuitamente. El miércoles, los investigadores publicaron lo que afirman es el conjunto de datos de IA más grande disponible para modelos de lenguaje compuestos exclusivamente de contenido de dominio público. Common Corpus, como se le llama, es una colección de texto aproximadamente del mismo tamaño que los datos utilizados para entrenar el modelo de generación de texto GPT-3 de OpenAI y se ha publicado en la plataforma de inteligencia artificial de código abierto Hugging Face.

El conjunto de datos se creó a partir de fuentes como periódicos de dominio público digitalizados por la Biblioteca del Congreso de Estados Unidos y la Biblioteca Nacional de Francia. Pierre-Carl Langlais, coordinador del proyecto Common Corpus, lo llama «un corpus lo suficientemente grande como para formar un LLM de última generación». En la jerga de la gran IA, el conjunto de datos contiene 500 mil millones de tokens; se cree ampliamente que el modelo más capaz de OpenAI ha sido entrenado con varios billones.



Source link-46