{"id":1058404,"date":"2024-03-20T20:05:45","date_gmt":"2024-03-20T20:05:45","guid":{"rendered":"https:\/\/magazineoffice.com\/aqui-hay-una-prueba-de-que-se-puede-entrenar-un-modelo-de-ia-sin-sorber-contenido-protegido-por-derechos-de-autor\/"},"modified":"2024-03-20T20:05:47","modified_gmt":"2024-03-20T20:05:47","slug":"aqui-hay-una-prueba-de-que-se-puede-entrenar-un-modelo-de-ia-sin-sorber-contenido-protegido-por-derechos-de-autor","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/aqui-hay-una-prueba-de-que-se-puede-entrenar-un-modelo-de-ia-sin-sorber-contenido-protegido-por-derechos-de-autor\/","title":{"rendered":"Aqu\u00ed hay una prueba de que se puede entrenar un modelo de IA sin sorber contenido protegido por derechos de autor"},"content":{"rendered":"


\n<\/p>\n

\n

En 2023, OpenAI dijo al parlamento del Reino Unido que era \u201cimposible\u201d entrenar modelos l\u00edderes de IA sin utilizar materiales protegidos por derechos de autor. Es una postura popular en el mundo de la IA, donde OpenAI y otros actores l\u00edderes han utilizado materiales obtenidos en l\u00ednea para entrenar los modelos que impulsan los chatbots y los generadores de im\u00e1genes, lo que provoc\u00f3 una ola de demandas por infracci\u00f3n de derechos de autor. <\/p>\n

Dos anuncios del mi\u00e9rcoles ofrecen evidencia de que, de hecho, se pueden entrenar grandes modelos ling\u00fc\u00edsticos sin el uso sin permiso de materiales protegidos por derechos de autor.<\/p>\n

Un grupo de investigadores respaldado por el gobierno franc\u00e9s ha publicado lo que se cree que es el mayor conjunto de datos de entrenamiento de IA compuesto \u00edntegramente de texto de dominio p\u00fablico. Y la organizaci\u00f3n sin fines de lucro Fairly Trained anunci\u00f3 que otorg\u00f3 su primera certificaci\u00f3n para un modelo de lenguaje grande creado sin infracci\u00f3n de derechos de autor, lo que demuestra que una tecnolog\u00eda como la detr\u00e1s de ChatGPT se puede construir de una manera diferente a la pol\u00e9mica norma de la industria de la inteligencia artificial.<\/p>\n

\u00abNo hay ninguna raz\u00f3n fundamental por la que alguien no pueda capacitar a un LLM de manera justa\u00bb, dice Ed Newton-Rex, director ejecutivo de Fairly Trained. Fund\u00f3 la organizaci\u00f3n sin fines de lucro en enero de 2024 despu\u00e9s de renunciar a su puesto ejecutivo en la startup de generaci\u00f3n de im\u00e1genes Stability AI porque no estaba de acuerdo con su pol\u00edtica de eliminar contenido sin permiso.<\/p>\n

Fairly Trained ofrece una certificaci\u00f3n a empresas que deseen demostrar que han entrenado sus modelos de IA con datos que poseen, tienen licencia o son de dominio p\u00fablico. Cuando se lanz\u00f3 la organizaci\u00f3n sin fines de lucro, algunos cr\u00edticos se\u00f1alaron que a\u00fan no hab\u00eda identificado un modelo de lenguaje grande que cumpliera con esos requisitos.<\/p>\n

Hoy, Fairly Trained anunci\u00f3 que ha certificado su primer modelo de lenguaje grande. Se llama KL3M y fue desarrollado por 273 Ventures, una startup de consultor\u00eda de tecnolog\u00eda legal con sede en Chicago, utilizando un conjunto de datos de capacitaci\u00f3n seleccionados de documentos legales, financieros y regulatorios.<\/p>\n

La cofundadora de la empresa, Jillian Bommarito, dice que la decisi\u00f3n de formar a KL3M de esta manera surgi\u00f3 de los clientes \u00abaversos al riesgo\u00bb de la empresa, como los bufetes de abogados. \u00abEst\u00e1n preocupados por la procedencia y necesitan saber que la producci\u00f3n no se basa en datos contaminados\u00bb, afirma. \u00abNo confiamos en el uso leg\u00edtimo\u00bb. Los clientes estaban interesados \u200b\u200ben utilizar la IA generativa para tareas como resumir documentos legales y redactar contratos, pero no quer\u00edan verse arrastrados a demandas sobre propiedad intelectual como lo han sido OpenAI, Stability AI y otros.<\/p>\n

Bommarito dice que 273 Ventures no hab\u00eda trabajado antes en un modelo de lenguaje grande, pero decidi\u00f3 entrenar uno como experimento. \u00abNuestra prueba para ver si era posible\u00bb, dice. La empresa ha creado su propio conjunto de datos de formaci\u00f3n, Kelvin Legal DataPack, que incluye miles de documentos legales revisados \u200b\u200bpara cumplir con las leyes de derechos de autor.<\/p>\n

Aunque el conjunto de datos es peque\u00f1o (alrededor de 350 mil millones de tokens, o unidades de datos) en comparaci\u00f3n con los compilados por OpenAI y otros que han rastreado Internet en masa, Bommarito dice que el modelo KL3M funcion\u00f3 mucho mejor de lo esperado, algo que ella atribuye al cuidado con el que se utiliz\u00f3. los datos hab\u00edan sido examinados de antemano. \u00abTener datos limpios y de alta calidad puede significar que no es necesario hacer que el modelo sea tan grande\u00bb, afirma. La curaci\u00f3n de un conjunto de datos puede ayudar a crear un modelo de IA terminado especializado en la tarea para la que est\u00e1 dise\u00f1ado. 273 Ventures ahora ofrece lugares en una lista de espera a los clientes que quieran comprar acceso a estos datos.<\/p>\n

Hoja limpia<\/h2>\n

Las empresas que quieran emular KL3M pueden tener m\u00e1s ayuda en el futuro en forma de conjuntos de datos libres de infracciones disponibles gratuitamente. El mi\u00e9rcoles, los investigadores publicaron lo que afirman es el conjunto de datos de IA m\u00e1s grande disponible para modelos de lenguaje compuestos exclusivamente de contenido de dominio p\u00fablico. Common Corpus, como se le llama, es una colecci\u00f3n de texto aproximadamente del mismo tama\u00f1o que los datos utilizados para entrenar el modelo de generaci\u00f3n de texto GPT-3 de OpenAI y se ha publicado en la plataforma de inteligencia artificial de c\u00f3digo abierto Hugging Face.<\/p>\n

El conjunto de datos se cre\u00f3 a partir de fuentes como peri\u00f3dicos de dominio p\u00fablico digitalizados por la Biblioteca del Congreso de Estados Unidos y la Biblioteca Nacional de Francia. Pierre-Carl Langlais, coordinador del proyecto Common Corpus, lo llama \u00abun corpus lo suficientemente grande como para formar un LLM de \u00faltima generaci\u00f3n\u00bb. En la jerga de la gran IA, el conjunto de datos contiene 500 mil millones de tokens; se cree ampliamente que el modelo m\u00e1s capaz de OpenAI ha sido entrenado con varios billones.<\/p>\n<\/div>\n


\n
Source link-46<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"

En 2023, OpenAI dijo al parlamento del Reino Unido que era \u201cimposible\u201d entrenar modelos l\u00edderes de IA sin utilizar materiales protegidos por derechos de autor. Es una postura popular en…<\/p>\n","protected":false},"author":1,"featured_media":1058405,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21981],"tags":[506,7677,2695,1187,32959,507,1488,110,29868,3805,495,1474,119801,73],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1058404"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=1058404"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1058404\/revisions"}],"predecessor-version":[{"id":1058406,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1058404\/revisions\/1058406"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/1058405"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=1058404"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=1058404"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=1058404"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}