Anoche en la langosta<\/em>) argument\u00f3 que Nvidia deber\u00eda pagar da\u00f1os y perjuicios y destruir todas las copias del conjunto de datos Books3 utilizado para impulsar los modelos de lenguaje grande (LLM) de NeMo.<\/p>\nLos novelistas argumentaron que el conjunto de datos Books3 copiaba \u00abtodo Bibliotek\u00bb, una biblioteca en la sombra de aproximadamente 196.640 libros pirateados. Inicialmente compartido a trav\u00e9s de la comunidad de inteligencia artificial Hugging Face, el conjunto de datos de Books3 hoy \u00abest\u00e1 obsoleto y ya no es accesible debido a una infracci\u00f3n de derechos de autor reportada\u00bb, dice el sitio web de Hugging Face.<\/p>\n
Seg\u00fan los autores, Hugging Face elimin\u00f3 el conjunto de datos en octubre pasado, pero no antes de que empresas de inteligencia artificial como Nvidia lo tomaran e \u00abhicieran m\u00faltiples copias\u00bb. Al entrenar modelos NeMo en este conjunto de datos, los autores alegaron que Nvidia \u00abviol\u00f3 sus derechos exclusivos seg\u00fan la Ley de derechos de autor\u00bb. Los autores argumentaron que el tribunal de distrito estadounidense de San Francisco debe intervenir y detener a Nvidia porque la empresa \u00abha seguido haciendo copias de las obras infringidas para entrenar otros modelos\u00bb.<\/p>\n
Un portavoz de Hugging Face aclar\u00f3 a Ars que \u00abHugging Face nunca elimin\u00f3 este conjunto de datos y no alojamos el conjunto de datos de Books3 en el Hub\u00bb. En cambio, \u00abHugging Face aloj\u00f3 un script que descarga los datos de The Eye, que es el lugar donde ELeuther aloj\u00f3 los datos\u00bb, hasta que \u00abEleuther elimin\u00f3 los datos de The Eye\u00bb por cuestiones de derechos de autor, lo que provoc\u00f3 que el script del conjunto de datos en Hugging Face se rompiera. .<\/p>\n\n Anuncio <\/span> <\/p>\n<\/aside>\nEl portavoz de Nvidia dijo al Wall Street Journal que \u00abrespetamos los derechos de todos los creadores de contenido y creemos que creamos NeMo cumpliendo plenamente con la ley de derechos de autor\u00bb.<\/p>\n
Al exigir un juicio con jurado, los autores esperan que el tribunal dictamine que Nvidia no tiene ninguna defensa posible por supuestamente violar los derechos de autor y por intentar \u00abcausar m\u00e1s infracciones\u00bb mediante la distribuci\u00f3n de modelos NeMo \u00abcomo base a partir de la cual construir m\u00e1s modelos\u00bb.<\/p>\n
Los modelos de IA reducen la transparencia en medio de demandas<\/h2>\n La demanda colectiva fue presentada por el mismo equipo legal que representa a los autores que demandaron a OpenAI, en cuya demanda recientemente se desestimaron muchas reclamaciones, pero no la reclamaci\u00f3n de infracci\u00f3n directa de derechos de autor. Los abogados le dijeron a Ars el mes pasado que los autores modificar\u00edan sus quejas contra OpenAI y estaban \u00abansiosos por seguir adelante y litigar\u00bb su reclamo por infracci\u00f3n directa de derechos de autor.<\/p>\n
En esa demanda, los autores alegaron infracci\u00f3n de derechos de autor tanto cuando OpenAI capacit\u00f3 a LLM como cuando los chatbots hicieron referencia a libros en los resultados. Pero los autores parec\u00edan m\u00e1s preocupados por los supuestos da\u00f1os causados \u200b\u200bpor los resultados de los chatbots, advirtiendo que las herramientas de inteligencia artificial ten\u00edan una \u00abextra\u00f1a capacidad para generar texto similar al que se encuentra en materiales textuales protegidos por derechos de autor, incluidos miles de libros\u00bb.<\/p>\n
Excepcionalmente, en la demanda de Nvidia, los autores se centran exclusivamente en los datos de entrenamiento de Nvidia, aparentemente preocupados de que Nvidia pueda permitir a las empresas crear cualquier n\u00famero de modelos de IA en el controvertido conjunto de datos, lo que podr\u00eda afectar a miles de autores cuyos trabajos supuestamente podr\u00edan ser infringidos ampliamente simplemente por entrenar estos modelos.<\/p>\n
A\u00fan no se sabe c\u00f3mo los tribunales se pronunciar\u00e1n sobre los reclamos directos de derechos de autor en cualquiera de las demandas (o en la demanda del New York Times contra OpenAI), pero hasta ahora, OpenAI no ha logrado convencer a los tribunales de que desestimen los reclamos.<\/p>\n\n Anuncio <\/span> <\/p>\n<\/aside>\nSin embargo, OpenAI no parece muy afectado por las demandas. En febrero, OpenAI dijo que esperaba vencer el reclamo de infracci\u00f3n directa de derechos de autor de los autores de libros en una \u00abetapa posterior\u00bb del caso y, m\u00e1s recientemente en el caso del New York Times, trat\u00f3 de convencer al tribunal de que el NYT \u00abhacke\u00f3\u00bb ChatGPT para \u00bb preparar\u00bb la demanda.<\/p>\n
Y Microsoft, coacusado en la demanda del NYT, present\u00f3 incluso m\u00e1s recientemente un nuevo argumento que podr\u00eda ayudar a las empresas de tecnolog\u00eda a derrotar las demandas por derechos de autor sobre los LLM. El mes pasado, Microsoft argument\u00f3 que The New York Times estaba intentando detener una \u00abnueva tecnolog\u00eda innovadora\u00bb y fracasar\u00eda, al igual que los productores de pel\u00edculas que intentaron acabar con el VCR en los a\u00f1os 1980.<\/p>\n
\u00abA pesar de las afirmaciones del Times, la ley de derechos de autor no es m\u00e1s un obst\u00e1culo para el LLM que lo que lo fue para el VCR (o el piano, la fotocopiadora, la computadora personal, Internet o el motor de b\u00fasqueda)\u00bb, escribi\u00f3 Microsoft.<\/p>\n
En diciembre, Yacine Jernite, l\u00edder social y de aprendizaje autom\u00e1tico de Hugging Face, se\u00f1al\u00f3 que los desarrolladores parec\u00edan volverse menos transparentes sobre los datos de entrenamiento despu\u00e9s de que las demandas por derechos de autor generaron se\u00f1ales de alerta sobre las empresas que utilizan el conjunto de datos Books3, \u00abespecialmente para modelos comerciales\u00bb.<\/p>\n
Meta, por ejemplo, \u00ablimit\u00f3 la cantidad de informaci\u00f3n [it] divulgado sobre\u00bb su LLM, Llama-2 \u00ab, a una descripci\u00f3n de un solo p\u00e1rrafo y una p\u00e1gina adicional de an\u00e1lisis de seguridad y sesgo, despu\u00e9s [its] \u00abEl uso del conjunto de datos Books3 al entrenar el primer modelo Llama se plante\u00f3 en una demanda por derechos de autor\u00bb, escribi\u00f3 Jernite.<\/p>\n
Jernite advirti\u00f3 que los modelos de IA que carecen de transparencia podr\u00edan obstaculizar \u00abla capacidad de que las salvaguardias regulatorias sigan siendo relevantes a medida que evolucionan los m\u00e9todos de capacitaci\u00f3n, de los individuos para garantizar que se respeten sus derechos y de que la ciencia y el desarrollo abiertos desempe\u00f1en su papel para permitir la gobernanza democr\u00e1tica de las nuevas tecnolog\u00edas\u00bb. \u00ab. Para respaldar una \u00abmayor responsabilidad\u00bb, Jernite recomend\u00f3 \u00abest\u00e1ndares m\u00ednimos significativos de transparencia p\u00fablica para respaldar una regulaci\u00f3n efectiva de la IA\u00bb, as\u00ed como que las empresas brinden opciones para que cualquiera pueda optar por no incluir sus datos en los datos de capacitaci\u00f3n.<\/p>\n
\u00abUna mayor transparencia de los datos respalda una mejor gobernanza y fomenta el desarrollo de tecnolog\u00eda que respete de manera m\u00e1s confiable los derechos de las personas\u00bb, escribi\u00f3 Jernite.<\/p>\n<\/p><\/div>\n
\nSource link-49<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"Los autores de libros est\u00e1n demandando a Nvidia, alegando que la plataforma de inteligencia artificial NeMo del fabricante de chips, utilizada para impulsar chatbots personalizados, fue entrenada en un conjunto…<\/p>\n","protected":false},"author":1,"featured_media":1047123,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[7677,20011,9131,121,3510,1187,1223,8,1574,843,110],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1047122"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=1047122"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1047122\/revisions"}],"predecessor-version":[{"id":1047124,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1047122\/revisions\/1047124"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/1047123"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=1047122"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=1047122"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=1047122"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}