Nvidia demandada por datos de entrenamiento de IA mientras continúan los conflictos de derechos de autor


Los autores de libros están demandando a Nvidia, alegando que la plataforma de inteligencia artificial NeMo del fabricante de chips, utilizada para impulsar chatbots personalizados, fue entrenada en un conjunto de datos controvertido que copió y distribuyó ilegalmente sus libros sin su consentimiento.

En una demanda colectiva propuesta, los novelistas Abdi Nazemian (Como a Amar Historia), Brian Keene (Paseo fantasma), y Stewart O’Nan (Anoche en la langosta) argumentó que Nvidia debería pagar daños y perjuicios y destruir todas las copias del conjunto de datos Books3 utilizado para impulsar los modelos de lenguaje grande (LLM) de NeMo.

Los novelistas argumentaron que el conjunto de datos Books3 copiaba «todo Bibliotek», una biblioteca en la sombra de aproximadamente 196.640 libros pirateados. Inicialmente compartido a través de la comunidad de inteligencia artificial Hugging Face, el conjunto de datos de Books3 hoy «está obsoleto y ya no es accesible debido a una infracción de derechos de autor reportada», dice el sitio web de Hugging Face.

Según los autores, Hugging Face eliminó el conjunto de datos en octubre pasado, pero no antes de que empresas de inteligencia artificial como Nvidia lo tomaran e «hicieran múltiples copias». Al entrenar modelos NeMo en este conjunto de datos, los autores alegaron que Nvidia «violó sus derechos exclusivos según la Ley de derechos de autor». Los autores argumentaron que el tribunal de distrito estadounidense de San Francisco debe intervenir y detener a Nvidia porque la empresa «ha seguido haciendo copias de las obras infringidas para entrenar otros modelos».

Un portavoz de Hugging Face aclaró a Ars que «Hugging Face nunca eliminó este conjunto de datos y no alojamos el conjunto de datos de Books3 en el Hub». En cambio, «Hugging Face alojó un script que descarga los datos de The Eye, que es el lugar donde ELeuther alojó los datos», hasta que «Eleuther eliminó los datos de The Eye» por cuestiones de derechos de autor, lo que provocó que el script del conjunto de datos en Hugging Face se rompiera. .

El portavoz de Nvidia dijo al Wall Street Journal que «respetamos los derechos de todos los creadores de contenido y creemos que creamos NeMo cumpliendo plenamente con la ley de derechos de autor».

Al exigir un juicio con jurado, los autores esperan que el tribunal dictamine que Nvidia no tiene ninguna defensa posible por supuestamente violar los derechos de autor y por intentar «causar más infracciones» mediante la distribución de modelos NeMo «como base a partir de la cual construir más modelos».

Los modelos de IA reducen la transparencia en medio de demandas

La demanda colectiva fue presentada por el mismo equipo legal que representa a los autores que demandaron a OpenAI, en cuya demanda recientemente se desestimaron muchas reclamaciones, pero no la reclamación de infracción directa de derechos de autor. Los abogados le dijeron a Ars el mes pasado que los autores modificarían sus quejas contra OpenAI y estaban «ansiosos por seguir adelante y litigar» su reclamo por infracción directa de derechos de autor.

En esa demanda, los autores alegaron infracción de derechos de autor tanto cuando OpenAI capacitó a LLM como cuando los chatbots hicieron referencia a libros en los resultados. Pero los autores parecían más preocupados por los supuestos daños causados ​​por los resultados de los chatbots, advirtiendo que las herramientas de inteligencia artificial tenían una «extraña capacidad para generar texto similar al que se encuentra en materiales textuales protegidos por derechos de autor, incluidos miles de libros».

Excepcionalmente, en la demanda de Nvidia, los autores se centran exclusivamente en los datos de entrenamiento de Nvidia, aparentemente preocupados de que Nvidia pueda permitir a las empresas crear cualquier número de modelos de IA en el controvertido conjunto de datos, lo que podría afectar a miles de autores cuyos trabajos supuestamente podrían ser infringidos ampliamente simplemente por entrenar estos modelos.

Aún no se sabe cómo los tribunales se pronunciarán sobre los reclamos directos de derechos de autor en cualquiera de las demandas (o en la demanda del New York Times contra OpenAI), pero hasta ahora, OpenAI no ha logrado convencer a los tribunales de que desestimen los reclamos.

Sin embargo, OpenAI no parece muy afectado por las demandas. En febrero, OpenAI dijo que esperaba vencer el reclamo de infracción directa de derechos de autor de los autores de libros en una «etapa posterior» del caso y, más recientemente en el caso del New York Times, trató de convencer al tribunal de que el NYT «hackeó» ChatGPT para » preparar» la demanda.

Y Microsoft, coacusado en la demanda del NYT, presentó incluso más recientemente un nuevo argumento que podría ayudar a las empresas de tecnología a derrotar las demandas por derechos de autor sobre los LLM. El mes pasado, Microsoft argumentó que The New York Times estaba intentando detener una «nueva tecnología innovadora» y fracasaría, al igual que los productores de películas que intentaron acabar con el VCR en los años 1980.

«A pesar de las afirmaciones del Times, la ley de derechos de autor no es más un obstáculo para el LLM que lo que lo fue para el VCR (o el piano, la fotocopiadora, la computadora personal, Internet o el motor de búsqueda)», escribió Microsoft.

En diciembre, Yacine Jernite, líder social y de aprendizaje automático de Hugging Face, señaló que los desarrolladores parecían volverse menos transparentes sobre los datos de entrenamiento después de que las demandas por derechos de autor generaron señales de alerta sobre las empresas que utilizan el conjunto de datos Books3, «especialmente para modelos comerciales».

Meta, por ejemplo, «limitó la cantidad de información [it] divulgado sobre» su LLM, Llama-2 «, a una descripción de un solo párrafo y una página adicional de análisis de seguridad y sesgo, después [its] «El uso del conjunto de datos Books3 al entrenar el primer modelo Llama se planteó en una demanda por derechos de autor», escribió Jernite.

Jernite advirtió que los modelos de IA que carecen de transparencia podrían obstaculizar «la capacidad de que las salvaguardias regulatorias sigan siendo relevantes a medida que evolucionan los métodos de capacitación, de los individuos para garantizar que se respeten sus derechos y de que la ciencia y el desarrollo abiertos desempeñen su papel para permitir la gobernanza democrática de las nuevas tecnologías». «. Para respaldar una «mayor responsabilidad», Jernite recomendó «estándares mínimos significativos de transparencia pública para respaldar una regulación efectiva de la IA», así como que las empresas brinden opciones para que cualquiera pueda optar por no incluir sus datos en los datos de capacitación.

«Una mayor transparencia de los datos respalda una mejor gobernanza y fomenta el desarrollo de tecnología que respete de manera más confiable los derechos de las personas», escribió Jernite.



Source link-49