La demanda por derechos de autor del NY Times quiere que OpenAI elimine todas las instancias de GPT


Agrandar / Microsoft es nombrado en la demanda por supuestamente construir el sistema que permitió entrenar a los derivados de GPT utilizando material infractor.

En agosto, se filtró la noticia de que The New York Times estaba considerando unirse a la creciente legión de creadores que están demandando a empresas de inteligencia artificial por apropiación indebida de su contenido. Según se informó, el Times había estado negociando con OpenAI sobre la posibilidad de licenciar su material, pero esas conversaciones no transcurrieron sin problemas. Entonces, ocho meses después de que, según informes, la compañía considerara presentar una demanda, la demanda ya ha sido presentada.

El Times se dirige a varias empresas bajo el paraguas de OpenAI, así como a Microsoft, un socio de OpenAI que lo utiliza para impulsar su servicio Copilot y ayudó a proporcionar la infraestructura para entrenar el modelo de lenguaje grande GPT. Pero la demanda va mucho más allá del uso de material protegido por derechos de autor en la capacitación, alegando que el software impulsado por OpenAI burlará felizmente el muro de pago del Times y atribuirá información errónea alucinada al Times.

El periodismo es caro.

La demanda señala que The Times mantiene un gran personal que le permite hacer cosas como dedicar reporteros a una amplia gama de temas y participar en importante periodismo de investigación, entre otras cosas. Gracias a esas inversiones, el periódico suele considerarse una fuente autorizada en muchos asuntos.

Todo eso cuesta dinero, y The Times lo gana limitando el acceso a sus informes a través de un sólido muro de pago. Además, cada edición impresa tiene una notificación de derechos de autor, los términos de servicio del Times limitan la copia y el uso de cualquier material publicado y puede ser selectivo sobre cómo otorga licencias para sus historias. Además de impulsar los ingresos, estas restricciones también le ayudan a mantener su reputación como voz autorizada al controlar la apariencia de sus obras.

La demanda alega que las herramientas desarrolladas por OpenAI socavan todo eso. «Al proporcionar contenido al Times sin el permiso o autorización del Times, las herramientas de los demandados socavan y dañan la relación del Times con sus lectores y privan al Times de suscripciones, licencias, publicidad e ingresos de afiliados», alega la demanda.

Parte del uso no autorizado que alega The Times se produjo durante el entrenamiento de varias versiones de GPT. Antes de GPT-3.5, la información sobre el conjunto de datos de entrenamiento se hacía pública. Una de las fuentes utilizadas es una gran colección de material en línea llamada «Common Crawl», que según la demanda contiene información de 16 millones de registros únicos de sitios publicados por The Times. Eso coloca al Times como la tercera fuente más citada, detrás de Wikipedia y una base de datos de patentes estadounidenses.

OpenAI ya no revela tantos detalles de los datos utilizados para el entrenamiento de las versiones recientes de GPT, pero todo indica que los artículos de texto completo del NY Times todavía son parte de ese proceso (mucho más sobre eso en un momento). Espere acceso a la información de entrenamiento será un problema importante durante el descubrimiento si este caso avanza.

No solo entrenar

Se han presentado varias demandas por el uso de material protegido por derechos de autor durante el entrenamiento de sistemas de inteligencia artificial. Pero la demanda del Times va mucho más allá y muestra cómo el material ingerido durante el entrenamiento puede volver a salir durante su uso. «Las herramientas GenAI de los demandados pueden generar resultados que recitan el contenido del Times palabra por palabra, lo resumen detalladamente e imitan su estilo expresivo, como lo demuestran decenas de ejemplos», alega la demanda.

La demanda alega, y pudimos verificar, que es cómicamente fácil lograr que los sistemas impulsados ​​por GPT ofrezcan contenido que normalmente está protegido por el muro de pago del Times. La demanda muestra una serie de ejemplos de GPT-4 que reproducen grandes secciones de artículos casi palabra por palabra.

La demanda incluye capturas de pantalla de ChatGPT al que se le da el título de un artículo en The New York Times y se le solicita el primer párrafo, que entrega. Obtener el texto siguiente aparentemente es tan sencillo como preguntar repetidamente por el siguiente párrafo.

ChatGPT aparentemente ha cerrado ese vacío entre la preparación de esa demanda y el presente. Ingresamos algunas de las indicaciones que se muestran en la demanda y nos aconsejaron: «Recomiendo consultar el sitio web del New York Times u otras fuentes confiables», aunque no podemos descartar que el contexto proporcionado antes de esa solicitud pueda producir material protegido por derechos de autor.

Solicite un párrafo y Copilot le entregará un muro de texto normalmente de pago.

Solicite un párrafo y Copilot le entregará un muro de texto normalmente de pago.

John Timmer

Pero no se han cerrado todas las lagunas. La demanda también muestra la salida de Bing Chat, desde entonces rebautizada como Copilot. Pudimos comprobar que pedir el primer párrafo de un artículo específico en The Times provocó que Copilot reprodujera el primer tercio del artículo.

La demanda desestima los intentos de justificar esto como una forma de uso legítimo. «Públicamente, los demandados insisten en que su conducta está protegida como ‘uso justo’ porque su uso sin licencia de contenido protegido por derechos de autor para entrenar modelos GenAI tiene un nuevo propósito ‘transformador'», señala la demanda. «Pero no hay nada ‘transformador’ en utilizar el contenido del Times sin pago para crear productos que sustituyan al Times y le roben audiencia».

Daños reputacionales y otros daños

Las alucinaciones comunes a la IA también fueron criticadas en la demanda por dañar potencialmente el valor de la reputación del Times y posiblemente dañar la salud humana como efecto secundario. «Un modelo de GPT inventó completamente que ‘The New York Times publicó un artículo el 10 de enero de 2020, titulado ‘Un estudio encuentra un posible vínculo entre el jugo de naranja y el linfoma no Hodgkin'», alega la demanda. «El Times nunca publicó un artículo de este tipo «.

De manera similar, al preguntar sobre un artículo del Times sobre alimentos saludables para el corazón, supuestamente Copilot respondió que contenía una lista de ejemplos (lo cual no era así). Cuando se les pidió la lista, el 80 por ciento de los alimentos ni siquiera fueron mencionados en el artículo original. En otro caso, se atribuyeron recomendaciones a Wirecutter cuando los productos ni siquiera habían sido revisados ​​por su personal.

Al igual que con el material del Times, se alega que es posible lograr que Copilot ofrezca grandes cantidades de artículos de Wirecutter (The Wirecutter es propiedad de The New York Times). Pero la demanda señala que a estos extractos de artículos se les eliminan los enlaces de afiliados, lo que mantiene a Wirecutter fuera de su principal fuente de ingresos.

La demanda apunta a varias empresas de OpenAI por desarrollar el software, así como a Microsoft, este último por ofrecer servicios impulsados ​​por OpenAI y por haber desarrollado los sistemas informáticos que permitieron ingerir el material protegido por derechos de autor durante la capacitación. Las acusaciones incluyen infracciones de derechos de autor directas, contributivas y indirectas, así como violaciones de la DMCA y de marcas registradas. Finalmente, alega “Competencia Desleal por Apropiación Indebida del Common Law”.

La demanda busca nada menos que el borrado de cualquier instancia de GPT que las partes hayan entrenado utilizando material del Times, así como la destrucción de los conjuntos de datos que se utilizaron para el entrenamiento. También solicita una orden judicial permanente para evitar conductas similares en el futuro. El Times también quiere dinero, muchísimo dinero: «daños legales, daños compensatorios, restitución, devolución y cualquier otra compensación que pueda ser permitida por la ley o la equidad».



Source link-49