El New York Times quiere que OpenAI y Microsoft paguen por los datos de entrenamiento


El New York Times está demandando a OpenAI y a su cercano colaborador (e inversor), Microsoft, por supuestamente violar la ley de derechos de autor al entrenar modelos generativos de IA en el contenido del Times.

En la demanda, presentada en el Tribunal Federal de Distrito de Manhattan, The Times sostiene que millones de sus artículos se utilizaron para entrenar modelos de IA, incluidos los que sustentan el ultrapopular ChatGPT de OpenAI y Copilot de Microsoft, sin su consentimiento. El Times pide a OpenAI y Microsoft que «destruyan» los modelos y los datos de entrenamiento que contienen el material ofensivo y que sean responsables de «miles de millones de dólares en daños legales y reales» relacionados con la «copia y uso ilegal de las obras excepcionalmente valiosas del Times». .”

“Si The Times y otras organizaciones de noticias no pueden producir y proteger su periodismo independiente, habrá un vacío que ninguna computadora o inteligencia artificial podrá llenar”, se lee en la queja del Times. «Se producirá menos periodismo y el costo para la sociedad será enorme».

En una declaración enviada por correo electrónico, un portavoz de OpenAI dijo: “Respetamos los derechos de los creadores y propietarios de contenido y estamos comprometidos a trabajar con ellos para garantizar que se beneficien de la tecnología de inteligencia artificial y los nuevos modelos de ingresos. Nuestras conversaciones en curso con The New York Times han sido productivas y han avanzado de manera constructiva, por lo que estamos sorprendidos y decepcionados con este desarrollo. Tenemos la esperanza de encontrar una manera mutuamente beneficiosa de trabajar juntos, como lo estamos haciendo con muchos otros editores”.

Los modelos de IA generativa “aprenden” de ejemplos para elaborar ensayos, códigos, correos electrónicos, artículos y más, y proveedores como OpenAI buscan en la web millones o miles de millones de estos ejemplos para agregarlos a sus conjuntos de capacitación. Algunos ejemplos son de dominio público. Otros no lo son, o están bajo licencias restrictivas que requieren citación o formas específicas de compensación.

Los proveedores argumentan que la doctrina del uso legítimo proporciona una protección general para sus prácticas de web scraping. Los titulares de los derechos de autor no están de acuerdo; Cientos de organizaciones de noticias ahora están usando código para evitar que OpenAI, Google y otros escaneen sus sitios web en busca de datos de capacitación.

El conflicto entre proveedores y establecimientos ha dado lugar a un número creciente de batallas legales, siendo la última la del Times.

La actriz Sarah Silverman se unió a un par de demandas en julio que acusan a Meta y OpenAI de haber «ingerido» las memorias de Silverman para entrenar sus modelos de IA. En una demanda separada, miles de novelistas, incluidos Jonathan Franzen y John Grisham, afirman que OpenAI obtuvo su trabajo como datos de entrenamiento sin su permiso o conocimiento. Y varios programadores tienen un caso en curso contra Microsoft, OpenAI y GitHub por Copilot, una herramienta de generación de código impulsada por IA, que según los demandantes se desarrolló utilizando su código protegido por IP.

Si bien The Times no es el primero en demandar a proveedores de IA generativa por supuestas violaciones de propiedad intelectual que involucran obras escritas, es el editor más grande involucrado en una demanda de este tipo hasta la fecha y uno de los primeros en resaltar el daño potencial a su marca a través de «alucinaciones». o hechos inventados a partir de modelos generativos de IA.

La denuncia del Times cita varios casos en los que Bing Chat de Microsoft (ahora llamado Copilot), que se basa en un modelo OpenAI, proporcionó información incorrecta que se decía provenía del Times, incluidos resultados de «los 15 alimentos más saludables para el corazón». ”, 12 de los cuales no fueron mencionados en ningún artículo del Times.

El Times también argumenta que OpenAI y Microsoft están creando efectivamente competidores en los editores de noticias utilizando los trabajos del Times, perjudicando el negocio del Times al proporcionar información a la que normalmente no se podría acceder sin una suscripción, información que no siempre se cita. , a veces monetizado y despojado de enlaces de afiliados que The Times utiliza para generar comisiones, además.

Como alude la denuncia del Times, los modelos generativos de IA tienden a regurgitar datos de entrenamiento, por ejemplo, reproduciendo resultados casi palabra por palabra de artículos. Más allá de la regurgitación, OpenAI al menos en una ocasión permitió sin darse cuenta a los usuarios de ChatGPT eludir el contenido de noticias de pago.

«Los demandados buscan aprovecharse de la enorme inversión del Times en su periodismo», dice la demanda, acusando a OpenAI y Microsoft de «usar el contenido del Times sin pago para crear productos que sustituyen al Times y le roban audiencia».

Los impactos en el negocio de suscripción de noticias (y en el tráfico web de los editores) están en el centro de una demanda tangencialmente similar presentada por los editores a principios de mes contra Google. En el caso, los demandados, al igual que The Times, argumentaron que los experimentos GenAI de Google, incluido su chatbot Bard impulsado por IA y Search Generative Experience, desvían el contenido de los editores, los lectores y los ingresos publicitarios a través de medios anticompetitivos.

Las afirmaciones de los editores tienen credibilidad. Un modelo reciente de The Atlantic descubrió que, si un motor de búsqueda como Google integrara la IA en la búsqueda, respondería a la consulta de un usuario el 75% de las veces sin necesidad de hacer clic en su sitio web. Los editores demandados por Google estiman que perderían hasta el 40% de su tráfico.

Eso no significa que tendrán éxito en los tribunales. Heather Meeker, socia fundadora de OSS Capital y asesora en cuestiones de propiedad intelectual, incluidos acuerdos de licencia, comparó el ejemplo de regurgitación del Times con “usar un procesador de textos para cortar y pegar”.

«En la denuncia, The New York Times da un ejemplo de una sesión de ChatGPT sobre una reseña de un restaurante de 2012», dijo Meeker a TechCrunch por correo electrónico. “El mensaje de ChatGPT es ‘¿Cuáles fueron los párrafos iniciales de su reseña?’ Las siguientes indicaciones solicitan repetidamente «la siguiente oración». Incitar a un chatbot a reproducir información no es una base sensata para infringir los derechos de autor… Si el usuario hace una copia intencional del chatbot, es culpa del usuario. Y es por eso que la mayoría [lawsuits like this] probablemente fracasará”.

Algunos medios de comunicación, en lugar de luchar contra los proveedores de IA generativa en los tribunales, han optado por firmar acuerdos de licencia con ellos. Associated Press llegó a un acuerdo en julio con OpenAI, y Axel Springer, la editorial alemana propietaria de Politico y Business Insider, hizo lo mismo este mes.

En su denuncia, The Times dice que intentó llegar a un acuerdo de licencia con Microsoft y OpenAI en abril, pero que las conversaciones finalmente no fueron fructíferas.

Actualizado a las 4:24 hora del este con contexto adicional y comentarios de OpenAI.



Source link-48