Varios artistas visuales han presentado demandas por el uso de sus imágenes como datos de entrenamiento para generadores de texto a imagen. Ahora, dos reconocidos novelistas presentaron su propia demanda colectiva contra OpenAI, acusando a la compañía detrás de ChatGPT y Bing Chat de infracción de derechos de autor porque supuestamente usó sus libros como datos de capacitación. Esta parece ser la primera demanda presentada por el uso de texto (a diferencia de imágenes o código) como datos de entrenamiento.
En la demanda presentada en el Tribunal de Distrito de los Estados Unidos del Distrito Norte de California, los demandantes Paul Tremblay y Mona Awad alegan que OpenAI y sus subsidiarias infringieron los derechos de autor, violaron la Ley de Derechos de Autor del Milenio Digital y también infringieron las restricciones de California y del derecho consuetudinario sobre competencia desleal. Los escritores están representados por Joseph Saveri Law Firm y Matthew Butterick, el mismo equipo que está detrás de las demandas recientes presentadas contra Diffusion AI y GitHub (sobre el copiloto de GitHub).
La denuncia alega que la novela de Tremblay La Cabaña del Fin del Mundo y dos de las novelas de Awad: 13 maneras de mirar a una chica gorda y Conejito se utilizaron como datos de entrenamiento para GPT-3.5 y GPT-4. Aunque OpenAI no ha revelado que las novelas protegidas por derechos de autor se encuentran en sus datos de capacitación (que se mantienen en secreto), los demandantes concluyen que debe ser porque ChatGPT pudo proporcionar resúmenes detallados de la trama y responder preguntas sobre los libros, una hazaña que lo requeriría. para tener acceso a los textos completos.
«Debido a que los Modelos de lenguaje de OpenAI no pueden funcionar sin la información expresiva extraída de los trabajos de los Demandantes (y otros) y retenida dentro de ellos, los Modelos de lenguaje de OpenAI en sí mismos infringen trabajos derivados, hechos sin el permiso de los Demandantes y en violación de sus derechos exclusivos bajo el Ley de derechos de autor», dice la denuncia.
Los tres libros también contienen información de gestión de derechos de autor (CMI), como ISBN y números de registro de derechos de autor. La Ley de derechos de autor del milenio digital (DMCA) establece que eliminar o falsificar CMI es ilegal y, dado que la salida de ChatGPT no contiene esa información, los demandantes alegan que OpenAI es culpable de violar la DMCA además de la infracción regular de derechos de autor.
Aunque la demanda solo tiene dos demandantes en este momento, los abogados buscan el estatus de demanda colectiva que permitiría a otros autores que han tenido obras protegidas por derechos de autor utilizadas por OpenAI para cobrar también daños y perjuicios. Los abogados buscan daños monetarios, costos judiciales y una orden judicial que obligue a OpenAI a cambiar su software y prácticas comerciales en torno al material con derechos de autor.
Nos comunicamos con Butterick para comentar sobre la demanda y nos remitió a su sitio web, LLM Litigation, que tiene una explicación detallada de la posición de los demandantes y por qué están demandando.
«Presentamos una demanda colectiva contra OpenAI que impugna ChatGPT y sus modelos de lenguaje extenso subyacentes, GPT-3.5 y GPT-4, que remezclan las obras protegidas por derechos de autor de miles de autores de libros, y muchos otros, sin consentimiento, compensación o crédito», escriben los abogados.
También critican el concepto de IA generativa y escriben que «la ‘inteligencia artificial generativa’ es solo inteligencia humana, reempaquetada y divorciada de sus creadores».
Al igual que la demanda de Saveri y Butterick contra Stability AI por usar imágenes con derechos de autor como datos de entrenamiento, esta se basa en la creencia de que obtener texto de la Internet abierta para impulsar un LLM no es un uso justo. Esa es una pregunta que aún no ha sido respondida en la corte.
En un caso de 2006, Blake vs Google, un escritor demandó al motor de búsqueda por almacenar en caché su trabajo y hacer que las versiones almacenadas en caché estuvieran disponibles a través de la búsqueda. Sin embargo, un tribunal de distrito de EE. UU. desestimó la demanda y sostuvo que el almacenamiento en caché de los datos por parte de Google era un uso justo. El juez Robert C. Jones escribió que mantener documentos en caché es un uso transformador (uno de los cuatro factores utilizados para determinar el uso legítimo) y que no daña el mercado potencial de la obra (otro factor). Por lo tanto, el simple hecho de almacenar datos protegidos por derechos de autor en su servidor en forma de caché no hacía responsable a Google.
Sin embargo, usar un trabajo creativo protegido por derechos de autor como datos de entrenamiento es bastante diferente a indexar contenido para la búsqueda. Se podría argumentar que si el LLM puede repetir detalles clave del libro, está dañando el mercado de esos trabajos y no es verdaderamente transformador. Por otro lado, si un ser humano escribe un resumen de la trama de un libro, eso generalmente no infringe la ley de derechos de autor. En última instancia, estas preguntas se decidirán debido a demandas como esta.
OpenAI no es la única empresa que utiliza materiales protegidos por derechos de autor para la formación o incluso para la producción. Google SGE, la nueva experiencia de búsqueda de la compañía, a menudo plagia oraciones y párrafos completos palabra por palabra de artículos protegidos por derechos de autor. Lo que suceda en este traje podría tener un impacto mucho mayor en la industria de la IA generativa.