The New York Times prohíbe a los proveedores de IA devorar su contenido


Benj Edwards/Getty Images

A principios de agosto, The New York Times actualizó sus términos de servicio (TOS) para prohibir el raspado de sus artículos e imágenes para el entrenamiento de IA, informa Adweek. La medida llega en un momento en que las empresas de tecnología continúan monetizando aplicaciones de lenguaje de inteligencia artificial como ChatGPT y Google Bard, que obtuvieron sus capacidades a través de extracciones masivas no autorizadas de datos de Internet.

Los nuevos términos prohíben el uso del contenido de Times, que incluye artículos, videos, imágenes y metadatos, para entrenar cualquier modelo de IA sin permiso expreso por escrito. En la Sección 2.1 de los TOS, el NYT dice que su contenido es para el «uso personal, no comercial» del lector y que el uso no comercial no incluye «el desarrollo de ningún programa de software, incluido, entre otros, capacitación un sistema de aprendizaje automático o inteligencia artificial (IA)».

Más abajo, en la sección 4.1, los términos dicen que sin el consentimiento previo por escrito del NYT, nadie puede «usar el Contenido para el desarrollo de ningún programa de software, incluido, entre otros, el entrenamiento de un sistema de aprendizaje automático o inteligencia artificial (IA). .»

El NYT también describe las consecuencias de ignorar las restricciones: «Participar en un uso prohibido de los Servicios puede dar lugar a sanciones, multas o sanciones civiles, penales y/o administrativas contra el usuario y quienes lo ayudan».

A pesar de lo amenazante que suena, los términos de uso restrictivos no han detenido previamente el engullimiento al por mayor de Internet en conjuntos de datos de aprendizaje automático. Todos los modelos de lenguaje grande disponibles en la actualidad, incluidos GPT-4 de OpenAI, Claude 2 de Anthropic, Llama 2 de Meta y PaLM 2 de Google, han sido entrenados en grandes conjuntos de datos de materiales extraídos de Internet. Usando un proceso llamado aprendizaje no supervisado, los datos web se introdujeron en redes neuronales, lo que permitió que los modelos de IA adquirieran un sentido conceptual del lenguaje mediante el análisis de las relaciones entre las palabras.

La naturaleza controvertida del uso de datos extraídos para entrenar modelos de IA, que no se ha resuelto por completo en los tribunales de EE. UU., ha dado lugar a al menos una demanda que acusa a OpenAI de plagio debido a la práctica. La semana pasada, Associated Press y varias otras organizaciones de noticias publicaron una carta abierta que decía que «se debe desarrollar un marco legal para proteger el contenido que impulsa las aplicaciones de IA», entre otras preocupaciones.

Es probable que OpenAI anticipe continuos desafíos legales por delante y ha comenzado a tomar medidas que pueden estar diseñadas para adelantarse a algunas de estas críticas. Por ejemplo, OpenAI recientemente detalló un método que los sitios web podrían usar para bloquear su rastreador web de entrenamiento de IA usando robots.txt. Esto llevó a que varios sitios y autores declararan públicamente que bloquearían el rastreador.

Por ahora, lo que ya se raspó se integra en GPT-4, incluido el contenido del New York Times. Es posible que tengamos que esperar hasta GPT-5 para ver si OpenAI u otros proveedores de IA respetan los deseos de los propietarios de contenido de quedarse fuera. De lo contrario, es posible que haya nuevas demandas o regulaciones de IA en el horizonte.



Source link-49