Los sitios se apresuran a bloquear el rastreador web ChatGPT después de que surgen las instrucciones


Sin previo aviso, OpenAI agregó recientemente detalles sobre su rastreador web, GPTBot, a su sitio de documentación en línea. GPTBot es el nombre del agente de usuario que la empresa usa para recuperar páginas web para entrenar los modelos de IA detrás de ChatGPT, como GPT-4. A principios de esta semana, algunos sitios anunciaron rápidamente su intención de bloquear el acceso de GPTBot a su contenido.

En la nueva documentación, OpenAI dice que las páginas web rastreadas con GPTBot «pueden potencialmente usarse para mejorar modelos futuros» y que permitir que GPTBot acceda a su sitio «puede ayudar a que los modelos de IA sean más precisos y mejoren sus capacidades generales y seguridad».

OpenAI afirma que ha implementado filtros que garantizan que GPTBot no accederá a las fuentes detrás de los muros de pago, aquellos que recopilan información de identificación personal o cualquier contenido que viole las políticas de OpenAI.

La noticia de la posibilidad de bloquear los raspados de entrenamiento de OpenAI (si los respetan) llega demasiado tarde para afectar los datos de entrenamiento actuales de ChatGPT o GPT-4, que se rasparon sin previo aviso hace años. OpenAI recopiló los datos hasta septiembre de 2021, que es el límite actual de «conocimiento» para los modelos de lenguaje de OpenAI.

Vale la pena señalar que las nuevas instrucciones podría no evitar que las versiones de navegación web de los complementos ChatGPT o ChatGPT accedan a sitios web actuales para transmitir información actualizada al usuario. Ese punto no se detalló en la documentación, y nos comunicamos con OpenAI para obtener una aclaración.

La respuesta está en robots.txt

De acuerdo con la documentación de OpenAI, GPTBot será identificable por el token de agente de usuario «GPTBot», y su cadena completa será «Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko; compatible; GPTBot/1.0; +https://openai.com /gptbot)».

Los documentos de OpenAI también brindan instrucciones sobre cómo bloquear GPTBot para que no rastree sitios web utilizando el archivo robots.txt estándar de la industria, que es un archivo de texto que se encuentra en el directorio raíz de un sitio web e instruye a los rastreadores web (como los que utilizan los motores de búsqueda). ) para no indexar el sitio.

Es tan fácil como agregar estas dos líneas al archivo robots.txt de un sitio:

User-agent: GPTBot
Disallow: /

OpenAI también dice que los administradores pueden restringir GPTBot de ciertas partes del sitio en robots.txt con diferentes tokens:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Además, OpenAI ha proporcionado los bloques de direcciones IP específicos desde los que operará GPTBot, que también podrían ser bloqueados por cortafuegos.

A pesar de esta opción, bloquear GPTBot no garantizará que los datos de un sitio no acaben entrenando todos los modelos de IA del futuro. Además de los problemas de los raspadores que ignoran los archivos robots.txt, hay otros grandes conjuntos de datos de sitios web raspados (como The Pile) que no están afiliados a OpenAI. Estos conjuntos de datos se usan comúnmente para entrenar LLM de código abierto (o fuente disponible) como Meta’s Llama 2.

Algunos sitios reaccionan con prisa

Si bien es un gran éxito desde el punto de vista tecnológico, ChatGPT también ha sido controvertido por la forma en que extrajo datos protegidos por derechos de autor sin permiso y concentró ese valor en un producto comercial que elude el modelo típico de publicación en línea. OpenAI ha sido acusado (y demandado) de plagio en este sentido.

En consecuencia, no es sorprendente ver que algunas personas reaccionan ante la noticia de poder bloquear potencialmente su contenido de futuros modelos GPT con una especie de placer reprimido. Por ejemplo, el martes, VentureBeat señaló que The Verge, el escritor de Substack Casey Newton y neil clarke de Clarkesworld, todos dijeron que bloquearían GPTBot poco después de que surgiera la noticia del bot.

Pero para los grandes operadores de sitios web, la elección de bloquear los rastreadores de modelo de lenguaje grande (LLM) no es tan fácil como parece. Hacer que algunos LLM sean ciegos a ciertos datos del sitio web dejará lagunas de conocimiento que podrían servir muy bien a algunos sitios (como sitios que no quieren perder visitantes si ChatGPT les proporciona su información), pero también puede perjudicar a otros. Por ejemplo, bloquear contenido de futuros modelos de IA podría disminuir la huella cultural de un sitio o una marca si los chatbots de IA se convierten en una interfaz de usuario principal en el futuro. Como experimento mental, imagine una empresa en línea que declara que no quería que su sitio web fuera indexado por Google en el año 2002, un movimiento contraproducente cuando esa era la rampa de acceso más popular para encontrar información en línea.

Todavía es temprano en el juego de IA generativa, y no importa en qué dirección vaya la tecnología, o qué sitios individuales intenten optar por no participar en el entrenamiento del modelo de IA, al menos OpenAI ofrece la opción.





Source link-49