Es tan f\u00e1cil como agregar estas dos l\u00edneas al archivo robots.txt de un sitio:<\/p>\n
User-agent: GPTBot
\nDisallow: \/<\/pre>\nOpenAI tambi\u00e9n dice que los administradores pueden restringir GPTBot de ciertas partes del sitio en robots.txt con diferentes tokens:<\/p>\n
User-agent: GPTBot
\nAllow: \/directory-1\/
\nDisallow: \/directory-2\/<\/pre>\nAdem\u00e1s, OpenAI ha proporcionado los bloques de direcciones IP espec\u00edficos desde los que operar\u00e1 GPTBot, que tambi\u00e9n podr\u00edan ser bloqueados por cortafuegos.<\/p>\n
A pesar de esta opci\u00f3n, bloquear GPTBot no garantizar\u00e1 que los datos de un sitio no acaben entrenando todos los modelos de IA del futuro. Adem\u00e1s de los problemas de los raspadores que ignoran los archivos robots.txt, hay otros grandes conjuntos de datos de sitios web raspados (como The Pile) que no est\u00e1n afiliados a OpenAI. Estos conjuntos de datos se usan com\u00fanmente para entrenar LLM de c\u00f3digo abierto (o fuente disponible) como Meta’s Llama 2.<\/p>\n
Algunos sitios reaccionan con prisa<\/h2>\n
Si bien es un gran \u00e9xito desde el punto de vista tecnol\u00f3gico, ChatGPT tambi\u00e9n ha sido controvertido por la forma en que extrajo datos protegidos por derechos de autor sin permiso y concentr\u00f3 ese valor en un producto comercial que elude el modelo t\u00edpico de publicaci\u00f3n en l\u00ednea. OpenAI ha sido acusado (y demandado) de plagio en este sentido.<\/p>\n
En consecuencia, no es sorprendente ver que algunas personas reaccionan ante la noticia de poder bloquear potencialmente su contenido de futuros modelos GPT con una especie de placer reprimido. Por ejemplo, el martes, VentureBeat se\u00f1al\u00f3 que The Verge, el escritor de Substack Casey Newton y neil clarke<\/a> de Clarkesworld, todos dijeron que bloquear\u00edan GPTBot poco despu\u00e9s de que surgiera la noticia del bot.<\/p>\nPero para los grandes operadores de sitios web, la elecci\u00f3n de bloquear los rastreadores de modelo de lenguaje grande (LLM) no es tan f\u00e1cil como parece. Hacer que algunos LLM sean ciegos a ciertos datos del sitio web dejar\u00e1 lagunas de conocimiento que podr\u00edan servir muy bien a algunos sitios (como sitios que no quieren perder visitantes si ChatGPT les proporciona su informaci\u00f3n), pero tambi\u00e9n puede perjudicar a otros. Por ejemplo, bloquear contenido de futuros modelos de IA podr\u00eda disminuir la huella cultural de un sitio o una marca si los chatbots de IA se convierten en una interfaz de usuario principal en el futuro. Como experimento mental, imagine una empresa en l\u00ednea que declara que no quer\u00eda que su sitio web fuera indexado por Google en el a\u00f1o 2002, un movimiento contraproducente cuando esa era la rampa de acceso m\u00e1s popular para encontrar informaci\u00f3n en l\u00ednea.<\/p>\n
Todav\u00eda es temprano en el juego de IA generativa, y no importa en qu\u00e9 direcci\u00f3n vaya la tecnolog\u00eda, o qu\u00e9 sitios individuales intenten optar por no participar en el entrenamiento del modelo de IA, al menos OpenAI ofrece la opci\u00f3n.<\/p>\n<\/p><\/div>\n