{"id":771616,"date":"2023-08-15T07:42:06","date_gmt":"2023-08-15T07:42:06","guid":{"rendered":"https:\/\/magazineoffice.com\/los-sitios-se-apresuran-a-bloquear-el-rastreador-web-chatgpt-despues-de-que-surgen-las-instrucciones\/"},"modified":"2023-08-15T07:42:11","modified_gmt":"2023-08-15T07:42:11","slug":"los-sitios-se-apresuran-a-bloquear-el-rastreador-web-chatgpt-despues-de-que-surgen-las-instrucciones","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/los-sitios-se-apresuran-a-bloquear-el-rastreador-web-chatgpt-despues-de-que-surgen-las-instrucciones\/","title":{"rendered":"Los sitios se apresuran a bloquear el rastreador web ChatGPT despu\u00e9s de que surgen las instrucciones"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div itemprop=\"articleBody\">\n<figure class=\"intro-image intro-left\"><figcaption class=\"caption\"\/>  <\/figure>\n<aside id=\"social-left\" class=\"social-left\" aria-label=\"Read the comments or share this article\">\n<\/aside>\n<p><!-- cache hit 52:single\/related:28197d8870fe355b90d82b49e2925ee5 --><!-- empty --><\/p>\n<p>Sin previo aviso, OpenAI agreg\u00f3 recientemente detalles sobre su rastreador web, GPTBot, a su sitio de documentaci\u00f3n en l\u00ednea.  GPTBot es el nombre del agente de usuario que la empresa usa para recuperar p\u00e1ginas web para entrenar los modelos de IA detr\u00e1s de ChatGPT, como GPT-4.  A principios de esta semana, algunos sitios anunciaron r\u00e1pidamente su intenci\u00f3n de bloquear el acceso de GPTBot a su contenido.<\/p>\n<p>En la nueva documentaci\u00f3n, OpenAI dice que las p\u00e1ginas web rastreadas con GPTBot \u00abpueden potencialmente usarse para mejorar modelos futuros\u00bb y que permitir que GPTBot acceda a su sitio \u00abpuede ayudar a que los modelos de IA sean m\u00e1s precisos y mejoren sus capacidades generales y seguridad\u00bb.<\/p>\n<p>OpenAI afirma que ha implementado filtros que garantizan que GPTBot no acceder\u00e1 a las fuentes detr\u00e1s de los muros de pago, aquellos que recopilan informaci\u00f3n de identificaci\u00f3n personal o cualquier contenido que viole las pol\u00edticas de OpenAI.<\/p>\n<p>La noticia de la posibilidad de bloquear los raspados de entrenamiento de OpenAI (si los respetan) llega demasiado tarde para afectar los datos de entrenamiento actuales de ChatGPT o GPT-4, que se rasparon sin previo aviso hace a\u00f1os.  OpenAI recopil\u00f3 los datos hasta septiembre de 2021, que es el l\u00edmite actual de \u00abconocimiento\u00bb para los modelos de lenguaje de OpenAI.<\/p>\n<p>Vale la pena se\u00f1alar que las nuevas instrucciones <a href=\"https:\/\/twitter.com\/ethanhays\/status\/1688924654935969792?s=20\" target=\"_blank\" rel=\"noopener\">podr\u00eda no<\/a> evitar que las versiones de navegaci\u00f3n web de los complementos ChatGPT o ChatGPT accedan a sitios web actuales para transmitir informaci\u00f3n actualizada al usuario.  Ese punto no se detall\u00f3 en la documentaci\u00f3n, y nos comunicamos con OpenAI para obtener una aclaraci\u00f3n.<\/p>\n<h2>La respuesta est\u00e1 en robots.txt<\/h2>\n<p>De acuerdo con la documentaci\u00f3n de OpenAI, GPTBot ser\u00e1 identificable por el token de agente de usuario \u00abGPTBot\u00bb, y su cadena completa ser\u00e1 \u00abMozilla\/5.0 AppleWebKit\/537.36 (KHTML, como Gecko; compatible; GPTBot\/1.0; +https:\/\/openai.com \/gptbot)\u00bb.<\/p>\n<p>Los documentos de OpenAI tambi\u00e9n brindan instrucciones sobre c\u00f3mo bloquear GPTBot para que no rastree sitios web utilizando el archivo robots.txt est\u00e1ndar de la industria, que es un archivo de texto que se encuentra en el directorio ra\u00edz de un sitio web e instruye a los rastreadores web (como los que utilizan los motores de b\u00fasqueda). ) para no indexar el sitio.<\/p>\n<aside class=\"ad_wrapper\" aria-label=\"In Content advertisement\">\n    <span class=\"ad_notice\">Anuncio <\/span>    <\/p>\n<\/aside>\n<p>Es tan f\u00e1cil como agregar estas dos l\u00edneas al archivo robots.txt de un sitio:<\/p>\n<pre>User-agent: GPTBot&#13;\nDisallow: \/<\/pre>\n<p>OpenAI tambi\u00e9n dice que los administradores pueden restringir GPTBot de ciertas partes del sitio en robots.txt con diferentes tokens:<\/p>\n<pre>User-agent: GPTBot&#13;\nAllow: \/directory-1\/&#13;\nDisallow: \/directory-2\/<\/pre>\n<p>Adem\u00e1s, OpenAI ha proporcionado los bloques de direcciones IP espec\u00edficos desde los que operar\u00e1 GPTBot, que tambi\u00e9n podr\u00edan ser bloqueados por cortafuegos.<\/p>\n<p>A pesar de esta opci\u00f3n, bloquear GPTBot no garantizar\u00e1 que los datos de un sitio no acaben entrenando todos los modelos de IA del futuro.  Adem\u00e1s de los problemas de los raspadores que ignoran los archivos robots.txt, hay otros grandes conjuntos de datos de sitios web raspados (como The Pile) que no est\u00e1n afiliados a OpenAI.  Estos conjuntos de datos se usan com\u00fanmente para entrenar LLM de c\u00f3digo abierto (o fuente disponible) como Meta&#8217;s Llama 2.<\/p>\n<h2>Algunos sitios reaccionan con prisa<\/h2>\n<p>Si bien es un gran \u00e9xito desde el punto de vista tecnol\u00f3gico, ChatGPT tambi\u00e9n ha sido controvertido por la forma en que extrajo datos protegidos por derechos de autor sin permiso y concentr\u00f3 ese valor en un producto comercial que elude el modelo t\u00edpico de publicaci\u00f3n en l\u00ednea.  OpenAI ha sido acusado (y demandado) de plagio en este sentido.<\/p>\n<p>En consecuencia, no es sorprendente ver que algunas personas reaccionan ante la noticia de poder bloquear potencialmente su contenido de futuros modelos GPT con una especie de placer reprimido.  Por ejemplo, el martes, VentureBeat se\u00f1al\u00f3 que The Verge, el escritor de Substack Casey Newton y <a href=\"https:\/\/twitter.com\/clarkesworld\/status\/1688600561447268370?s=20\" target=\"_blank\" rel=\"noopener\">neil clarke<\/a> de Clarkesworld, todos dijeron que bloquear\u00edan GPTBot poco despu\u00e9s de que surgiera la noticia del bot.<\/p>\n<p>Pero para los grandes operadores de sitios web, la elecci\u00f3n de bloquear los rastreadores de modelo de lenguaje grande (LLM) no es tan f\u00e1cil como parece.  Hacer que algunos LLM sean ciegos a ciertos datos del sitio web dejar\u00e1 lagunas de conocimiento que podr\u00edan servir muy bien a algunos sitios (como sitios que no quieren perder visitantes si ChatGPT les proporciona su informaci\u00f3n), pero tambi\u00e9n puede perjudicar a otros.  Por ejemplo, bloquear contenido de futuros modelos de IA podr\u00eda disminuir la huella cultural de un sitio o una marca si los chatbots de IA se convierten en una interfaz de usuario principal en el futuro.  Como experimento mental, imagine una empresa en l\u00ednea que declara que no quer\u00eda que su sitio web fuera indexado por Google en el a\u00f1o 2002, un movimiento contraproducente cuando esa era la rampa de acceso m\u00e1s popular para encontrar informaci\u00f3n en l\u00ednea.<\/p>\n<p>Todav\u00eda es temprano en el juego de IA generativa, y no importa en qu\u00e9 direcci\u00f3n vaya la tecnolog\u00eda, o qu\u00e9 sitios individuales intenten optar por no participar en el entrenamiento del modelo de IA, al menos OpenAI ofrece la opci\u00f3n.<\/p>\n<\/p><\/div>\n<p><script async src=\"\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script><br \/>\n<br \/><br \/>\n<br \/><a href=\"https:\/\/magazineoffice.com\/\">Source link-49<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Sin previo aviso, OpenAI agreg\u00f3 recientemente detalles sobre su rastreador web, GPTBot, a su sitio de documentaci\u00f3n en l\u00ednea. GPTBot es el nombre del agente de usuario que la empresa&hellip;<\/p>\n","protected":false},"author":1,"featured_media":771617,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[44280,723,65604,394,19503,246,8,15139,1228,8640,1823],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/771616"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=771616"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/771616\/revisions"}],"predecessor-version":[{"id":771618,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/771616\/revisions\/771618"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/771617"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=771616"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=771616"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=771616"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}