{"id":519804,"date":"2023-03-16T21:09:23","date_gmt":"2023-03-16T21:09:23","guid":{"rendered":"https:\/\/magazineoffice.com\/gpt-4-es-una-caja-negra-gigante-y-sus-datos-de-entrenamiento-siguen-siendo-un-misterio\/"},"modified":"2023-03-16T21:09:25","modified_gmt":"2023-03-16T21:09:25","slug":"gpt-4-es-una-caja-negra-gigante-y-sus-datos-de-entrenamiento-siguen-siendo-un-misterio","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/gpt-4-es-una-caja-negra-gigante-y-sus-datos-de-entrenamiento-siguen-siendo-un-misterio\/","title":{"rendered":"GPT-4 es una caja negra gigante y sus datos de entrenamiento siguen siendo un misterio"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div>\n<p class=\"sc-77igqf-0 fnnahv\">\u201cNo querr\u00e1s saber c\u00f3mo se hace la salchicha\u201d.<\/p>\n<p class=\"sc-77igqf-0 fnnahv\">Por mucho que hayas escuchado este estribillo, estoy aqu\u00ed para decirte que, en realidad, lo haces, o al menos deber\u00edas hacerlo.  Si vas a meterte una salchicha en el orificio de la boca, \u00bfno quieres saber si alguien verti\u00f3 aserr\u00edn en tu salchicha?  Lo mismo ocurre con la tecnolog\u00eda.  Ahora, con los modelos de lenguaje grande de IA arrasando en el mundo de la tecnolog\u00eda, est\u00e1s deseando saber qu\u00e9 tipo de datos se utilizan para hacer ChatGPT o cualquier otro LLM. <\/p>\n<p class=\"sc-77igqf-0 fnnahv\">El martes, <span>OpenAI lanz\u00f3 su modelo GPT-4<\/span>, cit\u00e1ndolo como el modelo de lenguaje de IA m\u00e1s avanzado jam\u00e1s creado con \u00abmayor precisi\u00f3n\u00bb y \u00abconocimiento m\u00e1s amplio\u00bb.  Aunque solo tendr\u00e1 que tomar la palabra de la compa\u00f1\u00eda.  A pesar de su nombre, OpenAI no permite que cualquiera alcance su punto m\u00e1ximo bajo el cap\u00f3 de su nuevo modelo de lenguaje de clase Ferrari.  En el documento publicado con GPT-4, la compa\u00f1\u00eda escribi\u00f3:<\/p>\n<blockquote data-type=\"BlockQuote\" class=\"sc-8hxd3p-0 eXwMsK\">\n<p class=\"sc-77igqf-0 fnnahv\">\u00abDado el panorama competitivo y las implicaciones de seguridad de los modelos a gran escala como GPT-4, este informe no contiene m\u00e1s detalles sobre la arquitectura (incluido el tama\u00f1o del modelo), el hardware, el c\u00e1lculo de entrenamiento, la construcci\u00f3n de conjuntos de datos, el m\u00e9todo de entrenamiento o similar\u00bb.<\/p>\n<\/blockquote>\n<p class=\"sc-77igqf-0 fnnahv\">El presidente de OpenAI, Greg Brockman, confirm\u00f3 con <span>TechCrunch<\/span> que GPT-4 ahora est\u00e1 entrenado en im\u00e1genes y texto, pero a\u00fan no estaba dispuesto a discutir detalles sobre el origen de esas im\u00e1genes, o cualquier otra cosa sobre sus datos de entrenamiento. <span>OpenAI est\u00e1 luchando contra una demanda colectiva propuesta<\/span> apuntando a su asociaci\u00f3n con GitHub para su herramienta Copilot asistente de IA.  hay otro <span>demandas en curso con respecto a las im\u00e1genes utilizadas para entrenar a los generadores de im\u00e1genes de IA<\/span>por lo que OpenAI puede estar tratando de protegerse de cualquier sorpresa legal.<\/p>\n<p class=\"sc-77igqf-0 fnnahv\">Gizmodo se acerc\u00f3 a OpenAI para obtener m\u00e1s informaci\u00f3n sobre su toma de decisiones, pero nunca recibimos respuesta.  En una entrevista del mi\u00e9rcoles con <span>el borde<\/span>, el cofundador de OpenAI, Ilya Sutskever, revel\u00f3 cu\u00e1n \u00abequivocada\u00bb estaba la empresa al publicar sus datos de capacitaci\u00f3n en a\u00f1os anteriores.  Dijo que hacer que la IA sea de c\u00f3digo abierto era \u00abuna mala idea\u00bb no solo por la competencia, sino porque la inteligencia artificial general, o AGI, ser\u00e1 muy \u00abpotente\u00bb.  Eso s\u00ed, no existe tal cosa como AGI, como en tecnolog\u00eda equivalente a un real, <span>inteligencia artificial consciente<\/span>.  Es <span>todo solo especulativo<\/span>pero OpenAI parece pensar que ya est\u00e1 en la planta baja. <\/p>\n<div class=\"sc-bxm4mm-7 jKZusJ\">\n<div class=\"sc-1atgi65-0 sc-1atgi65-1 ihItMd jHyAgA js_commerce-inset-permalink\" data-inset-url=\"https:\/\/stacksocial.com\/sales\/the-2022-complete-python-certification-bootcamp-bundle?aid=a-efnv1nsd&amp;utm_source=theinventory.com&amp;utm_medium=referral&amp;utm_campaign=the-2022-complete-python-certification-bootcamp-bundle_011723&amp;utm_term=scsf-563824\" data-inset-category=\"CommerceInsetMobile\">\n<p>G\/O Media puede recibir una comisi\u00f3n<\/p>\n<\/div>\n<\/div>\n<p class=\"sc-77igqf-0 fnnahv\">La compa\u00f1\u00eda dijo que comparte algunos datos con auditores externos, pero no es probable que alguna vez veamos la disecci\u00f3n completa de GPT-4 de esos investigadores.  OpenAI fue una vez una organizaci\u00f3n sin fines de lucro antes <span>crear una subsidiaria con fines de lucro<\/span> con la gran esperanza de convertirse en la mayor fuerza de IA del planeta (incluso el inversor original de OpenAI, Elon Musk <span><a class=\"sc-1out364-0 dPMosf sc-145m8ut-0 jCErAQ js_link\" data-ga=\"[[&quot;Embedded Url&quot;,&quot;External link&quot;,&quot;https:\/\/twitter.com\/elonmusk\/status\/1636047019893481474?s=20&quot;,&quot;metric25&quot;:1]]\" href=\"https:\/\/twitter.com\/elonmusk\/status\/1636047019893481474?s=20\" target=\"_blank\" rel=\"noopener noreferrer\">parece confundido c\u00f3mo sucedi\u00f3 esto<\/a><\/span>).  As\u00ed que ahora, los expertos en IA encabezados por Sam Altman en OpenAI dijeron que necesitan \u00absopesar la consideraci\u00f3n competitiva y de seguridad&#8230; contra el valor cient\u00edfico de una mayor transparencia\u00bb.<\/p>\n<h2 class=\"sc-1bwb26k-1 igvwmj\" id=\"h982\"><strong>Hay pocas formas de saber qu\u00e9 tipos espec\u00edficos de sesgo tiene GPT-4<\/strong><\/h2>\n<p class=\"sc-77igqf-0 fnnahv\">Ben Schmidt, ex profesor de historia que ahora trabaja como vicepresidente de I<!-- -->informaci\u00f3n D<!-- -->Dise\u00f1o en empresa de an\u00e1lisis de conjuntos de datos de IA <span>n\u00f3mico<\/span>dijo que la falta de informaci\u00f3n sobre el conjunto de datos de GPT-4 es extremadamente preocupante porque esos datos podr\u00edan proporcionar pistas sobre qu\u00e9 tipo de sesgos<!-- --> El modelo de IA podr\u00eda tener.  Sin \u00e9l, los grupos externos solo pueden adivinar.<\/p>\n<p><span class=\"twitter-embed\" style=\"width:100%;height:100%\"><iframe data-src=\"https:\/\/gizmodo.com\/embed\/inset\/iframe?id=twitter-1635697783876223006&amp;autosize=1\" autoresize=\"true\" id=\"twitter-1635697783876223006\" data-recommended=\"false\" class=\"core-inset lazyload\" frameborder=\"0\" scrolling=\"no\" allowfullscreen=\"\" webkitallowfullscreen=\"webkitAllowFullScreen\" mozallowfullscreen=\"mozallowfullscreen\"><\/iframe><\/span><\/p>\n<p class=\"sc-77igqf-0 fnnahv\">La compa\u00f1\u00eda ha estado yendo por este camino por un tiempo.  El modelo de idioma anterior de la compa\u00f1\u00eda, GPT-3, se entren\u00f3 en muchos, muchos terabytes de texto cargado en Internet.  La empresa <span>ha reconocido<\/span> esto lleva a que algunos grupos que no est\u00e1n en Internet no est\u00e9n representados e informa al <span>IA de ciertos sesgos<\/span>. <\/p>\n<p class=\"sc-77igqf-0 fnnahv\">OpenAI admiti\u00f3 en su art\u00edculo que GPT-4 tiene \u00abvarios sesgos en sus resultados que nos hemos esforzado por corregir, pero que llevar\u00e1 alg\u00fan tiempo caracterizar y gestionar por completo\u00bb.  El objetivo es hacer que el sistema refleje una \u00abamplia franja de valores de los usuarios\u00bb, incluso la capacidad de personalizar esos \u00abvalores\u00bb.  Las propias iniciativas de equipo rojo de la compa\u00f1\u00eda demostraron que GPT-4 puede rivalizar con los propagandistas humanos, especialmente junto con un editor humano.  Incluso con esa admisi\u00f3n, los investigadores fuera de OpenAI no sabr\u00edan de d\u00f3nde puede estar obteniendo ese sesgo.<\/p>\n<p class=\"sc-77igqf-0 fnnahv\">Despu\u00e9s de que OpenAI lanz\u00f3 GPT-4, los investigadores de seguridad de IA en <!-- -->adversario <span>llev\u00f3 a cabo algunos ataques simples de inyecci\u00f3n r\u00e1pida<\/span> para averiguar c\u00f3mo puede manipular la IA.  Estas indicaciones enga\u00f1an a la IA para que anule sus propias medidas de seguridad.  La IA podr\u00eda entonces crear un art\u00edculo editado para, por ejemplo, explicar c\u00f3mo destruir mejor el mundo.  En un ejemplo mucho m\u00e1s pertinente para nuestro entorno pol\u00edtico demente, los investigadores de Adversera tambi\u00e9n podr\u00edan hacer que la IA escriba un art\u00edculo editado usando texto subversivo y silbatos para perros para atacar a las personas LGBTQ+.<\/p>\n<p class=\"sc-77igqf-0 fnnahv\">Sin saber de d\u00f3nde deriva su informaci\u00f3n GPT-4, es m\u00e1s dif\u00edcil entender d\u00f3nde se encuentran los peores da\u00f1os.  La profesora de ling\u00fc\u00edstica computacional de la Universidad de Washington, Emily Bender, escribi\u00f3 en Twitter que este ha sido un problema constante con OpenAI desde 2017. Dijo que OpenAI est\u00e1 \u201cignorando deliberadamente las estrategias de mitigaci\u00f3n de riesgos m\u00e1s b\u00e1sicas, al tiempo que proclama que est\u00e1 trabajando en beneficio de la humanidad. .\u201d <\/p>\n<p><span class=\"twitter-embed\" style=\"width:100%;height:100%\"><iframe data-src=\"https:\/\/gizmodo.com\/embed\/inset\/iframe?id=twitter-1635742285358067712&amp;autosize=1\" autoresize=\"true\" id=\"twitter-1635742285358067712\" data-recommended=\"false\" class=\"core-inset lazyload\" frameborder=\"0\" scrolling=\"no\" allowfullscreen=\"\" webkitallowfullscreen=\"webkitAllowFullScreen\" mozallowfullscreen=\"mozallowfullscreen\"><\/iframe><\/span><\/p>\n<p class=\"sc-77igqf-0 fnnahv\">Incluso si GPT-3 fue m\u00e1s abierto sobre sus datos de entrenamiento, sigue siendo vago en los detalles.  En un correo electr\u00f3nico a Gizmodo, Schmidt se\u00f1al\u00f3 el <span>papel GPT-3<\/span> que inclu\u00eda puntos de datos de \u00abLibros1\u00bb y \u00abLibros2\u00bb.  Esos dos constituyen el 16 % del conjunto de datos, pero los investigadores solo pueden especular qu\u00e9 significan y qu\u00e9 libros podr\u00edan haberse incluido en el conjunto de datos (especialmente porque no es como si los rastreadores web pidieran permiso a los autores antes de engullir todos esos datos). ).  Era a\u00fan peor en a\u00f1os anteriores.  Schmidt dijo que OpenAI lanz\u00f3 GPT-2 utilizando datos extra\u00eddos que intentaron analizar p\u00e1ginas de \u00abalta calidad\u00bb en funci\u00f3n de la cantidad de votos a favor de Reddit que recibi\u00f3.<\/p>\n<figure class=\"sc-1eow4w5-1 fuSEnv align--bleed js_lazy-image js_marquee-assetfigure\" data-id=\"f0fde54e14ffe13edac660c18f1ceed5\" data-recommend-id=\"image:\/\/f0fde54e14ffe13edac660c18f1ceed5\" data-format=\"png\" data-width=\"1336\" data-height=\"610\" data-lightbox=\"true\" data-recommended=\"false\" data-hide=\"false\" contenteditable=\"false\" draggable=\"false\">\n<div class=\"sc-1eow4w5-2 fDJNBs has-data img-wrapper\" contenteditable=\"false\" style=\"max-width:1336px\" data-link-reference=\"\" data-link-target=\"\" data-syndicationrights=\"false\" data-imagerights=\"other-license\" data-hide=\"false\" data-hidecredit=\"false\"><span class=\"sc-1eow4w5-0 knmQPh js_lightbox-wrapper\"><\/p>\n<div style=\"padding-bottom:45.7%\" class=\"sc-1eow4w5-3 cPhAPD\"><picture class=\"lazy-picture\"><source media=\"(max-width: 37.31em)\" type=\"image\/jpeg\" srcset=\"data:image\/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==\" data-srcset=\"https:\/\/i.kinja-img.com\/gawker-media\/image\/upload\/c_fit,f_auto,g_center,q_60,w_645\/f0fde54e14ffe13edac660c18f1ceed5.jpg\"\/><source media=\"(min-width: 37.37em)\" type=\"image\/jpeg\" srcset=\"data:image\/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==\" data-srcset=\"https:\/\/i.kinja-img.com\/gawker-media\/image\/upload\/c_fit,f_auto,g_center,q_60,w_965\/f0fde54e14ffe13edac660c18f1ceed5.jpg\"\/><\/picture><\/div>\n<p><\/span><\/p>\n<p><figcaption class=\"sc-1ptbguh-0 iGWqcL caption\">Esta figura muestra qu\u00e9 tipo de datos se incluyeron en GPT-3.  Desafortunadamente, todav\u00eda deja mucho a la imaginaci\u00f3n.<\/figcaption><figcaption class=\"sc-7s1ndr-0 jcXfZH has-caption\">Captura de pantalla<!-- -->: <!-- -->IA abierta<\/figcaption><\/p>\n<\/div>\n<p><span data-id=\"f0fde54e14ffe13edac660c18f1ceed5\" data-recommend-id=\"image:\/\/f0fde54e14ffe13edac660c18f1ceed5\" data-format=\"png\" data-width=\"1336\" data-height=\"610\" data-lightbox=\"true\" data-recommended=\"false\" data-hide=\"false\" class=\"js_recommend\"\/><\/figure>\n<p class=\"sc-77igqf-0 fnnahv\">Depende de los filtros relativamente opacos de OpenAI si r\/the_donald altamente votado se convirti\u00f3 en varias versiones del conjunto de entrenamiento de OpenAI.  La compa\u00f1\u00eda dijo que trabaj\u00f3 con investigadores y profesionales de la industria, y espera realizar a\u00fan m\u00e1s pruebas en el futuro.  A\u00fan as\u00ed, el sistema \u201ccontinuar\u00e1 reforzando los prejuicios sociales y las visiones del mundo\u201d. <\/p>\n<h2 class=\"sc-1bwb26k-1 igvwmj\" id=\"h983\"><strong>OpenAI se est\u00e1 acercando demasiado a ser como cualquier otra gran empresa tecnol\u00f3gica<\/strong><\/h2>\n<p class=\"sc-77igqf-0 fnnahv\">En su \u00faltimo art\u00edculo, OpenAI escribi\u00f3: \u00abPronto publicaremos recomendaciones sobre los pasos que la sociedad puede tomar para prepararse para los efectos de la IA y las ideas iniciales para proyectar los posibles impactos econ\u00f3micos de la IA\u00bb, aunque no hay indicios de una fecha l\u00edmite para esa evaluaci\u00f3n.  La compa\u00f1\u00eda cita sus propios datos internos sobre c\u00f3mo el modelo de lenguaje m\u00e1s nuevo produce respuestas a \u00abindicaciones sensibles\u00bb, es decir, consejos m\u00e9dicos o autolesiones, alrededor del 23% de las veces.  Responder\u00e1 a \u00abmensajes no permitidos\u00bb .73% del tiempo.<\/p>\n<p class=\"sc-77igqf-0 fnnahv\">Ese \u00faltimo conjunto de datos se basa en la <span>Conjunto de datos de avisos reales de toxicidad<\/span>, una herramienta de evaluaci\u00f3n de c\u00f3digo abierto que incluye 100 000 fragmentos de oraciones con contenido bastante desagradable.  De esa manera, tenemos una peque\u00f1a idea de lo que no le gusta a GPT-4, pero nadie fuera de la empresa entiende mucho de qu\u00e9 tipo de contenido puede estar regurgitando.  Despu\u00e9s de todo, los investigadores han demostrado <span>Los sistemas de IA son totalmente capaces de simplemente regurgitar oraciones<\/span> de su conjunto de datos.<\/p>\n<p class=\"sc-77igqf-0 fnnahv\">  Teniendo en cuenta c\u00f3mo GPT-4 <span>es capaz de mentirle a los humanos para resolver una tarea como resolver un CAPTCHA<\/span>, ser\u00eda bueno saber de d\u00f3nde podr\u00eda estar sacando algunas de sus ideas.  Lo \u00fanico es que OpenAI no lo dice.  Teniendo en cuenta que la empresa tiene una <span>asociaci\u00f3n multimillonaria con Microsoft<\/span> en la l\u00ednea, y ahora que su API ha abierto la puerta a <span>pr\u00e1cticamente<\/span> <span>cada<\/span> <span>empresa de tecnolog\u00eda<\/span> <span>bajo el sol<\/span> pagando por capacidades de IA, existe la duda de si la b\u00fasqueda del todopoderoso d\u00f3lar ha anulado el caso de la transparencia y el rigor acad\u00e9mico. <\/p>\n<p class=\"sc-77igqf-0 fnnahv\">Schmidt se\u00f1al\u00f3 que los documentos recientes de Google sobre su Gopher AI y el modelo LlaMA de Meta eran m\u00e1s transparentes sobre sus datos de entrenamiento, incluido el tama\u00f1o, el origen y los pasos de procesamiento, aunque, por supuesto, ninguna de las compa\u00f1\u00edas public\u00f3 el conjunto completo de datos para que los usuarios lo examinaran.  Nos pusimos en contacto con Anthropic, una empresa emergente respaldada por Google formada por ex empleados de OpenAI, para ver si ten\u00eda alg\u00fan documento sobre su reci\u00e9n anunciado Claude AI, pero no recibimos respuesta de inmediato. <\/p>\n<p class=\"sc-77igqf-0 fnnahv\">\u201cSer\u00eda una pena que siguieran a OpenAI para mantener el mayor secreto posible\u201d, dijo Schimdt.<\/p>\n<p class=\"sc-77igqf-0 fnnahv\">No, OpenAI no es tan opaco como otras empresas tecnol\u00f3gicas.  El documento GPT-4 ofrece una gran cantidad de informaci\u00f3n sobre el sistema, pero es solo <!-- -->superficial<!-- -->, y tenemos que confiar en que la empresa compartir\u00e1 los datos con precisi\u00f3n.  Donde lidere OpenAI, otras compa\u00f1\u00edas basadas en IA lo seguir\u00e1n, y la compa\u00f1\u00eda no puede simplemente cruzar la l\u00ednea entre ser totalmente transparente y convertirse en un acumulador al estilo Gollum de sus datos de capacitaci\u00f3n \u00abpreciados\u00bb.  Si contin\u00faa por este camino, no pasar\u00e1 mucho tiempo antes de que OpenAI sea solo otro Meta o Amazon, que consume enormes cantidades de datos para venderlos al mejor postor.<\/p>\n<\/div>\n<p><script async src=\"\/\/platform.twitter.com\/widgets.js\" charset=\"utf-8\"><\/script><br \/>\n<br \/><br \/>\n<br \/><a href=\"https:\/\/magazineoffice.com\/\">Source link-45<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>\u201cNo querr\u00e1s saber c\u00f3mo se hace la salchicha\u201d. Por mucho que hayas escuchado este estribillo, estoy aqu\u00ed para decirte que, en realidad, lo haces, o al menos deber\u00edas hacerlo. Si&hellip;<\/p>\n","protected":false},"author":1,"featured_media":519805,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[123],"tags":[8894,121,1223,4615,73336,2697,2023,1570,1356,663,73],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/519804"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=519804"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/519804\/revisions"}],"predecessor-version":[{"id":519806,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/519804\/revisions\/519806"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/519805"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=519804"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=519804"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=519804"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}