{"id":519804,"date":"2023-03-16T21:09:23","date_gmt":"2023-03-16T21:09:23","guid":{"rendered":"https:\/\/magazineoffice.com\/gpt-4-es-una-caja-negra-gigante-y-sus-datos-de-entrenamiento-siguen-siendo-un-misterio\/"},"modified":"2023-03-16T21:09:25","modified_gmt":"2023-03-16T21:09:25","slug":"gpt-4-es-una-caja-negra-gigante-y-sus-datos-de-entrenamiento-siguen-siendo-un-misterio","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/gpt-4-es-una-caja-negra-gigante-y-sus-datos-de-entrenamiento-siguen-siendo-un-misterio\/","title":{"rendered":"GPT-4 es una caja negra gigante y sus datos de entrenamiento siguen siendo un misterio"},"content":{"rendered":"


\n<\/p>\n

\n

\u201cNo querr\u00e1s saber c\u00f3mo se hace la salchicha\u201d.<\/p>\n

Por mucho que hayas escuchado este estribillo, estoy aqu\u00ed para decirte que, en realidad, lo haces, o al menos deber\u00edas hacerlo. Si vas a meterte una salchicha en el orificio de la boca, \u00bfno quieres saber si alguien verti\u00f3 aserr\u00edn en tu salchicha? Lo mismo ocurre con la tecnolog\u00eda. Ahora, con los modelos de lenguaje grande de IA arrasando en el mundo de la tecnolog\u00eda, est\u00e1s deseando saber qu\u00e9 tipo de datos se utilizan para hacer ChatGPT o cualquier otro LLM. <\/p>\n

El martes, OpenAI lanz\u00f3 su modelo GPT-4<\/span>, cit\u00e1ndolo como el modelo de lenguaje de IA m\u00e1s avanzado jam\u00e1s creado con \u00abmayor precisi\u00f3n\u00bb y \u00abconocimiento m\u00e1s amplio\u00bb. Aunque solo tendr\u00e1 que tomar la palabra de la compa\u00f1\u00eda. A pesar de su nombre, OpenAI no permite que cualquiera alcance su punto m\u00e1ximo bajo el cap\u00f3 de su nuevo modelo de lenguaje de clase Ferrari. En el documento publicado con GPT-4, la compa\u00f1\u00eda escribi\u00f3:<\/p>\n

\n

\u00abDado el panorama competitivo y las implicaciones de seguridad de los modelos a gran escala como GPT-4, este informe no contiene m\u00e1s detalles sobre la arquitectura (incluido el tama\u00f1o del modelo), el hardware, el c\u00e1lculo de entrenamiento, la construcci\u00f3n de conjuntos de datos, el m\u00e9todo de entrenamiento o similar\u00bb.<\/p>\n<\/blockquote>\n

El presidente de OpenAI, Greg Brockman, confirm\u00f3 con TechCrunch<\/span> que GPT-4 ahora est\u00e1 entrenado en im\u00e1genes y texto, pero a\u00fan no estaba dispuesto a discutir detalles sobre el origen de esas im\u00e1genes, o cualquier otra cosa sobre sus datos de entrenamiento. OpenAI est\u00e1 luchando contra una demanda colectiva propuesta<\/span> apuntando a su asociaci\u00f3n con GitHub para su herramienta Copilot asistente de IA. hay otro demandas en curso con respecto a las im\u00e1genes utilizadas para entrenar a los generadores de im\u00e1genes de IA<\/span>por lo que OpenAI puede estar tratando de protegerse de cualquier sorpresa legal.<\/p>\n

Gizmodo se acerc\u00f3 a OpenAI para obtener m\u00e1s informaci\u00f3n sobre su toma de decisiones, pero nunca recibimos respuesta. En una entrevista del mi\u00e9rcoles con el borde<\/span>, el cofundador de OpenAI, Ilya Sutskever, revel\u00f3 cu\u00e1n \u00abequivocada\u00bb estaba la empresa al publicar sus datos de capacitaci\u00f3n en a\u00f1os anteriores. Dijo que hacer que la IA sea de c\u00f3digo abierto era \u00abuna mala idea\u00bb no solo por la competencia, sino porque la inteligencia artificial general, o AGI, ser\u00e1 muy \u00abpotente\u00bb. Eso s\u00ed, no existe tal cosa como AGI, como en tecnolog\u00eda equivalente a un real, inteligencia artificial consciente<\/span>. Es todo solo especulativo<\/span>pero OpenAI parece pensar que ya est\u00e1 en la planta baja. <\/p>\n

\n
\n

G\/O Media puede recibir una comisi\u00f3n<\/p>\n<\/div>\n<\/div>\n

La compa\u00f1\u00eda dijo que comparte algunos datos con auditores externos, pero no es probable que alguna vez veamos la disecci\u00f3n completa de GPT-4 de esos investigadores. OpenAI fue una vez una organizaci\u00f3n sin fines de lucro antes crear una subsidiaria con fines de lucro<\/span> con la gran esperanza de convertirse en la mayor fuerza de IA del planeta (incluso el inversor original de OpenAI, Elon Musk parece confundido c\u00f3mo sucedi\u00f3 esto<\/a><\/span>). As\u00ed que ahora, los expertos en IA encabezados por Sam Altman en OpenAI dijeron que necesitan \u00absopesar la consideraci\u00f3n competitiva y de seguridad… contra el valor cient\u00edfico de una mayor transparencia\u00bb.<\/p>\n

Hay pocas formas de saber qu\u00e9 tipos espec\u00edficos de sesgo tiene GPT-4<\/strong><\/h2>\n

Ben Schmidt, ex profesor de historia que ahora trabaja como vicepresidente de Iinformaci\u00f3n DDise\u00f1o en empresa de an\u00e1lisis de conjuntos de datos de IA n\u00f3mico<\/span>dijo que la falta de informaci\u00f3n sobre el conjunto de datos de GPT-4 es extremadamente preocupante porque esos datos podr\u00edan proporcionar pistas sobre qu\u00e9 tipo de sesgos El modelo de IA podr\u00eda tener. Sin \u00e9l, los grupos externos solo pueden adivinar.<\/p>\n