{"id":1080546,"date":"2024-04-06T20:44:55","date_gmt":"2024-04-06T20:44:55","guid":{"rendered":"https:\/\/magazineoffice.com\/openai-transcribio-mas-de-un-millon-de-horas-de-videos-de-youtube-para-entrenar-gpt-4\/"},"modified":"2024-04-06T20:44:57","modified_gmt":"2024-04-06T20:44:57","slug":"openai-transcribio-mas-de-un-millon-de-horas-de-videos-de-youtube-para-entrenar-gpt-4","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/openai-transcribio-mas-de-un-millon-de-horas-de-videos-de-youtube-para-entrenar-gpt-4\/","title":{"rendered":"OpenAI transcribi\u00f3 m\u00e1s de un mill\u00f3n de horas de videos de YouTube para entrenar GPT-4"},"content":{"rendered":"


\n<\/p>\n

\n
\n

A principios de esta semana, El Wall Street<\/em> Diario<\/em> reportado<\/a> que las empresas de IA se estaban topando con un muro cuando se trata de recopilar datos de capacitaci\u00f3n de alta calidad. Hoy, Los New York Times<\/em> detallado<\/a> algunas de las formas en que las empresas han abordado esto. Como era de esperar, implica hacer cosas que caen en la nebulosa zona gris de Ley de derechos de autor de IA<\/a>.<\/p>\n<\/div>\n

\n

La historia comienza con OpenAI que, desesperado por obtener datos de entrenamiento, supuestamente desarroll\u00f3 su Modelo de transcripci\u00f3n de audio Whisper<\/a> para superar el obst\u00e1culo, transcribiendo m\u00e1s de un mill\u00f3n de horas de videos de YouTube para entrenar GPT-4, su modelo de lenguaje grande m\u00e1s avanzado. Eso es de acuerdo a Los New York Times<\/em><\/a>, que informa que la empresa sab\u00eda que esto era legalmente cuestionable pero cre\u00eda que era un uso leg\u00edtimo. El presidente de OpenAI, Greg Brockman, particip\u00f3 personalmente en la recopilaci\u00f3n de videos que se utilizaron, el Veces<\/em> escribe. <\/p>\n<\/div>\n

\n

La portavoz de OpenAI, Lindsay Held, dijo El borde <\/em>en un correo electr\u00f3nico que la empresa selecciona conjuntos de datos \u00ab\u00fanicos\u00bb para cada uno de sus modelos para \u00abayudar a su comprensi\u00f3n del mundo\u00bb y mantener su competitividad en investigaci\u00f3n global. Held a\u00f1adi\u00f3 que la empresa utiliza \u00abnumerosas fuentes, incluidos datos disponibles p\u00fablicamente y asociaciones para obtener datos no p\u00fablicos\u00bb, y que est\u00e1 estudiando la posibilidad de generar sus propios datos sint\u00e9ticos. <\/p>\n<\/div>\n

\n

El Veces<\/em> El art\u00edculo dice que la compa\u00f1\u00eda agot\u00f3 los suministros de datos \u00fatiles en 2021 y discuti\u00f3 la transcripci\u00f3n de videos, podcasts y audiolibros de YouTube despu\u00e9s de analizar otros recursos. Para entonces, hab\u00eda entrenado sus modelos con datos que inclu\u00edan c\u00f3digo inform\u00e1tico de Github, bases de datos de movimientos de ajedrez y contenido de tareas escolares de Quizlet.<\/p>\n<\/div>\n

\n

El portavoz de Google, Matt Bryant, dijo El borde<\/em> En un correo electr\u00f3nico, la empresa \u00abvio informes no confirmados\u00bb sobre la actividad de OpenAI y agreg\u00f3 que \u00abtanto nuestros archivos robots.txt como nuestros T\u00e9rminos de servicio proh\u00edben la extracci\u00f3n o descarga no autorizada de contenido de YouTube\u00bb, haci\u00e9ndose eco de la condiciones de uso de la empresa<\/a>. Neal Mohan, director ejecutivo de YouTube dijo cosas similares<\/a> sobre la posibilidad de que OpenAI haya utilizado YouTube para entrenar su modelo de generaci\u00f3n de v\u00eddeos Sora esta semana. Bryant dijo que Google toma \u00abmedidas t\u00e9cnicas y legales\u00bb para evitar dicho uso no autorizado \u00abcuando tenemos una base legal o t\u00e9cnica clara para hacerlo\u00bb.<\/p>\n<\/div>\n

\n

Google tambi\u00e9n recopil\u00f3 transcripciones de YouTube, seg\u00fan el Veces’ <\/em>fuentes. Bryant dijo que la compa\u00f1\u00eda ha entrenado a sus modelos \u201cen algunos contenidos de YouTube, de acuerdo con nuestros acuerdos con los creadores de YouTube\u201d. <\/p>\n<\/div>\n

\n

El Veces <\/em>escribe que el departamento legal de Google pidi\u00f3 al equipo de privacidad de la compa\u00f1\u00eda que modificara el lenguaje de su pol\u00edtica para ampliar lo que pod\u00eda hacer con los datos de los consumidores, como sus herramientas de oficina como Google Docs. Seg\u00fan se informa, la nueva pol\u00edtica se public\u00f3 intencionalmente el 1 de julio para aprovechar la distracci\u00f3n del fin de semana festivo del D\u00eda de la Independencia.<\/p>\n<\/div>\n

\n

Meta tambi\u00e9n choc\u00f3 contra los l\u00edmites de una buena disponibilidad de datos de entrenamiento, y en las grabaciones el Veces<\/em> Como se escuch\u00f3, su equipo de IA discuti\u00f3 su uso no permitido de obras protegidas por derechos de autor mientras trabajaba para ponerse al d\u00eda con OpenAI. La empresa, despu\u00e9s de revisar \u201clibros, ensayos, poemas y art\u00edculos de noticias en ingl\u00e9s casi disponibles en Internet\u201d, aparentemente consider\u00f3 tomar medidas como pagar las licencias de los libros o incluso comprar directamente una editorial importante. Aparentemente, tambi\u00e9n estaba limitado en la forma en que pod\u00eda utilizar los datos de los consumidores debido a los cambios centrados en la privacidad que realiz\u00f3 a ra\u00edz de la Esc\u00e1ndalo de Cambridge Analytica<\/a>.<\/p>\n<\/div>\n

\n

Google, OpenAI y el mundo del entrenamiento de IA en general est\u00e1n luchando con datos de entrenamiento que se evaporan r\u00e1pidamente para sus modelos, que mejoran cuanto m\u00e1s datos absorben. El Diario<\/em> escribi\u00f3 esta semana que las empresas pueden superar el contenido nuevo para 2028. <\/p>\n<\/div>\n

\n

Posibles soluciones a ese problema mencionado por el Diario <\/em>del lunes incluyen modelos de entrenamiento sobre datos \u00absint\u00e9ticos\u00bb creados por sus propios modelos o el llamado \u00abaprendizaje curricular\u00bb, que implica alimentar a los modelos con datos de alta calidad de manera ordenada con la esperanza de que puedan utilizar para hacer \u00abconexiones m\u00e1s inteligentes entre conceptos\u00bb usando mucha menos informaci\u00f3n, pero ninguno de los dos enfoques est\u00e1 probado todav\u00eda. Pero la otra opci\u00f3n de las empresas es utilizar todo lo que puedan encontrar, tengan permiso o no, y bas\u00e1ndose en m\u00faltiple<\/a> demandas<\/a> archivado<\/a> en<\/a> el<\/a> \u00faltimo<\/a> a\u00f1o<\/a> m\u00e1s o menos, esa manera es, digamos, m\u00e1s que un poco complicada.<\/p>\n<\/div>\n<\/div>\n


\n
Source link-37 <\/a><\/p>\n","protected":false},"excerpt":{"rendered":"

A principios de esta semana, El Wall Street Diario reportado que las empresas de IA se estaban topando con un muro cuando se trata de recopilar datos de capacitaci\u00f3n de…<\/p>\n","protected":false},"author":1,"featured_media":1080547,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[32959,73336,2569,84,2852,49133,107,121090,769,1968],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1080546"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=1080546"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1080546\/revisions"}],"predecessor-version":[{"id":1080548,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1080546\/revisions\/1080548"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/1080547"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=1080546"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=1080546"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=1080546"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}