OpenAI transcribió más de un millón de horas de videos de YouTube para entrenar GPT-4


A principios de esta semana, El Wall Street Diario reportado que las empresas de IA se estaban topando con un muro cuando se trata de recopilar datos de capacitación de alta calidad. Hoy, Los New York Times detallado algunas de las formas en que las empresas han abordado esto. Como era de esperar, implica hacer cosas que caen en la nebulosa zona gris de Ley de derechos de autor de IA.

La historia comienza con OpenAI que, desesperado por obtener datos de entrenamiento, supuestamente desarrolló su Modelo de transcripción de audio Whisper para superar el obstáculo, transcribiendo más de un millón de horas de videos de YouTube para entrenar GPT-4, su modelo de lenguaje grande más avanzado. Eso es de acuerdo a Los New York Times, que informa que la empresa sabía que esto era legalmente cuestionable pero creía que era un uso legítimo. El presidente de OpenAI, Greg Brockman, participó personalmente en la recopilación de videos que se utilizaron, el Veces escribe.

La portavoz de OpenAI, Lindsay Held, dijo El borde en un correo electrónico que la empresa selecciona conjuntos de datos «únicos» para cada uno de sus modelos para «ayudar a su comprensión del mundo» y mantener su competitividad en investigación global. Held añadió que la empresa utiliza «numerosas fuentes, incluidos datos disponibles públicamente y asociaciones para obtener datos no públicos», y que está estudiando la posibilidad de generar sus propios datos sintéticos.

El Veces El artículo dice que la compañía agotó los suministros de datos útiles en 2021 y discutió la transcripción de videos, podcasts y audiolibros de YouTube después de analizar otros recursos. Para entonces, había entrenado sus modelos con datos que incluían código informático de Github, bases de datos de movimientos de ajedrez y contenido de tareas escolares de Quizlet.

El portavoz de Google, Matt Bryant, dijo El borde En un correo electrónico, la empresa «vio informes no confirmados» sobre la actividad de OpenAI y agregó que «tanto nuestros archivos robots.txt como nuestros Términos de servicio prohíben la extracción o descarga no autorizada de contenido de YouTube», haciéndose eco de la condiciones de uso de la empresa. Neal Mohan, director ejecutivo de YouTube dijo cosas similares sobre la posibilidad de que OpenAI haya utilizado YouTube para entrenar su modelo de generación de vídeos Sora esta semana. Bryant dijo que Google toma «medidas técnicas y legales» para evitar dicho uso no autorizado «cuando tenemos una base legal o técnica clara para hacerlo».

Google también recopiló transcripciones de YouTube, según el Veces’ fuentes. Bryant dijo que la compañía ha entrenado a sus modelos “en algunos contenidos de YouTube, de acuerdo con nuestros acuerdos con los creadores de YouTube”.

El Veces escribe que el departamento legal de Google pidió al equipo de privacidad de la compañía que modificara el lenguaje de su política para ampliar lo que podía hacer con los datos de los consumidores, como sus herramientas de oficina como Google Docs. Según se informa, la nueva política se publicó intencionalmente el 1 de julio para aprovechar la distracción del fin de semana festivo del Día de la Independencia.

Meta también chocó contra los límites de una buena disponibilidad de datos de entrenamiento, y en las grabaciones el Veces Como se escuchó, su equipo de IA discutió su uso no permitido de obras protegidas por derechos de autor mientras trabajaba para ponerse al día con OpenAI. La empresa, después de revisar “libros, ensayos, poemas y artículos de noticias en inglés casi disponibles en Internet”, aparentemente consideró tomar medidas como pagar las licencias de los libros o incluso comprar directamente una editorial importante. Aparentemente, también estaba limitado en la forma en que podía utilizar los datos de los consumidores debido a los cambios centrados en la privacidad que realizó a raíz de la Escándalo de Cambridge Analytica.

Google, OpenAI y el mundo del entrenamiento de IA en general están luchando con datos de entrenamiento que se evaporan rápidamente para sus modelos, que mejoran cuanto más datos absorben. El Diario escribió esta semana que las empresas pueden superar el contenido nuevo para 2028.

Posibles soluciones a ese problema mencionado por el Diario del lunes incluyen modelos de entrenamiento sobre datos «sintéticos» creados por sus propios modelos o el llamado «aprendizaje curricular», que implica alimentar a los modelos con datos de alta calidad de manera ordenada con la esperanza de que puedan utilizar para hacer «conexiones más inteligentes entre conceptos» usando mucha menos información, pero ninguno de los dos enfoques está probado todavía. Pero la otra opción de las empresas es utilizar todo lo que puedan encontrar, tengan permiso o no, y basándose en múltiple demandas archivado en el último año más o menos, esa manera es, digamos, más que un poco complicada.



Source link-37