OpenAI y Google supuestamente utilizaron transcripciones de vídeos de YouTube para entrenar sus modelos de IA


OpenAI y Google entrenaron sus modelos de IA en texto transcrito de vídeos de YouTube, lo que podría violar los derechos de autor de los creadores, según Los New York Times. El informe, que describe hasta dónde han llegado OpenAI, Google y Meta para maximizar la cantidad de datos que pueden alimentar a sus IA, cita a numerosas personas con conocimiento de las prácticas de las empresas. Se produce pocos días después de que el director ejecutivo de YouTube, Neal Mohan, dijera en una entrevista con Originales de Bloomberg que el supuesto uso de vídeos de YouTube por parte de OpenAI para entrenar su nuevo generador de texto a vídeo, Sora, iría en contra de las políticas de la plataforma.

De acuerdo con la NYTOpenAI utilizó su herramienta de reconocimiento de voz Whisper para transcribir más de un millón de horas de vídeos de YouTube, que luego se utilizaron para entrenar GPT-4. La información Anteriormente informó que OpenAI había utilizado videos y podcasts de YouTube para entrenar los dos sistemas de IA. Según se informa, el presidente de OpenAI, Greg Brockman, estaba entre las personas de este equipo. Según las reglas de Google, no se permite «el raspado o la descarga no autorizada de contenido de YouTube», dijo Matt Bryant, portavoz de Google. NYTy también dijo que la compañía no tenía conocimiento de tal uso por parte de OpenAI.

El informe, sin embargo, afirma que había personas en Google que sabían pero no tomaron medidas contra OpenAI porque Google estaba usando videos de YouTube para entrenar sus propios modelos de IA. Google dijo NYT sólo lo hace con vídeos de creadores que hayan aceptado esto. Engadget se ha puesto en contacto con Google y OpenAI para hacer comentarios.

El NYT El informe también afirma que Google pidió a un equipo que modificara su política de privacidad en junio de 2023 para cubrir más ampliamente su uso de contenido disponible públicamente, incluidos Google Docs y Google Sheets, para entrenar sus modelos y productos de inteligencia artificial. Los cambios, que según Google se hicieron en aras de la claridad, se publicaron en julio. Bryant dijo NYT que este tipo de datos sólo se utiliza con el permiso de los usuarios que optan por participar en las pruebas de funciones experimentales de Google, y que la empresa «no comenzó a capacitarse sobre tipos adicionales de datos basados ​​en este cambio de idioma». El cambio agregó a Bard como ejemplo de para qué se podrían usar esos datos.

Corrección, 6 de abril de 2024, 3:45 p.m. ET: Esta historia decía originalmente que Google actualizó su política de privacidad en junio de 2022. En realidad, la actualización de la política se realizó en 2023. Nos disculpamos por el error.



Source link-47