La venta de Reddit de datos de usuario para entrenamiento de IA genera una investigación de la FTC


Reddit dijo adelante de su oferta pública inicial la próxima semana que otorgar licencias de publicaciones de usuarios a Google y otros para proyectos de inteligencia artificial podría generar 203 millones de dólares en ingresos en los próximos años. La plataforma impulsada por la comunidad se vio obligada a revelar el viernes que los reguladores estadounidenses ya tienen preguntas sobre esa nueva línea de negocio.

En una presentación regulatoria, Reddit dijo que recibió una carta de la Comisión Federal de Comercio de EE. UU. el jueves preguntando sobre «nuestra venta, concesión de licencias o intercambio de contenido generado por usuarios con terceros para entrenar modelos de IA».

La FTC, el principal regulador antimonopolio del gobierno de Estados Unidos, tiene el poder de sancionar a las empresas que incurran en prácticas comerciales desleales o engañosas. La idea de otorgar licencias de contenido generado por usuarios para proyectos de inteligencia artificial ha generado preguntas de legisladores y grupos de derechos humanos sobre los riesgos de privacidad, la equidad y los derechos de autor.

Reddit no es el único que intenta ganar dinero con los datos de licencias, incluidos los generados por los usuarios, para la IA. El sitio de preguntas y respuestas sobre programación Stack Overflow firmó un acuerdo con Google, Associated Press firmó uno con OpenAI y el propietario de Tumblr, Automattic, dijo que está trabajando «con empresas de IA seleccionadas», pero permitirá a los usuarios optar por no compartir sus datos. Ninguno de los licenciantes respondió de inmediato a las solicitudes de comentarios. Reddit tampoco es la única empresa que recibe una carta de la FTC sobre licencias de datos, informó Axios el viernes, citando a un exfuncionario de la agencia anónimo.

No está claro si la carta a Reddit está directamente relacionada con la revisión de otras empresas.

Reddit dijo en la divulgación del viernes que no cree haber participado en prácticas injustas o engañosas, pero advirtió que abordar cualquier investigación gubernamental puede ser costoso y llevar mucho tiempo. «La carta indicaba que el personal de la FTC estaba interesado en reunirse con nosotros para conocer más sobre nuestros planes y que la FTC tenía la intención de solicitarnos información y documentos a medida que continúa su investigación», dice el documento. Reddit dijo que la carta de la FTC describía el escrutinio como relacionado con «una investigación no pública».

Reddit, cuyos 17 mil millones de publicaciones y comentarios son considerados valiosos por los expertos en inteligencia artificial para entrenar chatbots en el arte de la conversación, anunció un acuerdo el mes pasado para licenciar el contenido a Google. Reddit y Google no respondieron de inmediato a las solicitudes de comentarios. La FTC se negó a hacer comentarios.

Los chatbots de IA como ChatGPT de OpenAI y Gemini de Google se consideran una amenaza competitiva para Reddit, los editores y otras empresas impulsadas por contenido y con publicidad. El año pasado, la perspectiva de otorgar licencias de datos a desarrolladores de IA surgió como una posible ventaja de la IA generativa para algunas empresas.

Pero el uso de datos recopilados en línea para entrenar modelos de IA ha planteado una serie de preguntas en las salas de juntas, los tribunales y el Congreso. Para Reddit y otros cuyos datos son generados por los usuarios, esas preguntas incluyen quién es realmente el propietario del contenido y si es justo otorgarle licencia sin darle una parte al creador. Los investigadores de seguridad han descubierto que los modelos de IA pueden filtrar datos personales incluidos en el material utilizado para crearlos. Y algunos críticos han sugerido que los acuerdos podrían hacer que las empresas poderosas sean aún más dominantes.



Source link-46