Según se informa, las publicaciones de Tumblr y WordPress se utilizarán para la capacitación en OpenAI y Midjourney


Según se informa, Tumblr y WordPress están listos para llegar a acuerdos para vender datos de usuarios a las empresas de inteligencia artificial OpenAI y Midjourney. 404 Medios informa que la empresa matriz de las plataformas, Automattic, está a punto de cerrar un acuerdo para proporcionar datos que ayuden a entrenar los modelos de las empresas de IA.

No está claro qué datos se incluirán, pero el informe sugiere que Automattic puede haberse extralimitado inicialmente. Una supuesta publicación interna del gerente de producto de Tumblr, Cyle Gage, sugiere que Automattic se preparó para enviar datos privados o relacionados con socios que no debían estar incluidos en el acuerdo. El contenido cuestionable supuestamente incluía publicaciones privadas en publicaciones de blogs públicos, blogs eliminados o suspendidos, preguntas sin respuesta (por lo tanto, no publicadas públicamente), respuestas privadas, publicaciones marcadas como explícitas y contenido de blogs de socios premium (como el antiguo sitio de música de Apple).

La publicación interna sugiere que los ingenieros de Automattic están preparando una lista de ID de publicaciones que deberían haberse excluido. No está claro si los datos ya se habían enviado a las empresas de inteligencia artificial.

Engadget envió un correo electrónico a Automattic para solicitar comentarios sobre el informe. La compañía respondió con una declaración publicada, afirmando: «Compartiremos sólo contenido público alojado en WordPress.com y Tumblr de sitios que no han optado por no participar». La declaración señala que las regulaciones legales actualmente no exigen que los rastreadores web de las empresas de inteligencia artificial respeten las preferencias de exclusión voluntaria de los usuarios.

La última línea de la declaración de Automattic parece alinearse con los acuerdos reportados. «También estamos trabajando directamente con empresas selectas de IA siempre que sus planes se alineen con lo que le importa a nuestra comunidad: atribución, exclusión voluntaria y control», escribió Automattic. “Nuestras asociaciones respetarán todas las configuraciones de exclusión voluntaria. También planeamos ir un paso más allá y actualizar periódicamente a los socios sobre las personas que recientemente optan por no participar y solicitan que su contenido se elimine de fuentes anteriores y de capacitaciones futuras”.

NUEVA YORK, NUEVA YORK - 12 DE DICIEMBRE: Sam Altman habla en el escenario durante Un año en el TIEMPO en el Hotel Plaza el 12 de diciembre de 2023 en la ciudad de Nueva York.  (Foto de Mike Coppola/Getty Images para TIME)

Sam Altman, director ejecutivo de OpenAI (Mike Coppola a través de Getty Images)

Según se informa, la compañía planea lanzar una nueva herramienta de exclusión voluntaria el miércoles que pretende permitir a los usuarios bloquear a terceros, incluidas empresas de inteligencia artificial, para que no puedan capacitarse con sus datos. 404 Medios revisó una supuesta pregunta interna de preguntas frecuentes que Automattic preparó para la herramienta, que incluye la respuesta: “Si opta por no participar desde el principio, bloquearemos el acceso de los rastreadores a su contenido agregando su sitio a una lista de no permitidos. Si cambia de opinión más adelante, también planeamos informar a los socios sobre las personas que recientemente optan por no participar y solicitar que su contenido se elimine de fuentes anteriores y capacitaciones futuras”.

La frase, que lo describe como “pedir” a las empresas de inteligencia artificial que eliminen los datos, puede ser relevante.

Un supuesto documento interno del director de IA de Automattic, Andrew Spittle, en respuesta a una pregunta del personal sobre las garantías de eliminación de datos al utilizar la herramienta, explica: «Notificaremos periódicamente a los socios existentes sobre cualquiera que haya optado por no participar desde la última vez que proporcionamos una lista. Quiero que este sea un proceso continuo en el que defendemos regularmente que se excluya el contenido anterior según las preferencias actuales. Solicitaremos que el contenido se elimine de cualquier ejecución futura de capacitación. Creo que los socios respetarán esto basándose en nuestras conversaciones con ellos hasta este momento. No creo que ganen mucho en general manteniéndolo”.

Por lo tanto, si un usuario de Tumblr o WordPress solicita optar por no participar en la capacitación en IA, Automattic supuestamente «pedirá» y «abogará por» su eliminación. Y el jefe de IA de la empresa «cree» que a las empresas de IA les convendrá cumplir «según nuestras conversaciones». (¡Qué te parece eso para tranquilizarte!)

Los acuerdos de capacitación en datos de IA se han convertido en una oportunidad lucrativa para los sitios web que se mantienen a flote en el resbaladizo panorama editorial en línea actual. (Según se informa, el personal de Tumblr se redujo a un equipo mínimo a fines de 2023). La semana pasada, Google llegó a un acuerdo con Reddit (antes de la oferta pública inicial de este último) para capacitarse en la amplia base de conocimiento de la plataforma sobre contenido creado por usuarios. Mientras tanto, OpenAI lanzó un programa de asociación el año pasado para recopilar conjuntos de datos de terceros para ayudar a entrenar sus modelos de IA.

Actualización, 27 de febrero de 2024, 3:56 p.m. ET: Esta historia se actualizó para agregar una declaración publicada por Automattic, la empresa matriz de WordPress y Tumblr.



Source link-47