{"id":1089987,"date":"2024-04-14T05:00:01","date_gmt":"2024-04-14T05:00:01","guid":{"rendered":"https:\/\/magazineoffice.com\/vana-planea-permitir-a-los-usuarios-alquilar-sus-datos-de-reddit-para-entrenar-ia\/"},"modified":"2024-04-14T05:00:04","modified_gmt":"2024-04-14T05:00:04","slug":"vana-planea-permitir-a-los-usuarios-alquilar-sus-datos-de-reddit-para-entrenar-ia","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/vana-planea-permitir-a-los-usuarios-alquilar-sus-datos-de-reddit-para-entrenar-ia\/","title":{"rendered":"Vana planea permitir a los usuarios alquilar sus datos de Reddit para entrenar IA"},"content":{"rendered":"


\n<\/p>\n

\n

en lo generativo<\/span> Auge de la IA, los datos son el nuevo petr\u00f3leo. Entonces, \u00bfpor qu\u00e9 no deber\u00edas poder vender el tuyo propio?<\/p>\n

Desde las grandes empresas tecnol\u00f3gicas hasta las nuevas empresas, los fabricantes de IA est\u00e1n otorgando licencias de libros electr\u00f3nicos, im\u00e1genes, videos, audio y m\u00e1s a intermediarios de datos, todo con el fin de formar productos impulsados \u200b\u200bpor IA m\u00e1s capaces (y m\u00e1s defendibles legalmente). Shutterstock tiene acuerdos con Meta, Google, Amazon y Apple para suministrar millones de im\u00e1genes para el entrenamiento de modelos, mientras que OpenAI ha firmado acuerdos con varias organizaciones de noticias para entrenar sus modelos en archivos de noticias.<\/p>\n

En muchos casos, los creadores y propietarios individuales de esos datos no han visto ni un centavo del dinero cambiar de manos. Una startup llamada Vana quiere cambiar eso.<\/p>\n

Anna Kazlauskas y Art Abal, que se conocieron en una clase en el MIT Media Lab centrada en la creaci\u00f3n de tecnolog\u00eda para mercados emergentes, cofundaron Vana en 2021. Antes de Vana, Kazlauskas estudi\u00f3 inform\u00e1tica y econom\u00eda en el MIT y finalmente lo dej\u00f3 para lanzar una fintech. Startup de automatizaci\u00f3n, Iambiq, de Y Combinator. Abal, abogado corporativo de formaci\u00f3n y educaci\u00f3n, fue asociado en The Cadmus Group, una firma consultora con sede en Boston, antes de dirigir el abastecimiento de impacto en la empresa de anotaci\u00f3n de datos Appen.<\/p>\n

Con Vana, Kazlauskas y Abal se propusieron construir una plataforma que permita a los usuarios \u201cagrupar\u201d sus datos (incluidos chats, grabaciones de voz y fotograf\u00edas) en conjuntos de datos que luego puedan usarse para el entrenamiento de modelos de IA generativa. Tambi\u00e9n quieren crear experiencias m\u00e1s personalizadas (por ejemplo, mensajes de voz motivadores diarios basados \u200b\u200ben sus objetivos de bienestar o una aplicaci\u00f3n generadora de arte que comprenda sus preferencias de estilo) ajustando los modelos p\u00fablicos a partir de esos datos.<\/p>\n

\u00abLa infraestructura de Vana, de hecho, crea un tesoro de datos propiedad del usuario\u00bb, dijo Kazlauskas a TechCrunch. \u00abLo hace permitiendo a los usuarios agregar sus datos personales sin custodia… Vana permite a los usuarios poseer modelos de IA y utilizar sus datos en aplicaciones de IA\u00bb.<\/p>\n

As\u00ed es como Vana presenta su plataforma y API a los desarrolladores:<\/p>\n

\n

La API de Vana conecta los datos personales multiplataforma de un usuario… para permitirle personalizar su aplicaci\u00f3n. Su aplicaci\u00f3n obtiene acceso instant\u00e1neo al modelo de IA personalizado de un usuario o a los datos subyacentes, lo que simplifica la incorporaci\u00f3n y elimina las preocupaciones sobre los costos inform\u00e1ticos… Creemos que los usuarios deber\u00edan poder traer sus datos personales de jardines amurallados, como Instagram, Facebook y Google, a su aplicaci\u00f3n, por lo que puede crear una experiencia personalizada incre\u00edble desde la primera vez que un usuario interact\u00faa con su aplicaci\u00f3n de IA para el consumidor.<\/p>\n<\/blockquote>\n

Crear una cuenta con Vana es bastante sencillo. Despu\u00e9s de confirmar su correo electr\u00f3nico, puede adjuntar datos a un avatar digital (como selfies, una descripci\u00f3n de usted mismo y grabaciones de voz) y explorar aplicaciones creadas con la plataforma y los conjuntos de datos de Vana. La selecci\u00f3n de aplicaciones abarca desde chatbots estilo ChatGPT y libros de cuentos interactivos hasta un generador de perfiles Hinge.<\/p>\n

\n

Cr\u00e9ditos de imagen:<\/strong> vana<\/p>\n<\/div>\n

Ahora bien, podr\u00eda preguntarse por qu\u00e9, en esta era de mayor concienciaci\u00f3n sobre la privacidad de los datos y ataques de ransomware, \u00bfalguien alguna vez ofrecer\u00eda su informaci\u00f3n personal a una startup an\u00f3nima, y \u200b\u200bmucho menos a una respaldada por empresas? (Vana ha recaudado 20 millones de d\u00f3lares hasta la fecha de Paradigm, Polychain Capital y otros patrocinadores). \u00bfSe puede realmente confiar en que cualquier empresa con fines de lucro no abusar\u00e1 ni manejar\u00e1 mal los datos monetizables que tenga en sus manos?<\/p>\n

\"Vana<\/p>\n

Cr\u00e9ditos de imagen:<\/strong> vana<\/p>\n<\/div>\n

En respuesta a esa pregunta, Kazlauskas enfatiz\u00f3 que el objetivo de Vana es que los usuarios \u00abrecuperen el control sobre sus datos\u00bb, se\u00f1alando que los usuarios de Vana tienen la opci\u00f3n de autohospedar sus datos en lugar de almacenarlos en los servidores de Vana y controlar c\u00f3mo funcionan sus datos. Los datos se comparten con aplicaciones y desarrolladores. Tambi\u00e9n argument\u00f3 que, debido a que Vana gana dinero cobrando a los usuarios una suscripci\u00f3n mensual (a partir de $ 3,99) y cobrando una tarifa de \u00abtransacci\u00f3n de datos\u00bb a los desarrolladores (por ejemplo, por transferir conjuntos de datos para el entrenamiento de modelos de IA), la empresa no tiene incentivos para explotar a los usuarios y los tesoros de datos personales que traen consigo.<\/p>\n

\u00abQueremos crear modelos de usuarios gobernados y de propiedad de los cuales todos aporten sus datos\u00bb, dijo Kazlauskas, \u00aby permitir a los usuarios llevar sus datos y modelos consigo a cualquier aplicaci\u00f3n\u00bb.<\/p>\n

Ahora, mientras vana <\/em>no est\u00e1 vendiendo los datos de los usuarios a empresas para el entrenamiento del modelo de IA generativa (o eso dice), quiere permitir que los usuarios lo hagan ellos mismos si as\u00ed lo desean, comenzando con sus publicaciones en Reddit.<\/p>\n

Este mes, Vana lanz\u00f3 lo que llama Reddit Data DAO (Organizaci\u00f3n Aut\u00f3noma Digital), un programa que re\u00fane los datos de Reddit de varios usuarios (incluido su karma y su historial de publicaciones) y les permite decidir juntos c\u00f3mo se utilizan esos datos combinados. Despu\u00e9s de unirse con una cuenta de Reddit, enviar una solicitud a Reddit para obtener sus datos y cargar esos datos en la DAO, los usuarios obtienen el derecho de votar junto con otros miembros de la DAO en decisiones como la concesi\u00f3n de licencias de los datos combinados a empresas de IA generativa para obtener un beneficio compartido. .<\/p>\n

\n
\n

Hemos analizado los n\u00fameros y r\/datadao es ahora el DAO de datos m\u00e1s grande de la historia: la Fase 1 dio la bienvenida a 141.000 usuarios de reddit con 21.000 cargas de datos completas.<\/p>\n

\u2014 r\/datadao (@rdatadao) 11 de abril de 2024<\/a><\/p>\n<\/blockquote>\n<\/div>\n

Es una especie de respuesta a los recientes movimientos de Reddit para comercializar datos en su plataforma.<\/p>\n

Anteriormente, Reddit no imped\u00eda el acceso a publicaciones y comunidades con fines de capacitaci\u00f3n en IA generativa. Pero cambi\u00f3 de rumbo a fines del a\u00f1o pasado, antes de su IPO. Desde el cambio de pol\u00edtica, Reddit ha recaudado m\u00e1s de 203 millones de d\u00f3lares en derechos de licencia de empresas como Google.<\/p>\n

\u201cLa idea amplia [with the DAO is] para liberar datos de usuarios de las principales plataformas que buscan acapararlos y monetizarlos\u201d, dijo Kazlauskas. \u00abEsta es una novedad y es parte de nuestro impulso para ayudar a las personas a combinar sus datos en conjuntos de datos propiedad de los usuarios para entrenar modelos de IA\u00bb.<\/p>\n

Como era de esperar, Reddit, que no trabaja con Vana de ninguna manera oficial, no est\u00e1 satisfecho con el DAO.<\/p>\n

Reddit prohibi\u00f3 el subreddit de Vana dedicado a la discusi\u00f3n sobre DAO. Y un portavoz de Reddit acus\u00f3 a Vana de \u00abexplotar\u00bb su sistema de exportaci\u00f3n de datos, que est\u00e1 dise\u00f1ado para cumplir con regulaciones de privacidad de datos como el GDPR y la Ley de Privacidad del Consumidor de California.<\/p>\n

\u00abNuestros acuerdos de datos nos permiten poner barreras a dichas entidades, incluso a la informaci\u00f3n p\u00fablica\u00bb, dijo el portavoz a TechCrunch. \u201cReddit no comparte datos personales no p\u00fablicos con empresas comerciales, y cuando los Redditors nos solicitan una exportaci\u00f3n de sus datos, reciben de nosotros datos personales no p\u00fablicos de acuerdo con las leyes aplicables. Las asociaciones directas entre Reddit y organizaciones examinadas, con t\u00e9rminos claros y responsabilidad, son importantes, y estas asociaciones y acuerdos previenen el uso indebido y el abuso de los datos de las personas\u201d.<\/p>\n

Pero, \u00bfReddit tiene alg\u00fan motivo real para preocuparse?<\/p>\n

Kazlauskas prev\u00e9 que DAO crecer\u00e1 hasta el punto en que afecte la cantidad que Reddit puede cobrar a los clientes por sus datos. Eso est\u00e1 muy lejos, suponiendo que alguna vez suceda; la DAO tiene poco m\u00e1s de 141.000 miembros, una peque\u00f1a fracci\u00f3n de la base de 73 millones de usuarios de Reddit. Y algunos de esos miembros podr\u00edan ser bots o cuentas duplicadas.<\/p>\n

Luego est\u00e1 la cuesti\u00f3n de c\u00f3mo distribuir de manera justa los pagos que la DAO podr\u00eda recibir de los compradores de datos.<\/p>\n

Actualmente, la DAO otorga \u201ctokens\u201d (criptomonedas) a los usuarios correspondientes a su karma de Reddit. Pero el karma podr\u00eda no ser la mejor medida de las contribuciones de calidad al conjunto de datos, particularmente en comunidades de Reddit m\u00e1s peque\u00f1as con menos oportunidades de obtenerlo.<\/p>\n

Kazlauskas plantea la idea de que los miembros de la DAO podr\u00edan optar por compartir sus datos demogr\u00e1ficos y multiplataforma, lo que hace que la DAO sea potencialmente m\u00e1s valiosa e incentiva las inscripciones. Pero eso tambi\u00e9n requerir\u00eda que los usuarios conf\u00eden a\u00fan m\u00e1s en Vana para tratar sus datos confidenciales de manera responsable.<\/p>\n

Personalmente, no veo que el DAO de Vana alcance una masa cr\u00edtica. Los obst\u00e1culos que se interponen en el camino son demasiados. Sin embargo, creo que no ser\u00e1 el \u00faltimo intento popular de afirmar el control sobre los datos que se utilizan cada vez m\u00e1s para entrenar modelos generativos de IA.<\/p>\n

Empresas emergentes como Spawning est\u00e1n trabajando en formas de permitir a los creadores imponer reglas que gu\u00eden c\u00f3mo se utilizan sus datos para la capacitaci\u00f3n, mientras que proveedores como Getty Images, Shutterstock y Adobe contin\u00faan experimentando con esquemas de compensaci\u00f3n. Pero nadie ha descifrado el c\u00f3digo todav\u00eda. \u00bfPuede incluso ser<\/em> \u00bfagrietado? Dada la naturaleza despiadada de la industria de la IA generativa, sin duda es una tarea dif\u00edcil. Pero tal vez alguien encuentre una manera, o las autoridades la obliguen a hacerlo.<\/p>\n<\/p><\/div>\n