{"id":584585,"date":"2023-04-20T21:42:23","date_gmt":"2023-04-20T21:42:23","guid":{"rendered":"https:\/\/magazineoffice.com\/stack-overflow-cobrara-a-los-gigantes-de-ia-por-los-datos-de-entrenamiento\/"},"modified":"2023-04-20T21:42:27","modified_gmt":"2023-04-20T21:42:27","slug":"stack-overflow-cobrara-a-los-gigantes-de-ia-por-los-datos-de-entrenamiento","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/stack-overflow-cobrara-a-los-gigantes-de-ia-por-los-datos-de-entrenamiento\/","title":{"rendered":"Stack Overflow cobrar\u00e1 a los gigantes de IA por los datos de entrenamiento"},"content":{"rendered":"


\n<\/p>\n

\n

Los modelos de lenguaje grandes pueden generar cadenas de texto basadas en patrones de palabras aprendidos de las p\u00e1ginas web, libros y otros cuerpos de texto en sus datos de entrenamiento. Adem\u00e1s de ChatGPT, los programas constituyen el n\u00facleo de los chatbots de b\u00fasqueda, como Microsoft Bing chat y Google’s Bard, y son la base de un n\u00famero creciente de aplicaciones que producen copias profesionales y creativas en un abrir y cerrar de ojos. Sus contrapartes que generan ilustraciones y videos compuestos por IA se basan en patrones de conjuntos de datos de im\u00e1genes, como fotos recopiladas de Pinterest y Flickr.<\/p>\n

A menudo, los conjuntos de datos utilizados en el desarrollo de IA se construyen a trav\u00e9s de medios no oficiales, como el env\u00edo de software que extrae contenido de los sitios web. En los EE. UU., esto generalmente se considera legal, aunque los problemas de derechos de autor y los t\u00e9rminos de uso de los sitios web en contra de la pr\u00e1ctica lo han dejado en disputa. <\/p>\n

Algunos sitios web como Reddit y Stack Overflow han sido m\u00e1s atractivos. Ofrecen \u00abvolcados de datos\u00bb descargables o portales de datos en tiempo real para ayudar al software a acceder a su contenido conocido como API. En el caso de Stack Overflow, los desarrolladores de LLM obtienen datos a trav\u00e9s de una combinaci\u00f3n de volcados, API y raspado, dice Chandrasekar, todo lo cual hoy en d\u00eda se puede hacer de forma gratuita. <\/p>\n

Pero Chandrasekar dice que los desarrolladores de LLM est\u00e1n violando los t\u00e9rminos de servicio de Stack Overflow. Los usuarios son due\u00f1os del contenido que publican en Stack Overflow, como se describe en sus TOS, pero todo est\u00e1 bajo una licencia Creative Commons que requiere que cualquier persona que use los datos m\u00e1s tarde mencione de d\u00f3nde provienen. Cuando las empresas de IA venden sus modelos a los clientes, \u201cno pueden atribuir a todos y cada uno de los miembros de la comunidad cuyas preguntas y respuestas se usaron para entrenar el modelo, violando as\u00ed la licencia Creative Commons\u201d, dice Chandrasekar.<\/p>\n

Ni Stack Overflow ni Reddit han publicado informaci\u00f3n de precios. \u201cEstamos trabajando en eso mientras hablamos\u201d, dice el portavoz de Reddit, Tim Rathschmidt, \u201cy compartiremos m\u00e1s con los socios en las pr\u00f3ximas semanas\u201d. Stack Overflow estudiar\u00e1 la estrategia de Reddit y consultar\u00e1 con sus propios clientes potenciales, algunos de los cuales ya se comunicaron sobre el acceso a los datos, dice Chandrasekar. <\/p>\n

Una hoja de ruta potencial para la fijaci\u00f3n de precios podr\u00eda provenir de Elon Musk, quien este mes aument\u00f3 los precios para acceder a los datos de Twitter. Comienzan en $ 42,000 por mes para acceder a 50 millones de tweets. Aproximadamente tres veces el volumen de tweets hab\u00eda estado disponible previamente de forma gratuita. En un tuit esta semana<\/a>Musk acus\u00f3 a Microsoft, un importante desarrollador de inteligencia artificial y socio cercano de OpenAI, de entrenar algoritmos \u00abutilizando ilegalmente datos de Twitter\u00bb. Sin dar m\u00e1s detalles, agreg\u00f3: \u201cTiempo de juicio\u201d.<\/p>\n

Tanto Stack Overflow como Reddit continuar\u00e1n otorgando licencias de datos de forma gratuita a algunas personas y empresas. Chandrasekar dice que Stack Overflow solo quiere remuneraci\u00f3n solo de las empresas que desarrollan LLM para grandes prop\u00f3sitos comerciales. \u201cCuando la gente comienza a cobrar por productos creados en sitios creados por la comunidad como el nuestro, ah\u00ed es donde no es un uso justo\u201d, dice.<\/p>\n

El CEO de Reddit, Steve Huffman, dijo Los New York Times<\/em> esta semana que no quer\u00eda dar un regalo de promoci\u00f3n a las empresas m\u00e1s grandes del mundo. \u201cRastrear Reddit, generar valor y no devolver nada de ese valor a nuestros usuarios es algo con lo que tenemos un problema\u201d, dijo.<\/p>\n<\/div>\n