Stack Overflow cobrará a los gigantes de IA por los datos de entrenamiento


Los modelos de lenguaje grandes pueden generar cadenas de texto basadas en patrones de palabras aprendidos de las páginas web, libros y otros cuerpos de texto en sus datos de entrenamiento. Además de ChatGPT, los programas constituyen el núcleo de los chatbots de búsqueda, como Microsoft Bing chat y Google’s Bard, y son la base de un número creciente de aplicaciones que producen copias profesionales y creativas en un abrir y cerrar de ojos. Sus contrapartes que generan ilustraciones y videos compuestos por IA se basan en patrones de conjuntos de datos de imágenes, como fotos recopiladas de Pinterest y Flickr.

A menudo, los conjuntos de datos utilizados en el desarrollo de IA se construyen a través de medios no oficiales, como el envío de software que extrae contenido de los sitios web. En los EE. UU., esto generalmente se considera legal, aunque los problemas de derechos de autor y los términos de uso de los sitios web en contra de la práctica lo han dejado en disputa.

Algunos sitios web como Reddit y Stack Overflow han sido más atractivos. Ofrecen «volcados de datos» descargables o portales de datos en tiempo real para ayudar al software a acceder a su contenido conocido como API. En el caso de Stack Overflow, los desarrolladores de LLM obtienen datos a través de una combinación de volcados, API y raspado, dice Chandrasekar, todo lo cual hoy en día se puede hacer de forma gratuita.

Pero Chandrasekar dice que los desarrolladores de LLM están violando los términos de servicio de Stack Overflow. Los usuarios son dueños del contenido que publican en Stack Overflow, como se describe en sus TOS, pero todo está bajo una licencia Creative Commons que requiere que cualquier persona que use los datos más tarde mencione de dónde provienen. Cuando las empresas de IA venden sus modelos a los clientes, “no pueden atribuir a todos y cada uno de los miembros de la comunidad cuyas preguntas y respuestas se usaron para entrenar el modelo, violando así la licencia Creative Commons”, dice Chandrasekar.

Ni Stack Overflow ni Reddit han publicado información de precios. “Estamos trabajando en eso mientras hablamos”, dice el portavoz de Reddit, Tim Rathschmidt, “y compartiremos más con los socios en las próximas semanas”. Stack Overflow estudiará la estrategia de Reddit y consultará con sus propios clientes potenciales, algunos de los cuales ya se comunicaron sobre el acceso a los datos, dice Chandrasekar.

Una hoja de ruta potencial para la fijación de precios podría provenir de Elon Musk, quien este mes aumentó los precios para acceder a los datos de Twitter. Comienzan en $ 42,000 por mes para acceder a 50 millones de tweets. Aproximadamente tres veces el volumen de tweets había estado disponible previamente de forma gratuita. En un tuit esta semanaMusk acusó a Microsoft, un importante desarrollador de inteligencia artificial y socio cercano de OpenAI, de entrenar algoritmos «utilizando ilegalmente datos de Twitter». Sin dar más detalles, agregó: “Tiempo de juicio”.

Tanto Stack Overflow como Reddit continuarán otorgando licencias de datos de forma gratuita a algunas personas y empresas. Chandrasekar dice que Stack Overflow solo quiere remuneración solo de las empresas que desarrollan LLM para grandes propósitos comerciales. “Cuando la gente comienza a cobrar por productos creados en sitios creados por la comunidad como el nuestro, ahí es donde no es un uso justo”, dice.

El CEO de Reddit, Steve Huffman, dijo Los New York Times esta semana que no quería dar un regalo de promoción a las empresas más grandes del mundo. “Rastrear Reddit, generar valor y no devolver nada de ese valor a nuestros usuarios es algo con lo que tenemos un problema”, dijo.





Source link-46