Reddit dice que ha ganado 203 millones de dólares hasta ahora con la licencia de sus datos


Las perspectivas de Reddit a medida que avanza hacia una cotización en el mercado de valores tienen mucho más que ver con las relaciones con proveedores de inteligencia artificial como OpenAI de lo que cabría esperar.

En su prospecto de IPO presentado hoy ante la Comisión de Bolsa y Valores de EE. UU., Reddit enfatizó repetidamente cuánto cree que puede ganar (y ha ganado) de los acuerdos de licencia de datos con las empresas que entrenan modelos de IA en sus más de mil millones de puestos y más de 16. mil millones de comentarios.

«En enero de 2024, celebramos ciertos acuerdos de licencia de datos con un valor de contrato agregado de 203,0 millones de dólares y plazos que oscilan entre dos y tres años», se lee en el prospecto. «Esperamos que se reconozca un mínimo de 66,4 millones de dólares de ingresos durante el año que finaliza el 31 de diciembre de 2024 y el resto a partir de entonces».

Ahora, es un misterio qué proveedores de IA están otorgando licencias de datos de Reddit hasta ahora. A principios de esta semana, Bloomberg y Reuters informaron que una “gran empresa de inteligencia artificial anónima” (posiblemente Google) había celebrado un acuerdo de licencia por valor de unos 60 millones de dólares sobre una base anualizada. Pero OpenAI tampoco sería un cliente sorprendente, especialmente considerando que el CEO de OpenAI, Sam Altman, tiene una participación del 8,7% en Reddit (lo que lo convierte en el tercer mayor accionista) y alguna vez fue miembro de la junta directiva de la compañía.

¿Por qué son valiosos los datos de Reddit? Como explica Reddit, los modelos de IA “aprenden” de ejemplos para elaborar ensayos, códigos, correos electrónicos, artículos y más, y proveedores como OpenAI buscan en la web millones o miles de millones de estos ejemplos para agregarlos a sus conjuntos de capacitación. Algunos ejemplos son de dominio público. Otros no lo son o, en el caso del contenido de Reddit, están sujetos a licencias restrictivas que requieren citación o formas específicas de compensación.

Reddit anteriormente no impedía el acceso a sus datos con fines de entrenamiento de IA. Pero el año pasado cambió de rumbo, argumentando que sus datos no deberían ser (en palabras del CEO Steve Huffman) “[given] a algunas de las empresas más grandes del mundo de forma gratuita”.

“[Our] Las API de datos pueden proporcionar acceso en tiempo real a temas dinámicos y en evolución, como deportes, películas, noticias, moda y las últimas tendencias”, continúa el prospecto. “Creemos que el enorme corpus de datos y conocimientos conversacionales de Reddit seguirá desempeñando un papel en la formación y mejora de grandes modelos lingüísticos. A medida que nuestro contenido se actualiza y crece diariamente, esperamos que los modelos quieran reflejar estas nuevas ideas y actualizar su capacitación utilizando datos de Reddit”.

Los productores de contenido, desde bibliotecas de medios de archivo hasta editores de noticias, recurren cada vez más a acuerdos de licencia de datos con proveedores de inteligencia artificial a medida que chatbots como ChatGPT de OpenAI y Gemini de Google amenazan con minar el tráfico. Un modelo reciente de The Atlantic descubrió que, si un motor de búsqueda como Google integrara la IA en la búsqueda, respondería a la consulta de un usuario el 75% de las veces sin necesidad de hacer clic en su sitio web.

Los proveedores, a su vez, se han visto incitados a buscar acuerdos de licencia mientras enfrentan una avalancha de demandas que alegan que no tienen justificación legal para entrenar sus modelos con datos sin permiso ni pago. Recientemente, The New York Times acusó a OpenAI de crear efectivamente competidores en los editores de noticias utilizando sus trabajos, perjudicando su negocio.

OpenAI, por ejemplo, tiene acuerdos con la galería de imágenes Shutterstock, así como con editores como Axel Springer, propietario de Politico y Business Insider. Sin embargo, se informa que las licencias son bastante pequeñas: alcanzan un máximo de 5 millones de dólares al año.



Source link-48