Reddit saca provecho de la fiebre del oro de la IA con 203 millones de dólares en tarifas de licencia de formación LLM


Agrandar / «Reddit Gold» adquiere un significado completamente nuevo cuando se trata de datos de entrenamiento de IA.

La semana pasada se filtró que Google había acordado licenciar el corpus masivo de miles de millones de publicaciones y comentarios de Reddit para ayudar a entrenar sus grandes modelos de lenguaje. Ahora, en una presentación reciente ante la Comisión de Bolsa y Valores, el popular foro en línea ha revelado que recaudará 203 millones de dólares de ese y otros contratos de licencia de datos de IA no especificados durante los próximos tres años.

El formulario S-1 de Reddit, publicado por la SEC el jueves por la noche antes de la oferta pública inicial de acciones planificada del sitio, dice que la compañía espera que 66,4 millones de dólares de ese valor derivado de datos de las empresas LLM lleguen durante el año calendario 2024. Bloomberg informó anteriormente que el acuerdo con Google tiene un valor estimado de 60 millones de dólares al año, lo que sugiere que el acuerdo de tres años representa la gran mayoría de sus ingresos por licencias de IA hasta el momento.

Google y otras empresas de inteligencia artificial que otorgan licencias para los datos de Reddit recibirán «acceso continuo a [Reddit’s] API de datos, así como transferencias trimestrales de datos de Reddit durante la vigencia del acuerdo», según el documento. Ese acceso constante y en tiempo real es particularmente valioso, escribe el sitio en el documento, porque «los datos de Reddit crecen y se regeneran constantemente a medida que Los usuarios vienen e interactúan con sus comunidades y entre sí».

“¿Por qué pagar por la vaca…?”

Si bien Reddit considera que la concesión de licencias de datos a empresas de inteligencia artificial es una parte importante de su futuro financiero, su presentación también señala que el uso gratuito de sus datos ya ha sido «una parte fundamental de cuántos de los principales modelos de lenguajes grandes han sido entrenados». La presentación parece casi amarga al señalar que «algunas empresas han construido modelos de lenguaje comercial muy grandes utilizando datos de Reddit sin celebrar un acuerdo de licencia con nosotros».

Ese reconocimiento resalta el panorama legal aún turbio sobre la tendencia de las empresas de inteligencia artificial a extraer grandes extensiones de la web pública con fines de capacitación, una práctica que esas empresas defienden como uso legítimo. Y Reddit parece muy consciente de que los modelos de IA pueden seguir absorbiendo sus publicaciones y comentarios de forma gratuita, incluso cuando intenta vender esos datos a otros.

«Algunas empresas pueden negarse a otorgar licencias sobre los datos de Reddit y utilizarlos sin licencia dada su naturaleza abierta, incluso si violan los términos legales que rigen nuestros servicios», escribe la empresa. «Si bien planeamos aplicar medidas enérgicas contra dichas entidades, tales actividades de aplicación de la ley podrían tardar años en resolverse, generar gastos sustanciales y desviar la atención de la administración y otros recursos, y es posible que, en última instancia, no tengamos éxito».

Sin embargo, la mera existencia de acuerdos de licencia de datos de IA como el de Reddit puede influir en cómo se desarrollan las batallas legales sobre este tipo de extracción de datos. Como señalaron Timothy Lee y James Grimmelmann de Ars en un análisis legal reciente, el establecimiento de un mercado de licencias establecido puede tener un gran impacto en si los tribunales consideran que un uso novedoso de datos digitalizados es «uso justo» según la ley de derechos de autor.

«Cuanto más [AI data licensing] «Cuanto más se firmen acuerdos como este en los próximos meses, más fácil será para los demandantes argumentar que el análisis del ‘efecto en el mercado’ del análisis de uso legítimo debe tener en cuenta este mercado de licencias», escribieron Lee y Grimmelmann.

Y aunque Reddit ve los LLM como una nueva oportunidad de ingresos, el sitio también ve su popularidad como una amenaza potencial. La presentación S-1 señala que «algunos usuarios también están recurriendo a LLM como ChatGPT, Gemini y Anthropic» para buscar información, colocándolos en la misma categoría de competencia de Reddit que «Google, Amazon, YouTube, Wikipedia, X y otros sitios de noticias.»

Después de presentar su oferta pública inicial a fines de 2021, los informes sugieren que Reddit tiene como objetivo llegar oficialmente al mercado de valores el próximo mes. La compañía ofrecerá a los usuarios y moderadores con suficiente karma y/o actividad en el sitio la oportunidad de participar en esa IPO a través de un programa de acciones dirigidas.

Advance Publications, propietaria de Condé Nast, matriz de Ars Technica, es el mayor accionista de Reddit.



Source link-49