Reddit comenzará a cargar modelos de IA aprendiendo de sus archivos extremadamente humanos


Agrandar / Reddit, un sitio que está repleto de humanos que son todos los tipos de humanos posibles, comenzará a cobrar a las empresas más grandes que quieran entrenar sus IA de modelo de lenguaje grande en sus datos.

imágenes falsas

Si eres una empresa que entrena una IA de modelo de lenguaje grande (LLM) y quieres que aprenda del subreddit u/420NarutoConspiracy, pronto tendrás que pagar por eso.

Steve Huffman, fundador y director ejecutivo del agregador de debates y noticias sociales Reddit, dijo recientemente a The New York Times que planeaba cobrar a las empresas que acceden a su API con el fin de extraer el contenido de sus 18 años generado principalmente por humanos. Los detalles sobre los nuevos términos están disponibles en una publicación de anuncio posterior en Reddit.

La API seguiría siendo gratuita para los desarrolladores que trabajan en bots y otras herramientas de Reddit y para los investigadores que trabajan en proyectos académicos o no comerciales. Pero simplemente mantener las conversaciones de Reddit con fines de capacitación en IA tendrá un precio, cuyas cantidades exactas deberían llegar en las próximas semanas.

«El corpus de datos de Reddit es realmente valioso», dijo Huffman al Times. «Pero no necesitamos dar todo ese valor a algunas de las empresas más grandes del mundo de forma gratuita.

«Rastrear Reddit, generar valor y no devolver nada de ese valor a nuestros usuarios es algo con lo que tenemos un problema. Es un buen momento para que ajustemos las cosas».

Los comentarios y conversaciones de Reddit han sido un recurso valioso para capacitar a las IA de LLM. ChatGPT y Bard de Google citan los datos de Reddit como una de sus fuentes. En su análisis de solo un subconjunto (12 millones) del conjunto de datos de generación de imágenes de Stable Diffusion (2300 millones), Andy Baio y Simon Willison señalaron que «las plataformas de contenido generado por los usuarios eran una gran fuente de datos de imágenes». Una investigación sobre fuentes de datos comunes para muchas IA publicada hoy por The Washington Post señaló que en GPT-3 se incluye «una compilación de texto de enlaces altamente calificados por los usuarios de Reddit».

Si bien tiene la intención de limitar el acceso a las IA, Reddit dijo que planea brindarles a los desarrolladores y moderadores mejores herramientas para trabajar dentro de sus comunidades. Las aplicaciones iOS y Android de Reddit ofrecerán formas de ver rápidamente el historial de un usuario, actualizar las reglas de la comunidad y manejar mejor las múltiples colas de modificación.

El cambio de Reddit en el acceso a la API se produce cuando la compañía busca cotizar en bolsa en la segunda mitad de 2023, según The Information. La compañía solicitó de manera confidencial una oferta pública inicial en diciembre de 2021. Esperaba una valoración de $ 15 mil millones, según Reuters, pero pospuso su presentación hasta que mejoren las condiciones del mercado, especialmente en torno a las empresas tecnológicas.

Reddit es propiedad parcial de Advance Publications, que también es propietaria de Condé Nast, matriz de Ars Technica.



Source link-49