Cómo los bots como ChatGPT han robado Fanfiction y qué significa


Primero, una confesión. He escrito fanfiction. Como, mucho de fanfic. ¡En mi tiempo libre, todavía escribo ficción! (Actualmente estoy escribiendo un par de ficción para Entrevista con el Vampiro y trigun! Va muy bien, gracias). En el transcurso de los últimos 15 años, he publicado alrededor de 750,000 palabras de fic, y solo para darles una idea de cuánto es eso, todo el señor de los Anillos serie, incluyendo El Hobbit, está justo al norte de 575.000 palabras. ¡Así que hay mucho por ahí!

La mayor parte de mi trabajo, como millones de otros escritores de ficción, existe en el Archivo propio. El AO3, como se le conoce, es el archivo de ficción más grande y más visitado en la web con alrededor de 350 millones de visitantes por mes, y actualmente alberga más de 11 millones de obras de fans. Y hasta hace poco, no me di cuenta de que mi fic no se había quedado en AO3. Mi trabajo, junto con millones de otras ficciones, se ha utilizado para entrenar IA basada en texto generativo. Si has jugado con ChatGPT-¡felicitaciones! Has usado mi trabajo.

¿Cómo rasparon los LLM modernos los sitios de fanfiction?

Los modelos de lenguaje extenso (LLM) son la base de los generadores de texto de IA, que fueron «entrenados» en datos para crear redes neuronales artificiales. El conjunto de datos más conocido está alojado en Common Crawl, una organización sin fines de lucro que proporciona un repositorio abierto de datos web a cualquiera que lo desee, de forma gratuita. Para crear el conjunto de datos, Common Crawl buscó en Internet para escribir y lo hizo accesible al público. Su archivo comenzó en 2008 y actualmente se actualiza cada dos meses.

Para crear programas de IA de texto generativo, los programadores utilizaron el conjunto de datos Common Crawl para respaldar las redes neuronales artificiales, que se denominan LLM. El LLM más conocido es GPT, que fue creado por la empresa OpenAI. OpenAI usó el conjunto de datos Common Crawl en el desarrollo de GPT y actualmente lo está usando mientras desarrolla versiones adicionales de su exitoso caso de uso, ChatGPT. OpenAI lanzó la API de GPT al público en 2021. Esta API es la base para muchos otros LLM basados ​​en texto, lo que significa que el estado actual de varios «loro estocásticoLos programas de inteligencia artificial generadores de texto son compatibles con Common Crawl a través de la API GPT y, técnicamente hablando, se basan en un corpus masivo de fanfiction.

En 2019, el Archivo propio tenía 32 mil millones de palabras de fanfic disponibles, calculados a partir de alrededor de cinco millones de piezas de fanwork. Actualmente alberga 11 millones de fanworks. No pude encontrar una buena fuente de cuántas palabras hay en AO3 ahora, pero no me sorprendería si fueran mucho, mucho más de 50 mil millones de palabras. Nuevamente, a modo de comparación, ya que estos son números absurdamente grandes, actualmente hay 4.200 millones de palabras en inglés en Wikipedia. Para nuestros propósitos, vale la pena saber que la mayoría, si no todos, de esos 32 mil millones de palabras de fanfic disponibles en 2019 están en el conjunto de datos Common Crawl que se usó en GPT LLM de OpenAI.

A nadie se le dijo que esto estaba pasando; muchos escritores de ficción aún no saben que su trabajo fue eliminado. Si bien los datos de Crawl existen en un índice disponible públicamente, es extremadamente difícil acceder a ellos si no tiene la capacidad de comprender y ejecutar el código a un nivel bastante alto. El usuario promedio de Internet solo puede asumir que si tuviera escritos disponibles públicamente en línea, sus escritos terminaron atrapados en el Rastreo. Entonces, aunque algunas personas entendieron que el AO3 probablemente se había rastreado, nadie había investigado para averiguar si realmente se estaba usando.

¿Cómo se vincula Sudowrite con Omega Verse fic?

Hace unas pocas semanas, sudoscribir—un LLM basado en GPT— lanzó su producto para versión beta pública. A diferencia de la llamada y respuesta de ChatGPT, Sudowrite se creó para facilitar la escritura de ficción. Los usuarios pueden registrarse y usar su cuenta para generar palabras que pueden o no parecerse a la forma de una historia. Además, los usuarios pueden pegar sus palabras originales en la herramienta de escritura y el generador ofrecerá opciones para lo que debería suceder a continuación. Es un generador de lenguaje muy avanzado enfocado a la creación de historias. y usó miles de millones de palabras del Archivo Propio para desarrollar sus modelos. En una serie de experimentos cada vez más desquiciados, cableado pudo demostrar que Sudowrite no solo había sido entrenado en AO3, sino que también pudo replicar historias que se desarrollaron dentro de su cultura derivada y transformadora.

Este reportaje bastante ingenioso e irónico reveló que Sudowrite podría generar una historia dentro de las reconocibles restricciones de Omega Verse. NO me estoy metiendo en lo que constituye un fic de Omega Verse, y si vas a buscar esa información tú mismo, no soy responsable de lo que aprendas. El punto es que este estilo de escritura y los diversos tropos involucrados en la escritura dentro de Omega Verse están localizados en comunidades de fanfiction en línea, y en realidad se desarrollaron en AO3. Es un estilo de escritura específico de la cultura que recientemente se ha abierto camino en los principales medios de publicación, aunque no tradicionales. La única forma en que Sudowrite sería capaz de generar historias reconocibles de Omega Verse era si se hubiera entrenado con tanto fanfiction que el impacto de la fic fuera imperceptible dentro de la programación LLM.

Hablé con un representante de clientes de Sudowrite a través del chat que confirmó que entrenó su red en los modelos de lenguaje grande de OpenAI y «sus propios modelos», y reiteró que estos modelos fueron entrenados en texto en línea publicado entre 2011 y 2019. Una vez más, en 2019, el AO3 tenía 32 mil millones de palabras. Incluido el mío.

Fanfiction es un regalo

Usar fic en un LLM deliberadamente dirigido a escritores es antitético a la cultura fandom en general y profundamente irrespetuoso con las personas que han escrito y distribuido fic en línea, de forma gratuita, durante años. Fanfic tiene una historia legal difícil, y la creación de Archive of Our Own tiene sus raíces en un movimiento liderado por fanáticos para establecer un hogar para fandoms fuera de la influencia corporativa y sin amenazas de censura. Y ahora, todo ese trabajo está siendo tomado, cortado y regurgitado en varios LLM, sin el permiso de ningún autor de ficción. Es, para ser absolutamente sincero, jodidamente asqueroso.

Admito que todo esto es personal; No sé cuánto fic tuve en línea en 2019, pero probablemente fueron alrededor de 600,000 palabras. La mayor parte de lo que he escrito desde entonces han sido one-shots breves, ficciones sin terminar y una tonelada, como más de dos millones de palabras, de ficción original y reportajes mientras cambiaba de carrera. Pero en el transcurso de todo mi tiempo como escritor de ficción, no pensé ni una sola vez en que ninguna de mis ficciones dejara el Archivo. Eso se debe a que AO3 y el fandom tienen una cultura de privacidad, protección y obsequio que es antitética para la mayoría de las instituciones y en desacuerdo extremo con Sudowrite.

Todos los fandoms tienen su propia cultura de interacción. Asimismo, todos los sitios de ficción también tienen sus propias culturas. El AO3 y las diversas culturas fandom que coexisten en el sitio, generalmente comparten algunos valores culturales similares. Uno de los más comunes es que es un tabú para los escritores obtener ganancias del fic que publican en AO3. De hecho, como parte del acuerdo de usuario, los autores no pueden anunciar la escritura como un servicio o incluso vincular a un tarro de sugerencias para evitar complicaciones legales para el propio Archivo. Con la gran excepción de Wikipedia, y a diferencia de muchos escritos en Internet que se incluyeron en el Crawl, los fanfic en el Archivo no son escritura compensada. No está respaldado por anuncios, la gente no pagó por él, no estaba generando valor monetario para nadie. Fue un regalo. Programas como Sudowrite están cobrando a los usuarios por acceder a su LLM, que se creó a partir de los obsequios de los escritores de ficción al fandom.

Repartí mi escritura, gratis, porque el fandom es una cultura de adición. Fanfic, fanart, podfic: todas estas cosas se dan de un individuo al colectivo sin esperar que nadie le devuelva el favor. Quería sumarme al fandom porque me encantaban las historias que veía en los cines, en los libros, en la televisión. Me encantaba escribir en esos mundos y disfruté, más allá de la enumeración, la ficción que leí. Y ahora, es una faceta frustrante de la autoría de fic que un programa como Sudowrite proponga un mundo donde la escritura se realiza mediante un algoritmo, y ese algoritmo sabe cómo escribo. Sabe cómo escribe el fandom.

Es abominable que un programa que pretende apoyar a una comunidad de escritores haya basado al menos 32 mil millones de palabras de su programa en la escritura de una comunidad que dio su consentimiento para que se use su trabajo. Algunas personas dirán que es irónico que los escritores de ficción afirmen que su trabajo fue robado, pero que fue puesto en el Rastreo sin permiso. Las obras de fans derivadas tienen el derecho legal de existir, y los escritores de ficción tienen derechos legales sobre sus propias creaciones. Escribir fic no es robar, pero tomar fic y usarlo para desarrollar un conjunto de datos, y luego ofrecer ese conjunto de datos al público sin haber obtenido el permiso de literalmente nadie, es éticamente asqueroso.

Fandom es una cultura que la IA quiere explotar

Para muchos desarrolladores LLM y AI, fanfic no es una cultura para celebrar, sino una comunidad para explotar. Ellos postulan sobre modelos interactivos que permiten a las personas chatear con sus personajes favoritos, no entrenados en el libro original o textos originales, sino entrenados en fanfiction. Esto se debe en parte a que la fic ya está en el rastreo y saben que pueden tomar de los escritores de fic sin la amenaza de repercusiones legales, y usarán las mismas protecciones de uso justo destinadas a proteger a los escritores de fic de los autores como una excusa para su experimentación. Fanfiction no es un mercado. es una cultura Y la cultura fanfic odia esta idea.

Fanfic es, en esencia, una celebración de las historias que amamos. Es una continuación del canon en nuevas formas hermosas, críticas y emocionantes. Desafía el texto y hace preguntas deliberadas sobre quién lo escribió de esa manera, por qué y qué pasaría si el canon fuera diferente. Es un espacio que admite una gran cantidad de experimentación y de superación de límites y, durante mucho tiempo, ha apoyado la interpretación queer, adoptando los medios queer de una manera que la corriente principal actualmente no puede. Hay mucho sobre fanfic que es importante, y los grandes modelos de lenguaje desinfectarán ese trabajo, haciéndose eco de la siguiente palabra más probable y deshumanizando por completo el esfuerzo, la emoción y la cultura que se encuentran en la base de los chatbots de IA.

En este momento, hay una cantidad confusa de conexiones neuronales artificiales entre la ficción y las palabras que genera una IA. Si bien algunos modelos son gratuitos, Sudowrite es una prueba de que el fanfic ha sido robado con fines de lucro. Los LLM son reprobables por una serie de razones, tanto ecológicas como éticas, pero el hecho de que hayan robado el trabajo de una cultura del don y estén intentando ofuscar ese hecho y vendérselo a los escritores de ficción es, francamente, repugnante. LLM Developers y Fandom son culturas diametralmente opuestas, y un grupo se beneficia del arduo trabajo del otro.

Al final del día, si alguien quiere sentarse y leer un 50K Sobrenatural erótica; una ficción épica de Steve/Bucky de 300.000 que abarca varios universos; o docena acogedor Guerra de las Galaxias AU de cafetería, pueden encontrar lo que buscan con unos sencillos filtros en el Archivo. Y está ahí, de lectura gratuita y sin condiciones, dado que el autor disfrutó escribiendo en el mismo mundo que esos personajes y quería que otras personas también lo disfrutaran. Y puedo garantizar que no encontrará el mismo tipo de cultura, experimentación o incluso satisfacción al pedirle a un LLM que lo escriba por usted. Y si no lo encuentras en AO3, pues. Siempre puedes escribirlo tú mismo.


¿Quieres más noticias de io9? Consulta cuándo esperar lo último Maravilla, Guerra de las Galaxiasy Star Trek lanzamientos, ¿qué sigue para el Universo DC en cine y televisióny todo lo que necesitas saber sobre el futuro de Médico que.





Source link-45