Cómo detectar el plagio de ChatGPT y por qué se está volviendo tan difícil


Los chatbots son algo candente en este momento, y ChatGPT es el principal de ellos. Pero gracias a lo poderosas y humanas que son sus respuestas, académicos, educadores y editores están lidiando con la creciente ola de plagio y trampa generados por IA. Es posible que sus viejas herramientas de detección de plagio no sean suficientes para distinguir lo real de lo falso.

En este artículo, hablo un poco sobre este lado de pesadilla de los chatbots de IA, reviso algunas herramientas de detección de plagio en línea y exploro cuán grave se ha vuelto la situación.

Muchas opciones de detección

El último lanzamiento de noviembre de 2022 de la startup ChatGPT de OpenAI básicamente puso la destreza del chatbot en el centro de atención. Permitió que cualquier Joe normal (o cualquier profesional) generara ensayos o artículos inteligentes e inteligibles, y resolviera problemas matemáticos basados ​​en texto. Para el lector ignorante o inexperto, el contenido creado por IA puede pasar fácilmente como una pieza de escritura legítima, razón por la cual a los estudiantes les encanta y los profesores lo odian.

Un gran desafío con las herramientas de escritura de IA es su capacidad de espada de doble filo para usar el lenguaje natural y la gramática para crear contenido único y casi individualizado, incluso si el contenido en sí se extrajo de una base de datos. Eso significa que la carrera para vencer las trampas basadas en IA está en marcha. Aquí hay algunas opciones que encontré que están disponibles en este momento de forma gratuita.

GPT-2 Output Detector proviene directamente del desarrollador de ChatGPT, OpenAI, para demostrar que tiene un bot capaz de detectar texto de chatbot. Output Detector es fácil de usar: los usuarios solo tienen que ingresar texto en un campo de texto y la herramienta proporcionará de inmediato su evaluación de la probabilidad de que el texto provenga de un ser humano o no.

Otras dos herramientas que tienen interfaces de usuario limpias son Writer AI Content Detector y Content at Scale. Puede agregar una URL para escanear el contenido (solo escritor) o agregar texto manualmente. Los resultados reciben una puntuación porcentual de la probabilidad de que el contenido sea generado por humanos.

GPTZero es una herramienta beta casera alojada en Streamlit y creada por el estudiante de la Universidad de Princeton Edward Zen. Se diferencia del resto en cómo el modelo “algiarism” (plagio asistido por IA) presenta sus resultados. GPTZero divide las métricas en perplejidad y ráfagas. La ráfaga mide la aleatoriedad general de todas las oraciones en un texto, mientras que la perplejidad mide la aleatoriedad en una oración. La herramienta asigna un número a ambas métricas: cuanto menor sea el número, mayor será la posibilidad de que el texto haya sido creado por un bot.

Captura de pantalla de GPTZero.

Solo por diversión, incluí la Sala de prueba del modelo de lenguaje gigante (GLTR), desarrollado por investigadores del MIT-IBM Watson AI Lab y Harvard Natural Language Processing Group. Al igual que GPTZero, no presenta sus resultados finales como una clara distinción entre «humano» o «bot». GLTR básicamente usa bots para identificar el texto escrito por bots, ya que es menos probable que los bots seleccionen palabras impredecibles. Por lo tanto, los resultados se presentan como un histograma codificado por colores, clasificando el texto generado por IA frente al texto generado por humanos. Cuanto mayor sea la cantidad de texto impredecible, más probable es que el texto sea de un ser humano.

Poniéndolos a prueba

Salida del detector GPT-2.

Todas estas opciones pueden hacerle pensar que estamos en un buen lugar con la detección de IA. Pero para probar la eficacia real de cada una de estas herramientas, quería probarlo por mí mismo. Así que ejecuté un par de párrafos de muestra que escribí en respuesta a preguntas que también planteé, en este caso, ChatGPT.

Mi primera pregunta fue simple: ¿Por qué está mal visto comprar una PC preconstruida? Así es como mis propias respuestas se comparan con la respuesta de ChatGPT.

mi verdadera escritura ChatGPT
Detector de salida GPT-2 1,18% falso 36,57% falso
IA de escritor 100% humano 99% humano
Contenido a escala 99% humano 73% humano
GPTZero 80 perplejidad 50 perplejidad
GLTR 12 de 66 palabras probablemente por humano 15 o 79 palabras probables por humanos

Como puede ver, la mayoría de estas aplicaciones podrían decir que mis palabras eran genuinas, siendo las tres primeras las más precisas. Pero ChatGPT también engañó a la mayoría de estas aplicaciones de detección con su respuesta. Obtuvo una puntuación de 99 % humana en la aplicación Writer AI Content Detector, para empezar, y solo un 36 % fue marcada como falsa por el detector basado en GPT. GLTR fue el mayor infractor, alegando que mis propias palabras tenían la misma probabilidad de ser escritas por un humano que las palabras de ChatGPT.

Salida con Write AI Detector.

Sin embargo, decidí darle una oportunidad más, y esta vez, las respuestas mejoraron significativamente. Le pedí a ChatGPT que me proporcionara un resumen de la investigación del Instituto Federal Suizo de Tecnología sobre el antivaho con partículas de oro. En este ejemplo, las aplicaciones del detector hicieron un trabajo mucho mejor al aprobar mi propia respuesta y detectar ChatGPT.

mi verdadera escritura ChatGPT
Detector de salida GPT-2 9.28% falso 99.97% falso
IA de escritor 95% humano 2% humano
Contenido a escala 92% humano 0% (Obviamente IA)
GPTZero 41 perplejidad 23 perplejidad
GLTR 15 de 79 palabras probables por humano 4 de 98 palabras probables por humano

Las tres mejores pruebas realmente mostraron su fuerza en esta respuesta. Y aunque GLTR todavía tuvo dificultades para ver mi propia escritura como humana, al menos esta vez logró captar a ChatGPT.

Clausura

Es obvio a partir de los resultados de cada consulta que los detectores de plagio en línea no son perfectos. Para respuestas o piezas de escritura más complejas (como en el caso de mi segundo mensaje), es un poco más fácil para estas aplicaciones detectar la escritura basada en IA, mientras que las respuestas más simples son mucho más difíciles de deducir. Pero claramente, no es lo que yo llamaría confiable. Ocasionalmente, estas herramientas de detección clasificarán erróneamente artículos o ensayos como generados por ChatGPT, lo que es un problema para los maestros o editores que desean confiar en ellos para atrapar a los tramposos.

Los desarrolladores están constantemente ajustando la precisión y las tasas de falsos positivos, pero también se están preparando para la llegada de GPT-3, que promociona un conjunto de datos significativamente mejorado y capacidades más complejas que GPT-2 (del cual se entrena ChatGPT).

En este punto, para identificar el contenido generado por IA, los editores y educadores deberán combinar el juicio y un poco de intuición humana con uno (o más) de estos detectores de IA. Y para los usuarios de chatbot que tienen o están tentados a usar chatbots como Chatsonic, ChatGPT, Notion o YouChat para hacer pasar su «trabajo» como legítimo, no lo hagan. Reutilizar el contenido creado por un bot (que se obtiene de fuentes fijas dentro de su base de datos) sigue siendo plagio, sin importar cómo lo mires.

Recomendaciones de los editores








Source link-34