Cómo detectar texto generado por IA, según investigadores


Texto generado por IA, de herramientas como ChatGPT, está comenzando a impactar la vida diaria. Los maestros lo están probando como parte de las lecciones en el salón de clases. Los especialistas en marketing están impacientes por reemplazar a sus becarios. Los miembros se están volviendo locos. ¿A mí? Sería una mentira decir que no soy un pequeño ansioso porque los robots vengan a mi concierto de escritura. (ChatGPT, afortunadamente, todavía no puede participar en las llamadas de Zoom y realizar entrevistas).

Con las herramientas generativas de inteligencia artificial ahora accesibles públicamente, es probable que encuentre más contenido sintético mientras navega por la web. Algunos casos pueden ser benignos, como un cuestionario de BuzzFeed generado automáticamente sobre qué postre frito coincide con sus creencias políticas. (¿Eres un beignet demócrata o un zeppole republicano?) Otros casos podrían ser más siniestros, como una sofisticada campaña de propaganda de un gobierno extranjero.

Los investigadores académicos están buscando formas de detectar si un programa como ChatGPT generó una cadena de palabras. En este momento, ¿cuál es un indicador decisivo de que lo que sea que estés leyendo fue creado con la ayuda de la IA?

Una falta de sorpresa.

Entropía, evaluada

Los algoritmos con la capacidad de imitar los patrones de la escritura natural existen desde hace algunos años más de lo que te imaginas. En 2019, Harvard y el MIT-IBM Watson AI Lab lanzaron una herramienta experimental que escanea texto y resalta palabras según su nivel de aleatoriedad.

¿Por qué sería útil esto? Un generador de texto de IA es fundamentalmente una máquina de patrones místicos: excelente para imitar, débil para lanzar bolas curvas. Claro, cuando escribe un correo electrónico a su jefe o envía un mensaje de texto grupal a algunos amigos, su tono y cadencia pueden sentirse predecibles, pero hay una cualidad caprichosa subyacente en nuestro estilo humano de comunicación.

Edward Tian, ​​un estudiante de Princeton, se volvió viral a principios de este año con una herramienta experimental similar, llamada GPTZero, dirigida a los educadores. Mide la probabilidad de que ChatGPT haya generado una parte del contenido en función de su «perplejidad» (también conocida como aleatoriedad) y «ráfaga» (también conocida como varianza). OpenAI, que está detrás de ChatGPT, lanzó otra herramienta diseñada para escanear texto de más de 1,000 caracteres y tomar una decisión. La empresa es sincera sobre las limitaciones de la herramienta, como los falsos positivos y la eficacia limitada fuera del inglés. Así como los datos en inglés suelen tener la máxima prioridad para quienes están detrás de los generadores de texto de IA, la mayoría de las herramientas para la detección de texto de IA son actualmente las más adecuadas para beneficiar a los angloparlantes.

¿Podría sentir si un artículo de noticias fue compuesto, al menos en parte, por AI? “Estos textos generativos de IA nunca podrán hacer el trabajo de un periodista como tú, Reece”, dice Tian. Es un sentimiento bondadoso. CNET, un sitio web centrado en la tecnología, publicó varios artículos escritos por algoritmos y arrastrados hasta la línea de meta por un humano. ChatGPT, por el momento, carece de cierto descaro y, ocasionalmente, alucina, lo que podría ser un problema para los informes confiables. Todo el mundo sabe que los periodistas calificados reservan los psicodélicos para las horas posteriores.

Entropía, Imitada

Si bien estas herramientas de detección son útiles por ahora, Tom Goldstein, profesor de ciencias de la computación en la Universidad de Maryland, ve un futuro en el que se vuelven menos efectivos, a medida que el procesamiento del lenguaje natural se vuelve más sofisticado. “Este tipo de detectores se basan en el hecho de que existen diferencias sistemáticas entre el texto humano y el texto automático”, dice Goldstein. “Pero el objetivo de estas empresas es hacer que el texto de la máquina sea lo más parecido posible al texto humano”. ¿Significa esto que se ha perdido toda esperanza de detección de medios sintéticos? Absolutamente no.

Goldstein trabajó en un artículo reciente que investiga posibles métodos de marca de agua que podrían integrarse en los grandes modelos de lenguaje que impulsan los generadores de texto de IA. No es infalible, pero es una idea fascinante. Recuerde, ChatGPT intenta predecir la siguiente palabra probable en una oración y compara múltiples opciones durante el proceso. Una marca de agua podría designar ciertos patrones de palabras para que estén fuera de los límites del generador de texto AI. Entonces, cuando se escanea el texto y las reglas de la marca de agua se rompen varias veces, indica que es probable que un ser humano haya logrado esa obra maestra.



Source link-46