Los trabajadores de Mechanical Turk están utilizando IA para automatizar el ser humano


Archive este como inevitable pero hilarante. Mechanical Turk es un servicio que desde sus primeros días parecía invitar a los chanchullos y, de hecho, los investigadores muestran que casi la mitad de sus «turkers» parecen estar usando IA para realizar tareas que estaban específicamente destinadas a ser realizadas por humanos porque la IA no podía. Hemos cerrado el ciclo en este caso; gran trabajo a todos!

Mechanical Turk de Amazon permite a los usuarios dividir tareas simples en cualquier cantidad de pequeñas subtareas que toman solo unos segundos y que pagan centavos, pero los trabajadores dedicados por partes realizarían miles y, por lo tanto, ganarían un salario modesto pero confiable. Era, como dijo Jeff Bezos memorablemente en ese entonces, «inteligencia artificial artificial».

Por lo general, estas eran tareas que luego eran difíciles de automatizar, como un CAPTCHA, o identificar el sentimiento de una oración, o simplemente «dibujar un círculo alrededor del gato en esta imagen», cosas que las personas podían hacer de manera rápida y confiable. Fue utilizado generosamente por personas que etiquetaban datos relativamente complejos e investigadores que buscaban obtener evaluaciones o decisiones humanas a escala.

Lleva el nombre del famoso «autómata» que jugaba al ajedrez y que en realidad usaba un escondite humano en su base para hacer sus jugadas: Poe escribió un gran derribo contemporáneo de él. A veces, la automatización es difícil o imposible, pero en esos casos puedes convertir a la humanidad en una especie de máquina. Hay que tener cuidado al respecto, pero ha demostrado ser útil a lo largo de los años.

Pero un estudio de investigadores de EPFL en Suiza muestra que los trabajadores de Mechanical Turk están automatizando su trabajo utilizando modelos de lenguaje grandes como ChatGPT: una serpiente que se muerde la cola o quizás se traga por completo.

La pregunta surgió cuando consideraron usar un servicio como MTurk como un «humano en el circuito» para mejorar o verificar las respuestas de LLM, que básicamente no son confiables:

Es tentador confiar en el crowdsourcing para validar los resultados de LLM o para crear datos humanos estándar de oro para comparar. Pero, ¿qué pasa si los propios trabajadores del crowdsourcing están utilizando LLM, por ejemplo, para aumentar su productividad y, por lo tanto, sus ingresos, en plataformas de crowdsourcing?

Para tener una idea general del problema, asignaron una tarea de «resumen abstracto» para que la completaran los turkers. Según varios análisis descritos en el documento (aún no publicado ni revisado por pares), «estiman que entre el 33 % y el 46 % de los trabajadores de la multitud usaron LLM al completar la tarea».

Para algunos, esto no será una sorpresa. Probablemente ha existido cierto nivel de automatización en turking desde que comenzó la plataforma. Se incentivan la velocidad y la confiabilidad, y si pudiera escribir un guión que manejara ciertas solicitudes con un 90% de precisión, podría ganar una buena cantidad de dinero. Con tan poca supervisión de los procesos de los contribuyentes individuales, era inevitable que algunas de estas tareas en realidad no fueran realizadas por humanos, como se anuncia. La integridad nunca ha sido el punto fuerte de Amazon, por lo que no tenía sentido confiar en ellos.

Pero verlo presentado así, y para una tarea que hasta hace poco parecía una que solo un ser humano podía hacer (resumir adecuadamente el resumen de un artículo), no solo cuestiona el valor de Mechanical Turk, sino que expone otro frente en la crisis inminente de » Capacitación de IA sobre datos generados por IA” en otra situación similar a la de Ouroboros.

Los investigadores (Veniamin Veselovsky, Manoel Horta Ribeiro y Robert West) advierten que, a partir del advenimiento de los LLM modernos, esta tarea es particularmente adecuada para la automatización subrepticia y, por lo tanto, es particularmente probable que sea víctima de estos métodos. Pero el estado del arte avanza constantemente:

Los LLM se están volviendo más populares cada día, y los modelos multimodales, que admiten no solo texto, sino también entrada y salida de imágenes y videos, están en aumento. Con esto, nuestros resultados deben considerarse el ‘canario en la mina de carbón’ que debe recordar a las plataformas, investigadores y trabajadores de la multitud que encuentren nuevas formas de garantizar que los datos humanos sigan siendo humanos.

La amenaza de que la IA se coma a sí misma se ha teorizado durante muchos años y se convirtió en realidad casi instantáneamente tras el despliegue generalizado de LLM: ChatGPT, la mascota de Bing, citó su propia información errónea como apoyo para nueva información errónea sobre una conspiración de COVID.

Si no puede estar 100% seguro de que algo fue hecho por un humano, probablemente sea mejor que asuma que no fue así. Ese es un principio deprimente al que hay que adherirse, pero aquí estamos.



Source link-48