La caza de bots tiene que ver con las vibraciones


Christopher Bouzy es tratando de mantenerse por delante de los bots. Como la persona detrás de Bot Sentinel, un popular sistema de detección de bots, él y su equipo actualizan continuamente sus modelos de aprendizaje automático por temor a que se vuelvan «obsoletos». ¿La tarea? Clasificación de 3,2 millones de tuits de cuentas suspendidas en dos carpetas: «Bot» o «No».

Para detectar bots, los modelos de Bot Sentinel primero deben aprender cuál es el comportamiento problemático a través de la exposición a los datos. Y al proporcionarle al modelo tuits en dos categorías distintas (bot o no bot), el modelo de Bouzy puede calibrarse a sí mismo y supuestamente encontrar la esencia misma de lo que, según él, hace que un tuit sea problemático.

Los datos de entrenamiento son el corazón de cualquier modelo de aprendizaje automático. En el floreciente campo de la detección de bots, la forma en que los cazadores de bots definen y etiquetan los tweets determina la forma en que sus sistemas interpretan y clasifican el comportamiento similar al de los bots. Según los expertos, esto puede ser más un arte que una ciencia. “Al final del día, se trata de una vibra cuando estás etiquetando”, dice Bouzy. “No se trata solo de las palabras en el tuit, el contexto importa”.

Él es un bot, ella es un bot, todos son un bot

Antes de que alguien pueda cazar bots, debe averiguar qué es un bot, y esa respuesta cambia según a quién le pregunte. Internet está lleno de personas que se acusan mutuamente de ser bots por pequeños desacuerdos políticos. Los trolls se llaman bots. Las personas que no tienen foto de perfil y pocos tweets o seguidores se llaman bots. Incluso entre los cazadores de bots profesionales, las respuestas difieren.

Bot Sentinel está capacitado para eliminar lo que Bouzy llama «cuentas problemáticas», no solo cuentas automatizadas. El profesor de informática y ciencias de la computación de la Universidad de Indiana, Filippo Menczer, dice que la herramienta que ayudó a desarrollar, Botometer, define a los bots como cuentas que están controladas al menos parcialmente por software. Kathleen Carley es profesora de informática en el Instituto de Investigación de Software de la Universidad Carnegie Mellon y ha ayudado a desarrollar dos herramientas de detección de bots: BotHunter y BotBuster. Carley define un bot como “una cuenta que se ejecuta utilizando un software completamente automatizado”, una definición que se alinea con la propia de Twitter. “Un bot es una cuenta automatizada, nada más o menos”, la compañía escribió en una publicación de blog de mayo de 2020 sobre la manipulación de la plataforma.

Así como las definiciones difieren, los resultados que producen estas herramientas no siempre se alinean. Una cuenta marcada como bot por Botometer, por ejemplo, podría volverse perfectamente humana en Bot Sentinel, y viceversa.

Algo de esto es por diseño. A diferencia de Botometer, cuyo objetivo es identificar cuentas automatizadas o parcialmente automatizadas, Bot Sentinel busca cuentas que se dedican al troleo tóxico. Según Bouzy, reconoces estas cuentas cuando las ves. Pueden ser automatizados o controlados por humanos, y se dedican al acoso o la desinformación y violan los términos de servicio de Twitter. “Simplemente lo peor de lo peor”, dice Bouzy.

Botometer es mantenido por Kaicheng Yang, candidato a doctorado en informática en el Observatorio de Redes Sociales de la Universidad de Indiana, quien creó la herramienta con Menczer. La herramienta también utiliza el aprendizaje automático para clasificar los bots, pero cuando Yang está entrenando a sus modelos, no necesariamente busca acoso o violaciones de los términos del servicio. Solo está buscando bots. Según Yang, cuando etiqueta sus datos de entrenamiento, se hace una pregunta: «¿Debo creer ¿El tweet proviene de una persona o de un algoritmo?

Cómo entrenar un algoritmo

No solo no hay consenso sobre cómo definir un bot, sino que no existe un único criterio claro o una señal que cualquier investigador pueda señalar que prediga con precisión si una cuenta es un bot. Los cazadores de bots creen que exponer un algoritmo a miles o millones de cuentas de bots ayuda a que una computadora detecte un comportamiento similar al de un bot. Pero la eficiencia objetiva de cualquier sistema de detección de bots se ve enturbiada por el hecho de que los humanos todavía tienen que hacer juicios sobre qué datos usar para construirlo.

Tome Botómetro, por ejemplo. Yang dice que Botometer está entrenado en tweets de alrededor de 20,000 cuentas. Si bien algunas de estas cuentas se autoidentifican como bots, Yang y un equipo de investigadores clasifican manualmente la mayoría antes de que el algoritmo las analice. (Menczer dice que algunas de las cuentas utilizadas para entrenar a Botometer provienen de conjuntos de datos de otras investigaciones revisadas por pares. “Tratamos de usar todos los datos que tenemos a mano, siempre que provengan de una fuente confiable”, dice. dice.)





Source link-46