¿Qué reveló realmente el algoritmo de ‘código abierto’ de Twitter? No mucho.


Cuando Elon Musk propuso por primera vez hacerse cargo de Twitter, uno de los primeros cambios que afirmó que haría sería el algoritmo de Twitter. La semana pasada, Twitter finalmente cumplió con esa promesa, el código subyacente para las recomendaciones «Para ti» del sitio en GitHub.

Rápidamente, los detectives de Twitter comenzaron a revisar el código para ver qué podían desenterrar. No pasó mucho tiempo para un hallazgo sorprendente: que los tweets de Musk tienen su (junto con los demócratas, republicanos y «usuarios de poder»). Los ingenieros de Twitter explicaron apresuradamente que esto era para «propósitos de seguimiento de estadísticas», lo que desde entonces ha sido confirmado por otros. Y aunque Twitter esa sección de código de GitHub a las pocas horas de su publicación, todavía alimenta la especulación de que los ingenieros de Twitter pagan especial por el compromiso de su jefe y han tomado medidas para impulsar sus tweets.

Pero ha habido algunas otras revelaciones importantes sobre el contenido del código o cómo funciona el algoritmo de Twitter desde entonces. Y cualquiera que espere que este código público produzca nuevos conocimientos sobre el funcionamiento interno de Twitter probablemente se sentirá decepcionado. Esto se debe a que el código que publicó Twitter omitió detalles importantes sobre cómo funciona realmente “el algoritmo”, según los ingenieros que lo estudiaron.

El código que compartió Twitter era una versión «altamente redactada» del algoritmo de Twitter, según el profesor asociado del Centro de Política y Redes Sociales de la Universidad de Nueva York y ex empleado de Twitter. Por un lado, no incluía todos los sistemas que juegan un papel en las recomendaciones de Twitter.

Twitter dijo que estaba reteniendo el código relacionado con los anuncios, así como los sistemas de confianza y seguridad en un esfuerzo por evitar que los malos actores lo jugaran. La empresa también optó por retener los modelos subyacentes utilizados para entrenar su algoritmo, explicando en un entrada en el blog la semana pasada que esto era para «garantizar que la seguridad y la privacidad del usuario estuvieran protegidas». Esa decisión es aún más importante, según Messing. “El modelo que impulsa la parte más importante del algoritmo no ha sido de código abierto”, me dice. “Entonces, la parte más importante del algoritmo sigue siendo inescrutable”.

La motivación original de Musk para hacer que el algoritmo fuera de código abierto parecía provenir de su creencia de que Twitter había usado el algoritmo para suprimir la libertad de expresión. “Una de las cosas que creo que debería hacer Twitter es abrir el código fuente del algoritmo y realizar cualquier cambio en los tweets de las personas, si se enfatizan o restan énfasis, esa acción debería hacerse evidente”, dijo Musk en abril pasado en una aparición breve. después de que confirmara su oferta pública de adquisición. “Para que cualquiera pueda ver que se han tomado medidas, por lo que no hay ningún tipo de manipulación detrás de escena, ya sea algorítmica o manualmente”.

Pero ninguno de los códigos publicados por Twitter nos dice mucho sobre el posible sesgo o el tipo de «manipulación detrás de escena» que Musk dijo que quería revelar. “Tiene el sabor de la transparencia”, dice Messing. “Pero en realidad no da una idea de lo que está haciendo el algoritmo. Realmente no da una idea de por qué los tweets de alguien pueden tener una clasificación inferior y por qué otros pueden tener una clasificación superior”.

Messing también señala que los cambios recientes en la API de Twitter esencialmente han impedido que la gran mayoría de los investigadores accedan a una cantidad significativa de datos de Twitter. Sin un acceso adecuado a la API, los investigadores no pueden realizar sus propias auditorías, lo que haría ser capaz de proporcionar nuevos detalles sobre cómo funciona el algoritmo. “Entonces, al mismo tiempo que Twitter está lanzando este código, ha hecho que sea increíblemente difícil para la investigación auditoría este código”, escribió por su cuenta.

Alex Hanna, director de investigación del Distributed AI Research Institute (DAIR) también planteó la importancia de las auditorías cuando hablamos el año pasado, poco después de que Musk discutiera por primera vez los planes para el algoritmo de Twitter de «código abierto». Al igual que Messing, se mostró escéptica de que simplemente publicar el código en GitHub aumentaría significativamente la transparencia en el funcionamiento de Twitter.

«Si realmente está interesado en la supervisión pública de algo como un algoritmo de Twitter, entonces necesitaría varios métodos para que se produzca la supervisión», dijo Hanna.

Sin embargo, hay un aspecto del algoritmo de Twitter sobre el que el código de GitHub arroja nueva luz. Mezclar puntos en un archivo por el científico de datos Jeff Allen, que revela una especie de «fórmula» sobre cómo el algoritmo da prioridad a los diferentes tipos de participación. “Si lo tomamos al pie de la letra, un favorito (me gusta en Twitter) vale la mitad de un retweet”, escribe Messing. “Una respuesta vale 27 retweets, y una respuesta con una respuesta del autor de un tweet vale la friolera de 75 retweets”.

Si bien eso es algo revelador, es, una vez más, una imagen de lo que realmente está sucediendo. “No significa mucho sin los datos reales”, dice Messing. “Y Musk acaba de hacer que los datos sean increíblemente caros para que los académicos los obtengan. Si realmente quieren estudiar esto ahora, básicamente tienes que obtener subvenciones gigantes y masivas, medio millón de dólares al año, para obtener una cantidad significativa de datos para estudiar lo que está sucediendo”.





Source link-47