El grave defecto de la moderación de contenido de IA ‘multilingüe’


Tres partes de bosnio texto. Trece partes en kurdo. Cincuenta y cinco partes en swahili. Once mil partes en inglés.

Esto es parte de la receta de datos para el nuevo modelo de lenguaje grande de Facebook, que según la compañía es capaz de detectar y controlar contenido dañino en más de 100 idiomas. Bumble usa una tecnología similar para detectar mensajes groseros y no deseados en al menos 15 idiomas. Google lo usa para todo, desde la traducción hasta el filtrado de las secciones de comentarios de los periódicos. Todos tienen recetas comparables y el mismo ingrediente dominante: datos en inglés.

Durante años, las empresas de redes sociales han centrado sus esfuerzos de detección y eliminación automática de contenido más en el contenido en inglés que en los otros 7000 idiomas del mundo. Facebook dejó sin marcar casi el 70 por ciento de la información errónea de Covid en italiano y español, en comparación con solo el 29 por ciento de la información errónea similar en inglés. Los documentos filtrados revelan que las publicaciones en idioma árabe se marcan regularmente erróneamente como discurso de odio. La moderación deficiente del contenido en el idioma local ha contribuido a los abusos contra los derechos humanos, incluido el genocidio en Myanmar, la violencia étnica en Etiopía y la desinformación electoral en Brasil. A gran escala, las decisiones de alojar, degradar o eliminar contenido afectan directamente los derechos fundamentales de las personas, en particular los de las personas marginadas que tienen pocas vías para organizarse o expresarse libremente.

El problema es en parte uno de voluntad política, pero también es un desafío técnico. Construir sistemas que puedan detectar spam, incitación al odio y otros contenidos no deseados en todos los idiomas del mundo ya es difícil. Lo que lo hace más difícil es el hecho de que muchos idiomas son de «bajos recursos», lo que significa que tienen pocos datos de texto digitalizados disponibles para entrenar sistemas automatizados. Algunos de estos idiomas de bajos recursos tienen hablantes y usuarios de Internet limitados, pero otros, como el hindi y el indonesio, son hablados por cientos de millones de personas, lo que multiplica los daños creados por sistemas errantes. Incluso si las empresas estuvieran dispuestas a invertir en la creación de algoritmos individuales para cada tipo de contenido dañino en todos los idiomas, es posible que no tengan suficientes datos para que esos sistemas funcionen de manera efectiva.

Una nueva tecnología llamada «modelos de idiomas grandes multilingües» ha cambiado fundamentalmente la forma en que las empresas de redes sociales abordan la moderación de contenido. Los modelos de idiomas multilingües, como describimos en un nuevo artículo, son similares a GPT-4 y otros modelos de idiomas grandes (LLM), excepto que aprenden reglas de idioma más generales al entrenarse con textos en docenas o cientos de idiomas diferentes. Están diseñados específicamente para hacer conexiones entre idiomas, lo que les permite extrapolar de aquellos idiomas para los que tienen muchos datos de entrenamiento, como el inglés, para manejar mejor aquellos para los que tienen menos datos de entrenamiento, como el bosnio.

Estos modelos han demostrado ser capaces de realizar tareas semánticas y sintácticas simples en una amplia gama de idiomas, como analizar la gramática y analizar el sentimiento, pero no está claro qué tan capaces son en la tarea mucho más específica del idioma y el contexto de moderación de contenido, particularmente en idiomas en los que apenas están capacitados. Además de las publicaciones de blog ocasionales de autocomplacencia, las empresas de redes sociales han revelado poco sobre qué tan bien funcionan sus sistemas en el mundo real.

¿Por qué podría ser multilingüe ¿Serán los modelos menos capaces de identificar el contenido dañino de lo que sugieren las empresas de redes sociales?

Una de las razones es la calidad de los datos con los que entrenan, particularmente en idiomas de bajos recursos. En los grandes conjuntos de datos de texto que se utilizan a menudo para entrenar modelos multilingües, los idiomas menos representados son también los que con mayor frecuencia contienen texto que es ofensivo, pornográfico, mal traducido automáticamente o simplemente un galimatías. Los desarrolladores a veces intentan compensar los datos deficientes llenando el vacío con texto traducido por máquina, pero nuevamente, esto significa que el modelo aún tendrá dificultades para entender el lenguaje de la forma en que la gente realmente lo habla. Por ejemplo, si un modelo de idioma solo ha sido entrenado en texto traducido automáticamente del inglés al cebuano, un idioma hablado por 20 millones de personas en Filipinas, es posible que el modelo no haya visto el término «kuan», jerga utilizada por hablantes nativos, pero uno que no tiene ningún término comparable en otros idiomas.



Source link-46