{"id":642321,"date":"2023-05-23T13:51:56","date_gmt":"2023-05-23T13:51:56","guid":{"rendered":"https:\/\/magazineoffice.com\/el-grave-defecto-de-la-moderacion-de-contenido-de-ia-multilingue\/"},"modified":"2023-05-23T13:51:59","modified_gmt":"2023-05-23T13:51:59","slug":"el-grave-defecto-de-la-moderacion-de-contenido-de-ia-multilingue","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/el-grave-defecto-de-la-moderacion-de-contenido-de-ia-multilingue\/","title":{"rendered":"El grave defecto de la moderaci\u00f3n de contenido de IA ‘multiling\u00fce’"},"content":{"rendered":"


\n<\/p>\n

\n

Tres partes de bosnio<\/span> texto. Trece partes en kurdo. Cincuenta y cinco partes en swahili. Once mil partes en ingl\u00e9s.<\/p>\n

Esto es parte de la receta de datos para el nuevo modelo de lenguaje grande de Facebook, que seg\u00fan la compa\u00f1\u00eda es capaz de detectar y controlar contenido da\u00f1ino en m\u00e1s de 100 idiomas. Bumble usa una tecnolog\u00eda similar para detectar mensajes groseros y no deseados en al menos 15 idiomas. Google lo usa para todo, desde la traducci\u00f3n hasta el filtrado de las secciones de comentarios de los peri\u00f3dicos. Todos tienen recetas comparables y el mismo ingrediente dominante: datos en ingl\u00e9s.<\/p>\n

Durante a\u00f1os, las empresas de redes sociales han centrado sus esfuerzos de detecci\u00f3n y eliminaci\u00f3n autom\u00e1tica de contenido m\u00e1s en el contenido en ingl\u00e9s que en los otros 7000 idiomas del mundo. Facebook dej\u00f3 sin marcar casi el 70 por ciento de la informaci\u00f3n err\u00f3nea de Covid en italiano y espa\u00f1ol, en comparaci\u00f3n con solo el 29 por ciento de la informaci\u00f3n err\u00f3nea similar en ingl\u00e9s. Los documentos filtrados revelan que las publicaciones en idioma \u00e1rabe se marcan regularmente err\u00f3neamente como discurso de odio. La moderaci\u00f3n deficiente del contenido en el idioma local ha contribuido a los abusos contra los derechos humanos, incluido el genocidio en Myanmar, la violencia \u00e9tnica en Etiop\u00eda y la desinformaci\u00f3n electoral en Brasil. A gran escala, las decisiones de alojar, degradar o eliminar contenido afectan directamente los derechos fundamentales de las personas, en particular los de las personas marginadas que tienen pocas v\u00edas para organizarse o expresarse libremente.<\/p>\n

El problema es en parte uno de voluntad pol\u00edtica, pero tambi\u00e9n es un desaf\u00edo t\u00e9cnico. Construir sistemas que puedan detectar spam, incitaci\u00f3n al odio y otros contenidos no deseados en todos los idiomas del mundo ya es dif\u00edcil. Lo que lo hace m\u00e1s dif\u00edcil es el hecho de que muchos idiomas son de \u00abbajos recursos\u00bb, lo que significa que tienen pocos datos de texto digitalizados disponibles para entrenar sistemas automatizados. Algunos de estos idiomas de bajos recursos tienen hablantes y usuarios de Internet limitados, pero otros, como el hindi y el indonesio, son hablados por cientos de millones de personas, lo que multiplica los da\u00f1os creados por sistemas errantes. Incluso si las empresas estuvieran dispuestas a invertir en la creaci\u00f3n de algoritmos individuales para cada tipo de contenido da\u00f1ino en todos los idiomas, es posible que no tengan suficientes datos para que esos sistemas funcionen de manera efectiva.<\/p>\n

Una nueva tecnolog\u00eda llamada \u00abmodelos de idiomas grandes multiling\u00fces\u00bb ha cambiado fundamentalmente la forma en que las empresas de redes sociales abordan la moderaci\u00f3n de contenido. Los modelos de idiomas multiling\u00fces, como describimos en un nuevo art\u00edculo, son similares a GPT-4 y otros modelos de idiomas grandes (LLM), excepto que aprenden reglas de idioma m\u00e1s generales al entrenarse con textos en docenas o cientos de idiomas diferentes. Est\u00e1n dise\u00f1ados espec\u00edficamente para hacer conexiones entre idiomas, lo que les permite extrapolar de aquellos idiomas para los que tienen muchos datos de entrenamiento, como el ingl\u00e9s, para manejar mejor aquellos para los que tienen menos datos de entrenamiento, como el bosnio.<\/p>\n

Estos modelos han demostrado ser capaces de realizar tareas sem\u00e1nticas y sint\u00e1cticas simples en una amplia gama de idiomas, como analizar la gram\u00e1tica y analizar el sentimiento, pero no est\u00e1 claro qu\u00e9 tan capaces son en la tarea mucho m\u00e1s espec\u00edfica del idioma y el contexto de moderaci\u00f3n de contenido, particularmente en idiomas en los que apenas est\u00e1n capacitados. Adem\u00e1s de las publicaciones de blog ocasionales de autocomplacencia, las empresas de redes sociales han revelado poco sobre qu\u00e9 tan bien funcionan sus sistemas en el mundo real.<\/p>\n

\u00bfPor qu\u00e9 podr\u00eda ser multiling\u00fce<\/span> \u00bfSer\u00e1n los modelos menos capaces de identificar el contenido da\u00f1ino de lo que sugieren las empresas de redes sociales?<\/p>\n

Una de las razones es la calidad de los datos con los que entrenan, particularmente en idiomas de bajos recursos. En los grandes conjuntos de datos de texto que se utilizan a menudo para entrenar modelos multiling\u00fces, los idiomas menos representados son tambi\u00e9n los que con mayor frecuencia contienen texto que es ofensivo, pornogr\u00e1fico, mal traducido autom\u00e1ticamente o simplemente un galimat\u00edas. Los desarrolladores a veces intentan compensar los datos deficientes llenando el vac\u00edo con texto traducido por m\u00e1quina, pero nuevamente, esto significa que el modelo a\u00fan tendr\u00e1 dificultades para entender el lenguaje de la forma en que la gente realmente lo habla. Por ejemplo, si un modelo de idioma solo ha sido entrenado en texto traducido autom\u00e1ticamente del ingl\u00e9s al cebuano, un idioma hablado por 20 millones de personas en Filipinas, es posible que el modelo no haya visto el t\u00e9rmino \u00abkuan\u00bb, jerga utilizada por hablantes nativos, pero uno que no tiene ning\u00fan t\u00e9rmino comparable en otros idiomas. <\/p>\n<\/div>\n


\n
Source link-46<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"

Tres partes de bosnio texto. Trece partes en kurdo. Cincuenta y cinco partes en swahili. Once mil partes en ingl\u00e9s. Esto es parte de la receta de datos para el…<\/p>\n","protected":false},"author":1,"featured_media":642322,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21981],"tags":[2695,20290,2176,5050,17524],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/642321"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=642321"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/642321\/revisions"}],"predecessor-version":[{"id":642323,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/642321\/revisions\/642323"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/642322"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=642321"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=642321"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=642321"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}