{"id":781195,"date":"2023-08-22T13:36:23","date_gmt":"2023-08-22T13:36:23","guid":{"rendered":"https:\/\/magazineoffice.com\/meta-lanza-un-modelo-de-traduccion-de-voz-multilingue\/"},"modified":"2023-08-22T13:36:28","modified_gmt":"2023-08-22T13:36:28","slug":"meta-lanza-un-modelo-de-traduccion-de-voz-multilingue","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/meta-lanza-un-modelo-de-traduccion-de-voz-multilingue\/","title":{"rendered":"Meta lanza un modelo de traducci\u00f3n de voz multiling\u00fce"},"content":{"rendered":"


\n<\/p>\n

\n
\n

Meta lanz\u00f3 un nuevo modelo de voz a texto que puede traducir casi 100 idiomas llamado SeamlessM4T, mientras la compa\u00f1\u00eda contin\u00faa intentando hacer un traductor universal<\/a>. <\/p>\n<\/div>\n

\n

Sin costuraM4T<\/a>, que significa traducci\u00f3n autom\u00e1tica masiva multiling\u00fce y multimodal, que seg\u00fan la compa\u00f1\u00eda puede traducir voz a texto y texto a texto en casi 100 idiomas. Para acciones de voz a voz y texto a voz, reconoce 100 idiomas de entrada y los convierte en 35 idiomas de salida.<\/p>\n<\/div>\n

\n

Se publica bajo un Creative Commons CC BY-NC 4.0<\/a> licencia, lo que permite a los investigadores repetirla. <\/p>\n<\/div>\n

\n

Junto con SeamlessM4T, Meta tambi\u00e9n public\u00f3 los metadatos de su conjunto de datos de traducci\u00f3n abierta SeamlessAlign. <\/p>\n<\/div>\n

\n

\u201cConstruir un traductor de idiomas universal, como el ficticio Babel Fish en La Gu\u00eda del autoestopista gal\u00e1ctico<\/em>es un desaf\u00edo porque los sistemas de voz a voz y de voz a texto existentes solo cubren una peque\u00f1a fracci\u00f3n de los idiomas del mundo\u201d, dijo Meta. <\/p>\n<\/div>\n

\n

El Gu\u00eda del autoestopista <\/em>Babel Fish, tal como lo concibi\u00f3 el autor Douglas Adams, es un pez que puedes colocar en tu o\u00eddo para comprender instant\u00e1neamente cualquier idioma. si eres un M\u00e9dico que <\/em>Fan, podr\u00edas comparar la herramienta de Meta con una matriz de traducci\u00f3n en la TARDIS que convierte incluso palabras extra\u00f1as al ingl\u00e9s. <\/p>\n<\/div>\n

\n

Meta dijo que SeamlessM4T representa \u00abun avance significativo\u00bb porque este nuevo modelo realiza toda la tarea de traducci\u00f3n de una sola vez, a diferencia de otros grandes modelos de traducci\u00f3n que dividen la traducci\u00f3n en diferentes sistemas. <\/p>\n<\/div>\n

\n

Una de las caracter\u00edsticas interesantes de SeamlessM4T, si puede funcionar correctamente, es su supuesta capacidad de reconocer cuando un hablante cambia de c\u00f3digo o cuando alguien se mueve entre dos o m\u00e1s idiomas en una oraci\u00f3n. Por ejemplo, Meta demostr\u00f3 en un v\u00eddeo que el modelo diferencia inmediatamente entre hindi, telugu e ingl\u00e9s. No he probado el modelo, pero con frecuencia cambio de c\u00f3digo entre mis dos idiomas nativos (filipino e ingl\u00e9s), como lo hace la mayor\u00eda de las personas que hablan diferentes idiomas, y por experiencia personal, no es algo que la mayor\u00eda de los software de reconocimiento de voz con IA detecten. r\u00e1pidamente. <\/p>\n<\/div>\n

\n

SeamlessM4T se basa en modelos de traducci\u00f3n anteriores de Meta. El a\u00f1o pasado Meta lanz\u00f3 su libro Ning\u00fan idioma se queda atr\u00e1s<\/a> modelo de traducci\u00f3n autom\u00e1tica de texto a texto, que admit\u00eda 200 idiomas. Desarroll\u00f3 SpeechMatrix, un conjunto de datos para la traducci\u00f3n multiling\u00fce de voz a voz y Massively Multilingual Speech para el reconocimiento de voz. Meta hizo una demostraci\u00f3n de su Universal Speech Translator el a\u00f1o pasado, convirtiendo el hokkien hablado, un idioma ampliamente utilizado en China que no tiene un sistema de escritura oficial, al ingl\u00e9s. <\/p>\n<\/div>\n

\n

La traducci\u00f3n de idiomas es importante para empresas como Meta, que emplean a miles de personas para moderar una avalancha de publicaciones de Facebook e Instagram en diferentes idiomas. Muy a menudo, los idiomas no principales tienen equipos m\u00e1s peque\u00f1os y terminan dependiendo de una moderaci\u00f3n automatizada que no funciona bien con esos idiomas. La IA, si se le da acceso a un conjunto de datos de estos lenguajes m\u00e1s peque\u00f1os, puede ser una herramienta para que empresas como Meta mejoren la moderaci\u00f3n. <\/p>\n<\/div>\n

\n

Para construir SeamlessM4T, Meta dijo que redise\u00f1\u00f3 su kit de herramientas de modelado de secuencias Fairseq para crear modelos m\u00e1s livianos y manejar m\u00e1s informaci\u00f3n. <\/p>\n<\/div>\n

\n

Mientras desarrollaba SeamlessM4T, Meta dijo que construy\u00f3 un sistema que identifica palabras t\u00f3xicas o sensibles. Meta define las palabras t\u00f3xicas como casos en los que la \u00abtraducci\u00f3n puede incitar al odio, la violencia, la blasfemia o el abuso\u00bb. El objetivo es poder detectar cu\u00e1ndo la traducci\u00f3n resultante introduce toxicidad que no estaba presente en el material original.<\/p>\n<\/div>\n

\n

\u201cFiltramos la toxicidad desequilibrada en los datos de entrenamiento. Si la entrada o la salida conten\u00edan diferentes cantidades de toxicidad, eliminamos esa secuencia de entrenamiento\u201d, dijo Meta. <\/p>\n<\/div>\n

\n

Los investigadores tambi\u00e9n intentaron limpiar conjuntos de datos que traducen mal algunas malas palabras para detectar con mayor precisi\u00f3n cu\u00e1ndo se est\u00e1n utilizando. <\/p>\n<\/div>\n

\n

Meta afirma que tambi\u00e9n reconoce el sesgo de g\u00e9nero en los idiomas y dijo que el modelo puede cuantificar el sesgo de g\u00e9nero en las traducciones. SeamlessM4T puede comprobar si la oraci\u00f3n utiliza una forma de palabra con g\u00e9nero, por ejemplo doctora<\/em> en espa\u00f1ol y, si es necesario, asignar un pronombre femenino en un idioma de destino sin una gram\u00e1tica de g\u00e9nero equivalente. Al abordarlo de manera similar a la toxicidad, Meta dijo que SeamlessM4T cuenta cu\u00e1ntas veces una traducci\u00f3n agrega palabras de g\u00e9nero en t\u00e9rminos que no ten\u00edan g\u00e9nero espec\u00edfico en el idioma original, es decir, asume autom\u00e1ticamente que el m\u00e9dico es hombre cuando no tiene distinci\u00f3n de g\u00e9nero en el idioma ingl\u00e9s. <\/p>\n<\/div>\n

\n

Meta ha estado lanzando muchos de sus modelos de IA a desarrolladores e investigadores de forma m\u00e1s o menos de c\u00f3digo abierto. Recientemente publicar AudioCraft<\/a>, c\u00f3digo que permite la generaci\u00f3n de texto a sonido. Meta tambi\u00e9n proporcion\u00f3 acceso a su modelo de lenguaje grande Llama 2<\/a>. <\/p>\n<\/div>\n<\/div>\n


\n
Source link-37 <\/a><\/p>\n","protected":false},"excerpt":{"rendered":"

Meta lanz\u00f3 un nuevo modelo de voz a texto que puede traducir casi 100 idiomas llamado SeamlessM4T, mientras la compa\u00f1\u00eda contin\u00faa intentando hacer un traductor universal. Sin costuraM4T, que significa…<\/p>\n","protected":false},"author":1,"featured_media":594979,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[1639,9842,1488,17524,9260,3869],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/781195"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=781195"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/781195\/revisions"}],"predecessor-version":[{"id":781196,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/781195\/revisions\/781196"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/594979"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=781195"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=781195"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=781195"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}