{"id":248985,"date":"2022-10-20T22:37:12","date_gmt":"2022-10-20T22:37:12","guid":{"rendered":"https:\/\/magazineoffice.com\/el-traductor-de-ia-de-meta-puede-interpretar-idiomas-no-escritos\/"},"modified":"2022-10-20T22:37:19","modified_gmt":"2022-10-20T22:37:19","slug":"el-traductor-de-ia-de-meta-puede-interpretar-idiomas-no-escritos","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/el-traductor-de-ia-de-meta-puede-interpretar-idiomas-no-escritos\/","title":{"rendered":"El traductor de IA de Meta puede interpretar idiomas no escritos"},"content":{"rendered":"


\n<\/p>\n

\n

Casi la mitad de los aproximadamente 7.000 idiomas conocidos del mundo, cuatro de cada diez de ellos existen sin un componente escrito que los acompa\u00f1e. Estos lenguajes no escritos plantean un problema \u00fanico para los sistemas modernos de traducci\u00f3n de aprendizaje autom\u00e1tico, ya que normalmente necesitan convertir el habla verbal en palabras escritas antes de traducir al nuevo idioma y revertir el texto al habla, pero Meta supuestamente lo ha abordado con su \u00faltima versi\u00f3n abierta. -Avance de la IA en el idioma de origen.<\/p>\n

Como parte del programa Universal Speech Translator (UST) de Meta, que est\u00e1 trabajando para desarrollar una traducci\u00f3n de voz a voz en tiempo real para que pueda interactuar m\u00e1s f\u00e1cilmente (l\u00e9ase: ). Como parte de este proyecto, los investigadores de Meta analizaron el hokkien, un idioma no escrito que se habla en toda la di\u00e1spora de Asia y uno de los idiomas oficiales de Taiw\u00e1n.<\/p>\n

<\/p>\n

Los sistemas de traducci\u00f3n de aprendizaje autom\u00e1tico generalmente requieren extensos ejemplos etiquetables del idioma, tanto escrito como hablado, para entrenar, precisamente lo que los idiomas no escritos como Hokkien no tienen. Para evitar eso, \u00abutilizamos la traducci\u00f3n de voz a unidad (S2UT) para convertir el habla de entrada en una secuencia de unidades ac\u00fasticas directamente en el camino previamente iniciado por Meta\u00bb, explic\u00f3 el CEO Mark Zuckerberg en una publicaci\u00f3n de blog el mi\u00e9rcoles. \u201cLuego, generamos formas de onda a partir de las unidades. Adem\u00e1s, se adopt\u00f3 UnitY para un mecanismo de decodificaci\u00f3n de dos pasos en el que el decodificador de primer paso genera texto en un idioma relacionado (mandar\u00edn) y el decodificador de segundo paso crea unidades\u201d.<\/p>\n

\u201cAprovechamos el mandar\u00edn como idioma intermedio para crear pseudoetiquetas, donde primero traducimos el habla en ingl\u00e9s (o Hokkien) a texto en mandar\u00edn, y luego traducimos a Hokkien (o ingl\u00e9s) y lo agregamos a los datos de capacitaci\u00f3n\u201d, continu\u00f3. Actualmente, el sistema permite que alguien que hable Hokkien converse con alguien que hable ingl\u00e9s, aunque de manera forzada. El modelo solo puede traducir una oraci\u00f3n completa a la vez, pero Zuckerberg conf\u00eda en que la t\u00e9cnica eventualmente se pueda aplicar a m\u00e1s idiomas y mejorar\u00e1 hasta el punto de ofrecer traducci\u00f3n en tiempo real.<\/p>\n

Adem\u00e1s de los modelos y los datos de capacitaci\u00f3n que Meta ya est\u00e1 obteniendo de c\u00f3digo abierto a partir de este proyecto, la compa\u00f1\u00eda tambi\u00e9n est\u00e1 lanzando un sistema de evaluaci\u00f3n comparativa de traducci\u00f3n de voz a voz, el primero en su tipo, basado en un corpus de voz de Hokkien llamado Taiwanese Across Taiwan. , as\u00ed como \u201cla matriz de voz, un gran corpus de traducciones de voz a voz extra\u00eddas con la innovadora t\u00e9cnica de miner\u00eda de datos de Meta llamada LASER\u201d, anunci\u00f3 Zuckerberg. Este sistema permitir\u00e1 a los investigadores crear sus propios sistemas de traducci\u00f3n de voz a voz (S2ST).<\/p>\n<\/div>\n

Todos los productos recomendados por Engadget son seleccionados por nuestro equipo editorial, independiente de nuestra empresa matriz. Algunas de nuestras historias incluyen enlaces de afiliados. Si compra algo a trav\u00e9s de uno de estos enlaces, podemos ganar una comisi\u00f3n de afiliado. Todos los precios son correctos en el momento de la publicaci\u00f3n.<\/em><\/p>\n


\n
Source link-47<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"

Casi la mitad de los aproximadamente 7.000 idiomas conocidos del mundo, cuatro de cada diez de ellos existen sin un componente escrito que los acompa\u00f1e. Estos lenguajes no escritos plantean…<\/p>\n","protected":false},"author":1,"featured_media":248986,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21981],"tags":[29792,12588,1666,9842,495,52205],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/248985"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=248985"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/248985\/revisions"}],"predecessor-version":[{"id":248987,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/248985\/revisions\/248987"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/248986"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=248985"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=248985"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=248985"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}