Meta lanza un modelo de traducción de voz multilingüe


Meta lanzó un nuevo modelo de voz a texto que puede traducir casi 100 idiomas llamado SeamlessM4T, mientras la compañía continúa intentando hacer un traductor universal.

Sin costuraM4T, que significa traducción automática masiva multilingüe y multimodal, que según la compañía puede traducir voz a texto y texto a texto en casi 100 idiomas. Para acciones de voz a voz y texto a voz, reconoce 100 idiomas de entrada y los convierte en 35 idiomas de salida.

Se publica bajo un Creative Commons CC BY-NC 4.0 licencia, lo que permite a los investigadores repetirla.

Junto con SeamlessM4T, Meta también publicó los metadatos de su conjunto de datos de traducción abierta SeamlessAlign.

“Construir un traductor de idiomas universal, como el ficticio Babel Fish en La Guía del autoestopista galácticoes un desafío porque los sistemas de voz a voz y de voz a texto existentes solo cubren una pequeña fracción de los idiomas del mundo”, dijo Meta.

El Guía del autoestopista Babel Fish, tal como lo concibió el autor Douglas Adams, es un pez que puedes colocar en tu oído para comprender instantáneamente cualquier idioma. si eres un Médico que Fan, podrías comparar la herramienta de Meta con una matriz de traducción en la TARDIS que convierte incluso palabras extrañas al inglés.

Meta dijo que SeamlessM4T representa «un avance significativo» porque este nuevo modelo realiza toda la tarea de traducción de una sola vez, a diferencia de otros grandes modelos de traducción que dividen la traducción en diferentes sistemas.

Una de las características interesantes de SeamlessM4T, si puede funcionar correctamente, es su supuesta capacidad de reconocer cuando un hablante cambia de código o cuando alguien se mueve entre dos o más idiomas en una oración. Por ejemplo, Meta demostró en un vídeo que el modelo diferencia inmediatamente entre hindi, telugu e inglés. No he probado el modelo, pero con frecuencia cambio de código entre mis dos idiomas nativos (filipino e inglés), como lo hace la mayoría de las personas que hablan diferentes idiomas, y por experiencia personal, no es algo que la mayoría de los software de reconocimiento de voz con IA detecten. rápidamente.

SeamlessM4T se basa en modelos de traducción anteriores de Meta. El año pasado Meta lanzó su libro Ningún idioma se queda atrás modelo de traducción automática de texto a texto, que admitía 200 idiomas. Desarrolló SpeechMatrix, un conjunto de datos para la traducción multilingüe de voz a voz y Massively Multilingual Speech para el reconocimiento de voz. Meta hizo una demostración de su Universal Speech Translator el año pasado, convirtiendo el hokkien hablado, un idioma ampliamente utilizado en China que no tiene un sistema de escritura oficial, al inglés.

La traducción de idiomas es importante para empresas como Meta, que emplean a miles de personas para moderar una avalancha de publicaciones de Facebook e Instagram en diferentes idiomas. Muy a menudo, los idiomas no principales tienen equipos más pequeños y terminan dependiendo de una moderación automatizada que no funciona bien con esos idiomas. La IA, si se le da acceso a un conjunto de datos de estos lenguajes más pequeños, puede ser una herramienta para que empresas como Meta mejoren la moderación.

Para construir SeamlessM4T, Meta dijo que rediseñó su kit de herramientas de modelado de secuencias Fairseq para crear modelos más livianos y manejar más información.

Mientras desarrollaba SeamlessM4T, Meta dijo que construyó un sistema que identifica palabras tóxicas o sensibles. Meta define las palabras tóxicas como casos en los que la «traducción puede incitar al odio, la violencia, la blasfemia o el abuso». El objetivo es poder detectar cuándo la traducción resultante introduce toxicidad que no estaba presente en el material original.

“Filtramos la toxicidad desequilibrada en los datos de entrenamiento. Si la entrada o la salida contenían diferentes cantidades de toxicidad, eliminamos esa secuencia de entrenamiento”, dijo Meta.

Los investigadores también intentaron limpiar conjuntos de datos que traducen mal algunas malas palabras para detectar con mayor precisión cuándo se están utilizando.

Meta afirma que también reconoce el sesgo de género en los idiomas y dijo que el modelo puede cuantificar el sesgo de género en las traducciones. SeamlessM4T puede comprobar si la oración utiliza una forma de palabra con género, por ejemplo doctora en español y, si es necesario, asignar un pronombre femenino en un idioma de destino sin una gramática de género equivalente. Al abordarlo de manera similar a la toxicidad, Meta dijo que SeamlessM4T cuenta cuántas veces una traducción agrega palabras de género en términos que no tenían género específico en el idioma original, es decir, asume automáticamente que el médico es hombre cuando no tiene distinción de género en el idioma inglés.

Meta ha estado lanzando muchos de sus modelos de IA a desarrolladores e investigadores de forma más o menos de código abierto. Recientemente publicar AudioCraft, código que permite la generación de texto a sonido. Meta también proporcionó acceso a su modelo de lenguaje grande Llama 2.



Source link-37