El nuevo traductor multimodal de Meta utiliza un único modelo para hablar 100 idiomas


Aunque no está del todo listo para marcar el comienzo del futuro de Doolittle que todos hemos estado esperando, los métodos modernos de traducción de IA están demostrando ser más que suficientes para transformar con precisión los aproximadamente 6.500 sistemas de comunicación hablados y escritos de la humanidad entre sí. El problema es que cada uno de estos modelos tiende a realizar solo una o dos tareas realmente bien (traducir y convertir texto a voz, voz a texto o entre cualquiera de los dos conjuntos), por lo que terminas teniendo que aplastar un montón de modelos encima. entre sí para crear el rendimiento generalizado que se ve en empresas como Google Translate o los innumerables servicios lingüísticos de Facebook.

Se trata de un proceso computacional intensivo, por lo que Meta desarrolló un modelo único que puede hacerlo todo. SeamlessM4T es «un modelo multilingüe y multitarea fundamental que traduce y transcribe sin problemas a través de voz y texto», se lee en el blog de Meta del martes. Puede traducir entre cualquiera de los casi 100 idiomas para funciones de voz a texto y de texto a texto, voz a voz y texto a voz admite esos mismos idiomas como entradas y salidas en cualquiera de los otros 36 idiomas. incluido el inglés.

En su publicación de blog, el equipo de investigación de Meta señala que SeamlessM4T «mejora significativamente[s] rendimiento para los idiomas de recursos bajos y medios que admitimos», al tiempo que mantenemos «un rendimiento sólido en idiomas de recursos altos, como inglés, español y alemán». Meta construyó SeamlessM4T a partir de su arquitectura de modelo UnitY multitarea existente basada en PyTorch, que ya Realiza de forma nativa las diversas traducciones modales, así como el reconocimiento automático de voz. Utiliza el sistema BERT 2.0 para la codificación de audio, descomponiendo las entradas en sus tokens componentes para su análisis, y una unidad de codificador de voz HiFi-GAN para generar respuestas habladas.

Meta también ha seleccionado un corpus paralelo masivo de voz a voz y de voz a texto de código abierto, denominado SeamlessAlign. La compañía extrajo «decenas de miles de millones de oraciones» y «cuatro millones de horas» de discurso de repositorios disponibles públicamente para «alinear automáticamente más de 443.000 horas de discurso con textos y crear alrededor de 29.000 horas de alineamientos de voz a voz», según el blog. Cuando se probó su robustez, SeamlessM4T superó a su predecesor (actualmente de última generación) frente a ruidos de fondo y variaciones de estilo de altavoces en un 37 por ciento y un 48 por ciento, respectivamente.

Como ocurre con la mayoría de sus esfuerzos anteriores de traducción automática, ya sea Llama 2, Massively Multilingual Speech (MMS), Universal Speech Translator (UST) o el ambicioso proyecto No Language Left Behind (NLLB), SeamlessM4T es de código abierto. «Creemos que SeamlessM4T es un avance importante en la búsqueda de la comunidad de IA hacia la creación de sistemas multitarea universales», escribió el equipo. «Siguiendo con nuestro enfoque de ciencia abierta, estamos entusiasmados de compartir nuestro modelo públicamente para permitir a los investigadores y desarrolladores desarrollar esta tecnología». Si está interesado en trabajar usted mismo con SeamlessM4T, diríjase a GitHub para descargar el modelo, los datos de entrenamiento y la documentación.



Source link-47