La última suite de inteligencia artificial de Meta hace que la traducción de voz sea más fluida y expresiva


En agosto, Meta presentó su modelo de traducción de IA multimodal, SeamlessM4T, que admite casi 100 idiomas para texto y 36 para voz. Con una arquitectura «v2» actualizada, el gigante tecnológico ahora está ampliando esta herramienta para hacer que las traducciones conversacionales sean más espontáneas y expresivas; esta última es la clave que falta para una conversación auténtica entre idiomas.

La primera de las dos características nuevas es «SeamlessExpression» que, como puede ver por el nombre, traslada sus expresiones a su discurso traducido. Estos incluyen el tono, el volumen, el tono emocional (emoción, tristeza o susurros), la velocidad del habla y las pausas. Teniendo en cuenta que hasta ahora los discursos traducidos siempre habían parecido robóticos, este avance es potencialmente un punto de inflexión, tanto en nuestra vida diaria como en la producción de contenidos. Los idiomas admitidos incluyen inglés, español, alemán, francés, italiano y chino, aunque en la página de demostración faltan italiano y chino al momento de escribir este artículo.

La segunda característica es «SeamlessStreaming», que comienza a traducir un discurso mientras el orador sigue hablando, permitiendo así que otros escuchen la traducción más rápido. Todavía hay una breve latencia de poco menos de dos segundos, pero al menos no tendrás que esperar hasta que alguien termine una oración. Según Meta, el desafío aquí es que diferentes idiomas tienen diferentes estructuras de oraciones, por lo que tuvo que desarrollar un algoritmo dedicado a estudiar la entrada de audio parcial, para decidir si hay suficiente contexto para comenzar a generar una salida traducida o si seguir escuchando. .

El último desarrollo de Meta en esta suite de «Comunicación perfecta» parece impresionante, más que las herramientas de interpretación móvil ofrecidas por empresas como Google y Samsung. No se sabe cuándo el público podrá utilizar estas nuevas funciones, pero ya puedo imaginarme a Meta incorporándolas algún día a sus gafas inteligentes, haciéndolas aún más prácticas que nunca.



Source link-47