VALL-E AI de Microsoft puede imitar cualquier voz de una breve muestra de audio


Microsoft ha mostrado su última investigación en inteligencia artificial de texto a voz con un modelo llamado VALL-E que puede simular la voz de alguien a partir de una muestra de audio de solo tres segundos. Ars Technica ha informado. El discurso no solo puede coincidir con el timbre, sino también con el tono emocional del hablante, e incluso con la acústica de una habitación. Algún día podría usarse para aplicaciones de texto a voz personalizadas o de alto nivel, aunque al igual que los deepfakes, conlleva riesgos de uso indebido.

VALL-E es lo que Microsoft llama un «modelo de lenguaje de códec neuronal». Se deriva del codificador de red neuronal de compresión impulsado por IA de Meta, que genera audio a partir de la entrada de texto y muestras breves del hablante de destino.

En un artículo, los investigadores describen cómo entrenaron a VALL-E en 60 000 horas de habla en inglés de más de 7000 hablantes en la biblioteca de audio LibriLight de Meta. La voz que intenta imitar debe ser una coincidencia cercana a una voz en los datos de entrenamiento. Si ese es el caso, utiliza los datos de entrenamiento para inferir cómo sonaría el hablante de destino si pronunciara la entrada de texto deseada.

microsoft

El equipo muestra exactamente qué tan bien funciona esto en la página de VALL-E Github. Para cada frase que quieren que la IA «hable», tienen un aviso de tres segundos del hablante para imitar, una «verdad básica» del mismo hablante diciendo otra frase para comparar, una «línea de base» convencional de texto a voz. síntesis y la muestra VALL-E al final.

Los resultados son mixtos, algunos suenan como una máquina y otros son sorprendentemente realistas. El hecho de que conserve el tono emocional de los samples originales es lo que vende los que funcionan. También coincide fielmente con el entorno acústico, por lo que si el hablante grabó su voz en una sala con eco, la salida de VALL-E también suena como si viniera del mismo lugar.

Para mejorar el modelo, Microsoft planea ampliar sus datos de entrenamiento «para mejorar el rendimiento del modelo en las perspectivas de prosodia, estilo de habla y similitud del hablante». También está explorando formas de reducir las palabras que no están claras o que se pierden.

Microsoft eligió no hacer que el código fuera de código abierto, posiblemente debido a los riesgos inherentes a la IA que puede poner palabras en boca de alguien. Agregó que seguiría sus «Directores de IA de Microsoft» en cualquier desarrollo posterior. «Dado que VALL-E podría sintetizar el habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como falsificación de identificación de voz o suplantación», escribió la compañía en la sección «Impactos más amplios» de su conclusión.

Todos los productos recomendados por Engadget son seleccionados por nuestro equipo editorial, independiente de nuestra empresa matriz. Algunas de nuestras historias incluyen enlaces de afiliados. Si compra algo a través de uno de estos enlaces, podemos ganar una comisión de afiliado. Todos los precios son correctos en el momento de la publicación.



Source link-47