{"id":395657,"date":"2023-01-10T15:47:42","date_gmt":"2023-01-10T15:47:42","guid":{"rendered":"https:\/\/magazineoffice.com\/vall-e-ai-de-microsoft-puede-imitar-cualquier-voz-de-una-breve-muestra-de-audio\/"},"modified":"2023-01-10T15:47:46","modified_gmt":"2023-01-10T15:47:46","slug":"vall-e-ai-de-microsoft-puede-imitar-cualquier-voz-de-una-breve-muestra-de-audio","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/vall-e-ai-de-microsoft-puede-imitar-cualquier-voz-de-una-breve-muestra-de-audio\/","title":{"rendered":"VALL-E AI de Microsoft puede imitar cualquier voz de una breve muestra de audio"},"content":{"rendered":"
\n<\/p>\n
\n
Microsoft ha mostrado su \u00faltima investigaci\u00f3n en inteligencia artificial de texto a voz con un modelo llamado VALL-E que puede simular la voz de alguien a partir de una muestra de audio de solo tres segundos. Ars Technica<\/em> ha informado. El discurso no solo puede coincidir con el timbre, sino tambi\u00e9n con el tono emocional del hablante, e incluso con la ac\u00fastica de una habitaci\u00f3n. Alg\u00fan d\u00eda podr\u00eda usarse para aplicaciones de texto a voz personalizadas o de alto nivel, aunque al igual que los deepfakes, conlleva riesgos de uso indebido. <\/p>\n
VALL-E es lo que Microsoft llama un \u00abmodelo de lenguaje de c\u00f3dec neuronal\u00bb. Se deriva del codificador de red neuronal de compresi\u00f3n impulsado por IA de Meta, que genera audio a partir de la entrada de texto y muestras breves del hablante de destino.<\/p>\n
<\/p>\n
En un art\u00edculo, los investigadores describen c\u00f3mo entrenaron a VALL-E en 60\u00a0000 horas de habla en ingl\u00e9s de m\u00e1s de 7000 hablantes en la biblioteca de audio LibriLight de Meta. La voz que intenta imitar debe ser una coincidencia cercana a una voz en los datos de entrenamiento. Si ese es el caso, utiliza los datos de entrenamiento para inferir c\u00f3mo sonar\u00eda el hablante de destino si pronunciara la entrada de texto deseada.<\/p>\n