{"id":395657,"date":"2023-01-10T15:47:42","date_gmt":"2023-01-10T15:47:42","guid":{"rendered":"https:\/\/magazineoffice.com\/vall-e-ai-de-microsoft-puede-imitar-cualquier-voz-de-una-breve-muestra-de-audio\/"},"modified":"2023-01-10T15:47:46","modified_gmt":"2023-01-10T15:47:46","slug":"vall-e-ai-de-microsoft-puede-imitar-cualquier-voz-de-una-breve-muestra-de-audio","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/vall-e-ai-de-microsoft-puede-imitar-cualquier-voz-de-una-breve-muestra-de-audio\/","title":{"rendered":"VALL-E AI de Microsoft puede imitar cualquier voz de una breve muestra de audio"},"content":{"rendered":"


\n<\/p>\n

\n

Microsoft ha mostrado su \u00faltima investigaci\u00f3n en inteligencia artificial de texto a voz con un modelo llamado VALL-E que puede simular la voz de alguien a partir de una muestra de audio de solo tres segundos. Ars Technica<\/em> ha informado. El discurso no solo puede coincidir con el timbre, sino tambi\u00e9n con el tono emocional del hablante, e incluso con la ac\u00fastica de una habitaci\u00f3n. Alg\u00fan d\u00eda podr\u00eda usarse para aplicaciones de texto a voz personalizadas o de alto nivel, aunque al igual que los deepfakes, conlleva riesgos de uso indebido. <\/p>\n

VALL-E es lo que Microsoft llama un \u00abmodelo de lenguaje de c\u00f3dec neuronal\u00bb. Se deriva del codificador de red neuronal de compresi\u00f3n impulsado por IA de Meta, que genera audio a partir de la entrada de texto y muestras breves del hablante de destino.<\/p>\n

<\/p>\n

En un art\u00edculo, los investigadores describen c\u00f3mo entrenaron a VALL-E en 60\u00a0000 horas de habla en ingl\u00e9s de m\u00e1s de 7000 hablantes en la biblioteca de audio LibriLight de Meta. La voz que intenta imitar debe ser una coincidencia cercana a una voz en los datos de entrenamiento. Si ese es el caso, utiliza los datos de entrenamiento para inferir c\u00f3mo sonar\u00eda el hablante de destino si pronunciara la entrada de texto deseada.<\/p>\n

\n

microsoft<\/p>\n<\/figure>\n

El equipo muestra exactamente qu\u00e9 tan bien funciona esto en la p\u00e1gina de VALL-E Github. Para cada frase que quieren que la IA \u00abhable\u00bb, tienen un aviso de tres segundos del hablante para imitar, una \u00abverdad b\u00e1sica\u00bb del mismo hablante diciendo otra frase para comparar, una \u00abl\u00ednea de base\u00bb convencional de texto a voz. s\u00edntesis y la muestra VALL-E al final. <\/p>\n

Los resultados son mixtos, algunos suenan como una m\u00e1quina y otros son sorprendentemente realistas. El hecho de que conserve el tono emocional de los samples originales es lo que vende los que funcionan. Tambi\u00e9n coincide fielmente con el entorno ac\u00fastico, por lo que si el hablante grab\u00f3 su voz en una sala con eco, la salida de VALL-E tambi\u00e9n suena como si viniera del mismo lugar. <\/p>\n

Para mejorar el modelo, Microsoft planea ampliar sus datos de entrenamiento \u00abpara mejorar el rendimiento del modelo en las perspectivas de prosodia, estilo de habla y similitud del hablante\u00bb. Tambi\u00e9n est\u00e1 explorando formas de reducir las palabras que no est\u00e1n claras o que se pierden.<\/p>\n

Microsoft eligi\u00f3 no hacer que el c\u00f3digo fuera de c\u00f3digo abierto, posiblemente debido a los riesgos inherentes a la IA que puede poner palabras en boca de alguien. Agreg\u00f3 que seguir\u00eda sus \u00abDirectores de IA de Microsoft\u00bb en cualquier desarrollo posterior. \u00abDado que VALL-E podr\u00eda sintetizar el habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como falsificaci\u00f3n de identificaci\u00f3n de voz o suplantaci\u00f3n\u00bb, escribi\u00f3 la compa\u00f1\u00eda en la secci\u00f3n \u00abImpactos m\u00e1s amplios\u00bb de su conclusi\u00f3n.<\/p>\n<\/div>\n

Todos los productos recomendados por Engadget son seleccionados por nuestro equipo editorial, independiente de nuestra empresa matriz. Algunas de nuestras historias incluyen enlaces de afiliados. Si compra algo a trav\u00e9s de uno de estos enlaces, podemos ganar una comisi\u00f3n de afiliado. Todos los precios son correctos en el momento de la publicaci\u00f3n.<\/em><\/p>\n


\n
Source link-47<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"

Microsoft ha mostrado su \u00faltima investigaci\u00f3n en inteligencia artificial de texto a voz con un modelo llamado VALL-E que puede simular la voz de alguien a partir de una muestra…<\/p>\n","protected":false},"author":1,"featured_media":395658,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21981],"tags":[5394,5418,1353,11997,683,739,495,73,33223,3869],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/395657"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=395657"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/395657\/revisions"}],"predecessor-version":[{"id":395659,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/395657\/revisions\/395659"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/395658"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=395657"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=395657"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=395657"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}