{"id":396662,"date":"2023-01-11T01:16:26","date_gmt":"2023-01-11T01:16:26","guid":{"rendered":"https:\/\/magazineoffice.com\/la-nueva-ia-de-microsoft-puede-simular-la-voz-de-cualquiera-con-3-segundos-de-audio\/"},"modified":"2023-01-11T01:16:27","modified_gmt":"2023-01-11T01:16:27","slug":"la-nueva-ia-de-microsoft-puede-simular-la-voz-de-cualquiera-con-3-segundos-de-audio","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/la-nueva-ia-de-microsoft-puede-simular-la-voz-de-cualquiera-con-3-segundos-de-audio\/","title":{"rendered":"La nueva IA de Microsoft puede simular la voz de cualquiera con 3 segundos de audio"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div itemprop=\"articleBody\">\n<figure class=\"intro-image intro-left\"><figcaption class=\"caption\">\n<div class=\"caption-text\">Agrandar <span class=\"sep\">\/<\/span> Una imagen generada por IA de la silueta de una persona.<\/div>\n<p>Ars Technica<\/p>\n<\/figcaption><\/figure>\n<aside id=\"social-left\" class=\"social-left\" aria-label=\"Read the comments or share this article\">\n<\/aside>\n<p><!-- cache hit 1:single\/related:7cd5932fcf3a526398d8aa7bd55e8feb --><!-- empty --><\/p>\n<p>El jueves, los investigadores de Microsoft anunciaron un nuevo modelo de IA de texto a voz llamado VALL-E que puede simular de cerca la voz de una persona cuando se le da una muestra de audio de tres segundos.  Una vez que aprende una voz espec\u00edfica, VALL-E puede sintetizar el audio de esa persona diciendo cualquier cosa, y hacerlo de una manera que intente preservar el tono emocional del hablante.<\/p>\n<p>Sus creadores especulan que VALL-E podr\u00eda usarse para aplicaciones de texto a voz de alta calidad, edici\u00f3n de voz donde la grabaci\u00f3n de una persona podr\u00eda editarse y cambiarse de una transcripci\u00f3n de texto (haci\u00e9ndola decir algo que originalmente no dijo), y creaci\u00f3n de contenido de audio cuando se combina con otros modelos generativos de IA como GPT-3.<\/p>\n<p>Microsoft llama a VALL-E un \u00abmodelo de lenguaje de c\u00f3dec neuronal\u00bb y se basa en una tecnolog\u00eda llamada EnCodec, que Meta anunci\u00f3 en octubre de 2022. A diferencia de otros m\u00e9todos de texto a voz que normalmente sintetizan el habla mediante la manipulaci\u00f3n de formas de onda, VALL-E genera c\u00f3digos de c\u00f3dec de audio discretos a partir de mensajes de texto y ac\u00fasticos.  B\u00e1sicamente, analiza c\u00f3mo suena una persona, divide esa informaci\u00f3n en componentes discretos (llamados \u00abtokens\u00bb) gracias a EnCodec y usa datos de entrenamiento para comparar lo que \u00absabe\u00bb sobre c\u00f3mo sonar\u00eda esa voz si pronunciara otras frases fuera de las tres. -segunda muestra.  O, como dice Microsoft en el documento de VALL-E:<\/p>\n<blockquote>\n<p>Para sintetizar voz personalizada (p. ej., TTS de disparo cero), VALL-E genera los tokens ac\u00fasticos correspondientes condicionados por los tokens ac\u00fasticos de la grabaci\u00f3n inscrita de 3 segundos y el indicador de fonema, que restringen la informaci\u00f3n del hablante y el contenido, respectivamente.  Finalmente, los tokens ac\u00fasticos generados se utilizan para sintetizar la forma de onda final con el decodificador de c\u00f3dec neuronal correspondiente.<\/p>\n<\/blockquote>\n<p>Microsoft entren\u00f3 las capacidades de s\u00edntesis de voz de VALL-E en una biblioteca de audio, ensamblada por Meta, llamada LibriLight.  Contiene 60\u00a0000 horas de habla en ingl\u00e9s de m\u00e1s de 7000 hablantes, en su mayor\u00eda extra\u00eddos de audiolibros de dominio p\u00fablico de LibriVox.  Para que VALL-E genere un buen resultado, la voz en la muestra de tres segundos debe coincidir con una voz en los datos de entrenamiento.<\/p>\n<aside class=\"ad_wrapper\" aria-label=\"In Content advertisement\">\n    <span class=\"ad_notice\">Anuncio <\/span>    <\/p>\n<\/aside>\n<p>En el sitio web de ejemplos de VALL-E, Microsoft proporciona docenas de ejemplos de audio del modelo de IA en acci\u00f3n.  Entre las muestras, el \u00abSpeaker Prompt\u00bb es el audio de tres segundos proporcionado a VALL-E que debe imitar.  La \u00abVerdad b\u00e1sica\u00bb es una grabaci\u00f3n preexistente de ese mismo hablante diciendo una frase en particular con fines de comparaci\u00f3n (algo as\u00ed como el \u00abcontrol\u00bb en el experimento).  La \u00abl\u00ednea de base\u00bb es un ejemplo de s\u00edntesis proporcionada por un m\u00e9todo convencional de s\u00edntesis de texto a voz, y la muestra \u00abVALL-E\u00bb es el resultado del modelo VALL-E.<\/p>\n<figure class=\"image shortcode-img center large\" style=\"width:100%\"><img loading=\"lazy\" decoding=\"async\" alt=\"Un diagrama de bloques de VALL-E proporcionado por investigadores de Microsoft.\" src=\"https:\/\/cdn.arstechnica.net\/wp-content\/uploads\/2023\/01\/Overview-640x345.jpg\" width=\"640\" height=\"345\" srcset=\"https:\/\/cdn.arstechnica.net\/wp-content\/uploads\/2023\/01\/Overview.jpg 2x\"\/><figcaption class=\"caption\">\n<div class=\"caption-text\">Agrandar <span class=\"sep\">\/<\/span> Un diagrama de bloques de VALL-E proporcionado por investigadores de Microsoft.<\/div>\n<p>microsoft<\/p>\n<\/figcaption><\/figure>\n<p>Mientras usaban VALL-E para generar esos resultados, los investigadores solo introdujeron la muestra de tres segundos \u00abSpeaker Prompt\u00bb y una cadena de texto (lo que quer\u00edan que dijera la voz) en VALL-E.  As\u00ed que compare la muestra \u00abGround Truth\u00bb con la muestra \u00abVALL-E\u00bb.  En algunos casos, las dos muestras son muy cercanas.  Algunos resultados de VALL-E parecen generados por computadora, pero otros podr\u00edan confundirse potencialmente con el habla de un ser humano, que es el objetivo del modelo.<\/p>\n<p>Adem\u00e1s de preservar el timbre vocal y el tono emocional de un orador, VALL-E tambi\u00e9n puede imitar el \u00abambiente ac\u00fastico\u00bb del audio de muestra.  Por ejemplo, si la muestra proviene de una llamada telef\u00f3nica, la salida de audio simular\u00e1 las propiedades ac\u00fasticas y de frecuencia de una llamada telef\u00f3nica en su salida sintetizada (esa es una forma elegante de decir que tambi\u00e9n sonar\u00e1 como una llamada telef\u00f3nica).  Y las muestras de Microsoft (en la secci\u00f3n \u00abS\u00edntesis de la diversidad\u00bb) demuestran que VALL-E puede generar variaciones en el tono de voz cambiando la semilla aleatoria utilizada en el proceso de generaci\u00f3n.<\/p>\n<p>Tal vez debido a la capacidad de VALL-E de alimentar potencialmente las travesuras y el enga\u00f1o, Microsoft no ha proporcionado el c\u00f3digo de VALL-E para que otros experimenten, por lo que no pudimos probar las capacidades de VALL-E.  Los investigadores parecen conscientes del da\u00f1o social potencial que podr\u00eda traer esta tecnolog\u00eda.  Para la conclusi\u00f3n del art\u00edculo, escriben:<\/p>\n<p>\u00abDado que VALL-E podr\u00eda sintetizar el habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como falsificar la identificaci\u00f3n de voz o hacerse pasar por un hablante espec\u00edfico. Para mitigar tales riesgos, es posible construir un modelo de detecci\u00f3n para discriminar si un clip de audio fue sintetizado por VALL-E. Tambi\u00e9n pondremos en pr\u00e1ctica los Principios de IA de Microsoft cuando desarrollemos m\u00e1s los modelos\u00bb.<\/p>\n<\/p><\/div>\n<p><br \/>\n<br \/><a href=\"https:\/\/magazineoffice.com\/\">Source link-49<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Agrandar \/ Una imagen generada por IA de la silueta de una persona. Ars Technica El jueves, los investigadores de Microsoft anunciaron un nuevo modelo de IA de texto a&hellip;<\/p>\n","protected":false},"author":1,"featured_media":396663,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[5394,133,18433,683,254,495,13128,31915,3869],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/396662"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=396662"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/396662\/revisions"}],"predecessor-version":[{"id":396664,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/396662\/revisions\/396664"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/396663"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=396662"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=396662"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=396662"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}