{"id":403550,"date":"2023-01-14T10:16:50","date_gmt":"2023-01-14T10:16:50","guid":{"rendered":"https:\/\/magazineoffice.com\/las-falsificaciones-rapidas-de-voz-de-vall-e-deberian-preocuparte-si-aun-no-estabas-preocupado-techcrunch\/"},"modified":"2023-01-14T10:16:52","modified_gmt":"2023-01-14T10:16:52","slug":"las-falsificaciones-rapidas-de-voz-de-vall-e-deberian-preocuparte-si-aun-no-estabas-preocupado-techcrunch","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/las-falsificaciones-rapidas-de-voz-de-vall-e-deberian-preocuparte-si-aun-no-estabas-preocupado-techcrunch\/","title":{"rendered":"Las falsificaciones r\u00e1pidas de voz de VALL-E deber\u00edan preocuparte, si a\u00fan no estabas preocupado \u2022 TechCrunch"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div>\n<p id=\"speakable-summary\">El surgimiento en la \u00faltima semana de un modelo de aprendizaje autom\u00e1tico de s\u00edntesis de voz particularmente efectivo llamado VALL-E ha provocado una nueva ola de preocupaci\u00f3n sobre la posibilidad de que las voces falsas profundas se vuelvan r\u00e1pidas y f\u00e1ciles, falsificaciones r\u00e1pidas, por as\u00ed decirlo.  Pero VALL-E es m\u00e1s iterativo que innovador, y las capacidades no son tan nuevas como podr\u00eda pensar.  Depende de usted si eso significa que deber\u00eda estar m\u00e1s o menos preocupado.<\/p>\n<p>La replicaci\u00f3n de voz ha sido objeto de intensas investigaciones durante a\u00f1os, y los resultados han sido lo suficientemente buenos como para impulsar muchas nuevas empresas, como WellSaid, Papercup y Respeecher.  Este \u00faltimo incluso se est\u00e1 utilizando para crear reproducciones de voz autorizadas de actores como James Earl Jones.  S\u00ed: a partir de ahora Darth Vader ser\u00e1 generado por IA.<\/p>\n<p>VALL-E, publicado en GitHub por sus creadores en Microsoft la semana pasada, es un \u00abmodelo de lenguaje de c\u00f3dec neuronal\u00bb que utiliza un enfoque diferente para representar voces que muchos antes.  Su corpus de entrenamiento m\u00e1s grande y algunos m\u00e9todos nuevos le permiten crear un \u00abhabla personalizada de alta calidad\u00bb utilizando solo tres segundos de audio de un hablante de destino.<\/p>\n<p>Es decir, todo lo que necesita es un clip extremadamente corto como el siguiente (todos los clips del documento de Microsoft):<\/p>\n<p><audio class=\"wp-audio-shortcode\" id=\"audio-2467777-6\" preload=\"none\" style=\"width: 100%;\" controls=\"controls\"><source type=\"audio\/wav\" src=\"https:\/\/techcrunch.com\/wp-content\/uploads\/2023\/01\/in1.wav?_=6\"\/>https:\/\/techcrunch.com\/wp-content\/uploads\/2023\/01\/in1.wav<\/audio><\/p>\n<p><audio class=\"wp-audio-shortcode\" id=\"audio-2467777-7\" preload=\"none\" style=\"width: 100%;\" controls=\"controls\"><source type=\"audio\/wav\" src=\"https:\/\/techcrunch.com\/wp-content\/uploads\/2023\/01\/in2.wav?_=7\"\/>https:\/\/techcrunch.com\/wp-content\/uploads\/2023\/01\/in2.wav<\/audio><\/p>\n<p>Para producir una voz sint\u00e9tica que suene notablemente similar:<\/p>\n<p><audio class=\"wp-audio-shortcode\" id=\"audio-2467777-8\" preload=\"none\" style=\"width: 100%;\" controls=\"controls\"><source type=\"audio\/wav\" src=\"https:\/\/techcrunch.com\/wp-content\/uploads\/2023\/01\/outcome1.wav?_=8\"\/>https:\/\/techcrunch.com\/wp-content\/uploads\/2023\/01\/outcome1.wav<\/audio><\/p>\n<p><audio class=\"wp-audio-shortcode\" id=\"audio-2467777-9\" preload=\"none\" style=\"width: 100%;\" controls=\"controls\"><source type=\"audio\/wav\" src=\"https:\/\/techcrunch.com\/wp-content\/uploads\/2023\/01\/outcome2.wav?_=9\"\/>https:\/\/techcrunch.com\/wp-content\/uploads\/2023\/01\/outcome2.wav<\/audio><\/p>\n<p>Como puede escuchar, mantiene el tono, el timbre, una apariencia de acento e incluso el \u00abambiente ac\u00fastico\u00bb (por ejemplo, una voz comprimida en una llamada de tel\u00e9fono celular).  No me molest\u00e9 en etiquetarlos porque puedes decir f\u00e1cilmente cu\u00e1l de los anteriores es cu\u00e1l.  \u00a1Es bastante impresionante!<\/p>\n<p>Tan impresionante, de hecho, que este modelo en particular parece haber traspasado el pellejo de la comunidad investigadora y \u00abpasado a la corriente principal\u00bb.  Mientras tomaba un trago en mi local anoche, el cantinero describi\u00f3 enf\u00e1ticamente la nueva amenaza de inteligencia artificial de la s\u00edntesis de voz.  As\u00ed es como s\u00e9 que juzgu\u00e9 mal el esp\u00edritu de la \u00e9poca.<\/p>\n<p>Pero si miras un poco hacia atr\u00e1s, ya en 2017 todo lo que necesitabas era un minuto de voz para producir una versi\u00f3n falsa lo suficientemente convincente como para que pasara en un uso casual.  Y ese estaba lejos de ser el \u00fanico proyecto.<\/p>\n<p>La mejora que hemos visto en los modelos de generaci\u00f3n de im\u00e1genes como DALL-E 2 y Stable Diffusion, o en los de lenguaje como ChatGPT, ha sido transformadora y cualitativa: hace uno o dos a\u00f1os, este nivel de contenido detallado y convincente generado por IA era imposible  La preocupaci\u00f3n (y el p\u00e1nico) en torno a estos modelos es comprensible y justificada.<\/p>\n<p>Por el contrario, la mejora que ofrece VALL-E es <em>cuantitativo<\/em> no cualitativo.  Los malos actores interesados \u200b\u200b\u200b\u200ben la proliferaci\u00f3n de contenido de voz falso podr\u00edan haberlo hecho hace mucho tiempo, solo que a un mayor costo computacional, algo que no es particularmente dif\u00edcil de encontrar en estos d\u00edas.  Los actores patrocinados por el estado, en particular, tendr\u00edan muchos recursos disponibles para hacer el tipo de trabajo inform\u00e1tico necesario para, por ejemplo, crear un clip de audio falso del presidente diciendo algo da\u00f1ino en un micr\u00f3fono caliente.<\/p>\n<p>Habl\u00e9 con James Betker, un ingeniero que trabaj\u00f3 durante un tiempo en otro sistema de texto a voz, llamado Tortoise-TTS.<\/p>\n<p>Betker dijo que VALL-E es realmente iterativo y, al igual que otros modelos populares en estos d\u00edas, obtiene su fuerza de su tama\u00f1o.<\/p>\n<p>\u201cEs un modelo grande, como ChatGPT o Stable Diffusion;  tiene una comprensi\u00f3n inherente de c\u00f3mo los humanos forman el habla.  Luego puede ajustar Tortoise y otros modelos en parlantes espec\u00edficos, y los hace realmente buenos.  No &#8216;suena como&#8217;; <em>bueno<\/em>,\u00bb \u00e9l explic\u00f3.<\/p>\n<p>Cuando \u00abafinas\u00bb Stable Diffusion en el trabajo de un artista en particular, no est\u00e1s volviendo a entrenar todo el enorme modelo (que requiere mucha m\u00e1s potencia), pero a\u00fan puedes mejorar enormemente su capacidad de replicar ese contenido.<\/p>\n<p>Pero el hecho de que sea familiar no significa que deba descartarse, aclar\u00f3 Betker.<\/p>\n<p>\u201cMe alegro de que est\u00e9 ganando terreno porque realmente quiero que la gente hable de esto.  De hecho, siento que el discurso es algo sagrado, la forma en que nuestra cultura piensa al respecto\u201d, y de hecho dej\u00f3 de trabajar en su propio modelo como resultado de estas preocupaciones.  Un Dal\u00ed falso creado por DALL-E 2 no tiene el mismo efecto visceral para las personas que escuchar algo en su propia voz, la de un ser querido o la de alguien admirado.<\/p>\n<p>VALL-E nos acerca un paso m\u00e1s a la ubicuidad, y aunque no es el tipo de modelo que ejecuta en su tel\u00e9fono o en la computadora de su casa, eso no est\u00e1 muy lejos, especul\u00f3 Betker.  Unos cuantos a\u00f1os, tal vez, para dirigir algo as\u00ed usted mismo;  como ejemplo, envi\u00f3 este clip que hab\u00eda generado en su propia PC usando Tortoise-TTS de Samuel L. Jackson, basado en lecturas de audiolibros suyos:<\/p>\n<p><audio class=\"wp-audio-shortcode\" id=\"audio-2467777-10\" preload=\"none\" style=\"width: 100%;\" controls=\"controls\"><source type=\"audio\/mpeg\" src=\"https:\/\/techcrunch.com\/wp-content\/uploads\/2023\/01\/samuel_jackson.mp3?_=10\"\/>https:\/\/techcrunch.com\/wp-content\/uploads\/2023\/01\/samuel_jackson.mp3<\/audio><\/p>\n<p>\u00bfBuen derecho?  Y hace unos a\u00f1os podr\u00edas haber logrado algo similar, aunque con mayor esfuerzo.<\/p>\n<p>Todo esto es solo para decir que, si bien VALL-E y el quickfake de tres segundos son definitivamente notables, son un solo paso en un largo camino que los investigadores han estado recorriendo durante m\u00e1s de una d\u00e9cada.<\/p>\n<p>La amenaza ha existido durante a\u00f1os y si a alguien le importara replicar su voz, podr\u00eda haberlo hecho f\u00e1cilmente hace mucho tiempo.  Eso no hace que sea menos perturbador pensar en ello, y no hay nada de malo en asustarse por ello.  \u00a1Yo tambi\u00e9n!<\/p>\n<p>Pero los beneficios para los actores malintencionados son dudosos.  Las estafas menores que usan un enga\u00f1o r\u00e1pido aceptable basado en una llamada de n\u00famero incorrecto, por ejemplo, ya son muy f\u00e1ciles porque las pr\u00e1cticas de seguridad en muchas empresas ya son laxas.  El robo de identidad no <em>necesitar<\/em> confiar en la replicaci\u00f3n de voz porque hay muchos caminos m\u00e1s f\u00e1ciles para obtener dinero y acceso.<\/p>\n<p>Mientras tanto, los beneficios son potencialmente enormes: piense en las personas que pierden la capacidad de hablar debido a una enfermedad o accidente.  Estas cosas suceden lo suficientemente r\u00e1pido como para que no tengan tiempo de grabar una hora de voz para entrenar a un modelo (no es que esta capacidad est\u00e9 ampliamente disponible, aunque podr\u00eda haberlo estado hace a\u00f1os).  Pero con algo como VALL-E, todo lo que necesitas es un par de clips del tel\u00e9fono de alguien haciendo un brindis en la cena o hablando con un amigo.<\/p>\n<p>Siempre existe la oportunidad de estafas y suplantaci\u00f3n de identidad y todo eso, aunque m\u00e1s personas se separan de su dinero e identidades de maneras mucho m\u00e1s prosaicas, como una simple estafa telef\u00f3nica o de phishing.  El potencial de esta tecnolog\u00eda es enorme, pero tambi\u00e9n deber\u00edamos escuchar nuestro instinto colectivo, diciendo que hay algo peligroso aqu\u00ed.  Simplemente no se asuste, todav\u00eda.<\/p>\n<\/p><\/div>\n<p><br \/>\n<br \/><a href=\"https:\/\/magazineoffice.com\/\">Source link-48<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>El surgimiento en la \u00faltima semana de un modelo de aprendizaje autom\u00e1tico de s\u00edntesis de voz particularmente efectivo llamado VALL-E ha provocado una nueva ola de preocupaci\u00f3n sobre la posibilidad&hellip;<\/p>\n","protected":false},"author":1,"featured_media":403551,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[83,1082,9635,32541,246,17232,45703,29590,22367,33223,3869],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/403550"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=403550"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/403550\/revisions"}],"predecessor-version":[{"id":403552,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/403550\/revisions\/403552"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/403551"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=403550"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=403550"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=403550"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}