{"id":1098283,"date":"2024-04-20T10:54:27","date_gmt":"2024-04-20T10:54:27","guid":{"rendered":"https:\/\/magazineoffice.com\/vasa-1-de-microsoft-puede-falsificar-a-una-persona-con-una-foto-y-una-pista-de-audio\/"},"modified":"2024-04-20T10:54:30","modified_gmt":"2024-04-20T10:54:30","slug":"vasa-1-de-microsoft-puede-falsificar-a-una-persona-con-una-foto-y-una-pista-de-audio","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/vasa-1-de-microsoft-puede-falsificar-a-una-persona-con-una-foto-y-una-pista-de-audio\/","title":{"rendered":"VASA-1 de Microsoft puede falsificar a una persona con una foto y una pista de audio"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div itemprop=\"articleBody\">\n<figure class=\"intro-image intro-left\"><figcaption class=\"caption\">\n<div class=\"caption-text\">Agrandar <span class=\"sep\">\/<\/span> Una imagen de muestra de Microsoft para \u00abVASA-1: caras parlantes realistas impulsadas por audio generadas en tiempo real\u00bb.<\/div>\n<\/figcaption><\/figure>\n<aside id=\"social-left\" class=\"social-left\" aria-label=\"Read the comments or share this article\">\n<\/aside>\n<p><!-- cache hit 205:single\/related:bb6a0f6f37d754c5bdb14906e7335f30 --><!-- empty --><\/p>\n<p>El martes, Microsoft Research Asia present\u00f3 VASA-1, un modelo de inteligencia artificial que puede crear un video animado sincronizado de una persona hablando o cantando a partir de una sola foto y una pista de audio existente.  En el futuro, podr\u00eda impulsar avatares virtuales que se representen localmente y no requieran transmisiones de video, o permitir que cualquier persona con herramientas similares tome una foto de una persona encontrada en l\u00ednea y haga que parezca que dice lo que quiera.<\/p>\n<p>\u00abAllana el camino para interacciones en tiempo real con avatares realistas que emulan comportamientos conversacionales humanos\u00bb, se lee en el resumen del art\u00edculo de investigaci\u00f3n adjunto titulado \u00abVASA-1: Caras parlantes realistas impulsadas por audio generadas en tiempo real\u00bb.  Es obra de Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong y Baining Guo.<\/p>\n<p>El marco VASA (abreviatura de \u00abVisual Affective Skills Animator\u00bb) utiliza el aprendizaje autom\u00e1tico para analizar una imagen est\u00e1tica junto con un clip de audio de voz.  Luego puede generar un video realista con expresiones faciales precisas, movimientos de cabeza y sincronizaci\u00f3n de labios con el audio.  No clona ni simula voces (como otras investigaciones de Microsoft), sino que se basa en una entrada de audio existente que podr\u00eda grabarse o hablarse especialmente para un prop\u00f3sito particular.<\/p>\n<figure class=\"video ars-wp-video vertical\">\n<\/figure>\n<p>Microsoft afirma que el modelo supera significativamente a los m\u00e9todos anteriores de animaci\u00f3n de voz en t\u00e9rminos de realismo, expresividad y eficiencia.  A nuestros ojos, parece una mejora con respecto a los modelos de animaci\u00f3n de una sola imagen anteriores.<\/p>\n<aside class=\"ad_wrapper\" aria-label=\"In Content advertisement\">\n    <span class=\"ad_notice\">Anuncio <\/span>    <\/p>\n<\/aside>\n<figure class=\"video ars-wp-video\">\n<\/figure>\n<p>Los esfuerzos de investigaci\u00f3n de IA para animar una sola foto de una persona o personaje se remontan al menos a algunos a\u00f1os atr\u00e1s, pero m\u00e1s recientemente, los investigadores han estado trabajando para sincronizar autom\u00e1ticamente un video generado con una pista de audio.  En febrero, un modelo de IA llamado EMO: Emote Portrait Alive del grupo de investigaci\u00f3n del Instituto de Computaci\u00f3n Inteligente de Alibaba caus\u00f3 sensaci\u00f3n con un enfoque similar al VASA-1 que puede sincronizar autom\u00e1ticamente una foto animada con una pista de audio proporcionada (lo llaman \u00abAudio2Video\u00bb). .<\/p>\n<h2>Capacitado en clips de YouTube.<\/h2>\n<p>Los investigadores de Microsoft entrenaron VASA-1 en el conjunto de datos VoxCeleb2 creado en 2018 por tres investigadores de la Universidad de Oxford.  Ese conjunto de datos contiene \u00abm\u00e1s de 1 mill\u00f3n de declaraciones de 6.112 celebridades\u00bb, seg\u00fan el sitio web VoxCeleb2, extra\u00eddo de v\u00eddeos subidos a YouTube.  Seg\u00fan se informa, VASA-1 puede generar videos con una resoluci\u00f3n de 512&#215;512 p\u00edxeles a hasta 40 cuadros por segundo con una latencia m\u00ednima, lo que significa que podr\u00eda usarse para aplicaciones en tiempo real como videoconferencias.<\/p>\n<p>Para mostrar el modelo, Microsoft cre\u00f3 una p\u00e1gina de investigaci\u00f3n VASA-1 que presenta muchos videos de muestra de la herramienta en acci\u00f3n, incluidas personas cantando y hablando en sincronizaci\u00f3n con pistas de audio pregrabadas.  Muestran c\u00f3mo se puede controlar al modelo para que exprese diferentes estados de \u00e1nimo o cambie su mirada.  Los ejemplos tambi\u00e9n incluyen algunas generaciones m\u00e1s fantasiosas, como Mona Lisa rapeando con una pista de audio de Anne Hathaway interpretando una canci\u00f3n de \u00abPaparazzi\u00bb sobre Conan O&#8217;Brien.<\/p>\n<figure class=\"video ars-wp-video vertical\">\n<\/figure>\n<p>Los investigadores dicen que, por razones de privacidad, cada foto de ejemplo en su p\u00e1gina fue generada por IA mediante StyleGAN2 o DALL-E 3 (aparte de la Mona Lisa).  Pero es obvio que la t\u00e9cnica tambi\u00e9n podr\u00eda aplicarse a fotograf\u00edas de personas reales, aunque es probable que funcione mejor si una persona parece similar a una celebridad presente en el conjunto de datos de entrenamiento.  A\u00fan as\u00ed, los investigadores dicen que falsificar a humanos reales no es su intenci\u00f3n.<\/p>\n<aside class=\"ad_wrapper\" aria-label=\"In Content advertisement\">\n    <span class=\"ad_notice\">Anuncio <\/span>    <\/p>\n<\/aside>\n<p>\u00abEstamos explorando la generaci\u00f3n de habilidades afectivas visuales para personajes virtuales e interactivos. [sic], NO haci\u00e9ndose pasar por ninguna persona en el mundo real.  Esto es s\u00f3lo una demostraci\u00f3n de investigaci\u00f3n y no hay ning\u00fan producto o plan de lanzamiento de API\u00bb, se lee en el sitio.<\/p>\n<figure class=\"video ars-wp-video vertical\">\n<\/figure>\n<p>Si bien los investigadores de Microsoft promocionan posibles aplicaciones positivas, como mejorar la equidad educativa, mejorar la accesibilidad y brindar compa\u00f1\u00eda terap\u00e9utica, la tecnolog\u00eda tambi\u00e9n podr\u00eda usarse indebidamente.  Por ejemplo, podr\u00eda permitir a las personas falsificar chats de video, hacer que personas reales parezcan decir cosas que en realidad nunca dijeron (especialmente cuando se combinan con una pista de voz clonada) o permitir el acoso a partir de una sola foto en las redes sociales.<\/p>\n<p>En este momento, el video generado todav\u00eda parece imperfecto en algunos aspectos, pero podr\u00eda ser bastante convincente para algunas personas si no supieran que esperar\u00edan una animaci\u00f3n generada por IA.  Los investigadores dicen que son conscientes de esto, raz\u00f3n por la cual no publican abiertamente el c\u00f3digo que impulsa el modelo.<\/p>\n<p>\u00abNos oponemos a cualquier comportamiento que cree contenidos enga\u00f1osos o da\u00f1inos de personas reales y estamos interesados \u200b\u200ben aplicar nuestra t\u00e9cnica para avanzar en la detecci\u00f3n de falsificaciones\u00bb, escriben los investigadores.  \u00abActualmente, los v\u00eddeos generados por este m\u00e9todo todav\u00eda contienen artefactos identificables, y el an\u00e1lisis num\u00e9rico muestra que todav\u00eda hay una brecha para lograr la autenticidad de los v\u00eddeos reales\u00bb.<\/p>\n<p>VASA-1 es s\u00f3lo una demostraci\u00f3n de investigaci\u00f3n, pero Microsoft est\u00e1 lejos de ser el \u00fanico grupo que desarrolla una tecnolog\u00eda similar.  Si la historia reciente de la IA generativa sirve de gu\u00eda, es potencialmente s\u00f3lo cuesti\u00f3n de tiempo antes de que tecnolog\u00edas similares se vuelvan de c\u00f3digo abierto y est\u00e9n disponibles gratuitamente, y es muy probable que sigan mejorando en realismo con el tiempo.<\/p>\n<\/p><\/div>\n<p><br \/>\n<br \/><a href=\"https:\/\/magazineoffice.com\/\">Source link-49<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Agrandar \/ Una imagen de muestra de Microsoft para \u00abVASA-1: caras parlantes realistas impulsadas por audio generadas en tiempo real\u00bb. El martes, Microsoft Research Asia present\u00f3 VASA-1, un modelo de&hellip;<\/p>\n","protected":false},"author":1,"featured_media":1098284,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[5394,133,26826,132,683,5107,1681,495,73,122184],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1098283"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=1098283"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1098283\/revisions"}],"predecessor-version":[{"id":1098285,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/1098283\/revisions\/1098285"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/1098284"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=1098283"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=1098283"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=1098283"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}