La herramienta de inteligencia artificial de Microsoft puede convertir fotos en videos realistas de personas hablando y cantando


Microsoft Research Asia ha presentado una nueva herramienta experimental de inteligencia artificial llamada VASA-1 que puede tomar una imagen fija de una persona (o el dibujo de una) y un archivo de audio existente para crear una cara parlante realista en tiempo real. Tiene la capacidad de generar expresiones faciales y movimientos de cabeza para una imagen fija existente y los movimientos de labios apropiados para coincidir con un discurso o una canción. Los investigadores subieron un montón de ejemplos a la página del proyecto y los resultados parecen lo suficientemente buenos como para engañar a la gente haciéndoles creer que son reales.

Si bien los movimientos de los labios y la cabeza en los ejemplos aún pueden parecer un poco robóticos y desincronizados al observarlos más de cerca, todavía está claro que la tecnología podría usarse indebidamente para crear fácil y rápidamente videos deepfake de personas reales. Los propios investigadores son conscientes de ese potencial y han decidido no publicar «una demostración en línea, API, producto, detalles de implementación adicionales o cualquier oferta relacionada» hasta que estén seguros de que su tecnología «se utilizará de manera responsable y de acuerdo con las normas adecuadas». regulaciones.» Sin embargo, no dijeron si planean implementar ciertas salvaguardas para evitar que los malos actores los utilicen con fines nefastos, como crear pornografía deepfake o campañas de desinformación.

Los investigadores creen que su tecnología tiene muchos beneficios a pesar de su potencial de uso indebido. Dijeron que se puede utilizar para mejorar la equidad educativa, así como para mejorar la accesibilidad para quienes tienen dificultades de comunicación, tal vez dándoles acceso a un avatar que pueda comunicarse por ellos. También puede brindar compañía y apoyo terapéutico a quienes lo necesitan, dijeron, insinuando que el VASA-1 podría usarse en programas que ofrecen acceso a personajes de IA con los que las personas pueden hablar.

Según el artículo publicado con el anuncio, VASA-1 se entrenó en el conjunto de datos VoxCeleb2, que contiene «más de 1 millón de expresiones de 6.112 celebridades» que fueron extraídas de videos de YouTube. Aunque la herramienta fue entrenada con rostros reales, también funciona con fotografías artísticas como la Mona Lisa, que los investigadores combinaron de manera divertida con un archivo de audio de la interpretación viral de Anne Hathaway de Lil Wayne. Paparazzi. Es tan delicioso que vale la pena verlo, incluso si dudas del bien que puede hacer una tecnología como esta.

Este contenido incrustado no está disponible en su región.

Este artículo contiene enlaces de afiliados; Si hace clic en dicho enlace y realiza una compra, podemos ganar una comisión.



Source link-47