El video generado por IA de Will Smith comiendo espaguetis asombra con una belleza terrible


Agrandar / Imágenes fijas de un video generado por IA de Will Smith comiendo espagueti que ha estado calentando Internet.

En medio de las controversias de la semana pasada en la IA sobre la regulación, los temores de la fatalidad del fin del mundo y la interrupción del trabajo, las nubes se han abierto brevemente. Por un breve y brillante momento, podemos disfrutar de un video generado por IA absolutamente ridículo de Will Smith comiendo espaguetis que ahora está iluminando nuestras vidas con su terrible gloria.

El lunes, un usuario de Reddit llamado «chaindrop» compartió el video generado por IA en el subreddit r/StableDiffusion. Él propagarse rápidamente a otras formas de redes sociales e inspiró cavilaciones mixtas en la prensa. Por ejemplo, Vice dijo que el video «lo perseguirá por el resto de su vida», mientras que AV Club lo llamó el «punto final natural para el desarrollo de la IA».

Estamos en algún punto intermedio. El video mudo de 20 segundos consta de 10 segmentos de dos segundos generados independientemente unidos. Cada uno muestra diferentes ángulos de un Will Smith simulado (en un momento, incluso dos Will Smith) engullendo vorazmente espaguetis. Está completamente generado por computadora, gracias a la IA.

Y lo verás ahora:

Sabemos lo que está pensando: «¿No vi este tipo de tecnología avanzada de deepfake en 1987es el hombre que corre?» No, ese fue Jesse «The Body» Ventura derrotando a un falso Arnold Schwarzenegger en una pelea distópica en una jaula, ambientada entre 2017 y 2019. Aquí, en 2023, tenemos al falso Will Smith comiendo espagueti.

Esta hazaña es posible gracias a una nueva herramienta de IA de código abierto llamada ModelScope, lanzada hace unas semanas por DAMO Vision Intelligence Lab, una división de investigación de Alibaba. ModelScope es un modelo de difusión «text2video» que ha sido entrenado para crear nuevos videos a partir de indicaciones mediante el análisis de millones de imágenes y miles de videos extraídos en los conjuntos de datos LAION5B, ImageNet y Webvid. Eso incluye videos de Shutterstock, de ahí la marca de agua fantasmal «Shutterstock» en su salida.

La comunidad de AI HuggingFace actualmente alberga una demostración en línea de ModelScope, aunque requiere una cuenta y deberá pagar el tiempo de cómputo para ejecutarlo. Intentamos usarlo pero estaba sobrecargado, probablemente debido a la manía de espagueti de Smith.

Según chaindrop, el flujo de trabajo para crear el video fue bastante simple: le dio a ModelScope el mensaje «Will Smith comiendo espaguetis» y lo generó a 24 cuadros por segundo (FPS). Luego, chaindrop usó la herramienta de interpolación Flowframes para aumentar el FPS de 24 a 48 y luego lo redujo a la mitad de la velocidad, lo que resultó en un video más fluido.

Por supuesto, ModelScope no es el único juego en la ciudad con respecto al campo emergente de text2video. Recientemente, Runway debutó con «Gen-2», y anteriormente cubrimos los primeros proyectos de investigación de text2video de Meta y Google.

Desde que Will Smith comiendo espagueti se convirtió en un éxito viral, Internet se ha visto favorecido con seguimientos como Scarlett Johansson y Joe Biden comiendo espaguetis. Incluso hay Smith comiendo albóndigas, un video que quizás sea realmente horrible. Pero sigue siendo genial de alguna manera: perfecto forraje de memes futuros.

Por supuesto, una vez que los resultados de estas herramientas de text2video se vuelvan demasiado realistas, tendremos otros problemas con los que lidiar, probablemente profundos problemas sociales y culturales. Pero por ahora, disfrutemos de la gloria horrible e imperfecta de ModelScope. Nos disculpamos de antemano.





Source link-49