Lumiere de Google acerca el vídeo con IA a lo real que a lo irreal


El nuevo modelo de IA de generación de vídeo de Google Lumière usa un nuevo modelo de difusión llamado Space-Time-U-Net, o STUNet, que descubre dónde están las cosas en un vídeo (espacio) y cómo se mueven y cambian simultáneamente (tiempo). Ars Técnica informa que este método le permite a Lumiere crear el video en un solo proceso en lugar de juntar fotogramas más pequeños.

Lumiere comienza creando un marco base a partir del mensaje. Luego, utiliza el marco STUNet para comenzar a aproximar dónde se moverán los objetos dentro de ese cuadro para crear más cuadros que fluyan entre sí, creando la apariencia de un movimiento fluido. Lumiere también genera 80 fotogramas en comparación con los 25 fotogramas de Stable Video Diffusion.

Es cierto que soy más un reportero de textos que un aficionado a los vídeos, pero el chisporroteo que publicó Google, junto con un artículo científico preimpreso, muestra que las herramientas de edición y generación de vídeos con IA han pasado de ser un valle inquietante a ser casi realistas en tan solo unos pocos años. años. También establece la tecnología de Google en el espacio que ya ocupan competidores como Runway, Stable Video Diffusion o Meta’s. Emú. Runway, una de las primeras plataformas de conversión de texto a vídeo del mercado masivo, Lanzamiento de la pista Gen-2 en marzo del año pasado y ha comenzado a ofrecer videos de apariencia más realista. Los vídeos de pasarelas también tienen dificultades para retratar el movimiento.

Google tuvo la amabilidad de colocar clips e indicaciones en el sitio de Lumiere, lo que me permitió publicar las mismas indicaciones en Runway para compararlas. Aquí están los resultados:

Sí, algunos de los clips presentados tienen un toque de artificialidad, especialmente si te fijas bien en la textura de la piel o si la escena es más atmosférica. Pero ¡Mira esa tortuga! ¡Se mueve como lo haría una tortuga en el agua! ¡Parece una tortuga real! Le envié el vídeo de introducción de Lumiere a un amigo que es editor de vídeo profesional. Si bien señaló que “se puede decir claramente que no es del todo real”, pensó que era impresionante que si no le hubiera dicho que era IA, pensaría que era CGI. (Ella también dijo: “Me va a quitar el trabajo, ¿no?”)

Otros modelos unen videos a partir de fotogramas clave generados donde el movimiento ya ocurrió (piense en dibujos en un libro animado), mientras que STUNet permite a Lumiere centrarse en el movimiento en sí según dónde debería estar el contenido generado en un momento determinado del video.

Google no ha sido un actor importante en la categoría de texto a video, pero poco a poco ha lanzado modelos de IA más avanzados y se ha inclinado hacia un enfoque más multimodal. Es Modelo de lenguaje grande Géminis eventualmente traerá la generación de imágenes a Bard. Lumiere aún no está disponible para pruebas, pero muestra la capacidad de Google para desarrollar una plataforma de video de IA que es comparable (y posiblemente un poco mejor) a los generadores de video de IA generalmente disponibles como Runway y Pika. Y sólo un recordatorio, aquí fue donde Google estaba con vídeo AI hace dos años.

a: flotar]:text-gray-63 [&>a:hover]:sombra-subrayado-negro oscuro:[&>a:hover]:texto-gris-bd oscuro:[&>a:hover]:sombra-subrayado-gris [&>a]:sombra-subrayado-gris-63 oscuro:[&>a]:texto-gris-bd oscuro:[&>a]:sombra-subrayado-gris»>Imagen: Google

Más allá de la generación de texto a video, Lumiere también permitirá la generación de imagen a video, generación estilizada, que permite a los usuarios crear videos con un estilo específico, cinemagraphs que animan solo una parte de un video y pintura para enmascarar un área. del vídeo para cambiar el color o patrón.

Sin embargo, el documento Lumiere de Google señaló que «existe el riesgo de un uso indebido al crear contenido falso o dañino con nuestra tecnología, y creemos que es crucial desarrollar y aplicar herramientas para detectar sesgos y casos de uso maliciosos para garantizar una experiencia segura y justa». usar.» Los autores del artículo no explicaron cómo se puede lograr esto.



Source link-37