El nuevo modelo de IA “Difusión de vídeo estable” puede animar cualquier imagen fija


Agrandar / Todavía ejemplos de imágenes animadas usando Stable Video Diffusion de Stability AI.

Estabilidad IA

El martes, Stability AI lanzó Stable Video Diffusion, una nueva herramienta gratuita de investigación de IA que puede convertir cualquier imagen fija en un video corto, con resultados mixtos. Es una vista previa de peso abierto de dos modelos de IA que utilizan una técnica llamada imagen a video y puede ejecutarse localmente en una máquina con una GPU Nvidia.

El año pasado, Stability AI causó sensación con el lanzamiento de Stable Diffusion, un modelo de síntesis de imágenes de «pesos abiertos» que inició una ola de síntesis de imágenes abiertas e inspiró a una gran comunidad de aficionados que han aprovechado la tecnología con su propia tecnología personalizada. afinaciones. Ahora Stability quiere hacer lo mismo con la síntesis de vídeo mediante IA, aunque la tecnología aún está en su infancia.

En este momento, Stable Video Diffusion consta de dos modelos: uno que puede producir síntesis de imagen a video con 14 fotogramas de longitud (llamado «SVD») y otro que genera 25 fotogramas (llamado «SVD-XT»). Pueden funcionar a velocidades variables de 3 a 30 fotogramas por segundo y producen clips de vídeo MP4 cortos (normalmente de 2 a 4 segundos de duración) con una resolución de 576×1024.

En nuestras pruebas locales, se tardó unos 30 minutos en crear una generación de 14 fotogramas en una tarjeta gráfica Nvidia RTX 3060, pero los usuarios pueden experimentar ejecutando los modelos mucho más rápido en la nube a través de servicios como Hugging Face y Replicate (algunos de los cuales puede hay que pagar). En nuestros experimentos, la animación generada normalmente mantiene estática una parte de la escena y agrega efectos de panorámica y zoom o anima humo o fuego. Las personas representadas en las fotografías a menudo no se mueven, aunque conseguimos que una imagen de Getty de Steve Wozniak cobrara ligeramente vida.

(Nota: además de la foto de Steve Wozniak Getty Images, las otras imágenes animadas en este artículo se generaron con DALL-E 3 y se animaron usando Stable Video Diffusion).

Dadas estas limitaciones, Stability enfatiza que el modelo aún es temprano y está destinado únicamente a investigación. «Si bien actualizamos con entusiasmo nuestros modelos con los últimos avances y trabajamos para incorporar sus comentarios», escribe la compañía en su sitio web, «este modelo no está diseñado para aplicaciones comerciales o del mundo real en esta etapa. Sus ideas y comentarios sobre seguridad y La calidad es importante para perfeccionar este modelo para su eventual lanzamiento».

En particular, pero tal vez no sea sorprendente, el artículo de investigación de Stable Video Diffusion no revela la fuente de los conjuntos de datos de entrenamiento de los modelos, solo dice que el equipo de investigación utilizó «un gran conjunto de datos de video que comprende aproximadamente 600 millones de muestras» que seleccionaron en el Large Video Dataset. (LVD), que consta de 580 millones de videoclips comentados que abarcan 212 años de duración de contenido.

Stable Video Diffusion está lejos de ser el primer modelo de IA que ofrece este tipo de funcionalidad. Anteriormente cubrimos otros métodos de síntesis de video con IA, incluidos los de Meta, Google y Adobe. También cubrimos el ModelScope de código abierto y lo que muchos consideran el mejor modelo de video de IA en este momento, el modelo Gen-2 de Runway (Pika Labs es otro proveedor de video de IA). Stability AI dice que también está trabajando en un modelo de texto a video, que permitirá la creación de videoclips cortos utilizando indicaciones escritas en lugar de imágenes.

La fuente y los pesos de Stable Video Diffusion están disponibles en GitHub, y otra forma sencilla de probarlo localmente es ejecutarlo a través de la plataforma Pinokio, que maneja las dependencias de instalación fácilmente y ejecuta el modelo en su propio entorno.



Source link-49