La tecnología de texto a video de Nvidia podría llevar tu juego GIF al siguiente nivel


Ahora que ChatGPT y Midjourney son prácticamente convencionales, la próxima gran carrera de IA son los generadores de texto a video, y Nvidia acaba de mostrar algunas demostraciones impresionantes de la tecnología que pronto podría llevar sus GIF a un nuevo nivel.

Un nuevo artículo de investigación y un micrositio (se abre en una pestaña nueva) del Laboratorio de IA de Toronto de Nvidia, llamado «Síntesis de video de alta resolución con modelos de difusión latente», nos da una idea de las increíbles herramientas de creación de video que están a punto de unirse a la lista cada vez mayor de los mejores generadores de arte de IA.

Los modelos de difusión latente (o LDM) son un tipo de IA que puede generar videos sin necesidad de una potencia informática masiva. Nvidia dice que su tecnología hace esto basándose en el trabajo de los generadores de texto a imagen, en este caso Stable Diffusion, y agregando una «dimensión temporal al modelo de difusión espacial latente».

(Crédito de la imagen: Nvidia)

En otras palabras, su IA generativa puede hacer que las imágenes fijas se muevan de manera realista y mejorarlas para usar técnicas de superresolución. Esto significa que puede producir videos cortos de 4,7 segundos de duración con una resolución de 1280×2048, o videos más largos con una resolución más baja de 512×1024 para videos de conducción.

Nuestro pensamiento inmediato al ver las primeras demostraciones (como las de arriba y abajo) es cuánto podría impulsar esto nuestro juego GIF. De acuerdo, hay ramificaciones más grandes, como la democratización de la creación de videos y la perspectiva de adaptaciones cinematográficas automatizadas, pero en esta etapa, el texto a GIF parece ser el caso de uso más emocionante.

Un oso de peluche tocando la guitarra eléctrica.

(Crédito de la imagen: Nvidia)

Indicaciones simples como «un soldado de asalto aspirando en la playa» y «un oso de peluche está tocando la guitarra eléctrica, alta definición, 4K» producen algunos resultados bastante útiles, incluso si hay artefactos naturales y cambios en algunas de las creaciones.



Source link-36