Ahora que ChatGPT y Midjourney son prácticamente convencionales, la próxima gran carrera de IA son los generadores de texto a video, y Nvidia acaba de mostrar algunas demostraciones impresionantes de la tecnología que pronto podría llevar sus GIF a un nuevo nivel.
Un nuevo artículo de investigación y un micrositio (se abre en una pestaña nueva) del Laboratorio de IA de Toronto de Nvidia, llamado «Síntesis de video de alta resolución con modelos de difusión latente», nos da una idea de las increíbles herramientas de creación de video que están a punto de unirse a la lista cada vez mayor de los mejores generadores de arte de IA.
Los modelos de difusión latente (o LDM) son un tipo de IA que puede generar videos sin necesidad de una potencia informática masiva. Nvidia dice que su tecnología hace esto basándose en el trabajo de los generadores de texto a imagen, en este caso Stable Diffusion, y agregando una «dimensión temporal al modelo de difusión espacial latente».
En otras palabras, su IA generativa puede hacer que las imágenes fijas se muevan de manera realista y mejorarlas para usar técnicas de superresolución. Esto significa que puede producir videos cortos de 4,7 segundos de duración con una resolución de 1280×2048, o videos más largos con una resolución más baja de 512×1024 para videos de conducción.
Nuestro pensamiento inmediato al ver las primeras demostraciones (como las de arriba y abajo) es cuánto podría impulsar esto nuestro juego GIF. De acuerdo, hay ramificaciones más grandes, como la democratización de la creación de videos y la perspectiva de adaptaciones cinematográficas automatizadas, pero en esta etapa, el texto a GIF parece ser el caso de uso más emocionante.
Indicaciones simples como «un soldado de asalto aspirando en la playa» y «un oso de peluche está tocando la guitarra eléctrica, alta definición, 4K» producen algunos resultados bastante útiles, incluso si hay artefactos naturales y cambios en algunas de las creaciones.
En este momento, eso hace que la tecnología de texto a video, como las nuevas demostraciones de Nvidia, sea más adecuada para miniaturas y GIF. Pero, dadas las rápidas mejoras observadas en la generación de IA de Nvidia para escenas más largas (se abre en una pestaña nueva)probablemente no tendremos que esperar por clips de texto a video más largos en las bibliotecas de stock y más allá.
Análisis: la próxima frontera para la IA generativa
Nvidia no es la primera empresa en mostrar un generador de texto a video con IA. Recientemente vimos Google Phenaki (se abre en una pestaña nueva) haga su debut, revelando su potencial para clips de 20 segundos basados en indicaciones más largas. Sus demostraciones también muestran un clip, aunque más complicado, de más de dos minutos de duración.
La startup Runway, que ayudó a crear el generador de texto a imagen Stable Diffusion, también reveló su modelo de video Gen-2 AI (se abre en una pestaña nueva) el mes pasado. Además de responder a indicaciones como «el sol de la tarde se asoma por la ventana de un loft de la ciudad de Nueva York» (cuyo resultado se muestra arriba), le permite proporcionar una imagen fija para basar el video generado y le permite solicitar estilos para ser aplicado a sus videos, también.
Este último también fue un tema de las demostraciones recientes de Adobe Firefly, que mostraron cuánto más fácil será la IA para editar videos. En programas como Adobe Premiere Rush, pronto podrá escribir la hora del día o la estación que desea ver en su video y la IA de Adobe hará el resto.
Las demostraciones recientes de Nvidia, Google y Runway muestran que la generación completa de texto a video se encuentra en un estado un poco más nebuloso, a menudo creando resultados extraños, de ensueño o distorsionados. Pero, por ahora, eso funcionará bien para nuestro juego GIF, y las rápidas mejoras que harán que la tecnología sea adecuada para videos más largos seguramente están a la vuelta de la esquina.