Meta está ofreciendo un servicio de generación de video AI a través de Twitter en este momento llamado Make-A-Video. Aunque parece bastante horrendo en este momento, la cantidad de comentarios en solo un día sugiere que pronto la generación de imágenes con IA será reemplazada por la generación de videos con IA. Es un gran salto, con los investigadores ampliando los límites del arte generativo tal como lo conocemos, en particular, la cantidad de datos necesarios para dar vida a las imágenes.
«Con solo unas pocas palabras, este sistema de inteligencia artificial de última generación genera videos de alta calidad a partir de indicaciones de texto», escribe Meta AI en el tweet y solicita indicaciones. ¿El truco para evitar que se genere y publique en Twitter un montón de sangre y pornografía no regulada? Envíales el mensaje y ellos puede que publicar los resultados.
¡Nos complace presentar Make-A-Video, lo último en investigación de #GenerativeAI! Con solo unas pocas palabras, este sistema de inteligencia artificial de última generación genera videos de alta calidad a partir de indicaciones de texto. ¿Tiene una idea que desea ver? Responda con su aviso usando #MetaAI y compartiremos más resultados. pic.twitter.com/q8zjiwLBjb29 de septiembre de 2022
La alternativa a esperar a que el equipo Meta AI (probablemente marcado de por vida) seleccione potencialmente su aviso de los miles que ahora se acumulan en los comentarios es dirigirse al estudio Make-A-Video. (se abre en una pestaña nueva) y regístrese usando el formulario de Google para registrar su interés (se abre en una pestaña nueva) en la herramienta
El artículo de investigación adjunto (advertencia en PDF (se abre en una pestaña nueva)) llama al proceso Make-A-Video «un método efectivo que extiende un modelo T2I basado en difusión a T2V a través de un modelo de difusión factorizado espaciotemporalmente». Esa es una forma elegante de decir que usaron una versión evolucionada del modelo de generación de texto a imagen de difusión para hacer que las imágenes se muevan.
«Si bien hay un progreso notable en la generación de T2I», se lee en el documento, «el progreso de la generación de T2V está rezagado en gran parte debido a dos razones principales: la falta de conjuntos de datos a gran escala con pares de texto y video de alta calidad y la complejidad de modelado de datos de video de mayor dimensión».
Esencialmente, el tamaño y la precisión de los conjuntos de datos necesarios para entrenar los modelos actuales de IA de texto a video son demasiado grandes para ser viables.
Lo sorprendente de esta evolución es que «no requiere datos emparejados de texto y video», señala el documento. Eso es diferente a muchos generadores de video e imágenes que se basan en galerías de contenido ya emparejadas con texto. «Esta es una ventaja significativa en comparación con el trabajo anterior», explica, ya que no está tan restringido y no requiere tantos datos para funcionar.
Hay algunas formas de usar la herramienta, ya sea rellenando el movimiento entre dos imágenes, simplemente agregando movimiento a una sola imagen o creando nuevas variaciones de un video basadas en el original. Los resultados son fascinantes. Son soñadores y psicodélicos, y se pueden generar en algunos estilos diferentes.
Claro, estos son un poco espeluznantes, especialmente cuando recuerdas que los resultados solo se volverán más realistas, pero una pequeña caminata a través de un valle inquietante nunca está de más antes de Halloween.