La IA generativa de texto a video finalmente está aquí y es increíblemente extraña


Me gusta mi IA como me gustan mis variedades de quesos extranjeros, increíblemente extraños y llenos de agujeros, del tipo que deja la mayoría de las definiciones de «bueno» al gusto individual. Así que coloréame sorprendido mientras exploraba la próxima frontera de los modelos públicos de IA y encontré una de las experiencias más extrañas que tuve desde la extraña generación de IA. Seinfeld imitación nada, para siempre fue lanzado por primera vez.

Runway, una de las dos startups que nos ayudó a darnos el generador de arte de IA Stable Diffusionanunció el lunes que su primera prueba pública para su Modelo de video de IA Gen-2 iba a vivir pronto. La compañía hizo la asombrosa afirmación de que era el «primer modelo de texto a video disponible públicamente». Desafortunadamente, un grupo más oscuro con un modelo inicial de texto a video mucho más jankier puede haberle ganado a Runway.

Google y Meta ya están trabajando en sus propios generadores de texto a imagen, pero ninguna de las dos compañías ha sido muy comunicativa con ninguna noticia desde que se les mencionó por primera vez. Desde febrero, el equipo relativamente pequeño de 45 personas en Runway es conocido por sus herramientas de edición de video en línea, incluida su función de video a video. Modelo de IA Gen-1 que podría crear y transformar videos existentes basados ​​en indicaciones de texto o imágenes de referencia. Gen-1 podría transformar una simple representación de una figura de palo nadando en un buzo, o convertir a un hombre caminando en la calle en una pesadilla de plastilina con una superposición generada. Se supone que Gen-2 es el siguiente gran paso, ya que permite a los usuarios crear videos de 3 segundos desde cero basados ​​en indicaciones de texto simples. Si bien la compañía aún no ha permitido que nadie lo tenga en sus manos, compartió algunos clips basados ​​​​en indicaciones como «un primer plano de un ojo» y «una toma aérea de un paisaje montañoso».

Pocas personas ajenas a la empresa tienen podido experimente el nuevo modelo de Runway, pero si todavía anhela la generación de video AI, hay otra opción. la IA sistema de texto a video llamado ModelScope fue lanzado el fin de semana pasado y ya causó cierto revuelo por sus videoclips ocasionalmente incómodos y a menudo locos de 2 segundos. El DAMO Vision Intelligence Lab, una división de investigación del gigante del comercio electrónico Alibaba, creó el sistema como una especie de caso de prueba público. El sistema utiliza un modelo de difusión bastante básico para crear sus videos, según la compañía página describiendo su modelo de IA.

ModelScope es de código abierto y ya está disponible en cara de abrazo, aunque puede ser difícil hacer que el sistema funcione sin pagar una pequeña tarifa para ejecutar el sistema en un servidor GPU separado. Youtuber tecnológico matt wolfe tiene un buen tutorial sobre cómo configurar eso. Por supuesto, puede continuar y ejecutar el código usted mismo si tiene la habilidad técnica y la VRAM para admitirlo.

ModelScope es bastante evidente en cuanto al origen de sus datos. Muchos de estos videos generados contienen el contorno vago del logotipo de Shutterstock, lo que significa que los datos de capacitación probablemente incluyeron una porción considerable de videos e imágenes tomadas del sitio de fotos de archivo. Es un problema similar con otros generadores de imágenes de IA como Stable Diffusion. Getty Images ha demandado a Stability AIla compañía que sacó a la luz pública el generador de arte de IA, y notó cuántas imágenes de Stable Diffusion crean una versión corrupta de la marca de agua Getty.

Por supuesto, eso todavía no ha impedido que algunos usuarios hagan pequeñas películas usando la IA bastante incómoda, como esta Darth Vader de cara regordeta visitando un supermercado o de Spider-Man y un carpincho uniéndose para salvar el mundo.

En lo que respecta a Runway, el grupo busca hacerse un nombre en el cada vez más concurrido mundo de la investigación de IA. en su papel describiendo su Gen-1 Los investigadores de Runway dijeron que su modelo está entrenado tanto en imágenes como en video de un «conjunto de datos a gran escala» con datos de texto e imágenes junto con videos sin subtítulos. Esos investigadores descubrieron que simplemente faltaban conjuntos de datos de video y texto con la misma calidad que otros conjuntos de datos de imágenes con imágenes extraídas de Internet. Esto obliga a la empresa a derivar sus datos de los propios videos. Será interesante ver cómo se acumula la versión probablemente más pulida de texto a video de Runway, especialmente en comparación con cuando los grandes bateadores como Google muestran más de sus videos narrativos de formato más largo.

Si la nueva lista de espera Gen-2 de Runway es como la de Gen-1, entonces los usuarios pueden esperar algunas semanas antes de tener el sistema en sus manos. Mientras tanto, jugar con ModelScope puede ser una buena primera opción para aquellos que buscan interpretaciones de IA más extrañas. Por supuesto, esto es antes de que tengamos la mismas conversaciones sobre videos generados por IA que ahora hacemos sobre imágenes creadas por IA.

Las siguientes diapositivas son algunos de mis intentos de comparar Runway con ModelScope y también probar los límites de lo que puede hacer texto a imagen. Transformé las imágenes a formato GIF usando los mismos parámetros en cada una. La velocidad de fotogramas en los GIF es similar a la de los videos originales creados por IA.



Source link-45