La IA de estabilidad entra en el juego de la generación de vídeos


Startups de IA que no lo son Al parecer, OpenAI se está desconectando esta semana, apegándose a sus hojas de ruta de productos incluso cuando la cobertura del caos en OpenAI domina las ondas.

Ver: Stability AI, que esta tarde anunció Stable Video Diffusion, un modelo de IA que genera videos animando imágenes existentes. Basado en el modelo de texto a imagen Stable Diffusion existente de Stability, Stable Video Diffusion es uno de los pocos modelos de generación de video disponibles en código abierto, o comercialmente, para el caso.

Pero no para todos.

Stable Video Diffusion se encuentra actualmente en lo que Stability describe como una «vista previa de la investigación». Aquellos que deseen ejecutar el modelo deben aceptar ciertos términos de uso, que describen las aplicaciones previstas de Stable Video Diffusion (por ejemplo, “herramientas educativas o creativas”, “diseño y otros procesos artísticos”, etc.) y las no previstas (“ representaciones fácticas o verdaderas de personas o eventos”).

Dado cómo han sido históricamente otros avances de investigaciones de IA, incluido el de Stability, a este escritor no le sorprendería ver que el modelo comience a circular en la web oscura en poco tiempo. Si es así, me preocuparía la forma en que se podría abusar de Stable Video, dado que no parece tener un filtro de contenido incorporado. Cuando se lanzó Stable Diffusion, no pasó mucho tiempo antes de que actores con intenciones cuestionables lo usaran para crear pornografía deepfake no consensuada, y cosas peores.

Pero yo divago.

En realidad, Stable Video Diffusion viene en forma de dos modelos: SVD y SVD-XT. El primero, SVD, transforma imágenes fijas en vídeos de 576×1024 en 14 fotogramas. SVD-XT usa la misma arquitectura, pero aumenta los cuadros a 24. Ambos pueden generar videos entre tres y 30 cuadros por segundo.

Según un documento técnico publicado junto con Stable Video Diffusion, SVD y SVD-XT se entrenaron inicialmente en un conjunto de datos de millones de videos y luego se «ajustaron» en un conjunto mucho más pequeño de cientos de miles a alrededor de un millón de clips. No está inmediatamente claro de dónde vinieron esos videos (el documento implica que muchos provenían de conjuntos de datos de investigación públicos), por lo que es imposible saber si alguno estaba protegido por derechos de autor. Si lo fueran, podría exponer a los usuarios de Stability and Stable Video Diffusion a desafíos legales y éticos en torno a los derechos de uso. El tiempo dirá.

Créditos de imagen: Estabilidad IA

Cualquiera que sea la fuente de los datos de entrenamiento, los modelos (tanto SVD como SVD-XT) generan clips de cuatro segundos de bastante alta calidad. Según la estimación de este escritor, las muestras cuidadosamente seleccionadas en el blog de Stability podrían ir a la par con los resultados del reciente modelo de generación de video de Meta, así como con los ejemplos producidos por IA que hemos visto de Google y las nuevas empresas de IA Runway y Pika Labs.

Pero la difusión de vídeo estable tiene limitaciones. La estabilidad es transparente al respecto, escribiendo en las páginas Hugging Face de los modelos, las páginas desde donde los investigadores pueden solicitar acceso a Stable Video Diffusion, que los modelos no pueden generar videos sin movimiento o movimientos lentos de la cámara, ser controlados por texto, renderizar texto ( al menos no legible) o generar consistentemente rostros y personas «adecuadamente».

Aún así, aunque es temprano, Stability señala que los modelos son bastante extensibles y se pueden adaptar a casos de uso como generar vistas de objetos de 360 ​​grados.

Entonces, ¿en qué podría evolucionar la difusión de vídeo estable? Bueno, Stability dice que está planeando «una variedad» de modelos que «se basan y amplían» SVD y SVD-XT, así como una herramienta de «texto a video» que traerá mensajes de texto a los modelos en la web. El objetivo final parece ser la comercialización: Stability señala con razón que Stable Video Diffusion tiene aplicaciones potenciales en “publicidad, educación, entretenimiento y más”.

Ciertamente, la estabilidad está buscando un éxito a medida que los inversores en la startup aumentan la presión.

En abril, Semafor informó que Stability AI estaba quemando dinero en efectivo, lo que provocó una búsqueda de ejecutivos para aumentar las ventas. Según Forbes, la compañía ha retrasado repetidamente o no ha pagado salarios e impuestos sobre la nómina, lo que llevó a AWS, que Stability utiliza para la computación para entrenar sus modelos, a amenazar con revocar el acceso de Stability a sus instancias de GPU.

Difusión de vídeo estable

Créditos de imagen: Estabilidad IA

Stability AI recaudó recientemente 25 millones de dólares a través de una nota convertible (es decir, deuda que se convierte en capital), lo que eleva el total recaudado a más de 125 millones de dólares. Pero no ha cerrado nueva financiación con una valoración más alta; La startup fue valorada por última vez en mil millones de dólares. Se decía que la estabilidad buscaría cuadriplicar esa cifra en los próximos meses, a pesar de los ingresos persistentemente bajos y una alta tasa de quema.

Stability sufrió otro golpe recientemente con la salida de Ed Newton-Rex, quien había sido vicepresidente de audio en la startup durante poco más de un año y desempeñó un papel fundamental en el lanzamiento de la herramienta de generación de música de Stability, Stable Audio. En una carta pública, Newton-Rex dijo que dejó Stability por un desacuerdo sobre los derechos de autor y cómo los datos protegidos por derechos de autor deberían (y no deberían) usarse para entrenar modelos de IA.



Source link-48