Google presenta Veo, un generador de vídeo con IA de alta definición que puede rivalizar con Sora


Agrandar / Imágenes fijas tomadas de vídeos generados por Google Veo.

Google / Benj Edwards

El martes en Google I/O 2024, Google anunció Veo, un nuevo modelo de síntesis de video con IA que puede crear videos HD a partir de texto, imágenes o indicaciones de video, similar a Sora de OpenAI. Puede generar videos de 1080p que duran más de un minuto y editar videos a partir de instrucciones escritas, pero aún no se ha lanzado para un uso amplio.

Según se informa, Veo incluye la capacidad de editar videos existentes usando comandos de texto, mantener la coherencia visual en todos los fotogramas y generar secuencias de video que duran hasta 60 segundos y más a partir de un solo mensaje o una serie de mensajes que forman una narrativa. La compañía dice que puede generar escenas detalladas y aplicar efectos cinematográficos como time-lapses, tomas aéreas y varios estilos visuales.

Desde el lanzamiento de DALL-E 2 en abril de 2022, hemos visto un desfile de nuevos modelos de síntesis de imágenes y síntesis de video que tienen como objetivo permitir que cualquiera que pueda escribir una descripción escrita cree una imagen o un video detallado. Si bien ninguna de las tecnologías se ha perfeccionado por completo, tanto los generadores de imágenes como de vídeo de IA se han vuelto cada vez más capaces.

En febrero, cubrimos una vista previa del generador de video Sora de OpenAI, que muchos en ese momento creían que representaba la mejor síntesis de video de IA que la industria podía ofrecer. Impresionó tanto a Tyler Perry que suspendió las ampliaciones de su estudio de cine. Sin embargo, hasta ahora, OpenAI no ha proporcionado acceso general a la herramienta; en cambio, ha limitado su uso a un grupo selecto de evaluadores.

Ahora, Veo de Google parece a primera vista ser capaz de generar hazañas de vídeo similares a las de Sora. No lo hemos probado nosotros mismos, por lo que solo podemos guiarnos por los videos de demostración cuidadosamente seleccionados que la compañía ha proporcionado en su sitio web. Eso significa que cualquiera que los vea debería tomar las afirmaciones de Google con cautela, porque los resultados de la generación pueden no ser los típicos.

Los videos de ejemplo de Veo incluyen un vaquero montando a caballo, un disparo rápido por una calle suburbana, kebabs asándose en una parrilla, un lapso de tiempo de la apertura de un girasol y más. Llama la atención la ausencia de representaciones detalladas de humanos, que históricamente han sido difíciles de generar para los modelos de imágenes y videos de IA sin deformaciones obvias.

Google dice que Veo se basa en los modelos de generación de video anteriores de la compañía, incluidos Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet y Lumiere. Para mejorar la calidad y la eficiencia, los datos de capacitación de Veo incluyen subtítulos de video más detallados y utiliza representaciones de video «latentes» comprimidas. Para mejorar la calidad de generación de videos de Veo, Google incluyó subtítulos más detallados para los videos utilizados para entrenar a Veo, lo que permitió a la IA interpretar las indicaciones con mayor precisión.

Veo también parece notable porque admite comandos de realización de películas: «Cuando se le da un comando de entrada de video y de edición, como agregar kayaks a una toma aérea de una costa, Veo puede aplicar este comando al video inicial y crear un video nuevo editado. » dice la empresa.

Si bien las demostraciones parecen impresionantes a primera vista (especialmente en comparación con Will Smith comiendo espaguetis), Google reconoce que la generación de videos con IA es difícil. «Mantener la coherencia visual puede ser un desafío para los modelos de generación de vídeo», escribe la empresa. «Los personajes, objetos o incluso escenas enteras pueden parpadear, saltar o transformarse inesperadamente entre fotogramas, alterando la experiencia visual».

Google ha tratado de mitigar esos inconvenientes con «transformadores de difusión latente de última generación», que son básicamente palabras de marketing sin sentido y sin detalles. Pero la compañía tiene tanta confianza en el modelo que está trabajando con el actor Donald Glover y su estudio, Gilga, para crear una película de demostración generada por IA que se estrenará pronto.

Inicialmente, creadores seleccionados podrán acceder a Veo a través de VideoFX, una nueva herramienta experimental disponible en el sitio web AI Test Kitchen de Google, labs.google. Los creadores pueden unirse a una lista de espera para que VideoFX pueda obtener acceso a las funciones de Veo en las próximas semanas. Google planea integrar algunas de las capacidades de Veo en YouTube Shorts y otros productos en el futuro.

Aún no se sabe de dónde obtuvo Google los datos de entrenamiento para Veo (si tuviéramos que adivinar, es probable que YouTube estuviera involucrado). Pero Google afirma que está adoptando un enfoque «responsable» con Veo. Según la compañía, «los videos creados por Veo tienen marcas de agua utilizando SynthID, nuestra herramienta de vanguardia para marcar e identificar contenido generado por IA, y pasan por filtros de seguridad y procesos de verificación de memorización que ayudan a mitigar los riesgos de privacidad, derechos de autor y sesgos».



Source link-49