Sora de OpenAI convierte las indicaciones de IA en vídeos fotorrealistas


Ya sabemos que los chatbots de OpenAI pueden aprobar el examen de la abogacía sin tener que ir a la facultad de derecho. Ahora, justo a tiempo para los Oscar, una nueva aplicación OpenAI llamada Sora espera dominar el cine sin tener que ir a la escuela de cine. Sora, por ahora un producto de investigación, se dirigirá a unos pocos creadores selectos y a una serie de expertos en seguridad que lo reunirán en equipo para detectar vulnerabilidades de seguridad. OpenAI planea ponerlo a disposición de todos los aspirantes a autores en alguna fecha no especificada, pero decidió obtener una vista previa de él con anticipación.

Otras empresas, desde gigantes como Google hasta nuevas empresas como Runway, ya han revelado proyectos de inteligencia artificial de texto a video. Pero OpenAI dice que Sora se distingue por su sorprendente fotorrealismo (algo que no he visto en sus competidores) y su capacidad para producir clips más largos que los fragmentos breves que normalmente hacen otros modelos, hasta un minuto. Los investigadores con los que hablé no dijeron cuánto tiempo lleva renderizar todo ese video, pero cuando se les presionó, lo describieron más como «salir a tomar un burrito» que como «tomarse unos días libres». € Si hay que creer en los ejemplos cuidadosamente seleccionados que vi, el esfuerzo vale la pena.

OpenAI no me permitió ingresar mis propias indicaciones, pero compartió cuatro instancias del poder de Sora. (Ninguno se acercó al supuesto límite de un minuto; el más largo fue de 17 segundos). El primero provino de un mensaje detallado que sonó como la configuración de un guionista obsesivo: “La hermosa y nevada ciudad de Tokio está llena de actividad”. La cámara se mueve por las bulliciosas calles de la ciudad, siguiendo a varias personas disfrutando del hermoso clima nevado y comprando en los puestos cercanos. Preciosos pétalos de sakura vuelan con el viento junto con los copos de nieve”.

Vídeo generado por IA realizado con Sora de OpenAI.

Cortesía de OpenAI

El resultado es una visión convincente de lo que es inconfundiblemente Tokio, en ese momento mágico en el que conviven los copos de nieve y los cerezos en flor. La cámara virtual, como si estuviera fijada a un dron, sigue a una pareja mientras pasean lentamente por un paisaje urbano. Uno de los transeúntes lleva una máscara. Los coches pasan ruidosamente por una carretera junto al río a su izquierda y, a la derecha, los compradores entran y salen de una hilera de pequeñas tiendas.

No es perfecto. Sólo cuando miras el clip varias veces te das cuenta de que los personajes principales (una pareja paseando por la acera cubierta de nieve) se habrían enfrentado a un dilema si la cámara virtual hubiera seguido funcionando. La acera que ocupan parece un callejón sin salida; Habrían tenido que pasar por encima de una pequeña barandilla hasta llegar a un extraño pasillo paralelo a su derecha. A pesar de este leve fallo, el ejemplo de Tokio es un ejercicio alucinante de construcción del mundo. Más adelante, los diseñadores de producción debatirán si se trata de un colaborador poderoso o de un asesino de empleos. Además, las personas en este video, que están generadas completamente por una red neuronal digital, no se muestran en primer plano y no muestran ninguna emoción. Pero el equipo de Sora dice que en otros casos han tenido actores falsos que muestran emociones reales.

Los otros clips también son impresionantes, en particular uno que pide «una escena animada de un monstruo bajito y esponjoso arrodillado junto a una vela roja», junto con algunas instrucciones escénicas detalladas («ojos muy abiertos y boca abierta») y una descripción de la escena. ambiente deseado del clip. Sora produce una criatura al estilo Pixar que parece tener ADN de Furby, Gremlin y Sully en Monstruos inc. Recuerdo que cuando se estrenó esa última película, Pixar dio mucha importancia a lo difícil que era crear la textura ultracompleja del pelaje de un monstruo mientras la criatura se movía. A todos los magos de Pixar les llevó meses hacerlo bien. La nueva máquina de conversión de texto a video de OpenAI… simplemente lo hizo.

«Aprende sobre la geometría y la consistencia 3D», dice sobre ese logro Tim Brooks, científico investigador del proyecto. «No lo incorporamos, simplemente surgió completamente al ver una gran cantidad de datos».

Video generado por IA realizado con el mensaje: «La escena animada presenta un primer plano de un monstruo bajo y esponjoso arrodillado junto a una vela roja que se derrite». El estilo artístico es 3D y realista, con especial atención a la iluminación y la textura. El ambiente de la pintura es de asombro y curiosidad, mientras el monstruo mira la llama con los ojos muy abiertos y la boca abierta. su pose y expresión transmiten una sensación de inocencia y alegría, como si estuviera explorando el mundo que lo rodea por primera vez. el uso de colores cálidos y una iluminación espectacular realza aún más la atmósfera acogedora de la imagen”.

Cortesía de OpenAI

Si bien las escenas son ciertamente impresionantes, las capacidades más sorprendentes de Sora son aquellas para las que no ha sido entrenado. Impulsado por una versión del modelo de difusión utilizado por el generador de imágenes Dalle-3 de OpenAI, así como por el motor basado en transformador de GPT-4, Sora no solo produce videos que cumplen con las demandas de las indicaciones, sino que también lo hace. de una manera que muestra una comprensión emergente de la gramática cinematográfica.

Eso se traduce en un don para contar historias. En otro vídeo que se creó a partir de una petición para «un mundo de papel magníficamente representado de un arrecife de coral, plagado de peces coloridos y criaturas marinas». Bill Peebles, otro investigador del proyecto, señala que Sora creó una narrativa impulsada por sus ángulos de cámara y sincronización. «En realidad, hay múltiples cambios de toma; estos no están unidos, sino que el modelo los genera de una sola vez», dice. «No le dijimos que hiciera eso, simplemente lo hizo automáticamente».

Vídeo generado por IA realizado con el mensaje «un mundo de papel magníficamente renderizado de un arrecife de coral, plagado de peces de colores y criaturas marinas».Cortesía de OpenAI

En otro ejemplo que no vi, se le pidió a Sora que diera un recorrido por un zoológico. «Comenzó con el nombre del zoológico en un gran cartel, fue desplazándose gradualmente hacia abajo y luego tuvo una serie de cambios de toma para mostrar los diferentes animales que viven en el zoológico», dice Peebles, «lo hizo en una manera agradable y cinematográfica que no se le había ordenado explícitamente que hiciera”.

Una característica de Sora que el equipo de OpenAI no mostró, y que puede que no lance durante bastante tiempo, es la capacidad de generar vídeos a partir de una sola imagen o una secuencia de fotogramas. «Esta será otra forma realmente interesante de mejorar las capacidades de narración», dice Brooks. «Puedes dibujar exactamente lo que tienes en mente y luego darle vida». OpenAI es consciente de que esta característica también tiene el potencial de producir deepfakes y desinformación. «Vamos a tener mucho cuidado con todas las implicaciones de seguridad que esto conlleva», añade Peebles.



Source link-46