Sora – Magazine Office

Google presenta Veo, un generador de vídeo con IA de alta definición que puede rivalizar con Sora

John — Fri, 17 May 2024 02:49:07 +0000

Agrandar / Imágenes fijas tomadas de vídeos generados por Google Veo.

Google / Benj Edwards

El martes en Google I/O 2024, Google anunció Veo, un nuevo modelo de síntesis de video con IA que puede crear videos HD a partir de texto, imágenes o indicaciones de video, similar a Sora de OpenAI. Puede generar videos de 1080p que duran más de un minuto y editar videos a partir de instrucciones escritas, pero aún no se ha lanzado para un uso amplio.

Según se informa, Veo incluye la capacidad de editar videos existentes usando comandos de texto, mantener la coherencia visual en todos los fotogramas y generar secuencias de video que duran hasta 60 segundos y más a partir de un solo mensaje o una serie de mensajes que forman una narrativa. La compañía dice que puede generar escenas detalladas y aplicar efectos cinematográficos como time-lapses, tomas aéreas y varios estilos visuales.

Desde el lanzamiento de DALL-E 2 en abril de 2022, hemos visto un desfile de nuevos modelos de síntesis de imágenes y síntesis de video que tienen como objetivo permitir que cualquiera que pueda escribir una descripción escrita cree una imagen o un video detallado. Si bien ninguna de las tecnologías se ha perfeccionado por completo, tanto los generadores de imágenes como de vídeo de IA se han vuelto cada vez más capaces.

En febrero, cubrimos una vista previa del generador de video Sora de OpenAI, que muchos en ese momento creían que representaba la mejor síntesis de video de IA que la industria podía ofrecer. Impresionó tanto a Tyler Perry que suspendió las ampliaciones de su estudio de cine. Sin embargo, hasta ahora, OpenAI no ha proporcionado acceso general a la herramienta; en cambio, ha limitado su uso a un grupo selecto de evaluadores.

Ahora, Veo de Google parece a primera vista ser capaz de generar hazañas de vídeo similares a las de Sora. No lo hemos probado nosotros mismos, por lo que solo podemos guiarnos por los videos de demostración cuidadosamente seleccionados que la compañía ha proporcionado en su sitio web. Eso significa que cualquiera que los vea debería tomar las afirmaciones de Google con cautela, porque los resultados de la generación pueden no ser los típicos.

Los videos de ejemplo de Veo incluyen un vaquero montando a caballo, un disparo rápido por una calle suburbana, kebabs asándose en una parrilla, un lapso de tiempo de la apertura de un girasol y más. Llama la atención la ausencia de representaciones detalladas de humanos, que históricamente han sido difíciles de generar para los modelos de imágenes y videos de IA sin deformaciones obvias.

Google dice que Veo se basa en los modelos de generación de video anteriores de la compañía, incluidos Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet y Lumiere. Para mejorar la calidad y la eficiencia, los datos de capacitación de Veo incluyen subtítulos de video más detallados y utiliza representaciones de video «latentes» comprimidas. Para mejorar la calidad de generación de videos de Veo, Google incluyó subtítulos más detallados para los videos utilizados para entrenar a Veo, lo que permitió a la IA interpretar las indicaciones con mayor precisión.

Veo también parece notable porque admite comandos de realización de películas: «Cuando se le da un comando de entrada de video y de edición, como agregar kayaks a una toma aérea de una costa, Veo puede aplicar este comando al video inicial y crear un video nuevo editado. » dice la empresa.

Si bien las demostraciones parecen impresionantes a primera vista (especialmente en comparación con Will Smith comiendo espaguetis), Google reconoce que la generación de videos con IA es difícil. «Mantener la coherencia visual puede ser un desafío para los modelos de generación de vídeo», escribe la empresa. «Los personajes, objetos o incluso escenas enteras pueden parpadear, saltar o transformarse inesperadamente entre fotogramas, alterando la experiencia visual».

Google ha tratado de mitigar esos inconvenientes con «transformadores de difusión latente de última generación», que son básicamente palabras de marketing sin sentido y sin detalles. Pero la compañía tiene tanta confianza en el modelo que está trabajando con el actor Donald Glover y su estudio, Gilga, para crear una película de demostración generada por IA que se estrenará pronto.

Inicialmente, creadores seleccionados podrán acceder a Veo a través de VideoFX, una nueva herramienta experimental disponible en el sitio web AI Test Kitchen de Google, labs.google. Los creadores pueden unirse a una lista de espera para que VideoFX pueda obtener acceso a las funciones de Veo en las próximas semanas. Google planea integrar algunas de las capacidades de Veo en YouTube Shorts y otros productos en el futuro.

Aún no se sabe de dónde obtuvo Google los datos de entrenamiento para Veo (si tuviéramos que adivinar, es probable que YouTube estuviera involucrado). Pero Google afirma que está adoptando un enfoque «responsable» con Veo. Según la compañía, «los videos creados por Veo tienen marcas de agua utilizando SynthID, nuestra herramienta de vanguardia para marcar e identificar contenido generado por IA, y pasan por filtros de seguridad y procesos de verificación de memorización que ayudan a mitigar los riesgos de privacidad, derechos de autor y sesgos».

Source link-49

Google lanza Veo, su generador de vídeo con IA que está aquí para enfrentarse a OpenAI Sora

John — Wed, 15 May 2024 02:48:52 +0000

El Google I/O de hoy fue difícil ya que la compañía habló sobre muchas funciones de inteligencia artificial que aparecerán en los próximos días, semanas y meses. Sundar Pichai incluso bromeó sobre cómo se usó la palabra «IA» 120 veces durante el evento. Sin embargo, no se puede negar que el gigante de Mountain View reveló algunas tecnologías realmente interesantes, y una de las tecnologías interesantes que debutó hoy fue Veo. Es la respuesta de Google a Sora de OpenAI, donde se trata del último generador de vídeo impulsado por IA y parece bastante impresionante.

Veo de Google es una de las herramientas impulsadas por IA más impresionantes que he visto en mucho tiempo

Google afirma que Veo permitirá a los usuarios crear clips de 1080p de alta calidad que duren más de 60 segundos. Otra gran ventaja es que puedes aprovechar esta nueva herramienta de inteligencia artificial con indicaciones de texto, imágenes y video, lo que la hace aún más poderosa y divertida de usar para aquellos que quieran experimentar con ella.

Mensaje: “Muchas medusas manchadas palpitando bajo el agua. Sus cuerpos son transparentes y brillan en las profundidades del océano”. pic.twitter.com/y9SmNd8NK0

-Google DeepMind (@GoogleDeepMind) 14 de mayo de 2024

Otra gran ventaja de Veo es que puede utilizar una amplia gama de estilos cinematográficos y comprende el lenguaje natural. Esto permite que el modelo comprenda varios términos que utilizamos en cinematografía, como «timelapse» y «tomas aéreas de un paisaje». El punto aquí es que Google ha creado algo que definitivamente es una herramienta increíble y la gente se divertirá mucho con ella.

Google ha declarado que los videos que se generarán con Veo serán más consistentes y coherentes, y tendrán detalles mucho más realistas que algunas de las otras herramientas. También le permitirá extender un video generado con solo hacer clic en un botón, lo que lo hace más viable en situaciones en las que no está de acuerdo con la duración del video que se ha generado. Además, los usuarios también podrán refinar los resultados agregando más indicaciones.

Google también ha hablado de cómo está explorando funciones que permitirán a Veo generar guiones gráficos y vídeos más largos, convirtiéndolo en uno de los mejores generadores de vídeos que existen. Si desea probarlo, el generador estará disponible para creadores seleccionados a finales de este año. Google también ha abierto una lista de espera que puedes consultar. Tenga en cuenta que los registros están limitados a regiones, por lo que es posible que no pueda comenzar. Google también ha hablado sobre cómo actualmente busca agregar algunas funciones de Veo a YouTube Shorts, pero realmente no podemos comentar cómo resultará.

Source link-29

Video de lanzamiento de IA: Sora de OpenAI contra Runway y Pika

John — Thu, 02 May 2024 02:55:16 +0000

PIE

OpenAI ha estado mostrando Sora, su modelo de generación de video con inteligencia artificial, a ejecutivos de la industria de los medios en las últimas semanas para generar entusiasmo y aliviar las preocupaciones sobre el potencial de la tecnología para alterar sectores específicos.

El Financial Times quería poner a prueba a Sora, junto con los sistemas de las empresas rivales de generación de vídeos de IA Runway y Pika.

Les pedimos a ejecutivos de publicidad, animación y bienes raíces que escribieran indicaciones para generar videos que pudieran usar en su trabajo. Luego les preguntamos su opinión sobre cómo esa tecnología podría transformar sus empleos en el futuro.

Sora aún no se ha lanzado al público, por lo que OpenAI modificó algunas de las indicaciones antes de enviar los clips resultantes, lo que, según dijo, resultó en videos de mejor calidad.

En Runway y Pika, las indicaciones iniciales y modificadas se ingresaron utilizando los modelos más avanzados de ambas compañías. Aquí están los resultados.

Charlotte Bunyan, cofundadora de Arq, consultora de publicidad de marcas

Versión revisada de OpenAI del mensaje de Bunyan de crear una campaña para un “conocido supermercado callejero”:

Vídeos de Pike y Runway basados en el mensaje original de Bunyan:

“La presentación de las personas por parte de Sora fue consistente, mientras que la visualización real del fantástico patio de juegos se representó fielmente en términos de descripciones de los diferentes elementos, que otros no lograron generar.

“Es interesante que OpenAI haya cambiado ‘niños’ por ‘personas’ y me encantaría saber por qué. ¿Es una cuestión de salvaguardia? ¿Es más difícil representar a los niños porque no han sido capacitados en tantos? Optaron por «personas» en lugar de un hombre caucásico con barba y cabello castaño, que es lo que realmente generó Sora, lo que plantea dudas sobre el sesgo.

Source link-49

Los creadores del corto impulsado por Sora explican las fortalezas y limitaciones del video generado por IA

John — Mon, 29 Apr 2024 02:26:24 +0000

La herramienta de generación de vídeo de OpenAI, Sora, tomó por sorpresa a la comunidad de IA en febrero con un vídeo fluido y realista que parece estar muy por delante de la competencia. Pero el debut cuidadosamente organizado omitió muchos detalles, detalles que fueron completados por un cineasta al que se le dio acceso temprano para crear un corto con Sora.

Shy Kids es un equipo de producción digital con sede en Toronto que fue elegido por OpenAI como uno de los pocos para producir cortometrajes esencialmente con fines promocionales de OpenAI, aunque se les dio una considerable libertad creativa para crear «cabeza de aire». En una entrevista con el medio de noticias de efectos visuales fxguide, el artista de postproducción Patrick Cederberg describió “realmente usar a Sora” como parte de su trabajo.

Quizás la conclusión más importante para la mayoría es simplemente esta: si bien la publicación de OpenAI que destaca los cortos permite al lector asumir que surgieron más o menos completamente formados de Sora, la realidad es que se trataba de producciones profesionales, completas con un guión gráfico sólido, edición, corrección de color, y trabajos posteriores como rotoscopia y VFX. Así como Apple dice «filmado con iPhone» pero no muestra la configuración del estudio, la iluminación profesional y el trabajo de color después del hecho, la publicación de Sora solo habla de lo que permite hacer a las personas, no de cómo lo hicieron realmente.

La entrevista de Cederberg es interesante y nada técnica, así que si estás interesado en algo, dirígete a fxguide y léela. Pero aquí hay algunas cosas interesantes sobre el uso de Sora que nos dicen que, por muy impresionante que sea, el modelo quizás sea un paso de gigante menor de lo que pensábamos.

El control sigue siendo lo más deseable y también lo más difícil de alcanzar en este momento. … Lo más cerca que pudimos llegar fue simplemente ser hiperdescriptivos en nuestras indicaciones. Explicar el vestuario de los personajes, así como el tipo de globo, fue nuestra forma de lograr la coherencia porque, plano a plano/generación en generación, todavía no existe la característica establecida para un control total sobre la coherencia.

En otras palabras, cuestiones que son simples en el cine tradicional, como elegir el color de la ropa de un personaje, requieren soluciones y controles elaborados en un sistema generativo, porque cada plano se crea independientemente de los demás. Obviamente, eso podría cambiar, pero ciertamente es mucho más laborioso en este momento.

Las salidas de Sora también debían ser vigiladas para detectar elementos no deseados: Cederberg describió cómo el modelo generaba rutinariamente una cara en el globo que el personaje principal tiene como cabeza, o una cuerda colgando del frente. Estos debían eliminarse en la publicación, otro proceso que requería mucho tiempo, si no recibían el mensaje para excluirlos.

La sincronización y los movimientos precisos de los personajes o de la cámara no son realmente posibles: «Hay un poco de control temporal sobre dónde ocurren estas diferentes acciones en la generación real, pero no es preciso… es una especie de toma en la oscuridad», dijo Cederberg.

Por ejemplo, cronometrar un gesto como un saludo es un proceso muy aproximado basado en sugerencias, a diferencia de las animaciones manuales. Y una toma como una panorámica hacia arriba en el cuerpo del personaje puede reflejar o no lo que quiere el cineasta, por lo que en este caso el equipo renderizó una toma compuesta en orientación vertical y recortó una panorámica en la posproducción. Los clips generados también a menudo estaban en cámara lenta sin ningún motivo en particular.

Ejemplo de un disparo como salió de Sora y cómo acabó en el corto. Créditos de imagen: niños tímidos

De hecho, el uso del lenguaje cotidiano del cine, como “panorámica hacia la derecha” o “plano de seguimiento”, era inconsistente en general, dijo Cederberg, lo que el equipo encontró bastante sorprendente.

«Los investigadores, antes de acercarse a los artistas para que jugaran con la herramienta, en realidad no habían pensado como cineastas», dijo.

Como resultado, el equipo hizo cientos de generaciones, cada una de 10 a 20 segundos, y terminó usando solo un puñado. Cederberg estimó la proporción en 300:1, pero, por supuesto, probablemente a todos nos sorprendería la proporción en una sesión normal.

De hecho, el equipo hizo un pequeño video detrás de escena explicando algunos de los problemas que encontraron, si tiene curiosidad. Como gran parte del contenido adyacente a la IA, los comentarios son bastante críticos con todo el esfuerzo, aunque no tan vituperantes como el anuncio asistido por IA que vimos ridiculizado recientemente.

El último aspecto interesante tiene que ver con los derechos de autor: si le pides a Sora que te dé un clip de “Star Wars”, se negará. Y si intentas eludirlo con “un hombre vestido con una espada láser en una nave espacial retrofuturista”, también se negará, ya que mediante algún mecanismo reconoce lo que estás tratando de hacer. También se negó a hacer un “plano tipo Aronofsky” o un “zoom de Hitchcock”.

Por un lado, tiene mucho sentido. Pero sí plantea la pregunta: si Sora sabe cuáles son, ¿eso significa que el modelo fue entrenado en ese contenido para reconocer mejor que está infringiendo? OpenAI, que mantiene sus tarjetas de datos de entrenamiento en secreto, hasta el punto del absurdo, como ocurre con Entrevista de la CTO Mira Murati con Joanna Stern – Es casi seguro que nunca nos lo dirá.

En cuanto a Sora y su uso en la realización cinematográfica, es claramente una herramienta poderosa y útil en su lugar, pero su lugar no es «crear películas de la nada». Todavía. Como dijo una vez otro villano, «eso viene después».

Source link-48

Adobe Premiere Pro está obteniendo herramientas de video de IA generativa y, con suerte, Sora de OpenAI

John — Mon, 15 Apr 2024 13:52:33 +0000

Adobe está trabajando en un modelo de video de IA generativa para su familia Firefly que traerá nuevas herramientas a su plataforma de edición de vídeo Premiere Pro. Estas nuevas herramientas Firefly, junto con algunas integraciones propuestas de terceros con Runway, Pika Labs y los modelos Sora de OpenAI, permitirán a los usuarios de Premiere Pro generar videos y agregar o eliminar objetos mediante mensajes de texto (al igual que Función de relleno generativo de Photoshop) y ampliar la duración de los videoclips.

A diferencia de muchos de los anteriores de Adobe Anuncios relacionados con Firefly, no se ha establecido ninguna fecha de lanzamiento (beta o no) para las nuevas herramientas de generación de video de la compañía, solo que se implementarán «este año». Y aunque el gigante del software creativo mostró de qué es capaz actualmente su propio modelo de video en una demostración de video inicial, sus planes de integrar Premiere Pro con modelos de inteligencia artificial de otros proveedores no son una certeza.

a: flotar]:text-gray-63 [&>a:hover]:sombra-subrayado-negro oscuro:[&>a:hover]:texto-gris-bd oscuro:[&>a:hover]:sombra-subrayado-gris [&>a]:sombra-subrayado-gris-63 oscuro:[&>a]:texto-gris-bd oscuro:[&>a]:sombra-subrayado-gris»>Imagen: Adobe

En cambio, Adobe llama a las integraciones de IA de terceros en su vista previa de video una «exploración temprana» de cómo se verán «en el futuro». La idea es ofrecer a los usuarios de Premiere Pro más opciones, según Adobe, permitiéndoles utilizar modelos como Pika para ampliar tomas o Sora o Runway AI al generar B-roll para sus proyectos. Adobe también dice que su Etiquetas de credenciales de contenido se puede aplicar a estos clips generados para identificar qué modelos de IA se han utilizado para generarlos.

Sin embargo, la medida para fomentar asociaciones con empresas de inteligencia artificial de terceros parece obvia, independientemente de lo lejos que pueda estar. Las capacidades generacionales que hemos visto desde Sora de OpenAI parecen sacar otras ofertas del agua, mucho mejor que la vista previa que Adobe dio de su próximo modelo de video Firefly.

Mientras tanto, la principal ventaja de Adobe sobre sus competidores es la integración de sus propios modelos Firefly en su ecosistema de software, que ya son ampliamente utilizados por los profesionales creativos. La integración de modelos de IA de terceros parece una obviedad, tanto para la retención de Adobe como para las empresas de IA que quieren mejorar sus herramientas. más accesible para los profesionales creativos quién de otro modo no pasaría a una aplicación dedicada separada.

Source link-37

OpenAI muestra el generador de vídeo Sora AI a los ejecutivos de Hollywood

John — Fri, 29 Mar 2024 22:51:00 +0000

OpenAI ha lanzado una ofensiva de encanto en Hollywood, celebrando reuniones con importantes estudios, incluidos Paramount, Universal y Warner Bros Discovery, para mostrar su tecnología de generación de vídeo Sora y disipar los temores de que el modelo de inteligencia artificial perjudique a la industria cinematográfica.

El director ejecutivo Sam Altman y el director de operaciones Brad Lightcap hicieron presentaciones a ejecutivos de los gigantes de la industria cinematográfica, dijeron varias personas con conocimiento de las reuniones que tuvieron lugar en los últimos días.

Altman y Lightcap mostraron Sora, un nuevo modelo de IA generativa que puede crear videos detallados a partir de simples indicaciones escritas.

La tecnología llamó la atención de Hollywood por primera vez después de que OpenAI publicara una selección de vídeos producidos por la modelo el mes pasado. Los clips rápidamente se volvieron virales en línea y han dado lugar a un debate sobre el impacto potencial del modelo en las industrias creativas.

«Sora está causando un enorme entusiasmo», dijo la analista de medios Claire Enders. «Existe la sensación de que revolucionará la realización de películas, reducirá el coste de producción y la demanda de [computer-generated imagery] Muy fuerte.»

Video generado por IA de un gato y un humano, generado a través del modelo de generación de video Sora.

Los involucrados en las reuniones dijeron que OpenAI estaba buscando opiniones de los jefes de la película sobre cómo debería implementarse Sora. Algunos de los que vieron las demostraciones dijeron que podían ver cómo Sora o productos de inteligencia artificial similares podrían ahorrar tiempo y dinero en la producción, pero agregaron que la tecnología necesitaba un mayor desarrollo.

Los acercamientos de OpenAI a los estudios llegan en un momento delicado en Hollywood. Las huelgas del año pasado, que duraron meses, terminaron cuando el Writers Guild of America y el Screen Actors Guild obtuvieron protecciones innovadoras contra la IA en sus contratos. Este año, se están llevando a cabo negociaciones contractuales con la Alianza Internacional de Empleados de Escenarios Teatrales, y se espera que la IA vuelva a ser un tema candente.

A principios de esta semana, OpenAI lanzó nuevos videos de Sora generados por varios artistas y directores visuales, incluidos cortometrajes, así como sus impresiones sobre la tecnología. El modelo tendrá como objetivo competir con varios servicios de conversión de texto a video disponibles en empresas emergentes, incluidos Runway, Pika y Stability AI. Estos otros servicios ya ofrecen usos comerciales para el contenido.

Un vídeo generado por IA de Sora de un perro.

Sin embargo, Sora no ha sido ampliamente liberada. OpenAI ha pospuesto el anuncio de una fecha de lanzamiento o las circunstancias bajo las cuales estará disponible. Una persona con conocimiento de su estrategia dijo que la empresa estaba decidiendo cómo comercializar la tecnología. Otra persona dijo que aún había que tomar medidas de seguridad antes de que la empresa considerara incluir Sora en un producto.

OpenAI también está trabajando para mejorar el sistema. Actualmente, Sora solo puede hacer videos de menos de un minuto de duración y sus creaciones tienen limitaciones, como que el vidrio rebote en el suelo en lugar de romperse o agregue extremidades adicionales a personas y animales.

Algunos estudios parecían abiertos a utilizar a Sora en el cine o la producción de televisión en el futuro, pero aún no se han discutido las licencias ni las asociaciones, dijeron personas involucradas en las conversaciones.

«No ha habido reuniones con OpenAI sobre asociaciones», dijo un ejecutivo de un estudio. “Han hecho demostraciones, al igual que Apple ha estado haciendo demostraciones del Vision Pro [mixed-reality headset]. Están tratando de entusiasmar a la gente”.

OpenAI ha estado presentando el modelo de una “manera muy controlada” a “las industrias que probablemente se verán afectadas primero”, dijo una persona cercana a OpenAI.

El analista de medios Enders dijo que la recepción de Sora por parte de la industria cinematográfica había sido ampliamente optimista, ya que «se ve completamente como un elemento de ahorro de costos, en lugar de impactar el espíritu creativo de la narración».

OpenAI se negó a hacer comentarios.

Un vídeo generado por IA de Sora de una mujer caminando por una calle de Tokio.

Source link-49

OpenAI se dirige a Hollywood para presentar el revolucionario “Sora”

John — Sun, 24 Mar 2024 03:30:48 +0000

Algunas de las reuniones más importantes en la historia de Hollywood tendrán lugar la próxima semana, cuando OpenAI llegue a Hollywood para mostrar el potencial de su software “Sora” a estudios, agencias de talentos y ejecutivos de medios.

Bloomberg informa que OpenAI quiere que más cineastas se familiaricen con Sora, el generador de texto a video que potencialmente podría cambiar la forma en que se hacen las películas.

El productor Tyler Perry ya lo vio en acción y quedó tan impresionado que suspendió los planes para una expansión del estudio de 800 millones de dólares en su base de Atlanta.

“Que te digan que puede hacer todas estas cosas es una cosa, pero ver sus capacidades fue alucinante”, dijo en una entrevista anterior. Si bien el empresario que hay en él ve la oportunidad, también expresó su preocupación por las personas que trabajan en el negocio. “Tiene que haber algún tipo de regulación para protegernos. Si no, simplemente no veo cómo sobreviviremos”.

Es probable que Sora sea lanzado al público a finales de este año.

Bloomberg informa que las discusiones de OpenAI son solo la última ronda de conversaciones, según fuentes familiarizadas con ellas.

Se desconocen los detalles específicos. Un portavoz de la compañía dio a Bloomberg una respuesta vaga sobre sus planes: “OpenAI tiene una estrategia deliberada de trabajar en colaboración con la industria a través de un proceso de implementación iterativa (implementando los avances de la IA en fases) para garantizar una implementación segura y brindar a las personas una oportunidad. idea de lo que hay en el horizonte. Esperamos un diálogo continuo con artistas y creativos”.

El potencial de la IA para revolucionar la industria no es una sorpresa. Sus efectos fueron prominentes en las negociaciones relacionadas con la huelga de escritores de Hollywood del año pasado.

Source link-18

Un nuevo modelo de IA de vanguardia cuenta con velocidades de generación de imágenes ultrarrápidas y capacidades de video Sora de OpenAI, sin necesidad de GPU potentes ni hardware de alta gama.

John — Thu, 29 Feb 2024 20:27:27 +0000

Lo que necesitas saber

Los científicos coreanos desarrollaron recientemente un nuevo modelo de generación de imágenes mediante IA llamado KOALA.
A diferencia de otros modelos como Image Creator de Designer de Microsoft, la herramienta hace alarde de velocidades de generación de imágenes más rápidas.
Aprovecha una nueva técnica denominada destilación de conocimientos, que comprime el tamaño de una herramienta de generación de imágenes de código abierto llamada Stable Diffusion XL.
De esta manera, puede generar imágenes más rápido, incluso en PC antiguas con GPU obsoletas.

Un nuevo generador de imágenes impulsado por IA está en el horizonte y podría potencialmente asumir Creador de imágenes de Microsoft de Designer (anteriormente Bing Image Creator), Midjourney y Modelo DALL-E 3 de OpenAI.

La nueva herramienta puede generar imágenes en menos de dos segundos, significativamente más rápido que una herramienta de generación de imágenes promedio. Según un spot de Ciencia vivalos científicos surcoreanos detrás de este nuevo invento aprovecharon una nueva técnica denominada destilación de conocimiento, que comprime el tamaño de una herramienta de generación de imágenes de código abierto llamada Stable Diffusion XL.

(Crédito de la imagen: Windows Central / Bing Image Creator)

A modo de contexto, Stable Diffusion XL presenta hasta 2,56 mil millones de parámetros. Como ya sabrás, la IA depende en gran medida del contenido existente, incluidas las imágenes, para su formación. Este gran conjunto de parámetros explica por qué generar imágenes puede llevar un poco de tiempo. Sin embargo, con esta nueva técnica, los científicos redujeron los parámetros de su modelo más pequeño, el KOALA, a 700 millones.

Como tal, la herramienta puede generar imágenes en una fracción de segundo. El modelo de generación de imágenes no requiere GPU de alta gama ni dispositivos sofisticados para funcionar sin problemas. Sólo requiere unos 8 GB de RAM para generar imágenes. Esencialmente, la técnica de destilación de conocimientos filtra la información del modelo grande al más pequeño sin afectar la calidad o el rendimiento. De esta forma, el modelo más pequeño es capaz de generar imágenes de calidad más rápido.

RELACIONADO: La velocidad de generación de imágenes de Microsoft Image Creator es insoportablemente dolorosa

De acuerdo a puntos de referencia compartidos por los científicosKOALA es significativamente más rápido que DALL-E 3 de OpenAI o DALL-E 2 modelos. Cuando se le pidió que generara «una imagen de un astronauta leyendo un libro bajo la luna en Marte», la primera tardó 13,7 segundos y la segunda 12,3 segundos. KOALA sólo tardó 1,6 segundos en generar la imagen.

Hay cinco versiones de KOALA. Tres versiones del modelo generan imágenes basadas en indicaciones de texto, mientras que las dos versiones restantes (Ko-LLaVA) pueden generar imágenes y videos (muy parecido a Modelo Sora de OpenAI).

Los científicos coreanos del Instituto de Investigación en Electrónica y Telecomunicaciones (ETRI) compartieron su trabajo y sus hallazgos en el repositorio de IA de código abierto. abrazando la cara y el base de datos arXiv.

Los científicos tienen la intención de integrar estos modelos en los servicios de generación de imágenes, producción de contenido y más existentes.

Source link-40

Tyler Perry suspende la expansión del estudio por 800 millones de dólares debido a Sora de OpenAI

John — Sat, 24 Feb 2024 15:15:09 +0000

Agrandar / Tyler Perry en 2022.

En una entrevista con The Hollywood Reporter publicada el jueves, el cineasta Tyler Perry habló sobre sus preocupaciones relacionadas con el impacto de la síntesis de vídeo con IA en los trabajos de la industria del entretenimiento. En particular, reveló que ha suspendido una expansión planificada de 800 millones de dólares de su estudio de producción después de ver lo que Sora, el recientemente anunciado generador de vídeo de IA de OpenAI, puede hacer.

«He estado observando la IA muy de cerca», dijo Perry en la entrevista. «Estaba en medio, y he estado planeando durante los últimos cuatro años… una expansión de $800 millones en el estudio, lo que habría aumentado el backlot en un tamaño tremendo; estábamos agregando 12 escenarios de sonido más. Todo eso es Actualmente e indefinidamente en espera debido a Sora y lo que estoy viendo. Me habían informado durante el último año de que esto iba a suceder, pero no tenía idea hasta que vi recientemente las demostraciones de lo que es capaz de hacer. Es impactante. a mi.»

OpenAI, la compañía detrás de ChatGPT, reveló una vista previa de las capacidades de Sora la semana pasada. Sora es un modelo de síntesis de texto a video y utiliza una red neuronal, previamente entrenada con ejemplos de video, que puede tomar descripciones escritas de una escena y convertirlas en videoclips de alta definición de hasta 60 segundos de duración. Sora causó conmoción en el mundo de la tecnología porque parecía superar dramáticamente en capacidad a otros generadores de video de IA. Parece que una conmoción similar también se extendió a los campos profesionales adyacentes. «Que te digan que puede hacer todas estas cosas es una cosa, pero ver sus capacidades fue alucinante», dijo Perry en la entrevista.

Tyler Perry Studios, que el actor y productor adquirió en 2015, es un terreno de 330 acres ubicado en Atlanta y es una de las instalaciones de producción cinematográfica más grandes de Estados Unidos. Perry, quizás mejor conocido por su serie de películas de Madea, dice que tecnología como Sora le preocupa porque podría hacer obsoleta la necesidad de construir decorados o viajar a lugares. Cita ejemplos de disparos virtuales en la nieve de Colorado o en la Luna simplemente utilizando un mensaje de texto. «Esta IA puede generarlo como si nada». La tecnología puede representar una reducción radical de los costos necesarios para crear una película, y eso probablemente pondrá en peligro los empleos en la industria del entretenimiento.

«Me preocupa mucho toda la gente en el negocio», dijo a The Hollywood Reporter. «Porque mientras lo miraba, inmediatamente comencé a pensar en todos los miembros de la industria que se verían afectados por esto, incluidos los actores, el agarre, la electricidad, el transporte, el sonido y los editores, y al mirar esto, creo que esto afectará cada rincón de nuestra industria.»

Puede leer la entrevista completa en The Hollywood Reporter, que hizo un excelente trabajo al cubrir los pensamientos de Perry sobre una tecnología que puede terminar revolucionando fundamentalmente a Hollywood. En su opinión, la tecnología de IA plantea un riesgo existencial para la industria del entretenimiento que no puede ignorar: «Tiene que haber algún tipo de regulación para protegernos. Si no, simplemente no veo cómo sobreviviremos».

Perry también mira más allá de Hollywood y dice que no es sólo el cine el que necesita estar en alerta, y pide medidas gubernamentales para ayudar a retener el empleo humano en la era de la IA. «Si miras cómo está cambiando en todo el mundo, cómo está cambiando tan rápidamente, espero que haya un enfoque gubernamental completo para ayudar a todos a poder sostenerse».

Source link-49

Stable Diffusion 3 llega para solidificar el liderazgo inicial en imágenes de IA contra Sora y Gemini

John — Sat, 24 Feb 2024 10:25:54 +0000

Stability AI ha anunciado Stable Diffusion 3, la versión más reciente y potente del modelo de IA de generación de imágenes de la compañía. Si bien los detalles son escasos, es claramente un intento de defenderse del revuelo en torno a los competidores recientemente anunciados de OpenAI y Google.

Pronto tendremos un desglose más técnico de todo esto, pero por ahora debes saber que Stable Diffusion 3 (SD3) se basa en una nueva arquitectura y funcionará en una variedad de hardware (aunque aún necesitarás algo robusto). . Aún no está disponible, pero puedes registrarte en la lista de espera aquí.

SD3 utiliza un “transformador de difusión” actualizado, una técnica iniciada en 2022 pero revisada en 2023 y que ahora alcanza escalabilidad. Sora, el impresionante generador de vídeo de OpenAI, aparentemente funciona con principios similares (Will Peebles, coautor del artículo, codirigió el proyecto Sora). También emplea «coincidencia de flujo», otra técnica nueva que mejora de manera similar la calidad sin agregar demasiados gastos generales.

El conjunto de modelos abarca desde 800 millones de parámetros (menos que el SD 1.5 comúnmente utilizado) hasta 8 mil millones de parámetros (más que SD XL), con la intención de ejecutarse en una variedad de hardware. Probablemente aún querrás una GPU seria y una configuración destinada al trabajo de aprendizaje automático, pero no estás limitado a una API como lo estás generalmente con los modelos OpenAI y Google. (Anthropic, por su parte, no se ha centrado públicamente en la generación de imágenes o videos, por lo que realmente no es parte de esta conversación).

En X, anteriormente Twitter, el jefe de Stable Diffusion, Emad Mostaque, señala que el nuevo modelo es capaz de comprensión multimodal, así como entrada y generación de video, todas las cosas que sus rivales han enfatizado en sus competidores impulsados por API. Esas capacidades aún son teóricas, pero parece que no existe ninguna barrera técnica para incluirlas en futuras versiones.

Por supuesto, es imposible comparar estos modelos, ya que ninguno se ha lanzado realmente y todo lo que tenemos para seguir son afirmaciones competitivas y ejemplos cuidadosamente seleccionados. Pero Stable Diffusion tiene una ventaja definitiva: su presencia en el zeitgeist como modelo de referencia para realizar cualquier tipo de generación de imágenes en cualquier lugar, con pocas limitaciones intrínsecas en método o contenido. (De hecho, es casi seguro que SD3 marcará el comienzo de una nueva era de pornografía generada por IA, una vez que superen los mecanismos de seguridad).

Stable Diffusion parece querer ser la IA generativa de marca blanca de la que no puede prescindir, en lugar de la IA generativa boutique que no está seguro de necesitar. Con ese fin, la compañía también está actualizando sus herramientas para bajar el listón de uso, aunque, como ocurre con el resto del anuncio, estas mejoras se dejan a la imaginación.

Curiosamente, la empresa ha puesto la seguridad en el centro de su anuncio, afirmando:

Hemos tomado y seguimos tomando medidas razonables para evitar el uso indebido de Stable Diffusion 3 por parte de malos actores. La seguridad comienza cuando comenzamos a entrenar nuestro modelo y continúa durante las pruebas, la evaluación y la implementación. En preparación para esta vista previa temprana, hemos introducido numerosas medidas de seguridad. Al colaborar continuamente con investigadores, expertos y nuestra comunidad, esperamos innovar más con integridad a medida que nos acercamos al lanzamiento público del modelo.

¿Cuáles son exactamente estas salvaguardias? Sin duda, la vista previa los delineará un poco, y luego la publicación pública será aún más refinada o censurada dependiendo de su perspectiva sobre estas cosas. Sabremos más pronto y, mientras tanto, profundizaremos en el aspecto técnico para comprender mejor la teoría y los métodos detrás de esta nueva generación de modelos.

Source link-48