Un modelo de lenguaje de Google DeepMind AI ahora está haciendo descripciones para YouTube Shorts


Google acaba de combinar DeepMind y Google Brain en un gran equipo de IAy el miércoles, el nuevo Google DeepMind compartió detalles sobre cómo se utiliza uno de sus modelos de lenguaje visual (VLM) para generar descripciones para YouTube Shorts, lo que puede ayudar con la visibilidad.

«Los cortos se crean en solo unos minutos y, a menudo, no incluyen descripciones ni títulos útiles, lo que hace que sea más difícil encontrarlos a través de la búsqueda». DeepMind escribió en la publicación.. Flamingo puede hacer esas descripciones analizando los cuadros iniciales de un video para explicar lo que está pasando. (DeepMind da el ejemplo de «un perro que equilibra una pila de galletas en su cabeza»). Las descripciones de texto se almacenarán como metadatos para «categorizar mejor los videos y hacer coincidir los resultados de búsqueda con las consultas de los espectadores».

Esto resuelve un problema real, dice el director comercial de Google DeepMind, Colin Murdoch. el borde: para los cortos, los creadores a veces no agregan metadatos porque el proceso de creación de un video es más sencillo que para un video de formato más largo. Todd Sherman, el director de administración de productos de Shorts, agregó que debido a que los cortos se ven principalmente en un feed donde las personas simplemente pasan al siguiente video en lugar de buscarlos activamente, no hay tanto incentivo para agregar los metadatos.

“Este modelo de Flamingo, la capacidad de comprender estos videos y proporcionarnos texto descriptivo, es realmente muy valioso para ayudar a nuestros sistemas que ya están buscando estos metadatos”, dice Sherman. “Les permite comprender estos videos de manera más efectiva para que podamos hacer esa coincidencia para los usuarios cuando los buscan”.

Las descripciones generadas no estarán orientadas al usuario. “Estamos hablando de metadatos que están detrás de escena”, dice Sherman. «No se lo presentamos a los creadores, pero se está haciendo un gran esfuerzo para asegurarnos de que sea preciso». En cuanto a cómo Google se asegura de que estas descripciones sean precisas, «todo el texto descriptivo se alineará con nuestros estándares de responsabilidad», dice Sherman. “Es muy poco probable que se genere un texto descriptivo que de alguna manera enmarque un video con mala luz. Ese no es un resultado que anticipemos en absoluto”.

Flamingo ya está aplicando descripciones generadas automáticamente a las nuevas subidas de Shorts

Flamingo ya está aplicando descripciones generadas automáticamente a las nuevas subidas de Shorts, y lo ha hecho para «un gran corpus de videos existentes, incluidos los videos más vistos», según el portavoz de DeepMind, Duncan Smith.

Tuve que preguntar si Flamingo se aplicaría a videos de YouTube de formato más largo en el futuro. “Creo que es completamente concebible que pudiera hacerlo”, dice Sherman. «Sin embargo, creo que la necesidad es probablemente un poco menor». Señala que para un video de formato más largo, un creador puede pasar horas en cosas como la preproducción, la filmación y la edición, por lo que agregar metadatos es una parte relativamente pequeña del proceso de creación de un video. Y debido a que las personas a menudo miran videos de formato más largo basados ​​en cosas como un título y una miniatura, los creadores tienen incentivos para agregar metadatos que ayuden con la visibilidad.

Así que supongo que la respuesta es que tendremos que esperar y ver. Pero dado el gran impulso de Google para infundir IA en casi todo lo que ofreceaplicar algo como Flamingo a videos de YouTube de formato más largo no se siente fuera del ámbito de la posibilidad, lo que podría tener un gran impacto en la búsqueda de YouTube en el futuro.



Source link-37