Twelve Labs está construyendo modelos que pueden comprender vídeos en un nivel profundo


La IA generadora de texto es una cosa. Pero los modelos de IA que entienden tanto imágenes como texto pueden desbloquear nuevas y poderosas aplicaciones.

Tomemos, por ejemplo, Twelve Labs. La startup con sede en San Francisco entrena modelos de IA para, como dice el cofundador y director ejecutivo Jae Lee, «resolver problemas complejos de alineación del lenguaje de vídeo».

“Se fundó Twelve Labs… crear una infraestructura para la comprensión de videos multimodal, siendo el primer esfuerzo la búsqueda semántica, o ‘CTRL+F para videos’.”, dijo Lee a TechCrunch en una entrevista por correo electrónico. «El La visión de Twelve Labs es ayudar a los desarrolladores a crear programas que puedan ver, escuchar y comprender el mundo como lo hacemos nosotros”.

Los modelos de Twelve Labs intentan asignar el lenguaje natural a lo que sucede dentro de un video, incluidas acciones, objetos y sonidos de fondo, lo que permite a los desarrolladores crear aplicaciones que pueden buscar videos, clasificar escenas y extraer temas de esos videos, resumir y dividir videos automáticamente. clips en capítulos y más.

Lee dice que la tecnología de Twelve Labs puede impulsar cosas como la inserción de anuncios y la moderación de contenido; por ejemplo, determinar qué videos que muestran cuchillos son violentos o instructivos. También se puede utilizar para análisis de medios, añadió Lee, y para generar automáticamente carretes destacados (o titulares y etiquetas de publicaciones de blogs) a partir de vídeos.

Le pregunté a Lee sobre el potencial de sesgo en estos modelos, dado que es una ciencia bien establecida que los modelos amplifican los sesgos en los datos en los que se entrenan. Por ejemplo, entrenar un modelo de comprensión de video. en su mayoría clips de noticias locales, que a menudo dedican mucho tiempo a cubrir el crimen en un manera sensacionalista y racializada—podría hacer que el modelo aprenda patrones racistas y sexistas.

Lee dice que Twelve Labs se esfuerza por cumplir con los sesgos internos y las métricas de «imparcialidad» para sus modelos antes de lanzarlos, y que la compañía planea publicar puntos de referencia y conjuntos de datos relacionados con la ética del modelo en el futuro. Pero no tenía nada que compartir más allá de eso.

Maqueta de API para ajustar el modelo para que funcione mejor con contenido relacionado con ensaladas. Créditos de imagen: Doce laboratorios

“En términos de en qué se diferencia nuestro producto de los grandes modelos lingüísticos [like ChatGPT], el nuestro está específicamente capacitado y construido para procesar y comprender videos, integrando de manera integral componentes visuales, de audio y de voz dentro de los videos”, dijo Lee. «Realmente hemos superado los límites técnicos de lo que es posible para la comprensión de videos».

Google está desarrollando un modelo multimodal similar para la comprensión de videos llamado MUM, que la compañía está utilizando para impulsar las recomendaciones de videos en la Búsqueda de Google y YouTube. Más allá de MUM, Google, así como Microsoft y Amazon, ofrecen servicios impulsados ​​por IA a nivel de API que reconocen objetos, lugares y acciones en videos y extraen metadatos enriquecidos a nivel de fotograma.

Pero Lee sostiene que Twelve Labs se diferencia tanto por la calidad de sus modelos como por las funciones de ajuste de la plataforma, que permiten a los clientes automatizar los modelos de la plataforma con sus propios datos para análisis de vídeo «de dominio específico».

En cuanto a los modelos, Twelve Labs presenta hoy Pegasus-1, un nuevo modelo multimodal que comprende una variedad de indicaciones relacionadas con el análisis de video completo. Por ejemplo, se le puede solicitar a Pegasus-1 que genere un informe largo y descriptivo sobre un video o solo algunos aspectos destacados con marcas de tiempo.

«Las organizaciones empresariales reconocen el potencial de aprovechar su gran cantidad de datos de vídeo para nuevas oportunidades de negocio… Sin embargo, las capacidades limitadas y simplistas de los modelos de IA de vídeo convencionales a menudo no alcanzan a satisfacer la compleja comprensión requerida para la mayoría de los casos de uso empresarial», dijo Lee. «Aprovechando potentes modelos básicos de comprensión de vídeo multimodal, las organizaciones empresariales pueden lograr una comprensión de vídeo a nivel humano sin análisis manual».

Desde su lanzamiento en versión beta privada a principios de mayo, la base de usuarios de Twelve Labs ha crecido a 17.000 desarrolladores, afirma Lee. Y la empresa ahora está trabajando con varias empresas; no está claro cuántas; Lee no lo diría, en industrias como los deportes, los medios y el entretenimiento, el aprendizaje electrónico y la seguridad, incluida la NFL.

Twelve Labs también continúa recaudando dinero, y es una parte importante de cualquier empresa emergente. Hoy, la compañía anunció que cerró una ronda de financiación estratégica de 10 millones de dólares de Nvidia, Intel y Samsung Next, lo que eleva el total recaudado a 27 millones de dólares.

«Esta nueva inversión tiene que ver con socios estratégicos que puedan acelerar nuestra empresa en investigación (computación), productos y distribución», dijo Lee. «Es un combustible para la innovación continua, basada en la investigación de nuestro laboratorio, en el campo de la comprensión del vídeo, de modo que podamos seguir ofreciendo los modelos más potentes a los clientes, cualesquiera que sean sus casos de uso… Estamos haciendo avanzar la industria de maneras que Liberar a las empresas para que hagan cosas increíbles”.



Source link-48