{"id":333812,"date":"2022-12-07T00:13:31","date_gmt":"2022-12-07T00:13:31","guid":{"rendered":"https:\/\/magazineoffice.com\/twelve-labs-obtiene-12-millones-para-ai-que-comprende-el-contexto-de-los-videos-techcrunch\/"},"modified":"2022-12-07T00:13:34","modified_gmt":"2022-12-07T00:13:34","slug":"twelve-labs-obtiene-12-millones-para-ai-que-comprende-el-contexto-de-los-videos-techcrunch","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/twelve-labs-obtiene-12-millones-para-ai-que-comprende-el-contexto-de-los-videos-techcrunch\/","title":{"rendered":"Twelve Labs obtiene $ 12 millones para AI que comprende el contexto de los videos – TechCrunch"},"content":{"rendered":"


\n<\/p>\n

\n

Para Jae Lee, un cient\u00edfico de datos de formaci\u00f3n, nunca tuvo sentido que el video, que se ha convertido en una parte enorme de nuestras vidas, con el auge de plataformas como TikTok, Vimeo y YouTube, fuera dif\u00edcil de buscar debido a las barreras t\u00e9cnicas. que plantea la comprensi\u00f3n del contexto. Buscar los t\u00edtulos, las descripciones y las etiquetas de los videos siempre fue bastante f\u00e1cil y no requer\u00eda m\u00e1s que un algoritmo b\u00e1sico. pero buscando dentro de<\/em> Los videos para momentos y escenas espec\u00edficos estaban mucho m\u00e1s all\u00e1 de las capacidades de la tecnolog\u00eda, particularmente si esos momentos y escenas no estaban etiquetados de manera obvia.<\/p>\n

Para resolver este problema, Lee, junto con amigos de la industria tecnol\u00f3gica, cre\u00f3 un servicio en la nube para la b\u00fasqueda y comprensi\u00f3n de videos. Se convirti\u00f3 en Twelve Labs, que recaud\u00f3 $ 17 millones en capital de riesgo, $ 12 millones de los cuales provinieron de una ronda de extensi\u00f3n inicial que cerr\u00f3 hoy. Radical Ventures lider\u00f3 la extensi\u00f3n con la participaci\u00f3n de Index Ventures, WndrCo, Spring Ventures, el CEO de Weights & Biases, Lukas Biewald, y otros, dijo Lee a TechCrunch en un correo electr\u00f3nico.<\/p>\n

\u201cLa visi\u00f3n de Twelve Labs es ayudar a los desarrolladores a crear programas que puedan ver, escuchar y comprender el mundo como lo hacemos nosotros, brind\u00e1ndoles la infraestructura de comprensi\u00f3n de video m\u00e1s poderosa\u201d, dijo Lee.<\/p>\n

\n

Una demostraci\u00f3n de las capacidades de la plataforma Twelve Labs. Cr\u00e9ditos de imagen:<\/strong> doce laboratorios<\/p>\n<\/div>\n

Twelve Labs, que actualmente se encuentra en versi\u00f3n beta cerrada, usa IA para intentar extraer \u00abinformaci\u00f3n rica\u00bb \u200b\u200bde videos como movimiento y acciones, objetos y personas, sonido, texto en pantalla y voz para identificar las relaciones entre ellos. La plataforma convierte estos diversos elementos en representaciones matem\u00e1ticas llamadas \u00abvectores\u00bb y forma \u00abconexiones temporales\u00bb entre cuadros, lo que permite aplicaciones como la b\u00fasqueda de escenas de video.<\/p>\n

\u201cComo parte de lograr la visi\u00f3n de la compa\u00f1\u00eda de ayudar a los desarrolladores a crear aplicaciones de video inteligentes, el equipo de Twelve Labs est\u00e1 construyendo ‘modelos b\u00e1sicos’ para la comprensi\u00f3n de video multimodal\u201d, dijo Lee. \u00abLos desarrolladores podr\u00e1n acceder a estos modelos a trav\u00e9s de un conjunto de API, realizando no solo b\u00fasquedas sem\u00e1nticas, sino tambi\u00e9n otras tareas como la ‘captizaci\u00f3n’ de videos de formato largo, la generaci\u00f3n de res\u00famenes y preguntas y respuestas de videos\u00bb.<\/p>\n

Google adopta un enfoque similar para la comprensi\u00f3n de videos con su sistema MUM AI, que la empresa usa para potenciar las recomendaciones de videos en la B\u00fasqueda de Google y YouTube seleccionando temas en los videos (por ejemplo, \u00abmateriales de pintura acr\u00edlica\u00bb) seg\u00fan el audio, el texto y la imagen. contenido. Pero si bien la tecnolog\u00eda puede ser comparable, Twelve Labs es uno de los primeros proveedores en comercializarla; Google ha optado por mantener MUM interno y se niega a ponerlo a disposici\u00f3n a trav\u00e9s de una API p\u00fablica.<\/p>\n

Dicho esto, Google, as\u00ed como Microsoft y Amazon, ofrecen servicios (es decir, Google Cloud Video AI, Azure Video Indexer y AWS Rekognition) que reconocen objetos, lugares y acciones en videos y extraen metadatos enriquecidos a nivel de cuadro. Tambi\u00e9n est\u00e1 Reminiz, una startup francesa de visi\u00f3n por computadora que afirma poder indexar cualquier tipo de video y agregar etiquetas tanto al contenido grabado como al transmitido en vivo. Pero Lee afirma que Twelve Labs se diferencia lo suficiente, en parte porque su plataforma permite a los clientes ajustar la IA a categor\u00edas espec\u00edficas de contenido de video.<\/p>\n

\"\"<\/p>\n

Maqueta de API para ajustar el modelo para que funcione mejor con contenido relacionado con ensaladas. Cr\u00e9ditos de imagen:<\/strong> doce laboratorios<\/p>\n<\/div>\n

\u201cLo que hemos encontrado es que los productos de IA estrechos creados para detectar problemas espec\u00edficos muestran una alta precisi\u00f3n en sus escenarios ideales en un entorno controlado, pero no se adaptan tan bien a los datos desordenados del mundo real\u201d, dijo Lee. \u201cAct\u00faan m\u00e1s como un sistema basado en reglas y, por lo tanto, carecen de la capacidad de generalizar cuando ocurren variaciones. Tambi\u00e9n vemos esto como una limitaci\u00f3n arraigada en la falta de comprensi\u00f3n del contexto. La comprensi\u00f3n del contexto es lo que les da a los humanos la capacidad \u00fanica de hacer generalizaciones en situaciones aparentemente diferentes en el mundo real, y aqu\u00ed es donde Twelve Labs se destaca\u201d.<\/p>\n

M\u00e1s all\u00e1 de la b\u00fasqueda, Lee dice que la tecnolog\u00eda de Twelve Labs puede impulsar cosas como la inserci\u00f3n de anuncios y la moderaci\u00f3n de contenido, determinando de manera inteligente, por ejemplo, qu\u00e9 videos que muestran cuchillos son violentos versus instructivos. Tambi\u00e9n se puede usar para an\u00e1lisis de medios y comentarios en tiempo real, dice, y para generar autom\u00e1ticamente carretes destacados a partir de videos.<\/p>\n

Un poco m\u00e1s de un a\u00f1o despu\u00e9s de su fundaci\u00f3n (marzo de 2021), Twelve Labs tiene clientes que pagan (Lee no revel\u00f3 cu\u00e1ntos exactamente) y un contrato de varios a\u00f1os con Oracle para entrenar modelos de IA utilizando la infraestructura en la nube de Oracle. De cara al futuro, la startup planea invertir en desarrollar su tecnolog\u00eda y expandir su equipo. (Lee se neg\u00f3 a revelar el tama\u00f1o actual de la fuerza laboral de Twelve Labs, pero los datos de LinkedIn muestran que son aproximadamente 18 personas).<\/p>\n

\u201cPara la mayor\u00eda de las empresas, a pesar del enorme valor que se puede lograr a trav\u00e9s de modelos grandes, realmente no tiene sentido que entrenen, operen y mantengan estos modelos ellos mismos. Al aprovechar una plataforma de Twelve Labs, cualquier organizaci\u00f3n puede aprovechar las poderosas capacidades de comprensi\u00f3n de video con solo unas pocas llamadas intuitivas a la API\u201d, dijo Lee. \u201cLa direcci\u00f3n futura de la innovaci\u00f3n en IA se dirige directamente hacia la comprensi\u00f3n de video multimodal, y Twelve Labs est\u00e1 bien posicionado para ampliar a\u00fan m\u00e1s los l\u00edmites en 2023\u201d.<\/p>\n<\/p><\/div>\n


\n
Source link-48<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"

Para Jae Lee, un cient\u00edfico de datos de formaci\u00f3n, nunca tuvo sentido que el video, que se ha convertido en una parte enorme de nuestras vidas, con el auge de…<\/p>\n","protected":false},"author":1,"featured_media":333813,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[66193,10313,28388,8,1576,609,107,22367,66192,769],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/333812"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=333812"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/333812\/revisions"}],"predecessor-version":[{"id":333814,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/333812\/revisions\/333814"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/333813"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=333812"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=333812"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=333812"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}