{"id":509969,"date":"2023-03-12T01:03:26","date_gmt":"2023-03-12T01:03:26","guid":{"rendered":"https:\/\/magazineoffice.com\/todo-lo-que-sabe-sobre-la-vision-por-computadora-pronto-puede-estar-equivocado\/"},"modified":"2023-03-12T01:03:28","modified_gmt":"2023-03-12T01:03:28","slug":"todo-lo-que-sabe-sobre-la-vision-por-computadora-pronto-puede-estar-equivocado","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/todo-lo-que-sabe-sobre-la-vision-por-computadora-pronto-puede-estar-equivocado\/","title":{"rendered":"Todo lo que sabe sobre la visi\u00f3n por computadora pronto puede estar equivocado"},"content":{"rendered":"
\n<\/p>\n
La visi\u00f3n artificial podr\u00eda<\/span> ser\u00e1 mucho m\u00e1s r\u00e1pido y mejor si omitimos el concepto de fotogramas fijos y, en su lugar, analizamos directamente el flujo de datos de una c\u00e1mara. Al menos, esa es la teor\u00eda bajo la cual opera la nueva creaci\u00f3n del laboratorio de medios del MIT, Ubicept.<\/p>\n La mayor\u00eda de las aplicaciones de visi\u00f3n por computadora funcionan de la misma manera: una c\u00e1mara toma una imagen (o una serie r\u00e1pida de im\u00e1genes, en el caso del video). Estos fotogramas fijos se pasan a una computadora, que luego realiza el an\u00e1lisis para descubrir qu\u00e9 hay en la imagen. Suena bastante simple.<\/p>\n Pero hay un problema: ese paradigma asume que crear fotogramas fijos es una buena idea. Como seres humanos que est\u00e1n acostumbrados a ver fotograf\u00edas y videos, eso podr\u00eda parecer razonable. Sin embargo, a las computadoras no les importa, y Ubicept cree que puede hacer que la visi\u00f3n por computadora sea mucho mejor y m\u00e1s confiable al ignorar la idea de los marcos.<\/p>\n La empresa en s\u00ed es una colaboraci\u00f3n entre sus cofundadores. Sebastian Bauer es el director general de la empresa y un posdoctorado en la Universidad de Wisconsin, donde trabajaba en sistemas lidar. Tristan Swedish es ahora el CTO de Ubicept. Antes de eso, fue asistente de investigaci\u00f3n y obtuvo una maestr\u00eda y un doctorado. estudiante en el MIT Media Lab durante ocho a\u00f1os.<\/p>\n \u201cHay 45 mil millones de c\u00e1maras en el mundo, y la mayor\u00eda de ellas est\u00e1n creando im\u00e1genes y videos que en realidad no est\u00e1n siendo vistos por un ser humano\u201d, explic\u00f3 Bauer. \u201cEstas c\u00e1maras son principalmente para la percepci\u00f3n, para que los sistemas tomen decisiones basadas en esa percepci\u00f3n. Piense en la conducci\u00f3n aut\u00f3noma, por ejemplo, como un sistema en el que se trata de reconocimiento de peatones. Est\u00e1n saliendo todos estos estudios que muestran que la detecci\u00f3n de peatones funciona muy bien con luz diurna brillante, pero particularmente mal con poca luz. Otros ejemplos son las c\u00e1maras para clasificaci\u00f3n industrial, inspecci\u00f3n y control de calidad. Todas estas c\u00e1maras se est\u00e1n utilizando para la toma de decisiones automatizada. En habitaciones suficientemente iluminadas o con luz diurna, funcionan bien. Pero con poca luz, especialmente en relaci\u00f3n con el movimiento r\u00e1pido, surgen problemas\u201d.<\/p>\n La soluci\u00f3n de la compa\u00f1\u00eda es pasar por alto el \u00abcuadro fijo\u00bb como la fuente de la verdad para la visi\u00f3n por computadora y, en su lugar, medir los fotones individuales que golpean un sensor de im\u00e1genes directamente. Eso se puede hacer con una matriz de diodos de avalancha de un solo fot\u00f3n (o matriz SPAD, entre amigos). Este flujo de datos sin procesar puede luego alimentarse a una matriz de puertas programables en campo (FPGA, un tipo de procesador s\u00faper especializado) y analizarse m\u00e1s a fondo mediante algoritmos de visi\u00f3n por computadora.<\/p>\n La compa\u00f1\u00eda reci\u00e9n fundada demostr\u00f3 su tecnolog\u00eda en el CES de Las Vegas en enero y tiene algunos planes bastante audaces para el futuro de la visi\u00f3n artificial.<\/p>\n \u201cNuestra visi\u00f3n es tener tecnolog\u00eda en al menos el 10 % de las c\u00e1maras en los pr\u00f3ximos cinco a\u00f1os y en al menos el 50 % de las c\u00e1maras en los pr\u00f3ximos 10 a\u00f1os\u201d, proyect\u00f3 Bauer. \u201cCuando detectas cada fot\u00f3n individual con una resoluci\u00f3n de tiempo muy alta, est\u00e1s haciendo lo mejor que la naturaleza te permite hacer. Y ves los beneficios, como los videos de alta calidad en nuestra p\u00e1gina web, que simplemente est\u00e1n sacando todo lo dem\u00e1s del agua\u201d.<\/p>\n TechCrunch vio la tecnolog\u00eda en acci\u00f3n en una demostraci\u00f3n reciente en Boston y quer\u00eda explorar c\u00f3mo funciona la tecnolog\u00eda y cu\u00e1les son las implicaciones para la visi\u00f3n artificial y las aplicaciones de IA.<\/p>\n Las c\u00e1maras digitales generalmente funcionan tomando una exposici\u00f3n de un solo cuadro al \u00abcontar\u00bb la cantidad de fotones que golpean cada uno de los p\u00edxeles del sensor durante un cierto per\u00edodo de tiempo. Al final del per\u00edodo de tiempo, todos esos fotones se multiplican juntos y tienes una fotograf\u00eda fija. Si no se mueve nada en la imagen, eso funciona muy bien, pero el asunto de \u00absi nada se mueve\u00bb es una advertencia bastante grande, especialmente cuando se trata de la visi\u00f3n por computadora. Resulta que cuando intentas usar c\u00e1maras para tomar decisiones, todo se mueve todo el tiempo.<\/p>\n Por supuesto, con los datos sin procesar, la empresa a\u00fan puede combinar el flujo de fotones en fotogramas, lo que crea un video bellamente n\u00edtido sin desenfoque de movimiento. Quiz\u00e1s lo m\u00e1s emocionante es que prescindir de la idea de los marcos significa que el equipo de Ubicept pudo tomar los datos sin procesar y analizarlos directamente. Aqu\u00ed hay un video de muestra de la gran diferencia que puede hacer en la pr\u00e1ctica:<\/p>\n<\/p><\/div>\nUna nueva forma de ver<\/h2>\n