El vidrio potencia las cámaras de los teléfonos inteligentes con IA, sin alucinaciones


La cámara de su teléfono es tanto software como hardware, y Glass espera mejorar ambos. Pero mientras su lente anamórfica salvaje llega al mercado, la compañía (que cuenta con $ 9,3 millones en dinero nuevo) ha lanzado una actualización de cámara impulsada por IA que, según dice, mejora enormemente la calidad de la imagen, sin ningún artefacto extraño de mejora de la IA.

GlassAI es un enfoque puramente de software para mejorar las imágenes, lo que ellos llaman un procesador de señales de imágenes neuronales (ISP). Los ISP son básicamente los que toman la salida bruta del sensor (a menudo plana, ruidosa y distorsionada) y la convierten en las imágenes nítidas y coloridas que vemos.

El ISP también es cada vez más complejo, como les gusta mostrar a los fabricantes de teléfonos como Apple y Google, sintetizando múltiples exposiciones, detectando y afinando rápidamente rostros, ajustándose a pequeños movimientos, etc. Y aunque muchos incluyen alguna forma de aprendizaje automático o IA, deben tener cuidado: usar IA para generar detalles puede producir alucinaciones o artefactos a medida que el sistema intenta crear información visual donde no existe. Estos modelos de “súper resolución” son útiles en su lugar, pero deben ser monitoreados cuidadosamente.

Glass fabrica un sistema de cámara completo basado en un elemento frontal inusual en forma de rombo y un ISP para respaldarlo. Y mientras el primero está trabajando para lograr presencia en el mercado con algunos dispositivos próximos, resulta que el segundo es un producto que vale la pena vender por derecho propio.

«Nuestras redes de restauración corrigen aberraciones ópticas y problemas de sensores al mismo tiempo que eliminan el ruido de manera eficiente y superan a las tuberías tradicionales de procesamiento de señales de imágenes en la recuperación de texturas finas», explicó el director de tecnología y cofundador Tom Bishop en su comunicado de prensa.

Animación conceptual que muestra el proceso de pasar de una imagen RAW a una imagen procesada en vidrio. Créditos de imagen: Vaso

La palabra “recuperación” es clave, porque los detalles no se crean simplemente sino que extraído a partir de imágenes en bruto. Dependiendo de cómo funcione su conjunto de cámaras, es posible que sepa que ciertos artefactos, ángulos o patrones de ruido se pueden resolver de manera confiable o incluso aprovechar. Aprender a convertir estos detalles implícitos en detalles reales (o combinar detalles de múltiples exposiciones) es una parte importante de cualquier pila de fotografía computacional. El cofundador y director ejecutivo Ziv Attar dice que su ISP neuronal es mejor que cualquier otro en la industria.

Incluso Apple, señaló, no tiene una pila de imágenes neuronales completa, solo la usa en circunstancias específicas donde es necesaria, y sus resultados (en su opinión) no son excelentes. Proporcionó un ejemplo de un ISP neuronal de Apple que no interpretó el texto correctamente, y a Glass le fue mucho mejor:

Foto proporcionada por Ziv Attar que muestra un iPhone 15 Pro Max ampliado a 5x y la versión procesada por Glass de las imágenes RAW del teléfono. Créditos de imagen: Ziv Attar

«Creo que es justo suponer que si Apple no ha logrado obtener resultados decentes, es un problema difícil de resolver», afirmó. “Se trata menos de la pila real y más de cómo entrenas. Tenemos una forma única de hacerlo, que fue desarrollada para los sistemas de lentes anamórficos y es eficiente en cualquier cámara. Básicamente, tenemos laboratorios de capacitación que involucran sistemas robóticos y sistemas de calibración óptica que logran entrenar una red para caracterizar la aberración de las lentes de una manera muy completa y, fundamentalmente, revertir cualquier distorsión óptica”.

Como ejemplo, proporcionó un estudio de caso en el que DXO evaluó la cámara en un Moto Edge 40 y luego lo hizo nuevamente con GlassAI instalado. Todas las imágenes procesadas con Glass han mejorado claramente, a veces de manera espectacular.

Créditos de imagen: Vidrio / DXO

En niveles bajos de luz, el ISP integrado tiene dificultades para diferenciar líneas finas, texturas y detalles faciales en su modo nocturno. Con GlassAI, es tan nítido como una tachuela incluso con la mitad del tiempo de exposición.

Puedes ver los píxeles en algunas fotos de prueba que Glass tiene disponibles cambiando entre los raws y las finales.

Las empresas que fabrican teléfonos y cámaras tienen que dedicar mucho tiempo a ajustar el ISP para que el sensor, la lente y otras piezas funcionen juntas correctamente para generar la mejor imagen posible. Sin embargo, parece que el proceso único de Glass podría funcionar mejor en una fracción de tiempo.

“El tiempo que nos lleva entrenar el software distribuible desde el momento en que tenemos en nuestras manos un nuevo tipo de dispositivo… varía entre unas pocas horas y unos pocos días. Como referencia, los fabricantes de teléfonos pasan meses ajustando la calidad de la imagen, con equipos enormes. Nuestro proceso está completamente automatizado, por lo que podemos admitir múltiples dispositivos en unos pocos días”, dijo Attar.

El ISP neuronal también es de extremo a extremo, lo que significa en este contexto que va directamente desde el sensor RAW a la imagen final sin necesidad de procesos adicionales como eliminación de ruido, nitidez, etc.

Izquierda: CRUDO, derecha: Procesado en vidrio. Créditos de imagen: Vaso

Cuando le pregunté, Attar tuvo cuidado de diferenciar su trabajo de los servicios de inteligencia artificial de súper resolución, que toman una imagen terminada y la mejoran. A menudo no se trata tanto de “recuperar” detalles sino de inventarlos cuando parece apropiado, un proceso que a veces puede producir resultados indeseables. Aunque Glass utiliza IA, no es generativa como lo son muchas IA relacionadas con imágenes.

Hoy marca la disponibilidad del producto en general, presumiblemente después de un largo período de prueba con socios. Si fabrica un teléfono Android, sería bueno al menos intentarlo.

Sin embargo, en el lado del hardware, el teléfono con la extraña cámara anamórfica en forma de rombo tendrá que esperar hasta que el fabricante esté listo para salir a bolsa.

Mientras Glass desarrolla su tecnología y prueba a los clientes, también ha estado ocupada buscando financiación. La compañía acaba de cerrar una “semilla extendida” de $ 9,3 millones, que puse entre comillas porque la ronda semilla fue en 2021. La nueva financiación fue liderada por GV, con la participación de Future Ventures, Abstract Ventures y LDV Capital.



Source link-48