La IA podría cambiar la forma en que las personas ciegas ven el mundo


Para su 38 cumpleaños, Chela Robles y su familia viajaron a One House, su panadería favorita en Benicia, California, para comer un sándwich de pechuga y brownies. En el camino a casa en auto, se tocó una pequeña pantalla táctil en la sien y pidió una descripción del mundo exterior. “Un cielo nublado”, le llegó la respuesta a través de sus Google Glass.

Robles perdió la capacidad de ver en su ojo izquierdo cuando tenía 28 años y en su ojo derecho un año después. La ceguera, dice, te niega pequeños detalles que ayudan a las personas a conectarse entre sí, como señales y expresiones faciales. Su padre, por ejemplo, cuenta muchos chistes secos, por lo que no siempre puede estar segura de cuándo habla en serio. “Si una imagen puede decir 1000 palabras, imagina cuántas palabras puede decir una expresión”, dice.

Robles ha probado servicios que la conectan con personas videntes en busca de ayuda en el pasado. Pero en abril, se inscribió para una prueba con Ask Envision, un asistente de inteligencia artificial que usa GPT-4 de OpenAI, un modelo multimodal que puede recibir imágenes y texto y generar respuestas conversacionales. El sistema es uno de varios productos de asistencia para que las personas con discapacidad visual comiencen a integrar modelos de lenguaje, y promete brindar a los usuarios muchos más detalles visuales sobre el mundo que los rodea, y mucha más independencia.

Envision se lanzó como una aplicación para teléfonos inteligentes para leer texto en fotos en 2018 y en Google Glass a principios de 2021. A principios de este año, la compañía comenzó a probar un modelo conversacional de código abierto que podía responder preguntas básicas. Luego, Envision incorporó GPT-4 de OpenAI para descripciones de imagen a texto.

Be My Eyes, una aplicación de 12 años que ayuda a los usuarios a identificar objetos a su alrededor, adoptó GPT-4 en marzo. Microsoft, que es uno de los principales inversores en OpenAI, ha comenzado las pruebas de integración de GPT-4 para su servicio SeeingAI, que ofrece funciones similares, según la líder responsable de IA de Microsoft, Sarah Bird.

En su versión anterior, Envision leía el texto de una imagen de principio a fin. Ahora puede resumir texto en una foto y responder preguntas de seguimiento. Eso significa que Ask Envision ahora puede leer un menú y responder preguntas sobre cosas como precios, restricciones dietéticas y opciones de postres.

Otro probador inicial de Ask Envision, Richard Beardsley, dice que normalmente usa el servicio para hacer cosas como encontrar información de contacto en una factura o leer listas de ingredientes en cajas de comida. Tener una opción de manos libres a través de Google Glass significa que puede usarlo mientras sostiene la correa de su perro guía y un bastón. “Antes, no podías saltar a una parte específica del texto”, dice. “Tener esto realmente hace la vida mucho más fácil porque puedes saltar exactamente a lo que estás buscando”.

La integración de la IA en los productos para ver los ojos podría tener un profundo impacto en los usuarios, dice Sina Bahram, una científica informática ciega y directora de una consultoría que asesora a museos, parques temáticos y empresas tecnológicas como Google y Microsoft sobre accesibilidad e inclusión.

Bahram ha estado usando Be My Eyes con GPT-4 y dice que el modelo de lenguaje grande hace una diferencia de «órdenes de magnitud» con respecto a las generaciones anteriores de tecnología debido a sus capacidades y porque los productos se pueden usar sin esfuerzo y no requieren habilidades técnicas. Hace dos semanas, dice, estaba caminando por la calle en la ciudad de Nueva York cuando su socio comercial se detuvo para observar algo más de cerca. Bahram usó Be My Eyes con GPT-4 para descubrir que era una colección de calcomanías, algunas caricaturescas, más texto y graffiti. Este nivel de información es “algo que no existía hace un año fuera del laboratorio”, dice. “Simplemente no era posible”.



Source link-46