El Proyecto Astra de Google utiliza la cámara de su teléfono y la inteligencia artificial para encontrar ruidos, objetos extraviados y más.


Cuando Google mostró por primera vez su tecnología de asistente de voz Duplex en su conferencia de desarrolladores en 2018, fue a la vez impresionante y preocupante. Hoy, en I/O 2024, es posible que la compañía vuelva a plantear esas mismas reacciones, esta vez mostrando otra aplicación de su inteligencia artificial con algo llamado Proyecto Astra.

La compañía ni siquiera podía esperar hasta su discurso de apertura de hoy para adelantar el Proyecto Astra y ayer publicó un video en sus redes sociales de una aplicación de inteligencia artificial basada en cámara. Sin embargo, en su discurso de apertura de hoy, el director ejecutivo de DeepMind de Google, Demis Hassabis, compartió que su equipo «siempre ha querido desarrollar agentes de IA universales que puedan ser útiles en la vida cotidiana». El Proyecto Astra es el resultado del progreso en ese frente.

Según un vídeo que Google mostró ayer durante una rueda de prensa, el Proyecto Astra parecía ser una aplicación que tiene un visor como interfaz principal. Una persona que sostenía un teléfono apuntó su cámara a varias partes de una oficina y dijo verbalmente: «Avísame cuando veas algo que emita sonido». Cuando apareció un altavoz junto a un monitor, Gemini respondió: «Veo un altavoz que emite sonido».

La persona detrás del teléfono se detuvo y dibujó una flecha en la pantalla hacia el círculo superior del altavoz y dijo: «¿Cómo se llama esa parte del altavoz?» Gemini respondió rápidamente: «Ese es el tweeter. Produce sonidos de alta frecuencia».

Luego, en el video que Google dijo que fue grabado en una sola toma, el evaluador se acercó a una taza de crayones más abajo en la mesa y preguntó: «Dame una aliteración creativa sobre estos», a lo que Gemini respondió: «Los crayones creativos colorean alegremente». Ciertamente elaboran creaciones coloridas».

El resto del vídeo continúa mostrando a Gemini en el Proyecto Astra identificando y explicando partes del código en un monitor, diciéndole al usuario en qué vecindario se encontraba según la vista desde la ventana. Lo más impresionante es que Astra pudo responder: «¿Recuerdas dónde viste mis gafas?» a pesar de que dichas gafas estaban completamente fuera de marco y no fueron señaladas previamente. «Sí, lo hago», dijo Géminis, y agregó: «Tus gafas estaban en un escritorio cerca de una manzana roja».

Después de que Astra ubicó esas gafas, el evaluador se las puso y el video cambió a la perspectiva de lo que verías en el dispositivo portátil. Usando una cámara a bordo, las gafas escanearon los alrededores del usuario para ver cosas como un diagrama en una pizarra. La persona en el video preguntó: «¿Qué puedo agregar aquí para hacer que este sistema sea más rápido?» Mientras hablaban, una forma de onda en pantalla se movía para indicar que estaba escuchando y, a medida que respondía, aparecían subtítulos de texto en conjunto. Astra dijo: «Agregar un caché entre el servidor y la base de datos podría mejorar la velocidad».

Luego, el evaluador miró un par de gatos garabateados en el tablero y preguntó: «¿A qué te recuerda esto?» Astra dijo «el gato de Schrodinger». Finalmente, tomaron un tigre de peluche, lo pusieron junto a un lindo golden retriever y pidieron «un nombre de banda para este dúo». Astra respondió obedientemente «Rayas doradas».

Esto significa que Astra no solo procesaba datos visuales en tiempo real, sino que también recordaba lo que veía y trabajaba con una impresionante acumulación de información almacenada. Esto se logró, según Hassabis, porque estos «agentes» fueron «diseñados para procesar información más rápido codificando continuamente cuadros de video, combinando la entrada de video y voz en una línea de tiempo de eventos y almacenando en caché esta información para recuperarla eficientemente».

También vale la pena señalar que, al menos en el video, Astra respondió rápidamente. Hassabis señaló en una publicación de blog que «si bien hemos logrado un progreso increíble en el desarrollo de sistemas de inteligencia artificial que pueden comprender información multimodal, reducir el tiempo de respuesta a algo conversacional es un desafío de ingeniería difícil».

Google también ha estado trabajando para darle a su IA una mayor gama de expresión vocal, utilizando sus modelos de voz para «mejorar cómo suenan, brindando a los agentes una gama más amplia de entonaciones». Este tipo de imitación de la expresividad humana en las respuestas recuerda las pausas y declaraciones de Duplex que llevaron a la gente a pensar que la IA de Google podría ser candidata para la prueba de Turing.

Si bien Astra sigue siendo una característica inicial sin planes discernibles para su lanzamiento, Hassabis escribió que en el futuro, estos asistentes podrían estar disponibles «a través de su teléfono o gafas». Aún no se sabe si esas gafas son en realidad un producto o el sucesor de Google Glass, pero Hassabis escribió que «algunas de estas capacidades llegarán a los productos de Google, como la aplicación Gemini, a finales de este año».

Póngase al día con todas las novedades de Google I/O 2024 aquí!



Source link-47