Lo que necesitas saber
- Un grupo de ingenieros desarrolló recientemente un robot aprovechando las capacidades de IA generativa para que sirva como guía turístico en las instalaciones de Boston Dynamics.
- Boston Dynamics entrenó sus sistemas de inteligencia artificial en un conjunto de datos masivo. El equipo de desarrollo admite que, si bien el invento es impresionante, se encontraron con varios problemas, incluidos episodios de alucinaciones.
- El robot se basa en el modelo GPT-4 de OpenAI, pero el equipo de desarrollo empleó técnicas de ingeniería rápidas para establecer control sobre sus respuestas.
En todos los sentidos de la palabra, la IA generativa está remodelando la forma en que realizamos nuestras actividades diarias de una forma u otra. Desde ayudar a los estudiantes a resolver problemas matemáticos complejos, escribir poemas e incluso Generando imágenes basadas en tu imaginación y sugerencias.. Según estos ejemplos, el futuro parece brillante ya que la tecnología ayudará a los usuarios a explorar más vías y oportunidades sin explotar.
Hablando de oportunidades sin explotar, Boston Dynamics documentó recientemente nuevas alturas que alcanzó aprovechando las capacidades de IA generativa. La empresa creó un robot diseñado para servir como guía turístico utilizando su robot Spot, integrado con ChatGPT y otros modelos de IA.
La empresa estadounidense de ingeniería y diseño se especializa en el desarrollo de robots, incluido su famoso «Spot», parecido a un perro. Los robots están diseñados para facilitar el trabajo a los usuarios, ya que asumen tareas repetitivas, peligrosas y complejas, lo que en última instancia aumenta la productividad y, al mismo tiempo, garantiza la seguridad del usuario.
La aparición de grandes sistemas de IA entrenados en un conjunto de datos masivo despertó el interés de Matt Klingensmith (ingeniero principal de software) principalmente por el comportamiento emergente que forma parte de estos modelos. El comportamiento emergente es la capacidad de los chatbots impulsados por IA para realizar tareas fuera de los datos en los que se basan y en los que se basan.
Matt vio esto como una gran oportunidad, lo que llevó al inicio del proyecto a principios de este año en el verano con el objetivo de explorar su impacto en el desarrollo de la robótica.
¿Cómo funciona el robot guía turístico?
El ingeniero de software reveló que desarrollar un robot guía turístico era la forma más fácil y rápida de probar esta teoría. Básicamente, el robot tiene la capacidad de caminar por las instalaciones de la empresa mirando objetos.
Es más, aprovecha un VQA, que es un modelo de subtítulos para describir los objetos dentro de su vista, y desarrolla aún más su descripción utilizando un modelo de lenguaje grande (LLM). A través del LLM, el robot también puede responder a las preguntas de su audiencia e incluso planificar las próximas acciones que debe realizar.
Mientras que a los LLM les gusta Chat de Bing han enfrentado una buena cantidad de reveses, incluyendo episodios de alucinaciones, esto no fue una gran preocupación para el equipo de desarrollo del robot. En cambio, el equipo se centró más en los aspectos interactivos y de entretenimiento. Además, la capacidad del robot para caminar ya fue descubierta en SDK de autonomía de Spot. Boston Dynamics aprovecha el SDK de Spot para respaldar el desarrollo de comportamientos de navegación autónomos para el robot Spot.
Con fines de comunicación, el equipo imprimió en 3D un soporte resistente a las vibraciones para un altavoz Respeaker V2 incluido con un micrófono de anillo con LED en la guía turística del robot. De esta forma, el robot puede escuchar a su audiencia y responder a sus consultas.
Partiendo de esta premisa el equipo integró API ChatGPT de OpenAI comenzando con el Modelo GPT-3.5pero finalmente hizo la transición a GPT-4 una vez que se envió a disponibilidad general para mejorar aún más las habilidades de comunicación del robot. Para garantizar que el robot no se salga de control ni dé respuestas desagradables, el equipo empleó técnicas de ingeniería rápidas.
Según el equipo de desarrollo del robot:
«Inspirado en un método de Microsoft, solicitamos a ChatGPT que pareciera que estaba escribiendo la siguiente línea en un script de Python. Proporcionamos documentación en inglés al LLM en forma de comentarios. Luego evaluamos el resultado del LLM como si fuera código Python».
El equipo también reveló que el LLM integrado en el robot también tenía acceso al SDK de autonomía Spot, un mapa detallado del sitio del recorrido junto con descripciones de una línea de cada ubicación, así como la capacidad de responder y hacer preguntas.
Conversión de texto a voz
Si bien el robot depende en gran medida de ChatGPT para comunicarse, es obvio que el chatbot se basa en texto. Por eso el desarrollo del servicio en la nube oncelabspara que sirva como herramienta de conversión de texto a voz.
El equipo también incorporó la cámara de agarre del robot y la cámara frontal del cuerpo en BLIP-2. De esta manera, le resultará más fácil interpretar lo que ve y proporcionar contexto. Según el equipo, BLIP-2 ejecutó las imágenes y elementos visuales «ya sea en modo de respuesta visual a preguntas (con preguntas simples como «¿qué tiene de interesante esta imagen?») o en modo de subtítulos de imágenes» al menos una vez por segundo.
Conversaciones realistas
El equipo también quería presentar una experiencia realista a la audiencia mientras interactuaba con el robot durante el recorrido. Como tal, el equipo incorporó un lenguaje corporal predeterminado para darle vida a esta experiencia. Gracias a Lanzamiento puntual 3.3el robot es capaz de dirigir su brazo hacia la persona más cercana mientras explica un concepto concreto.
El proceso de desarrollo resultó ser todo un espectáculo, ya que el equipo se encontró con varias sorpresas. Por ejemplo, cuando se le preguntó quién era Marc Raibert, el robot respondió que no lo sabía y recomendó dirigirse al servicio de asistencia de TI para obtener más ayuda. Por extraño que parezca, el equipo de desarrollo no solicitó al LLM que buscara más ayuda. Según Matt, el robot debió haber asociado la ubicación de la mesa de ayuda de TI con la acción de pedir ayuda.
Matt admite que, si bien el robot guía turístico es impresionante, se le vio alucinando gravemente e inventando cosas. Sin olvidar el impacto adverso en el rendimiento del robot en caso de que no pudiera establecer una conexión a Internet estable.
En el futuro, el equipo pretende explorar aún más esta vía, especialmente después de descubrir que es posible integrar los resultados de varios sistemas generales de IA.