La IA incorporada hace girar un bolígrafo y ayuda a limpiar la sala de estar en una nueva investigación


Claro, la IA puede escribir sonetos y hacer una portada pasable de Homer Simpson Nirvana. Pero si alguien va a darle la bienvenida a nuestros nuevos señores del tecno, necesitará ser capaz de hacer algo más práctico, razón por la cual Meta y Nvidia tienen sus sistemas practicando de todo, desde trucos con lápiz hasta tareas domésticas colaborativas.

Coincidentemente, los dos gigantes tecnológicos publicaron esta mañana una nueva investigación relacionada con la enseñanza de modelos de IA para interactuar con el mundo real, básicamente mediante el uso inteligente de uno simulado.

Resulta que el mundo real no sólo es un lugar complejo y desordenado, sino también de lento movimiento. Los agentes que aprenden a controlar robots y realizar una tarea como abrir un cajón y poner algo dentro podrían tener que repetir esa tarea cientos o miles de veces. Eso llevaría días, pero si les pides que lo hagan en un simulacro razonablemente realista del mundo real, podrían aprender a desempeñarse casi tan bien en sólo uno o dos minutos.

El uso de simuladores no es nada nuevo, pero Nvidia ha agregado una capa adicional de automatización, aplicando un modelo de lenguaje grande para ayudar a escribir el código de aprendizaje por refuerzo que guía a una IA ingenua para realizar mejor una tarea. Lo llaman Kit de recompensa universal para agentes impulsado por la evolución, o EUREKA. (Sí, es exagerado).

Supongamos que desea enseñarle a un agente a recoger y clasificar objetos por color. Hay muchas formas de definir y codificar esta tarea, pero algunas pueden ser mejores que otras. Por ejemplo, ¿debería un robot priorizar menos movimientos o reducir el tiempo de finalización? Los humanos saben codificarlos bien, pero descubrir cuál es mejor a veces puede reducirse a prueba y error. Lo que el equipo de Nvidia descubrió fue que un LLM entrenado en código era sorprendentemente bueno en eso, superando a los humanos la mayor parte del tiempo en la efectividad de la función de recompensa. Incluso itera sobre su propio código, mejorando a medida que avanza y ayudándolo a generalizarse a diferentes aplicaciones.

Créditos de imagen: NVIDIA

El impresionante truco con lápiz anterior solo es una simulación, pero se creó utilizando mucho menos tiempo y experiencia humana del que se habría necesitado sin EUREKA. Utilizando esta técnica, los agentes obtuvieron excelentes resultados en una serie de otras tareas virtuales de destreza y locomoción. Aparentemente puede usar tijeras bastante bien, lo cual es… probablemente bueno.

Lograr que estas acciones funcionen en el mundo real es, por supuesto, otro desafío diferente: en realidad “encarnar” la IA. Pero es una señal clara de que la adopción de la IA generativa por parte de Nvidia no es sólo una palabra.

Nuevos hábitats para futuros compañeros robots

Meta también está siguiendo la pista de la IA incorporada, y hoy anunció un par de avances, comenzando con una nueva versión de su conjunto de datos “Hábitat”. La primera versión de esto salió en 2019, básicamente un conjunto de entornos 3D casi fotorrealistas y cuidadosamente anotados por los que un agente de IA podía navegar. Nuevamente, los entornos simulados no son nuevos, pero Meta estaba tratando de hacerlos un poco más fáciles de encontrar y trabajar con ellos.

Salió con la versión 2.0 más tarde, con más entornos mucho más interactivos y físicamente realistas. Habían comenzado a crear una biblioteca de objetos que también podrían poblar estos entornos, algo que muchas empresas de IA consideraron que valía la pena hacer.

Ahora tenemos Habitat 3.0, que añade la posibilidad de que avatares humanos compartan el espacio a través de la realidad virtual. Eso significa que las personas, o agentes capacitados en lo que hacen las personas, pueden ingresar al simulador con el robot e interactuar con él o con el entorno al mismo tiempo.

Suena simple pero es una capacidad realmente importante. Supongamos que desea entrenar a un robot para que limpie la sala de estar llevando los platos de la mesa de café a la cocina y colocando la ropa extraviada en un cesto. Si el robot está solo, podría desarrollar una estrategia para hacer esto que fácilmente podría ser interrumpida por una persona que camina cerca, tal vez incluso haciendo parte del trabajo por él. Pero con un ser humano o un agente parecido a un humano compartiendo el espacio, puede realizar la tarea miles de veces en unos pocos segundos y aprender a trabajar con ellos o alrededor de ellos.

Llaman a la tarea de limpieza “reordenamiento social” y a otra importante “navegación social”. Aquí es donde el robot necesita seguir discretamente a alguien para, por ejemplo, permanecer dentro del alcance audible o vigilarlo por razones de seguridad; piense en un pequeño robot que acompaña a alguien en el hospital al baño.

Un robot Spot en el mundo real realizando una tarea de recoger y colocar. Créditos de imagen: Meta

Una nueva base de datos de interiores 3D a la que llaman HSSD-200 también mejora la fidelidad de los entornos. Descubrieron que entrenar en alrededor de un centenar de estas escenas de alta fidelidad producía mejores resultados que entrenar en 10.000 escenas de menor fidelidad.

Meta también habló de una nueva pila de simulación robótica, HomeRobot, para Spot de Boston Dynamics y Stretch de Hello Robot. Su esperanza es que al estandarizar algunos programas básicos de navegación y manipulación, permitan a los investigadores en esta área centrarse en temas de nivel superior donde la innovación está esperando.

Habitat y HomeRobot están disponibles bajo una licencia del MIT en sus páginas de GitHub, y HSSD-200 está bajo una licencia no comercial Creative Commons, así que vayan a la ciudad, investigadores.



Source link-48