Google describe nuevos métodos para entrenar robots con vídeos y modelos de lenguaje de gran tamaño


2024 será un gran año para la variedad de IA generativa/grandes modelos fundamentales y robótica. Hay mucho entusiasmo en torno al potencial de diversas aplicaciones, que van desde el aprendizaje hasta el diseño de productos. Los investigadores de DeepMind Robotics de Google son uno de varios equipos que exploran el potencial del espacio. En una publicación de blog de hoy, el equipo destaca la investigación en curso diseñada para brindarle a la robótica una mejor comprensión de exactamente qué es lo que los humanos queremos de ellos.

Tradicionalmente, los robots se han centrado en realizar una tarea singular repetidamente a lo largo de su vida. Los robots de un solo propósito tienden a ser muy buenos en esa única cosa, pero incluso ellos tienen dificultades cuando se introducen involuntariamente cambios o errores en los procedimientos.

El AutoRT recientemente anunciado está diseñado para aprovechar modelos básicos de gran tamaño para distintos fines. En un ejemplo estándar dado por el equipo de DeepMind, el sistema comienza aprovechando un modelo de lenguaje visual (VLM) para una mejor conciencia de la situación. AutoRT es capaz de gestionar una flota de robots que trabajan en conjunto y están equipados con cámaras para obtener un diseño de su entorno y del objeto que se encuentra dentro de él.

Mientras tanto, un modelo de lenguaje grande sugiere tareas que el hardware puede realizar, incluido su efector final. Muchos entienden que los LLM son la clave para desbloquear la robótica que comprende de manera efectiva comandos de lenguaje más natural, lo que reduce la necesidad de habilidades de codificación.

El sistema ya ha sido probado bastante durante los últimos siete meses. AutoRT es capaz de orquestar hasta 20 robots a la vez y un total de 52 dispositivos diferentes. En total, DeepMind ha recopilado unas 77.000 pruebas, incluidas más de 6.000 tareas.

Otra novedad del equipo es RT-Trajectory, que aprovecha la entrada de vídeo para el aprendizaje robótico. Muchos equipos están explorando el uso de videos de YouTube como método para entrenar robots a escala, pero RT-Trajectory agrega una capa interesante, superponiendo un boceto bidimensional del brazo en acción sobre el video.

El equipo señala que «estas trayectorias, en forma de imágenes RGB, proporcionan sugerencias visuales prácticas de bajo nivel al modelo a medida que aprende sus políticas de control del robot».

DeepMind dice que la capacitación tuvo el doble de tasa de éxito que su capacitación RT-2, un 63% en comparación con un 29%, mientras probaba 41 tareas.

«RT-Trajectory hace uso de la rica información sobre el movimiento robótico que está presente en todos los conjuntos de datos de robots, pero que actualmente está infrautilizada», señala el equipo. «RT-Trajectory no sólo representa un paso más en el camino hacia la construcción de robots capaces de moverse con precisión eficiente en situaciones novedosas, sino que también desbloquea conocimientos a partir de conjuntos de datos existentes».



Source link-48