Nos guste o no, ahora estamos en el mundo de la IA generativa. Redes neuronales enormemente complejas entrenadas con grandes cantidades de datos, todo para que podamos usarlos para hacer fotografías de burros montando cohetes espaciales o decirnos qué cobertura de churro es la mejor. Bromeo, por supuesto, porque los modelos de lenguajes grandes (LLM) pueden ser muy útiles, pero hay un área en la que aún no se han utilizado y es la robótica. Ya no, ya que Google, la Universidad de California y una serie de otros laboratorios de todo el mundo han iniciado el proyecto RT-X, con el objetivo de utilizar la IA para crear un «cerebro» polivalente para robots.
Hasta ahora, nadie parece haberlo intentado realmente, pero es sólo porque los datos utilizados para entrenar redes neuronales se basan casi exclusivamente en esfuerzos humanos, como el arte, la música, la escritura, etc. Por sorprendente que parezca, Internet no está lleno de datos sobre los robots y qué tan bien realizan tareas específicas.
De ahí que Google y la Universidad de California decidieron crear el proyecto RT-X (a través de Fudzilla), involucrando a otros 32 laboratorios de robótica de todo el mundo, para ayudarlos a generar el tipo de datos necesarios para entrenar una red neuronal. Eso significa recopilar datos de millones y millones de interacciones de robots, haciendo cosas como recoger y colocar o soldar en líneas de fabricación.
El objetivo es tener un conjunto de datos lo suficientemente grande como para crear un LLM que pueda usarse para producir el código necesario para programar un robot para realizar cualquier tarea. En esencia, es un cerebro robótico de uso general.
Mis propias experiencias en la programación de brazos robóticos, desde los días en que enseñaba ingeniería, eran asuntos primitivos, pero puedo ver fácilmente el atractivo y el potencial de este trabajo. En lugar de codificar todo manualmente, la idea es escribir en la interfaz algo como «Pon las naranjas en el cuadro gris y deja las manzanas en paz». Luego, el LLM se encargaría de la producción del código necesario para hacer esto.
Al utilizar entradas específicas, como una transmisión de vídeo de la cámara del robot, el código se ajustaría automáticamente para tener en cuenta no sólo el entorno en el que se encuentra el robot, sino también la marca y el modelo del robot que realmente se utiliza. Las primeras pruebas del modelo RT-X, como informa IEEE Spectrum, tuvieron más éxito que el mejor esfuerzo de codificación del laboratorio.
Los siguientes pasos fueron aún más impresionantes. Los cerebros humanos son excepcionalmente buenos para razonar: dígale a alguien que tome una manzana y la coloque entre una lata de refresco y una naranja sobre la mesa, y esperaría que lo hiciera sin problemas. No ocurre lo mismo con los robots y, por lo general, todo esto tendría que codificarse directamente en ellos.
Sin embargo, Google descubrió que el LLM podía «resolverlo», aunque esta tarea específica nunca formó parte del conjunto de datos de entrenamiento de la red neuronal.
Aunque el proyecto RT-X aún está en sus inicios, los beneficios de la IA generativa son claros de ver y el plan ahora es ampliar la cantidad de capacitación, desde tantas instalaciones robóticas como sea posible, para producir un LLM con encarnaciones cruzadas.
Somos naturalmente de encarnación cruzada (es decir, a nuestro cerebro se le puede enseñar a realizar muchas tareas complejas, como practicar un deporte, andar en bicicleta o conducir un automóvil), pero por el momento, los robots no lo son ni remotamente.
Sin embargo, algún día podremos ir a un autoservicio, pedir nuestra comida y tener en nuestras manos exactamente lo que pedimos y colocamos correctamente. Ahora bien, si eso no es progreso, no sé qué lo es. No puedo esperar para saludar a nuestros señores supremos megacerebrados de IA… err… robots útiles.