La robótica de Google DeepMind se centra en robots de uso general, IA generativa y WiFi de oficina


[A version of this piece first appeared in TechCrunch’s robotics newsletter, Actuator. Subscribe here.]

A principios de este mes, el equipo DeepMind de Google presentó Open X-Embodiment, una base de datos de funcionalidad robótica creada en colaboración con 33 institutos de investigación. Los investigadores involucrados compararon el sistema con ImageNet, la histórica base de datos fundada en 2009 que ahora alberga más de 14 millones de imágenes.

«Así como ImageNet impulsó la investigación en visión por computadora, creemos que Open X-Embodiment puede hacer lo mismo para avanzar en la robótica», señalaron en ese momento los investigadores Quan Vuong y Pannag Sanketi. «Construir un conjunto de datos de diversas demostraciones de robots es el paso clave para entrenar un modelo generalista que pueda controlar muchos tipos diferentes de robots, seguir diversas instrucciones, realizar razonamientos básicos sobre tareas complejas y generalizar de manera efectiva».

En el momento de su anuncio, Open X-Embodiment contenía más de 500 habilidades y 150.000 tareas recopiladas de 22 encarnaciones de robots. No son exactamente los números de ImageNet, pero es un buen comienzo. Luego, DeepMind entrenó su modelo RT-1-X con los datos y lo utilizó para entrenar robots en otros laboratorios, reportando una tasa de éxito del 50% en comparación con los métodos internos que los equipos habían desarrollado.

Probablemente he repetido esto decenas de veces en estas páginas, pero realmente es un momento emocionante para el aprendizaje de la robótica. He hablado con muchos equipos que abordan el problema desde diferentes ángulos con una eficacia cada vez mayor. El reinado del robot hecho a medida está lejos de terminar, pero ciertamente parece como si estuviéramos vislumbrando un mundo donde el robot de propósito general es una clara posibilidad.

Sin duda, la simulación será una gran parte de la ecuación, junto con la IA (incluida la variedad generativa). Todavía parece que algunas empresas han puesto el caballo delante del carro cuando se trata de construir hardware para tareas generales, pero dentro de unos años, ¿quién sabe?

Vincent Vanhoucke es alguien a quien he estado tratando de localizar por un tiempo. Si yo estaba disponible, él no. Se envía por la noche y todo eso. Afortunadamente, finalmente pudimos hacerlo funcionar hacia el final de la semana pasada.

Vanhoucke es nuevo en el puesto de jefe de robótica de Google DeepMind, ya que asumió el cargo en mayo. Sin embargo, ha estado dando vueltas por la empresa durante más de 16 años, y más recientemente se desempeñó como científico distinguido de Google AI Robotics. En total, puede que sea la mejor persona con quien hablar sobre las ambiciones robóticas de Google y cómo llegaron hasta aquí.

Créditos de imagen: Google

¿En qué momento de la historia de DeepMind se desarrolló el equipo de robótica?

Originalmente no estaba del lado de DeepMind. Fui parte de Google Research. Recientemente nos fusionamos con los esfuerzos de DeepMind. Entonces, en cierto sentido, mi participación en DeepMind es extremadamente reciente. Pero hay una historia más larga de investigación en robótica en Google DeepMind. Partió de la creciente opinión de que la tecnología de percepción se estaba volviendo realmente buena.

Gran parte de la visión por computadora, el procesamiento de audio y todo eso realmente estaban dando un giro y adquiriendo un nivel casi humano. Empezamos a preguntarnos: «Está bien, suponiendo que esto continúe durante los próximos años, ¿cuáles son las consecuencias?» Una de las consecuencias claras fue que de repente tener robótica en un entorno del mundo real iba a ser una posibilidad real. Ser capaz de evolucionar y realizar tareas en un entorno cotidiano dependía enteramente de tener una percepción realmente fuerte. Inicialmente trabajé en inteligencia artificial general y visión por computadora. También trabajé en el reconocimiento de voz en el pasado. Vi la escritura en la pared y decidí girar hacia el uso de la robótica como la siguiente etapa de nuestra investigación.

Tengo entendido que gran parte del equipo de Everyday Robots terminó en este equipo. La historia de Google con la robótica se remonta mucho más atrás. Han pasado 10 años desde que Alphabet realizó todas esas adquisiciones [Boston Dynamics, etc.]. Parece que mucha gente de esas empresas ha formado parte del equipo de robótica existente de Google.

Hay una fracción significativa del equipo que surgió de esas adquisiciones. Fue antes de mi época: estuve realmente involucrado en la visión por computadora y el reconocimiento de voz, pero todavía tenemos muchas de esas personas. Cada vez más, llegamos a la conclusión de que todo el problema de la robótica estaba subsumido por el problema general de la IA. Realmente, resolver la parte de inteligencia fue el factor clave para cualquier proceso significativo en la robótica del mundo real. Cambiamos muchos de nuestros esfuerzos hacia resolver esa percepción, comprensión y control en el contexto de la IA general que iba a ser el problema fundamental a resolver.

Parecía que gran parte del trabajo que hacía Everyday Robots se refería a la IA general o la IA generativa. ¿El trabajo que estaba haciendo ese equipo se transfirió al equipo de robótica de DeepMind?

Llevábamos colaborando con Everyday Robots desde hacía, quiero decir, ya siete años. Aunque éramos dos equipos separados, tenemos conexiones muy, muy profundas. De hecho, una de las cosas que nos impulsó a empezar a investigar realmente la robótica en ese momento fue una colaboración que era una especie de proyecto de skunkworks con el equipo de Everyday Robots, donde casualmente tenían varios brazos robóticos por ahí que tenían sido descontinuado. Eran una generación de armas que había conducido a una nueva generación, y simplemente estaban tirados por ahí, sin hacer nada.

Decidimos que sería divertido levantar esos brazos, ponerlos a todos en una habitación y hacer que practicaran y aprendieran a agarrar objetos. La noción misma de aprender un problema de comprensión no estaba en el espíritu de la época en ese momento. La idea de utilizar el aprendizaje automático y la percepción como forma de controlar el agarre robótico no era algo que se hubiera explorado. Cuando las armas tuvieron éxito, les dimos una recompensa, y cuando fracasaron, les dimos el visto bueno.

Por primera vez, utilizamos el aprendizaje automático y esencialmente resolvimos este problema de comprensión generalizada mediante el aprendizaje automático y la inteligencia artificial. Ese fue un momento de iluminación en ese momento. Realmente había algo nuevo allí. Eso desencadenó ambas investigaciones con Everyday Robots en torno a centrarse en el aprendizaje automático como una forma de controlar esos robots. Y también, desde el punto de vista de la investigación, impulsar mucha más robótica como un problema interesante para aplicar todas las técnicas de inteligencia artificial de aprendizaje profundo que hemos podido trabajar tan bien en otras áreas.

DeepMind encarna la IA

Créditos de imagen: Mente profunda

¿Su equipo absorbió Everyday Robots?

Una fracción del equipo fue absorbida por mi equipo. Heredamos sus robots y todavía los usamos. Hasta la fecha, continuamos desarrollando la tecnología en la que realmente fueron pioneros y en la que estaban trabajando. Todo el ímpetu sigue vivo con un enfoque ligeramente diferente al que imaginó originalmente el equipo. Realmente nos estamos centrando mucho más en la pieza de inteligencia que en la construcción del robot.

Mencionaste que el equipo se mudó a las oficinas de Alphabet X. ¿Hay algo más profundo ahí, en cuanto a la colaboración entre equipos y el intercambio de recursos?

Es una decisión muy pragmática. Tienen buen Wi-Fi, buena potencia, mucho espacio.

Espero que todos los edificios de Google tengan buena conexión Wi-Fi.

Eso esperarías, ¿verdad? Pero fue una decisión muy pedestre por nuestra parte mudarnos aquí. Debo decir que gran parte de la decisión fue que tenían un buen café aquí. En nuestra oficina anterior no había tan buena comida y la gente empezaba a quejarse. No hay ninguna agenda oculta allí. Nos gusta trabajar estrechamente con el resto de X. Creo que hay muchas sinergias ahí. Tienen robóticos realmente talentosos trabajando en varios proyectos. Tenemos colaboraciones con Intrinsic que nos gusta fomentar. Tiene mucho sentido para nosotros estar aquí y es un edificio hermoso.

Hay un poco de superposición con Intrinsic, en términos de lo que están haciendo con su plataforma: cosas como robótica sin código y aprendizaje de robótica. Se superponen con la IA general y generativa.

Es interesante cómo la robótica ha evolucionado desde todos los rincones, haciéndose muy personalizada y adquiriendo un conjunto muy diferente de conocimientos y habilidades. En gran medida, el viaje que estamos realizando es intentar hacer realidad la robótica de uso general, ya sea aplicada a un entorno industrial o más bien doméstico. Los principios detrás de esto, impulsados ​​por un núcleo de IA muy fuerte, son muy similares. Realmente estamos superando los límites al tratar de explorar cómo podemos admitir un espacio de aplicaciones lo más amplio posible. Eso es nuevo y emocionante. Es muy nuevo. Hay mucho que explorar en el espacio.

Me gusta preguntar a la gente qué tan lejos creen que estamos de algo que razonablemente podemos llamar robótica de propósito general.

Hay un ligero matiz en la definición de robótica de uso general. Estamos realmente centrados en métodos de propósito general. Algunos métodos se pueden aplicar tanto a robots industriales como domésticos o a robots de acera, con todas esas realizaciones y factores de forma diferentes. No nos basamos en que exista una encarnación de propósito general que haga todo por usted, más que si tiene una encarnación que sea muy personalizada para su problema. Está bien. Podemos ajustarlo rápidamente para resolver el problema que usted tiene, específicamente. Entonces ésta es una gran pregunta: ¿Habrá robots de propósito general? Eso es algo sobre lo que mucha gente está lanzando hipótesis sobre si sucederá y cuándo.

Hasta ahora ha habido más éxito con los robots hechos a medida. Creo que, hasta cierto punto, la tecnología no ha estado ahí para permitir que surjan más robots de uso general. Si es ahí a donde nos llevará el modo de negocios es una muy buena pregunta. No creo que esa pregunta pueda responderse hasta que tengamos más confianza en la tecnología que la respalda. Eso es lo que estamos conduciendo ahora mismo. Estamos viendo más signos de vida: que son plausibles enfoques muy generales que no dependen de una encarnación específica. Lo último que hemos hecho es este proyecto RTX. Visitamos varios laboratorios académicos (creo que ahora tenemos 30 socios diferentes) y les pedimos ver su tarea y los datos que han recopilado. Llevemos eso a un depósito común de datos, entrenemos un modelo grande encima y veamos qué sucede.

RoboCat de mente profunda

Créditos de imagen: Mente profunda

¿Qué papel jugará la IA generativa en la robótica?

Creo que va a ser muy central. Hubo esta gran revolución del modelo de lenguaje. Todo el mundo empezó a preguntarse si podíamos utilizar muchos modelos de lenguaje para robots y creo que podría haber sido muy superficial. Ya sabes, “tomemos la moda del día y averigüemos qué podemos hacer con ella”, pero resultó ser extremadamente profundo. La razón es que, si lo piensas bien, los modelos de lenguaje no tienen que ver realmente con el lenguaje. Se trata de razonamiento con sentido común y comprensión del mundo cotidiano. Entonces, si un modelo de lenguaje grande sabe que estás buscando una taza de café, probablemente puedas encontrarla en un armario de la cocina o en una mesa.

Poner una taza de café sobre la mesa tiene sentido. Poner una mesa encima de una taza de café no tiene sentido. Realmente no piensas en hechos simples como ese, porque son completamente obvios para ti. Siempre ha sido muy difícil comunicar eso a un sistema incorporado. El conocimiento es muy, muy difícil de codificar, mientras que esos grandes modelos de lenguaje tienen ese conocimiento y lo codifican de una manera que es muy accesible y podemos utilizar. Así que hemos podido tomar este razonamiento de sentido común y aplicarlo a la planificación de robots. Hemos podido aplicarlo a interacciones de robots, manipulaciones, interacciones entre humanos y robots, y tener un agente que tenga sentido común y pueda razonar sobre cosas en un entorno simulado, junto con la percepción, es realmente fundamental para el problema de la robótica.

Gato de mente profunda

Las diversas tareas que Gato aprendió a completar.

La simulación es probablemente una parte importante de la recopilación de datos para su análisis.

Sí. Es un ingrediente de esto. El desafío de la simulación es que es necesario cerrar la brecha entre la simulación y la realidad. Las simulaciones son una aproximación a la realidad. Puede ser muy difícil hacerlo de manera muy precisa y muy reflejante de la realidad. La física de un simulador tiene que ser buena. La representación visual de la realidad en esa simulación tiene que ser muy buena. En realidad, ésta es otra área en la que la IA generativa está empezando a dejar su huella. Puedes imaginar que, en lugar de tener que ejecutar un simulador de física, simplemente generas mediante generación de imágenes o un modelo generativo de algún tipo.

Tye Brady me dijo recientemente que Amazon está utilizando simulación para generar paquetes.

Eso tiene mucho sentido. Y de cara al futuro, creo que más allá de simplemente generar activos, podemos imaginarnos generar futuros. ¿Imaginas qué pasaría si el robot hiciera una acción? Y verificar que realmente esté haciendo lo que usted quería y utilizarlo como una forma de planificar el futuro. Es algo así como el sueño del robot, que utiliza modelos generativos, en lugar de tener que hacerlo en el mundo real.



Source link-48