La nueva IA de Google DeepMind puede seguir comandos dentro de juegos 3D que nunca antes se había visto


ha revelado una nueva investigación que destaca un agente de inteligencia artificial que es capaz de realizar una serie de tareas en juegos 3D que no se había visto antes. El equipo ha estado experimentando durante mucho tiempo con modelos de IA que pueden ganar en juegos como el ajedrez, e incluso aprender juegos. Ahora, por primera vez, según DeepMind, un agente de IA ha demostrado que es capaz de comprender una amplia gama de mundos de juego y realizar tareas dentro de ellos basándose en instrucciones en lenguaje natural.

Los investigadores se asociaron con estudios y editores como Hello Games (), Laboratorios de esmoquin () y mancha de café ( y ) para entrenar al Scalable Instructable Multiworld Agent (SIMA) en nueve juegos. El equipo también utilizó cuatro entornos de investigación, incluido uno construido en Unity en el que se instruye a los agentes para que formen esculturas utilizando bloques de construcción. Esto le dio a SIMA, descrito como «un agente de IA generalista para escenarios virtuales 3D», una variedad de entornos y escenarios de los cuales aprender, con una variedad de estilos gráficos y perspectivas (primera y tercera persona).

«Cada juego del portafolio de SIMA abre un nuevo mundo interactivo, que incluye una variedad de habilidades para aprender, desde navegación simple y uso de menús hasta extracción de recursos, volar una nave espacial o fabricar un casco», escribieron los investigadores en una publicación de blog. Observaron que aprender a seguir instrucciones para tales tareas en los mundos de los videojuegos podría conducir a agentes de IA más útiles en cualquier entorno.

Un diagrama de flujo que detalla cómo Google DeepMind entrenó a su agente SIMA AI.  El equipo utilizó videos del juego y los comparó con las entradas del teclado y el mouse para que la IA aprendiera.

Google DeepMind

Los investigadores grabaron a los humanos jugando y anotaron las entradas del teclado y el mouse utilizadas para llevar a cabo las acciones. Utilizaron esta información para entrenar a SIMA, que tiene «un mapeo preciso de imágenes y lenguaje y un modelo de video que predice lo que sucederá a continuación en la pantalla». La IA es capaz de comprender una variedad de entornos y realizar tareas para lograr un objetivo determinado.

Los investigadores dicen que SIMA no necesita el código fuente del juego ni el acceso a la API: funciona en versiones comerciales de un juego. También necesita sólo dos entradas: lo que se muestra en la pantalla y las instrucciones del usuario. Dado que utiliza el mismo método de entrada de teclado y mouse que un humano, DeepMind afirma que SIMA puede operar en casi cualquier entorno virtual.

El agente es evaluado en cientos de habilidades básicas que se pueden llevar a cabo en aproximadamente 10 segundos en varias categorías, incluida la navegación («girar a la derecha»), la interacción con objetos («recoger hongos») y tareas basadas en menús, como abrir un mapa o elaborar un artículo. Con el tiempo, DeepMind espera poder ordenar a los agentes que lleven a cabo tareas más complejas y de múltiples etapas basadas en indicaciones de lenguaje natural, como «encontrar recursos y construir un campamento».

En términos de rendimiento, SIMA obtuvo buenos resultados según una serie de criterios de formación. Los investigadores entrenaron al agente en un juego (digamos Simulador de cabra 3, en aras de la claridad) y lo puse a reproducir ese mismo título, usándolo como base para el rendimiento. Un agente de SIMA que fue entrenado en los nueve juegos se desempeñó mucho mejor que un agente que entrenó solo en Simulador de cabra 3.

Gráfico que muestra el rendimiento relativo del agente SIMA AI de Google DeepMind según distintos datos de entrenamiento.Gráfico que muestra el rendimiento relativo del agente SIMA AI de Google DeepMind según distintos datos de entrenamiento.

Google DeepMind

Lo que es especialmente interesante es que una versión de SIMA que fue entrenada en los otros ocho juegos y luego jugó el otro tuvo un desempeño casi tan bueno en promedio como un agente que entrenó solo en este último. «Esta capacidad de funcionar en entornos completamente nuevos resalta la capacidad de SIMA para generalizar más allá de su capacitación», dijo DeepMind. «Este es un resultado inicial prometedor, sin embargo se necesita más investigación para que SIMA funcione a nivel humano en juegos tanto visibles como invisibles».

Sin embargo, para que SIMA tenga verdadero éxito, se requiere la entrada de idiomas. En las pruebas en las que un agente no recibió capacitación o instrucciones lingüísticas, (por ejemplo) llevó a cabo la acción común de reunir recursos en lugar de caminar hacia donde se le indicó. En tales casos, SIMA «se comporta de manera apropiada pero sin rumbo», dijeron los investigadores. Entonces, no somos sólo nosotros, simples mortales. Los modelos de inteligencia artificial a veces también necesitan un pequeño empujón para realizar su trabajo correctamente.

DeepMind señala que se trata de una investigación en fase inicial y que los resultados «muestran el potencial para desarrollar una nueva ola de agentes de IA generalistas impulsados ​​por el lenguaje». El equipo espera que la IA se vuelva más versátil y generalizable a medida que esté expuesta a más entornos de entrenamiento. Los investigadores esperan que las versiones futuras del agente mejoren la comprensión de SIMA y su capacidad para realizar tareas más complejas. «En última instancia, nuestra investigación se dirige hacia sistemas y agentes de IA más generales que puedan comprender y llevar a cabo de forma segura una amplia gama de tareas de una manera que sea útil para las personas en línea y en el mundo real», dijo DeepMind.



Source link-47