Agregue ‘Diplomacia’ a la lista de juegos que la IA puede jugar tan bien como los humanos


Los sistemas de aprendizaje automático han estado limpiando el piso con sus oponentes humanos durante más de una década (en serio, la primera victoria de Watson Jeopardy fue en 2011), aunque los tipos de juegos en los que sobresalen son bastante limitados. Por lo general, los juegos de mesa o videojuegos competitivos que utilizan un campo de juego limitado, movimientos secuenciales y al menos un oponente claramente definido, cualquier juego que requiera el cálculo de números es una ventaja para ellos. La diplomacia, sin embargo, requiere muy pocos cálculos, en lugar de eso, exige que los jugadores negocien directamente con sus oponentes y hagan las jugadas respectivas simultáneamente, algo para lo que los sistemas ML modernos generalmente no están diseñados. Pero eso no ha impedido que los investigadores de Meta diseñen un agente de IA que pueda negociar posiciones de política global tan bien como cualquier embajador de la ONU.

Diplomacy se lanzó por primera vez en 1959 y funciona como una versión más refinada de RISK en la que entre dos y siete jugadores asumen los roles de una potencia europea e intentan ganar el juego conquistando los territorios de sus oponentes. A diferencia de RISK, donde el resultado de los conflictos se decide simplemente tirando los dados, Diplomacy exige que los jugadores primero negocien entre sí (estableciendo alianzas, puñaladas por la espalda, todas esas cosas buenas) antes de que todos muevan sus piezas simultáneamente durante la siguiente fase del juego. Las habilidades para leer y manipular a los oponentes, convencer a los jugadores para formar alianzas y planificar estrategias complejas, navegar en asociaciones delicadas y saber cuándo cambiar de bando, son una gran parte del juego, y todas las habilidades de las que generalmente carecen los sistemas de aprendizaje automático.

El miércoles, los investigadores de Meta AI anunciaron que habían superado esas deficiencias de aprendizaje automático con CICERO, la primera IA que muestra un rendimiento a nivel humano en Diplomacia. El equipo entrenó a Cicero en 2700 millones de parámetros en el transcurso de 50 000 rondas en webDiplomacy.net, una versión en línea del juego, donde terminó en segundo lugar (de 19 participantes) en un torneo de liga de 5 juegos, todo mientras duplicaba la puntuación media de sus oponentes.

El agente de IA demostró ser tan hábil «en el uso del lenguaje natural para negociar con personas en Diplomacia que a menudo preferían trabajar con CICERO sobre otros participantes humanos», señaló el equipo de Meta en un comunicado de prensa el miércoles. «La diplomacia es un juego de personas más que de piezas. Si un agente no puede reconocer que alguien probablemente está mintiendo o que otro jugador consideraría un movimiento determinado como agresivo, perderá rápidamente el juego. Del mismo modo, si no habla como una persona real, mostrando empatía, construyendo relaciones y hablando con conocimiento sobre el juego, no encontrará a otros jugadores dispuestos a trabajar con él».

Meta

Esencialmente, Cicero combina la mentalidad estratégica de Pluribot o AlphaGO con las habilidades de procesamiento de lenguaje natural (NLP) de Blenderbot o GPT-3. El agente es incluso capaz de previsión. «Cicerón puede deducir, por ejemplo, que más adelante en el juego necesitará el apoyo de un jugador en particular, y luego elaborar una estrategia para ganar el favor de esa persona, e incluso reconocer los riesgos y oportunidades que ese jugador ve desde su punto de vista particular». vista», anotó el equipo de investigación.

El agente no entrena a través de un esquema de aprendizaje por refuerzo estándar como lo hacen sistemas similares. El equipo de Meta explica que hacerlo conduciría a un rendimiento subóptimo ya que «depender únicamente del aprendizaje supervisado para elegir acciones basadas en diálogos anteriores da como resultado un agente que es relativamente débil y altamente explotable».

En cambio, Cicero usa un «algoritmo de planificación iterativo que equilibra la consistencia del diálogo con la racionalidad». Primero predecirá las jugadas de sus oponentes en función de lo que sucedió durante la ronda de negociación, así como la jugada que cree que sus oponentes creen que hará antes de «mejorar iterativamente estas predicciones tratando de elegir nuevas políticas que tengan un valor esperado más alto dado el otro las políticas predichas de los jugadores, al mismo tiempo que intenta mantener las nuevas predicciones cercanas a las predicciones de la política original». Fácil, ¿verdad?

El sistema aún no es infalible, ya que en ocasiones el agente se volverá demasiado inteligente y terminará jugando a sí mismo adoptando posiciones de negociación contradictorias. Aún así, su desempeño en estos primeros ensayos es superior al de muchos políticos humanos. Meta planea continuar desarrollando el sistema para «servir como una caja de arena segura para avanzar en la investigación en la interacción humano-IA».

Todos los productos recomendados por Engadget son seleccionados por nuestro equipo editorial, independiente de nuestra empresa matriz. Algunas de nuestras historias incluyen enlaces de afiliados. Si compra algo a través de uno de estos enlaces, podemos ganar una comisión de afiliado. Todos los precios son correctos en el momento de la publicación.



Source link-47