Los experimentos de ajedrez de Google revelan cómo aumentar el poder de la IA


Su grupo decidió averiguarlo. Construyeron la versión nueva y diversificada de AlphaZero, que incluye múltiples sistemas de inteligencia artificial que se entrenan de forma independiente y en una variedad de situaciones. El algoritmo que gobierna el sistema en general actúa como una especie de casamentero virtual, dijo Zahavy: uno diseñado para identificar qué agente tiene más posibilidades de tener éxito cuando llega el momento de hacer un movimiento. Él y sus colegas también codificaron un «bono de diversidad», una recompensa para el sistema cada vez que extraía estrategias de una gran selección de opciones.

Cuando el nuevo sistema empezó a jugar sus propios juegos, el equipo observó mucha variedad. El jugador de IA diversificado experimentó con aperturas nuevas y efectivas y decisiones novedosas (pero sólidas) sobre estrategias específicas, como cuándo y dónde enrocar. En la mayoría de los partidos, derrotó al AlphaZero original. El equipo también descubrió que la versión diversificada podía resolver el doble de acertijos desafiantes que el original y podía resolver más de la mitad del catálogo total de acertijos de Penrose.

«La idea es que, en lugar de encontrar una solución o una política única que pueda vencer a cualquier jugador, aquí [it uses] la idea de diversidad creativa”, dijo Cully.

Con acceso a más y diferentes juegos jugados, dijo Zahavy, el diversificado AlphaZero tenía más opciones para situaciones difíciles cuando surgían. «Si puedes controlar el tipo de juegos que ve, básicamente controlas cómo se generalizará», dijo. Esas extrañas recompensas intrínsecas (y sus movimientos asociados) podrían convertirse en fortalezas para diversos comportamientos. Entonces el sistema podría aprender a evaluar y valorar los enfoques dispares y ver cuándo tuvieron más éxito. «Descubrimos que este grupo de agentes realmente puede llegar a un acuerdo sobre estas posiciones».

Y, lo que es más importante, las implicaciones se extienden más allá del ajedrez.

Creatividad de la vida real

Cully dijo que un enfoque diversificado puede ayudar a cualquier sistema de inteligencia artificial, no solo a aquellos basados ​​en el aprendizaje por refuerzo. Durante mucho tiempo ha utilizado la diversidad para entrenar sistemas físicos, incluido un robot de seis patas al que se le permitió explorar varios tipos de movimiento, antes de «herirlo» intencionalmente, permitiéndole continuar moviéndose usando algunas de las técnicas que había desarrollado antes. «Sólo estábamos tratando de encontrar soluciones que fueran diferentes de todas las soluciones anteriores que hemos encontrado hasta ahora». Recientemente, también ha estado colaborando con investigadores para utilizar la diversidad para identificar nuevos candidatos a fármacos prometedores y desarrollar estrategias efectivas de negociación de acciones.

«El objetivo es generar una gran colección de potencialmente miles de soluciones diferentes, donde cada solución sea muy diferente de la siguiente», dijo Cully. Así, tal como aprendió a hacer el jugador de ajedrez diversificado, para cada tipo de problema, el sistema general podía elegir la mejor solución posible. El sistema de inteligencia artificial de Zahavy, dijo, muestra claramente cómo «la búsqueda de estrategias diversas ayuda a pensar de manera innovadora y encontrar soluciones».

Zahavy sospecha que para que los sistemas de IA piensen creativamente, los investigadores simplemente tienen que lograr que consideren más opciones. Esa hipótesis sugiere una curiosa conexión entre humanos y máquinas: tal vez la inteligencia sea sólo una cuestión de poder computacional. Para un sistema de IA, tal vez la creatividad se reduzca a la capacidad de considerar y seleccionar entre un conjunto de opciones suficientemente grande. A medida que el sistema obtiene recompensas por seleccionar una variedad de estrategias óptimas, este tipo de resolución creativa de problemas se refuerza y ​​fortalece. En última instancia, en teoría, podría emular cualquier tipo de estrategia de resolución de problemas reconocida como creativa en los humanos. La creatividad se convertiría en un problema computacional.

Liemhetcharat señaló que es poco probable que un sistema de IA diversificado resuelva por completo el problema de generalización más amplio del aprendizaje automático. Pero es un paso en la dirección correcta. «Está mitigando una de las deficiencias», dijo.

De manera más práctica, los resultados de Zahavy resuenan con esfuerzos recientes que muestran cómo la cooperación puede conducir a un mejor desempeño en tareas difíciles entre humanos. La mayoría de los éxitos de la lista Billboard 100 fueron escritos por equipos de compositores, por ejemplo, no por individuos. Y todavía hay margen de mejora. Actualmente, el enfoque diverso es computacionalmente costoso, ya que debe considerar muchas más posibilidades que un sistema típico. Zahavy tampoco está convencido de que incluso el diversificado AlphaZero abarque todo el espectro de posibilidades.

«Todavía [think] hay espacio para encontrar diferentes soluciones”, dijo. «No me queda claro que, teniendo en cuenta todos los datos del mundo, haya [only] una respuesta para cada pregunta”.


historia original reimpreso con permiso de Revista Quanta, una publicación editorialmente independiente del Fundación Simons cuya misión es mejorar la comprensión pública de la ciencia cubriendo los desarrollos y tendencias de la investigación en matemáticas y ciencias físicas y biológicas.



Source link-46