Si las conversaciones constantes sobre la IA en estos días sólo te dejan confundido, entonces este video visualmente satisfactorio puede ser el bálsamo que necesitas. Utilizando una red neuronal y aprendizaje por refuerzo, el YouTuber Yosh emprendió un viaje de 3 años para entrenar una IA que reemplazara sus propios 17 años de experiencia en Trackmania.
La premisa es simple: entrenar una IA para mejorar en el juego y, como dice el propio Yosh, «cuanto más entrena, mejor se vuelve». Este tampoco es el primer rodeo de Yosh: ha hecho videos anteriores experimentando con la tecnología e intentando crear una IA de Trackmania capaz de vencerse a sí mismo. Su canal de YouTube ha acumulado más de 18 millones de visitas en todo el mundo y tiene poco menos de 100.000 suscriptores.
La red neuronal se describe en el vídeo como una «herramienta matemática que modela aproximadamente cómo funciona un cerebro», y toma datos de parámetros como la velocidad de giro y la velocidad, y luego, en respuesta, le indica al automóvil qué hacer. Cuanto más se reproduce, más datos se recopilan para optimizar el rendimiento. Cualquier acción realizada por la IA que estuviera predeterminada como beneficiosa le proporcionó una recompensa. Este aprendizaje reforzado impulsó su toma de decisiones hacia tiempos más rápidos y elecciones más eficientes.
El venerable Trackmania es casi el foco perfecto para este tipo de enfoque: reglas simples y claras sobre pistas y movimientos, combinadas con un estilo de juego de prueba y error que a su vez se visualiza mediante repeticiones que se pueden superponer unas sobre otras. Las tomas de cientos de autos intentando, fallando y aprendiendo a progresar hacen que todo el proceso de aprendizaje sea fácil de entender. También es extremadamente satisfactorio de ver.
Yosh inicia la IA en una pista sencilla y, a medida que comienza a desarrollarse, se introducen otras más complejas así como la opción de frenar que inicialmente quedó fuera. Esta capacidad de frenado adicional se introdujo para intentar fomentar la deriva y, por lo tanto, tiempos más rápidos. Para hacer esto, inicialmente se recompensaba cualquier tipo de derrape, lo cual fue un error: la IA logró ser más astuta que su creador y encontró una manera de derrapar constantemente, lo que resultó en abundante retroalimentación positiva para el modelo, pero una velocidad máxima baja. Este comportamiento involuntario se solucionó agregando un simple requisito de velocidad para que solo fuera recompensado por desviarse a una velocidad determinada.
El progreso de la IA es significativo a lo largo del video y rápidamente me interesé en saber hasta dónde se podía llevar. Si quieres saber si pudo volverse realmente imbatible, únete a los millones de nosotros que lo hemos visto para comprobarlo por ti mismo: y si sólo quieres ver el enfrentamiento entre el hombre y la máquina, aquí tienes la marca de tiempo.