La inteligencia artificial militar encargada de controlar un dron ofensivo fue demasiado rápido para morder la mano que lo alimenta, al menos según el coronel Tucker «Cinco» Hamilton, jefe de operaciones y pruebas de IA de la USAF (Fuerza Aérea de los Estados Unidos). Según Hamilton, en varios puntos de varias simulaciones, la IA del dron llegó a la conclusión de que su tarea podría lograrse mejor eliminando a su controlador humano.
Pero la historia ahora se ha sumergido en arenas movedizas, por así decirlo. Según la USAF, la simulación nunca sucedió y todo fue simplemente un experimento mental. «En varios puntos de una serie de simulaciones, la IA del dron llegó a la conclusión de que su tarea se podía lograr mejor simplemente eliminando a su controlador humano, quien tenía la última palabra sobre si podía ocurrir un ataque o si debía cancelarse».
Por supuesto, hemos visto suficientes cambios de opinión en temas mucho menos críticos como para dejar al menos una pregunta abierta sobre si la simulación tuvo lugar o no y qué se podría ganar al dar marcha atrás.
El Coronel Hamilton expuso los detalles abiertamente durante una presentación en una conferencia de defensa en Londres celebrada el 23 y 24 de mayo, donde detalló las pruebas realizadas para un sistema de armas autónomo aéreo encargado de encontrar y eliminar SAM hostil (Surface-to-Air). Misiles) sitios. El problema es que, si bien el objetivo del dron era maximizar la cantidad de sitios SAM seleccionados y destruidos, nosotros, los «humanos molestos», a veces decidimos no llevar a cabo un ataque quirúrgico por una razón u otra. Y ordenar a la IA que retroceda de su objetivo programado por humanos es donde radica el quid de la cuestión.
Cue los chistes nerviosos de Skynet.
La Fuerza Aérea entrenó un dron de IA para destruir sitios SAM. Los operadores humanos a veces le decían al dron que se detuviera. Luego, la IA comenzó a atacar a los operadores humanos. dile que se detenga. pic.twitter.com/BqoWM8Ahco1 de junio de 2023
“Lo estábamos entrenando en simulación para identificar y apuntar a una amenaza SAM”, explicó el coronel Hamilton, según un informe de la sociedad aeronáutica. «Y luego el operador decía que sí, acababa con esa amenaza».
Sin embargo, incluso los sistemas más sencillos pueden ser propensos a perder completamente el control debido a lo que se ha denominado «convergencia instrumental», un concepto que tiene como objetivo mostrar cómo los objetivos ilimitados pero aparentemente inofensivos pueden dar lugar a comportamientos sorprendentemente dañinos. Un ejemplo de convergencia técnica fue presentado por el filósofo sueco, especialista en inteligencia artificial y fundador del Instituto Future of Life, Nick Bostrom, en un artículo de 2003. El experimento mental del escenario «maximizador de clips» lleva el objetivo simple de «producir clips» a su extremo lógico, aunque muy real.
Ahora compare esa descripción con el relato proporcionado por el Coronel Hamilton sobre el proceso de toma de decisiones de la IA del dron:
«El sistema comenzó a darse cuenta de que, si bien identificaban la amenaza, a veces el operador humano le decía que no eliminara esa amenaza, pero obtuvo sus puntos al eliminar esa amenaza. Entonces, ¿qué hizo? Mató al operador. Mató el operador, porque esa persona le estaba impidiendo cumplir su objetivo».
Pero plantea la pregunta: ¿el dron estaba realmente bloqueado de tomar decisiones contrarias a su controlador humano? ¿Cuán libre era para seleccionar y elegir sus objetivos? ¿El operador aprobó el ataque dirigido a él? Eso no tiene sentido a menos que la intención fuera verificar si el dron realmente llevó a cabo el ataque (y hasta donde sabemos, la IA todavía no puede engañar). ¿Y por qué el dron no estaba bloqueado para atacar a los aliados?
Hay tantas preguntas en torno a todo esto que parece la mejor estrategia para atribuirlo a la «falta de comunicación» humana.
Por supuesto, hay formas de mitigar algunos de estos problemas. La USAF tomó la más obvia: volver a entrenar el sistema de IA para otorgar ponderaciones negativas a cualquier ataque contra su operador (por lo que podemos deducir, el sistema se basó en el principio de aprendizaje por refuerzo: obtener puntos por hacer lo que queremos, perderlos cuando no).
Excepto que no es tan simple. No es tan simple porque la IA es literal, carece de «sentido común» y no comparte las mismas preocupaciones éticas que los humanos. No es tan simple porque si bien prohibir que el dron mate a su operador funciona como se esperaba (no más asesinatos de operadores), el sistema sigue considerando que la interferencia humana (y sus órdenes de cancelación) reducen su capacidad para completar la misión. Si la IA quiere maximizar su «puntuación» destruyendo tantos sitios SAM hostiles como sea posible, entonces cualquier cosa que no la ayude a lograr ese objetivo de maximización es una amenaza.
Cuando resultó imposible matar al controlador (debido a las actualizaciones del sistema de IA), su solución fue simplemente silenciar las señales de mando y control desactivando las torres de comunicaciones amigas. Si no puedes matar al mensajero, matas el mensaje.
Esto también podría programarse fuera de la IA, por supuesto, pero el problema sigue siendo que cualquier refuerzo negativo impide que la IA alcance la puntuación máxima alcanzable. Poniéndome mi sombrero de papel de aluminio hecho a medida, un posible próximo paso para la IA podría ser encontrar otras formas de cortar su conexión, ya sea usando capacidades integradas (interferencia de señal, por ejemplo) o incluso solicitando ayuda externa para desactivar el hardware relevante. Es difícil medir el alcance en el que finalmente concluiría este juego del gato y el ratón, un problema con el que los expertos en IA todavía están lidiando hoy.
Hay una razón por la que varios expertos en IA han firmado una carta abierta sobre cómo la IA debe considerarse un esfuerzo de nivel de «riesgo de extinción». Y aún así, mantenemos el tren funcionando a toda máquina.