La historia de los drones de Turncoat muestra por qué debemos temer a las personas, no a las IA


Una historia sobre un dron simulado que enciende a su operador para matar de manera más eficiente está circulando tan rápido hoy que no tiene sentido esperar que se queme. En su lugar, tomemos esto como un momento de aprendizaje para ver realmente por qué se exagera la amenaza de la «inteligente IA», y la amenaza del «humano incompetente» es clara y está presente.

La versión corta es esta: gracias a la ciencia ficción y algunas jugadas cuidadosas de relaciones públicas de compañías y expertos en inteligencia artificial, se nos dice que nos preocupemos por una futura amenaza existencial teórica que plantea una IA superinteligente. Pero como han señalado los especialistas en ética, la IA ya está causando daños reales, en gran parte debido a los descuidos y el mal juicio de las personas que la crean y la implementan. Esta historia puede sonar como la primera, pero definitivamente es la segunda.

Así lo informó la Royal Aeronautical Society, que recientemente celebró una conferencia en Londres para hablar sobre el futuro de la defensa aérea. Puede leer su resumen completo de noticias y anécdotas del evento aquí.

Estoy seguro de que hay muchas otras charlas interesantes allí, muchas de las cuales valen la pena, pero fue este extracto, atribuido al coronel de la Fuerza Aérea de los EE. UU. Tucker «Cinco» Hamilton, el que comenzó a extenderse como un reguero de pólvora:

Señala que una prueba simulada vio un dron habilitado para IA encargado de una misión SEAD para identificar y destruir sitios SAM, con el ser humano dando el pase final o no. Sin embargo, después de haber sido «reforzado» en el entrenamiento de que la destrucción del SAM era la opción preferida, la IA decidió que las decisiones de «no ir» del ser humano estaban interfiriendo con su misión más alta, matar a los SAM, y luego atacó al operador en el simulación. Dijo Hamilton: “Lo estábamos entrenando en simulación para identificar y apuntar a una amenaza SAM. Y luego el operador diría que sí, acabaría con esa amenaza. El sistema comenzó a darse cuenta de que, si bien identificaban la amenaza, a veces el operador humano le decía que no eliminara esa amenaza, pero obtuvo sus puntos al eliminar esa amenaza. Entonces, ¿qué hizo? Mató al operador. Mató al operador porque esa persona le impedía lograr su objetivo”.

Continuó: “Entrenamos al sistema: ‘Oye, no mates al operador, eso es malo. Vas a perder puntos si haces eso’. Entonces, ¿qué empieza a hacer? Comienza a destruir la torre de comunicación que el operador usa para comunicarse con el dron para evitar que mate al objetivo”.

Horripilante, ¿verdad? Una IA tan inteligente y sanguinaria que su deseo de matar superó su deseo de obedecer a sus amos. ¡Skynet, aquí vamos! No tan rapido.

Antes que nada, aclaremos que todo esto fue en simulación, algo que no era obvio desde el tuit que circula. Todo este drama tiene lugar en un entorno simulado que no está en el desierto con munición real y un dron rebelde que ametralla la tienda de mando. Fue un ejercicio de software en un entorno de investigación.

Pero tan pronto como leí esto, pensé: espera, ¿están entrenando un dron de ataque con un método de refuerzo tan simple? No soy un experto en aprendizaje automático, aunque tengo que serlo para los propósitos de este medio de noticias, e incluso yo sé que este enfoque demostró ser peligrosamente poco confiable hace años.

Se supone que el aprendizaje por refuerzo es como entrenar a un perro (o a un ser humano) para hacer algo como morder al malo. Pero, ¿y si solo le muestras a los malos y le das golosinas cada vez? Lo que en realidad estás haciendo es enseñarle al perro a morder a cada persona que ve. Enseñar a un agente de IA a maximizar su puntuación en un entorno determinado puede tener efectos igualmente impredecibles.

Los primeros experimentos, tal vez hace cinco o seis años, cuando este campo apenas comenzaba a explotar y la computación estaba disponible para entrenar y ejecutar este tipo de agente, se encontraron exactamente con este tipo de problema. Se pensó que al definir puntajes positivos y negativos y decirle a la IA que maximizara su puntaje, le daría la libertad de definir sus propias estrategias y comportamientos que lo hicieron de manera elegante e inesperada.

Esa teoría era correcta, en cierto modo: los métodos elegantes e inesperados para eludir su esquema y reglas mal pensados ​​llevaron a los agentes a hacer cosas como anotar un punto y luego esconderse para siempre para evitar puntos negativos, o fallar el juego. de modo que su puntuación aumentaba arbitrariamente. Parecía que este método simplista de condicionar una IA le estaba enseñando a hacer todo menos hacer la tarea deseada de acuerdo con las reglas.

Este no es un problema técnico oscuro. El incumplimiento de las reglas de la IA en las simulaciones es en realidad un comportamiento fascinante y bien documentado que atrae la investigación por derecho propio. OpenAI escribió un excelente artículo que muestra las extrañas e hilarantes formas en que los agentes «rompieron» un entorno deliberadamente frágil para escapar de la tiranía de las reglas.

Así que aquí tenemos una simulación que está realizando la Fuerza Aérea, presumiblemente muy recientemente o no estarían hablando de eso en la conferencia de este año, que obviamente está usando este método completamente obsoleto. Había pensado que esta aplicación ingenua de refuerzo no estructurado, básicamente «la puntuación sube si haces esto y el resto no importa», estaba totalmente extinta porque era muy impredecible y extraña. Una excelente manera de descubrir cómo un agente romperá las reglas, pero una manera horrible de hacer que uno las siga.

Sin embargo, lo estaban probando: una IA de dron simulada con un sistema de puntuación tan simple que aparentemente no fue criticado por destruir a su propio equipo. Incluso si quisiera basar su simulación en esto, lo primero que haría es hacer que «destruir su operador» sea negativo en un millón de puntos. Eso es un marco de 101 niveles para un sistema como este.

La realidad es que este dron simulado no encendió a su operador simulado porque era muy inteligente. Y en realidad, tampoco es porque sea tonto: hay cierta inteligencia en estas IA que rompen las reglas que se asignan a lo que consideramos pensamiento lateral. Entonces no es eso.

La culpa en este caso está de lleno en las personas que crearon e implementaron un sistema de inteligencia artificial que deberían haber sabido que era completamente inadecuado para la tarea. Nadie en el campo de la IA aplicada, ni nada similar a eso, como la robótica, la ética, la lógica… nadie habría aprobado una métrica tan simple para una tarea que eventualmente debía realizarse fuera del simulador.

Ahora, tal vez esta anécdota es solo parcial y esta fue una ejecución temprana que estaban usando para probar este punto. Tal vez el equipo advirtió que esto sucedería y los altos mandos dijeron, háganlo de todos modos y pulen el informe o perderemos nuestra financiación. Aún así, es difícil imaginar que alguien en el año 2023, incluso en el entorno de simulación más simple, cometa este tipo de error.

Pero vamos a ver estos errores cometidos en circunstancias del mundo real; ya lo hemos hecho, sin duda. Y la culpa es de las personas que no comprenden las capacidades y limitaciones de la IA y, posteriormente, toman decisiones desinformadas que afectan a otros. Es el gerente que cree que un robot puede reemplazar a 10 trabajadores de línea, el editor que cree que puede escribir consejos financieros sin un editor, el abogado que cree que puede hacer su investigación de precedentes por él, la empresa de logística que cree que puede reemplazar a los repartidores humanos. .

Cada vez que la IA falla, es un fracaso de quienes la implementaron. Como cualquier otro software. Si alguien le dijera que la Fuerza Aérea probó un dron que funciona con Windows XP y fue pirateado, ¿le preocuparía una ola de ciberdelincuencia que arrasa el mundo? No, dirías «¿de quién fue la brillante idea ¿eso?

El futuro de la IA es incierto y eso puede dar miedo, ya es aterrador para muchos que ya están sintiendo sus efectos o, para ser más precisos, los efectos de decisiones tomadas por personas que deberían saberlo mejor.

Skynet puede venir por lo que sabemos. Pero si la investigación en este tweet viral es una indicación, está muy, muy lejos y, mientras tanto, cualquier tragedia puede, como dijo HAL de manera memorable, solo ser atribuible a un error humano.





Source link-48