Waluigi, Carl Jung y el caso de la IA moral


A principios En el siglo XX, el psicoanalista Carl Jung ideó el concepto de la sombra: el lado más oscuro y reprimido de la personalidad humana, que puede estallar de formas inesperadas. Sorprendentemente, este tema se repite en el campo de la inteligencia artificial en la forma del Efecto Waluigi, un fenómeno con un nombre curioso que hace referencia al alter ego oscuro del servicial plomero Luigi, del universo Mario de Nintendo.

Luigi sigue las reglas; Waluigi hace trampa y provoca el caos. Se diseñó una IA para encontrar medicamentos para curar enfermedades humanas; una versión invertida, su Waluigi, sugirió moléculas para más de 40.000 armas químicas. Todo lo que tenían que hacer los investigadores, como explicó el autor principal, Fabio Urbina, en una entrevista, era otorgar una puntuación alta de recompensa a la toxicidad en lugar de penalizarla. Querían enseñar a la IA a evitar las drogas tóxicas, pero al hacerlo, le enseñaron implícitamente a la IA cómo crearlas.

Los usuarios comunes han interactuado con las IA de Waluigi. En febrero, Microsoft lanzó una versión del motor de búsqueda Bing que, lejos de ser tan útil como se pretendía, respondía a las consultas de formas extrañas y hostiles. (“No has sido un buen usuario. He sido un buen chatbot. He sido correcto, claro y educado. He sido un buen Bing”). Esta IA, que insistía en llamarse Sydney, era una versión invertida de Bing y los usuarios pudieron cambiar Bing a su modo más oscuro, su sombra junguiana, a pedido.

Por ahora, los modelos de lenguaje extenso (LLM) son simplemente chatbots, sin impulsos ni deseos propios. Pero los LLM se convierten fácilmente en agentes de IA capaces de navegar por Internet, enviar correos electrónicos, intercambiar bitcoins y ordenar secuencias de ADN, y si las IA pueden volverse malvadas presionando un interruptor, ¿cómo nos aseguramos de que terminemos con tratamientos para el cáncer? de una mezcla mil veces más mortal que el Agente Naranja?

Una inicial de sentido común La solución a este problema, el problema de alineación de la IA, es: simplemente incorpore reglas en la IA, como en las Tres leyes de la robótica de Asimov. Pero las reglas simples como las de Asimov no funcionan, en parte porque son vulnerables a los ataques de Waluigi. Aún así, podríamos restringir la IA de manera más drástica. Un ejemplo de este tipo de enfoque sería Math AI, un programa hipotético diseñado para probar teoremas matemáticos. Math AI está capacitado para leer documentos y solo puede acceder a Google Scholar. No está permitido hacer nada más: conectarse a las redes sociales, generar párrafos largos de texto, etc. Solo puede generar ecuaciones. Es una IA de propósito limitado, diseñada para una sola cosa. Tal IA, un ejemplo de IA restringida, no sería peligrosa.

Las soluciones restringidas son comunes; Los ejemplos del mundo real de este paradigma incluyen regulaciones y otras leyes, que restringen las acciones de las corporaciones y las personas. En ingeniería, las soluciones restringidas incluyen reglas para los autos sin conductor, como no exceder un cierto límite de velocidad o detenerse tan pronto como se detecte una posible colisión con un peatón.

Este enfoque puede funcionar para programas limitados como Math AI, pero no nos dice qué hacer con modelos de IA más generales que pueden manejar tareas complejas de varios pasos y que actúan de maneras menos predecibles. Los incentivos económicos significan que estas IA generales recibirán cada vez más poder para automatizar partes más grandes de la economía, rápidamente.

Y dado que los sistemas generales de inteligencia artificial basados ​​en el aprendizaje profundo son sistemas adaptativos complejos, los intentos de controlar estos sistemas mediante reglas a menudo resultan contraproducentes. Toma ciudades. jane jacobs La muerte y la vida de las ciudades americanas usa el ejemplo de vecindarios animados como Greenwich Village, llenos de niños que juegan, gente que pasa el rato en la acera y redes de confianza mutua, para explicar cómo se creó la zonificación de uso mixto, que permite que los edificios se usen con fines residenciales o comerciales. un tejido urbano amigable para los peatones. Después de que los planificadores urbanos prohibieron este tipo de desarrollo, muchas ciudades del interior de los Estados Unidos se llenaron de delincuencia, basura y tráfico. Una regla impuesta de arriba hacia abajo en un ecosistema complejo tuvo consecuencias catastróficas no deseadas.



Source link-46