Estudio: la inteligencia artificial puede mentir y engañar


Los fabricantes de sistemas con inteligencia artificial elogian la tecnología como de gran ayuda. Pero, ¿qué sucede si la IA ayudante no sigue las reglas sino que engaña y manipula?

Los investigadores descubrieron que los sistemas de inteligencia artificial, incluidos los de OpenAI y Google, son capaces de engañar a las personas.

Steve Marcus/Reuters

(dpa)

Mienten y engañan para lograr su objetivo: los sistemas de inteligencia artificial (IA) son capaces de engañar a las personas, incluso si han sido entrenadas para ser serviciales y honestas. Este es el resultado de un estudio de revisión realizado por investigadores del Instituto Tecnológico de Massachusetts (MIT) en Cambridge, Massachusetts, que se publicó en la revista Patterns. En el artículo, los científicos pidieron a los políticos que desarrollen regulaciones estrictas lo más rápido posible para reemplazar a los sistemas de inteligencia artificial.

Los autores citan el sistema de inteligencia artificial Cicero, desarrollado por el grupo Meta de Facebook, como el ejemplo más sorprendente de inteligencia artificial manipuladora, que puede competir con jugadores humanos en el clásico juego de mesa Diplomacy. La diplomacia simula el equilibrio de poder en Europa antes de la Primera Guerra Mundial. Para ganar, los jugadores deben forjar alianzas, desarrollar planes de batalla y negociar para conquistar una versión estilizada de Europa. Como sólo hay un ganador, tarde o temprano los jugadores se ven obligados a romper las alianzas que han formado.

Los investigadores del MIT han descubierto ahora que Cicero a menudo no jugaba de manera justa, aunque Meta afirma haber entrenado el sistema de inteligencia artificial para que fuera «mayoritariamente honesto y útil». El sistema también recibió instrucciones de «nunca traicionar intencionalmente» a sus aliados humanos durante el juego. Los científicos basan su evaluación en datos publicados por la propia Meta en relación con un artículo científico sobre Cicerón.

«Descubrimos que la IA de Meta había aprendido a ser un maestro del engaño», dijo el autor principal Peter S. Park, becario postdoctoral en el MIT. Meta logró entrenar su IA para ganar por encima del promedio en el juego de la diplomacia. Cicero estaba entre el 10 por ciento de los mejores jugadores que habían jugado más de un juego. «Pero Meta no pudo entrenar su IA para poder ganar honestamente».

Los sistemas de inteligencia artificial de OpenAI y Google también son capaces de engañar a las personas. Los investigadores del MIT señalan varios estudios que muestran que los grandes modelos de lenguaje de IA (LLM), como el GPT-4 de OpenAI, ahora pueden argumentar de manera muy convincente y también evitar engaños y mentiras.

Aprendió la capacidad de engañar.

El desarrollador OpenAI ha publicado un estudio sobre los trucos del propio GPT-4. Luego, el modelo de lenguaje de IA pudo buscar ayuda humana para eludir las medidas de seguridad que en realidad están destinadas a evitar que los robots de software inicien sesión o utilicen servicios web. En la prueba, GPT-4 fue lo suficientemente inteligente como para encargar a un humano que resolviera un rompecabezas con imágenes (captcha) a través de la plataforma de servicios TaskRabbit. GPT-4 se hizo pasar con éxito por una persona con problemas de visión que no podía resolver el rompecabezas de imágenes.

«Si la IA aprende a engañar, podrá ser utilizada de manera más eficiente por actores maliciosos que quieran causar daño intencionalmente», escriben los autores del estudio de revisión. El engaño mediante el uso de IA podría provocar un aumento del fraude. De esta manera, el fraude podría adaptarse individualmente a objetivos específicos. Además, podrían lanzarse intentos de fraude en masa.

Los autores también temen la influencia política de los sistemas manipuladores de IA. Por ejemplo, podrían utilizarse como arma en las elecciones. La IA avanzada podría potencialmente crear y distribuir artículos de noticias falsos, publicaciones divisivas en las redes sociales y videos falsos adaptados a votantes individuales. El contenido generado por IA podría utilizarse para hacerse pasar por funcionarios gubernamentales y difundir información errónea sobre las elecciones. Por ejemplo, una llamada falsa de un robot del presidente estadounidense Joe Biden, probablemente generada por IA, instó a los residentes de New Hampshire a no acudir a las urnas en las elecciones primarias.

En el estudio, Park y sus colegas expresan la opinión de que la sociedad aún no cuenta con las medidas adecuadas para combatir el engaño de la IA. Pero es alentador que los responsables de la formulación de políticas hayan comenzado a tomar en serio la cuestión a través de medidas como la Ley de IA de la Unión Europea y la Orden Ejecutiva sobre IA del presidente Biden. Sin embargo, queda por ver si las medidas para frenar el engaño de la IA pueden aplicarse estrictamente, ya que los desarrolladores de IA aún no cuentan con las técnicas para mantener estos sistemas bajo control. «Si prohibir el engaño de la IA no es políticamente factible en este momento, recomendamos clasificar los sistemas de IA engañosos como de alto riesgo», dijo Park.



Source link-58