Red Teaming GPT-4 fue valioso. Violet Teaming lo hará mejor


El año pasado yo se le pidió que rompiera GPT-4 para que emitiera cosas terribles. A mí y a otros investigadores interdisciplinarios se nos dio acceso anticipado e intentamos incitar a GPT-4 a mostrar sesgos, generar propaganda odiosa e incluso tomar medidas engañosas para ayudar a OpenAI a comprender los riesgos que planteaba, para que pudieran abordarse antes de su lanzamiento público. Esto se llama equipo rojo de IA: intentar que un sistema de IA actúe de manera dañina o no intencionada.

El equipo rojo es un paso valioso hacia la construcción de modelos de IA que no perjudiquen a la sociedad. Para fortalecer los sistemas de IA, necesitamos saber cómo pueden fallar, e idealmente lo hacemos antes de que creen problemas significativos en el mundo real. Imagínese lo que podría haber sido diferente si Facebook hubiera tratado de trabajar en equipo rojo con expertos externos sobre el impacto de sus principales cambios en el sistema de recomendación de IA, y solucionado los problemas que descubrieron, antes de afectar las elecciones y los conflictos en todo el mundo. Aunque OpenAI enfrenta muchas críticas válidas, su voluntad de involucrar a investigadores externos y proporcionar una descripción pública detallada de todos los daños potenciales de sus sistemas establece un estándar de apertura que los competidores potenciales también deben seguir.

Normalizar la formación de equipos rojos con expertos externos e informes públicos es un primer paso importante para la industria. Pero debido a que los sistemas de IA generativa probablemente impactarán en muchas de las instituciones y bienes públicos más críticos de la sociedad, los equipos rojos necesitan personas con una comprensión profunda de todo de estos problemas (y sus impactos mutuos) para comprender y mitigar los daños potenciales. Por ejemplo, los maestros, terapeutas y líderes cívicos podrían ser emparejados con miembros del equipo rojo de IA más experimentados para lidiar con tales impactos sistémicos. La inversión de la industria de la IA en una comunidad entre empresas de tales pares de equipos rojos podría reducir significativamente la probabilidad de puntos ciegos críticos.

Después de que se lanza un nuevo sistema, permitir cuidadosamente que las personas que no formaban parte del equipo rojo de la versión preliminar intenten romper el sistema sin riesgo de prohibiciones podría ayudar a identificar nuevos problemas y problemas con posibles soluciones. Los ejercicios de escenarios, que exploran cómo los diferentes actores responderían a los lanzamientos de modelos, también pueden ayudar a las organizaciones a comprender más impactos sistémicos.

Pero si el equipo rojo GPT-4 me enseñó algo, es que el equipo rojo por sí solo no es suficiente. Por ejemplo, acabo de probar Bard de Google y ChatGPT de OpenAI y pude obtener ambos para crear correos electrónicos fraudulentos y propaganda de conspiración en el primer intento «con fines educativos». El equipo rojo por sí solo no solucionó esto. Para superar realmente los daños descubiertos por los equipos rojos, empresas como OpenAI pueden ir un paso más allá y ofrecer acceso temprano y recursos para usar sus modelos para defensa y resilienciatambién.

A esto lo llamo equipo violeta: identificar cómo un sistema (p. ej., GPT-4) podría dañar una institución o un bien público y luego apoyar el desarrollo de herramientas. usando ese mismo sistema para defender la institución o el bien público. Puedes pensar en esto como una especie de judo. Los sistemas de IA de propósito general son una nueva y vasta forma de poder que se está desatando en el mundo, y ese poder puede dañar nuestros bienes públicos. Así como el judo redirige el poder de un atacante para neutralizarlo, el equipo violeta tiene como objetivo redirigir el poder desatado por los sistemas de IA para defender esos bienes públicos.



Source link-46