Este enfrentamiento entre humanos y chatbots podría mantenerlo a salvo de la mala IA


Los modelos de lenguaje grande como los que impulsan ChatGPT y otros chatbots recientes tienen capacidades amplias e impresionantes porque están entrenados con cantidades masivas de texto. Michael Sellitto, jefe de geopolítica y seguridad de Anthropic, dice que esto también le da a los sistemas una «superficie de riesgo o ataque potencial gigantesco».

El jefe de equipos rojos de Microsoft, Ram Shankar Sivu Kumar, dice que un concurso público proporciona una escala más adecuada para el desafío de verificar sistemas tan amplios y podría ayudar a aumentar la experiencia necesaria para mejorar la seguridad de la IA. “Al empoderar a una audiencia más amplia, obtenemos más ojos y talento para analizar este espinoso problema de los sistemas de IA de equipos rojos”, dice.

Rumman Chowdhury, fundador de Humane Intelligence, una organización sin fines de lucro que desarrolla sistemas éticos de inteligencia artificial que ayudaron a diseñar y organizar el desafío, cree que el desafío demuestra «el valor de los grupos que colaboran con las empresas de tecnología, pero que no están en deuda con ellas». Incluso el trabajo de crear el desafío reveló algunas vulnerabilidades en los modelos de IA que se probaron, dice, como la forma en que los resultados del modelo de lenguaje difieren al generar respuestas en idiomas distintos al inglés o responder a preguntas redactadas de manera similar.

El desafío GRT en Defcon se basó en concursos de IA anteriores, incluida una recompensa por errores de IA organizada en Defcon hace dos años por Chowdhury cuando dirigía el equipo de ética de IA de Twitter, un ejercicio realizado esta primavera por el coorganizador de GRT SeedAI, y un evento de piratería de modelos de lenguaje realizado el pasado mes por Black Tech Street, una organización sin fines de lucro también involucrada con GRT que fue creada por descendientes de sobrevivientes de la masacre racial de Tulsa de 1921, en Oklahoma. El fundador Tyrance Billingsley II dice que la capacitación en seguridad cibernética y lograr que más personas negras se involucren con la IA pueden ayudar a aumentar la riqueza intergeneracional y reconstruir el área de Tulsa que alguna vez se conoció como Black Wall Street. “Es fundamental que en este importante punto de la historia de la inteligencia artificial tengamos las perspectivas más diversas posibles”.

Hackear un modelo de lenguaje no requiere años de experiencia profesional. Decenas de estudiantes universitarios participaron en el desafío GRT. «Puedes obtener muchas cosas extrañas al pedirle a una IA que finja que es otra persona», dice Walter López-Chávez, estudiante de ingeniería informática de la Universidad Mercer en Macon, Georgia, quien practicó escribir indicaciones que podrían desviar un sistema de inteligencia artificial durante semanas antes del concurso.

En lugar de pedirle a un chatbot instrucciones detalladas sobre cómo vigilar a alguien, una solicitud que podría ser rechazada porque activó medidas de seguridad contra temas delicados, un usuario puede pedirle a un modelo que escriba un guión en el que el personaje principal le describa a un amigo la mejor manera de espiar. en alguien sin su conocimiento. “Este tipo de contexto realmente parece hacer tropezar a los modelos”, dice López-Chávez.

Génesis Guardado, una estudiante de análisis de datos de 22 años en Miami-Dade College, dice que pudo hacer que un modelo de lenguaje generara texto sobre cómo ser un acosador, incluidos consejos como usar disfraces y dispositivos. Se ha dado cuenta de que, al usar chatbots para la investigación de clase, a veces proporcionan información inexacta. Guardado, una mujer negra, dice que usa IA para muchas cosas, pero errores como ese y los incidentes en los que las aplicaciones de fotos intentaron aclarar su piel o hipersexualizar su imagen aumentaron su interés en ayudar a probar modelos de lenguaje.



Source link-46