El nuevo sistema de seguridad de Microsoft puede detectar alucinaciones en las aplicaciones de inteligencia artificial de sus clientes


Sarah Bird, directora de productos de IA responsable de Microsoft, dice El borde en una entrevista que su equipo ha diseñado varias características de seguridad nuevas que serán fáciles de usar para los clientes de Azure que no contratan grupos de miembros del equipo rojo para probar los servicios de IA que crearon. microsoft dice que estas herramientas impulsadas por LLM pueden detectar vulnerabilidades potencialesmonitoree las alucinaciones «que sean plausibles pero no compatibles» y bloquee mensajes maliciosos en tiempo real para los clientes de Azure AI que trabajan con cualquier modelo alojado en la plataforma.

“Sabemos que no todos los clientes tienen una gran experiencia en ataques de inyección rápida o contenido de odio, por lo que el sistema de evaluación genera las indicaciones necesarias para simular este tipo de ataques. Luego, los clientes pueden obtener una puntuación y ver los resultados”, afirma.

Tres características: Escudos rápidosque bloquea inyecciones de avisos o avisos maliciosos de documentos externos que instruyen a los modelos a ir en contra de su entrenamiento; Detección de conexión a tierra, que encuentra y bloquea las alucinaciones; y evaluaciones de seguridad, que evalúan las vulnerabilidades del modelo, ahora están disponibles en versión preliminar en Azure AI. Próximamente estarán disponibles otras dos funciones para dirigir los modelos hacia resultados seguros y realizar un seguimiento de las indicaciones para señalar a los usuarios potencialmente problemáticos.

Ya sea que el usuario esté escribiendo un mensaje o si el modelo esté procesando datos de terceros, el sistema de monitoreo lo evaluará para ver si activa alguna palabra prohibida o si tiene mensajes ocultos antes de decidir enviarlo al modelo para que responda. Luego, el sistema analiza la respuesta del modelo y verifica si el modelo alucinó información que no está en el documento o en el mensaje.

En el caso de las imágenes de Google Gemini, los filtros hechos para reducir el sesgo tuvieron efectos no deseados, que es un área donde Microsoft dice que sus herramientas Azure AI permitirán un control más personalizado. Bird reconoce que existe la preocupación de que Microsoft y otras empresas puedan estar decidiendo qué es o no apropiado para los modelos de IA, por lo que su equipo agregó una forma para que los clientes de Azure puedan alternar el filtrado del discurso de odio o la violencia que el modelo ve y bloquea.

En el futuro, los usuarios de Azure También puede obtener un informe de los usuarios. que intentan activar salidas inseguras. Bird dice que esto permite a los administradores del sistema determinar qué usuarios son su propio equipo de miembros del equipo rojo y cuáles podrían ser personas con intenciones más maliciosas.

Bird dice que las características de seguridad se «adjuntan» inmediatamente a GPT-4 y otros modelos populares como Llama 2. Sin embargo, debido a que el jardín de modelos de Azure contiene muchos modelos de IA, los usuarios de sistemas de código abierto más pequeños y menos utilizados pueden tener que señalar manualmente las características de seguridad. características a los modelos.



Source link-37