OpenAI ofrece una recompensa por errores para ChatGPT, pero no recompensas por hacer jailbreak a su chatbot


OpenAI ha lanzado un recompensa por errores, alentando a los miembros del público a encontrar y divulgar vulnerabilidades en sus servicios de inteligencia artificial, incluido ChatGPT. Las recompensas van desde $ 200 por «hallazgos de baja gravedad» hasta $ 20,000 por «descubrimientos excepcionales», y los informes se pueden enviar a través de la plataforma de ciberseguridad de crowdsourcing Multitud de bichos.

En particular, la recompensa excluye las recompensas por hacer jailbreak a ChatGPT o hacer que genere código o texto malicioso. «Los problemas relacionados con el contenido de las indicaciones y respuestas del modelo están estrictamente fuera del alcance y no serán recompensados», dice OpenAI’s Página de multitud de errores.

Jailbreaking ChatGPT generalmente implica ingresar escenarios elaborados en el sistema que le permiten eludir sus propios filtros de seguridad. Estos pueden incluir animar al chatbot a jugar el papel de su «gemelo malvado», permitiendo que el usuario obtenga respuestas que de otro modo estarían prohibidas, como discursos de odio o instrucciones para fabricar armas.

OpenAI dice que tales «problemas de seguridad del modelo no encajan bien dentro de un programa de recompensas por errores, ya que no son errores individuales y discretos que se pueden solucionar directamente». La empresa señala que «abordar estos problemas a menudo implica una investigación sustancial y un enfoque más amplio» y los informes de tales problemas deben enviarse a través de la empresa. página de comentarios del modelo.

Aunque tales jailbreaks demuestran las vulnerabilidades más amplias de los sistemas de IA, es probable que sean un problema menor directamente para OpenAI en comparación con las fallas de seguridad tradicionales. Por ejemplo, el mes pasado, un hacker conocido como rez0 pudo revelar 80 “complementos secretos” para la API de ChatGPT: complementos experimentales o aún no publicados para el chatbot de la empresa. (Rez0 notó que la vulnerabilidad fue reparada un día después de que la divulgaron en Twitter).

como un usuario respondió al hilo del tweet: «Si solo tuvieran un programa pagado #BugBounty, estoy seguro de que la multitud podría ayudarlos a detectar estos casos extremos en el futuro : )»





Source link-37