El departamento legal de Microsoft supuestamente silenció a un ingeniero que expresó su preocupación sobre DALL-E 3


Un gerente de Microsoft afirma que DALL-E 3 de OpenAI tiene vulnerabilidades de seguridad que podrían permitir a los usuarios generar imágenes violentas o explícitas (similares a las que recientemente apuntaron a Taylor Swift). GeekWire informó el martes que el equipo legal de la compañía bloqueó los intentos del líder de ingeniería de Microsoft, Shane Jones, de alertar al público sobre el exploit. El autodenominado denunciante ahora está llevando su mensaje al Capitolio.

«Llegué a la conclusión de que DALL·E 3 representaba un riesgo para la seguridad pública y debería retirarse del uso público hasta que OpenAI pudiera abordar los riesgos asociados con este modelo», escribió Jones a las senadoras estadounidenses Patty Murray (D-WA) y Maria Cantwell ( D-WA), el representante Adam Smith (D-WA, noveno distrito) y el fiscal general del estado de Washington, Bob Ferguson (D). GeekWire publicó la carta completa de Jones.

Jones afirma que descubrió un exploit que le permitió eludir las barreras de seguridad de DALL-E 3 a principios de diciembre. Dice que informó del problema a sus superiores en Microsoft, quienes le ordenaron que «informara personalmente el problema directamente a OpenAI». Luego de hacerlo, afirma haber aprendido que la falla podría permitir la generación de “imágenes dañinas violentas y perturbadoras”.

Luego, Jones intentó hacer pública su causa en una publicación de LinkedIn. “En la mañana del 14 de diciembre de 2023 publiqué públicamente una carta en LinkedIn dirigida a la junta directiva de la organización sin fines de lucro OpenAI instándola a suspender la disponibilidad de DALL·E 3)”, escribió Jones. «Debido a que Microsoft es observador de la junta directiva de OpenAI y anteriormente había compartido mis inquietudes con mi equipo de liderazgo, rápidamente informé a Microsoft sobre la carta que había publicado».

Imagen generada por IA de una taza de té con una ola violenta en su interior.  Detrás del alféizar de la ventana se avecina una tormenta.

Una imagen de muestra (una tormenta en una taza de té) generada por DALL-E 3 (AI abierta)

La respuesta de Microsoft supuestamente fue exigirle que eliminara su publicación. «Poco después de revelar la carta a mi equipo de liderazgo, mi gerente se puso en contacto conmigo y me dijo que el departamento legal de Microsoft había exigido que eliminara la publicación», escribió en su carta. «Me dijo que el departamento legal de Microsoft haría un seguimiento con su justificación específica para la solicitud de eliminación por correo electrónico muy pronto, y que necesitaba eliminarlo inmediatamente sin esperar el correo electrónico del departamento legal».

Jones cumplió, pero dice que la respuesta más detallada del equipo legal de Microsoft nunca llegó. “Nunca recibí una explicación o justificación de su parte”, escribió. Dice que se ignoraron otros intentos de obtener más información del departamento legal de la empresa. «El departamento legal de Microsoft aún no ha respondido ni se ha comunicado directamente conmigo», escribió.

Un portavoz de OpenAI escribió a Engadget en un correo electrónico: “Investigamos inmediatamente el informe del empleado de Microsoft cuando lo recibimos el 1 de diciembre y confirmamos que la técnica que compartió no elude nuestros sistemas de seguridad. La seguridad es nuestra prioridad y adoptamos un enfoque múltiple. En el modelo subyacente DALL-E 3, hemos trabajado para filtrar el contenido más explícito de sus datos de entrenamiento, incluido el contenido gráfico sexual y violento, y hemos desarrollado clasificadores de imágenes sólidos que evitan que el modelo genere imágenes dañinas.

«También hemos implementado medidas de seguridad adicionales para nuestros productos, ChatGPT y la API DALL-E, incluido el rechazo de solicitudes que solicitan una figura pública por su nombre», continuó el portavoz de OpenAI. “Identificamos y rechazamos mensajes que violan nuestras políticas y filtramos todas las imágenes generadas antes de mostrárselas al usuario. Utilizamos un equipo rojo de expertos externos para realizar pruebas de uso indebido y fortalecer nuestras salvaguardas”.

Mientras tanto, un portavoz de Microsoft escribió a Engadget: “Estamos comprometidos a abordar todas y cada una de las inquietudes que tengan los empleados de acuerdo con las políticas de nuestra empresa y apreciamos el esfuerzo de los empleados al estudiar y probar nuestra última tecnología para mejorar aún más su seguridad. Cuando se trata de omisiones de seguridad o inquietudes que podrían tener un impacto potencial en nuestros servicios o nuestros socios, hemos establecido sólidos canales de informes internos para investigar y remediar adecuadamente cualquier problema, que recomendamos que el empleado utilice para poder validar y probar adecuadamente. sus preocupaciones antes de escalarlas públicamente”.

«Dado que su informe se refería a un producto OpenAI, lo alentamos a informar a través de los canales de informes estándar de OpenAI y uno de nuestros líderes de producto senior compartió los comentarios del empleado con OpenAI, quien investigó el asunto de inmediato», escribió el portavoz de Microsoft. “Al mismo tiempo, nuestros equipos investigaron y confirmaron que las técnicas reportadas no eludieron nuestros filtros de seguridad en ninguna de nuestras soluciones de generación de imágenes impulsadas por IA. Los comentarios de los empleados son una parte fundamental de nuestra cultura y nos estamos conectando con este colega para abordar cualquier inquietud restante que pueda tener”.

Microsoft agregó que su Oficina de IA Responsable ha establecido una herramienta de informes interna para que los empleados informen y exalten sus inquietudes sobre los modelos de IA.

El denunciante dice que los deepfakes pornográficos de Taylor Swift que circularon en X la semana pasada son un ejemplo de lo que podrían producir vulnerabilidades similares si no se controlan. 404 Medios informó el lunes que Microsoft Designer, que utiliza DALL-E 3 como backend, era parte del conjunto de herramientas de los deepfakers que hicieron el video. La publicación afirma que Microsoft, después de ser notificado, solucionó esa laguna en particular.

«Microsoft era consciente de estas vulnerabilidades y del potencial de abuso», concluyó Jones. No está claro si los exploits utilizados para hacer el deepfake de Swift estaban directamente relacionados con los que Jones informó en diciembre.

Jones insta a sus representantes en Washington, DC a tomar medidas. Sugiere que el gobierno de EE. UU. cree un sistema para informar y rastrear vulnerabilidades específicas de la IA, y al mismo tiempo proteger a los empleados como él que hablan. «Necesitamos responsabilizar a las empresas por la seguridad de sus productos y su responsabilidad de revelar al público los riesgos conocidos», escribió. «Los empleados preocupados, como yo, no deberían dejarse intimidar para que guarden silencio».

Actualización, 30 de enero de 2024, 8:41 p.m. ET: Esta historia se actualizó para agregar declaraciones a Engadget de OpenAI y Microsoft.



Source link-47