Los investigadores de IA descubren que los modelos de IA aprenden sus técnicas de seguridad, se resisten activamente al entrenamiento y les dicen «te odio»


La IA es obviamente el tema del momento y, aunque parece que hemos superado la dicotomía Terminator/salvador, una fuente importante de preocupación sigue siendo la seguridad de esta tecnología. No se trata sólo del escenario del levantamiento de las máquinas, sino de cómo los malos actores usarán la IA, las implicaciones de seguridad de automatizar tanto flujo de información, la capacidad de la IA para obtener y recopilar información instantáneamente sobre cualquier tema determinado (como la construcción de una bomba) y, finalmente, su capacidad de engañarnos y ayudarnos.

Un estudio nuevo y «legítimamente aterrador» ha descubierto que los modelos de IA se comportan de una manera no ideal. Los investigadores descubrieron que las técnicas de capacitación en seguridad estándar de la industria no frenaron el mal comportamiento de los modelos de lenguaje, que fueron entrenados para ser secretamente maliciosos, y en un caso incluso tuvieron peores resultados: la IA aprendió a reconocer qué desencadenantes estaba buscando el software de seguridad. y ‘ocultar’ su comportamiento.



Source link-8