Cómo Anthropic encontró un truco para que la IA te dé respuestas que no debería dar


Si lo construyes, la gente intentará romperlo. A veces incluso la gente edificio las cosas son las que lo rompen. Tal es el caso de Anthropic y su última investigación que demuestra una vulnerabilidad interesante en la tecnología LLM actual. Más o menos, si continúas con una pregunta, puedes romper las barreras y terminar con grandes modelos de lenguaje que te dicen cosas para las que no están diseñados. Como cómo construir una bomba.

Por supuesto, dado el progreso en la tecnología de inteligencia artificial de código abierto, puede crear su propio LLM localmente y preguntarle lo que quiera, pero para cosas más de consumo, este es un tema que vale la pena considerar. Lo divertido de la IA hoy en día es el rápido ritmo al que avanza y lo bien (o no) que estamos haciendo como especie para comprender mejor lo que estamos construyendo.

Si me permiten pensar, me pregunto si veremos más preguntas y problemas del tipo que Anthropic describe a medida que los LLM y otros nuevos tipos de modelos de IA se vuelvan más inteligentes y más grandes. Lo cual tal vez sea repetirme. Pero cuanto más nos acerquemos a una inteligencia artificial más generalizada, más debería parecerse a una entidad pensante y no a una computadora que podamos programar, ¿verdad? Si es así, ¿podríamos tener más dificultades para concretar los casos extremos hasta el punto en que ese trabajo se vuelva inviable? De todos modos, hablemos de lo que Anthropic compartió recientemente.



Source link-48