Anthropic explica cómo la constitución de IA de Claude lo protege contra entradas adversarias


No es difícil, en absoluto, engañar a los chatbots de hoy para que discutan temas tabú, regurgiten contenido intolerante y difundan información errónea. Es por eso que el pionero de la IA, Anthropic, ha imbuido a su IA generativa, Claude, con una combinación de 10 principios secretos de equidad, que dio a conocer en marzo. En una publicación de blog el martes, la compañía explicó con más detalle cómo está diseñado su sistema de inteligencia artificial constitucional y cómo se pretende que funcione.

Normalmente, cuando se entrena un modelo de IA generativa, hay un ser humano en el circuito para proporcionar control de calidad y comentarios sobre los resultados, como cuando ChatGPT o Bard le piden que califique sus conversaciones con sus sistemas. “Para nosotros, esto implicó que los contratistas humanos compararan dos respuestas”, escribió el equipo de Anthropic. “a partir de un modelo y seleccionar el que sintieron que era mejor de acuerdo con algún principio (por ejemplo, elegir el que fuera más útil o más inofensivo)”.

El problema con este método es que un humano también tiene que estar al tanto de los resultados realmente horribles e inquietantes. Nadie necesita ver eso, incluso menos necesitan que Meta les pague $ 1.50 por hora para verlo. El método del asesor humano también apesta a la hora de escalar, simplemente no hay suficiente tiempo ni recursos para hacerlo con personas. Es por eso que Anthropic lo está haciendo con otra IA.

Así como Pinocho tenía a Jiminy Cricket, Luke tenía a Yoda y Jim tenía a Shart, Claude tiene su Constitución. “En un alto nivel, la constitución orienta al modelo a asumir el comportamiento normativo descrito [therein]”, explicó el equipo de Anthropic, ya sea “ayudar a evitar resultados tóxicos o discriminatorios, evitar ayudar a un ser humano a participar en actividades ilegales o poco éticas y, en términos generales, crear un sistema de IA que sea ‘útil, honesto e inofensivo’”.

Según Anthropic, este método de entrenamiento puede producir mejoras de Pareto en el desempeño posterior de la IA en comparación con uno entrenado solo con retroalimentación humana. Esencialmente, el ser humano en el circuito ha sido reemplazado por una IA y ahora, según los informes, todo está mejor que nunca. “En nuestras pruebas, nuestro modelo CAI respondió de manera más adecuada a las entradas de los adversarios sin dejar de producir respuestas útiles y sin ser evasivo”, escribió Anthropic. «El modelo no recibió datos humanos sobre la inocuidad, lo que significa que todos los resultados sobre la inocuidad provinieron únicamente de la supervisión de la IA».

La compañía reveló el martes que sus principios previamente no revelados se sintetizan a partir de “una variedad de fuentes que incluyen la Declaración de Derechos Humanos de la ONU, las mejores prácticas de confianza y seguridad, los principios propuestos por otros laboratorios de investigación de IA, un esfuerzo por capturar perspectivas no occidentales y principios que descubrimos que funcionan bien a través de nuestra investigación”.

La compañía, adelantándose deliberadamente a la invariable reacción conservadora, ha enfatizado que “nuestra constitución actual no está finalizada ni es probable que sea la mejor posible”.

“Muchas personas han criticado que los modelos de IA están siendo entrenados para reflejar un punto de vista específico o una ideología política, generalmente uno con el que el crítico no está de acuerdo”, escribió el equipo. “Desde nuestra perspectiva, nuestro objetivo a largo plazo no es intentar que nuestros sistemas representen un específico ideología, sino más bien poder seguir una dado conjunto de principios”.

Todos los productos recomendados por Engadget son seleccionados por nuestro equipo editorial, independiente de nuestra empresa matriz. Algunas de nuestras historias incluyen enlaces de afiliados. Si compra algo a través de uno de estos enlaces, podemos ganar una comisión de afiliado. Todos los precios son correctos en el momento de la publicación.



Source link-47