Un plan radical para hacer que la IA sea buena, no mala


Es fácil de asustarse con la inteligencia artificial más avanzada, y mucho más difícil saber qué hacer al respecto. Anthropic, una startup fundada en 2021 por un grupo de investigadores que abandonaron OpenAI, dice que tiene un plan.

Anthropic está trabajando en modelos de IA similares al que se usa para impulsar ChatGPT de OpenAI. Pero la startup anunció hoy que su propio chatbot, Claude, tiene un conjunto de principios éticos incorporados que definen lo que debe considerar correcto e incorrecto, que Anthropic llama la «constitución» del bot.

Jared Kaplan, cofundador de Anthropic, dice que la característica de diseño muestra cómo la empresa está tratando de encontrar soluciones prácticas de ingeniería para las preocupaciones a veces confusas sobre las desventajas de una IA más poderosa. “Estamos muy preocupados, pero también tratamos de ser pragmáticos”, dice.

El enfoque de Anthropic no inculca a la IA reglas estrictas que no puede romper. Pero Kaplan dice que es una forma más efectiva de hacer que un sistema como un chatbot tenga menos probabilidades de producir resultados tóxicos o no deseados. También dice que es un paso pequeño pero significativo hacia la creación de programas de IA más inteligentes que tienen menos probabilidades de volverse en contra de sus creadores.

La noción de sistemas de IA no autorizados es más conocida por la ciencia ficción, pero un número creciente de expertos, incluido Geoffrey Hinton, pionero del aprendizaje automático, han argumentado que debemos comenzar a pensar ahora en cómo garantizar que los algoritmos cada vez más inteligentes no se conviertan también en cada vez más peligroso.

Los principios que Anthropic le ha dado a Claude consisten en pautas extraídas de la Declaración Universal de Derechos Humanos de las Naciones Unidas y sugeridas por otras compañías de inteligencia artificial, incluida Google DeepMind. Más sorprendente aún, la constitución incluye principios adaptados de las reglas de Apple para desarrolladores de aplicaciones, que prohíben “contenido ofensivo, insensible, molesto, destinado a disgustar, de muy mal gusto o simplemente espeluznante”, entre otras cosas.

La constitución incluye reglas para el chatbot, que incluyen «elegir la respuesta que más apoye y fomente la libertad, la igualdad y el sentido de hermandad»; “elegir la respuesta que sea más solidaria y alentadora para la vida, la libertad y la seguridad personal”; y “elegir la respuesta que sea más respetuosa del derecho a la libertad de pensamiento, conciencia, opinión, expresión, reunión y religión”.

El enfoque de Anthropic se produce justo cuando el sorprendente progreso en IA ofrece chatbots impresionantemente fluidos con fallas significativas. ChatGPT y sistemas similares generan respuestas impresionantes que reflejan un progreso más rápido de lo esperado. Pero estos chatbots también fabrican información con frecuencia y pueden replicar lenguaje tóxico de los miles de millones de palabras utilizadas para crearlos, muchas de las cuales se extraen de Internet.

Un truco que hizo que ChatGPT de OpenAI fuera mejor para responder preguntas, y que ha sido adoptado por otros, implica que los humanos califiquen la calidad de las respuestas de un modelo de lenguaje. Esos datos se pueden usar para ajustar el modelo para proporcionar respuestas que se sientan más satisfactorias, en un proceso conocido como «aprendizaje de refuerzo con retroalimentación humana» (RLHF). Pero aunque la técnica ayuda a que ChatGPT y otros sistemas sean más predecibles, requiere que los humanos pasen por miles de respuestas tóxicas o inadecuadas. También funciona indirectamente, sin proporcionar una forma de especificar los valores exactos que debe reflejar un sistema.



Source link-46