en un tuit<\/a> anunciando el papel. \u00abHacemos esto condicion\u00e1ndolos con un conjunto simple de principios de comportamiento a trav\u00e9s de una t\u00e9cnica llamada IA \u200b\u200bconstitucional\u00bb.<\/p>\nMantener los modelos de IA en los rieles<\/h2>\n
Cuando los investigadores entrenan por primera vez un modelo de lenguaje grande sin procesar (LLM), casi cualquier salida de texto es posible. Un modelo no condicionado podr\u00eda decirte c\u00f3mo construir una bomba, que una raza deber\u00eda extinguir a otra o tratar de convencerte de que saltes por un precipicio.<\/p>\n
Actualmente, las respuestas de bots como ChatGPT de OpenAI y Bing Chat de Microsoft evitan este tipo de comportamiento utilizando una t\u00e9cnica de condicionamiento llamada aprendizaje de refuerzo a partir de la retroalimentaci\u00f3n humana (RLHF).<\/p>\n
Para utilizar RLHF, los investigadores proporcionan una serie de resultados (respuestas) del modelo de IA de muestra a los humanos. Luego, los humanos clasifican las salidas en t\u00e9rminos de qu\u00e9 tan deseables o apropiadas parecen las respuestas en funci\u00f3n de las entradas. Luego, los investigadores introducen esa informaci\u00f3n de calificaci\u00f3n en el modelo, alterando la red neuronal y cambiando el comportamiento del modelo.<\/p>\n
Tan efectivo como RLHF ha sido para evitar que ChatGPT se descarrile (\u00bfBing? No tanto), la t\u00e9cnica tiene inconvenientes, que incluyen depender del trabajo humano y tambi\u00e9n exponer a esos humanos a material potencialmente inductor de trauma.<\/p>\n
Por el contrario, la IA constitucional de Anthropic busca guiar los resultados de los modelos de lenguaje de IA en una direcci\u00f3n subjetivamente \u00abm\u00e1s segura y m\u00e1s \u00fatil\u00bb entren\u00e1ndola con una lista inicial de principios. \u00abEste no es un enfoque perfecto\u00bb, escribe Anthropic, \u00abpero hace que los valores del sistema de IA sean m\u00e1s f\u00e1ciles de entender y ajustar seg\u00fan sea necesario\u00bb.<\/p>\n
En este caso, los principios de Anthropic incluyen la Declaraci\u00f3n de Derechos Humanos de las Naciones Unidas, partes de los t\u00e9rminos de servicio de Apple, varias \u00abmejores pr\u00e1cticas\u00bb de confianza y seguridad, y los principios del laboratorio de investigaci\u00f3n de IA de Anthropic. La constituci\u00f3n no est\u00e1 finalizada y Anthropic planea mejorarla iterativamente en funci\u00f3n de los comentarios y la investigaci\u00f3n adicional.<\/p>\n