\n<\/aside>\n<\/p>\n
En un art\u00edculo de investigaci\u00f3n preimpreso titulado \u00ab\u00bfGPT-4 pasa la prueba de Turing?\u00bb, dos investigadores de UC San Diego compararon el modelo de lenguaje de IA GPT-4 de OpenAI con participantes humanos, GPT-3.5 y ELIZA para ver cu\u00e1l podr\u00eda enga\u00f1ar a los participantes para que piensen. fue humano con el mayor \u00e9xito. Pero en el camino, el estudio, que no ha sido revisado por pares, encontr\u00f3 que los participantes humanos identificaron correctamente a otros humanos en s\u00f3lo el 63 por ciento de las interacciones, y que un programa inform\u00e1tico de la d\u00e9cada de 1960 super\u00f3 el modelo de inteligencia artificial que impulsa la versi\u00f3n gratuita de ChatGPT.<\/p>\n
Incluso con las limitaciones y advertencias, que cubriremos a continuaci\u00f3n, el documento presenta una comparaci\u00f3n que invita a la reflexi\u00f3n entre los enfoques de los modelos de IA y plantea m\u00e1s preguntas sobre el uso de la prueba de Turing para evaluar el rendimiento del modelo de IA.<\/p>\n
El matem\u00e1tico e inform\u00e1tico brit\u00e1nico Alan Turing concibi\u00f3 por primera vez la prueba de Turing como \u00abEl juego de la imitaci\u00f3n\u00bb en 1950. Desde entonces, se ha convertido en un punto de referencia famoso pero controvertido para determinar la capacidad de una m\u00e1quina para imitar la conversaci\u00f3n humana. En las versiones modernas de la prueba, un juez humano normalmente habla con otro humano o con un chatbot sin saber cu\u00e1l es cu\u00e1l. Si el juez no puede distinguir de manera confiable al chatbot del humano un cierto porcentaje de las veces, se dice que el chatbot ha pasado la prueba. El umbral para aprobar la prueba es subjetivo, por lo que nunca ha habido un consenso amplio sobre lo que constituir\u00eda una tasa de \u00e9xito.<\/p>\n
En el estudio reciente, incluido en arXiv a finales de octubre, los investigadores de UC San Diego Cameron Jones (estudiante de doctorado en Ciencias Cognitivas) y Benjamin Bergen (profesor del Departamento de Ciencias Cognitivas de la universidad) crearon un sitio web llamado turingtest.live. , donde organizaron una implementaci\u00f3n para dos jugadores de la prueba de Turing a trav\u00e9s de Internet con el objetivo de ver qu\u00e9 tan bien GPT-4, cuando se le solicitaba de diferentes maneras, pod\u00eda convencer a la gente de que era humano.<\/p>\n\n Anuncio <\/span> <\/p>\n<\/aside>\n\nAgrandar
\/<\/span> Un gr\u00e1fico de barras de las tasas de \u00e9xito en la prueba de Turing realizada por Jones y Bergen, con los humanos en la parte superior y un modelo GPT-4 en el segundo puesto. ELIZA, basada en reglas antiguas, super\u00f3 a GPT-3.5.<\/div>\n<\/figcaption><\/figure>\nA trav\u00e9s del sitio, los interrogadores humanos interactuaron con varios \u00abtestigos de IA\u00bb que representaban a otros humanos o modelos de IA que inclu\u00edan los antes mencionados GPT-4, GPT-3.5 y ELIZA, un programa conversacional basado en reglas de la d\u00e9cada de 1960. \u00abA los dos participantes en encuentros humanos se les asignaron aleatoriamente los roles de interrogador y testigo\u00bb, escriben los investigadores. \u00abLos testigos recibieron instrucciones de convencer al interrogador de que eran humanos. Los jugadores emparejados con modelos de IA siempre fueron interrogadores\u00bb.<\/p>\n
En el experimento participaron 652 participantes que completaron un total de 1.810 sesiones, de las cuales 1.405 juegos fueron analizados despu\u00e9s de excluir ciertos escenarios como juegos de IA repetidos (lo que lleva a la expectativa de interacciones del modelo de IA cuando otros humanos no estaban en l\u00ednea) o conocidos personales entre los participantes y testigos, que a veces estaban sentados en la misma habitaci\u00f3n.<\/p>\n
Sorprendentemente, ELIZA, desarrollado a mediados de la d\u00e9cada de 1960 por el inform\u00e1tico Joseph Weizenbaum del MIT, obtuvo una puntuaci\u00f3n relativamente buena durante el estudio, alcanzando una tasa de \u00e9xito del 27 por ciento. GPT-3.5, seg\u00fan la indicaci\u00f3n, obtuvo una tasa de \u00e9xito del 14 por ciento, por debajo de ELIZA. GPT-4 logr\u00f3 una tasa de \u00e9xito del 41 por ciento, solo superada por los humanos reales.<\/p>\n
GPT-3.5, el modelo base detr\u00e1s de la versi\u00f3n gratuita de ChatGPT, ha sido condicionado por OpenAI espec\u00edficamente para no presentarse como un ser humano, lo que puede explicar en parte su bajo rendimiento. En una publicaci\u00f3n en X, el profesor de inform\u00e1tica de Princeton, Arvind Narayanan, escribi\u00f3: \u00abContexto importante sobre el art\u00edculo ‘ChatGPT no pasa la prueba de Turing’. Como siempre, el comportamiento de las pruebas no nos informa sobre la capacidad\u00bb. En respuesta, continu\u00f3: \u00abChatGPT est\u00e1 ajustado para tener un tono formal, no expresar opiniones, etc., lo que lo hace menos humano. Los autores intentaron cambiar esto con el mensaje, pero tiene l\u00edmites. La mejor manera de \u00abPretender ser un ser humano chateando es afinar los registros de chat humanos\u00bb.<\/p>\n