{"id":912779,"date":"2023-12-04T16:47:52","date_gmt":"2023-12-04T16:47:52","guid":{"rendered":"https:\/\/magazineoffice.com\/el-chatbot-eliza-de-los-anos-60-vencio-al-gpt-3-5-de-openai-en-un-reciente-estudio-de-prueba-de-turing\/"},"modified":"2023-12-04T16:47:56","modified_gmt":"2023-12-04T16:47:56","slug":"el-chatbot-eliza-de-los-anos-60-vencio-al-gpt-3-5-de-openai-en-un-reciente-estudio-de-prueba-de-turing","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/el-chatbot-eliza-de-los-anos-60-vencio-al-gpt-3-5-de-openai-en-un-reciente-estudio-de-prueba-de-turing\/","title":{"rendered":"El chatbot ELIZA de los a\u00f1os 60 venci\u00f3 al GPT-3.5 de OpenAI en un reciente estudio de prueba de Turing"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div itemprop=\"articleBody\">\n<figure class=\"intro-image intro-left\"><figcaption class=\"caption\">\n<div class=\"caption-text\">Agrandar <span class=\"sep\">\/<\/span> Representaci\u00f3n art\u00edstica de un ser humano y un robot hablando.<\/div>\n<p>Im\u00e1genes falsas |  Benj Edwards<\/p>\n<\/figcaption><\/figure>\n<aside id=\"social-left\" class=\"social-left\" aria-label=\"Read the comments or share this article\">\n<\/aside>\n<p><!-- cache hit 312:single\/related:75c96972efcfd5c809dcc7c1fd0a61ed --><!-- empty --><\/p>\n<p>En un art\u00edculo de investigaci\u00f3n preimpreso titulado \u00ab\u00bfGPT-4 pasa la prueba de Turing?\u00bb, dos investigadores de UC San Diego compararon el modelo de lenguaje de IA GPT-4 de OpenAI con participantes humanos, GPT-3.5 y ELIZA para ver cu\u00e1l podr\u00eda enga\u00f1ar a los participantes para que piensen. fue humano con el mayor \u00e9xito.  Pero en el camino, el estudio, que no ha sido revisado por pares, encontr\u00f3 que los participantes humanos identificaron correctamente a otros humanos en s\u00f3lo el 63 por ciento de las interacciones, y que un programa inform\u00e1tico de la d\u00e9cada de 1960 super\u00f3 el modelo de inteligencia artificial que impulsa la versi\u00f3n gratuita de ChatGPT.<\/p>\n<p>Incluso con las limitaciones y advertencias, que cubriremos a continuaci\u00f3n, el documento presenta una comparaci\u00f3n que invita a la reflexi\u00f3n entre los enfoques de los modelos de IA y plantea m\u00e1s preguntas sobre el uso de la prueba de Turing para evaluar el rendimiento del modelo de IA.<\/p>\n<p>El matem\u00e1tico e inform\u00e1tico brit\u00e1nico Alan Turing concibi\u00f3 por primera vez la prueba de Turing como \u00abEl juego de la imitaci\u00f3n\u00bb en 1950. Desde entonces, se ha convertido en un punto de referencia famoso pero controvertido para determinar la capacidad de una m\u00e1quina para imitar la conversaci\u00f3n humana.  En las versiones modernas de la prueba, un juez humano normalmente habla con otro humano o con un chatbot sin saber cu\u00e1l es cu\u00e1l.  Si el juez no puede distinguir de manera confiable al chatbot del humano un cierto porcentaje de las veces, se dice que el chatbot ha pasado la prueba.  El umbral para aprobar la prueba es subjetivo, por lo que nunca ha habido un consenso amplio sobre lo que constituir\u00eda una tasa de \u00e9xito.<\/p>\n<p>En el estudio reciente, incluido en arXiv a finales de octubre, los investigadores de UC San Diego Cameron Jones (estudiante de doctorado en Ciencias Cognitivas) y Benjamin Bergen (profesor del Departamento de Ciencias Cognitivas de la universidad) crearon un sitio web llamado turingtest.live. , donde organizaron una implementaci\u00f3n para dos jugadores de la prueba de Turing a trav\u00e9s de Internet con el objetivo de ver qu\u00e9 tan bien GPT-4, cuando se le solicitaba de diferentes maneras, pod\u00eda convencer a la gente de que era humano.<\/p>\n<aside class=\"ad_wrapper\" aria-label=\"In Content advertisement\">\n    <span class=\"ad_notice\">Anuncio <\/span>    <\/p>\n<\/aside>\n<figure class=\"image shortcode-img center large\" style=\"width:100%\"><img loading=\"lazy\" decoding=\"async\" alt=\"Un gr\u00e1fico de barras de las tasas de \u00e9xito en la prueba de Turing realizada por Jones y Bergen, con los humanos en la parte superior y un modelo GPT-4 en el segundo puesto.  ELIZA, basada en reglas antiguas, super\u00f3 a GPT-3.5.\" src=\"https:\/\/cdn.arstechnica.net\/wp-content\/uploads\/2023\/11\/pass_rate_graph-640x557.jpg\" width=\"640\" height=\"557\" srcset=\"https:\/\/cdn.arstechnica.net\/wp-content\/uploads\/2023\/11\/pass_rate_graph.jpg 2x\"\/><figcaption class=\"caption\">\n<div class=\"caption-text\">Agrandar <span class=\"sep\">\/<\/span> Un gr\u00e1fico de barras de las tasas de \u00e9xito en la prueba de Turing realizada por Jones y Bergen, con los humanos en la parte superior y un modelo GPT-4 en el segundo puesto.  ELIZA, basada en reglas antiguas, super\u00f3 a GPT-3.5.<\/div>\n<\/figcaption><\/figure>\n<p>A trav\u00e9s del sitio, los interrogadores humanos interactuaron con varios \u00abtestigos de IA\u00bb que representaban a otros humanos o modelos de IA que inclu\u00edan los antes mencionados GPT-4, GPT-3.5 y ELIZA, un programa conversacional basado en reglas de la d\u00e9cada de 1960.  \u00abA los dos participantes en encuentros humanos se les asignaron aleatoriamente los roles de interrogador y testigo\u00bb, escriben los investigadores.  \u00abLos testigos recibieron instrucciones de convencer al interrogador de que eran humanos. Los jugadores emparejados con modelos de IA siempre fueron interrogadores\u00bb.<\/p>\n<p>En el experimento participaron 652 participantes que completaron un total de 1.810 sesiones, de las cuales 1.405 juegos fueron analizados despu\u00e9s de excluir ciertos escenarios como juegos de IA repetidos (lo que lleva a la expectativa de interacciones del modelo de IA cuando otros humanos no estaban en l\u00ednea) o conocidos personales entre los participantes y testigos, que a veces estaban sentados en la misma habitaci\u00f3n.<\/p>\n<p>Sorprendentemente, ELIZA, desarrollado a mediados de la d\u00e9cada de 1960 por el inform\u00e1tico Joseph Weizenbaum del MIT, obtuvo una puntuaci\u00f3n relativamente buena durante el estudio, alcanzando una tasa de \u00e9xito del 27 por ciento.  GPT-3.5, seg\u00fan la indicaci\u00f3n, obtuvo una tasa de \u00e9xito del 14 por ciento, por debajo de ELIZA.  GPT-4 logr\u00f3 una tasa de \u00e9xito del 41 por ciento, solo superada por los humanos reales.<\/p>\n<p>GPT-3.5, el modelo base detr\u00e1s de la versi\u00f3n gratuita de ChatGPT, ha sido condicionado por OpenAI espec\u00edficamente para no presentarse como un ser humano, lo que puede explicar en parte su bajo rendimiento.  En una publicaci\u00f3n en X, el profesor de inform\u00e1tica de Princeton, Arvind Narayanan, escribi\u00f3: \u00abContexto importante sobre el art\u00edculo &#8216;ChatGPT no pasa la prueba de Turing&#8217;. Como siempre, el comportamiento de las pruebas no nos informa sobre la capacidad\u00bb.  En respuesta, continu\u00f3: \u00abChatGPT est\u00e1 ajustado para tener un tono formal, no expresar opiniones, etc., lo que lo hace menos humano. Los autores intentaron cambiar esto con el mensaje, pero tiene l\u00edmites. La mejor manera de \u00abPretender ser un ser humano chateando es afinar los registros de chat humanos\u00bb.<\/p>\n<aside class=\"ad_wrapper\" aria-label=\"In Content advertisement\">\n    <span class=\"ad_notice\">Anuncio <\/span>    <\/p>\n<\/aside>\n<p>Adem\u00e1s, los autores especulan sobre las razones del relativo \u00e9xito de ELIZA en el estudio:<\/p>\n<blockquote>\n<p>\u00abEn primer lugar, las respuestas de ELIZA tienden a ser conservadoras. Si bien esto generalmente da la impresi\u00f3n de un interlocutor que no coopera, impide que el sistema proporcione se\u00f1ales expl\u00edcitas como informaci\u00f3n incorrecta o conocimiento oscuro. En segundo lugar, ELIZA no muestra el tipo de se\u00f1ales que los interrogadores han llegado a asociarse con los asistentes de LLM, como ser servicial, amigable y detallado. Finalmente, algunos interrogadores informaron que pensaban que ELIZA era \u00abuna l\u00e1stima\u00bb para ser un modelo de IA actual y, por lo tanto, era m\u00e1s probable que fuera un ser humano que intencionalmente no cooperaba. \u00ab.<\/p>\n<\/blockquote>\n<p>Durante las sesiones, las estrategias m\u00e1s comunes utilizadas por los interrogadores incluyeron charlas triviales y preguntas sobre conocimientos y acontecimientos actuales.  Las estrategias m\u00e1s exitosas implicaron hablar en un idioma distinto del ingl\u00e9s, preguntar sobre la hora o los acontecimientos actuales y acusar directamente al testigo de ser un modelo de IA.<\/p>\n<p>Los participantes emitieron sus juicios bas\u00e1ndose en las respuestas que recibieron.  Curiosamente, el estudio encontr\u00f3 que los participantes basaron sus decisiones principalmente en el estilo ling\u00fc\u00edstico y los rasgos socioemocionales, en lugar de solo en la percepci\u00f3n de la inteligencia.  Los participantes notaron cuando las respuestas eran demasiado formales o informales, o cuando las respuestas carec\u00edan de individualidad o parec\u00edan gen\u00e9ricas.  El estudio tambi\u00e9n mostr\u00f3 que la educaci\u00f3n y la familiaridad de los participantes con los modelos de lenguaje grandes (LLM) no predijeron significativamente su \u00e9xito en la detecci\u00f3n de IA.<\/p>\n<figure class=\"image shortcode-img center large\" style=\"width:100%\"><img loading=\"lazy\" decoding=\"async\" alt=\"Instrucciones para el juego de evaluaci\u00f3n de IA de la prueba de Turing de Jones y Bergen, 2023.\" src=\"https:\/\/cdn.arstechnica.net\/wp-content\/uploads\/2023\/12\/turing_game_instructions2-640x486.jpg\" width=\"640\" height=\"486\" srcset=\"https:\/\/cdn.arstechnica.net\/wp-content\/uploads\/2023\/12\/turing_game_instructions2.jpg 2x\"\/><figcaption class=\"caption\">\n<div class=\"caption-text\">Agrandar <span class=\"sep\">\/<\/span> Instrucciones para el juego de evaluaci\u00f3n de IA de la prueba de Turing de Jones y Bergen, 2023.<\/div>\n<p>Jones y Bergen, 2023<\/p>\n<\/figcaption><\/figure>\n<p>Los autores del estudio reconocen las limitaciones del estudio, incluido el posible sesgo de la muestra al reclutar en las redes sociales y la falta de incentivos para los participantes, lo que puede haber llevado a que algunas personas no cumplieran el rol deseado.  Tambi\u00e9n dicen que sus resultados (especialmente el desempe\u00f1o de ELIZA) pueden respaldar las cr\u00edticas comunes a la prueba de Turing como una forma inexacta de medir la inteligencia de las m\u00e1quinas.  \u00abSin embargo\u00bb, escriben, \u00absostenemos que la prueba sigue siendo relevante como marco para medir la interacci\u00f3n social fluida y el enga\u00f1o, y para comprender las estrategias humanas para adaptarse a estos dispositivos\u00bb.<\/p>\n<\/p><\/div>\n<p><br \/>\n<br \/><a href=\"https:\/\/magazineoffice.com\/\">Source link-49<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Agrandar \/ Representaci\u00f3n art\u00edstica de un ser humano y un robot hablando. Im\u00e1genes falsas | Benj Edwards En un art\u00edculo de investigaci\u00f3n preimpreso titulado \u00ab\u00bfGPT-4 pasa la prueba de Turing?\u00bb,&hellip;<\/p>\n","protected":false},"author":1,"featured_media":912780,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[1167,23592,53634,3148,102087,8,49133,3805,4198,82262,10387],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/912779"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=912779"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/912779\/revisions"}],"predecessor-version":[{"id":912781,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/912779\/revisions\/912781"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/912780"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=912779"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=912779"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=912779"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}