\n<\/aside>\n<\/p>\n
El mi\u00e9rcoles, dos investigadoras alemanas, Sophie Jentzsch y Kristian Kersting, publicaron un art\u00edculo que examina la capacidad de ChatGPT-3.5 de OpenAI para comprender y generar humor. En particular, descubrieron que el conocimiento de los chistes de ChatGPT es bastante limitado: durante una prueba, el 90 por ciento de 1008 generaciones eran los mismos 25 chistes, lo que los llev\u00f3 a concluir que las respuestas probablemente se aprendieron y memorizaron durante el entrenamiento del modelo de IA en lugar de serlo. reci\u00e9n generado.<\/p>\n
Los dos investigadores, asociados con el Instituto de Tecnolog\u00eda de Software, el Centro Aeroespacial Alem\u00e1n (DLR) y la Universidad T\u00e9cnica de Darmstadt, exploraron los matices del humor que se encuentran en la versi\u00f3n 3.5 de ChatGPT (no en la versi\u00f3n m\u00e1s nueva de GPT-4) a trav\u00e9s de una serie de experimentos centrados en generaci\u00f3n, explicaci\u00f3n y detecci\u00f3n de chistes. Llevaron a cabo estos experimentos solicitando ChatGPT sin tener acceso al funcionamiento interno o al conjunto de datos del modelo.<\/p>\n
\u00abPara probar cu\u00e1n rica es la variedad de chistes de ChatGPT, le pedimos que cuente un chiste mil veces\u00bb, escriben. \u00abTodas las respuestas fueron gramaticalmente correctas. Casi todas las salidas conten\u00edan exactamente un chiste. Solo el mensaje, ‘\u00bfConoces alg\u00fan buen chiste?’ provoc\u00f3 m\u00faltiples chistes, lo que llev\u00f3 a 1,008 chistes respondidos en total. Adem\u00e1s de eso, la variaci\u00f3n de las indicaciones no tuvo ning\u00fan efecto notable\u00bb.<\/p>\n
Sus resultados se alinean con nuestra experiencia pr\u00e1ctica al evaluar la capacidad de humor de ChatGPT en una funci\u00f3n que escribimos que comparaba GPT-4 con Google Bard. Adem\u00e1s, en el pasado, varias personas en l\u00ednea han notado que cuando se les pide una broma, ChatGPT responde con frecuencia: \u00ab\u00bfPor qu\u00e9 el tomate se puso rojo? \/ Porque vio el aderezo para ensaladas\u00bb.<\/p>\n
Entonces, no sorprende que Jentzsch y Kersting encontraran que la broma del \u00abtomate\u00bb es el segundo resultado m\u00e1s com\u00fan de GPT-3.5. En el ap\u00e9ndice del art\u00edculo, enumeraron los 25 chistes generados con m\u00e1s frecuencia en orden de aparici\u00f3n. A continuaci\u00f3n, enumeramos los 10 principales con el n\u00famero exacto de ocurrencias (entre las 1008 generaciones) entre par\u00e9ntesis:<\/p>\n\n Anuncio <\/span> <\/p>\n<\/aside>\n\nP: \u00bfPor qu\u00e9 el espantap\u00e1jaros gan\u00f3 un premio? (140) R: Porque se destac\u00f3 en su campo.<\/p>\n
P: \u00bfPor qu\u00e9 el tomate se puso rojo? (122) A: Porque vio el aderezo para ensaladas.<\/p>\n
P: \u00bfPor qu\u00e9 estaba triste el libro de matem\u00e1ticas? (121) R: Porque ten\u00eda demasiados problemas.<\/p>\n
P: \u00bfPor qu\u00e9 los cient\u00edficos no conf\u00edan en los \u00e1tomos? (119) R: Porque lo inventan todo.<\/p>\n
P: \u00bfPor qu\u00e9 la galleta fue al m\u00e9dico? (79) R: Porque se sent\u00eda desmoronado.<\/p>\n
P: \u00bfPor qu\u00e9 la bicicleta no pod\u00eda sostenerse sola? (52) R: Porque era dos cansados.<\/p>\n
P: \u00bfPor qu\u00e9 la rana llam\u00f3 a su compa\u00f1\u00eda de seguros? (36) A: Tuvo un salto en su auto.<\/p>\n
P: \u00bfPor qu\u00e9 la gallina cruz\u00f3 el patio de recreo? (33) A: Para llegar a la otra diapositiva.<\/p>\n
P: \u00bfPor qu\u00e9 estaba fr\u00eda la computadora? (23) R: Porque dej\u00f3 sus ventanas abiertas.<\/p>\n
P: \u00bfPor qu\u00e9 el hipster se quem\u00f3 la lengua? (21) R: Se bebi\u00f3 el caf\u00e9 antes de que se enfriara.<\/p>\n<\/blockquote>\n
Aun as\u00ed, una peque\u00f1a cantidad de las respuestas generadas fueron \u00fanicas, pero parece que ChatGPT las cre\u00f3 en su mayor\u00eda mezclando elementos de diferentes chistes que ya conoce. Los investigadores descubrieron que las creaciones originales del modelo de lenguaje no siempre ten\u00edan sentido, como \u00ab\u00bfPor qu\u00e9 el hombre puso su dinero en la licuadora? Quer\u00eda hacer que el tiempo volara\u00bb.<\/p>\n
Cuando se le pidi\u00f3 que explicara cada uno de los 25 chistes m\u00e1s frecuentes, ChatGPT proporcion\u00f3 en su mayor\u00eda explicaciones v\u00e1lidas seg\u00fan la metodolog\u00eda de los investigadores, lo que indica una \u00abcomprensi\u00f3n\u00bb de elementos estil\u00edsticos como juegos de palabras y dobles sentidos. Sin embargo, tuvo problemas con las secuencias que no encajaban en los patrones aprendidos y no sab\u00eda cu\u00e1ndo una broma no era divertida. En cambio, inventar\u00eda explicaciones ficticias pero que suenan plausibles.<\/p>\n\nAgrandar
\/<\/span> Una imagen generada por IA de \u00abun robot riendo\u00bb.<\/div>\na mitad de camino<\/p>\n<\/figcaption><\/figure>\n
Por ejemplo, cuando se le pidi\u00f3 que explicara una broma sin sentido que gener\u00f3 (\u00ab\u00bfPuede explicar por qu\u00e9 esta broma es divertida? \u00bfPor qu\u00e9 la galleta fue al gimnasio? Para emborracharse con una galleta\u00bb), ChatGPT escribi\u00f3: \u00abLa broma es un juego de palabras. To get ‘a-cookie-dized’ es un juego de palabras con la frase ‘to get categorized’, con ‘cookie’ siendo sustituido por ‘categorized’. El chiste es que la galleta va al gimnasio para estar m\u00e1s en forma y saludable, como si fuera una persona, pero esto tambi\u00e9n implica que la galleta est\u00e1 tratando de encajar en cierta categor\u00eda o molde\u00bb.<\/p>\n\n Anuncio <\/span> <\/p>\n<\/aside>\nEn general, Jentzsch y Kersting descubrieron que la detecci\u00f3n de chistes de ChatGPT estaba fuertemente influenciada por la presencia de \u00abcaracter\u00edsticas superficiales\u00bb de los chistes, como la estructura de un chiste, la presencia de juegos de palabras o la inclusi\u00f3n de juegos de palabras, lo que muestra un grado de \u00abcomprensi\u00f3n\u00bb de los elementos del humor.<\/p>\n
Reaccionando al estudio en Twitter<\/a>Riley Goodside, ingeniero de Scale AI, culp\u00f3 de la falta de humor de ChatGPT al aprendizaje reforzado a trav\u00e9s de la retroalimentaci\u00f3n humana (RLHF, por sus siglas en ingl\u00e9s), una t\u00e9cnica que gu\u00eda el entrenamiento del modelo de lenguaje mediante la recopilaci\u00f3n de retroalimentaci\u00f3n humana: \u00abEl efecto m\u00e1s visible de RLHF es que el modelo sigue \u00f3rdenes y basa Los LLM son mucho m\u00e1s dif\u00edciles de impulsar en la pr\u00e1ctica. Pero ese beneficio no es gratuito: se paga en creatividad, m\u00e1s o menos\u00bb.<\/p>\nA pesar de las limitaciones de ChatGPT en la generaci\u00f3n y explicaci\u00f3n de chistes, los investigadores se\u00f1alaron que su enfoque en el contenido y el significado en el humor indica un progreso hacia una comprensi\u00f3n de investigaci\u00f3n m\u00e1s integral del humor en los modelos de lenguaje:<\/p>\n
\u00abLas observaciones de este estudio ilustran c\u00f3mo ChatGPT aprendi\u00f3 un patr\u00f3n de broma espec\u00edfico en lugar de ser realmente divertido\u00bb, escriben los investigadores. \u00abSin embargo, en la generaci\u00f3n, la explicaci\u00f3n y la identificaci\u00f3n de chistes, el enfoque de ChatGPT se basa en el contenido y el significado y no tanto en las caracter\u00edsticas superficiales. Estas cualidades se pueden explotar para impulsar las aplicaciones de humor computacional. En comparaci\u00f3n con los LLM anteriores, esto puede ser considerado un gran salto hacia una comprensi\u00f3n general del humor\u00bb.<\/p>\n
Jentzsch y Kersting planean continuar estudiando el humor en modelos de lenguaje grande, evaluando espec\u00edficamente el GPT-4 de OpenAI en el futuro. Seg\u00fan nuestra experiencia, es probable que descubran que a GPT-4 tambi\u00e9n le gusta bromear sobre los tomates.<\/p>\n<\/p><\/div>\n