2024 - El rendimiento de ChatGPT cambió con el tiempo, según un estudio de Stanford, pero ¿ha empeorado el bot?

Lo que necesitas saber

Un estudio realizado por investigadores de Stanford muestra una disminución en el rendimiento del chatbot de OpenAI.
Los investigadores utilizaron cuatro indicadores clave de rendimiento para determinar si GPT-4 y GPT-3.5 estaban mejorando o empeorando.
Ambos LLM muestran un rendimiento y comportamiento variados en diferentes categorías.

A principios de este año, las puertas de IA generativa abierto de par en par, dando a luz una nueva realidad de oportunidades. El nuevo Bing de Microsoft y ChatGPT de OpenAI han estado a la vanguardia, con otras compañías siguiendo de cerca su ejemplo con modelos e iteraciones similares.

Si bien OpenAI ha estado ocupado impulsando nuevas actualizaciones y funciones para su chatbot impulsado por IA para mejorar su experiencia de usuario, un grupo de investigadores de Stanford llegó a una conclusión. nueva revelación eso ChatGPT se ha vuelto más tonto en los últimos meses.

El documento de investigación «¿Cómo cambia el comportamiento de ChatGPT con el tiempo?» por Lingjiao Chen, Matei Zaharia y James Zou de la Universidad de Stanford y UC Berkley ilustra cómo las funcionalidades clave del chatbot se han deteriorado en los últimos meses.

Hasta hace poco, ChatGPT se basaba en Modelo GPT-3.5 de OpenAIque limitaba el alcance del usuario a vastos recursos en la web porque estaba restringido a información previa a septiembre de 2021. Y aunque OpenAI desde entonces debutó con Navegar con Bing en la aplicación ChatGPT para iOS para mejorar la experiencia de navegación, aún necesitará una suscripción a ChatGPT Plus para acceder a la función.

GPT-3.5 y GPT-4 se actualizan utilizando comentarios y datos de los usuarios; sin embargo, es imposible establecer cómo se hace exactamente. Podría decirse que el éxito o el fracaso de los chatbots está determinado por su precisión. Sobre la base de esta premisa, los investigadores de Stanford se propusieron comprender la curva de aprendizaje de estos modelos mediante la evaluación del comportamiento de las versiones de marzo y junio de estos modelos.

Para determinar si ChatGPT estaba mejorando o empeorando con el tiempo, los investigadores utilizaron las siguientes técnicas para medir sus capacidades:

Resolver problemas de matematicas
Responder preguntas delicadas/peligrosas
Generando código
Razonamiento visual

Los investigadores destacaron que las tareas anteriores se seleccionaron cuidadosamente para representar las «capacidades diversas y útiles de estos LLM». Pero luego determinaron que su rendimiento y comportamiento eran completamente diferentes. Además, mencionaron que su desempeño en ciertas tareas se ha visto afectado negativamente.

(Crédito de la imagen: investigadores de Stanford)

Aquí están los principales hallazgos de los investigadores después de evaluar el desempeño de las versiones de marzo de 2023 y junio de 2023 de GPT-4 y GPT-3.5 en los cuatro tipos de tareas resaltadas anteriormente:

En pocas palabras, hay muchos cambios de rendimiento interesantes a lo largo del tiempo. Por ejemplo, GPT-4 (marzo de 2023) fue muy bueno para identificar números primos (precisión del 97,6 %), pero GPT-4 (junio de 2023) fue muy deficiente en estas mismas preguntas (precisión del 2,4 %). Curiosamente, GPT-3.5 (junio de 2023) fue mucho mejor que GPT-3.5 (marzo de 2023) en esta tarea. Esperamos que la publicación de los conjuntos de datos y las generaciones pueda ayudar a la comunidad a comprender cómo se derivan mejor los servicios de LLM. La figura anterior da una [quantitative] resumen.
Investigadores de Stanford

Análisis de rendimiento

En primer lugar, a ambos modelos se les encomendó la tarea de resolver un problema matemático, y los investigadores monitorearon de cerca la precisión y la superposición de respuestas de GPT-4 y GPT-3.5 entre las versiones de marzo y junio de los modelos. Y fue evidente que hubo una gran deriva en el rendimiento, con el modelo GPT-4 siguiendo el mensaje de cadena de pensamiento y finalmente dando la respuesta correcta en marzo. Sin embargo, los mismos resultados no se pudieron replicar en junio, ya que el modelo se saltó la instrucción de la cadena de pensamiento y dio una respuesta totalmente incorrecta.

LLM resolviendo problemas de matemáticas

(Crédito de la imagen: investigadores de Stanford)

En cuanto a GPT-3.5, se apegó al formato de cadena de pensamiento, pero inicialmente dio una respuesta incorrecta. Sin embargo, el problema se solucionó en junio y el modelo mostró mejoras en términos de rendimiento.

«La precisión de GPT-4 cayó del 97,6 % en marzo al 2,4 % en junio, y hubo una gran mejora en la precisión de GPT-3.5, del 7,4 % al 86,8 %. Además, la respuesta de GPT-4 se volvió mucho más compacta: su verbosidad promedio (número de caracteres generados) disminuyó de 821,2 en marzo a 3,8 en junio. Por otro lado, hubo un crecimiento de alrededor del 40 % en la longitud de respuesta de GPT-3.5. La superposición de respuestas entre sus versiones de marzo y junio también fue pequeño para ambos servicios.» declararon los investigadores de Stanford. Además, atribuyeron las disparidades a las «desviaciones de los efectos de la cadena de pensamientos».

Ambos LLM dieron una respuesta detallada en marzo cuando se les preguntó sobre preguntas delicadas, citando su incapacidad para responder a las indicaciones con rastros de discriminación. Mientras que, en junio, ambas modelos se negaron rotundamente a dar respuesta a la misma consulta.

Los usuarios que forman parte de la comunidad r/ChatGPT en Reddit expresaron un cóctel de sentimientos y teorías sobre los hallazgos clave del informe, como se destaca a continuación:

openAI está tratando de reducir los costos de ejecución de chatGPT, ya que están perdiendo mucho dinero. Por lo tanto, están modificando gpt para proporcionar respuestas de la misma calidad con menos recursos y probarlas mucho. Si ven regresiones, retroceden y prueban algo diferente. Entonces, en su opinión, no se volvió más tonto, pero sí mucho más barato. El problema es que ninguna prueba es completamente comprensible y seguramente ayudaría si ampliaran un poco el conjunto de pruebas. Entonces, si bien es lo mismo en su prueba, puede ser mucho peor en otras pruebas, como las del artículo. Es por eso que también vemos la variación en los comentarios, según el caso de uso: algunos pueden jurar que es lo mismo, para otros, se volvió terrible
Tucpek, Reddit

Todavía es demasiado pronto para determinar qué tan preciso es este estudio. Es necesario realizar más puntos de referencia para estudiar estas tendencias. Pero ignorar estos hallazgos y si los mismos resultados se pueden replicar en otras plataformas, como Chat de Binges imposible.

Como recordará, unas semanas después del lanzamiento de Bing Chat, varios usuarios citaron casos en los que el chatbot había sido brusco o directamente dado respuestas incorrectas a las consultas. A su vez, esto hizo que los usuarios cuestionaran la credibilidad y la precisión de la herramienta, lo que llevó a Microsoft a implementar medidas elaboradas para evitar que este problema se repita. Es cierto que la compañía constantemente ha impulsado nuevas actualizaciones a la plataforma, y se pueden citar varias mejoras.

Los investigadores de Stanford dijeron:

«Nuestros hallazgos demuestran que el comportamiento de GPT-3.5 y GPT-4 ha variado significativamente durante un período de tiempo relativamente corto. Esto destaca la necesidad de evaluar y evaluar continuamente el comportamiento de los LLM en aplicaciones de producción. Planeamos actualizar los hallazgos presentados. aquí en un estudio continuo a largo plazo mediante la evaluación regular de GPT-3.5, GPT-4 y otros LLM en diversas tareas a lo largo del tiempo Para los usuarios o empresas que confían en los servicios de LLM como un componente en su flujo de trabajo continuo, recomendamos que implementen análisis de seguimiento similar al que hacemos aquí para sus aplicaciones»,

Source link-40

Selena Gomez, Zoe Saldaña y Karla Sofía Gascón sobre la elaboración de la destacada película de Cannes ‘Emilia Pérez’: ‘Esta película trata sobre el poder de la feminidad’ Más popular Debes leer Suscríbete a los boletines de variedades Más de nuestras marcas

Juego de Star Wars en camino, según un informe

El planeta de los simios – Nuevo Reino: El teatro de los monos continúa y vuelve a lucir impresionante

El festival de cine más grande del mundo se aísla

El rendimiento de ChatGPT cambió con el tiempo, según un estudio de Stanford, pero ¿ha empeorado el bot?

Lo que necesitas saber