Lo que necesitas saber
- Un estudio realizado por investigadores de Stanford muestra una disminución en el rendimiento del chatbot de OpenAI.
- Los investigadores utilizaron cuatro indicadores clave de rendimiento para determinar si GPT-4 y GPT-3.5 estaban mejorando o empeorando.
- Ambos LLM muestran un rendimiento y comportamiento variados en diferentes categorías.
A principios de este año, las puertas de IA generativa abierto de par en par, dando a luz una nueva realidad de oportunidades. El nuevo Bing de Microsoft y ChatGPT de OpenAI han estado a la vanguardia, con otras compañías siguiendo de cerca su ejemplo con modelos e iteraciones similares.
Si bien OpenAI ha estado ocupado impulsando nuevas actualizaciones y funciones para su chatbot impulsado por IA para mejorar su experiencia de usuario, un grupo de investigadores de Stanford llegó a una conclusión. nueva revelación eso ChatGPT se ha vuelto más tonto en los últimos meses.
El documento de investigación «¿Cómo cambia el comportamiento de ChatGPT con el tiempo?» por Lingjiao Chen, Matei Zaharia y James Zou de la Universidad de Stanford y UC Berkley ilustra cómo las funcionalidades clave del chatbot se han deteriorado en los últimos meses.
Hasta hace poco, ChatGPT se basaba en Modelo GPT-3.5 de OpenAIque limitaba el alcance del usuario a vastos recursos en la web porque estaba restringido a información previa a septiembre de 2021. Y aunque OpenAI desde entonces debutó con Navegar con Bing en la aplicación ChatGPT para iOS para mejorar la experiencia de navegación, aún necesitará una suscripción a ChatGPT Plus para acceder a la función.
GPT-3.5 y GPT-4 se actualizan utilizando comentarios y datos de los usuarios; sin embargo, es imposible establecer cómo se hace exactamente. Podría decirse que el éxito o el fracaso de los chatbots está determinado por su precisión. Sobre la base de esta premisa, los investigadores de Stanford se propusieron comprender la curva de aprendizaje de estos modelos mediante la evaluación del comportamiento de las versiones de marzo y junio de estos modelos.
Para determinar si ChatGPT estaba mejorando o empeorando con el tiempo, los investigadores utilizaron las siguientes técnicas para medir sus capacidades:
- Resolver problemas de matematicas
- Responder preguntas delicadas/peligrosas
- Generando código
- Razonamiento visual
Los investigadores destacaron que las tareas anteriores se seleccionaron cuidadosamente para representar las «capacidades diversas y útiles de estos LLM». Pero luego determinaron que su rendimiento y comportamiento eran completamente diferentes. Además, mencionaron que su desempeño en ciertas tareas se ha visto afectado negativamente.
Aquí están los principales hallazgos de los investigadores después de evaluar el desempeño de las versiones de marzo de 2023 y junio de 2023 de GPT-4 y GPT-3.5 en los cuatro tipos de tareas resaltadas anteriormente:
Análisis de rendimiento
En primer lugar, a ambos modelos se les encomendó la tarea de resolver un problema matemático, y los investigadores monitorearon de cerca la precisión y la superposición de respuestas de GPT-4 y GPT-3.5 entre las versiones de marzo y junio de los modelos. Y fue evidente que hubo una gran deriva en el rendimiento, con el modelo GPT-4 siguiendo el mensaje de cadena de pensamiento y finalmente dando la respuesta correcta en marzo. Sin embargo, los mismos resultados no se pudieron replicar en junio, ya que el modelo se saltó la instrucción de la cadena de pensamiento y dio una respuesta totalmente incorrecta.
En cuanto a GPT-3.5, se apegó al formato de cadena de pensamiento, pero inicialmente dio una respuesta incorrecta. Sin embargo, el problema se solucionó en junio y el modelo mostró mejoras en términos de rendimiento.
«La precisión de GPT-4 cayó del 97,6 % en marzo al 2,4 % en junio, y hubo una gran mejora en la precisión de GPT-3.5, del 7,4 % al 86,8 %. Además, la respuesta de GPT-4 se volvió mucho más compacta: su verbosidad promedio (número de caracteres generados) disminuyó de 821,2 en marzo a 3,8 en junio. Por otro lado, hubo un crecimiento de alrededor del 40 % en la longitud de respuesta de GPT-3.5. La superposición de respuestas entre sus versiones de marzo y junio también fue pequeño para ambos servicios.» declararon los investigadores de Stanford. Además, atribuyeron las disparidades a las «desviaciones de los efectos de la cadena de pensamientos».
Ambos LLM dieron una respuesta detallada en marzo cuando se les preguntó sobre preguntas delicadas, citando su incapacidad para responder a las indicaciones con rastros de discriminación. Mientras que, en junio, ambas modelos se negaron rotundamente a dar respuesta a la misma consulta.
Los usuarios que forman parte de la comunidad r/ChatGPT en Reddit expresaron un cóctel de sentimientos y teorías sobre los hallazgos clave del informe, como se destaca a continuación:
Todavía es demasiado pronto para determinar qué tan preciso es este estudio. Es necesario realizar más puntos de referencia para estudiar estas tendencias. Pero ignorar estos hallazgos y si los mismos resultados se pueden replicar en otras plataformas, como Chat de Binges imposible.
Como recordará, unas semanas después del lanzamiento de Bing Chat, varios usuarios citaron casos en los que el chatbot había sido brusco o directamente dado respuestas incorrectas a las consultas. A su vez, esto hizo que los usuarios cuestionaran la credibilidad y la precisión de la herramienta, lo que llevó a Microsoft a implementar medidas elaboradas para evitar que este problema se repita. Es cierto que la compañía constantemente ha impulsado nuevas actualizaciones a la plataforma, y se pueden citar varias mejoras.
Los investigadores de Stanford dijeron:
«Nuestros hallazgos demuestran que el comportamiento de GPT-3.5 y GPT-4 ha variado significativamente durante un período de tiempo relativamente corto. Esto destaca la necesidad de evaluar y evaluar continuamente el comportamiento de los LLM en aplicaciones de producción. Planeamos actualizar los hallazgos presentados. aquí en un estudio continuo a largo plazo mediante la evaluación regular de GPT-3.5, GPT-4 y otros LLM en diversas tareas a lo largo del tiempo Para los usuarios o empresas que confían en los servicios de LLM como un componente en su flujo de trabajo continuo, recomendamos que implementen análisis de seguimiento similar al que hacemos aquí para sus aplicaciones»,