Una prueba estadísticamente significativa demuestra que el GPT-4 Turbo de OpenAI es particularmente perezoso durante las vacaciones de invierno


Esto no es un consejo de inversión. El autor no tiene posición en ninguna de las acciones mencionadas. Wccftech.com tiene una política de divulgación y ética.

No le pidas al modelo de lenguaje grande (LLM) más avanzado de OpenAI, el GPT-4 Turbo, que realice tareas exhaustivas durante las vacaciones de invierno. Ésa es la conclusión que uno puede sacar cómodamente de una prueba reciente estadísticamente significativa realizada por un entusiasta del LLM.

OpenAI afirma que GPT-4 Turbo es capaz de manejar tareas muy complicadas en un solo mensaje, cortesía de su formación mucho más exhaustiva. El modelo también es capaz de procesar 128.000 tokens gracias a su ventana de contexto de token ampliada, una medida de la riqueza o profundidad de la entrada y salida de un LLM en particular. Como recordatorio, 1000 tokens equivalen aproximadamente a 750 palabras. Esto significa que la última oferta de OpenAI es capaz de procesar una entrada de alrededor de 96.000 palabras.

Recientemente, Rob Lynch, un entusiasta del LLM, puso a prueba el GPT-4 Turbo a su ritmo proverbial. Para su total sorpresa, el LLM produce una respuesta más corta cuando piensa que el mes actual es diciembre en comparación con cuando se le pide que crea que es mayo.

Específicamente, Lynch pudo obtener una producción promedio de 4298 tokens en 477 pruebas de GPT-4 Turbo cuando se le hizo creer que el mes actual era mayo. Para diciembre, el LLM arrojó una producción media significativamente más corta de 4.086 tokens, lo que equivale a una disminución de la productividad de alrededor del 5 por ciento.

Si bien arroja luz sobre la causa probable detrás de esta discrepancia, Ethan Mollick, profesor de Wharton, cree que el GPT-4 Turbo aprendió de la tendencia humana a trabajar menos en diciembre, cuando hay muchas vacaciones. Esto también sugiere que estos LLM, a pesar de los esfuerzos exhaustivos para prevenir la incursión de prejuicios humanos dañinos, aún siguen siendo susceptibles de heredar algunas de las deficiencias humanas más extravagantes, cortesía de la infiltración de datos de capacitación.

Este desarrollo viene inmediatamente después de otro que sugería que el modelo GPT de OpenAI se estaba volviendo progresivamente más vago, recurriendo a atajos en lugar de dar respuestas completas a las consultas. ¡Algunas anécdotas sugieren que los usuarios han estado fingiendo estar discapacitados para obtener respuestas completas del LLM! La situación aparentemente es lo suficientemente grave como para inmediato OpenAI para intentar encontrar una revisión.

Comparte esta historia

Facebook

Gorjeo





Source link-29