Esto no es un consejo de inversión. El autor no tiene posición en ninguna de las acciones mencionadas. Wccftech.com tiene una política de divulgación y ética.
No le pidas al modelo de lenguaje grande (LLM) más avanzado de OpenAI, el GPT-4 Turbo, que realice tareas exhaustivas durante las vacaciones de invierno. Ésa es la conclusión que uno puede sacar cómodamente de una prueba reciente estadísticamente significativa realizada por un entusiasta del LLM.
OpenAI afirma que GPT-4 Turbo es capaz de manejar tareas muy complicadas en un solo mensaje, cortesía de su formación mucho más exhaustiva. El modelo también es capaz de procesar 128.000 tokens gracias a su ventana de contexto de token ampliada, una medida de la riqueza o profundidad de la entrada y salida de un LLM en particular. Como recordatorio, 1000 tokens equivalen aproximadamente a 750 palabras. Esto significa que la última oferta de OpenAI es capaz de procesar una entrada de alrededor de 96.000 palabras.
@ChatGPTapp @OpenAI @tszzl @emollick @voooooogel Resultado salvaje. gpt-4-turbo sobre la API produce finalizaciones más cortas (estadísticamente significativas) cuando «piensa» en diciembre frente a cuando piensa en mayo (según lo determinado por la fecha en el mensaje del sistema).
Tomé exactamente el mismo mensaje… pic.twitter.com/mA7sqZUA0r
-Rob Lynch (@RobLynch99) 11 de diciembre de 2023
Recientemente, Rob Lynch, un entusiasta del LLM, puso a prueba el GPT-4 Turbo a su ritmo proverbial. Para su total sorpresa, el LLM produce una respuesta más corta cuando piensa que el mes actual es diciembre en comparación con cuando se le pide que crea que es mayo.
Específicamente, Lynch pudo obtener una producción promedio de 4298 tokens en 477 pruebas de GPT-4 Turbo cuando se le hizo creer que el mes actual era mayo. Para diciembre, el LLM arrojó una producción media significativamente más corta de 4.086 tokens, lo que equivale a una disminución de la productividad de alrededor del 5 por ciento.
Dios mío, ¿la hipótesis de las vacaciones de invierno de la IA puede ser cierta?
Hubo algunas especulaciones inútiles de que GPT-4 podría tener un peor desempeño en diciembre porque «aprendió» a trabajar menos durante las vacaciones.
Aquí hay una prueba estadísticamente significativa que muestra que esto puede ser cierto. Los LLM son raros. https://t.co/mtCY3lmLFF
– Ethan Mollick (@emollick) 11 de diciembre de 2023
Si bien arroja luz sobre la causa probable detrás de esta discrepancia, Ethan Mollick, profesor de Wharton, cree que el GPT-4 Turbo aprendió de la tendencia humana a trabajar menos en diciembre, cuando hay muchas vacaciones. Esto también sugiere que estos LLM, a pesar de los esfuerzos exhaustivos para prevenir la incursión de prejuicios humanos dañinos, aún siguen siendo susceptibles de heredar algunas de las deficiencias humanas más extravagantes, cortesía de la infiltración de datos de capacitación.
Este desarrollo viene inmediatamente después de otro que sugería que el modelo GPT de OpenAI se estaba volviendo progresivamente más vago, recurriendo a atajos en lugar de dar respuestas completas a las consultas. ¡Algunas anécdotas sugieren que los usuarios han estado fingiendo estar discapacitados para obtener respuestas completas del LLM! La situación aparentemente es lo suficientemente grave como para inmediato OpenAI para intentar encontrar una revisión.