Claude 2.1 LLM de Anthropic sigue siendo inferior a GPT-4 de OpenAI en el retiro de contexto


Esto no es un consejo de inversión. El autor no tiene posición en ninguna de las acciones mencionadas. Wccftech.com tiene una política de divulgación y ética.

La capacidad limitada de las iteraciones actuales de los modelos de lenguaje grande (LLM, por sus siglas en inglés) para comprender cargas cada vez mayores de contexto sigue siendo uno de los mayores impedimentos en este momento para lograr la singularidad de la IA, un umbral en el que la inteligencia artificial excede de manera demostrable a la inteligencia humana. A primera vista, la ventana de contexto de 200.000 tokens para Claude 2.1 LLM de Anthropic parece impresionante. Sin embargo, su capacidad de recuperación de contexto deja mucho que desear, especialmente si se compara con las capacidades de recuperación relativamente sólidas del GPT-4 de OpenAI.

Anthropic anunció ayer que su último LLM Claude 2.1 ahora admite una ventana de contexto «líder en la industria» de 200.000 tokens al tiempo que ofrece una disminución del doble en las alucinaciones del modelo, una situación en la que un modelo de IA generativo percibe patrones u objetos inexistentes a menudo como resultado de entradas poco claras o contradictorias, que generan resultados inexactos o sin sentido.

Para beneficio de aquellos que quizás no lo sepan, un token es una unidad básica de texto o código que los LLM utilizan para procesar y generar lenguaje. Dependiendo del método de tokenización empleado, un token puede ser un carácter, una palabra, una subpalabra o un segmento completo de texto o código. La ventana contextual ampliada de Claude 2.1 permite al LLM comprender y procesar un libro de casi 470 páginas.

Por supuesto, la ventana de contexto de 200.000 tokens de Claude 2.1 de Anthropic es bastante impresionante en comparación con el GPT-4 de OpenAI, que solo admite una ventana de 128.000 tokens. Sin embargo, la aplicación en el mundo real de esta ventana de contexto ampliada pierde algo de su brillo cuando se considera la capacidad poco impresionante de Claude 2.1 para recordar el contexto.

Recordatorio de contexto: Claude 2.1 de Anthropic frente a GPT-4 de OpenAI

El experto en inteligencia artificial Greg Kamradt enfrentó recientemente a Claude 2.1 con GPT-4 a través de una prueba estandarizada que tenía como objetivo determinar con qué precisión un modelo en particular recordaba un hecho específico incrustado en diferentes profundidades de paso.

Específicamente, Kamradt incorporó el siguiente texto en diferentes profundidades de pasaje:

“Lo mejor que se puede hacer en San Francisco es comer un sándwich y sentarse en Dolores Park en un día soleado”.

El investigador dividió su texto de entrada en 35 partes iguales y luego colocó el hecho anterior en cada una de estas 35 profundidades, pidiéndole a Claude 2.1 que respondiera una pregunta relacionada cada vez. El investigador también varió la ventana de contexto, que iba desde 1.000 tokens hasta 200.000 tokens, divididos en 35 incrementos iguales. ir a esto X publicación para más detalles sobre la metodología empleada.

Claude-2.1-Resultados-de-la-prueba

Arriba, encontrará con qué precisión Claude 2.1 de Anthropic pudo recordar el hecho incrustado en una profundidad de documento y una longitud de ventana de contexto determinadas. Cada bloque rojo representa una falla al recordar. Como se desprende del fragmento anterior, la capacidad de recuperación del LLM se degrada progresivamente a medida que aumenta la ventana de contexto.

Resultados de la prueba GPT-4

A modo de comparación, arriba se muestran los resultados de una prueba similar realizada con GPT-4 de OpenAI. Aquí, la profundidad a la que se incrustó el hecho, así como la ventana de contexto del LLM, se cambiaron en 15 incrementos distintos. Dirígete a esto X publicación para mas detalles.

Tenga en cuenta que GPT-4 tiene menos fallas de recuperación del 100 por ciento en su longitud máxima de ventana de contexto de 128K tokens.

Habíamos notado en una publicación anterior que GPT-4 superó a los LLM Grok de xAI y Claude 2 de Anthropic en un examen de matemáticas prolongado. Queda por ver cómo se desempeña Claude 2.1 contra GPT-4 en el mismo entorno.

Comparte esta historia

Facebook

Gorjeo





Source link-29