Grok AI de Elon Musk destripa todos los demás modelos al responder preguntas matemáticas retenidas, excepto GPT-4


Esto no es un consejo de inversión. El autor no tiene posición en ninguna de las acciones mencionadas. Wccftech.com tiene una política de divulgación y ética.

Mientras xAI se preparaba para presentar su primer modelo de lenguaje grande (LLM) llamado Grok, Elon Musk declaró audazmente que el modelo de IA generativa «en algunos aspectos importantes» era «el mejor que existe actualmente». Ahora finalmente tenemos los datos para probar esta afirmación.

Kieran Paster, investigador de la Universidad de Toronto, recientemente puso a prueba varios modelos de IA a su ritmo proverbial al pruebas ellos en un examen de matemáticas retenido. Tenga en cuenta que las preguntas pendientes, en el lenguaje del análisis de datos, son aquellas que no forman parte del conjunto de datos que se utiliza para entrenar un modelo de IA. Por lo tanto, un LLM determinado debe aprovechar su formación previa y sus habilidades de resolución de problemas para responder a dichos estímulos. Luego, Paster calificó manualmente las respuestas de cada modelo.

Desempeño de Grok AI en un examen de matemáticas retenido

Como se desprende del fragmento anterior, Grok superó a todos los demás LLM, incluido Claude 2 de Anthropic, con la excepción de GPT-4 de OpenAI, obteniendo una puntuación total del 59 por ciento frente al 68 por ciento de GPT-4.

Rendimiento de Grok AI en GSM8k frente al examen de matemáticas retenido

A continuación, Paster aprovechó las pruebas de xAI de varios LLM en GSM8k, un conjunto de datos de problemas matemáticos escritos dirigido a la escuela secundaria, para comparar el desempeño de estos LLM en el examen de matemáticas retenido con su desempeño en GSM8k.

Curiosamente, si bien ChatGPT-3.5 de OpenAI obtiene una puntuación más alta que Grok en el GSM8k, logra obtener sólo la mitad de la puntuación de Grok en el examen de matemáticas retenido. Paster utiliza este resultado para justificar su conclusión de que el rendimiento superior de ChatGPT-3.5 en el GSM8k es simplemente el resultado de un sobreajuste, que ocurre cuando un LLM proporciona resultados precisos para los datos de entrada que se utilizan en su entrenamiento, pero no para los datos nuevos. Por ejemplo, un modelo de IA entrenado para identificar imágenes que contienen perros y entrenado con un conjunto de datos de imágenes que muestran perros en un parque podría usar el césped como característica de identificación para dar la respuesta correcta buscada.

Si excluimos todos los modelos que probablemente sufran de sobreajuste, Grok ocupa un impresionante tercer lugar en el GSM8k, sólo detrás de Claude 2 y GPT-4. Esto sugiere que las capacidades de inferencia de Grok son bastante sólidas.

Por supuesto, una limitación crucial al comparar estos modelos es la falta de información sobre la cantidad de parámetros de entrenamiento que se utilizaron para entrenar a GPT-4, Claude 2 y Grok. Estos parámetros son las configuraciones y condiciones que gobiernan colectivamente el proceso de aprendizaje de un LLM. Como regla general, cuanto mayor es el número de parámetros, más complejo es un modelo de IA.

Como otra distinción, Grok aparentemente tiene una habilidad innata inigualable.sentir» para obtener noticias. Según las primeras impresiones de los evaluadores beta del LLM, Grok de xAI puede distinguir entre varios sesgos que podrían teñir una noticia de última hora. Esto es probablemente un resultado directo de la capacitación de Grok sobre los datos obtenidos de X.

Comparte esta historia

Facebook

Gorjeo





Source link-29