GPT-3 ases pruebas de razonamiento por analogía


Los modelos de lenguaje grande son una clase de algoritmo de IA que se basa en una gran cantidad de nodos computacionales y una cantidad igualmente grande de conexiones entre ellos. Pueden ser entrenados para realizar una variedad de funciones (¿alguien quiere plegar proteínas?), pero en su mayoría son reconocidos por sus capacidades con los lenguajes humanos.

Los LLM capacitados para simplemente predecir la próxima palabra que aparecerá en el texto pueden producir conversaciones y ensayos que suenan humanos, aunque con algunos problemas de precisión preocupantes. Los sistemas han demostrado una variedad de comportamientos que parecen ir mucho más allá de las capacidades de lenguaje simple para las que fueron entrenados.

Aparentemente, podemos agregar analogías a la lista de elementos que los LLM han dominado sin darse cuenta. Un equipo de la Universidad de California, Los Ángeles, probó el GPT-3 LLM utilizando preguntas que deberían ser familiares para cualquier estadounidense que haya pasado tiempo en pruebas estandarizadas como el SAT. En todas las variantes menos una de estas preguntas, GPT-3 superó a los estudiantes universitarios que presumiblemente habían dominado estas pruebas solo unos años antes. Los investigadores sugieren que esto indica que los LLM pueden dominar el razonamiento por analogía.

Diferentes tipos de razonamiento

El equipo de UCLA, Taylor Webb, Keith Holyoak y Hongjing Lu, se basó en una gran colección de formas en que investigaciones anteriores han probado la capacidad de los humanos para razonar por analogía. La forma clásica de esto es la finalización de una comparación, piense que «frío es a hielo como caliente a ____», donde debe seleccionar la mejor finalización de un conjunto de opciones.

Las pruebas relacionadas implican descubrir las reglas detrás de las transformaciones de una serie de letras. Entonces, por ejemplo, si la serie abcd se transforma en abce, entonces la regla es reemplazar la última letra de la serie con su sucesor alfabético. La comprensión de la regla por parte de los participantes se prueba pidiéndoles que usen la regla para transformar un conjunto diferente de letras. Pruebas similares con números pueden involucrar reglas complejas, como «solo números pares en orden, pero pueden ser ascendentes o descendentes».

En todas estas pruebas, GPT-3 superó constantemente a los estudiantes universitarios, aunque los márgenes variaron según la prueba específica involucrada. Los investigadores también descubrieron que el software podía desarrollar reglas basadas en una serie de números y luego aplicarlas a un dominio diferente, como descripciones de temperaturas como «cálida» y «fría». Concluyen que «estos resultados sugieren que GPT-3 ha desarrollado una noción abstracta de sucesión que se puede generalizar de manera flexible entre diferentes dominios».

Pero también hubo algunos fallos extraños. El software no reconocía constantemente cuándo se le presentaban estos problemas y mostraba una gran tasa de error a menos que se le indicara una respuesta o cuando la pregunta se formulaba como una oración, en lugar de un conjunto de valores.



Source link-49