DeepMind AI rivaliza con los estudiantes de secundaria más inteligentes del mundo en geometría


Agrandar / Demis Hassabis, director ejecutivo de DeepMind Technologies y desarrollador de AlphaGO, asiste a la Cumbre de seguridad de IA en Bletchley Park el 2 de noviembre de 2023 en Bletchley, Inglaterra.

Un sistema desarrollado por DeepMind de Google ha establecido un nuevo récord de rendimiento de la IA en problemas de geometría. AlphaGeometry de DeepMind logró resolver 25 de los 30 problemas de geometría extraídos de la Olimpiada Internacional de Matemáticas entre 2000 y 2022.

Eso coloca al software por delante de la gran mayoría de los jóvenes matemáticos y apenas por debajo de los medallistas de oro de la OMI. DeepMind estima que el medallista de oro promedio habría resuelto 26 de 30 problemas. Muchos ven la OMI como la competencia de matemáticas para estudiantes de secundaria más prestigiosa del mundo.

«Debido a que los modelos de lenguaje se destacan en la identificación de patrones y relaciones generales en los datos, pueden predecir rápidamente construcciones potencialmente útiles, pero a menudo carecen de la capacidad de razonar rigurosamente o explicar sus decisiones», escribe DeepMind. Para superar esta dificultad, DeepMind combinó un modelo de lenguaje con un motor de deducción simbólica más tradicional que realiza razonamiento algebraico y geométrico.

La investigación fue dirigida por Trieu Trinh, un científico informático que recientemente obtuvo su doctorado en la Universidad de Nueva York. Fue residente de DeepMind entre 2021 y 2023.

Evan Chen, ex medallista de oro olímpico que evaluó algunos de los resultados de AlphaGeometry, lo elogió como «impresionante porque es a la vez verificable y limpio». Mientras que algunos programas anteriores generaban pruebas de geometría complejas que eran difíciles de entender para los revisores humanos, el resultado de AlphaGeometry es similar a lo que escribiría un matemático humano.

AlphaGeometry es parte del proyecto más amplio de DeepMind para mejorar las capacidades de razonamiento de grandes modelos de lenguaje combinándolos con algoritmos de búsqueda tradicionales. DeepMind ha publicado varios artículos en esta área durante el último año.

Cómo funciona AlphaGeometry

Comencemos con un ejemplo simple que se muestra en el artículo de AlphaGeometry, publicado por Nature el miércoles:

El objetivo es demostrar que si un triángulo tiene dos lados iguales (AB y AC), entonces los ángulos opuestos a esos lados también serán iguales. Podemos hacer esto creando un nuevo punto D en el punto medio del tercer lado del triángulo (BC). Es fácil demostrar que los tres lados del triángulo ABD tienen la misma longitud que los lados correspondientes del triángulo ACD. Y dos triángulos de lados iguales siempre tienen ángulos iguales.

Los problemas de geometría de la OMI son mucho más complejos que este problema de juguete, pero fundamentalmente tienen la misma estructura. Todos comienzan con una figura geométrica y algunos datos sobre la figura como «el lado AB tiene la misma longitud que el lado AC». El objetivo es generar una secuencia de inferencias válidas que concluyan con una afirmación dada como «el ángulo ABC es igual al ángulo BCA».

Durante muchos años, hemos tenido software que puede generar listas de conclusiones válidas que pueden extraerse de un conjunto de suposiciones iniciales. Los problemas de geometría simples se pueden resolver mediante “fuerza bruta”: enumerar mecánicamente todos los hechos posibles que se pueden inferir a partir de la suposición dada, luego enumerar todas las inferencias posibles a partir de esos hechos, y así sucesivamente hasta llegar a la conclusión deseada.

Pero este tipo de búsqueda por fuerza bruta no es factible para un problema de geometría de nivel IMO porque el espacio de búsqueda es demasiado grande. Los problemas más difíciles no sólo requieren demostraciones más largas, sino que las demostraciones sofisticadas a menudo requieren la introducción de nuevos elementos en la figura inicial, como ocurre con el punto D en la demostración anterior. Una vez que se tienen en cuenta este tipo de “puntos auxiliares”, el espacio de posibles pruebas explota y los métodos de fuerza bruta se vuelven poco prácticos.



Source link-49