Construir una supercomputadora siempre es un desafío, pero crear el primer sistema de clase exaescala de la industria es un encuentro con algo completamente inesperado y requiere mucho trabajo con hardware y software. Desafortunadamente, esto podría estar sucediendo con la supercomputadora Frontier del Laboratorio Nacional de Oak Ridge, que apenas puede durar un día sin numerosas fallas de hardware.
Frontier de ORNL es el primer sistema de la industria diseñado para ofrecer un rendimiento máximo de hasta 1.685 FP64 ExaFLOPS utilizando los procesadores EPYC Trento de 64 núcleos de AMD, las GPU de cómputo Instinct MI250X y las interconexiones Slingshot de HPE a 21 MW de potencia. HPE construyó el sistema y usó el Cray EX (se abre en una pestaña nueva) arquitectura diseñada para aplicaciones escalables, principalmente para supercomputadoras ultrarrápidas.
Si bien en el papel, la supercomputadora Frontier se ve excepcionalmente bien y se entregaron partes de hardware del sistema de la máquina, parece que los problemas con el hardware siguen evitando que la máquina se conecte y esté disponible para los investigadores que requieren un rendimiento de alrededor de 1 FP64 ExaFLOPS.
“Estamos trabajando en los problemas de hardware y asegurándonos de que entendemos (qué son)”, dijo Justin Whitt, director del programa de Oak Ridge Leadership Computing Facility (OLCF), en una entrevista con InsideHPC. (se abre en una pestaña nueva). “Vas a tener fallas a esta escala. El tiempo medio entre fallas en un sistema de este tamaño es de horas, no de días”.
Los rumores sobre posibles fallas de hardware de Frontier han estado flotando durante bastante tiempo. Algunos dijeron que el sistema experimentó problemas con la interconexión Slingshot, según otro InsideHPC (se abre en una pestaña nueva) historia. Además, otros indicaron que las GPU de cómputo Instinct MI250X de AMD no fueron tan confiables como se esperaba este año. Recuerde que la versión X, con una mayor cantidad de procesadores de flujo y relojes altos, solo está disponible para clientes seleccionados.
El Sr. Whitt no confirmó que el sistema experimente algún problema particular con Instinct o Slingshot, pero insistió en que la máquina sufre numerosos problemas de hardware.
“Muchos desafíos se centran en esos [GPUs], pero esa no es la mayoría de los desafíos que estamos viendo”, dijo el jefe de OLCF. “Es una distribución bastante buena entre los culpables comunes de fallas de piezas que han sido una gran parte de esto. No creo que en este momento tengamos mucha preocupación por los productos de AMD”.
La supercomputadora Frontier del Laboratorio Nacional de Oak Ridge no es, con mucho, el único sistema que utiliza la arquitectura Cray EX de HPE con interconexiones Slingshot, las CPU EPYC de AMD y las GPU de cómputo Instinct de AMD. Por ejemplo, la supercomputadora Lumi de Finlandia (Cray EX, EPYC Milan, GPU de cómputo Instinct MI250X) ofrece un rendimiento máximo de 550 PetaFLOPS y está clasificada oficialmente como la tercera supercomputadora más poderosa del mundo. Tal vez, el problema sea válido con la escala de la máquina que utiliza 60 millones de piezas en total.
Solo el tiempo dirá si la supercomputadora Frontier que inicialmente se prometió que entraría en línea en 2022 estará disponible para los investigadores a partir de 2023, dado que aún no se ha implementado oficialmente.