Frontier, la primera supercomputadora a exaescala del mundo con tecnología AMD, ha tenido problemas desde que se encendió


El Laboratorio Nacional de Oak Ridge u ORNL es el hogar de la supercomputadora Frontier. Frontier está marcado como el primer sistema de nivel de exaescala creado con las CPU EPYC Trento de AMD y los aceleradores de cómputo Instinct MI250X. Todo el sistema utiliza las interconexiones Slingshot de HPE. También está programada como la supercomputadora más rápida disponible en el mundo y es el único diseño Exascale operativo del mundo.

La arquitectura Cray EX de HPE fue creada para aplicaciones a gran escala a las que los investigadores podrían acceder para ayudar en la investigación científica a partir de 2023. Sin embargo, la supercomputadora no puede funcionar un día entero sin varias fallas ubicadas dentro del hardware.

El ORNL Frontier arranca pero solo puede producir un máximo de 1 FP64 ExaFLOPS, mientras que el sistema fue diseñado para entregar 1.685 FP64 ExaFLOPS. Si bien no se han dado noticias sobre los problemas específicos, algunos rumores están saliendo a la luz.

Primero, las interconexiones de Slingshot, la red creada para las supercomputadoras HPE Cray, entra en conflicto con los clústeres de HPE. Desafortunadamente, se desconoce la especificidad del problema exacto. En segundo lugar, se rumorea que las GPU de cómputo AMD Instinct MI250X y las CPU EPYC Trento entran en conflicto con las interconexiones Slingshot. Nuevamente, no ha llegado ninguna palabra oficial de los líderes del proyecto o investigadores de la supercomputadora ORNL Frontier.

Mike Bernhardt, del Proyecto de Computación a Exaescala del Departamento de Energía (DOE), afirma que la integración completa de ORNL Frontier estará disponible para los investigadores a partir del próximo año, pero no se menciona que tenga preocupaciones o problemas con el lanzamiento completo de la supercomputadora Frontier.

Los socios de ORNL en el esfuerzo de exaescala, HPE y AMD, han entregado el nuevo sistema Frontier a ORNL antes de lo previsto para este otoño. La instalación e integración de Frontier, un esfuerzo masivo y complejo, ya está en marcha, y el progreso actual indica que todo va por buen camino para que Frontier esté disponible para los usuarios para la ciencia abierta el próximo año, como se anticipó.

Mike Bernhardt (Líder de comunicación para el Proyecto de computación a gran escala del DOE) a través de InsideHPC

La colocación de Bernhardt declarando «esfuerzo complejo» podría explicar por qué abundan los rumores sobre el proyecto. También se debe tener en cuenta que las GPU de cómputo MI250X de AMD solo están disponibles para clientes selectos, razón por la cual faltan puntos de referencia para respaldar las afirmaciones rumoreadas. El DOE ha trabajado en estrecha colaboración con el Centro de computación de liderazgo de Oak Ridge en Frontier. La supercomputadora ORNL Frontier está programada para estar completamente operativa el 1 de enero de 2023, después de no cumplir con la fecha límite inicial de 2022.

Fuentes de noticias: Inside HPC, Toms Hardware



Source link-29