El Laboratorio Nacional de Argonne e Intel anunciaron el jueves que se completó la instalación de 10,624 blades para la supercomputadora Aurora y que el sistema estará en línea más adelante en 2023. La máquina usa decenas de miles de procesadores Xeon Max ‘Sapphire Rapids’ con memoria HBM2E, así como decenas de miles de GPU de centro de datos GPU de cómputo Max ‘Ponte Vecchio’ para lograr un rendimiento de más de 2 FP64 ExaFLOPS.
La supercomputadora Aurora construida por HPE consta de 166 racks con 64 blades por rack, para un total de 10 624 blades. Cada hoja Aurora se basa en dos CPU Xeon Max con 64 GB de memoria HBM2E en el paquete, así como en seis GPU de cómputo Intel Data Center Max ‘Ponte Vecchio’. Estas CPU y GPU se enfriarán con un sistema de refrigeración líquida personalizado.
En total, la supercomputadora Aurora incluye 21 248 CPU de uso general con más de 1,1 millones de núcleos de alto rendimiento, 19,9 petabytes (PB) de memoria DDR5, 1,36 PB de memoria HBM2E conectada a las CPU y 63 744 GPU de cómputo diseñadas para cargas de trabajo masivamente paralelas de IA y HPC. con 8,16 PB de memoria HBM2E integrada. Los blades están interconectados mediante el tejido Slingshot de HPE diseñado específicamente para superordenadores.
“Aurora es la primera implementación de la GPU de la serie Max de Intel, el sistema basado en CPU Xeon Max más grande y el clúster de GPU más grande del mundo”, dijo Jeff McVeigh, vicepresidente corporativo de Intel y gerente general de Super Compute Group. «Estamos orgullosos de ser parte de este sistema histórico y emocionados por la IA, la ciencia y la ingeniería innovadoras que Aurora permitirá».
La supercomputadora Aurora utiliza una matriz de 1024 nodos de almacenamiento que consta de dispositivos de almacenamiento de estado sólido y proporciona 220 TB de capacidad, así como 31 TB/s de ancho de banda total, que será útil para manejar cargas de trabajo que involucran conjuntos de datos masivos, como la investigación de fusión nuclear, ingeniería científica, simulaciones físicas, investigación de curas, pronóstico del tiempo y otras tareas.
Si bien se completó la instalación de los blades Aurora, la supercomputadora aún debe pasar las pruebas de aceptación. Cuando lo haga y esté en línea a finales de este año, promete alcanzar un rendimiento máximo teórico superior a 2 ExaFLOPS, lo que la convierte en la primera supercomputadora en lograr este nivel de rendimiento cuando se una a las filas de la lista Top500.
«Mientras trabajamos en las pruebas de aceptación, usaremos Aurora para entrenar algunos modelos de IA generativa de código abierto a gran escala para la ciencia», dijo Rick Stevens, director asociado de laboratorio del Laboratorio Nacional Argonne. «Aurora, con más de 60 000 GPU Intel Max, un sistema de E/S muy rápido y un sistema de almacenamiento masivo de estado sólido, es el entorno perfecto para entrenar estos modelos».
Si bien la supercomputadora Aurora aún tiene que pasar las pruebas y ANL aún tiene que enviar sus resultados de rendimiento a Top500.org, Intel aprovechó la oportunidad para compartir las ventajas de rendimiento que tiene su hardware sobre las soluciones de la competencia de AMD y Nvidia.
Según Intel, las pruebas preliminares con las GPU de la serie Max muestran que sobresalen en «cargas de trabajo de ingeniería y ciencia del mundo real», brindando un rendimiento dos veces más alto que las GPU AMD Instinct MI250X en OpenMC, y escalables casi perfectamente en cientos de nodos. Además, Intel dice que su CPU Intel Xeon Max Series ofrece una ventaja del 40 % en rendimiento sobre sus rivales en numerosas aplicaciones HPC del mundo real, incluidas HPCG, NEMO-GYRE, Anerlastic Wave Propagation, BlackScholes y OpenFOAM.