El Instinct MI300 de AMD se perfila como un chip increíble con núcleos de CPU y GPU y una gran cantidad de memoria de alta velocidad reunida en el mismo procesador, pero los detalles siguen siendo leves. Ahora hemos recopilado algunos detalles nuevos de una presentación de International Super Computing (ISC) 2023 que describe la próxima supercomputadora El Capitan de dos exaflop que será impulsada por Instinct MI300. También encontramos otros detalles en un discurso de apertura del CTO de AMD, Mark Papermaster, en ITF World 2023, una conferencia organizada por el gigante de la investigación imec (puede leer nuestra entrevista con Papermaster aquí).
La supercomputadora El Capitán está lista para ser la más rápida del mundo cuando se encienda a fines de 2023, tomando la posición de liderazgo de la Frontier impulsada por AMD. El poderoso Instinct MI300 de AMD impulsará la máquina, y los nuevos detalles incluyen un mapa de topología de una instalación de MI300, imágenes del laboratorio Austin MI300 de AMD y una imagen de los nuevos blades que se emplearán en la supercomputadora El Capitan. También cubriremos algunos de los otros desarrollos nuevos en torno al despliegue de El Capitán.
Como recordatorio, el Instinct MI300 es una APU de centro de datos que combina un total de 13 chipsets, muchos de ellos apilados en 3D, para crear un paquete de un solo chip con veinticuatro núcleos de CPU Zen 4 fusionados con un motor de gráficos CDNA 3 y ocho pilas de memoria HBM3 por un total de 128 GB. En general, el chip pesa 146 mil millones de transistores, lo que lo convierte en el chip más grande que AMD ha presionado para producir. Los nueve troqueles de cómputo, una combinación de CPU y GPU de 5nm, están apilados en 3D sobre cuatro troqueles base de 6nm que son intercaladores activos que manejan la memoria y el tráfico de E/S, entre otras funciones.
El discurso de apertura de ITF World de Papermaster se centró en el objetivo «30×25» de AMD de aumentar la eficiencia energética en 30 veces para 2025, y cómo la informática ahora está siendo controlada por la eficiencia energética a medida que la Ley de Moore se ralentiza. La clave de esa iniciativa es el Instinct MI300, y gran parte de sus ganancias provienen de la topología de sistema simplificada que ve arriba.
Como puede ver en la primera diapositiva, un nodo con tecnología Instinct MI250 tiene CPU y GPU separadas, con una sola CPU EPYC en el medio para coordinar las cargas de trabajo.
En contraste, el Instinct MI300 contiene un procesador EPYC Genoa de cuarta generación de 24 núcleos incorporado dentro del paquete, lo que elimina una CPU independiente de la ecuación. Sin embargo, se mantiene la misma topología general, sin la CPU independiente, lo que permite una topología de todos a todos totalmente conectada con cuatro elementos. Este tipo de conexión permite que todos los procesadores se comuniquen entre sí directamente sin que otra CPU o GPU actúe como intermediario para transmitir datos a los demás elementos, lo que reduce la latencia y la variabilidad. Ese es un punto de dolor potencial con la topología MI250. El mapa de topología del MI300 también indica que cada chip tiene tres conexiones, tal como vimos con el MI250. Las diapositivas de Papermaster también se refieren a los intercaladores activos que forman los troqueles base como el «troquel base de tela infinity de cuarta generación».
Como puede ver en el resto de estas diapositivas, el MI300 ha colocado a AMD en un camino claro para superar sus objetivos de eficiencia de 30X25 y, al mismo tiempo, superar la tendencia de potencia de la industria. También lanzamos algunas fotos del silicio Instinct MI300 que vimos de primera mano, pero a continuación vemos cómo se ve el MI300 dentro de una hoja real que se instalará en El Capitán.
AMD Instinct MI300 en El Capitán
En ISC 2023, Bronis R. de Supinski, CTO del Laboratorio Nacional Lawrence Livermore (LLNL), habló sobre la integración de las APU Instinct MI300 en la supercomputadora El Capitán. La Administración Nacional de Seguridad Nuclear (NNSA) utilizará El Capitán para promover los usos militares de la tecnología nuclear.
Como puede ver en la primera imagen del álbum de arriba, Supinski mostró una hoja única para el sistema El Capitán. Este blade, fabricado por el proveedor de sistemas HPE, cuenta con cuatro tarjetas Instinct MI300 refrigeradas por líquido en un chasis delgado de 1U. Supinksi también mostró una imagen del laboratorio de AMD en Austin, donde tienen silicio MI300 en funcionamiento, lo que demuestra que los chips son reales y ya se están probando, un punto clave que se debe tener en cuenta algunos de los pasos en falso recientes con los sistemas con tecnología Intel.
Supinksi a menudo se refería al MI300 como «MI300A», pero no estamos seguros de si se trata de un modelo personalizado para El Capitán o de un número de producto más formal.
Supinski dijo que el chip viene con un Infinity Cache, pero no especificó la capacidad disponible. Supinski también citó la importancia del nivel de memoria único varias veces, y señaló cómo el espacio de memoria unificado simplifica la programación, ya que reduce las complejidades del movimiento de datos entre diferentes tipos de cómputo y diferentes grupos de memoria.
Supinski señala que el MI300 puede ejecutarse en varios modos diferentes, pero el modo principal consta de un solo dominio de memoria y un dominio NUMA, lo que proporciona una memoria de acceso uniforme para todos los núcleos de CPU y GPU. La conclusión clave es que la memoria coherente con la caché reduce el movimiento de datos entre la CPU y la GPU, que a menudo consume más energía que el propio cálculo, lo que reduce la latencia y mejora el rendimiento y la eficiencia energética. Supinksi también dice que fue relativamente fácil transferir el código de la supercomputadora Sierra a El Capitán.
El resto de las diapositivas de Supinski incluye información que AMD ya ha revelado, incluidas las proyecciones de rendimiento de 8 veces el rendimiento de la IA y 5 veces el rendimiento por vatio del MI250X.
HPE está construyendo el sistema El Capitan basado en su arquitectura Shasta y la interconexión de redes Slingshot-11. Esta es la misma plataforma que alimenta las otras dos supercomputadoras a exaescala del DOE, Frontier, la supercomputadora más rápida del mundo, y la a menudo retrasada Aurora que funciona con silicio Intel.
La NNSA tuvo que construir más infraestructura para operar la supercomputadora Sierra y El Capitán simultáneamente. Ese trabajo incluyó reforzar la entrega de energía dedicada a la computación de 45 MW a 85 MW. Hay 15 MW adicionales de energía disponibles para el sistema de enfriamiento, que se actualizó a 28 000 toneladas al agregar una nueva torre de enfriamiento de 18 000 toneladas. Eso le da al sitio un total de 100 MW de potencia, pero se espera que El Capitán consuma menos de 40 MW, aunque el valor real podría ser de alrededor de 30 MW; las cifras finales no se conocerán hasta el despliegue.
El Capitán será el primer Sistema de Tecnología Avanzada (ATS) que utiliza el Software de Sistema Operativo Tri-lab (TOSS) personalizado de NNSA, una pila de software completa construida en RHEL.
Programa de almacenamiento de conejos de El Capitán
El LLNL está utilizando sistemas ‘EAS3’ más pequeños para probar el software que se implementará en El Capitán cuando esté operativo a finales de este año. LLNL ya está probando nuevos módulos Rabbit que albergarán una gran cantidad de SSD para almacenamiento local cercano al nodo. Arriba, puede ver los diagramas de bloques de estos nodos, pero tenga en cuenta que no usan los aceleradores MI300; en cambio, tienen procesadores de servidor EPYC estándar para tareas de análisis de datos y orquestación de almacenamiento. Estos nodos rápidos parecen servir como búferes de ráfaga que absorben rápidamente cantidades masivas de datos entrantes, que luego se barajan en el sistema de almacenamiento masivo más lento.
Cronología de AMD Instinct MI300
Con el desarrollo continuando a una cadencia predecible, está claro que El Capitán está en camino de estar operativo a finales de este año. El MI300 abre un nuevo camino para las ofertas de cómputo de alto rendimiento de AMD, pero AMD nos dice que estos chips halo MI300 serán costosos y relativamente raros; no son un producto de gran volumen, por lo que no verán una implementación amplia como el EPYC. CPU del centro de datos de Génova. Sin embargo, la tecnología se filtrará a múltiples variantes en diferentes factores de forma.
Este chip también competirá con el Superchip Grace Hopper de Nvidia, que es la combinación de una GPU Hopper y la CPU Grace en la misma placa. Se espera que estos chips lleguen este año. Las CPU Grace basadas en Neoverse admiten el conjunto de instrucciones Arm v9, y los sistemas vienen con dos chips fusionados con la nueva tecnología de interconexión NVLink-C2C de Nvidia. Por el contrario, el enfoque de AMD está diseñado para ofrecer un rendimiento superior y eficiencia energética, ya que la combinación de estos dispositivos en un solo paquete generalmente permite un mayor rendimiento entre las unidades que cuando se conecta a dos dispositivos separados como lo hace Grace Hopper.
También se suponía que el MI300 competiría con Falcon Shores de Intel, un chip que se diseñó inicialmente para presentar una cantidad variable de mosaicos de cómputo con núcleos x86, núcleos de GPU y memoria en numerosas configuraciones posibles. Intel los retrasó recientemente hasta 2025 y redefinió los chips para presentar solo una arquitectura de GPU e IA; ahora no contarán con núcleos de CPU. En efecto, eso deja a Intel sin un competidor directo para el Instinct MI300.
Dada la fecha de encendido que se acerca rápidamente para El Capitan y la reputación de AMD de hacer que las supercomputadoras estén listas a tiempo, podemos esperar que AMD comience a compartir mucha más información sobre sus APU Instinct Mi300 pronto. AMD organizará el evento de transmisión en vivo de tecnología de inteligencia artificial y centro de datos de próxima generación de la compañía el 13 de junio, y esperamos aprender más allí. Nos aseguraremos de traerte lo último de ese evento cuando llegue.