Apenas unos días antes del lanzamiento de Supercomputing 22, Intel presentó (se abre en una pestaña nueva) su CPU Xeon Max de próxima generación, anteriormente con el nombre en código Sapphire Rapids HBM, y las GPU de cómputo de la serie Max de GPU para centros de datos, conocidas como Ponte Vecchio. Los nuevos productos se adaptan a diferentes tipos de cargas de trabajo informáticas de alto rendimiento o trabajan juntos para resolver las tareas de supercomputación más complejas.
La CPU Xeon Max: Sapphire Rapids obtiene 64 GB de HBM2E
Los procesadores x86 de uso general se han utilizado para prácticamente todo tipo de informática técnica durante décadas y, por lo tanto, admiten muchas aplicaciones. Sin embargo, mientras que el rendimiento de los núcleos de CPU de uso general se ha escalado con bastante rapidez durante años, los procesadores actuales tienen dos limitaciones significativas con respecto al rendimiento en cargas de trabajo de inteligencia artificial y HPC: paralelización y ancho de banda de memoria. Los procesadores Xeon Max ‘Sapphire Rapids HBM’ de Intel prometen eliminar ambos límites.
El procesador Xeon Max de Intel cuenta con hasta 56 núcleos Golden Cove de alto rendimiento (distribuidos en cuatro chipsets interconectados mediante la tecnología EMIB de Intel) mejorados aún más con múltiples motores aceleradores para cargas de trabajo de IA y HPC y 64 GB de memoria HBM2E en el paquete. Al igual que otras CPU Sapphire Rapids, Xeon Max seguirá admitiendo ocho canales de memoria DDR5 e interfaz PCIe Gen 5 con el protocolo CXL 1.1 en la parte superior, por lo que podrá utilizar todos esos aceleradores habilitados para CXL cuando tenga sentido.
Además de la compatibilidad con los aceleradores vectoriales AVX-512 y Deep Learning Boost (AVX512_VNNI y AVX512_BF16), los nuevos núcleos también traen el acelerador de multiplicación de matriz en mosaico Advanced Matrix Extensions (AMX), que es esencialmente una cuadrícula de unidades fusionadas de multiplicación y suma compatibles con BF16 e INT8 tipos de entrada que se pueden programar usando solo 12 instrucciones y realizar hasta 1024 TMUL BF16 o 2048 TMUL INT8 operaciones por ciclo por núcleo. Además, la nueva CPU es compatible con Data Streaming Accelerator (DSA), que descarga las cargas de trabajo de transformación y copia de datos de la CPU.
Los 64 GB de memoria HBM2E en el paquete (cuatro pilas de 16 GB) proporcionan un ancho de banda máximo de alrededor de 1 TB/s, lo que se traduce en ~1,14 GB de HBM2E por núcleo a 18,28 GB/s por núcleo. Para poner los números en contexto, un procesador Sapphire Rapids de 56 núcleos equipado con ocho módulos DDR5-4800 obtiene hasta 307,2 GB/s de ancho de banda, lo que significa 5,485 GB/s por núcleo. Mientras tanto, Xeon Max puede usar su memoria HBM2E de diferentes maneras: utilícela como memoria del sistema, lo que no requiere cambios de código; utilícelo como un caché de alto rendimiento para el subsistema de memoria DDR5, que no requiere cambiar el código; utilícelo como parte de un grupo de memoria unificado (modo plano de HBM), que implica optimizaciones de software.
Según la carga de trabajo, el procesador Xeon Max habilitado para AMX de Intel puede proporcionar una mejora del rendimiento de 3X a 5,3X con respecto al procesador Xeon Scalable 8380 disponible actualmente que utiliza el procesamiento FP32 convencional para las mismas cargas de trabajo. Mientras tanto, en aplicaciones como el desarrollo de modelos para la dinámica molecular, las nuevas CPU equipadas con HBM2E son hasta 2,8 veces más rápidas que la EPYC 7773X de AMD, que cuenta con 3D V-Cache.
Pero HBM2E tiene otra implicación importante para Intel, ya que reduce un poco la sobrecarga de movimiento de datos entre la CPU y la GPU, lo cual es esencial para varias cargas de trabajo de HPC. Nos lleva al segundo de los anuncios de hoy: las GPU de cómputo de la serie Data Center GPU Max.
El centro de datos GPU Max: el pináculo de las innovaciones del centro de datos de Intel
La serie de GPU de cómputo GPU Max para centro de datos de Intel empleará la arquitectura Ponte Vecchio con nombre en código de la compañía, presentada por primera vez en 2019 y luego detallada en 2020 ~ 2021. Ponte Vecchio de Intel es el procesador más complejo jamás creado, ya que incluye más de 100 mil millones de transistores (sin incluir memoria) más de 47 mosaicos (incluidos 8 mosaicos HBM2E). Además, el producto utiliza ampliamente las tecnologías de empaquetado avanzadas de Intel (por ejemplo, EMIB) ya que otros fabricantes fabrican diferentes mosaicos utilizando diferentes tecnologías de proceso.
Las GPU de cómputo GPU Max para centros de datos de Intel se basarán en la arquitectura Xe-HPC de la empresa, diseñada específicamente para cargas de trabajo de IA y HPC y, por lo tanto, admitirán formatos de datos e instrucciones apropiados, así como motores de matriz (tensor) de 4096 bits y vectores de 512 bits.
Centro de datos Max 1100 | Centro de datos Max 1350 | Centro de datos Max 1550 | AMD instinto MI250X | Nvidia H100 | Nvidia H100 | Puente de Rialto | |
---|---|---|---|---|---|---|---|
Factor de forma | PCIe | OAM | OAM | OAM | SXM | PCIe | OAM |
Azulejos + Memoria | ? | ? | 39+8 | 2+8 | 1+6 | 1+6 | muchos |
transistores | ? | ? | 100 mil millones | 58 mil millones | 80 mil millones | 80 mil millones | montones de ellos |
Núcleos HPC Xe | Unidades de cómputo | 56 | 112 | 128 | 220 | 132 | 114 | 160 núcleos Xe HPC mejorados |
Núcleos RT | 56 | 112 | 128 | – | – | – | ? |
Motores vectoriales de 512 bits | 448 | 896 | 1024 | ? | ? | ? | ? |
Motores de matriz de 4096 bits | 448 | 896 | 1024 | ? | ? | ? | ? |
Caché L1 | ? | ? | 64 MB a 105 TB/s | ? | ? | ? | ? |
Caché Rambo L2 | ? | ? | 408 MB a 13 TB/s | ? | 50 MB | 50 MB | ? |
HBM2E | 48GB | 96GB | 128 GB a 3,2 TB/s | 128 GB/s a 3,2 TB/s | 80 GB a 3,35 TB/s | 8 GB a 2 TB/s | ? |
E/S multi-GPU | 8 | dieciséis | dieciséis | 8 | 8 | 8 | ? |
Energía | 300W | 450W | 600W | 560W | 700W | 350W | 800W |
En comparación con Xe-HPG, Xe-HPC tiene subsistemas de almacenamiento en caché y memoria considerablemente más sofisticados, núcleos Xe configurados de manera diferente (cada núcleo Xe-HPG presenta 16 motores vectoriales de 256 bits y 16 motores matriciales de 1024 bits, mientras que cada núcleo Xe-HPC tiene ocho motores vectoriales de 512 bits y ocho motores vectoriales de 4096 bits). Además, las GPU Xe-HPC no cuentan con unidades de texturización ni backends de renderizado, por lo que no pueden renderizar gráficos con métodos tradicionales. Mientras tanto, Xe-HPG admite sorprendentemente el trazado de rayos para la visualización de supercomputadoras.
Uno de los ingredientes más importantes de Xe-HPC son las Xe Matrix Extensions (XMX) de Intel que permiten un rendimiento de tensor/matriz bastante formidable de la GPU Max 1550 del centro de datos de Intel (consulte la tabla a continuación): hasta 419 TF32 TFLOPS y hasta 1678 INT8 TOPS, según Intel. Por supuesto, las cifras de rendimiento máximo proporcionadas por los desarrolladores de GPU de cómputo son importantes, pero es posible que no reflejen el rendimiento alcanzable en supercomputadoras del mundo real en aplicaciones del mundo real. Aún así, no podemos dejar de notar que el Ponte Vecchio de gama alta de Intel está significativamente por detrás del H100 de Nvidia en la mayoría de los casos y no ofrece ventajas tangibles sobre el Instinct MI250X de AMD en todos los casos, excepto en FP32 Tensor (TF32).
Centro de datos Max 1550 | AMD instinto MI250X | Nvidia H100 | Nvidia H100 | |
---|---|---|---|---|
Factor de forma | OAM | OAM | SXM | PCIe |
HBM2E | 128 GB a 3,2 TB/s | 128 GB/s a 3,2 TB/s | 80 GB a 3,35 TB/s | 80 GB a 2 TB/s |
Energía | 600W | 560W | 700W | 350W |
Vector pico INT8 | ? | 383 PARTES SUPERIORES | 133,8 TFLOPS | 102,4 TFLOPS |
Vector pico FP16 | 104 TFLOPS | 383 TFLOPS | 134 TFLOPS | 102,4 TFLOPS |
Vector pico BF16 | ? | 383 TFLOPS | 133,8 TFLOPS | 102,4 TFLOPS |
Vector pico FP32 | 52 TFLOPS | 47,9 TFLOPS | 67 TFLOPS | 51 TFLOPS |
Vector pico FP64 | 52 TFLOPS | 47,9 TFLOPS | 34 TFLOPS | 26 TFLOPS |
Tensor pico INT8 | 1678 TOPS | ? | TOPS DE 1979 | 3958 TOPS* | 1513 TOPS | 3026 TOPS* |
Tensor pico FP16 | 839 TFLOPS | ? | 989 TFLOPS | 1979 TFLOPS* | 756 TFLOPS | 1513 TFLOPS* |
Tensor pico BF16 | 839 TFLOPS | ? | 989 TFLOPS | 1979 TFLOPS* | 756 TFLOPS | 1513 TFLOPS* |
Tensor de Pico FP32 | 419 TFLOPS | 95,7 TFLOPS | 989 TFLOPS | 756 TFLOPS |
Tensor de Pico FP64 | – | 95,7 TFLOPS | 67 TFLOPS | 51 TFLOPS |
Mientras tanto, Intel dice que su Data Center GPU Max 1550 es 2,4 veces más rápido que el A100 de Nvidia en el precio de opción de crédito de Riskfuel y ofrece una mejora de rendimiento de 1,5 veces sobre A100 para simulaciones de reactores virtuales NekRS.
Intel planea ofrecer tres productos Ponte Vecchio: la GPU Max 1550 para centro de datos de gama alta en factor de forma OAM con 128 núcleos Xe-HPC, 128 GB de memoria HBM2E y una potencia de diseño térmico nominal de hasta 600 W; la GPU de centro de datos Max 1350 reducida en factor de forma OAM con 112 núcleos Xe-HPC, 96 GB de memoria y un TDP de 450 W; y la GPU Max 1100 para centros de datos de nivel de entrada que viene en un factor de forma FLFH de doble ancho y lleva un procesador con 56 núcleos Xe-HPC, tiene 56 GB de memoria HBM2E y está clasificado para un TDP de 300 W.
Mientras tanto, a sus clientes de supercomputadoras, Intel ofrecerá subsistemas de la serie Max con cuatro módulos OAM en una placa portadora clasificada para un TDP de 1800 W y 2400 W.
Puente Rialto de Intel: Mejorando el máximo
Además de presentar formalmente sus GPU de cómputo GPU Max para centros de datos, Intel también dio un adelanto de su GPU de centros de datos de próxima generación, cuyo nombre en código es Rialto Bridge, que llegará en 2024. Esta GPU de cómputo HPC e IA se basará en Xe- Núcleos HPC, presumiblemente con una arquitectura ligeramente diferente, pero mantendrán la compatibilidad con las aplicaciones basadas en Ponte Vecchi. Desafortunadamente, esa complejidad adicional aumentará el TDP de la GPU de cómputo insignia de próxima generación a 800 W, aunque habrá versiones más simples y que consuman menos energía.
Disponibilidad
Uno de los primeros clientes en obtener los productos Intel Xeon Max e Intel Data Center GPU Max será Argonne National Laboratory, que está construyendo sus >2 supercomputadoras ExaFLOPS basadas en más de 10 000 blades que utilizan CPU Xeon Max y dispositivos Data Center GPU Max (dos CPU y seis GPU por hoja). Además, Intel y Argonne están terminando de construir Sunspot, el sistema de desarrollo de prueba de Aurora que consta de 128 blades de producción que estarán disponibles para las partes interesadas a fines de 2022. La supercomputadora Aurora debería estar en línea en 2023.
Los socios de Intel, entre los fabricantes de servidores, lanzarán máquinas basadas en CPU Xeon Max y dispositivos GPU Max para centros de datos en enero de 2023.