NVIDIA está analizando aún más su GPU Hopper H100 en Hot Chips 34, lo que nos da una idea de lo que la arquitectura Tensor Core de 4.ª generación tiene para ofrecer.
La GPU NVIDIA Kepler GK110 es equivalente a un solo GPC en la GPU Hopper H100, los núcleos tensoriales de cuarta generación son hasta 2 veces más rápidos
Si bien AMD está adoptando el enfoque MCM en sus GPU HPC, NVIDIA decidió quedarse con el diseño monolítico por ahora. Su Hopper H100, como tal, es una de las GPU más grandes fabricadas con el nodo de proceso 4N de TSMC, un diseño optimizado y fabricado exclusivamente para NVIDIA.
La GPU H100 es un chip monstruoso que viene con la última tecnología de 4 nm e incorpora 80 mil millones de transistores junto con la tecnología de memoria HBM3 de última generación. El H100 se basa en la placa PCB PG520 que tiene más de 30 VRM de potencia y un intercalador integral masivo que utiliza la tecnología CoWoS de TSMC para combinar la GPU Hopper H100 con un diseño HBM3 de 6 pilas. Algunas de las principales tecnologías de la GPU Hopper H100 incluyen:
- 132 SM (rendimiento 2x por reloj)
- Núcleos de tensor de cuarta generación
- Grupos de bloques de subprocesos
- GPU de instancias múltiples de segunda generación
- Informática confidencial
- Interfaz PCIe Gen 5.0
- La primera DRAM HBM3 del mundo
- Caché L2 de 50 MB más grande
- NVLink de cuarta generación (900 GB/s de ancho de banda total)
- Nuevo soporte SHARP
- Red NVLink
De las seis pilas, se mantienen dos pilas para garantizar la integridad del rendimiento. Pero el nuevo estándar HBM3 permite capacidades de hasta 80 GB a velocidades de 3 TB/s que son una locura. A modo de comparación, la tarjeta gráfica para juegos más rápida actual, la RTX 3090 Ti, ofrece solo 1 TB/s de ancho de banda y capacidades de VRAM de 24 GB. Aparte de eso, la GPU Hopper H100 también incluye el último formato de datos FP8 y, a través de su nueva conexión SXM, ayuda a acomodar el diseño de potencia de 700 W alrededor del cual está diseñado el chip. También ofrece el doble de las tasas de FMA de FP32 y FP64 y caché L1 de 256 KB (memoria compartida).
Resumen de las especificaciones de la GPU NVIDIA Hopper H100
Entonces, en cuanto a las especificaciones, la GPU NVIDIA Hopper GH100 se compone de un diseño de chip masivo de 144 SM (multiprocesador de transmisión) que se presenta en un total de 8 GPC. Estos GPC tienen un total de 9 TPC que se componen además de 2 unidades SM cada uno. Esto nos da 18 SM por GPC y 144 en la configuración completa de 8 GPC. Cada SM está compuesto por hasta 128 unidades FP32 lo que nos debería dar un total de 18.432 núcleos CUDA.
Las siguientes son algunas de las configuraciones que puede esperar del chip H100:
La implementación completa de la GPU GH100 incluye las siguientes unidades:
- 8 GPC, 72 TPC (9 TPC/GPC), 2 SM/TPC, 144 SM por GPU completa
- 128 FP32 CUDA Cores por SM, 18432 FP32 CUDA Cores por GPU completa
- 4 núcleos tensoriales de cuarta generación por SM, 576 por GPU completa
- 6 pilas HBM3 o HBM2e, 12 controladores de memoria de 512 bits
- 60 MB de caché L2
- NVLink de cuarta generación y PCIe Gen 5
La GPU NVIDIA H100 con factor de forma de placa SXM5 incluye las siguientes unidades:
- 8 GPC, 66 TPC, 2 SM/TPC, 132 SM por GPU
- 128 núcleos FP32 CUDA por SM, 16896 núcleos FP32 CUDA por GPU
- 4 Tensor Cores de cuarta generación por SM, 528 por GPU
- 80 GB HBM3, 5 pilas HBM3, 10 controladores de memoria de 512 bits
- 50 MB de caché L2
- NVLink de cuarta generación y PCIe Gen 5
Este es un aumento de 2.25x sobre la configuración completa de GPU GA100. NVIDIA también está aprovechando más núcleos FP64, FP16 y Tensor dentro de su GPU Hopper, lo que aumentaría enormemente el rendimiento. Y eso va a ser una necesidad para competir con el Ponte Vecchio de Intel, que también se espera que presente 1:1 FP64. NVIDIA afirma que los núcleos Tensor de 4.ª generación en Hopper ofrecen el doble de rendimiento con el mismo reloj.
El siguiente desglose del rendimiento de NVIDIA Hopper H100 muestra que los SM adicionales representan solo un aumento del rendimiento del 20 %. El principal beneficio proviene de los Tensor Cores de cuarta generación y el FP8 calcula la ruta. Una frecuencia más alta también agrega un aumento decente del 30% a la mezcla.
Una comparación interesante que señala el escalado de GPU muestra que un solo GPC en una GPU Hopper H100 es equivalente a una GPU Kepler GK110, un chip HPC insignia de 2012. El Kepler GK110 albergaba un total de 15 SM, mientras que la GPU Hopper H110 incluye 132 SM. e incluso un GPC singular en la GPU Hopper presenta 18 SM, un 20 % más que la totalidad de los SM en el buque insignia de Kepler.
La memoria caché es otro espacio en el que NVIDIA ha prestado mucha atención, llevándola a 48 MB en la GPU Hopper GH100. Este es un aumento del 20 % con respecto a los 50 MB de caché que se incluyen en la GPU Ampere GA100 y 3 veces el tamaño de la GPU insignia Aldebaran MCM de AMD, la MI250X.
Redondeando las cifras de rendimiento, la GPU Hopper GH100 de NVIDIA ofrecerá 4000 TFLOP de FP8, 2000 TFLOP de FP16, 1000 TFLOP de TF32 y 60 TFLOP de FP64 de rendimiento informático. Estas cifras que rompen récords diezman a todos los demás aceleradores de HPC que lo precedieron. A modo de comparación, esto es 3,3 veces más rápido que la propia GPU A100 de NVIDIA y un 28 % más rápido que el Instinct MI250X de AMD en el cómputo FP64. En computación FP16, la GPU H100 es 3 veces más rápida que la A100 y 5,2 veces más rápida que la MI250X, que es literalmente una locura.
La variante PCIe, que es un modelo reducido, se incluyó recientemente en Japón por más de $ 30,000 USD, por lo que uno puede imaginar que la variante SXM con una configuración más robusta costará fácilmente alrededor de $ 50 mil.
Especificaciones de NVIDIA Ampere GA100 GPU Tesla A100:
Tarjeta gráfica NVIDIA Tesla | NVIDIA H100 (SMX5) | NVIDIA H100 (PCIe) | NVIDIA A100 (SXM4) | NVIDIA A100 (PCIe4) | Tesla V100S (PCIe) | Tesla V100 (SXM2) | Tesla P100 (SXM2) | tesla p100 (PCI-Express) |
tesla m40 (PCI-Express) |
tesla k40 (PCI-Express) |
---|---|---|---|---|---|---|---|---|---|---|
GPU | GH100 (Tolva) | GH100 (Tolva) | GA100 (amperios) | GA100 (amperios) | GV100 (Voltaje) | GV100 (Voltaje) | GP100 (Pascales) | GP100 (Pascales) | GM200 (Maxwell) | GK110 (Kepler) |
Nodo de proceso | 4 nm | 4 nm | 7 nm | 7 nm | 12nm | 12nm | 16nm | 16nm | 28nm | 28nm |
transistores | 80 mil millones | 80 mil millones | 54,2 mil millones | 54,2 mil millones | 21.1 mil millones | 21.1 mil millones | 15,3 mil millones | 15,3 mil millones | 8 mil millones | 7.1 mil millones |
Tamaño de matriz de GPU | 814 mm2 | 814 mm2 | 826mm2 | 826mm2 | 815 mm2 | 815 mm2 | 610 mm2 | 610 mm2 | 601 mm2 | 551 mm2 |
SMS | 132 | 114 | 108 | 108 | 80 | 80 | 56 | 56 | 24 | 15 |
TPC | 66 | 57 | 54 | 54 | 40 | 40 | 28 | 28 | 24 | 15 |
Núcleos CUDA FP32 por SM | 128 | 128 | 64 | 64 | 64 | 64 | 64 | 64 | 128 | 192 |
Núcleos CUDA FP64 / SM | 128 | 128 | 32 | 32 | 32 | 32 | 32 | 32 | 4 | 64 |
Núcleos CUDA FP32 | 16896 | 14592 | 6912 | 6912 | 5120 | 5120 | 3584 | 3584 | 3072 | 2880 |
Núcleos CUDA FP64 | 16896 | 14592 | 3456 | 3456 | 2560 | 2560 | 1792 | 1792 | 96 | 960 |
Núcleos tensoriales | 528 | 456 | 432 | 432 | 640 | 640 | N / A | N / A | N / A | N / A |
Unidades de textura | 528 | 456 | 432 | 432 | 320 | 320 | 224 | 224 | 192 | 240 |
Reloj de impulso | Por determinar | Por determinar | 1410 MHz | 1410 MHz | 1601 MHz | 1530 MHz | 1480 MHz | 1329MHz | 1114 MHz | 875 MHz |
TOP (DNN/AI) | 2000 TOP 4000 TOP |
1600 TOP 3200 TOP |
1248 tapas 2496 TOP con escasez |
1248 tapas 2496 TOP con escasez |
130 TOP | 125 TOPS | N / A | N / A | N / A | N / A |
Cómputo FP16 | 2000 TFLOP | 1600 TFLOP | 312 TFLOP 624 TFLOP con escasez |
312 TFLOP 624 TFLOP con escasez |
32,8 TFLOP | 30,4 TFLOP | 21,2 TFLOP | 18,7 TFLOP | N / A | N / A |
Cómputo FP32 | 1000 TFLOP | 800 TFLOP | 156 TFLOP (19,5 TFLOP estándar) |
156 TFLOP (19,5 TFLOP estándar) |
16.4 TFLOP | 15,7 TFLOP | 10,6 TFLOP | 10,0 TFLOP | 6.8 TFLOP | 5.04 TFLOP |
Cómputo FP64 | 60 TFLOP | 48 TFLOP | 19,5 TFLOP (9,7 TFLOP estándar) |
19,5 TFLOP (9,7 TFLOP estándar) |
8.2 TFLOP | 7,80 TFLOP | 5,30 TFLOP | 4.7 TFLOP | 0,2 TFLOP | 1,68 TFLOP |
interfaz de memoria | HBM3 de 5120 bits | HBM2e de 5120 bits | HBM2e de 6144 bits | HBM2e de 6144 bits | HBM2 de 4096 bits | HBM2 de 4096 bits | HBM2 de 4096 bits | HBM2 de 4096 bits | GDDR5 de 384 bits | GDDR5 de 384 bits |
Tamaño de la memoria | Hasta 80 GB HBM3 a 3,0 Gbps | Hasta 80 GB HBM2e a 2,0 Gbps | Hasta 40 GB HBM2 a 1,6 TB/s Hasta 80 GB HBM2 a 1,6 TB/s |
Hasta 40 GB HBM2 a 1,6 TB/s Hasta 80 GB HBM2 a 2,0 TB/s |
16 GB HBM2 a 1134 GB/s | 16 GB HBM2 a 900 GB/s | 16 GB HBM2 a 732 GB/s | 16 GB HBM2 a 732 GB/s 12 GB HBM2 a 549 GB/s |
24 GB GDDR5 a 288 GB/s | 12 GB GDDR5 a 288 GB/s |
Tamaño de caché L2 | 51200 KB | 51200 KB | 40960KB | 40960KB | 6144KB | 6144KB | 4096KB | 4096KB | 3072KB | 1536KB |
TDP | 700W | 350W | 400W | 250W | 250W | 300W | 300W | 250W | 250W | 235W |
Productos mencionados en esta publicación.