NVIDIA supuestamente está trabajando en la tarjeta gráfica PCIe Hopper H100 con capacidad de memoria HBM2e de 120 GB


Supuestamente, NVIDIA está trabajando en una nueva tarjeta gráfica basada en GPU Hopper H100 que contaría con una capacidad de memoria HBM2e de hasta 120 GB.

Tarjeta gráfica PCIe con GPU NVIDIA Hopper H100 con capacidad de memoria HBM2e de 120 GB detectada

Hasta ahora, NVIDIA ha anunciado oficialmente dos versiones de la GPU Hopper H100, una placa SXM5 y una variante PCIe. Ambos cuentan con GPU Hopper H100 configuradas de manera diferente y, aunque su capacidad de VRAM es la misma de 80 GB, el primero utiliza el nuevo estándar HBM3, mientras que el segundo utiliza el estándar HBM2e.

Ahora basado en información de s-ss.cc (a través de MEGAtamañoGPU), NVIDIA podría estar trabajando en una nueva versión PCIe de la GPU Hopper H100. La nueva tarjeta gráfica no contará con 80 GB HBM2e, pero sí con 120 GB de memoria HBM2e.

Según la información disponible, la tarjeta gráfica Hopper H100 PCIe no solo viene con las seis pilas HBM2e habilitadas para 120 GB de memoria en una interfaz de bus de 6144 bits, sino que también viene con la misma configuración de GPU GH100 que la variante SXM5. Esto es un total de 16 896 núcleos CUDA y un ancho de banda de memoria que supera los 3 TB/s. El rendimiento de cómputo de precisión simple se calificó en 30 TFLOP, lo mismo que la variante SXM5.

Entonces, en cuanto a las especificaciones, la GPU NVIDIA Hopper GH100 se compone de un diseño de chip masivo de 144 SM (multiprocesador de transmisión) que se presenta en un total de 8 GPC. Estos GPC tienen un total de 9 TPC que se componen además de 2 unidades SM cada uno. Esto nos da 18 SM por GPC y 144 en la configuración completa de 8 GPC. Cada SM está compuesto por hasta 128 unidades FP32 lo que nos debería dar un total de 18.432 núcleos CUDA. Las siguientes son algunas de las configuraciones que puede esperar del chip H100:

La implementación completa de la GPU GH100 incluye las siguientes unidades:

  • 8 GPC, 72 TPC (9 TPC/GPC), 2 SM/TPC, 144 SM por GPU completa
  • 128 FP32 CUDA Cores por SM, 18432 FP32 CUDA Cores por GPU completa
  • 4 núcleos tensoriales de cuarta generación por SM, 576 por GPU completa
  • 6 pilas HBM3 o HBM2e, 12 controladores de memoria de 512 bits
  • 60 MB de caché L2

La GPU NVIDIA H100 con factor de forma de placa SXM5 incluye las siguientes unidades:

  • 8 GPC, 66 TPC, 2 SM/TPC, 132 SM por GPU
  • 128 núcleos FP32 CUDA por SM, 16896 núcleos FP32 CUDA por GPU
  • 4 Tensor Cores de cuarta generación por SM, 528 por GPU
  • 80 GB HBM3, 5 pilas HBM3, 10 controladores de memoria de 512 bits
  • 50 MB de caché L2
  • NVLink de cuarta generación y PCIe Gen 5

Ahora se desconoce si se trata de una placa de prueba o de una iteración futura de la GPU Hopper H100 que se está probando. NVIDIA declaró recientemente en GTC 22 que su GPU Hopper ahora estaba en plena producción y que la primera ola de productos se lanzará el próximo mes. A medida que mejoran los rendimientos, definitivamente podemos ver la tarjeta gráfica Hopper H100 PCIe de 120 GB y las variantes SXM5 en el mercado, pero por ahora, 80 GB es lo que obtendrá la mayoría de los clientes.

GPU NVIDIA HPC/IA

Tarjeta gráfica NVIDIA Tesla NVIDIA H100 (SMX5) NVIDIA H100 (PCIe) NVIDIA A100 (SXM4) NVIDIA A100 (PCIe4) Tesla V100S (PCIe) Tesla V100 (SXM2) Tesla P100 (SXM2) tesla p100
(PCI-Express)
tesla m40
(PCI-Express)
tesla k40
(PCI-Express)
GPU GH100 (Tolva) GH100 (Tolva) GA100 (amperios) GA100 (amperios) GV100 (Voltaje) GV100 (Voltaje) GP100 (Pascales) GP100 (Pascales) GM200 (Maxwell) GK110 (Kepler)
Nodo de proceso 4 nm 4 nm 7 nm 7 nm 12nm 12nm 16nm 16nm 28nm 28nm
transistores 80 mil millones 80 mil millones 54,2 mil millones 54,2 mil millones 21.1 mil millones 21.1 mil millones 15,3 mil millones 15,3 mil millones 8 mil millones 7.1 mil millones
Tamaño de matriz de GPU 814 mm2 814 mm2 826mm2 826mm2 815 mm2 815 mm2 610 mm2 610 mm2 601 mm2 551 mm2
SMS 132 114 108 108 80 80 56 56 24 15
TPC 66 57 54 54 40 40 28 28 24 15
Núcleos CUDA FP32 por SM 128 128 64 64 64 64 64 64 128 192
Núcleos CUDA FP64 / SM 128 128 32 32 32 32 32 32 4 64
Núcleos CUDA FP32 16896 14592 6912 6912 5120 5120 3584 3584 3072 2880
Núcleos CUDA FP64 16896 14592 3456 3456 2560 2560 1792 1792 96 960
Núcleos tensoriales 528 456 432 432 640 640 N / A N / A N / A N / A
Unidades de textura 528 456 432 432 320 320 224 224 192 240
Reloj de impulso Por determinar Por determinar 1410 MHz 1410 MHz 1601 MHz 1530 MHz 1480 MHz 1329MHz 1114 MHz 875 MHz
TOP (DNN/AI) 2000 TOP
4000 TOP
1600 TOP
3200 TOP
1248 tapas
2496 TOP con escasez
1248 tapas
2496 TOP con escasez
130 TOP 125 TOPS N / A N / A N / A N / A
Cómputo FP16 2000 TFLOP 1600 TFLOP 312 TFLOP
624 TFLOP con escasez
312 TFLOP
624 TFLOP con escasez
32,8 TFLOP 30,4 TFLOP 21,2 TFLOP 18,7 TFLOP N / A N / A
Cómputo FP32 1000 TFLOP 800 TFLOP 156 TFLOP
(19,5 TFLOP estándar)
156 TFLOP
(19,5 TFLOP estándar)
16.4 TFLOP 15,7 TFLOP 10,6 TFLOP 10,0 TFLOP 6.8 TFLOP 5.04 TFLOP
Cómputo FP64 60 TFLOP 48 TFLOP 19,5 TFLOP
(9,7 TFLOP estándar)
19,5 TFLOP
(9,7 TFLOP estándar)
8.2 TFLOP 7,80 TFLOP 5,30 TFLOP 4.7 TFLOP 0,2 TFLOP 1,68 TFLOP
interfaz de memoria HBM3 de 5120 bits HBM2e de 5120 bits HBM2e de 6144 bits HBM2e de 6144 bits HBM2 de 4096 bits HBM2 de 4096 bits HBM2 de 4096 bits HBM2 de 4096 bits GDDR5 de 384 bits GDDR5 de 384 bits
Tamaño de la memoria Hasta 80 GB HBM3 a 3,0 Gbps Hasta 80 GB HBM2e a 2,0 Gbps Hasta 40 GB HBM2 a 1,6 TB/s
Hasta 80 GB HBM2 a 1,6 TB/s
Hasta 40 GB HBM2 a 1,6 TB/s
Hasta 80 GB HBM2 a 2,0 TB/s
16 GB HBM2 a 1134 GB/s 16 GB HBM2 a 900 GB/s 16 GB HBM2 a 732 GB/s 16 GB HBM2 a 732 GB/s
12 GB HBM2 a 549 GB/s
24 GB GDDR5 a 288 GB/s 12 GB GDDR5 a 288 GB/s
Tamaño de caché L2 51200 KB 51200 KB 40960KB 40960KB 6144KB 6144KB 4096KB 4096KB 3072KB 1536KB
TDP 700W 350W 400W 250W 250W 300W 300W 250W 250W 235W





Source link-29