NVIDIA ha anunciado su nueva GPU H200 Hopper que ahora viene equipada con la memoria HBM3e más rápida del mundo de Micron. Además de las nuevas plataformas de IA, NVIDIA también anunció una importante victoria en supercomputadoras con sus superchips Grace Hopper que ahora impulsan la supercomputadora Exaflop Jupiter.
NVIDIA continúa generando impulso en la IA con GPU Hopper mejoradas, superchips Grace Hopper y victorias en supercomputadoras
Las GPU H100 de NVIDIA son los chips de IA más demandados en la industria hasta el momento, pero el equipo ecológico quiere ofrecer aún más rendimiento a sus clientes. Ingrese HGX H200, la última plataforma informática y HPC para IA que funciona con GPU H200 Tensor Core. Estas GPU cuentan con las últimas optimizaciones de Hopper tanto en hardware como en software y, al mismo tiempo, ofrecen la solución de memoria más rápida del mundo hasta la fecha.
Las GPU NVIDIA H200 están equipadas con la solución HBM3e de Micron con capacidades de memoria de hasta 141 GB y hasta 4,8 TB/s de ancho de banda, que es 2,4 veces más ancho de banda y el doble de capacidad en comparación con la NVIDIA A100. Esta nueva solución de memoria permite a NVIDIA casi duplicar el rendimiento de inferencia de IA en comparación con sus GPU H100 en aplicaciones como Llama 2 (LLM de 70 mil millones de parámetros). Los avances recientes en la suite TensorRT-LLM también han dado como resultado enormes mejoras de rendimiento en una gran cantidad de aplicaciones de IA.
En términos de soluciones, las GPU NVIDIA H200 estarán disponibles en una amplia gama de servidores HGX H200 con configuraciones de GPU de 4 y 8 vías. Una configuración de 8 vías de GPU H200 en un sistema HGX proporcionará hasta 32 PetaFLOP de rendimiento informático FP8 y 1,1 TB de capacidad de memoria.
GPU NVIDIA H200: supercargada con memoria HBM3e, disponible en el segundo trimestre de 2024
Las GPU también serán compatibles con los sistemas HGX H100 existentes, lo que facilitará a los clientes la actualización de sus plataformas. Los socios de NVIDIA como ASUS, ASRock Rack, Dell, Eviden, GIGABYTE, Hewlett Packard Enterprise, Ingrasys, Lenovo, QCT, Wiwynn, Supermicro y Wistron ofrecerán soluciones actualizadas cuando las GPU H200 estén disponibles en el segundo trimestre de 2024.
Los superchips NVIDIA Grace Hopper alimentan la supercomputadora Júpiter de 1 exaflop
Además del anuncio de la GPU H200, NVIDIA también ha anunciado una importante supercomputadora impulsada por sus Grace Hopper Superchips (GH200). La supercomputadora se conoce como Júpiter y estará ubicada en las instalaciones de Forschungszentrum Jülich en Alemania como parte de la Empresa Conjunta EuroHPC y será contratada por Eviden y ParTec. La supercomputadora se utilizará para ciencia de materiales, investigación climática, descubrimiento de fármacos y más. Esta es también la segunda supercomputadora que NVIDIA anunció en noviembre, siendo la anterior la Isambard-AI, que ofrece hasta 21 exaflops de rendimiento de IA.
En términos de configuración, la supercomputadora Júpiter se basa en el BullSequana XH3000 de Eviden, que utiliza una arquitectura totalmente refrigerada por líquido. Cuenta con un total de 24.000 Superchips NVIDIA GH200 Grace Hopper que están interconectados mediante Quantum-2 Infiniband de la compañía. Teniendo en cuenta que cada CPU Grace incluye 288 núcleos Neoverse, estamos viendo casi 7 millones de núcleos ARM solo en el lado de la CPU para Júpiter (6,912,000 para ser exactos).
Las métricas de rendimiento incluyen 90 exaflops de entrenamiento de IA y 1 exaflop de computación de alto rendimiento. Se espera que la supercomputadora se instale en 2024. En general, estas son algunas actualizaciones importantes de NVIDIA mientras continúa liderando el mundo de la inteligencia artificial con sus poderosas tecnologías de hardware y software.
GPU NVIDIA HPC/IA
Tarjeta gráfica NVIDIA Tesla | Nvidia H200 (SXM5) | NVIDIA H100 (SMX5) | Nvidia H100 (PCIe) | Nvidia A100 (SXM4) | Nvidia A100 (PCIe4) | Tesla V100S (PCIe) | Tesla V100 (SXM2) | Tesla P100 (SXM2) | Tesla P100 (PCI-Express) |
Tesla M40 (PCI-Express) |
Tesla K40 (PCI-Express) |
---|---|---|---|---|---|---|---|---|---|---|---|
GPU | GH200 (Tolva) | GH100 (Tolva) | GH100 (Tolva) | GA100 (amperios) | GA100 (amperios) | GV100 (Volta) | GV100 (Volta) | GP100 (Pascales) | GP100 (Pascales) | GM200 (Maxwell) | GK110 (Kepler) |
Nodo de proceso | 4nm | 4nm | 4nm | 7nm | 7nm | 12nm | 12nm | 16nm | 16nm | 28nm | 28nm |
Transistores | 80 mil millones | 80 mil millones | 80 mil millones | 54,2 mil millones | 54,2 mil millones | 21,1 mil millones | 21,1 mil millones | 15,3 mil millones | 15,3 mil millones | 8 mil millones | 7,1 mil millones |
Tamaño de matriz de GPU | 814mm2 | 814mm2 | 814mm2 | 826mm2 | 826mm2 | 815mm2 | 815mm2 | 610mm2 | 610mm2 | 601mm2 | 551mm2 |
SMS | 132 | 132 | 114 | 108 | 108 | 80 | 80 | 56 | 56 | 24 | 15 |
TPC | 66 | 66 | 57 | 54 | 54 | 40 | 40 | 28 | 28 | 24 | 15 |
Tamaño de caché L2 | 51200KB | 51200KB | 51200KB | 40960KB | 40960KB | 6144KB | 6144KB | 4096KB | 4096KB | 3072 KB | 1536KB |
Núcleos CUDA FP32 por SM | 128 | 128 | 128 | 64 | 64 | 64 | 64 | 64 | 64 | 128 | 192 |
Núcleos CUDA FP64 / SM | 128 | 128 | 128 | 32 | 32 | 32 | 32 | 32 | 32 | 4 | 64 |
Núcleos CUDA FP32 | 16896 | 16896 | 14592 | 6912 | 6912 | 5120 | 5120 | 3584 | 3584 | 3072 | 2880 |
Núcleos CUDA FP64 | 16896 | 16896 | 14592 | 3456 | 3456 | 2560 | 2560 | 1792 | 1792 | 96 | 960 |
Núcleos tensores | 528 | 528 | 456 | 432 | 432 | 640 | 640 | N / A | N / A | N / A | N / A |
Unidades de textura | 528 | 528 | 456 | 432 | 432 | 320 | 320 | 224 | 224 | 192 | 240 |
Reloj de impulso | ~1850MHz | ~1850MHz | ~1650MHz | 1410MHz | 1410MHz | 1601MHz | 1530MHz | 1480MHz | 1329MHz | 1114MHz | 875MHz |
TOP (DNN/AI) | 3958 TOP | 3958 TOP | 3200 TOP | 2496 TOP | 2496 TOP | 130 TOP | 125 mejores | N / A | N / A | N / A | N / A |
Computación FP16 | TFLOP de 1979 | TFLOP de 1979 | 1600 TFLOP | 624 TFLOP | 624 TFLOP | 32,8 TFLOP | 30.4 TFLOP | 21.2 TFLOP | 18,7 TFLOP | N / A | N / A |
Computación FP32 | 67 TFLOP | 67 TFLOP | 800 TFLOP | 156 TFLOP (Estándar 19,5 TFLOP) |
156 TFLOP (Estándar 19,5 TFLOP) |
16.4 TFLOP | 15,7 TFLOP | 10.6 TFLOP | 10,0 TFLOP | 6.8 TFLOP | 5.04 TFLOP |
Computación FP64 | 34 TFLOP | 34 TFLOP | 48 TFLOP | 19,5 TFLOP (Estándar 9,7 TFLOP) |
19,5 TFLOP (Estándar 9,7 TFLOP) |
8.2 TFLOP | 7,80 TFLOP | 5,30 TFLOP | 4.7 TFLOP | 0,2 TFLOP | 1,68 TFLOP |
interfaz de memoria | HBM3e de 5120 bits | HBM3 de 5120 bits | HBM2e de 5120 bits | HBM2e de 6144 bits | HBM2e de 6144 bits | HBM2 de 4096 bits | HBM2 de 4096 bits | HBM2 de 4096 bits | HBM2 de 4096 bits | GDDR5 de 384 bits | GDDR5 de 384 bits |
Tamaño de la memoria | Hasta 141 GB HBM3e a 6,5 Gbps | Hasta 80 GB HBM3 a 5,2 Gbps | Hasta 80 GB HBM2e a 2,0 Gbps | Hasta 40 GB HBM2 a 1,6 TB/s Hasta 80 GB HBM2 a 1,6 TB/s |
Hasta 40 GB HBM2 a 1,6 TB/s Hasta 80 GB HBM2 a 2,0 TB/s |
16 GB HBM2 a 1134 GB/s | 16 GB HBM2 a 900 GB/s | 16 GB HBM2 a 732 GB/s | 16 GB HBM2 a 732 GB/s 12 GB HBM2 a 549 GB/s |
24 GB GDDR5 a 288 GB/s | 12 GB GDDR5 a 288 GB/s |
TDP | 700W | 700W | 350W | 400W | 250W | 250W | 300W | 300W | 250W | 250W | 235W |