{"id":197130,"date":"2022-09-27T19:53:38","date_gmt":"2022-09-27T19:53:38","guid":{"rendered":"https:\/\/magazineoffice.com\/nvidia-supuestamente-esta-trabajando-en-la-tarjeta-grafica-pcie-hopper-h100-con-capacidad-de-memoria-hbm2e-de-120-gb\/"},"modified":"2022-09-27T19:53:40","modified_gmt":"2022-09-27T19:53:40","slug":"nvidia-supuestamente-esta-trabajando-en-la-tarjeta-grafica-pcie-hopper-h100-con-capacidad-de-memoria-hbm2e-de-120-gb","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/nvidia-supuestamente-esta-trabajando-en-la-tarjeta-grafica-pcie-hopper-h100-con-capacidad-de-memoria-hbm2e-de-120-gb\/","title":{"rendered":"NVIDIA supuestamente est\u00e1 trabajando en la tarjeta gr\u00e1fica PCIe Hopper H100 con capacidad de memoria HBM2e de 120 GB"},"content":{"rendered":"


\n<\/p>\n

\n

Supuestamente, NVIDIA est\u00e1 trabajando en una nueva tarjeta gr\u00e1fica basada en GPU Hopper H100 que contar\u00eda con una capacidad de memoria HBM2e de hasta 120 GB.<\/p>\n

Tarjeta gr\u00e1fica PCIe con GPU NVIDIA Hopper H100 con capacidad de memoria HBM2e de 120 GB detectada<\/h2>\n

Hasta ahora, NVIDIA ha anunciado oficialmente dos versiones de la GPU Hopper H100, una placa SXM5 y una variante PCIe. Ambos cuentan con GPU Hopper H100 configuradas de manera diferente y, aunque su capacidad de VRAM es la misma de 80 GB, el primero utiliza el nuevo est\u00e1ndar HBM3, mientras que el segundo utiliza el est\u00e1ndar HBM2e.<\/p>\n

Ahora basado en informaci\u00f3n de s-ss.cc (a trav\u00e9s de MEGAtama\u00f1oGPU<\/a>), NVIDIA podr\u00eda estar trabajando en una nueva versi\u00f3n PCIe de la GPU Hopper H100. La nueva tarjeta gr\u00e1fica no contar\u00e1 con 80 GB HBM2e, pero s\u00ed con 120 GB de memoria HBM2e.<\/p>\n

<\/figure>\n

Seg\u00fan la informaci\u00f3n disponible, la tarjeta gr\u00e1fica Hopper H100 PCIe no solo viene con las seis pilas HBM2e habilitadas para 120 GB de memoria en una interfaz de bus de 6144 bits, sino que tambi\u00e9n viene con la misma configuraci\u00f3n de GPU GH100 que la variante SXM5. Esto es un total de 16 896 n\u00facleos CUDA y un ancho de banda de memoria que supera los 3 TB\/s. El rendimiento de c\u00f3mputo de precisi\u00f3n simple se calific\u00f3 en 30 TFLOP, lo mismo que la variante SXM5.<\/p>\n

Entonces, en cuanto a las especificaciones, la GPU NVIDIA Hopper GH100 se compone de un dise\u00f1o de chip masivo de 144 SM (multiprocesador de transmisi\u00f3n) que se presenta en un total de 8 GPC. Estos GPC tienen un total de 9 TPC que se componen adem\u00e1s de 2 unidades SM cada uno. Esto nos da 18 SM por GPC y 144 en la configuraci\u00f3n completa de 8 GPC. Cada SM est\u00e1 compuesto por hasta 128 unidades FP32 lo que nos deber\u00eda dar un total de 18.432 n\u00facleos CUDA. Las siguientes son algunas de las configuraciones que puede esperar del chip H100:<\/p>\n

La implementaci\u00f3n completa de la GPU GH100 incluye las siguientes unidades:<\/strong><\/p>\n

    \n
  • 8 GPC, 72 TPC (9 TPC\/GPC), 2 SM\/TPC, 144 SM por GPU completa<\/li>\n
  • 128 FP32 CUDA Cores por SM, 18432 FP32 CUDA Cores por GPU completa<\/li>\n
  • 4 n\u00facleos tensoriales de cuarta generaci\u00f3n por SM, 576 por GPU completa<\/li>\n
  • 6 pilas HBM3 o HBM2e, 12 controladores de memoria de 512 bits<\/li>\n
  • 60 MB de cach\u00e9 L2<\/li>\n<\/ul>\n

    La GPU NVIDIA H100 con factor de forma de placa SXM5 incluye las siguientes unidades:<\/strong><\/p>\n

      \n
    • 8 GPC, 66 TPC, 2 SM\/TPC, 132 SM por GPU<\/li>\n
    • 128 n\u00facleos FP32 CUDA por SM, 16896 n\u00facleos FP32 CUDA por GPU<\/li>\n
    • 4 Tensor Cores de cuarta generaci\u00f3n por SM, 528 por GPU<\/li>\n
    • 80 GB HBM3, 5 pilas HBM3, 10 controladores de memoria de 512 bits<\/li>\n
    • 50 MB de cach\u00e9 L2<\/li>\n
    • NVLink de cuarta generaci\u00f3n y PCIe Gen 5<\/li>\n<\/ul>\n
      \"NVIDIA<\/figure>\n

      Ahora se desconoce si se trata de una placa de prueba o de una iteraci\u00f3n futura de la GPU Hopper H100 que se est\u00e1 probando. NVIDIA declar\u00f3 recientemente en GTC 22 que su GPU Hopper ahora estaba en plena producci\u00f3n y que la primera ola de productos se lanzar\u00e1 el pr\u00f3ximo mes. A medida que mejoran los rendimientos, definitivamente podemos ver la tarjeta gr\u00e1fica Hopper H100 PCIe de 120 GB y las variantes SXM5 en el mercado, pero por ahora, 80 GB es lo que obtendr\u00e1 la mayor\u00eda de los clientes.<\/p>\n

      GPU NVIDIA HPC\/IA<\/h2>\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n
      Tarjeta gr\u00e1fica NVIDIA Tesla<\/th>\nNVIDIA H100 (SMX5)<\/th>\nNVIDIA H100 (PCIe)<\/th>\nNVIDIA A100 (SXM4)<\/th>\nNVIDIA A100 (PCIe4)<\/th>\nTesla V100S (PCIe)<\/th>\nTesla V100 (SXM2)<\/th>\nTesla P100 (SXM2)<\/th>\ntesla p100
      (PCI-Express)<\/th>\n
      tesla m40
      (PCI-Express)<\/th>\n
      tesla k40
      (PCI-Express)<\/th>\n<\/tr>\n<\/thead>\n
      GPU<\/td>\nGH100 (Tolva)<\/td>\nGH100 (Tolva)<\/td>\nGA100 (amperios)<\/td>\nGA100 (amperios)<\/td>\nGV100 (Voltaje)<\/td>\nGV100 (Voltaje)<\/td>\nGP100 (Pascales)<\/td>\nGP100 (Pascales)<\/td>\nGM200 (Maxwell)<\/td>\nGK110 (Kepler)<\/td>\n<\/tr>\n
      Nodo de proceso<\/td>\n4 nm<\/td>\n4 nm<\/td>\n7 nm<\/td>\n7 nm<\/td>\n12nm<\/td>\n12nm<\/td>\n16nm<\/td>\n16nm<\/td>\n28nm<\/td>\n28nm<\/td>\n<\/tr>\n
      transistores<\/td>\n80 mil millones<\/td>\n80 mil millones<\/td>\n54,2 mil millones<\/td>\n54,2 mil millones<\/td>\n21.1 mil millones<\/td>\n21.1 mil millones<\/td>\n15,3 mil millones<\/td>\n15,3 mil millones<\/td>\n8 mil millones<\/td>\n7.1 mil millones<\/td>\n<\/tr>\n
      Tama\u00f1o de matriz de GPU<\/td>\n814 mm2<\/td>\n814 mm2<\/td>\n826mm2<\/td>\n826mm2<\/td>\n815 mm2<\/td>\n815 mm2<\/td>\n610 mm2<\/td>\n610 mm2<\/td>\n601 mm2<\/td>\n551 mm2<\/td>\n<\/tr>\n
      SMS<\/td>\n132<\/td>\n114<\/td>\n108<\/td>\n108<\/td>\n80<\/td>\n80<\/td>\n56<\/td>\n56<\/td>\n24<\/td>\n15<\/td>\n<\/tr>\n
      TPC<\/td>\n66<\/td>\n57<\/td>\n54<\/td>\n54<\/td>\n40<\/td>\n40<\/td>\n28<\/td>\n28<\/td>\n24<\/td>\n15<\/td>\n<\/tr>\n
      N\u00facleos CUDA FP32 por SM<\/td>\n128<\/td>\n128<\/td>\n64<\/td>\n64<\/td>\n64<\/td>\n64<\/td>\n64<\/td>\n64<\/td>\n128<\/td>\n192<\/td>\n<\/tr>\n
      N\u00facleos CUDA FP64 \/ SM<\/td>\n128<\/td>\n128<\/td>\n32<\/td>\n32<\/td>\n32<\/td>\n32<\/td>\n32<\/td>\n32<\/td>\n4<\/td>\n64<\/td>\n<\/tr>\n
      N\u00facleos CUDA FP32<\/td>\n16896<\/td>\n14592<\/td>\n6912<\/td>\n6912<\/td>\n5120<\/td>\n5120<\/td>\n3584<\/td>\n3584<\/td>\n3072<\/td>\n2880<\/td>\n<\/tr>\n
      N\u00facleos CUDA FP64<\/td>\n16896<\/td>\n14592<\/td>\n3456<\/td>\n3456<\/td>\n2560<\/td>\n2560<\/td>\n1792<\/td>\n1792<\/td>\n96<\/td>\n960<\/td>\n<\/tr>\n
      N\u00facleos tensoriales<\/td>\n528<\/td>\n456<\/td>\n432<\/td>\n432<\/td>\n640<\/td>\n640<\/td>\nN \/ A<\/td>\nN \/ A<\/td>\nN \/ A<\/td>\nN \/ A<\/td>\n<\/tr>\n
      Unidades de textura<\/td>\n528<\/td>\n456<\/td>\n432<\/td>\n432<\/td>\n320<\/td>\n320<\/td>\n224<\/td>\n224<\/td>\n192<\/td>\n240<\/td>\n<\/tr>\n
      Reloj de impulso<\/td>\nPor determinar<\/td>\nPor determinar<\/td>\n1410 MHz<\/td>\n1410 MHz<\/td>\n1601 MHz<\/td>\n1530 MHz<\/td>\n1480 MHz<\/td>\n1329MHz<\/td>\n1114 MHz<\/td>\n875 MHz<\/td>\n<\/tr>\n
      TOP (DNN\/AI)<\/td>\n2000 TOP
      4000 TOP<\/td>\n
      1600 TOP
      3200 TOP<\/td>\n
      1248 tapas
      2496 TOP con escasez<\/td>\n
      1248 tapas
      2496 TOP con escasez<\/td>\n
      130 TOP<\/td>\n125 TOPS<\/td>\nN \/ A<\/td>\nN \/ A<\/td>\nN \/ A<\/td>\nN \/ A<\/td>\n<\/tr>\n
      C\u00f3mputo FP16<\/td>\n2000 TFLOP<\/td>\n1600 TFLOP<\/td>\n312 TFLOP
      624 TFLOP con escasez<\/td>\n
      312 TFLOP
      624 TFLOP con escasez<\/td>\n
      32,8 TFLOP<\/td>\n30,4 TFLOP<\/td>\n21,2 TFLOP<\/td>\n18,7 TFLOP<\/td>\nN \/ A<\/td>\nN \/ A<\/td>\n<\/tr>\n
      C\u00f3mputo FP32<\/td>\n1000 TFLOP<\/td>\n800 TFLOP<\/td>\n156 TFLOP
      (19,5 TFLOP est\u00e1ndar)<\/td>\n
      156 TFLOP
      (19,5 TFLOP est\u00e1ndar)<\/td>\n
      16.4 TFLOP<\/td>\n15,7 TFLOP<\/td>\n10,6 TFLOP<\/td>\n10,0 TFLOP<\/td>\n6.8 TFLOP<\/td>\n5.04 TFLOP<\/td>\n<\/tr>\n
      C\u00f3mputo FP64<\/td>\n60 TFLOP<\/td>\n48 TFLOP<\/td>\n19,5 TFLOP
      (9,7 TFLOP est\u00e1ndar)<\/td>\n
      19,5 TFLOP
      (9,7 TFLOP est\u00e1ndar)<\/td>\n
      8.2 TFLOP<\/td>\n7,80 TFLOP<\/td>\n5,30 TFLOP<\/td>\n4.7 TFLOP<\/td>\n0,2 TFLOP<\/td>\n1,68 TFLOP<\/td>\n<\/tr>\n
      interfaz de memoria<\/td>\nHBM3 de 5120 bits<\/td>\nHBM2e de 5120 bits<\/td>\nHBM2e de 6144 bits<\/td>\nHBM2e de 6144 bits<\/td>\nHBM2 de 4096 bits<\/td>\nHBM2 de 4096 bits<\/td>\nHBM2 de 4096 bits<\/td>\nHBM2 de 4096 bits<\/td>\nGDDR5 de 384 bits<\/td>\nGDDR5 de 384 bits<\/td>\n<\/tr>\n
      Tama\u00f1o de la memoria<\/td>\nHasta 80 GB HBM3 a 3,0 Gbps<\/td>\nHasta 80 GB HBM2e a 2,0 Gbps<\/td>\nHasta 40 GB HBM2 a 1,6 TB\/s
      Hasta 80 GB HBM2 a 1,6 TB\/s<\/td>\n
      Hasta 40 GB HBM2 a 1,6 TB\/s
      Hasta 80 GB HBM2 a 2,0 TB\/s<\/td>\n
      16 GB HBM2 a 1134 GB\/s<\/td>\n16 GB HBM2 a 900 GB\/s<\/td>\n16 GB HBM2 a 732 GB\/s<\/td>\n16 GB HBM2 a 732 GB\/s
      12 GB HBM2 a 549 GB\/s<\/td>\n
      24 GB GDDR5 a 288 GB\/s<\/td>\n12 GB GDDR5 a 288 GB\/s<\/td>\n<\/tr>\n
      Tama\u00f1o de cach\u00e9 L2<\/td>\n51200 KB<\/td>\n51200 KB<\/td>\n40960KB<\/td>\n40960KB<\/td>\n6144KB<\/td>\n6144KB<\/td>\n4096KB<\/td>\n4096KB<\/td>\n3072KB<\/td>\n1536KB<\/td>\n<\/tr>\n
      TDP<\/td>\n700W<\/td>\n350W<\/td>\n400W<\/td>\n250W<\/td>\n250W<\/td>\n300W<\/td>\n300W<\/td>\n250W<\/td>\n250W<\/td>\n235W<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n

      <\/p><\/div>\n