{"id":761331,"date":"2023-08-07T09:13:43","date_gmt":"2023-08-07T09:13:43","guid":{"rendered":"https:\/\/magazineoffice.com\/gpu-h100-de-nvidia-y-the-ai-frenzy-un-resumen-de-la-situacion-actual\/"},"modified":"2023-08-07T09:14:02","modified_gmt":"2023-08-07T09:14:02","slug":"gpu-h100-de-nvidia-y-the-ai-frenzy-un-resumen-de-la-situacion-actual","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/gpu-h100-de-nvidia-y-the-ai-frenzy-un-resumen-de-la-situacion-actual\/","title":{"rendered":"GPU H100 de NVIDIA y The AI \u200b\u200bFrenzy; un resumen de la situaci\u00f3n actual"},"content":{"rendered":"
\n<\/p>\n
Todos somos muy conscientes de NVIDIA y la \u00abmina de oro\u00bb de la IA que recientemente ha conquistado a todos. En medio de todo, se encuentran las GPU H100 AI de Team Green, que son simplemente la pieza de hardware para IA m\u00e1s buscada en este momento y todos intentan tener una para satisfacer sus necesidades de IA.<\/p>\n
Este art\u00edculo no es particularmente nuevo, pero destaca a los lectores sobre la situaci\u00f3n actual de la industria de la IA y c\u00f3mo las empresas est\u00e1n girando en torno a las GPU H100 para su \u00abfuturo\u00bb.<\/p>\n
Antes de entrar en el meollo del art\u00edculo, dar un resumen se convierte en una necesidad. Entonces, a principios de 2022, todo iba bien con los desarrollos habituales. Sin embargo, con la llegada de noviembre, surgi\u00f3 una aplicaci\u00f3n revolucionaria llamada \u00abChatGPT\u00bb, que sent\u00f3 las bases del bombo de la IA. Si bien no podemos categorizar a \u00abChatGPT\u00bb como el fundador del auge de la IA, ciertamente podemos decir que actu\u00f3 como un catalizador. Con \u00e9l surgieron competidores como Microsoft y Google, que se vieron obligados a participar en una carrera de IA para lanzar aplicaciones de IA generativa.<\/p>\n
Podr\u00edas decir, \u00bfd\u00f3nde entra NVIDIA aqu\u00ed? La columna vertebral de la IA generativa implica largos per\u00edodos de entrenamiento LLM (Modelo de lenguaje grande), y las GPU de IA de NVIDIA entran en juego aqu\u00ed. No vamos a entrar en especificaciones t\u00e9cnicas y detalles f\u00e1cticos, ya que eso hace que las cosas sean aburridas y no divertidas de leer. Sin embargo, si desea conocer los detalles, presentamos una tabla a continuaci\u00f3n, que destaca cada lanzamiento de GPU AI de NVIDIA, que se remonta a los modelos Tesla.<\/p>\n
Tarjeta gr\u00e1fica NVIDIA Tesla<\/th>\n | NVIDIA H100 (SMX5)<\/th>\n | NVIDIA H100 (PCIe)<\/th>\n | NVIDIA A100 (SXM4)<\/th>\n | NVIDIA A100 (PCIe4)<\/th>\n | Tesla V100S (PCIe)<\/th>\n | Tesla V100 (SXM2)<\/th>\n | Tesla P100 (SXM2)<\/th>\n | tesla p100 (PCI-Express)<\/th>\n | tesla m40 (PCI-Express)<\/th>\n | tesla k40 (PCI-Express)<\/th>\n<\/tr>\n<\/thead>\n |
---|---|---|---|---|---|---|---|---|---|---|
GPU<\/td>\n | GH100 (Tolva)<\/td>\n | GH100 (Tolva)<\/td>\n | GA100 (amperios)<\/td>\n | GA100 (amperios)<\/td>\n | GV100 (Voltaje)<\/td>\n | GV100 (Voltaje)<\/td>\n | GP100 (Pascales)<\/td>\n | GP100 (Pascales)<\/td>\n | GM200 (Maxwell)<\/td>\n | GK110 (Kepler)<\/td>\n<\/tr>\n |
Nodo de proceso<\/td>\n | 4 nm<\/td>\n | 4 nm<\/td>\n | 7 nm<\/td>\n | 7 nm<\/td>\n | 12nm<\/td>\n | 12nm<\/td>\n | 16nm<\/td>\n | 16nm<\/td>\n | 28nm<\/td>\n | 28nm<\/td>\n<\/tr>\n |
transistores<\/td>\n | 80 mil millones<\/td>\n | 80 mil millones<\/td>\n | 54,2 mil millones<\/td>\n | 54,2 mil millones<\/td>\n | 21.1 mil millones<\/td>\n | 21.1 mil millones<\/td>\n | 15,3 mil millones<\/td>\n | 15,3 mil millones<\/td>\n | 8 mil millones<\/td>\n | 7.1 mil millones<\/td>\n<\/tr>\n |
Tama\u00f1o de matriz de GPU<\/td>\n | 814 mm2<\/td>\n | 814 mm2<\/td>\n | 826mm2<\/td>\n | 826mm2<\/td>\n | 815 mm2<\/td>\n | 815 mm2<\/td>\n | 610 mm2<\/td>\n | 610 mm2<\/td>\n | 601 mm2<\/td>\n | 551 mm2<\/td>\n<\/tr>\n |
SMS<\/td>\n | 132<\/td>\n | 114<\/td>\n | 108<\/td>\n | 108<\/td>\n | 80<\/td>\n | 80<\/td>\n | 56<\/td>\n | 56<\/td>\n | 24<\/td>\n | 15<\/td>\n<\/tr>\n |
TPC<\/td>\n | 66<\/td>\n | 57<\/td>\n | 54<\/td>\n | 54<\/td>\n | 40<\/td>\n | 40<\/td>\n | 28<\/td>\n | 28<\/td>\n | 24<\/td>\n | 15<\/td>\n<\/tr>\n |
N\u00facleos CUDA FP32 por SM<\/td>\n | 128<\/td>\n | 128<\/td>\n | 64<\/td>\n | 64<\/td>\n | 64<\/td>\n | 64<\/td>\n | 64<\/td>\n | 64<\/td>\n | 128<\/td>\n | 192<\/td>\n<\/tr>\n |
N\u00facleos CUDA FP64 \/ SM<\/td>\n | 128<\/td>\n | 128<\/td>\n | 32<\/td>\n | 32<\/td>\n | 32<\/td>\n | 32<\/td>\n | 32<\/td>\n | 32<\/td>\n | 4<\/td>\n | 64<\/td>\n<\/tr>\n |
N\u00facleos CUDA FP32<\/td>\n | 16896<\/td>\n | 14592<\/td>\n | 6912<\/td>\n | 6912<\/td>\n | 5120<\/td>\n | 5120<\/td>\n | 3584<\/td>\n | 3584<\/td>\n | 3072<\/td>\n | 2880<\/td>\n<\/tr>\n |
N\u00facleos CUDA FP64<\/td>\n | 16896<\/td>\n | 14592<\/td>\n | 3456<\/td>\n | 3456<\/td>\n | 2560<\/td>\n | 2560<\/td>\n | 1792<\/td>\n | 1792<\/td>\n | 96<\/td>\n | 960<\/td>\n<\/tr>\n |
N\u00facleos tensoriales<\/td>\n | 528<\/td>\n | 456<\/td>\n | 432<\/td>\n | 432<\/td>\n | 640<\/td>\n | 640<\/td>\n | N \/ A<\/td>\n | N \/ A<\/td>\n | N \/ A<\/td>\n | N \/ A<\/td>\n<\/tr>\n |
Unidades de textura<\/td>\n | 528<\/td>\n | 456<\/td>\n | 432<\/td>\n | 432<\/td>\n | 320<\/td>\n | 320<\/td>\n | 224<\/td>\n | 224<\/td>\n | 192<\/td>\n | 240<\/td>\n<\/tr>\n |
Reloj de impulso<\/td>\n | Por determinar<\/td>\n | Por determinar<\/td>\n | 1410 MHz<\/td>\n | 1410 MHz<\/td>\n | 1601 MHz<\/td>\n | 1530 MHz<\/td>\n | 1480 MHz<\/td>\n | 1329MHz<\/td>\n | 1114 MHz<\/td>\n | 875 MHz<\/td>\n<\/tr>\n |
TOP (DNN\/AI)<\/td>\n | 3958 tops<\/td>\n | 3200 TOP<\/td>\n | 1248 tapas 2496 TOP con escasez<\/td>\n | 1248 tapas 2496 TOP con escasez<\/td>\n | 130 TOP<\/td>\n | 125 TOPS<\/td>\n | N \/ A<\/td>\n | N \/ A<\/td>\n | N \/ A<\/td>\n | N \/ A<\/td>\n<\/tr>\n |
C\u00f3mputo FP16<\/td>\n | 1979 TFLOP<\/td>\n | 1600 TFLOP<\/td>\n | 312 TFLOP 624 TFLOP con escasez<\/td>\n | 312 TFLOP 624 TFLOP con escasez<\/td>\n | 32,8 TFLOP<\/td>\n | 30,4 TFLOP<\/td>\n | 21,2 TFLOP<\/td>\n | 18,7 TFLOP<\/td>\n | N \/ A<\/td>\n | N \/ A<\/td>\n<\/tr>\n |
C\u00f3mputo FP32<\/td>\n | 67 TFLOP<\/td>\n | 800 TFLOP<\/td>\n | 156 TFLOP (19,5 TFLOP est\u00e1ndar)<\/td>\n | 156 TFLOP (19,5 TFLOP est\u00e1ndar)<\/td>\n | 16.4 TFLOP<\/td>\n | 15,7 TFLOP<\/td>\n | 10,6 TFLOP<\/td>\n | 10,0 TFLOP<\/td>\n | 6.8 TFLOP<\/td>\n | 5.04 TFLOP<\/td>\n<\/tr>\n |
C\u00f3mputo FP64<\/td>\n | 34 TFLOP<\/td>\n | 48 TFLOP<\/td>\n | 19,5 TFLOP (9,7 TFLOP est\u00e1ndar)<\/td>\n | 19,5 TFLOP (9,7 TFLOP est\u00e1ndar)<\/td>\n | 8.2 TFLOP<\/td>\n | 7,80 TFLOP<\/td>\n | 5,30 TFLOP<\/td>\n | 4.7 TFLOP<\/td>\n | 0,2 TFLOP<\/td>\n | 1,68 TFLOP<\/td>\n<\/tr>\n |
interfaz de memoria<\/td>\n | HBM3 de 5120 bits<\/td>\n | HBM2e de 5120 bits<\/td>\n | HBM2e de 6144 bits<\/td>\n | HBM2e de 6144 bits<\/td>\n | HBM2 de 4096 bits<\/td>\n | HBM2 de 4096 bits<\/td>\n | HBM2 de 4096 bits<\/td>\n | HBM2 de 4096 bits<\/td>\n | GDDR5 de 384 bits<\/td>\n | GDDR5 de 384 bits<\/td>\n<\/tr>\n |
Tama\u00f1o de la memoria<\/td>\n | Hasta 80 GB HBM3 a 3,0 Gbps<\/td>\n | Hasta 80 GB HBM2e a 2,0 Gbps<\/td>\n | Hasta 40 GB HBM2 a 1,6 TB\/s Hasta 80 GB HBM2 a 1,6 TB\/s<\/td>\n | Hasta 40 GB HBM2 a 1,6 TB\/s Hasta 80 GB HBM2 a 2,0 TB\/s<\/td>\n | 16 GB HBM2 a 1134 GB\/s<\/td>\n | 16 GB HBM2 a 900 GB\/s<\/td>\n | 16 GB HBM2 a 732 GB\/s<\/td>\n | 16 GB HBM2 a 732 GB\/s 12 GB HBM2 a 549 GB\/s<\/td>\n | 24 GB GDDR5 a 288 GB\/s<\/td>\n | 12 GB GDDR5 a 288 GB\/s<\/td>\n<\/tr>\n |
Tama\u00f1o de cach\u00e9 L2<\/td>\n | 51200 KB<\/td>\n | 51200 KB<\/td>\n | 40960KB<\/td>\n | 40960KB<\/td>\n | 6144KB<\/td>\n | 6144KB<\/td>\n | 4096KB<\/td>\n | 4096KB<\/td>\n | 3072KB<\/td>\n | 1536KB<\/td>\n<\/tr>\n |
TDP<\/td>\n | 700W<\/td>\n | 350W<\/td>\n | 400W<\/td>\n | 250W<\/td>\n | 250W<\/td>\n | 300W<\/td>\n | 300W<\/td>\n | 250W<\/td>\n | 250W<\/td>\n | 235W<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n <\/p>\n La pregunta a\u00fan no se responde aqu\u00ed, \u00bfpor qu\u00e9 los H100? Bueno, estamos llegando all\u00ed. El H100 de NVIDIA es la oferta de gama m\u00e1s alta de la empresa y proporciona inmensas capacidades inform\u00e1ticas. Se podr\u00eda argumentar que el aumento en el rendimiento genera costos m\u00e1s altos, pero las empresas tienden a ordenar grandes vol\u00famenes, y el \u00abrendimiento por vatio\u00bb es la prioridad aqu\u00ed. En comparaci\u00f3n con el A100, el Hopper \u00abH100\u00bb ofrece 3,5 veces m\u00e1s inferencia de 16 bits y 2,3 veces m\u00e1s rendimiento de entrenamiento de 16 bits, lo que lo convierte en la elecci\u00f3n obvia.<\/p>\n |