GPU H100 de NVIDIA y The AI ​​Frenzy; un resumen de la situación actual


Todos somos muy conscientes de NVIDIA y la «mina de oro» de la IA que recientemente ha conquistado a todos. En medio de todo, se encuentran las GPU H100 AI de Team Green, que son simplemente la pieza de hardware para IA más buscada en este momento y todos intentan tener una para satisfacer sus necesidades de IA.

NVIDIA H100 GPU es el mejor chip para IA en este momento y todos quieren más de esos

Este artículo no es particularmente nuevo, pero destaca a los lectores sobre la situación actual de la industria de la IA y cómo las empresas están girando en torno a las GPU H100 para su «futuro».

Antes de entrar en el meollo del artículo, dar un resumen se convierte en una necesidad. Entonces, a principios de 2022, todo iba bien con los desarrollos habituales. Sin embargo, con la llegada de noviembre, surgió una aplicación revolucionaria llamada «ChatGPT», que sentó las bases del bombo de la IA. Si bien no podemos categorizar a «ChatGPT» como el fundador del auge de la IA, ciertamente podemos decir que actuó como un catalizador. Con él surgieron competidores como Microsoft y Google, que se vieron obligados a participar en una carrera de IA para lanzar aplicaciones de IA generativa.

Podrías decir, ¿dónde entra NVIDIA aquí? La columna vertebral de la IA generativa implica largos períodos de entrenamiento LLM (Modelo de lenguaje grande), y las GPU de IA de NVIDIA entran en juego aquí. No vamos a entrar en especificaciones técnicas y detalles fácticos, ya que eso hace que las cosas sean aburridas y no divertidas de leer. Sin embargo, si desea conocer los detalles, presentamos una tabla a continuación, que destaca cada lanzamiento de GPU AI de NVIDIA, que se remonta a los modelos Tesla.

GPU NVIDIA HPC/IA

Tarjeta gráfica NVIDIA Tesla NVIDIA H100 (SMX5) NVIDIA H100 (PCIe) NVIDIA A100 (SXM4) NVIDIA A100 (PCIe4) Tesla V100S (PCIe) Tesla V100 (SXM2) Tesla P100 (SXM2) tesla p100
(PCI-Express)
tesla m40
(PCI-Express)
tesla k40
(PCI-Express)
GPU GH100 (Tolva) GH100 (Tolva) GA100 (amperios) GA100 (amperios) GV100 (Voltaje) GV100 (Voltaje) GP100 (Pascales) GP100 (Pascales) GM200 (Maxwell) GK110 (Kepler)
Nodo de proceso 4 nm 4 nm 7 nm 7 nm 12nm 12nm 16nm 16nm 28nm 28nm
transistores 80 mil millones 80 mil millones 54,2 mil millones 54,2 mil millones 21.1 mil millones 21.1 mil millones 15,3 mil millones 15,3 mil millones 8 mil millones 7.1 mil millones
Tamaño de matriz de GPU 814 mm2 814 mm2 826mm2 826mm2 815 mm2 815 mm2 610 mm2 610 mm2 601 mm2 551 mm2
SMS 132 114 108 108 80 80 56 56 24 15
TPC 66 57 54 54 40 40 28 28 24 15
Núcleos CUDA FP32 por SM 128 128 64 64 64 64 64 64 128 192
Núcleos CUDA FP64 / SM 128 128 32 32 32 32 32 32 4 64
Núcleos CUDA FP32 16896 14592 6912 6912 5120 5120 3584 3584 3072 2880
Núcleos CUDA FP64 16896 14592 3456 3456 2560 2560 1792 1792 96 960
Núcleos tensoriales 528 456 432 432 640 640 N / A N / A N / A N / A
Unidades de textura 528 456 432 432 320 320 224 224 192 240
Reloj de impulso Por determinar Por determinar 1410 MHz 1410 MHz 1601 MHz 1530 MHz 1480 MHz 1329MHz 1114 MHz 875 MHz
TOP (DNN/AI) 3958 tops 3200 TOP 1248 tapas
2496 TOP con escasez
1248 tapas
2496 TOP con escasez
130 TOP 125 TOPS N / A N / A N / A N / A
Cómputo FP16 1979 TFLOP 1600 TFLOP 312 TFLOP
624 TFLOP con escasez
312 TFLOP
624 TFLOP con escasez
32,8 TFLOP 30,4 TFLOP 21,2 TFLOP 18,7 TFLOP N / A N / A
Cómputo FP32 67 TFLOP 800 TFLOP 156 TFLOP
(19,5 TFLOP estándar)
156 TFLOP
(19,5 TFLOP estándar)
16.4 TFLOP 15,7 TFLOP 10,6 TFLOP 10,0 TFLOP 6.8 TFLOP 5.04 TFLOP
Cómputo FP64 34 TFLOP 48 TFLOP 19,5 TFLOP
(9,7 TFLOP estándar)
19,5 TFLOP
(9,7 TFLOP estándar)
8.2 TFLOP 7,80 TFLOP 5,30 TFLOP 4.7 TFLOP 0,2 TFLOP 1,68 TFLOP
interfaz de memoria HBM3 de 5120 bits HBM2e de 5120 bits HBM2e de 6144 bits HBM2e de 6144 bits HBM2 de 4096 bits HBM2 de 4096 bits HBM2 de 4096 bits HBM2 de 4096 bits GDDR5 de 384 bits GDDR5 de 384 bits
Tamaño de la memoria Hasta 80 GB HBM3 a 3,0 Gbps Hasta 80 GB HBM2e a 2,0 Gbps Hasta 40 GB HBM2 a 1,6 TB/s
Hasta 80 GB HBM2 a 1,6 TB/s
Hasta 40 GB HBM2 a 1,6 TB/s
Hasta 80 GB HBM2 a 2,0 TB/s
16 GB HBM2 a 1134 GB/s 16 GB HBM2 a 900 GB/s 16 GB HBM2 a 732 GB/s 16 GB HBM2 a 732 GB/s
12 GB HBM2 a 549 GB/s
24 GB GDDR5 a 288 GB/s 12 GB GDDR5 a 288 GB/s
Tamaño de caché L2 51200 KB 51200 KB 40960KB 40960KB 6144KB 6144KB 4096KB 4096KB 3072KB 1536KB
TDP 700W 350W 400W 250W 250W 300W 300W 250W 250W 235W

La pregunta aún no se responde aquí, ¿por qué los H100? Bueno, estamos llegando allí. El H100 de NVIDIA es la oferta de gama más alta de la empresa y proporciona inmensas capacidades informáticas. Se podría argumentar que el aumento en el rendimiento genera costos más altos, pero las empresas tienden a ordenar grandes volúmenes, y el «rendimiento por vatio» es la prioridad aquí. En comparación con el A100, el Hopper «H100» ofrece 3,5 veces más inferencia de 16 bits y 2,3 veces más rendimiento de entrenamiento de 16 bits, lo que lo convierte en la elección obvia.

perf-main-final-625x264

Así que ahora, esperamos que la superioridad de la GPU H100 sea evidente aquí. Ahora, pasando a nuestro siguiente segmento, ¿por qué hay escasez? La respuesta a esto involucra varios aspectos, el primero son los grandes volúmenes de H100 necesarios para entrenar un solo modelo. Un hecho sorprendente es que el modelo de IA GPT-4 de OpenAI requería alrededor de 10 000 a 25 000 GPU A100 (en ese momento, las H100 no se lanzaron).

Las nuevas empresas modernas de IA, como Inflection AI y CoreWeave, han adquirido cantidades enormes de H100, con un valor total contabilizado en miles de millones de dólares. Esto demuestra que una sola empresa requiere grandes volúmenes, incluso para entrenar un modelo de IA de básico a decente, por lo que la demanda ha sido tremenda.

GPU H100 de NVIDIA y The AI ​​Frenzy;  un resumen de la situación actual 2

Si cuestiona el enfoque de NVIDIA, se puede decir: «NVIDIA podría aumentar la producción para hacer frente a la demanda». Decir esto es mucho más fácil que implementarlo realmente. A diferencia de las GPU para juegos, las GPU NVIDIA AI requieren procesos extensos, con la mayor parte de la fabricación asignada al gigante de semiconductores taiwanés TSMC. TSMC es el proveedor exclusivo de la GPU AI de NVIDIA y lidera todas las etapas, desde la adquisición de obleas hasta el empaquetado avanzado.

Las GPU H100 se basan en el proceso 4N de TSMC, una versión renovada de la familia de 5 nm. NVIDIA es el principal cliente de este proceso, ya que Apple lo utilizó anteriormente para su conjunto de chips biónico A15, pero A16 Bionic lo reemplazó. De todos los pasos relevantes, la producción de la memoria HBM es la más complicada, ya que involucra equipos sofisticados que actualmente utilizan algunos fabricantes.

CoWos Packaging utilizado en NVIDIA H100

Los proveedores de HBM incluyen a SK Hynix, Micron y Samsung, mientras que TSMC ha limitado sus proveedores y no sabemos quiénes son. Sin embargo, aparte de HBM, TSMC también enfrenta problemas para mantener la capacidad CoWoS (Chip-on-Wafer-on-Substrate), un proceso de empaquetado 2.5D y una etapa crucial en el desarrollo de H100. TSMC no puede igualar la demanda de NVIDIA, debido a que la acumulación de pedidos ha alcanzado nuevas alturas, retrasándose hasta diciembre.

Entonces, cuando las personas usan la palabra escasez de GPU, se refieren a la escasez o la acumulación de algún componente en la placa, no a la GPU en sí. Es solo una fabricación mundial limitada de estas cosas… pero pronosticamos lo que la gente quiere y lo que el mundo puede construir.

-Charlie Doyle, vicepresidente y gerente general de DGX de NVIDIA (a través de Computerbase.de)

Hemos omitido muchos detalles, pero entrar en detalles se desviará de nuestro objetivo principal, que es detallar la situación a un usuario promedio. Si bien, por ahora, no creemos que la escasez pueda reducirse y, a su vez, se espera que aumente. Sin embargo, podríamos ver un cambio de panorama aquí después de la decisión de AMD de consolidar su posición en el mercado de IA.

DigiTimes informa que «TSMC parece ser particularmente optimista sobre la demanda de la próxima serie Instinct MI300 de AMD, diciendo que será la mitad de la producción total de chips empaquetados CoWoS de Nvidia». Puede distribuir la carga de trabajo entre las empresas. Aún así, a juzgar por las políticas codiciosas del Team Green en el pasado, algo como esto requeriría una oferta severa de AMD.

Resumiendo nuestra charla, las GPU H100 de NVIDIA están llevando la moda de la IA a nuevas alturas, razón por la cual las rodea este frenesí. Nuestro objetivo era concluir nuestra charla dando a los lectores una idea general de todo el escenario. Créditos a GPU Utilis por la idea detrás de este artículo; asegúrese de mirar su informe también.

Fuente de noticias: GPU Utilis

Comparte esta historia

Facebook

Gorjeo



Source link-29