Todos somos muy conscientes de NVIDIA y la «mina de oro» de la IA que recientemente ha conquistado a todos. En medio de todo, se encuentran las GPU H100 AI de Team Green, que son simplemente la pieza de hardware para IA más buscada en este momento y todos intentan tener una para satisfacer sus necesidades de IA.
NVIDIA H100 GPU es el mejor chip para IA en este momento y todos quieren más de esos
Este artículo no es particularmente nuevo, pero destaca a los lectores sobre la situación actual de la industria de la IA y cómo las empresas están girando en torno a las GPU H100 para su «futuro».
Antes de entrar en el meollo del artículo, dar un resumen se convierte en una necesidad. Entonces, a principios de 2022, todo iba bien con los desarrollos habituales. Sin embargo, con la llegada de noviembre, surgió una aplicación revolucionaria llamada «ChatGPT», que sentó las bases del bombo de la IA. Si bien no podemos categorizar a «ChatGPT» como el fundador del auge de la IA, ciertamente podemos decir que actuó como un catalizador. Con él surgieron competidores como Microsoft y Google, que se vieron obligados a participar en una carrera de IA para lanzar aplicaciones de IA generativa.
Podrías decir, ¿dónde entra NVIDIA aquí? La columna vertebral de la IA generativa implica largos períodos de entrenamiento LLM (Modelo de lenguaje grande), y las GPU de IA de NVIDIA entran en juego aquí. No vamos a entrar en especificaciones técnicas y detalles fácticos, ya que eso hace que las cosas sean aburridas y no divertidas de leer. Sin embargo, si desea conocer los detalles, presentamos una tabla a continuación, que destaca cada lanzamiento de GPU AI de NVIDIA, que se remonta a los modelos Tesla.
GPU NVIDIA HPC/IA
Tarjeta gráfica NVIDIA Tesla | NVIDIA H100 (SMX5) | NVIDIA H100 (PCIe) | NVIDIA A100 (SXM4) | NVIDIA A100 (PCIe4) | Tesla V100S (PCIe) | Tesla V100 (SXM2) | Tesla P100 (SXM2) | tesla p100 (PCI-Express) |
tesla m40 (PCI-Express) |
tesla k40 (PCI-Express) |
---|---|---|---|---|---|---|---|---|---|---|
GPU | GH100 (Tolva) | GH100 (Tolva) | GA100 (amperios) | GA100 (amperios) | GV100 (Voltaje) | GV100 (Voltaje) | GP100 (Pascales) | GP100 (Pascales) | GM200 (Maxwell) | GK110 (Kepler) |
Nodo de proceso | 4 nm | 4 nm | 7 nm | 7 nm | 12nm | 12nm | 16nm | 16nm | 28nm | 28nm |
transistores | 80 mil millones | 80 mil millones | 54,2 mil millones | 54,2 mil millones | 21.1 mil millones | 21.1 mil millones | 15,3 mil millones | 15,3 mil millones | 8 mil millones | 7.1 mil millones |
Tamaño de matriz de GPU | 814 mm2 | 814 mm2 | 826mm2 | 826mm2 | 815 mm2 | 815 mm2 | 610 mm2 | 610 mm2 | 601 mm2 | 551 mm2 |
SMS | 132 | 114 | 108 | 108 | 80 | 80 | 56 | 56 | 24 | 15 |
TPC | 66 | 57 | 54 | 54 | 40 | 40 | 28 | 28 | 24 | 15 |
Núcleos CUDA FP32 por SM | 128 | 128 | 64 | 64 | 64 | 64 | 64 | 64 | 128 | 192 |
Núcleos CUDA FP64 / SM | 128 | 128 | 32 | 32 | 32 | 32 | 32 | 32 | 4 | 64 |
Núcleos CUDA FP32 | 16896 | 14592 | 6912 | 6912 | 5120 | 5120 | 3584 | 3584 | 3072 | 2880 |
Núcleos CUDA FP64 | 16896 | 14592 | 3456 | 3456 | 2560 | 2560 | 1792 | 1792 | 96 | 960 |
Núcleos tensoriales | 528 | 456 | 432 | 432 | 640 | 640 | N / A | N / A | N / A | N / A |
Unidades de textura | 528 | 456 | 432 | 432 | 320 | 320 | 224 | 224 | 192 | 240 |
Reloj de impulso | Por determinar | Por determinar | 1410 MHz | 1410 MHz | 1601 MHz | 1530 MHz | 1480 MHz | 1329MHz | 1114 MHz | 875 MHz |
TOP (DNN/AI) | 3958 tops | 3200 TOP | 1248 tapas 2496 TOP con escasez |
1248 tapas 2496 TOP con escasez |
130 TOP | 125 TOPS | N / A | N / A | N / A | N / A |
Cómputo FP16 | 1979 TFLOP | 1600 TFLOP | 312 TFLOP 624 TFLOP con escasez |
312 TFLOP 624 TFLOP con escasez |
32,8 TFLOP | 30,4 TFLOP | 21,2 TFLOP | 18,7 TFLOP | N / A | N / A |
Cómputo FP32 | 67 TFLOP | 800 TFLOP | 156 TFLOP (19,5 TFLOP estándar) |
156 TFLOP (19,5 TFLOP estándar) |
16.4 TFLOP | 15,7 TFLOP | 10,6 TFLOP | 10,0 TFLOP | 6.8 TFLOP | 5.04 TFLOP |
Cómputo FP64 | 34 TFLOP | 48 TFLOP | 19,5 TFLOP (9,7 TFLOP estándar) |
19,5 TFLOP (9,7 TFLOP estándar) |
8.2 TFLOP | 7,80 TFLOP | 5,30 TFLOP | 4.7 TFLOP | 0,2 TFLOP | 1,68 TFLOP |
interfaz de memoria | HBM3 de 5120 bits | HBM2e de 5120 bits | HBM2e de 6144 bits | HBM2e de 6144 bits | HBM2 de 4096 bits | HBM2 de 4096 bits | HBM2 de 4096 bits | HBM2 de 4096 bits | GDDR5 de 384 bits | GDDR5 de 384 bits |
Tamaño de la memoria | Hasta 80 GB HBM3 a 3,0 Gbps | Hasta 80 GB HBM2e a 2,0 Gbps | Hasta 40 GB HBM2 a 1,6 TB/s Hasta 80 GB HBM2 a 1,6 TB/s |
Hasta 40 GB HBM2 a 1,6 TB/s Hasta 80 GB HBM2 a 2,0 TB/s |
16 GB HBM2 a 1134 GB/s | 16 GB HBM2 a 900 GB/s | 16 GB HBM2 a 732 GB/s | 16 GB HBM2 a 732 GB/s 12 GB HBM2 a 549 GB/s |
24 GB GDDR5 a 288 GB/s | 12 GB GDDR5 a 288 GB/s |
Tamaño de caché L2 | 51200 KB | 51200 KB | 40960KB | 40960KB | 6144KB | 6144KB | 4096KB | 4096KB | 3072KB | 1536KB |
TDP | 700W | 350W | 400W | 250W | 250W | 300W | 300W | 250W | 250W | 235W |
La pregunta aún no se responde aquí, ¿por qué los H100? Bueno, estamos llegando allí. El H100 de NVIDIA es la oferta de gama más alta de la empresa y proporciona inmensas capacidades informáticas. Se podría argumentar que el aumento en el rendimiento genera costos más altos, pero las empresas tienden a ordenar grandes volúmenes, y el «rendimiento por vatio» es la prioridad aquí. En comparación con el A100, el Hopper «H100» ofrece 3,5 veces más inferencia de 16 bits y 2,3 veces más rendimiento de entrenamiento de 16 bits, lo que lo convierte en la elección obvia.
Así que ahora, esperamos que la superioridad de la GPU H100 sea evidente aquí. Ahora, pasando a nuestro siguiente segmento, ¿por qué hay escasez? La respuesta a esto involucra varios aspectos, el primero son los grandes volúmenes de H100 necesarios para entrenar un solo modelo. Un hecho sorprendente es que el modelo de IA GPT-4 de OpenAI requería alrededor de 10 000 a 25 000 GPU A100 (en ese momento, las H100 no se lanzaron).
Las nuevas empresas modernas de IA, como Inflection AI y CoreWeave, han adquirido cantidades enormes de H100, con un valor total contabilizado en miles de millones de dólares. Esto demuestra que una sola empresa requiere grandes volúmenes, incluso para entrenar un modelo de IA de básico a decente, por lo que la demanda ha sido tremenda.
Si cuestiona el enfoque de NVIDIA, se puede decir: «NVIDIA podría aumentar la producción para hacer frente a la demanda». Decir esto es mucho más fácil que implementarlo realmente. A diferencia de las GPU para juegos, las GPU NVIDIA AI requieren procesos extensos, con la mayor parte de la fabricación asignada al gigante de semiconductores taiwanés TSMC. TSMC es el proveedor exclusivo de la GPU AI de NVIDIA y lidera todas las etapas, desde la adquisición de obleas hasta el empaquetado avanzado.
Las GPU H100 se basan en el proceso 4N de TSMC, una versión renovada de la familia de 5 nm. NVIDIA es el principal cliente de este proceso, ya que Apple lo utilizó anteriormente para su conjunto de chips biónico A15, pero A16 Bionic lo reemplazó. De todos los pasos relevantes, la producción de la memoria HBM es la más complicada, ya que involucra equipos sofisticados que actualmente utilizan algunos fabricantes.
Los proveedores de HBM incluyen a SK Hynix, Micron y Samsung, mientras que TSMC ha limitado sus proveedores y no sabemos quiénes son. Sin embargo, aparte de HBM, TSMC también enfrenta problemas para mantener la capacidad CoWoS (Chip-on-Wafer-on-Substrate), un proceso de empaquetado 2.5D y una etapa crucial en el desarrollo de H100. TSMC no puede igualar la demanda de NVIDIA, debido a que la acumulación de pedidos ha alcanzado nuevas alturas, retrasándose hasta diciembre.
Entonces, cuando las personas usan la palabra escasez de GPU, se refieren a la escasez o la acumulación de algún componente en la placa, no a la GPU en sí. Es solo una fabricación mundial limitada de estas cosas… pero pronosticamos lo que la gente quiere y lo que el mundo puede construir.
-Charlie Doyle, vicepresidente y gerente general de DGX de NVIDIA (a través de Computerbase.de)
Hemos omitido muchos detalles, pero entrar en detalles se desviará de nuestro objetivo principal, que es detallar la situación a un usuario promedio. Si bien, por ahora, no creemos que la escasez pueda reducirse y, a su vez, se espera que aumente. Sin embargo, podríamos ver un cambio de panorama aquí después de la decisión de AMD de consolidar su posición en el mercado de IA.
DigiTimes informa que «TSMC parece ser particularmente optimista sobre la demanda de la próxima serie Instinct MI300 de AMD, diciendo que será la mitad de la producción total de chips empaquetados CoWoS de Nvidia». Puede distribuir la carga de trabajo entre las empresas. Aún así, a juzgar por las políticas codiciosas del Team Green en el pasado, algo como esto requeriría una oferta severa de AMD.
Resumiendo nuestra charla, las GPU H100 de NVIDIA están llevando la moda de la IA a nuevas alturas, razón por la cual las rodea este frenesí. Nuestro objetivo era concluir nuestra charla dando a los lectores una idea general de todo el escenario. Créditos a GPU Utilis por la idea detrás de este artículo; asegúrese de mirar su informe también.
Fuente de noticias: GPU Utilis