2024 - GPU H100 de NVIDIA y The AI Frenzy; un resumen de la situación actual

Todos somos muy conscientes de NVIDIA y la «mina de oro» de la IA que recientemente ha conquistado a todos. En medio de todo, se encuentran las GPU H100 AI de Team Green, que son simplemente la pieza de hardware para IA más buscada en este momento y todos intentan tener una para satisfacer sus necesidades de IA.

NVIDIA H100 GPU es el mejor chip para IA en este momento y todos quieren más de esos

Este artículo no es particularmente nuevo, pero destaca a los lectores sobre la situación actual de la industria de la IA y cómo las empresas están girando en torno a las GPU H100 para su «futuro».

Antes de entrar en el meollo del artículo, dar un resumen se convierte en una necesidad. Entonces, a principios de 2022, todo iba bien con los desarrollos habituales. Sin embargo, con la llegada de noviembre, surgió una aplicación revolucionaria llamada «ChatGPT», que sentó las bases del bombo de la IA. Si bien no podemos categorizar a «ChatGPT» como el fundador del auge de la IA, ciertamente podemos decir que actuó como un catalizador. Con él surgieron competidores como Microsoft y Google, que se vieron obligados a participar en una carrera de IA para lanzar aplicaciones de IA generativa.

Podrías decir, ¿dónde entra NVIDIA aquí? La columna vertebral de la IA generativa implica largos períodos de entrenamiento LLM (Modelo de lenguaje grande), y las GPU de IA de NVIDIA entran en juego aquí. No vamos a entrar en especificaciones técnicas y detalles fácticos, ya que eso hace que las cosas sean aburridas y no divertidas de leer. Sin embargo, si desea conocer los detalles, presentamos una tabla a continuación, que destaca cada lanzamiento de GPU AI de NVIDIA, que se remonta a los modelos Tesla.

GPU NVIDIA HPC/IA

Tarjeta gráfica NVIDIA Tesla	NVIDIA H100 (SMX5)	NVIDIA H100 (PCIe)	NVIDIA A100 (SXM4)	NVIDIA A100 (PCIe4)	Tesla V100S (PCIe)	Tesla V100 (SXM2)	Tesla P100 (SXM2)	tesla p100 (PCI-Express)	tesla m40 (PCI-Express)	tesla k40 (PCI-Express)
GPU	GH100 (Tolva)	GH100 (Tolva)	GA100 (amperios)	GA100 (amperios)	GV100 (Voltaje)	GV100 (Voltaje)	GP100 (Pascales)	GP100 (Pascales)	GM200 (Maxwell)	GK110 (Kepler)
Nodo de proceso	4 nm	4 nm	7 nm	7 nm	12nm	12nm	16nm	16nm	28nm	28nm
transistores	80 mil millones	80 mil millones	54,2 mil millones	54,2 mil millones	21.1 mil millones	21.1 mil millones	15,3 mil millones	15,3 mil millones	8 mil millones	7.1 mil millones
Tamaño de matriz de GPU	814 mm2	814 mm2	826mm2	826mm2	815 mm2	815 mm2	610 mm2	610 mm2	601 mm2	551 mm2
SMS	132	114	108	108	80	80	56	56	24	15
TPC	66	57	54	54	40	40	28	28	24	15
Núcleos CUDA FP32 por SM	128	128	64	64	64	64	64	64	128	192
Núcleos CUDA FP64 / SM	128	128	32	32	32	32	32	32	4	64
Núcleos CUDA FP32	16896	14592	6912	6912	5120	5120	3584	3584	3072	2880
Núcleos CUDA FP64	16896	14592	3456	3456	2560	2560	1792	1792	96	960
Núcleos tensoriales	528	456	432	432	640	640	N / A	N / A	N / A	N / A
Unidades de textura	528	456	432	432	320	320	224	224	192	240
Reloj de impulso	Por determinar	Por determinar	1410 MHz	1410 MHz	1601 MHz	1530 MHz	1480 MHz	1329MHz	1114 MHz	875 MHz
TOP (DNN/AI)	3958 tops	3200 TOP	1248 tapas 2496 TOP con escasez	1248 tapas 2496 TOP con escasez	130 TOP	125 TOPS	N / A	N / A	N / A	N / A
Cómputo FP16	1979 TFLOP	1600 TFLOP	312 TFLOP 624 TFLOP con escasez	312 TFLOP 624 TFLOP con escasez	32,8 TFLOP	30,4 TFLOP	21,2 TFLOP	18,7 TFLOP	N / A	N / A
Cómputo FP32	67 TFLOP	800 TFLOP	156 TFLOP (19,5 TFLOP estándar)	156 TFLOP (19,5 TFLOP estándar)	16.4 TFLOP	15,7 TFLOP	10,6 TFLOP	10,0 TFLOP	6.8 TFLOP	5.04 TFLOP
Cómputo FP64	34 TFLOP	48 TFLOP	19,5 TFLOP (9,7 TFLOP estándar)	19,5 TFLOP (9,7 TFLOP estándar)	8.2 TFLOP	7,80 TFLOP	5,30 TFLOP	4.7 TFLOP	0,2 TFLOP	1,68 TFLOP
interfaz de memoria	HBM3 de 5120 bits	HBM2e de 5120 bits	HBM2e de 6144 bits	HBM2e de 6144 bits	HBM2 de 4096 bits	HBM2 de 4096 bits	HBM2 de 4096 bits	HBM2 de 4096 bits	GDDR5 de 384 bits	GDDR5 de 384 bits
Tamaño de la memoria	Hasta 80 GB HBM3 a 3,0 Gbps	Hasta 80 GB HBM2e a 2,0 Gbps	Hasta 40 GB HBM2 a 1,6 TB/s Hasta 80 GB HBM2 a 1,6 TB/s	Hasta 40 GB HBM2 a 1,6 TB/s Hasta 80 GB HBM2 a 2,0 TB/s	16 GB HBM2 a 1134 GB/s	16 GB HBM2 a 900 GB/s	16 GB HBM2 a 732 GB/s	16 GB HBM2 a 732 GB/s 12 GB HBM2 a 549 GB/s	24 GB GDDR5 a 288 GB/s	12 GB GDDR5 a 288 GB/s
Tamaño de caché L2	51200 KB	51200 KB	40960KB	40960KB	6144KB	6144KB	4096KB	4096KB	3072KB	1536KB
TDP	700W	350W	400W	250W	250W	300W	300W	250W	250W	235W

La pregunta aún no se responde aquí, ¿por qué los H100? Bueno, estamos llegando allí. El H100 de NVIDIA es la oferta de gama más alta de la empresa y proporciona inmensas capacidades informáticas. Se podría argumentar que el aumento en el rendimiento genera costos más altos, pero las empresas tienden a ordenar grandes volúmenes, y el «rendimiento por vatio» es la prioridad aquí. En comparación con el A100, el Hopper «H100» ofrece 3,5 veces más inferencia de 16 bits y 2,3 veces más rendimiento de entrenamiento de 16 bits, lo que lo convierte en la elección obvia.

Así que ahora, esperamos que la superioridad de la GPU H100 sea evidente aquí. Ahora, pasando a nuestro siguiente segmento, ¿por qué hay escasez? La respuesta a esto involucra varios aspectos, el primero son los grandes volúmenes de H100 necesarios para entrenar un solo modelo. Un hecho sorprendente es que el modelo de IA GPT-4 de OpenAI requería alrededor de 10 000 a 25 000 GPU A100 (en ese momento, las H100 no se lanzaron).

Las nuevas empresas modernas de IA, como Inflection AI y CoreWeave, han adquirido cantidades enormes de H100, con un valor total contabilizado en miles de millones de dólares. Esto demuestra que una sola empresa requiere grandes volúmenes, incluso para entrenar un modelo de IA de básico a decente, por lo que la demanda ha sido tremenda.

GPU H100 de NVIDIA y The AI Frenzy; un resumen de la situación actual 2

Si cuestiona el enfoque de NVIDIA, se puede decir: «NVIDIA podría aumentar la producción para hacer frente a la demanda». Decir esto es mucho más fácil que implementarlo realmente. A diferencia de las GPU para juegos, las GPU NVIDIA AI requieren procesos extensos, con la mayor parte de la fabricación asignada al gigante de semiconductores taiwanés TSMC. TSMC es el proveedor exclusivo de la GPU AI de NVIDIA y lidera todas las etapas, desde la adquisición de obleas hasta el empaquetado avanzado.

Las GPU H100 se basan en el proceso 4N de TSMC, una versión renovada de la familia de 5 nm. NVIDIA es el principal cliente de este proceso, ya que Apple lo utilizó anteriormente para su conjunto de chips biónico A15, pero A16 Bionic lo reemplazó. De todos los pasos relevantes, la producción de la memoria HBM es la más complicada, ya que involucra equipos sofisticados que actualmente utilizan algunos fabricantes.

CoWos Packaging utilizado en NVIDIA H100

Los proveedores de HBM incluyen a SK Hynix, Micron y Samsung, mientras que TSMC ha limitado sus proveedores y no sabemos quiénes son. Sin embargo, aparte de HBM, TSMC también enfrenta problemas para mantener la capacidad CoWoS (Chip-on-Wafer-on-Substrate), un proceso de empaquetado 2.5D y una etapa crucial en el desarrollo de H100. TSMC no puede igualar la demanda de NVIDIA, debido a que la acumulación de pedidos ha alcanzado nuevas alturas, retrasándose hasta diciembre.

Entonces, cuando las personas usan la palabra escasez de GPU, se refieren a la escasez o la acumulación de algún componente en la placa, no a la GPU en sí. Es solo una fabricación mundial limitada de estas cosas… pero pronosticamos lo que la gente quiere y lo que el mundo puede construir.

-Charlie Doyle, vicepresidente y gerente general de DGX de NVIDIA (a través de Computerbase.de)

Hemos omitido muchos detalles, pero entrar en detalles se desviará de nuestro objetivo principal, que es detallar la situación a un usuario promedio. Si bien, por ahora, no creemos que la escasez pueda reducirse y, a su vez, se espera que aumente. Sin embargo, podríamos ver un cambio de panorama aquí después de la decisión de AMD de consolidar su posición en el mercado de IA.

DigiTimes informa que «TSMC parece ser particularmente optimista sobre la demanda de la próxima serie Instinct MI300 de AMD, diciendo que será la mitad de la producción total de chips empaquetados CoWoS de Nvidia». Puede distribuir la carga de trabajo entre las empresas. Aún así, a juzgar por las políticas codiciosas del Team Green en el pasado, algo como esto requeriría una oferta severa de AMD.

Resumiendo nuestra charla, las GPU H100 de NVIDIA están llevando la moda de la IA a nuevas alturas, razón por la cual las rodea este frenesí. Nuestro objetivo era concluir nuestra charla dando a los lectores una idea general de todo el escenario. Créditos a GPU Utilis por la idea detrás de este artículo; asegúrese de mirar su informe también.

Fuente de noticias: GPU Utilis

Source link-29

Core Keeper se lanza el 27 de agosto

Assassin’s Creed Shadows está abandonando una característica icónica de la franquicia

Cómo ver a los retadores de Zendaya en casa

La BBC responde a las afirmaciones de que Giovanni Pernice dejará Strictly Come Dancing

GPU H100 de NVIDIA y The AI Frenzy; un resumen de la situación actual

NVIDIA H100 GPU es el mejor chip para IA en este momento y todos quieren más de esos

GPU NVIDIA HPC/IA