Comparación de GPU NVIDIA Hopper H100 AI


NVIDIA Hopper H100 es actualmente la GPU más rápida del planeta para cargas de trabajo de HPC e IA, lo que la convierte en el chip más popular del mercado en este momento.

NVIDIA Hopper H100 destruye RTX 4090 en cargas de trabajo de creación de contenido e inteligencia artificial, pero se sacrifica en los puntos de referencia sintéticos y de juegos

Desde la explosión de la IA, la GPU Hopper H100 ha experimentado una gran demanda y la empresa ha unido todos sus recursos para aumentar la producción de dicho chip solo para satisfacer esta demanda masiva. El creador de contenido chino, Geekerwan, brinda el primer vistazo al rendimiento del chip que se ejecuta en una PC estándar en una configuración de hasta 4 vías con múltiples aplicaciones de creación, incluidos los puntos de referencia de juegos.

Las GPU H100 de NVIDIA se prueban en una configuración de 4 vías en una PC de bricolaje. (Créditos de imagen: Geekerwan)

La GPU NVIDIA H100 es un chip muy caro de conseguir en China. Hemos visto unidades que cuestan alrededor de $30,000 y hasta $50,000 US. Entonces, cuatro de estas tarjetas gráficas costarían más de $ 100 mil, lo cual es una locura. Para probar estas GPU en la configuración de PC de bricolaje, se tuvo que hacer un conducto impreso en 3D para proporcionar refrigeración a la tarjeta, ya que viene con un disipador de calor pasivo, lo que significa que no hay una solución de refrigeración activa a bordo de la tarjeta. También se utilizó una tarjeta gráfica NVIDIA GeForce GTX 1650 Ti como tarjeta de visualización secundaria, ya que la H100 no ofrece ninguna salida de visualización y está diseñada para utilizarse como tarjeta aceleradora.

La variante del H100 utilizada fue el PCIe de 80 GB, con 114 SM habilitados de los 144 SM completos de la GPU GH100 y 132 SM en el H100 SXM. El chip como tal ofrece 3200 FP8, 1600 TF16, 800 FP32 y 48 TFLOP de potencia de cómputo FP64. También cuenta con 456 unidades de tensor y textura con 24 ROP.

La forma en que está estructurado el H100 es que solo 2 de sus TPC están disponibles para las tareas de procesamiento de gráficos estándar, mientras que todo el bloque de GPU se dedica principalmente a tareas de cómputo, lo que puede generar resultados adversos en los juegos, incluso si los controladores no son compatibles. tales cargas de trabajo. La tarjeta cuenta con un diseño de memoria HBM2e de 80 GB (2,0 Gbps) en una interfaz de bus de 5120 bits y tiene un TDP nominal de 350 W. Sin embargo

NVIDIA H100 procesa una imagen generada por IA. (Créditos de imagen: Geekerwan)

Comenzando con los puntos de referencia, la tarjeta se probó por primera vez dentro de los puntos de referencia de Stable AI Diffusion, y aunque el H100 pudo generar una imagen en 2.82 segundos, aún fue más lento que el RTX 4090. El problema principal se debió a Xformers que no incluyen soporte para el H100 y, por lo tanto, se decidió utilizar un modelo diferente, Donut. La herramienta Donut hizo uso de los motores de transformadores que se encuentran en las GPU Hopper H100 en pytorch 2.0.01 y también permitió la compatibilidad con CUDA 11.8.

El rendimiento aquí fue todo lo contrario, ya que el H100 ofrece una velocidad un 30 % más rápida que las GPU RTX 4090 y RTX 6000 Ada. El creador de contenido también usó hasta cuatro GPU H100 para ver el rendimiento de escalado y parece que dos H100 ofrecieron un aumento adicional del 43 %, pero los resultados de 3 y 4 vías mostraron rendimientos decrecientes y una escala negativa. Parece que las PC estándar simplemente no pueden aprovechar múltiples GPU H100.

Dentro del punto de referencia de entrenamiento VITS, el H100 entregó un rendimiento un 23 % más rápido en comparación con las GPU NVIDIA RTX 4090 y RTX 6000 Ada. Este es un punto de referencia que requiere mucha memoria y aumentar el tamaño del lote no afecta el rendimiento del H100, ya que tiene 80 GB de memoria, pero el RTX 4090 se quedó atrás con un tamaño de lote más alto debido a su VRAM limitada de 24 GB.

A continuación, tenemos un gran modelo LLAMA en ChatGPT con un total de 65 000 millones de parámetros que eran manejables en el H100, pero el RTX 4090 solo puede ejecutar hasta 6 000 millones de parámetros. Esto muestra que, al menos para LLM, las GPU para juegos no son una buena opción, y es mejor obtener un acelerador dedicado. En el último conjunto de puntos de referencia, se utilizaron cargas de trabajo de HPC como LAMMP (28 de marzo de 2023) y el RTX 4090 ni el RTX 6000 Ada pueden hacer frente al H100 PCIe que eliminó las dos ofertas.

La H100 ofrece un rendimiento inferior al de la iGPU Radeon 680M de AMD en las pruebas 3DMark Time Spy. (Créditos de imagen: Geekerwan)

Pero, ¿cómo funciona la tarjeta en los juegos? Bueno, se utilizaron 3DMark Time Spy y Red Dead Redemption 2 para probar el rendimiento de juego de la GPU NVIDIA H100 y la tarjeta funcionó más lentamente que la Radeon 680M de AMD, que es una GPU integrada. El problema se debió a la infrautilización y la naturaleza no optimizada de los controladores, lo que era de esperar, ya que la H100 es una solución HPC/AI y la empresa no tiene controladores de juegos oficiales creados para la tarjeta.

En Red Dead Redemption 2, la tarjeta se ejecutó con una configuración alta de 1080p y un ajuste preestablecido de DLSS «Equilibrado» y aún entregaba menos de 30 FPS. Una vez más, puede ver que la potencia de la tarjeta es inferior a 100 W y eso muestra una gran infrautilización de la GPU H100.

Entonces, la H100 de NVIDIA es lo que se dice que es, una gran tarjeta para cargas de trabajo de IA y HPC, y eso es todo. Es un acelerador muy caro, pero como no hay competencia para igualarlo, el equipo verde puede salirse con la suya con los precios hasta que AMD e Intel ofrezcan soluciones más competitivas en el mismo espacio.

Fuente de noticias: I_Leak_VN

Comparte esta historia

Facebook

Gorjeo





Source link-29