Las GPU NVIDIA Hopper H100 y L4 Ada logran un rendimiento sin precedentes en los puntos de referencia de IA de MLPerf


NVIDIA acaba de presentar algunos rendimientos récord de sus GPU Hopper H100 y L4 Ada dentro de los puntos de referencia de MLPerf AI.

La destreza de IA de NVIDIA demostrada en los últimos puntos de referencia de IA de MLPerf: se lograron nuevos récords de rendimiento con las GPU Hopper H100 y L4 Ada

Hoy, NVIDIA presenta sus últimas cifras logradas dentro de MLPerf Interface 3.0. Los tres aspectos más destacados son los últimos registros de Hopper H100 que muestran el progreso de la GPU AI insignia en los últimos 6 meses con varias optimizaciones de software, también podemos ver los primeros resultados de la GPU L4 basada en la arquitectura de gráficos Ada que se anunció. en GTC 2023 y, por último, hemos actualizado los resultados del Jetson AGX Orin, que se vuelve mucho más rápido gracias a optimizaciones de nivel de potencia de plataforma y software similares. En resumen, los siguientes son los aspectos más destacados que vamos a ver hoy:

  • H100 establece nuevos registros de inferencia: Hasta un 54 % más de rendimiento frente al envío anterior
  • L4 Superchargers Mainstream Inferencia: Más de 3 veces más rápido que T4
  • Otro gran salto para Jetson AGX Orin: Hasta un 57% más de eficiencia frente al envío previo

Para el conjunto de referencias de hoy, NVIDIA analizará MLPerf Inference v3.0, que conserva las mismas cargas de trabajo que se usaron hace 6 meses en presentaciones anteriores, pero se agregó el entorno de red que mide con precisión cómo se envían los datos a una plataforma de inferencia para hacer el trabajo NVIDIA también revela que durante la vida útil de un producto, la compañía puede exprimir casi el doble de rendimiento a través de optimizaciones de software, y eso ya se ha visto en GPU anteriores como el Ampere A100.

NVIDIA H100 ofrece una gran mejora en el rendimiento desde su lanzamiento gracias a las optimizaciones de software, hasta 4,5 veces más que la última generación

Comenzando con las pruebas de rendimiento de Hopper H100, vemos las pruebas de inferencia MLPerf en las categorías fuera de línea y de servidor. Los puntos de referencia fuera de línea muestran un aumento de rendimiento de hasta 4,5 veces con respecto a Ampere A100 (BERT 99,9 %), mientras que en el escenario del servidor, el H100 produce un impresionante salto de rendimiento de 4,0 veces con respecto a su predecesor.

Para lograr este nivel de rendimiento, NVIDIA utiliza el rendimiento del FP8 a través de su motor de transformador integrado en la arquitectura Hopper. Funciona por capa mediante el análisis de todo el trabajo que se envía a través de él y luego certifica si los datos se pueden ejecutar en FP8 sin comprometer la eficiencia. Si, por ejemplo, los datos se pueden ejecutar en FP8, entonces los usará; si no, entonces el motor del transformador utilizará la acumulación de FP16 Math Ops y FP32 para ejecutar los datos. Dado que Ampere no tenía una arquitectura de motor Transformer, se ejecutó en FP16+FP32 en lugar de FP8.

Al comparar sus datos con el chip Xeon Sapphire Rapids de cuarta generación más rápido de Intel, el 8480+, la GPU Hopper H100 simplemente los supera en todas las pruebas de rendimiento y muestra por qué las GPU siguen siendo el camino a seguir en términos de inferencia a pesar de que Intel utiliza una variedad de IA. -aceleradores basados ​​en sus nuevos chips.

Pasando a la progresión del lado del software de Hopper, desde los 6 meses de disponibilidad de H100, la GPU ha visto una mejora de hasta un 54 %, principalmente en redes basadas en imágenes. En 3D U-Net, que es una red de imágenes médicas, la GPU H100 ve un aumento del 31 % e incluso en BERT del 99 %, que se mostró arriba, el nuevo chip obtiene un aumento del 12 % con respecto a su presentación de referencia anterior. Esto se logra mediante la utilización de nuevos avances de software, como kernels de supresión no máxima optimizados y lotes de ventana deslizante en subvolúmenes.

GPU NVIDIA L4: tarjeta pequeña con rendimiento masivo, hasta 3,1 veces más rápida que T4 con la misma potencia

L4 de NVIDIA también hizo su primera aparición dentro de MLPerf. La GPU L4 de factor de forma pequeño se anunció en GTC 2023 como un producto Tensor Core puro que también es compatible con las instrucciones FP8 en la arquitectura Ada, aunque el motor Transformer solo es específico para las GPU Hopper. Como sucesora de la T4, la GPU L4 no solo es un primer producto de inferencia, sino que también presenta varias funciones de codificación de video para capacidades de codificación de video basadas en IA.

En cuanto al rendimiento, la GPU NVIDIA L4 ofrece un aumento masivo de rendimiento de hasta 3,1x con respecto a su predecesora, una vez más en BERT 99,9% y su 2x en general en los puntos de referencia de inferencia con la misma potencia.

Al ser un diseño de factor de forma pequeño con una potencia de 72 W, la L4 se puede utilizar en una variedad de servidores sin tener que rediseñar el chasis del servidor o la entrega de energía para albergar una tarjeta tan pequeña. Al igual que su predecesor, el L4 busca ser un servidor y un producto CSP muy popular, ya que casi todos los CSP tienen una instancia T4. Google también anunció recientemente sus instancias L4, que ya están en versión preliminar privada con más CSP en camino.

NVIDIA Orin obtiene impulso en todos los ámbitos

Por último, tenemos los últimos saltos de rendimiento entregados a Jetson AGX Orin a través del Jetpack SDK. El Orin SOC ha estado disponible durante un año y NVIDIA está mostrando una mejora significativa en el rendimiento. Solo en rendimiento, Orin SOC obtiene un aumento de hasta un 81 %, mientras que en eficiencia energética, el chip muestra un aumento de rendimiento de hasta un 63 %, lo que es espectacular y un testimonio del compromiso de NVIDIA con la GPU y la longevidad del silicio en el espacio del servidor.

Estas mejoras de rendimiento no solo se limitan al Jetson AGX Orin, sino que incluso el Orin NX del tamaño de una tarjeta que viene con 16 GB de memoria integrada en un diseño de factor de forma pequeño obtiene una mejora del rendimiento de hasta 3,2 veces con respecto al Xavier NX, que es otro gran mejora y los clientes pueden esperar aún más rendimiento en el futuro.

Deci logra una velocidad de inferencia sin precedentes en GPU NVIDIA en MLPerf

Mientras hablaba del tema de MLPerf, Deci también anunció que logró una velocidad de inferencia sin precedentes en GPU NVIDIA en MLPerf. El siguiente gráfico ilustra el rendimiento de rendimiento por TeraFLOP logrado por Deci y otros remitentes dentro de la misma categoría. Deci entregó el rendimiento más alto por TeraFLOP y al mismo tiempo mejoró la precisión. Esta eficiencia de inferencia se traduce en importantes ahorros de costos en potencia de cómputo y una mejor experiencia de usuario. En lugar de depender de hardware más costoso, los equipos que usan Deci ahora pueden ejecutar la inferencia en la GPU A100 de NVIDIA, logrando un rendimiento 1,7 veces más rápido y una precisión F1 +0,55 mejor, en comparación con la GPU H100 de NVIDIA. Esto significa un ahorro de costos del 68 %* por consulta de inferencia.

Otros beneficios de los resultados de Deci incluyen la capacidad de migrar de múltiples GPU a una sola GPU y costos de inferencia más bajos y menos esfuerzos de ingeniería. Por ejemplo, los ingenieros de aprendizaje automático que usan Deci pueden lograr un mayor rendimiento en una tarjeta H100 que en 8 tarjetas NVIDIA A100 combinadas. En otras palabras, con Deci, los equipos pueden reemplazar 8 tarjetas NVIDIA A100 con solo una tarjeta NVIDIA H100, mientras obtienen un mayor rendimiento y una mejor precisión (+0.47 F1).

Hardware Rendimiento de otros remitentes Rendimiento de Deci Precisión BERT F1 Precisión Deci Optimized F1 Aumento de precisión
GPU NVIDIA A30 866 5,885 90.874 91.281 0.4076
GPU NVIDIA A100, 80GB 1,756 13,377 90.874 91.430 0.5560
8 GPU NVIDIA A100 13,967 103,053 90.874 91.430 0.5560
GPU NVIDIA H100 PCIe 7,921 17,584 90.874 91.346 0.4722

En la GPU NVIDIA A30, que es una GPU más asequible, Deci entregó un rendimiento acelerado y un aumento del 0,4 % en la precisión F1 en comparación con una línea de base FP32.

Al usar Deci, los equipos que anteriormente necesitaban ejecutarse en una GPU NVIDIA A100 ahora pueden migrar sus cargas de trabajo a la GPU NVIDIA A30 y lograr un rendimiento 3 veces mejor que el que tenían anteriormente por aproximadamente un tercio del precio de cómputo. Esto significa un rendimiento dramáticamente mejor por un costo de nube de inferencia significativamente menor.

Comparte esta historia

Facebook

Gorjeo



Source link-29