Intel duplicó el rendimiento FP8 GPT3 para su chip Gaudi 2 AI en las últimas pruebas comparativas de MLPerf


Intel lanzó la actualización de noviembre de 2023 de sus resultados de MLPerf Training 3.1 y logró un aumento de rendimiento del 103 % en comparación con su proyección del 90 % en junio. Actualmente, solo hay tres aceleradores que están enviando resultados de GPT-3 en MLPerf: Intel, NVIDIA y Google, lo que hace que Gaudi 2 de Intel sea actualmente la única alternativa viable a las GPU de NVIDIA (¿es ese el término correcto?) para cargas de trabajo de IA de MLPerf. .

Intel muestra precio/rendimiento competitivo para los chips Hopper de vanguardia de NVIDIA en el último MLPerf 3.1

Intel también se apresuró a señalar que Xeon es la única CPU que también envía resultados de entrenamiento en MLPerf Benchmark. Sin más preámbulos aquí están las diapositivas presentadas:

Como puede ver, el equipo Gaudí de Intel proyectó inicialmente una ganancia de rendimiento del 90 % en el FP8, pero pudo lograr una ganancia del 103 % en el punto de referencia de la industria GPT-3, reduciendo su tiempo para entrenar en minutos (en 384 aceleradores) de 311,94 minutos o 5,2 horas hasta poco más de 2 horas o 153,58 minutos. Intel también presentó varias diapositivas para ayudar en la toma de decisiones basadas en el TCO (costo total de propiedad), mostrando que el chip Gaudi 2 ofrece un rendimiento similar al NVIDIA H100 y al mismo tiempo tiene un menor costo de servidor, lo que lo hace competitivo en precio/rendimiento.

En GPTJ-99, Gaudi 2 brilla aún más: queda ligeramente por detrás de los nuevos chips Hopper de NVIDIA. Si bien la discusión en junio fue acerca de que Gaudi 2 era simplemente una alternativa viable a los chips de NVIDIA y estaba significativamente por detrás del H100 (solo intercambiando golpes con el modelo A100 anterior), ahora el chip Gaudi 2 está ligeramente por detrás de las configuraciones H100 y GH200-96G. El H100 es sólo un 9 % más rápido, mientras que el GH200-96G es sólo un 12 % más rápido que Gaudi 2 en las pruebas comparativas de rendimiento del servidor. Esta ventaja se extiende al 28% en los puntos de referencia fuera de línea. Gaudí 2 superó al A100 casi el doble en ambos casos.

Por último, Intel también señaló que Xeon es la única CPU que actualmente presenta puntos de referencia MLPerf y enfatizó su compromiso con las cargas de trabajo de IA.

Acerca de los resultados de Intel Gaudi2:

Gaudi2 sigue siendo la única alternativa viable al H100 de NVIDIA para las necesidades informáticas de IA, ofreciendo una relación precio-rendimiento significativa. Los resultados de MLPerf para Gaudi2 mostraron el creciente rendimiento del entrenamiento del acelerador de IA:

  • Gaudi2 demostró un salto de rendimiento 2 veces mayor con la implementación del tipo de datos FP8 en el punto de referencia de entrenamiento GPT-3 v3.1, reduciendo el tiempo de entrenamiento a más de la mitad en comparación con el punto de referencia MLPerf de junio, completando el entrenamiento en 153,58 minutos en 384 Aceleradores Intel Gaudi2. El acelerador Gaudi2 admite FP8 en formatos E5M2 y E4M3, con la opción de escalado retrasado cuando sea necesario.
  • Intel Gaudi2 demostró el entrenamiento en el modelo multimodal Stable Diffusion con 64 aceleradores en 20,2 minutos, utilizando BF16. En futuros puntos de referencia de entrenamiento de MLPerf, el rendimiento de Difusión estable se presentará en el tipo de datos FP8.
  • En ocho aceleradores Intel Gaudi2, los resultados de las pruebas comparativas fueron 13,27 y 15,92 minutos para BERT y ResNet-50, respectivamente, utilizando BF16.
  • Acerca de los resultados de Xeon de cuarta generación: Intel sigue siendo el único proveedor de CPU que envía resultados de MLPerf. Los resultados de MLPerf para 4th Gen Xeon resaltaron su sólido desempeño:
  • Intel presentó resultados para RESNet50, RetinaNet, BERT y DLRM dcnv2. Los resultados de los procesadores escalables Intel Xeon de cuarta generación para ResNet50, RetinaNet y BERT fueron similares a los sólidos resultados de rendimiento listos para usar presentados para la prueba comparativa MLPerf de junio de 2023.
  • DLRM dcnv2 es un nuevo modelo presentado en junio, en el que la CPU demuestra un tiempo de entrenamiento de 227 minutos utilizando solo cuatro nodos.

Comparte esta historia

Facebook

Gorjeo



Source link-29