AMD Instinct MI250 ve un rendimiento mejorado de IA con PyTorch 2.0 y ROCm 5.4, se acerca a las GPU NVIDIA en LLM


Las GPU AMD Instinct, como la MI250, han recibido un gran impulso en el rendimiento de la IA, acercándolas a los chips de NVIDIA.

AMD se acerca a las velocidades de entrenamiento LLM AI de NVIDIA con las versiones PyTorch 2.0 y ROCm 5.4, Instinct MI250 casi a la par con A100

En una publicación de blog de MosaicML, el proveedor de software mostró cómo PyTorch 2.0 y ROCM 5.4 ayudan a aumentar el rendimiento de las GPU de los centros de datos de AMD, como la serie Instinct, sin cambios en el código. El proveedor de software ofrece soporte mejorado para capacitación ML y LLM en una amplia gama de soluciones de NVIDIA y AMD que admiten precisión de 16 bits (FP16 / BF16). Los lanzamientos recientes han permitido que MosaicML obtenga un rendimiento aún mejor de los aceleradores AMD Instinct con el uso de su LLM Foundry Stack.

Los aspectos más destacados de los resultados fueron los siguientes:

  • La formación LLM fue estable. Con nuestra pila de capacitación LLM Foundry altamente determinista, la capacitación de un modelo LLM MPT-1B en AMD MI250 frente a NVIDIA A100 produjo curvas de pérdida casi idénticas al comenzar desde el mismo punto de control. ¡Incluso pudimos alternar entre AMD y NVIDIA en una sola ejecución de entrenamiento!
  • El desempeño fue competitivo con nuestros sistemas A100 existentes. Perfilamos el rendimiento de entrenamiento de los modelos MPT de parámetros 1B a 13B y descubrimos que el rendimiento por GPU de MI250 estaba dentro del 80 % del A100-40GB y dentro del 73 % del A100-80GB. Esperamos que esta brecha se cierre a medida que mejore el software de AMD.
  • Todo simplemente funciona. No se necesitaron cambios de código.

Si bien la GPU Instinct MI250 de AMD ofreció una ligera ventaja sobre las GPU NVIDIA A100 en términos de FLOP FP16 (sin escasez), capacidad de memoria y ancho de banda de la memoria, debe tenerse en cuenta que MI250 solo puede escalar hasta 4 aceleradores, mientras que las GPU NVIDIA A100 pueden escalar hasta 8 GPU en un solo sistema.

Echando un vistazo más profundo, tanto el hardware de AMD como el de NVIDIA pudieron lanzar cargas de trabajo de entrenamiento de IA con fundición LLM con facilidad. El rendimiento se evaluó en dos cargas de trabajo de entrenamiento, primero fue el rendimiento general (Tokens/Seg/GPU) y el otro fue el rendimiento general (TFLOP/Sec/GPU).

El rendimiento de entrenamiento de IA se realizó en una gama de modelos de 1 mil millones a 13 mil millones de parámetros. Las pruebas mostraron que el AMD Instinct MI250 entregó el 80 % del rendimiento del A100 de 40 GB de NVIDIA y el 73 % del rendimiento de la variante de 80 GB. NVIDIA mantuvo su posición de liderazgo en todos los puntos de referencia, pero debe mencionarse que también tenían el doble de GPU funcionando en las pruebas. Además, se menciona que se esperan más mejoras en el lado del entrenamiento para los aceleradores AMD Instinct en el futuro.

AMD ya está preparando sus aceleradores Instinct MI300 de próxima generación para cargas de trabajo de HPC e IA. La compañía demostró cómo el chip manejó un modelo LLM con 40 mil millones de parámetros en una sola solución. El MI300 también escalará en hasta 8 configuraciones de GPU y APU. El chip competirá contra el H100 de NVIDIA y cualquier cosa en la que el equipo verde haya estado trabajando para su lanzamiento el próximo año. El MI300 ofrecerá la mayor capacidad de memoria en cualquier GPU con 192 GB HBM3 y un ancho de banda mucho mayor que la solución de NVIDIA. Será interesante ver si estos avances de software en el frente de AMD serán suficientes para capturar la participación de mercado de más del 90% que NVIDIA ha adquirido dentro del espacio de IA.

Comparte esta historia

Facebook

Gorjeo



Source link-29