AMD lanza el acelerador de GPU con IA Instinct MI300X, hasta un 60% más rápido que NVIDIA H100


AMD ha anunciado el lanzamiento oficial de su acelerador GPU AI insignia, el MI300X, que ofrece un rendimiento hasta un 60% mejor que el H100 de NVIDIA.

AMD finalmente tiene la GPU para enfrentarse a NVIDIA en el segmento de IA, MI300X hasta un 60% más rápido que H100

La clase de aceleradores de IA AMD Instinct MI300 será otra potencia de chiplet, que utilizará tecnologías de empaquetado avanzadas de TSMC. Hoy, AMD no sólo anunció el lanzamiento de estos chips sino que también compartió las primeras pruebas de rendimiento del MI300X que lucen geniales. AMD utilizó por primera vez las especificaciones generales como comparación y sus ofertas de acelerador CDNA 3 (frente a NVIDIA H100):

  • Capacidad de memoria 2,4 veces mayor
  • Ancho de banda de memoria 1,6 veces mayor
  • 1,3X TFLOPS del FP8
  • 1,3X TFLOPS FP16
  • Hasta un 20 % más rápido que el H100 (Llama 2 70B) en una comparación 1 contra 1
  • Hasta un 20 % más rápido que el H100 (FlashAttention 2) en comparación 1 contra 1
  • Hasta un 40% más rápido que H100 (Llama 2 70B) en servidor 8v8
  • Hasta un 60 % más rápido que el H100 (Bloom 176B) en un servidor 8v8

En general, LLM Kernel TFLOP, el MI300X ofrece hasta un 20% más de rendimiento en FlashAttention-2 y Llama 2 70B. Mirando desde una perspectiva de plataforma que compara una solución 8x MI300X con una solución 8X H100, vemos una ganancia mucho mayor del 40% en Llama 2 70B y una ganancia del 60% en Bloom 176B.

AMD menciona que en rendimiento de entrenamiento, el MI300X está a la par de la competencia (H100) y ofrece precio/rendimiento competitivo mientras brilla en cargas de trabajo de inferencia.

La fuerza impulsora detrás de los últimos aceleradores MI300 es ROCm 6.0. La pila de software se ha actualizado a la última versión con nuevas y potentes funciones que incluyen soporte para varias cargas de trabajo de IA, como IA generativa y modelos de lenguaje grande.

La nueva pila de software admite los formatos informáticos más recientes, como FP16, Bf16 y FP8 (incluido Sparsity). Las optimizaciones se combinan para ofrecer una aceleración de hasta 2,6 veces en vLLM a través de bibliotecas de inferencia optimizadas, una aceleración de 1,4 veces en HIP Graph a través de un tiempo de ejecución optimizado y una aceleración de Flash Attention de 1,3 veces a través de kernels optimizados. Se espera ROCm 6 a finales de este mes junto con los aceleradores de IA MI300. Será interesante ver cómo se compara ROCm 6 con la última versión de la pila CUDA de NVIDIA, que es su verdadera competencia.

AMD Instinct MI300X: desafiando la supremacía de la IA de NVIDIA con CDNA 3 y una memoria enorme

El AMD Instinct MI300X es el chip que más se destacará ya que está dirigido a los aceleradores Hopper de NVIDIA y Gaudi de Intel dentro del segmento de IA. Este chip ha sido diseñado únicamente en la arquitectura CDNA 3 y están sucediendo muchas cosas. El chip albergará una combinación de IP de 5 nm y 6 nm, todos combinados para ofrecer hasta 153 mil millones de transistores (MI300X).

Acelerador AMD Instinct MI300X.

Comenzando con el diseño, el intercalador principal se presenta con un troquel pasivo que alberga la capa de interconexión utilizando una solución Infinity Fabric de cuarta generación. El intercalador incluye un total de 28 troqueles que incluyen ocho paquetes HBM3, 16 troqueles ficticios entre los paquetes HBM y cuatro troqueles activos, y cada uno de estos troqueles activos tiene dos troqueles de cómputo.

Cada GCD basado en la arquitectura de GPU CDNA 3 presenta un total de 40 unidades de cómputo, lo que equivale a 2560 núcleos. Hay ocho matrices de cómputo (GCD) en total, lo que nos da un total de 320 unidades de cómputo y 20,480 unidades centrales. En cuanto a los rendimientos, AMD reducirá una pequeña porción de estos núcleos y veremos un total de 304 unidades de cómputo (38 CU por chiplet de GPU) habilitadas para un total de 19,456 procesadores de flujo.

Muere el acelerador AMD Instinct MI300X con CDNA 3.

La memoria es otra área en la que verá una gran mejora: el MI300X cuenta con un 50 % más de capacidad HBM3 que su predecesor, el MI250X (128 GB). Para lograr un grupo de memoria de 192 GB, AMD está equipando el MI300X con 8 pilas HBM3 y cada pila es de 12 Hi e incorpora circuitos integrados de 16 Gb que nos brindan 2 GB de capacidad por IC o 24 GB por pila.

La memoria ofrecerá hasta 5,3 TB/s de ancho de banda y 896 GB/s de Infinity Fabric Bandwidth. A modo de comparación, el próximo acelerador de IA H200 de NVIDIA ofrece capacidades de 141 GB, mientras que Gaudi 3 de Intel ofrecerá capacidades de 144 GB. Los grandes grupos de memoria son muy importantes en los LLM, que en su mayoría están vinculados a la memoria, y AMD puede mostrar su destreza en IA liderando el departamento de memoria. Para comparaciones:

  • Instinto MI300X – 192GB HBM3
  • Gaudí 3 – 144GB HBM3
  • H200 – 141GB HBM3e
  • MI300A- 128GB HBM3
  • MI250X – 128GB HBM2e
  • H100 – 96GB HBM3
  • Gaudí 2 – 96GB HBM2e

En términos de consumo de energía, el AMD Instinct MI300X tiene una potencia de 750 W, lo que supone un aumento del 50 % con respecto a los 500 W del Instinct MI250X y 50 W más que el NVIDIA H200.

Una configuración mostrada es la serie de servidores G593-ZX1/ZX2 de Gigabyte que ofrece hasta 8 aceleradores GPU MI300X y dos CPU AMD EPYC 9004. Estos sistemas estarán equipados con hasta ocho fuentes de alimentación de 3000W, para un total de 18000W de potencia. AMD también presentó su propia plataforma Instinct MI300X, que incluye 8 de estos chips aceleradores de IA, ofreciendo algunos números sólidos sobre la plataforma NVIDIA HGX H100. Algunos números compartidos por AMD incluyen:

  • Memoria HBM3 2,4 veces mayor (1,5 TB frente a 640 GB)
  • 1,3 veces más FLOPS de cálculo (10,4 PF frente a 7,9 PF)
  • Ancho de banda bidireccional similar (896 GB/s frente a 900 GB/s)
  • Ancho de banda de anillo de un solo nodo similar (448 GB/s frente a 450 GB/s)
  • Capacidades de red similares (400 GbE frente a 400 GbE)
  • Protocolo PCIe similar (PCIe Gen 5 128 GB/s)

Por ahora, AMD debe saber que sus competidores también están avanzando a todo vapor en la moda de la IA: NVIDIA ya ha adelantado algunas cifras enormes para sus GPU Hopper H200 y Blackwell B100 de 2024 e Intel está preparando sus GPU Guadi 3 y Falcon Shores para su lanzamiento en los próximos años también. Empresas como Oracle, Dell, META y OpenAI han anunciado soporte para los chips Instinct MI300 AI de AMD en su ecosistema.

Una cosa es segura en este momento: los clientes de IA devorarán casi todo lo que puedan conseguir y todos se aprovecharán de eso. Pero AMD tiene una solución formidable que no solo pretende ser una alternativa a NVIDIA sino también un líder en el segmento de la IA.

Aceleradores AMD Radeon Instinct

Nombre del acelerador AMD Instinto MI400 AMD Instinto MI300X AMD Instinto MI300A AMD Instinto MI250X AMD Instinto MI250 AMD Instinto MI210 AMD Instinto MI100 AMD Radeon Instinto MI60 AMD Radeon Instinto MI50 AMD Radeon Instinto MI25 AMD Radeon Instinto MI8 AMD Radeon Instinto MI6
Arquitectura de CPU Zen 5 (APU exaescala) N / A Zen 4 (APU exaescala) N / A N / A N / A N / A N / A N / A N / A N / A N / A
Arquitectura de GPU ADNC 4 Aqua Vanjaram (CDNA 3) Aqua Vanjaram (CDNA 3) Aldebarán (CDNA 2) Aldebarán (CDNA 2) Aldebarán (CDNA 2) Arcturus (CDNA 1) Vega 20 Vega 20 Vega 10 Fiyi XT Polaris 10
Nodo de proceso GPU 4nm 5nm+6nm 5nm+6nm 6nm 6nm 6nm FinFET de 7 nm FinFET de 7 nm FinFET de 7 nm FinFET de 14 nm 28nm FinFET de 14 nm
Chiplets de GPU Por determinar 8 (MCM) 8 (MCM) 2 (MCM)
1 (por troquel)
2 (MCM)
1 (por troquel)
2 (MCM)
1 (por troquel)
1 (monolítico) 1 (monolítico) 1 (monolítico) 1 (monolítico) 1 (monolítico) 1 (monolítico)
Núcleos de GPU Por determinar 19.456 14.592 14.080 13.312 6656 7680 4096 3840 4096 4096 2304
Velocidad de reloj de la GPU Por determinar 2100MHz 2100MHz 1700MHz 1700MHz 1700MHz 1500MHz 1800MHz 1725MHz 1500MHz 1000MHz 1237MHz
Computación INT8 Por determinar 2614 TOPS 1961 TOPS 383 TOP 362 TOPS 181 TOPS 92.3 TOPS N / A N / A N / A N / A N / A
Computación FP16 Por determinar 1.3 PFLOP 980,6 TFLOP 383 TFLOP 362 TFLOP 181 TFLOP 185 TFLOP 29,5 TFLOP 26,5 TFLOP 24,6 TFLOP 8.2 TFLOP 5.7 TFLOP
Computación FP32 Por determinar 163,4 TFLOP 122,6 TFLOP 95,7 TFLOP 90,5 TFLOP 45,3 TFLOP 23.1 TFLOP 14,7 TFLOP 13.3 TFLOP 12.3 TFLOP 8.2 TFLOP 5.7 TFLOP
Computación FP64 Por determinar 81,7 TFLOP 61,3 TFLOP 47,9 TFLOP 45,3 TFLOP 22,6 TFLOP 11,5 TFLOP 7.4 TFLOP 6.6 TFLOP 768 GFLOP 512 GFLOP 384 GFLOP
VRAM Por determinar 192GB HBM3 128GB HBM3 128GB HBM2e 128GB HBM2e 64GB HBM2e 32GB HBM2 32GB HBM2 16GB HBM2 16GB HBM2 4GB HBM1 16GB GDDR5
Caché infinito Por determinar 256 megas 256 megas N / A N / A N / A N / A N / A N / A N / A N / A N / A
Reloj de la memoria Por determinar 5,2 Gbit/s 5,2 Gbit/s 3,2 Gbps 3,2 Gbps 3,2 Gbps 1200MHz 1000MHz 1000MHz 945MHz 500MHz 1750MHz
Autobús de memoria Por determinar 8192 bits 8192 bits 8192 bits 8192 bits 4096 bits autobús de 4096 bits autobús de 4096 bits autobús de 4096 bits autobús de 2048 bits autobús de 4096 bits autobús de 256 bits
ancho de banda de memoria Por determinar 5,3 TB/s 5,3 TB/s 3,2 TB/s 3,2 TB/s 1,6 TB/s 1,23 TB/s 1TB/s 1TB/s 484GB/s 512GB/s 224GB/s
Factor de forma Por determinar OAM Zócalo APU SH5 OAM OAM Tarjeta de doble ranura Ranura doble, longitud completa Ranura doble, longitud completa Ranura doble, longitud completa Ranura doble, longitud completa Ranura doble, longitud media Ranura única, longitud completa
Enfriamiento Por determinar Enfriamiento pasivo Enfriamiento pasivo Enfriamiento pasivo Enfriamiento pasivo Enfriamiento pasivo Enfriamiento pasivo Enfriamiento pasivo Enfriamiento pasivo Enfriamiento pasivo Enfriamiento pasivo Enfriamiento pasivo
TDP (máx.) Por determinar 750W 760W 560W 500W 300W 300W 300W 300W 300W 175W 150W

Comparte esta historia

Facebook

Gorjeo



Source link-29