AMD ha anunciado el lanzamiento oficial de su acelerador GPU AI insignia, el MI300X, que ofrece un rendimiento hasta un 60% mejor que el H100 de NVIDIA.
AMD finalmente tiene la GPU para enfrentarse a NVIDIA en el segmento de IA, MI300X hasta un 60% más rápido que H100
La clase de aceleradores de IA AMD Instinct MI300 será otra potencia de chiplet, que utilizará tecnologías de empaquetado avanzadas de TSMC. Hoy, AMD no sólo anunció el lanzamiento de estos chips sino que también compartió las primeras pruebas de rendimiento del MI300X que lucen geniales. AMD utilizó por primera vez las especificaciones generales como comparación y sus ofertas de acelerador CDNA 3 (frente a NVIDIA H100):
- Capacidad de memoria 2,4 veces mayor
- Ancho de banda de memoria 1,6 veces mayor
- 1,3X TFLOPS del FP8
- 1,3X TFLOPS FP16
- Hasta un 20 % más rápido que el H100 (Llama 2 70B) en una comparación 1 contra 1
- Hasta un 20 % más rápido que el H100 (FlashAttention 2) en comparación 1 contra 1
- Hasta un 40% más rápido que H100 (Llama 2 70B) en servidor 8v8
- Hasta un 60 % más rápido que el H100 (Bloom 176B) en un servidor 8v8
En general, LLM Kernel TFLOP, el MI300X ofrece hasta un 20% más de rendimiento en FlashAttention-2 y Llama 2 70B. Mirando desde una perspectiva de plataforma que compara una solución 8x MI300X con una solución 8X H100, vemos una ganancia mucho mayor del 40% en Llama 2 70B y una ganancia del 60% en Bloom 176B.
AMD menciona que en rendimiento de entrenamiento, el MI300X está a la par de la competencia (H100) y ofrece precio/rendimiento competitivo mientras brilla en cargas de trabajo de inferencia.
La fuerza impulsora detrás de los últimos aceleradores MI300 es ROCm 6.0. La pila de software se ha actualizado a la última versión con nuevas y potentes funciones que incluyen soporte para varias cargas de trabajo de IA, como IA generativa y modelos de lenguaje grande.
La nueva pila de software admite los formatos informáticos más recientes, como FP16, Bf16 y FP8 (incluido Sparsity). Las optimizaciones se combinan para ofrecer una aceleración de hasta 2,6 veces en vLLM a través de bibliotecas de inferencia optimizadas, una aceleración de 1,4 veces en HIP Graph a través de un tiempo de ejecución optimizado y una aceleración de Flash Attention de 1,3 veces a través de kernels optimizados. Se espera ROCm 6 a finales de este mes junto con los aceleradores de IA MI300. Será interesante ver cómo se compara ROCm 6 con la última versión de la pila CUDA de NVIDIA, que es su verdadera competencia.
AMD Instinct MI300X: desafiando la supremacía de la IA de NVIDIA con CDNA 3 y una memoria enorme
El AMD Instinct MI300X es el chip que más se destacará ya que está dirigido a los aceleradores Hopper de NVIDIA y Gaudi de Intel dentro del segmento de IA. Este chip ha sido diseñado únicamente en la arquitectura CDNA 3 y están sucediendo muchas cosas. El chip albergará una combinación de IP de 5 nm y 6 nm, todos combinados para ofrecer hasta 153 mil millones de transistores (MI300X).
Comenzando con el diseño, el intercalador principal se presenta con un troquel pasivo que alberga la capa de interconexión utilizando una solución Infinity Fabric de cuarta generación. El intercalador incluye un total de 28 troqueles que incluyen ocho paquetes HBM3, 16 troqueles ficticios entre los paquetes HBM y cuatro troqueles activos, y cada uno de estos troqueles activos tiene dos troqueles de cómputo.
Cada GCD basado en la arquitectura de GPU CDNA 3 presenta un total de 40 unidades de cómputo, lo que equivale a 2560 núcleos. Hay ocho matrices de cómputo (GCD) en total, lo que nos da un total de 320 unidades de cómputo y 20,480 unidades centrales. En cuanto a los rendimientos, AMD reducirá una pequeña porción de estos núcleos y veremos un total de 304 unidades de cómputo (38 CU por chiplet de GPU) habilitadas para un total de 19,456 procesadores de flujo.
La memoria es otra área en la que verá una gran mejora: el MI300X cuenta con un 50 % más de capacidad HBM3 que su predecesor, el MI250X (128 GB). Para lograr un grupo de memoria de 192 GB, AMD está equipando el MI300X con 8 pilas HBM3 y cada pila es de 12 Hi e incorpora circuitos integrados de 16 Gb que nos brindan 2 GB de capacidad por IC o 24 GB por pila.
La memoria ofrecerá hasta 5,3 TB/s de ancho de banda y 896 GB/s de Infinity Fabric Bandwidth. A modo de comparación, el próximo acelerador de IA H200 de NVIDIA ofrece capacidades de 141 GB, mientras que Gaudi 3 de Intel ofrecerá capacidades de 144 GB. Los grandes grupos de memoria son muy importantes en los LLM, que en su mayoría están vinculados a la memoria, y AMD puede mostrar su destreza en IA liderando el departamento de memoria. Para comparaciones:
- Instinto MI300X – 192GB HBM3
- Gaudí 3 – 144GB HBM3
- H200 – 141GB HBM3e
- MI300A- 128GB HBM3
- MI250X – 128GB HBM2e
- H100 – 96GB HBM3
- Gaudí 2 – 96GB HBM2e
En términos de consumo de energía, el AMD Instinct MI300X tiene una potencia de 750 W, lo que supone un aumento del 50 % con respecto a los 500 W del Instinct MI250X y 50 W más que el NVIDIA H200.
Una configuración mostrada es la serie de servidores G593-ZX1/ZX2 de Gigabyte que ofrece hasta 8 aceleradores GPU MI300X y dos CPU AMD EPYC 9004. Estos sistemas estarán equipados con hasta ocho fuentes de alimentación de 3000W, para un total de 18000W de potencia. AMD también presentó su propia plataforma Instinct MI300X, que incluye 8 de estos chips aceleradores de IA, ofreciendo algunos números sólidos sobre la plataforma NVIDIA HGX H100. Algunos números compartidos por AMD incluyen:
- Memoria HBM3 2,4 veces mayor (1,5 TB frente a 640 GB)
- 1,3 veces más FLOPS de cálculo (10,4 PF frente a 7,9 PF)
- Ancho de banda bidireccional similar (896 GB/s frente a 900 GB/s)
- Ancho de banda de anillo de un solo nodo similar (448 GB/s frente a 450 GB/s)
- Capacidades de red similares (400 GbE frente a 400 GbE)
- Protocolo PCIe similar (PCIe Gen 5 128 GB/s)
Por ahora, AMD debe saber que sus competidores también están avanzando a todo vapor en la moda de la IA: NVIDIA ya ha adelantado algunas cifras enormes para sus GPU Hopper H200 y Blackwell B100 de 2024 e Intel está preparando sus GPU Guadi 3 y Falcon Shores para su lanzamiento en los próximos años también. Empresas como Oracle, Dell, META y OpenAI han anunciado soporte para los chips Instinct MI300 AI de AMD en su ecosistema.
Una cosa es segura en este momento: los clientes de IA devorarán casi todo lo que puedan conseguir y todos se aprovecharán de eso. Pero AMD tiene una solución formidable que no solo pretende ser una alternativa a NVIDIA sino también un líder en el segmento de la IA.
Aceleradores AMD Radeon Instinct
Nombre del acelerador | AMD Instinto MI400 | AMD Instinto MI300X | AMD Instinto MI300A | AMD Instinto MI250X | AMD Instinto MI250 | AMD Instinto MI210 | AMD Instinto MI100 | AMD Radeon Instinto MI60 | AMD Radeon Instinto MI50 | AMD Radeon Instinto MI25 | AMD Radeon Instinto MI8 | AMD Radeon Instinto MI6 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Arquitectura de CPU | Zen 5 (APU exaescala) | N / A | Zen 4 (APU exaescala) | N / A | N / A | N / A | N / A | N / A | N / A | N / A | N / A | N / A |
Arquitectura de GPU | ADNC 4 | Aqua Vanjaram (CDNA 3) | Aqua Vanjaram (CDNA 3) | Aldebarán (CDNA 2) | Aldebarán (CDNA 2) | Aldebarán (CDNA 2) | Arcturus (CDNA 1) | Vega 20 | Vega 20 | Vega 10 | Fiyi XT | Polaris 10 |
Nodo de proceso GPU | 4nm | 5nm+6nm | 5nm+6nm | 6nm | 6nm | 6nm | FinFET de 7 nm | FinFET de 7 nm | FinFET de 7 nm | FinFET de 14 nm | 28nm | FinFET de 14 nm |
Chiplets de GPU | Por determinar | 8 (MCM) | 8 (MCM) | 2 (MCM) 1 (por troquel) |
2 (MCM) 1 (por troquel) |
2 (MCM) 1 (por troquel) |
1 (monolítico) | 1 (monolítico) | 1 (monolítico) | 1 (monolítico) | 1 (monolítico) | 1 (monolítico) |
Núcleos de GPU | Por determinar | 19.456 | 14.592 | 14.080 | 13.312 | 6656 | 7680 | 4096 | 3840 | 4096 | 4096 | 2304 |
Velocidad de reloj de la GPU | Por determinar | 2100MHz | 2100MHz | 1700MHz | 1700MHz | 1700MHz | 1500MHz | 1800MHz | 1725MHz | 1500MHz | 1000MHz | 1237MHz |
Computación INT8 | Por determinar | 2614 TOPS | 1961 TOPS | 383 TOP | 362 TOPS | 181 TOPS | 92.3 TOPS | N / A | N / A | N / A | N / A | N / A |
Computación FP16 | Por determinar | 1.3 PFLOP | 980,6 TFLOP | 383 TFLOP | 362 TFLOP | 181 TFLOP | 185 TFLOP | 29,5 TFLOP | 26,5 TFLOP | 24,6 TFLOP | 8.2 TFLOP | 5.7 TFLOP |
Computación FP32 | Por determinar | 163,4 TFLOP | 122,6 TFLOP | 95,7 TFLOP | 90,5 TFLOP | 45,3 TFLOP | 23.1 TFLOP | 14,7 TFLOP | 13.3 TFLOP | 12.3 TFLOP | 8.2 TFLOP | 5.7 TFLOP |
Computación FP64 | Por determinar | 81,7 TFLOP | 61,3 TFLOP | 47,9 TFLOP | 45,3 TFLOP | 22,6 TFLOP | 11,5 TFLOP | 7.4 TFLOP | 6.6 TFLOP | 768 GFLOP | 512 GFLOP | 384 GFLOP |
VRAM | Por determinar | 192GB HBM3 | 128GB HBM3 | 128GB HBM2e | 128GB HBM2e | 64GB HBM2e | 32GB HBM2 | 32GB HBM2 | 16GB HBM2 | 16GB HBM2 | 4GB HBM1 | 16GB GDDR5 |
Caché infinito | Por determinar | 256 megas | 256 megas | N / A | N / A | N / A | N / A | N / A | N / A | N / A | N / A | N / A |
Reloj de la memoria | Por determinar | 5,2 Gbit/s | 5,2 Gbit/s | 3,2 Gbps | 3,2 Gbps | 3,2 Gbps | 1200MHz | 1000MHz | 1000MHz | 945MHz | 500MHz | 1750MHz |
Autobús de memoria | Por determinar | 8192 bits | 8192 bits | 8192 bits | 8192 bits | 4096 bits | autobús de 4096 bits | autobús de 4096 bits | autobús de 4096 bits | autobús de 2048 bits | autobús de 4096 bits | autobús de 256 bits |
ancho de banda de memoria | Por determinar | 5,3 TB/s | 5,3 TB/s | 3,2 TB/s | 3,2 TB/s | 1,6 TB/s | 1,23 TB/s | 1TB/s | 1TB/s | 484GB/s | 512GB/s | 224GB/s |
Factor de forma | Por determinar | OAM | Zócalo APU SH5 | OAM | OAM | Tarjeta de doble ranura | Ranura doble, longitud completa | Ranura doble, longitud completa | Ranura doble, longitud completa | Ranura doble, longitud completa | Ranura doble, longitud media | Ranura única, longitud completa |
Enfriamiento | Por determinar | Enfriamiento pasivo | Enfriamiento pasivo | Enfriamiento pasivo | Enfriamiento pasivo | Enfriamiento pasivo | Enfriamiento pasivo | Enfriamiento pasivo | Enfriamiento pasivo | Enfriamiento pasivo | Enfriamiento pasivo | Enfriamiento pasivo |
TDP (máx.) | Por determinar | 750W | 760W | 560W | 500W | 300W | 300W | 300W | 300W | 300W | 175W | 150W |