2024 - AMD lanza el acelerador de GPU con IA Instinct MI300X, hasta un 60% más rápido que NVIDIA H100

AMD ha anunciado el lanzamiento oficial de su acelerador GPU AI insignia, el MI300X, que ofrece un rendimiento hasta un 60% mejor que el H100 de NVIDIA.

AMD finalmente tiene la GPU para enfrentarse a NVIDIA en el segmento de IA, MI300X hasta un 60% más rápido que H100

La clase de aceleradores de IA AMD Instinct MI300 será otra potencia de chiplet, que utilizará tecnologías de empaquetado avanzadas de TSMC. Hoy, AMD no sólo anunció el lanzamiento de estos chips sino que también compartió las primeras pruebas de rendimiento del MI300X que lucen geniales. AMD utilizó por primera vez las especificaciones generales como comparación y sus ofertas de acelerador CDNA 3 (frente a NVIDIA H100):

Capacidad de memoria 2,4 veces mayor
Ancho de banda de memoria 1,6 veces mayor
1,3X TFLOPS del FP8
1,3X TFLOPS FP16
Hasta un 20 % más rápido que el H100 (Llama 2 70B) en una comparación 1 contra 1
Hasta un 20 % más rápido que el H100 (FlashAttention 2) en comparación 1 contra 1
Hasta un 40% más rápido que H100 (Llama 2 70B) en servidor 8v8
Hasta un 60 % más rápido que el H100 (Bloom 176B) en un servidor 8v8

En general, LLM Kernel TFLOP, el MI300X ofrece hasta un 20% más de rendimiento en FlashAttention-2 y Llama 2 70B. Mirando desde una perspectiva de plataforma que compara una solución 8x MI300X con una solución 8X H100, vemos una ganancia mucho mayor del 40% en Llama 2 70B y una ganancia del 60% en Bloom 176B.

AMD menciona que en rendimiento de entrenamiento, el MI300X está a la par de la competencia (H100) y ofrece precio/rendimiento competitivo mientras brilla en cargas de trabajo de inferencia.

La fuerza impulsora detrás de los últimos aceleradores MI300 es ROCm 6.0. La pila de software se ha actualizado a la última versión con nuevas y potentes funciones que incluyen soporte para varias cargas de trabajo de IA, como IA generativa y modelos de lenguaje grande.

La nueva pila de software admite los formatos informáticos más recientes, como FP16, Bf16 y FP8 (incluido Sparsity). Las optimizaciones se combinan para ofrecer una aceleración de hasta 2,6 veces en vLLM a través de bibliotecas de inferencia optimizadas, una aceleración de 1,4 veces en HIP Graph a través de un tiempo de ejecución optimizado y una aceleración de Flash Attention de 1,3 veces a través de kernels optimizados. Se espera ROCm 6 a finales de este mes junto con los aceleradores de IA MI300. Será interesante ver cómo se compara ROCm 6 con la última versión de la pila CUDA de NVIDIA, que es su verdadera competencia.

AMD Instinct MI300X: desafiando la supremacía de la IA de NVIDIA con CDNA 3 y una memoria enorme

El AMD Instinct MI300X es el chip que más se destacará ya que está dirigido a los aceleradores Hopper de NVIDIA y Gaudi de Intel dentro del segmento de IA. Este chip ha sido diseñado únicamente en la arquitectura CDNA 3 y están sucediendo muchas cosas. El chip albergará una combinación de IP de 5 nm y 6 nm, todos combinados para ofrecer hasta 153 mil millones de transistores (MI300X).

Se detallan los aceleradores de IA AMD Instinct MI300X y MI300A: CDNA 3 y Zen 4 se unen en un paquete avanzado Marvel 2 — Acelerador AMD Instinct MI300X.

Comenzando con el diseño, el intercalador principal se presenta con un troquel pasivo que alberga la capa de interconexión utilizando una solución Infinity Fabric de cuarta generación. El intercalador incluye un total de 28 troqueles que incluyen ocho paquetes HBM3, 16 troqueles ficticios entre los paquetes HBM y cuatro troqueles activos, y cada uno de estos troqueles activos tiene dos troqueles de cómputo.

Cada GCD basado en la arquitectura de GPU CDNA 3 presenta un total de 40 unidades de cómputo, lo que equivale a 2560 núcleos. Hay ocho matrices de cómputo (GCD) en total, lo que nos da un total de 320 unidades de cómputo y 20,480 unidades centrales. En cuanto a los rendimientos, AMD reducirá una pequeña porción de estos núcleos y veremos un total de 304 unidades de cómputo (38 CU por chiplet de GPU) habilitadas para un total de 19,456 procesadores de flujo.

Muere el acelerador AMD Instinct MI300X con CDNA 3.

La memoria es otra área en la que verá una gran mejora: el MI300X cuenta con un 50 % más de capacidad HBM3 que su predecesor, el MI250X (128 GB). Para lograr un grupo de memoria de 192 GB, AMD está equipando el MI300X con 8 pilas HBM3 y cada pila es de 12 Hi e incorpora circuitos integrados de 16 Gb que nos brindan 2 GB de capacidad por IC o 24 GB por pila.

La memoria ofrecerá hasta 5,3 TB/s de ancho de banda y 896 GB/s de Infinity Fabric Bandwidth. A modo de comparación, el próximo acelerador de IA H200 de NVIDIA ofrece capacidades de 141 GB, mientras que Gaudi 3 de Intel ofrecerá capacidades de 144 GB. Los grandes grupos de memoria son muy importantes en los LLM, que en su mayoría están vinculados a la memoria, y AMD puede mostrar su destreza en IA liderando el departamento de memoria. Para comparaciones:

Instinto MI300X – 192GB HBM3
Gaudí 3 – 144GB HBM3
H200 – 141GB HBM3e
MI300A- 128GB HBM3
MI250X – 128GB HBM2e
H100 – 96GB HBM3
Gaudí 2 – 96GB HBM2e

En términos de consumo de energía, el AMD Instinct MI300X tiene una potencia de 750 W, lo que supone un aumento del 50 % con respecto a los 500 W del Instinct MI250X y 50 W más que el NVIDIA H200.

Una configuración mostrada es la serie de servidores G593-ZX1/ZX2 de Gigabyte que ofrece hasta 8 aceleradores GPU MI300X y dos CPU AMD EPYC 9004. Estos sistemas estarán equipados con hasta ocho fuentes de alimentación de 3000W, para un total de 18000W de potencia. AMD también presentó su propia plataforma Instinct MI300X, que incluye 8 de estos chips aceleradores de IA, ofreciendo algunos números sólidos sobre la plataforma NVIDIA HGX H100. Algunos números compartidos por AMD incluyen:

Memoria HBM3 2,4 veces mayor (1,5 TB frente a 640 GB)
1,3 veces más FLOPS de cálculo (10,4 PF frente a 7,9 PF)
Ancho de banda bidireccional similar (896 GB/s frente a 900 GB/s)
Ancho de banda de anillo de un solo nodo similar (448 GB/s frente a 450 GB/s)
Capacidades de red similares (400 GbE frente a 400 GbE)
Protocolo PCIe similar (PCIe Gen 5 128 GB/s)

Por ahora, AMD debe saber que sus competidores también están avanzando a todo vapor en la moda de la IA: NVIDIA ya ha adelantado algunas cifras enormes para sus GPU Hopper H200 y Blackwell B100 de 2024 e Intel está preparando sus GPU Guadi 3 y Falcon Shores para su lanzamiento en los próximos años también. Empresas como Oracle, Dell, META y OpenAI han anunciado soporte para los chips Instinct MI300 AI de AMD en su ecosistema.

Una cosa es segura en este momento: los clientes de IA devorarán casi todo lo que puedan conseguir y todos se aprovecharán de eso. Pero AMD tiene una solución formidable que no solo pretende ser una alternativa a NVIDIA sino también un líder en el segmento de la IA.

Aceleradores AMD Radeon Instinct

Nombre del acelerador	AMD Instinto MI400	AMD Instinto MI300X	AMD Instinto MI300A	AMD Instinto MI250X	AMD Instinto MI250	AMD Instinto MI210	AMD Instinto MI100	AMD Radeon Instinto MI60	AMD Radeon Instinto MI50	AMD Radeon Instinto MI25	AMD Radeon Instinto MI8	AMD Radeon Instinto MI6
Arquitectura de CPU	Zen 5 (APU exaescala)	N / A	Zen 4 (APU exaescala)	N / A	N / A	N / A	N / A	N / A	N / A	N / A	N / A	N / A
Arquitectura de GPU	ADNC 4	Aqua Vanjaram (CDNA 3)	Aqua Vanjaram (CDNA 3)	Aldebarán (CDNA 2)	Aldebarán (CDNA 2)	Aldebarán (CDNA 2)	Arcturus (CDNA 1)	Vega 20	Vega 20	Vega 10	Fiyi XT	Polaris 10
Nodo de proceso GPU	4nm	5nm+6nm	5nm+6nm	6nm	6nm	6nm	FinFET de 7 nm	FinFET de 7 nm	FinFET de 7 nm	FinFET de 14 nm	28nm	FinFET de 14 nm
Chiplets de GPU	Por determinar	8 (MCM)	8 (MCM)	2 (MCM) 1 (por troquel)	2 (MCM) 1 (por troquel)	2 (MCM) 1 (por troquel)	1 (monolítico)	1 (monolítico)	1 (monolítico)	1 (monolítico)	1 (monolítico)	1 (monolítico)
Núcleos de GPU	Por determinar	19.456	14.592	14.080	13.312	6656	7680	4096	3840	4096	4096	2304
Velocidad de reloj de la GPU	Por determinar	2100MHz	2100MHz	1700MHz	1700MHz	1700MHz	1500MHz	1800MHz	1725MHz	1500MHz	1000MHz	1237MHz
Computación INT8	Por determinar	2614 TOPS	1961 TOPS	383 TOP	362 TOPS	181 TOPS	92.3 TOPS	N / A	N / A	N / A	N / A	N / A
Computación FP16	Por determinar	1.3 PFLOP	980,6 TFLOP	383 TFLOP	362 TFLOP	181 TFLOP	185 TFLOP	29,5 TFLOP	26,5 TFLOP	24,6 TFLOP	8.2 TFLOP	5.7 TFLOP
Computación FP32	Por determinar	163,4 TFLOP	122,6 TFLOP	95,7 TFLOP	90,5 TFLOP	45,3 TFLOP	23.1 TFLOP	14,7 TFLOP	13.3 TFLOP	12.3 TFLOP	8.2 TFLOP	5.7 TFLOP
Computación FP64	Por determinar	81,7 TFLOP	61,3 TFLOP	47,9 TFLOP	45,3 TFLOP	22,6 TFLOP	11,5 TFLOP	7.4 TFLOP	6.6 TFLOP	768 GFLOP	512 GFLOP	384 GFLOP
VRAM	Por determinar	192GB HBM3	128GB HBM3	128GB HBM2e	128GB HBM2e	64GB HBM2e	32GB HBM2	32GB HBM2	16GB HBM2	16GB HBM2	4GB HBM1	16GB GDDR5
Caché infinito	Por determinar	256 megas	256 megas	N / A	N / A	N / A	N / A	N / A	N / A	N / A	N / A	N / A
Reloj de la memoria	Por determinar	5,2 Gbit/s	5,2 Gbit/s	3,2 Gbps	3,2 Gbps	3,2 Gbps	1200MHz	1000MHz	1000MHz	945MHz	500MHz	1750MHz
Autobús de memoria	Por determinar	8192 bits	8192 bits	8192 bits	8192 bits	4096 bits	autobús de 4096 bits	autobús de 4096 bits	autobús de 4096 bits	autobús de 2048 bits	autobús de 4096 bits	autobús de 256 bits
ancho de banda de memoria	Por determinar	5,3 TB/s	5,3 TB/s	3,2 TB/s	3,2 TB/s	1,6 TB/s	1,23 TB/s	1TB/s	1TB/s	484GB/s	512GB/s	224GB/s
Factor de forma	Por determinar	OAM	Zócalo APU SH5	OAM	OAM	Tarjeta de doble ranura	Ranura doble, longitud completa	Ranura doble, longitud completa	Ranura doble, longitud completa	Ranura doble, longitud completa	Ranura doble, longitud media	Ranura única, longitud completa
Enfriamiento	Por determinar	Enfriamiento pasivo	Enfriamiento pasivo	Enfriamiento pasivo	Enfriamiento pasivo	Enfriamiento pasivo	Enfriamiento pasivo	Enfriamiento pasivo	Enfriamiento pasivo	Enfriamiento pasivo	Enfriamiento pasivo	Enfriamiento pasivo
TDP (máx.)	Por determinar	750W	760W	560W	500W	300W	300W	300W	300W	300W	175W	150W

Source link-29

Sam Altman está «avergonzado» de que OpenAI haya amenazado con revocar el capital si los empleados salientes no firman un acuerdo de confidencialidad

Eslovaquia tras el intento de asesinato: la presidenta Zuzana Caputova lucha por la paz en el país. Pero se le acaba el tiempo

Se revelan las recompensas de XDefiant Twitch Drops para la pretemporada; Obtendremos un mapa al mes y no todos a la vez para la nueva temporada confirmada

Toby Fox comparte una nueva actualización de desarrollo sobre el capítulo 4 de Deltarune

AMD lanza el acelerador de GPU con IA Instinct MI300X, hasta un 60% más rápido que NVIDIA H100

AMD finalmente tiene la GPU para enfrentarse a NVIDIA en el segmento de IA, MI300X hasta un 60% más rápido que H100

AMD Instinct MI300X: desafiando la supremacía de la IA de NVIDIA con CDNA 3 y una memoria enorme

Aceleradores AMD Radeon Instinct