CDNA 3 y Zen 4 se unen en una maravilla de empaque avanzado


AMD Instinct MI300X y MI300A son algunos de los aceleradores más esperados en el segmento de IA y se lanzarán el próximo mes. Hay mucha anticipación en torno a la primera obra maestra de IA en toda regla de AMD y hoy pensamos en brindarle un resumen de qué esperar de esta maravilla técnica.

AMD Instinct MI300X está diseñado para cargas de trabajo de IA aceleradas por GPU, mientras que MI300A aborda HPC con el paquete de APU técnicamente más avanzado

El 6 de diciembre, AMD organizará su discurso de apertura «Advancing AI», donde una de las principales agendas es realizar una presentación completa de la familia de aceleradores Instinct de próxima generación con nombre en código MI300. Esta nueva familia acelerada de GPU y CPU será el producto líder del segmento de IA, que es el número uno de AMD y la prioridad estratégica más importante en este momento, ya que finalmente lanza un producto que no solo es avanzado sino que también está diseñado para cumplir con los requisitos críticos. Requisito de IA dentro de la industria. La clase MI300 de aceleradores de IA será otra potencia de chiplet, que utilizará tecnologías de empaquetado avanzadas de TSMC, así que veamos qué hay debajo del capó de estos monstruos de IA.

AMD Instinct MI300X: desafiando la supremacía de la IA de NVIDIA con CDNA 3 y una memoria enorme

El AMD Instinct MI300X es definitivamente el chip que más se destacará, ya que está claramente dirigido a los aceleradores Hopper de NVIDIA y Gaudí de Intel dentro del segmento de IA. Este chip ha sido diseñado únicamente en la arquitectura CDNA 3 y están sucediendo muchas cosas. El chip albergará una combinación de IP de 5 nm y 6 nm, todos combinados para ofrecer hasta 153 mil millones de transistores (MI300X).

Acelerador AMD Instinct MI300X.

Comenzando con el diseño, el intercalador principal se presenta con un troquel pasivo que alberga la capa de interconexión utilizando una solución Infinity Fabric de próxima generación. El intercalador incluye un total de 28 troqueles que incluyen ocho paquetes HBM3, 16 troqueles ficticios entre los paquetes HBM y cuatro troqueles activos, y cada uno de estos troqueles activos tiene dos troqueles de cómputo.

Cada GCD basado en la arquitectura de GPU CDNA 3 presenta un total de 40 unidades de cómputo, lo que equivale a 2560 núcleos. Hay ocho matrices de cómputo (GCD) en total, lo que nos da un total de 320 unidades de cómputo y 20,480 unidades centrales. En cuanto al rendimiento, AMD reducirá una pequeña parte de estos núcleos y obtendremos más detalles sobre las configuraciones exactas dentro de un mes.

Muere el acelerador AMD Instinct MI300X con CDNA 3.

La memoria es otra área en la que verá una gran mejora: el MI300X cuenta con un 50 % más de capacidad HBM3 que su predecesor, el MI250X (128 GB). Para lograr un grupo de memoria de 192 GB, AMD está equipando el MI300X con 8 pilas HBM3 y cada pila es de 12 Hi e incorpora circuitos integrados de 16 Gb que nos brindan 2 GB de capacidad por IC o 24 GB por pila.

La memoria ofrecerá hasta 5,2 TB/s de ancho de banda y 896 GB/s de Infinity Fabric Bandwidth. A modo de comparación, el próximo acelerador de IA H200 de NVIDIA ofrece capacidades de 141 GB, mientras que Gaudi 3 de Intel ofrecerá capacidades de 144 GB. Los grandes grupos de memoria son muy importantes en los LLM, que en su mayoría están vinculados a la memoria, y AMD definitivamente puede mostrar su destreza en IA liderando el departamento de memoria. Para comparaciones:

  • Instinto MI300X – 192GB HBM3
  • Gaudí 3 – 144GB HBM3
  • H200 – 141GB HBM3e
  • MI300A- 128GB HBM3
  • MI250X – 128GB HBM2e
  • H100 – 96GB HBM3
  • Gaudí 2 – 96GB HBM2e

En términos de consumo de energía, el AMD Instinct MI300X tiene una potencia de 750 W, lo que supone un aumento del 50 % con respecto a los 500 W del Instinct MI250X y 50 W más que el NVIDIA H200.

AMD Instinct MI300A: las APU exaescala densamente empaquetadas ahora son una realidad

Hemos esperado durante años a que AMD finalmente cumpla la promesa de una APU de clase exaescala y ese día se acerca a medida que nos acercamos al lanzamiento del Instinct MI300A. El empaque del MI300A es muy similar al del MI300X, excepto que utiliza capacidades de memoria optimizadas para TCO y núcleos Zen 4.

Acelerador AMD Instinct MI300A.

Uno de los troqueles activos tiene dos GCD CDNA 3 cortados y reemplazados por tres CCD Zen 4 que ofrecen su propio grupo separado de caché e IP centrales. Obtienes 8 núcleos y 16 subprocesos por CCD, lo que da un total de 24 núcleos y 48 subprocesos en el chip activo. También hay 24 MB de caché L2 (1 MB por núcleo) y un grupo de caché separado (32 MB por CCD). Cabe recordar que los GCD CDNA 3 también tienen la caché L2 separada.

Muere el acelerador AMD Instinct MI300A con CDNA 3 y Zen 4.

Resumiendo algunas de las características destacadas de los aceleradores AMD Instinct MI300, tenemos:

  • Primer paquete integrado de CPU+GPU
  • Apuntando al mercado de supercomputadoras a exaescala
  • AMD MI300A (CPU + GPU integradas)
  • AMD MI300X (solo GPU)
  • 153 mil millones de transistores
  • Hasta 24 Zen 4 núcleos
  • Arquitectura de GPU CDNA 3
  • Hasta 192 GB de memoria HBM3
  • Hasta 8 chiplets + 8 pilas de memoria (proceso de 5 nm + 6 nm)

Al reunir todo esto, AMD trabajará con sus socios y habilitadores del ecosistema para ofrecer aceleradores de IA MI300 en configuraciones de 8 vías con diseños SXM que se conectan a la placa base con conectores intermedios. Será interesante ver qué tipo de configuraciones se ofrecerán y, si bien las placas SXM son un hecho, también podemos esperar algunas variantes en los factores de forma PCI-E.

Por ahora, AMD debe saber que sus competidores también están avanzando a toda máquina en la moda de la IA: NVIDIA ya ha adelantado algunas cifras enormes para sus GPU Blackwell 2024 e Intel también está preparando sus GPU Guadi 3 y Falcon Shores para su lanzamiento en los próximos años. Una cosa es segura en este momento: los clientes de IA devorarán casi todo lo que puedan conseguir y todos se aprovecharán de eso. Pero AMD tiene una solución formidable que no solo apunta a ser una alternativa a NVIDIA sino un líder en el segmento de IA y esperamos que MI300 pueda ayudarlos a lograr ese éxito.

Aceleradores AMD Radeon Instinct

Nombre del acelerador AMD Instinto MI400 AMD Instinto MI300 AMD Instinto MI250X AMD Instinto MI250 AMD Instinto MI210 AMD Instinto MI100 AMD Radeon Instinto MI60 AMD Radeon Instinto MI50 AMD Radeon Instinto MI25 AMD Radeon Instinto MI8 AMD Radeon Instinto MI6
Arquitectura de CPU Zen 5 (APU exaescala) Zen 4 (APU exaescala) N / A N / A N / A N / A N / A N / A N / A N / A N / A
Arquitectura de GPU ADNC 4 Aqua Vanjaram (CDNA 3) Aldebarán (CDNA 2) Aldebarán (CDNA 2) Aldebarán (CDNA 2) Arcturus (CDNA 1) Vega 20 Vega 20 Vega 10 Fiyi XT Polaris 10
Nodo de proceso GPU 4nm 5nm+6nm 6nm 6nm 6nm FinFET de 7 nm FinFET de 7 nm FinFET de 7 nm FinFET de 14 nm 28nm FinFET de 14 nm
Chiplets de GPU Por determinar 8 (MCM) 2 (MCM)
1 (por troquel)
2 (MCM)
1 (por troquel)
2 (MCM)
1 (por troquel)
1 (monolítico) 1 (monolítico) 1 (monolítico) 1 (monolítico) 1 (monolítico) 1 (monolítico)
Núcleos de GPU Por determinar Hasta 19.456 14.080 13.312 6656 7680 4096 3840 4096 4096 2304
Velocidad de reloj de la GPU Por determinar por confirmar 1700MHz 1700MHz 1700MHz 1500MHz 1800MHz 1725MHz 1500MHz 1000MHz 1237MHz
Computación FP16 Por determinar por confirmar 383 TOP 362 TOP 181 mejores 185 TFLOP 29,5 TFLOP 26,5 TFLOP 24,6 TFLOP 8.2 TFLOP 5.7 TFLOP
Computación FP32 Por determinar por confirmar 95,7 TFLOP 90,5 TFLOP 45,3 TFLOP 23.1 TFLOP 14,7 TFLOP 13.3 TFLOP 12.3 TFLOP 8.2 TFLOP 5.7 TFLOP
Computación FP64 Por determinar por confirmar 47,9 TFLOP 45,3 TFLOP 22,6 TFLOP 11,5 TFLOP 7.4 TFLOP 6.6 TFLOP 768 GFLOP 512 GFLOP 384 GFLOP
VRAM Por determinar 192GB HBM3 128GB HBM2e 128GB HBM2e 64GB HBM2e 32GB HBM2 32GB HBM2 16GB HBM2 16GB HBM2 4GB HBM1 16GB GDDR5
Reloj de la memoria Por determinar 5,2 Gbit/s 3,2 Gbps 3,2 Gbps 3,2 Gbps 1200MHz 1000MHz 1000MHz 945MHz 500MHz 1750MHz
Autobús de memoria Por determinar 8192 bits 8192 bits 8192 bits 4096 bits autobús de 4096 bits autobús de 4096 bits autobús de 4096 bits autobús de 2048 bits autobús de 4096 bits autobús de 256 bits
ancho de banda de memoria Por determinar 5,2 TB/s 3,2 TB/s 3,2 TB/s 1,6 TB/s 1,23 TB/s 1TB/s 1TB/s 484GB/s 512GB/s 224GB/s
Factor de forma Por determinar OAM OAM OAM Tarjeta de doble ranura Ranura doble, longitud completa Ranura doble, longitud completa Ranura doble, longitud completa Ranura doble, longitud completa Ranura doble, longitud media Ranura única, longitud completa
Enfriamiento Por determinar Enfriamiento pasivo Enfriamiento pasivo Enfriamiento pasivo Enfriamiento pasivo Enfriamiento pasivo Enfriamiento pasivo Enfriamiento pasivo Enfriamiento pasivo Enfriamiento pasivo Enfriamiento pasivo
TDP (máx.) Por determinar 750W 560W 500W 300W 300W 300W 300W 300W 175W 150W

Comparte esta historia

Facebook

Gorjeo



Source link-29