AMD ofrece un primer vistazo al diagrama de bloques de GPU MCM de la serie Instinct MI200 de Aldebaran “CDNA 2”


AMD ha ofrecido más información sobre su serie Instinct MI200 impulsada por GPU CDNA 2 «Aldebaran», que es la primera en presentar un diseño MCM. Las GPU Instinct MI200 han sido detalladas por AMD Architects, Alan Smith y Norman James, durante Hot Chips 34.

AMD ofrece un primer vistazo al diagrama de bloques de GPU de la serie MI200 Instinct «CDNA 2» de Aldebaran, el primero en HPC en presentar un diseño MCM

AMD es oficialmente el primero en la tecnología MCM y lo está haciendo con un gran producto que es su Instinct MI200 con nombre en código Aldebaran. La GPU AMD Aldebaran vendrá en varias formas y tamaños, pero todo se basa en la nueva arquitectura CDNA 2, que es la variación más refinada de Vega. Algunas de las características principales antes de entrar en detalles se enumeran a continuación:

  • Arquitectura AMD CDNA 2 – Núcleos de matriz de segunda generación que aceleran las operaciones de matriz FP64 y FP32, brindando hasta 4 veces el rendimiento máximo teórico de FP64 en comparación con las GPU AMD de generación anterior.
  • Liderazgo en tecnología de embalaje – El primer diseño de GPU multi-die de la industria con tecnología 2.5D Elevated Fanout Bridge (EFB) ofrece 1,8 veces más núcleos y 2,7 ​​veces más ancho de banda de memoria en comparación con las GPU AMD de la generación anterior, lo que ofrece el mejor ancho de banda de memoria teórico máximo agregado de la industria con 3,2 terabytes por segundo.
  • Tecnología AMD Infinity Fabric de tercera generación: Hasta 8 enlaces Infinity Fabric conectan el AMD Instinct MI200 con 3rd Genere CPU EPYC y otras GPU en el nodo para habilitar la coherencia de memoria CPU/GPU unificada y maximizar el rendimiento del sistema, lo que permite una rampa de acceso más fácil para que los códigos de CPU aprovechen el poder de los aceleradores.

Disparo de GPU AMD Instinct MI200:

Dentro del AMD Instinct MI200 hay una GPU Aldebaran con dos matrices, una secundaria y una primaria. Tiene dos troqueles, cada uno de los cuales consta de 8 motores de sombreado para un total de 16 SE. Cada Shader Engine incluye 14 CU con FP64 de velocidad completa, FP32 empaquetado y Matrix Engine de segunda generación para operaciones FP16 y BF16. Toda la GPU se fabrica en el nodo de proceso de 6 nm de TSMC y viene con un total de 58 mil millones de transistores.

Diagrama de bloques de la GPU AMD Instinct MI200:

Cada troquel, como tal, se compone de 112 unidades de cómputo o 7168 procesadores de flujo. Esto se redondea a un total de 224 unidades de cómputo o 14 336 procesadores de flujo para todo el chip. La GPU Aldebaran también funciona con una nueva interconexión XGMI. Cada chiplet cuenta con un motor VCN 2.6 y el controlador IO principal. Cada chiplet GPU tiene cuatro controladores de memoria de 1024 bits para la memoria HBM2e.

En cuanto al caché, cada chiplet de GPU presenta un total de 8 MB de capacidad L2 que se divide físicamente en 32 segmentos. Cada segmento ofrece 128B/CLK con colas y arbitraje mejorados, además de operaciones atómicas mejoradas. El subsistema de memoria por GCD incluye 64 GB de memoria HBM2e por chiplet con un ancho de banda agregado de 1,6 TB/s por GCD que se divide en 32 canales con 64B/CLK para un voltaje operativo eficiente. La interconexión del paquete incluye un ancho de banda biseccional de 400 GB/s en los dos GCD.

Hay un total de 8 interconexiones Infinity Fabric, de las cuales una en cada GPU se puede usar para la interconexión PCI-Express. La interconexión tiene una tasa de transferencia CPU-GPU coherente de 144 GB/s. Puede escalar hasta 500 GB/s usando el enlace Infinity Fabric externo con un total de cuatro GPU de la serie MI200 o escalar horizontalmente usando un PCIe Gen 4 ESM AIC para un ancho de banda de 100 GB/s.

Métricas de rendimiento de AMD Instinct MI200 «Aldebaran GPU»:

En términos de rendimiento, AMD está promocionando varias victorias récord en el segmento de HPC sobre la solución A100 de NVIDIA con mejoras de rendimiento de hasta 3 veces en AMG.

En cuanto a DRAM, AMD optó por una interfaz de 8 canales que consta de interfaces de 1024 bits para una interfaz de bus de 8192 bits de ancho. Cada interfaz puede admitir módulos DRAM HBM2e de 2 GB. Esto debería darnos hasta 16 GB de capacidad de memoria HBM2e por pila y dado que hay ocho pilas en total, la capacidad total sería de 128 GB. Eso es 48 GB más que el A100 que alberga 80 GB de memoria HBM2e. La memoria registrará una velocidad increíble de 3,2 Gbps para un ancho de banda completo de 3,2 TB/s. Esto es un total de 1,2 TB/s más de ancho de banda que el A100 de 80 GB, que tiene 2 TB/s.

Las GPU AMD Instinct MI200 CDNA 2 «Aldebaran» ya están impulsando la supercomputadora más rápida del mundo, la Frontier, que también es la primera máquina Exascale del mundo, que ofrece 1.1 ExaFLOP de potencia de cómputo y actualmente figura en la parte superior de las listas TOP500 y Green500. . AMD también ha presentado sus planes futuros para la línea de APU Instinct MI300 que aprovechará aún más la arquitectura de chiplet y llevará las cosas al siguiente nivel.

Aceleradores AMD Radeon Instinct 2020

Nombre del acelerador AMD instinto MI300 AMD instinto MI250X Instinto de AMD MI250 Instinto de AMD MI210 AMD instinto MI100 AMD Radeon instinto MI60 AMD Radeon instinto MI50 AMD Radeon instinto MI25 AMD Radeon instinto MI8 AMD Radeon instinto MI6
Arquitectura de CPU Zen 4 (APU a exaescala) N / A N / A N / A N / A N / A N / A N / A N / A N / A
Arquitectura GPU A confirmar (CDNA 3) Aldebarán (CDNA 2) Aldebarán (CDNA 2) Aldebarán (CDNA 2) Arcturo (CDNA 1) Vega 20 Vega 20 Vega 10 Fiyi XT estrella polar 10
Nodo de proceso GPU 5nm+6nm 6nm 6nm 6nm FinFET de 7 nm FinFET de 7 nm FinFET de 7 nm FinFET de 14 nm 28nm FinFET de 14 nm
Chiplets GPU 4 (MCM/3D apilados)
1 (por dado)
2 (MMC)
1 (por dado)
2 (MMC)
1 (por dado)
2 (MMC)
1 (por dado)
1 (monolítico) 1 (monolítico) 1 (monolítico) 1 (monolítico) 1 (monolítico) 1 (monolítico)
Núcleos de GPU 28,160? 14,080 13,312 6656 7680 4096 3840 4096 4096 2304
Velocidad de reloj de la GPU por confirmar 1700 MHz 1700 MHz 1700 MHz 1500 MHz 1800 MHz 1725 MHz 1500 MHz 1000 MHz 1237 MHz
Cómputo FP16 por confirmar 383 tops 362 tops 181 tops 185 TFLOP 29,5 TFLOP 26,5 TFLOP 24,6 TFLOP 8.2 TFLOP 5.7 TFLOP
Cómputo FP32 por confirmar 95,7 TFLOP 90,5 TFLOP 45,3 TFLOP 23.1 TFLOP 14,7 TFLOP 13.3 TFLOP 12.3 TFLOP 8.2 TFLOP 5.7 TFLOP
Cómputo FP64 por confirmar 47,9 TFLOP 45,3 TFLOP 22,6 TFLOP 11,5 TFLOP 7.4 TFLOP 6.6 TFLOP 768 GFLOP 512 GFLOP 384 GFLOP
VRAM 192 GB HBM3? 128GB HBM2e 128GB HBM2e 64GB HBM2e 32GB HBM2 32GB HBM2 16GB HBM2 16GB HBM2 4GB HBM1 16GB GDDR5
Reloj de la memoria por confirmar 3,2 Gb/s 3,2 Gb/s 3,2 Gb/s 1200 MHz 1000 MHz 1000 MHz 945 MHz 500 MHz 1750 MHz
Bus de memoria 8192 bits 8192 bits 8192 bits 4096 bits autobús de 4096 bits autobús de 4096 bits autobús de 4096 bits autobús de 2048 bits autobús de 4096 bits autobús de 256 bits
ancho de banda de memoria por confirmar 3,2 TB/s 3,2 TB/s 1,6 TB/s 1,23 TB/s 1 TB/s 1 TB/s 484 GB/s 512 GB/s 224 GB/s
Factor de forma OAM OAM OAM Tarjeta de doble ranura Ranura doble, longitud completa Ranura doble, longitud completa Ranura doble, longitud completa Ranura doble, longitud completa Ranura doble, longitud media Ranura única, longitud completa
Enfriamiento Enfriamiento Pasivo Enfriamiento Pasivo Enfriamiento Pasivo Enfriamiento Pasivo Enfriamiento Pasivo Enfriamiento Pasivo Enfriamiento Pasivo Enfriamiento Pasivo Enfriamiento Pasivo Enfriamiento Pasivo
TDP ~600W 560W 500W 300W 300W 300W 300W 300W 175W 150W





Source link-29