2024 - AMD ofrece un primer vistazo al diagrama de bloques de GPU MCM de la serie Instinct MI200 de Aldebaran “CDNA 2”

AMD ha ofrecido más información sobre su serie Instinct MI200 impulsada por GPU CDNA 2 «Aldebaran», que es la primera en presentar un diseño MCM. Las GPU Instinct MI200 han sido detalladas por AMD Architects, Alan Smith y Norman James, durante Hot Chips 34.

AMD ofrece un primer vistazo al diagrama de bloques de GPU de la serie MI200 Instinct «CDNA 2» de Aldebaran, el primero en HPC en presentar un diseño MCM

AMD es oficialmente el primero en la tecnología MCM y lo está haciendo con un gran producto que es su Instinct MI200 con nombre en código Aldebaran. La GPU AMD Aldebaran vendrá en varias formas y tamaños, pero todo se basa en la nueva arquitectura CDNA 2, que es la variación más refinada de Vega. Algunas de las características principales antes de entrar en detalles se enumeran a continuación:

Arquitectura AMD CDNA 2 – Núcleos de matriz de segunda generación que aceleran las operaciones de matriz FP64 y FP32, brindando hasta 4 veces el rendimiento máximo teórico de FP64 en comparación con las GPU AMD de generación anterior.
Liderazgo en tecnología de embalaje – El primer diseño de GPU multi-die de la industria con tecnología 2.5D Elevated Fanout Bridge (EFB) ofrece 1,8 veces más núcleos y 2,7 veces más ancho de banda de memoria en comparación con las GPU AMD de la generación anterior, lo que ofrece el mejor ancho de banda de memoria teórico máximo agregado de la industria con 3,2 terabytes por segundo.
Tecnología AMD Infinity Fabric de tercera generación: Hasta 8 enlaces Infinity Fabric conectan el AMD Instinct MI200 con 3rdGenere CPU EPYC y otras GPU en el nodo para habilitar la coherencia de memoria CPU/GPU unificada y maximizar el rendimiento del sistema, lo que permite una rampa de acceso más fácil para que los códigos de CPU aprovechen el poder de los aceleradores.

Disparo de GPU AMD Instinct MI200:

Dentro del AMD Instinct MI200 hay una GPU Aldebaran con dos matrices, una secundaria y una primaria. Tiene dos troqueles, cada uno de los cuales consta de 8 motores de sombreado para un total de 16 SE. Cada Shader Engine incluye 14 CU con FP64 de velocidad completa, FP32 empaquetado y Matrix Engine de segunda generación para operaciones FP16 y BF16. Toda la GPU se fabrica en el nodo de proceso de 6 nm de TSMC y viene con un total de 58 mil millones de transistores.

Diagrama de bloques de la GPU AMD Instinct MI200:

Cada troquel, como tal, se compone de 112 unidades de cómputo o 7168 procesadores de flujo. Esto se redondea a un total de 224 unidades de cómputo o 14 336 procesadores de flujo para todo el chip. La GPU Aldebaran también funciona con una nueva interconexión XGMI. Cada chiplet cuenta con un motor VCN 2.6 y el controlador IO principal. Cada chiplet GPU tiene cuatro controladores de memoria de 1024 bits para la memoria HBM2e.

En cuanto al caché, cada chiplet de GPU presenta un total de 8 MB de capacidad L2 que se divide físicamente en 32 segmentos. Cada segmento ofrece 128B/CLK con colas y arbitraje mejorados, además de operaciones atómicas mejoradas. El subsistema de memoria por GCD incluye 64 GB de memoria HBM2e por chiplet con un ancho de banda agregado de 1,6 TB/s por GCD que se divide en 32 canales con 64B/CLK para un voltaje operativo eficiente. La interconexión del paquete incluye un ancho de banda biseccional de 400 GB/s en los dos GCD.

Hay un total de 8 interconexiones Infinity Fabric, de las cuales una en cada GPU se puede usar para la interconexión PCI-Express. La interconexión tiene una tasa de transferencia CPU-GPU coherente de 144 GB/s. Puede escalar hasta 500 GB/s usando el enlace Infinity Fabric externo con un total de cuatro GPU de la serie MI200 o escalar horizontalmente usando un PCIe Gen 4 ESM AIC para un ancho de banda de 100 GB/s.

Métricas de rendimiento de AMD Instinct MI200 «Aldebaran GPU»:

En términos de rendimiento, AMD está promocionando varias victorias récord en el segmento de HPC sobre la solución A100 de NVIDIA con mejoras de rendimiento de hasta 3 veces en AMG.

En cuanto a DRAM, AMD optó por una interfaz de 8 canales que consta de interfaces de 1024 bits para una interfaz de bus de 8192 bits de ancho. Cada interfaz puede admitir módulos DRAM HBM2e de 2 GB. Esto debería darnos hasta 16 GB de capacidad de memoria HBM2e por pila y dado que hay ocho pilas en total, la capacidad total sería de 128 GB. Eso es 48 GB más que el A100 que alberga 80 GB de memoria HBM2e. La memoria registrará una velocidad increíble de 3,2 Gbps para un ancho de banda completo de 3,2 TB/s. Esto es un total de 1,2 TB/s más de ancho de banda que el A100 de 80 GB, que tiene 2 TB/s.

Las GPU AMD Instinct MI200 CDNA 2 «Aldebaran» ya están impulsando la supercomputadora más rápida del mundo, la Frontier, que también es la primera máquina Exascale del mundo, que ofrece 1.1 ExaFLOP de potencia de cómputo y actualmente figura en la parte superior de las listas TOP500 y Green500. . AMD también ha presentado sus planes futuros para la línea de APU Instinct MI300 que aprovechará aún más la arquitectura de chiplet y llevará las cosas al siguiente nivel.

Aceleradores AMD Radeon Instinct 2020

Nombre del acelerador	AMD instinto MI300	AMD instinto MI250X	Instinto de AMD MI250	Instinto de AMD MI210	AMD instinto MI100	AMD Radeon instinto MI60	AMD Radeon instinto MI50	AMD Radeon instinto MI25	AMD Radeon instinto MI8	AMD Radeon instinto MI6
Arquitectura de CPU	Zen 4 (APU a exaescala)	N / A	N / A	N / A	N / A	N / A	N / A	N / A	N / A	N / A
Arquitectura GPU	A confirmar (CDNA 3)	Aldebarán (CDNA 2)	Aldebarán (CDNA 2)	Aldebarán (CDNA 2)	Arcturo (CDNA 1)	Vega 20	Vega 20	Vega 10	Fiyi XT	estrella polar 10
Nodo de proceso GPU	5nm+6nm	6nm	6nm	6nm	FinFET de 7 nm	FinFET de 7 nm	FinFET de 7 nm	FinFET de 14 nm	28nm	FinFET de 14 nm
Chiplets GPU	4 (MCM/3D apilados) 1 (por dado)	2 (MMC) 1 (por dado)	2 (MMC) 1 (por dado)	2 (MMC) 1 (por dado)	1 (monolítico)	1 (monolítico)	1 (monolítico)	1 (monolítico)	1 (monolítico)	1 (monolítico)
Núcleos de GPU	28,160?	14,080	13,312	6656	7680	4096	3840	4096	4096	2304
Velocidad de reloj de la GPU	por confirmar	1700 MHz	1700 MHz	1700 MHz	1500 MHz	1800 MHz	1725 MHz	1500 MHz	1000 MHz	1237 MHz
Cómputo FP16	por confirmar	383 tops	362 tops	181 tops	185 TFLOP	29,5 TFLOP	26,5 TFLOP	24,6 TFLOP	8.2 TFLOP	5.7 TFLOP
Cómputo FP32	por confirmar	95,7 TFLOP	90,5 TFLOP	45,3 TFLOP	23.1 TFLOP	14,7 TFLOP	13.3 TFLOP	12.3 TFLOP	8.2 TFLOP	5.7 TFLOP
Cómputo FP64	por confirmar	47,9 TFLOP	45,3 TFLOP	22,6 TFLOP	11,5 TFLOP	7.4 TFLOP	6.6 TFLOP	768 GFLOP	512 GFLOP	384 GFLOP
VRAM	192 GB HBM3?	128GB HBM2e	128GB HBM2e	64GB HBM2e	32GB HBM2	32GB HBM2	16GB HBM2	16GB HBM2	4GB HBM1	16GB GDDR5
Reloj de la memoria	por confirmar	3,2 Gb/s	3,2 Gb/s	3,2 Gb/s	1200 MHz	1000 MHz	1000 MHz	945 MHz	500 MHz	1750 MHz
Bus de memoria	8192 bits	8192 bits	8192 bits	4096 bits	autobús de 4096 bits	autobús de 4096 bits	autobús de 4096 bits	autobús de 2048 bits	autobús de 4096 bits	autobús de 256 bits
ancho de banda de memoria	por confirmar	3,2 TB/s	3,2 TB/s	1,6 TB/s	1,23 TB/s	1 TB/s	1 TB/s	484 GB/s	512 GB/s	224 GB/s
Factor de forma	OAM	OAM	OAM	Tarjeta de doble ranura	Ranura doble, longitud completa	Ranura doble, longitud completa	Ranura doble, longitud completa	Ranura doble, longitud completa	Ranura doble, longitud media	Ranura única, longitud completa
Enfriamiento	Enfriamiento Pasivo	Enfriamiento Pasivo	Enfriamiento Pasivo	Enfriamiento Pasivo	Enfriamiento Pasivo	Enfriamiento Pasivo	Enfriamiento Pasivo	Enfriamiento Pasivo	Enfriamiento Pasivo	Enfriamiento Pasivo
TDP	~600W	560W	500W	300W	300W	300W	300W	300W	175W	150W

Source link-29

Jeremy Renner regresa como ‘Alcalde de Kingstown’, nuevas temporadas de ‘Celebrity IOU’ y ‘Billy the Kid’, recordando a Nicole Brown Simpson

¿Quién interpreta a Adar en la segunda temporada de El señor de los anillos: Los anillos de poder?

Las funciones de Galaxy AI para el Galaxy Watch podrían ser compatibles con todos los teléfonos Android, pero no permanecerán gratuitas por mucho tiempo

¡En el top 10 durante más de 5 meses!: Este héroe de acción se mantiene firme en las listas de Amazon Prime Video

AMD ofrece un primer vistazo al diagrama de bloques de GPU MCM de la serie Instinct MI200 de Aldebaran “CDNA 2”

AMD ofrece un primer vistazo al diagrama de bloques de GPU de la serie MI200 Instinct «CDNA 2» de Aldebaran, el primero en HPC en presentar un diseño MCM

Aceleradores AMD Radeon Instinct 2020