Nvidia detalla el diseño del superchip de la CPU Grace Hopper: 144 núcleos en el proceso 4N TSMC


Nvidia anunció nuevos detalles sobre su Grace CPU Superchip antes de su presentación Hot Chips 34 la próxima semana, revelando que los chips vienen fabricados en el proceso 4N. Nvidia también compartió más información sobre la arquitectura y el tejido de datos, junto con más puntos de referencia de rendimiento y eficiencia. Nvidia aún no ha hecho su presentación oficial en Hot Chips (agregaremos los detalles más detallados después de la sesión), pero la información compartida hoy nos da las pinceladas generales a medida que los chips y servidores Grace llegan al mercado por primera vez. mitad de 2023.

Como recordatorio rápido, la CPU Grace de Nvidia es el primer chip Arm solo para CPU de la compañía diseñado para el centro de datos y viene como dos chips en una placa base, con un total de 144 núcleos, mientras que el Superchip Grace Hopper combina una GPU Hopper y la CPU Grace en la mismo tablero.

Entre las revelaciones más importantes, Nvidia finalmente confirmó oficialmente que las CPU Grace utilizan el proceso TSMC 4N. TSMC incluye el proceso de 4nm «N4» en su familia de nodos de 5nm y lo describe como una versión mejorada del nodo de 5nm. Nvidia usa una variante especializada de este nodo, denominada ‘4N’, que está optimizada específicamente para sus GPU y CPU.

(Crédito de la imagen: Nvidia)

Estos tipos de nodos especializados se están volviendo más comunes a medida que la Ley de Moore se desvanece y la reducción de los transistores se vuelve más difícil y costosa con cada nuevo nodo. Para habilitar nodos de procesos personalizados como 4N de Nvidia, los diseñadores de chips y las fundiciones trabajan mano a mano mediante el uso de la Optimización conjunta de tecnología de diseño (DTCO) para marcar características personalizadas de potencia, rendimiento y área (PPA) para sus productos específicos.

Nvidia ha revelado previamente que usa núcleos Arm Neoverse listos para usar para sus CPU Grace, pero la compañía aún no ha especificado qué versión específica usa. Sin embargo, Nvidia ha revelado que Grace usa núcleos Arm v9 y es compatible con SVE2, y la plataforma Neoverse N2 es la primera IP de Arm compatible con Arm v9 y extensiones como SVE2. La plataforma N2 Perseus viene con un diseño de 5 nm (recuerde, N4 está en la familia de 5 nm de TSMC) y es compatible con PCIe Gen 5.0, DDR5, HBM3, CCIX 2.0 y CXL 2.0. El diseño de Perseus está optimizado para rendimiento por potencia (vatios) y rendimiento por área. Arm dice que sus núcleos de próxima generación, Poseidon, no llegarán al mercado hasta 2024, lo que hace que esos núcleos sean candidatos menos probables dada la fecha de lanzamiento de Grace a principios de 2023.

Arquitectura de CPU Nvidia Grace Hopper

La nueva Nvidia Scalable Coherency Fabric (SCF) de Nvidia es una interconexión de malla que parece muy similar a la red de malla coherente CMN-700 estándar que se usa con los núcleos Arm Neoverse.

Nvidia SCF proporciona 3,2 TB/s de ancho de banda biseccional entre las distintas unidades de chip Grace, como los núcleos de la CPU, la memoria y las E/S, sin mencionar la interfaz NVLink-C2C que vincula el chip a la otra unidad presente en la placa base, ya sea otra CPU Grace o la GPU Hopper.

CPU de gracia

(Crédito de la imagen: Nvidia)

La malla admite más de 72 núcleos y cada CPU tiene 117 MB de caché L3 total. Nvidia dice que el primer diagrama de bloques en el álbum anterior es una «topología posible con fines ilustrativos» y su alineación no concuerda del todo con el segundo diagrama.

Este diagrama muestra el chip con ocho particiones de caché SCF (SCC) que parecen ser segmentos de caché L3 (obtendremos más detalles en la presentación) junto con ocho unidades de CPU (que parecen ser grupos de núcleos). El SCC y los núcleos están conectados a Cache Switch Nodes (CSN) en grupos de dos, y el CSN luego reside en la estructura de malla SCF para proporcionar una interfaz entre los núcleos de la CPU y la memoria para el resto del chip. SCF también admite coherencia en hasta cuatro sockets con Coherent NVLink.

CPU de gracia

(Crédito de la imagen: Nvidia)

Nvidia también compartió este diagrama, que muestra que cada CPU Grace admite hasta 68 carriles PCIe y hasta cuatro conexiones PCIe 5.0 x16. Cada conexión x16 admite hasta 128 GB/s de rendimiento bidireccional (los enlaces x16 se pueden bifurcar en dos enlaces x8). También vemos 16 controladores de memoria (MC) LPDDR5X de dos canales.

Sin embargo, este diagrama es diferente al primero: muestra la memoria caché L3 como dos bloques contiguos conectados a clústeres de CPU de cuatro núcleos, lo que tiene mucho más sentido que el diagrama anterior y tiene un total de hasta 72 núcleos en el chip. Sin embargo, no vemos las particiones SCF separadas o los nodos CSN del primer diagrama, lo que genera un poco de confusión. Descubriremos esto durante la presentación y lo actualizaremos según sea necesario.

Nvidia nos dice que Scalable Coherency Fabric (SCF) es su diseño patentado, pero Arm permite a sus socios personalizar la malla CMN-700 ajustando la cantidad de núcleos, los tamaños de caché y usando diferentes tipos de memoria, como DDR5 y HBM, y seleccionando varias interfaces, como PCIe 5.0, CXL y CCIX. Eso significa que es posible que Nvidia use una implementación CMN-700 altamente personalizada para el tejido integrado.

Memoria GPU extendida Nvidia Grace Hopper



Source link-41