{"id":107474,"date":"2022-08-19T20:59:48","date_gmt":"2022-08-19T20:59:48","guid":{"rendered":"https:\/\/magazineoffice.com\/nvidia-detalla-el-diseno-del-superchip-de-la-cpu-grace-hopper-144-nucleos-en-el-proceso-4n-tsmc\/"},"modified":"2022-08-19T20:59:49","modified_gmt":"2022-08-19T20:59:49","slug":"nvidia-detalla-el-diseno-del-superchip-de-la-cpu-grace-hopper-144-nucleos-en-el-proceso-4n-tsmc","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/nvidia-detalla-el-diseno-del-superchip-de-la-cpu-grace-hopper-144-nucleos-en-el-proceso-4n-tsmc\/","title":{"rendered":"Nvidia detalla el dise\u00f1o del superchip de la CPU Grace Hopper: 144 n\u00facleos en el proceso 4N TSMC"},"content":{"rendered":"


\n<\/p>\n

\n

Nvidia anunci\u00f3 nuevos detalles sobre su Grace CPU Superchip antes de su presentaci\u00f3n Hot Chips 34 la pr\u00f3xima semana, revelando que los chips vienen fabricados en el proceso 4N. Nvidia tambi\u00e9n comparti\u00f3 m\u00e1s informaci\u00f3n sobre la arquitectura y el tejido de datos, junto con m\u00e1s puntos de referencia de rendimiento y eficiencia. Nvidia a\u00fan no ha hecho su presentaci\u00f3n oficial en Hot Chips (agregaremos los detalles m\u00e1s detallados despu\u00e9s de la sesi\u00f3n), pero la informaci\u00f3n compartida hoy nos da las pinceladas generales a medida que los chips y servidores Grace llegan al mercado por primera vez. mitad de 2023.<\/p>\n

Como recordatorio r\u00e1pido, la CPU Grace de Nvidia es el primer chip Arm solo para CPU de la compa\u00f1\u00eda dise\u00f1ado para el centro de datos y viene como dos chips en una placa base, con un total de 144 n\u00facleos, mientras que el Superchip Grace Hopper combina una GPU Hopper y la CPU Grace en la mismo tablero.<\/p>\n

Entre las revelaciones m\u00e1s importantes, Nvidia finalmente confirm\u00f3 oficialmente que las CPU Grace utilizan el proceso TSMC 4N. TSMC incluye el proceso de 4nm \u00abN4\u00bb en su familia de nodos de 5nm y lo describe como una versi\u00f3n mejorada del nodo de 5nm. Nvidia usa una variante especializada de este nodo, denominada ‘4N’, que est\u00e1 optimizada espec\u00edficamente para sus GPU y CPU.<\/p>\n

\n
\n
\n

<\/picture><\/p>\n<\/div>\n<\/div>

(Cr\u00e9dito de la imagen: Nvidia)<\/span><\/figcaption><\/figure>\n

Estos tipos de nodos especializados se est\u00e1n volviendo m\u00e1s comunes a medida que la Ley de Moore se desvanece y la reducci\u00f3n de los transistores se vuelve m\u00e1s dif\u00edcil y costosa con cada nuevo nodo. Para habilitar nodos de procesos personalizados como 4N de Nvidia, los dise\u00f1adores de chips y las fundiciones trabajan mano a mano mediante el uso de la Optimizaci\u00f3n conjunta de tecnolog\u00eda de dise\u00f1o (DTCO) para marcar caracter\u00edsticas personalizadas de potencia, rendimiento y \u00e1rea (PPA) para sus productos espec\u00edficos.<\/p>\n

Nvidia ha revelado previamente que usa n\u00facleos Arm Neoverse listos para usar para sus CPU Grace, pero la compa\u00f1\u00eda a\u00fan no ha especificado qu\u00e9 versi\u00f3n espec\u00edfica usa. Sin embargo, Nvidia ha revelado que Grace usa n\u00facleos Arm v9 y es compatible con SVE2, y la plataforma Neoverse N2 es la primera IP de Arm compatible con Arm v9 y extensiones como SVE2. La plataforma N2 Perseus viene con un dise\u00f1o de 5 nm (recuerde, N4 est\u00e1 en la familia de 5 nm de TSMC) y es compatible con PCIe Gen 5.0, DDR5, HBM3, CCIX 2.0 y CXL 2.0. El dise\u00f1o de Perseus est\u00e1 optimizado para rendimiento por potencia (vatios) y rendimiento por \u00e1rea. Arm dice que sus n\u00facleos de pr\u00f3xima generaci\u00f3n, Poseidon, no llegar\u00e1n al mercado hasta 2024, lo que hace que esos n\u00facleos sean candidatos menos probables dada la fecha de lanzamiento de Grace a principios de 2023.<\/p>\n

Arquitectura de CPU Nvidia Grace Hopper<\/h2>\n

La nueva Nvidia Scalable Coherency Fabric (SCF) de Nvidia es una interconexi\u00f3n de malla que parece muy similar a la red de malla coherente CMN-700 est\u00e1ndar que se usa con los n\u00facleos Arm Neoverse.<\/p>\n

Nvidia SCF proporciona 3,2 TB\/s de ancho de banda biseccional entre las distintas unidades de chip Grace, como los n\u00facleos de la CPU, la memoria y las E\/S, sin mencionar la interfaz NVLink-C2C que vincula el chip a la otra unidad presente en la placa base, ya sea otra CPU Grace o la GPU Hopper. <\/p>\n

\n
\n
\n

\"CPU<\/picture><\/p>\n<\/div>\n<\/div>

(Cr\u00e9dito de la imagen: Nvidia)<\/span><\/figcaption><\/figure>\n

La malla admite m\u00e1s de 72 n\u00facleos y cada CPU tiene 117 MB de cach\u00e9 L3 total. Nvidia dice que el primer diagrama de bloques en el \u00e1lbum anterior es una \u00abtopolog\u00eda posible con fines ilustrativos\u00bb y su alineaci\u00f3n no concuerda del todo con el segundo diagrama.<\/p>\n

Este diagrama muestra el chip con ocho particiones de cach\u00e9 SCF (SCC) que parecen ser segmentos de cach\u00e9 L3 (obtendremos m\u00e1s detalles en la presentaci\u00f3n) junto con ocho unidades de CPU (que parecen ser grupos de n\u00facleos). El SCC y los n\u00facleos est\u00e1n conectados a Cache Switch Nodes (CSN) en grupos de dos, y el CSN luego reside en la estructura de malla SCF para proporcionar una interfaz entre los n\u00facleos de la CPU y la memoria para el resto del chip. SCF tambi\u00e9n admite coherencia en hasta cuatro sockets con Coherent NVLink. <\/p>\n

\n
\n
\n

\"CPU<\/picture><\/p>\n<\/div>\n<\/div>

(Cr\u00e9dito de la imagen: Nvidia)<\/span><\/figcaption><\/figure>\n

Nvidia tambi\u00e9n comparti\u00f3 este diagrama, que muestra que cada CPU Grace admite hasta 68 carriles PCIe y hasta cuatro conexiones PCIe 5.0 x16. Cada conexi\u00f3n x16 admite hasta 128 GB\/s de rendimiento bidireccional (los enlaces x16 se pueden bifurcar en dos enlaces x8). Tambi\u00e9n vemos 16 controladores de memoria (MC) LPDDR5X de dos canales.<\/p>\n

Sin embargo, este diagrama es diferente al primero: muestra la memoria cach\u00e9 L3 como dos bloques contiguos conectados a cl\u00fasteres de CPU de cuatro n\u00facleos, lo que tiene mucho m\u00e1s sentido que el diagrama anterior y tiene un total de hasta 72 n\u00facleos en el chip. Sin embargo, no vemos las particiones SCF separadas o los nodos CSN del primer diagrama, lo que genera un poco de confusi\u00f3n. Descubriremos esto durante la presentaci\u00f3n y lo actualizaremos seg\u00fan sea necesario.<\/p>\n

Nvidia nos dice que Scalable Coherency Fabric (SCF) es su dise\u00f1o patentado, pero Arm permite a sus socios personalizar la malla CMN-700 ajustando la cantidad de n\u00facleos, los tama\u00f1os de cach\u00e9 y usando diferentes tipos de memoria, como DDR5 y HBM, y seleccionando varias interfaces, como PCIe 5.0, CXL y CCIX. Eso significa que es posible que Nvidia use una implementaci\u00f3n CMN-700 altamente personalizada para el tejido integrado.<\/p>\n

Memoria GPU extendida Nvidia Grace Hopper<\/h2>\n