Nvidia anunció nuevos detalles sobre su Grace CPU Superchip antes de su presentación Hot Chips 34 la próxima semana, revelando que los chips vienen fabricados en el proceso 4N. Nvidia también compartió más información sobre la arquitectura y el tejido de datos, junto con más puntos de referencia de rendimiento y eficiencia. Nvidia aún no ha hecho su presentación oficial en Hot Chips (agregaremos los detalles más detallados después de la sesión), pero la información compartida hoy nos da las pinceladas generales a medida que los chips y servidores Grace llegan al mercado por primera vez. mitad de 2023.
Como recordatorio rápido, la CPU Grace de Nvidia es el primer chip Arm solo para CPU de la compañía diseñado para el centro de datos y viene como dos chips en una placa base, con un total de 144 núcleos, mientras que el Superchip Grace Hopper combina una GPU Hopper y la CPU Grace en la mismo tablero.
Entre las revelaciones más importantes, Nvidia finalmente confirmó oficialmente que las CPU Grace utilizan el proceso TSMC 4N. TSMC incluye el proceso de 4nm «N4» en su familia de nodos de 5nm y lo describe como una versión mejorada del nodo de 5nm. Nvidia usa una variante especializada de este nodo, denominada ‘4N’, que está optimizada específicamente para sus GPU y CPU.
Estos tipos de nodos especializados se están volviendo más comunes a medida que la Ley de Moore se desvanece y la reducción de los transistores se vuelve más difícil y costosa con cada nuevo nodo. Para habilitar nodos de procesos personalizados como 4N de Nvidia, los diseñadores de chips y las fundiciones trabajan mano a mano mediante el uso de la Optimización conjunta de tecnología de diseño (DTCO) para marcar características personalizadas de potencia, rendimiento y área (PPA) para sus productos específicos.
Nvidia ha revelado previamente que usa núcleos Arm Neoverse listos para usar para sus CPU Grace, pero la compañía aún no ha especificado qué versión específica usa. Sin embargo, Nvidia ha revelado que Grace usa núcleos Arm v9 y es compatible con SVE2, y la plataforma Neoverse N2 es la primera IP de Arm compatible con Arm v9 y extensiones como SVE2. La plataforma N2 Perseus viene con un diseño de 5 nm (recuerde, N4 está en la familia de 5 nm de TSMC) y es compatible con PCIe Gen 5.0, DDR5, HBM3, CCIX 2.0 y CXL 2.0. El diseño de Perseus está optimizado para rendimiento por potencia (vatios) y rendimiento por área. Arm dice que sus núcleos de próxima generación, Poseidon, no llegarán al mercado hasta 2024, lo que hace que esos núcleos sean candidatos menos probables dada la fecha de lanzamiento de Grace a principios de 2023.
Arquitectura de CPU Nvidia Grace Hopper
La nueva Nvidia Scalable Coherency Fabric (SCF) de Nvidia es una interconexión de malla que parece muy similar a la red de malla coherente CMN-700 estándar que se usa con los núcleos Arm Neoverse.
Nvidia SCF proporciona 3,2 TB/s de ancho de banda biseccional entre las distintas unidades de chip Grace, como los núcleos de la CPU, la memoria y las E/S, sin mencionar la interfaz NVLink-C2C que vincula el chip a la otra unidad presente en la placa base, ya sea otra CPU Grace o la GPU Hopper.
La malla admite más de 72 núcleos y cada CPU tiene 117 MB de caché L3 total. Nvidia dice que el primer diagrama de bloques en el álbum anterior es una «topología posible con fines ilustrativos» y su alineación no concuerda del todo con el segundo diagrama.
Este diagrama muestra el chip con ocho particiones de caché SCF (SCC) que parecen ser segmentos de caché L3 (obtendremos más detalles en la presentación) junto con ocho unidades de CPU (que parecen ser grupos de núcleos). El SCC y los núcleos están conectados a Cache Switch Nodes (CSN) en grupos de dos, y el CSN luego reside en la estructura de malla SCF para proporcionar una interfaz entre los núcleos de la CPU y la memoria para el resto del chip. SCF también admite coherencia en hasta cuatro sockets con Coherent NVLink.
Nvidia también compartió este diagrama, que muestra que cada CPU Grace admite hasta 68 carriles PCIe y hasta cuatro conexiones PCIe 5.0 x16. Cada conexión x16 admite hasta 128 GB/s de rendimiento bidireccional (los enlaces x16 se pueden bifurcar en dos enlaces x8). También vemos 16 controladores de memoria (MC) LPDDR5X de dos canales.
Sin embargo, este diagrama es diferente al primero: muestra la memoria caché L3 como dos bloques contiguos conectados a clústeres de CPU de cuatro núcleos, lo que tiene mucho más sentido que el diagrama anterior y tiene un total de hasta 72 núcleos en el chip. Sin embargo, no vemos las particiones SCF separadas o los nodos CSN del primer diagrama, lo que genera un poco de confusión. Descubriremos esto durante la presentación y lo actualizaremos según sea necesario.
Nvidia nos dice que Scalable Coherency Fabric (SCF) es su diseño patentado, pero Arm permite a sus socios personalizar la malla CMN-700 ajustando la cantidad de núcleos, los tamaños de caché y usando diferentes tipos de memoria, como DDR5 y HBM, y seleccionando varias interfaces, como PCIe 5.0, CXL y CCIX. Eso significa que es posible que Nvidia use una implementación CMN-700 altamente personalizada para el tejido integrado.
Memoria GPU extendida Nvidia Grace Hopper
A las GPU les encanta el rendimiento de la memoria, por lo que, naturalmente, Nvidia se ha centrado en mejorar el rendimiento de la memoria no solo dentro del chip sino también entre la CPU y la GPU. La CPU Grace tiene 16 controladores de memoria LPDDR5X de doble canal, que funcionan en 32 canales que admiten hasta 512 GB de memoria y hasta 546 GB/s de rendimiento. Nvidia dice que seleccionó LPDDR5X sobre HBM2e debido a múltiples factores, como la capacidad y el costo. Mientras tanto, LPDDR5X proporciona un 53 % más de ancho de banda y 1/8 de potencia por GB en comparación con la memoria DDR5 estándar, lo que la convierte en la mejor opción en general.
Nvidia también presenta Extended GPU Memory (EGM), que permite que cualquier GPU Hopper en la red NVLink acceda a la memoria LPDDR5X de cualquier CPU Grace en la red, pero con el rendimiento nativo de NVLink.
El objetivo de Nvidia es proporcionar un conjunto unificado de memoria que se pueda compartir entre la CPU y la GPU, proporcionando así un mayor rendimiento y simplificando el modelo de programación. El chip Grace Hopper CPU+GPU admite memoria unificada con tablas de páginas compartidas, lo que significa que los chips pueden compartir un espacio de direcciones y tablas de páginas con aplicaciones CUDA y permite usar asignadores del sistema para asignar memoria GPU. También admite atómicos nativos entre la CPU y la GPU.
Nvidia NVLink-C2C
Los núcleos de CPU son el motor informático, pero las interconexiones son el campo de batalla que definirá el futuro de la informática. Mover datos consume más energía que procesarlos realmente, por lo que mover datos de forma más rápida y eficiente, o incluso evitar transferencias de datos, es un objetivo clave.
La CPU Grace de Nvidia, que consta de dos CPU en una sola placa, y el Superchip Grace Hopper, que consta de una CPU Grace y una GPU Hopper en la misma placa, están diseñados para maximizar la transferencia de datos entre las unidades a través de un chip patentado NVLink. interconexión a chip (C2C) y para proporcionar coherencia de memoria para reducir o eliminar las transferencias de datos.
Interconectar | Picojulios por Bit (pJ/b) |
NVLink-C2C | 1,3 pJ/b |
UCIe | 0,5 – 0,25 pJ/b |
tela infinita | ~1,5 pJ/b |
CoWoS de TSMC | 0,56 pJ/b |
Foveros | 0,2 pJ/b |
EMIB | 0,3 pJ/b |
Montón de cables (BoW) | 0,7 a 0,5 pJ/b |
en morir | 0,1 pJ/b |
Nvidia compartió nuevos detalles sobre su interconexión NVLink-C2C. Como recordatorio, se trata de una interconexión de chip a chip y de matriz a matriz que admite coherencia de memoria y ofrece hasta 900 GB/s de rendimiento (7 veces el ancho de banda de un enlace PCIe 5.0 x16). Esta interfaz usa el protocolo NVLink, y Nvidia diseñó la interfaz usando sus tecnologías de diseño SERDES y LINK con un enfoque en la eficiencia energética y de área. Sin embargo, NVLink-C2C también admite protocolos estándar de la industria como CXL y la interfaz de concentrador coherente AMBA de Arm (CHI, clave para la malla Neoverse CMN-700). También admite varios tipos de conexiones que van desde interconexiones basadas en PCB hasta intercaladores de silicio e implementaciones a escala de obleas.
La eficiencia energética es una métrica clave para todas las estructuras de datos, y hoy Nvidia compartió que el enlace consume 1,3 picojulios por bit (pJ/b) de datos transferidos. Esto es 5 veces la eficiencia de la interfaz PCIe 5.0, pero es más del doble de la potencia de la interconexión UCIe que llegará al mercado en el futuro (0,5 a 0,25 pJ/b). Los tipos de paquetes varían y el enlace C2C proporciona a Nvidia una combinación sólida de rendimiento y eficiencia para su caso de uso específico, pero como puede ver en la tabla anterior, las opciones más avanzadas brindan niveles más altos de eficiencia energética.
Puntos de referencia de la CPU Nvidia Grace
Nvidia compartió más puntos de referencia de rendimiento, pero al igual que con todos los datos de rendimiento proporcionados por los proveedores, debe tomar estos números con cautela. Estos puntos de referencia también vienen con la advertencia adicional de que se realizan antes del silicio, lo que significa que son proyecciones emuladas que aún no se han probado con silicio real y están «sujetas a cambios». Como tal, espolvorea un poco de sal extra.
El nuevo punto de referencia de Nvidia aquí es la puntuación de 370 con una sola CPU Grace en el punto de referencia SpecIntRate 2017. Esto coloca a los chips justo en el rango que esperaríamos: Nvidia ya ha compartido un punto de referencia de múltiples CPU, reclamando una puntuación de 740 para dos CPU Grace en el banco de pruebas SpecIntRate2017. Obviamente, esto sugiere una mejora de escala lineal con dos chips.
Los chips EPYC Milan de generación actual de AMD, el actual líder en rendimiento en el centro de datos, han publicado resultados SPEC que oscilan entre 382 y 424 cada uno, lo que significa que los chips x86 de gama más alta seguirán liderando. Sin embargo, la solución de Nvidia tendrá muchas otras ventajas, como la eficiencia energética y un diseño más compatible con GPU.
Nvidia compartió sus puntos de referencia de rendimiento de la memoria, que muestran que la CPU Grace puede proporcionar ~500 GB/s de rendimiento en las pruebas de rendimiento de la memoria de la CPU. Nvidia también afirma que el chip también puede impulsar hasta 506 GB/s de rendimiento combinado de lectura/escritura a una GPU Hopper adjunta, y registró el ancho de banda de CPU a GPU a 429 GB/s durante las pruebas de rendimiento de lectura y 407 GB/s con escrituras. .
Grace Hopper está listo para el sistema de brazo
Nvidia también anunció que Grace CPU Superchip cumplirá con los requisitos necesarios para obtener la certificación System Ready. Esta certificación significa que un chip Arm ‘simplemente funcionará’ con los sistemas operativos y el software, lo que facilitará la implementación. Grace también admitirá extensiones de virtualización, incluida la virtualización anidada y la compatibilidad con S-EL2. Nvidia también enumera soporte para lo siguiente:
- RAS v1.1 Controlador de interrupción genérico (GIC) v4.1
- Supervisión y partición de memoria (MPAM)
- Unidad de administración de memoria del sistema (SMMU) v3.1
- Arm Server Base System Architecture (SBSA) para permitir interfaces de hardware y software compatibles con los estándares. Además, para habilitar los flujos de arranque estándar en los sistemas basados en CPU Grace, la CPU Grace se ha diseñado para admitir los requisitos de arranque base del servidor Arm (SBBR).
- Para la partición de caché y ancho de banda, así como la supervisión del ancho de banda, Grace CPU también es compatible con Arm Memory Partitioning and Monitoring (MPAM). Grace CPU también incluye unidades de monitoreo de rendimiento Arm, lo que permite monitorear el rendimiento de los núcleos de la CPU, así como otros subsistemas en la arquitectura de sistema en un chip (SoC). Esto permite que se utilicen herramientas estándar, como Linux perf, para investigaciones de rendimiento.
La CPU Grace y el superchip Grace Hopper de Nvidia están en camino para su lanzamiento a principios de 2023, con la variante Hopper orientada al entrenamiento de IA, inferencia y HPC, mientras que los sistemas Grace de doble CPU están diseñados para cargas de trabajo de computación en la nube y HPC.