Los puntos de referencia del superchip de CPU NVIDIA Grace muestran un rendimiento 2,5 veces mayor y una ganancia de eficiencia 3,5 veces superior a las CPU AMD EPYC Milan


NVIDIA ha publicado recientemente una inmersión profunda de su Grace CPU Superchip de próxima generación que ofrecería una ganancia de rendimiento de hasta 2.5x sobre las CPU AMD EPYC.

NVIDIA muestra un rendimiento de hasta 2,5 veces y una ganancia de eficiencia de 3,5 veces con el superchip de CPU Grace frente a AMD EPYC Milan

NVIDIA anunció por primera vez su CPU Grace y el diseño respectivo de Superchip en GTC 2022. La CPU Grace es el primer procesador de NVIDIA basado en una arquitectura Arm personalizada que apuntará al segmento de servidor/HPC. La CPU viene en dos configuraciones de Superchip, un módulo Grace Superchip con dos Grace CPU y un Grace+Hopper Superchip con una Grace CPU conectada a una GPU Hopper H100.

Algunos de los aspectos más destacados de Grace incluyen:

  • CPU de alto rendimiento para HPC y computación en la nube
  • Super diseño de chip con hasta 144 núcleos de CPU Arm v9
  • El primer LPDDR5x del mundo con memoria ECC, ancho de banda total de 1 TB/s
  • SPECrate2017_int_base superior a 740 (estimado)
  • Interfaz coherente de 900 GB/s, 7 veces más rápida que PCIe Gen 5
  • El doble de la densidad de empaquetado de las soluciones basadas en DIMM
  • 2 veces el rendimiento por vatio de la CPU líder en la actualidad
  • Ejecuta todas las pilas y plataformas de software de NVIDIA, incluidas RTX, HPC, AI y Omniverse
Características de la arquitectura NVIDIA Grace CPU Superchip
Arquitectura central Núcleos Neoverse V2: Armv9 con 4x128b SVE2
Recuento de núcleos 144
Cache L1: 64 KB I-cache + 64 KB D-cache por núcleo L2: 1 MB por núcleo L3: 234 MB por superchip
tecnología de memoria LPDDR5X con ECC, paquete conjunto
Memoria bruta BW Hasta 1 TB/s
Tamaño de la memoria Hasta 960GB
pico FP64 7.1 TFLOPS
PCI-Express 8 interfaces PCIe Gen 5 x16; opción para bifurcar el ancho de banda PCIe total de 1 TB/s. Conectividad PCIe de baja velocidad adicional para administración.
Poder 500 W TDP con memoria, alimentación 12 V

Siendo la primera CPU de servidor de NVIDIA, Grace cuenta con 72 núcleos Arm v9.0 que ofrecen soporte para SVE2 y varias extensiones de virtualización como Nested Virtualization y S-EL2. La CPU se fabrica en el nodo de proceso 4N de TSMC, una versión optimizada del nodo de proceso de 5nm que se fabrica exclusivamente para NVIDIA. La nueva arquitectura puede proporcionar hasta 7,1 TFLOP de rendimiento máximo de FP64.

Grace está diseñado para emparejarse y, como tal, uno de los aspectos más cruciales del diseño es su interconexión C2C (Chip-To-Chip). Grace logra esto con NVLINK, que se usa para fabricar los Superchips y elimina todos los cuellos de botella asociados con una configuración típica de sockets cruzados.

La interconexión C2C NVLINK proporciona 900 GB/s de ancho de banda bidireccional bruto (el mismo ancho de banda que un conmutador GPU a GPU NVLINK en Hopper), mientras se ejecuta con una interfaz de muy bajo consumo de solo 1,3 pJ/bit o 5 veces más eficiente que el Protocolo PCIe.

La CPU NVIDIA Grace cuenta con un tejido de coherencia escalable con un diseño de caché distribuido. El chip tiene hasta 3225 TB/s de ancho de banda de dos secciones, es escalable más allá de 72 núcleos (144 en Superchip), integra 117 MB de caché L3 por núcleo o 234 MB por Superchip, y cuenta con soporte para partición y monitoreo de memoria Arm ( MPAM). Grace también permite una arquitectura de memoria unificada con tablas de páginas compartidas. Se pueden interconectar dos Superchips NVIDIA Grace+Hopper a través de un NVSwitch y una CPU Grace en un Superchip puede comunicarse directamente con la GPU en el otro chip o incluso acceder a su VRAM a velocidades NVLINK nativas.

nvidia-grace-cpu-superchips-_-hot-chips-34-_9
nvidia-grace-cpu-superchips-_-hot-chips-34-_10

Al observar más de cerca el diseño de memoria de Grace, NVIDIA utiliza hasta 960 GB de LPDDR5X (ECC) en 32 canales, lo que brinda un ancho de banda de memoria de hasta 1 TB/s. NVIDIA afirma que LPDDR5X proporciona el mejor valor cuando se tiene en cuenta el ancho de banda general, el costo y los requisitos de energía. Por ejemplo, en comparación con DDR5, el subsistema LPDDR5X proporciona un 53 % más de ancho de banda a una octava parte de la potencia por gigabyte por segundo y a un costo similar. Además, la memoria HBM2e podría haber proporcionado más ancho de banda y eficiencia, pero a un costo tres veces mayor.

Para E/S, obtiene 68 carriles PCIe Gen 5.0, cuatro de los cuales se pueden usar para enlaces x16 a 128 GB/s, y los dos restantes se usan para MISC. También hay 12 carriles de carriles NVLINK coherentes compartidos con dos enlaces Gen 5 PCIe x16.

En cuanto al TDP, el Superchip NVIDIA Grace (solo CPU) está optimizado para el rendimiento de un solo núcleo y ofrece hasta 1 TB/s de ancho de banda de memoria y un TDP de 500 W para la configuración de chip dual de 144 núcleos.

Las cifras de rendimiento mostradas por NVIDIA comparan el Grace CPU Superchip con las CPU AMD EPYC 7763 «Milan» de dos sockets (2P) en varias cargas de trabajo de HPC, como OpenFOAM, WRF, NEMO y BWA. En OpenFOAM, Grace CPU Superchip ofrece un increíble aumento de rendimiento de 2,5x con una eficiencia de hasta 3,5x. En promedio, el nuevo Grace CPU Superchip de NVIDIA debería poder ofrecer un aumento de 1,9x en el rendimiento y un aumento de 2,57x en el rendimiento por vatio en comparación con las CPU EPYC Milan de AMD. Esto también debería conducir a un rendimiento competitivo frente a los chips de servidor más recientes de AMD e Intel.

Superchip de CPU NVIDIA Grace frente a CPU AMD EPYC 7763 Milán:

Ya hemos puesto los números en perspectiva en un artículo anterior que se puede ver a continuación:

NVIDIA afirma que su Grace es un procesador altamente especializado que se enfoca en cargas de trabajo como el entrenamiento de modelos NLP de próxima generación que tienen más de 1 billón de parámetros. Cuando se combina estrechamente con GPU NVIDIA, un sistema basado en CPU Grace ofrecerá un rendimiento 10 veces más rápido que los sistemas basados ​​en NVIDIA DGX de última generación, que se ejecutan en CPU x86.

Definitivamente será interesante ver cómo las CPU Grace se comparan con los chips x86, pero para cuando se lancen, estarán compitiendo contra las CPU Genoa de AMD y Sapphire Rapids de Intel. Está previsto que las CPU NVIDIA Grace se utilicen en la supercomputadora ATOS como se informa aquí.

NVIDIA también

Comparte esta historia

Facebook

Gorjeo



Source link-29