Intel detalla el rendimiento de GPU Ponte Vecchio y Sapphire Rapids HBM, hasta 2,5 veces más rápido que NVIDIA A100


Durante Hot Chips 34, Intel una vez más detalló sus GPU Ponte Vecchio ejecutándose en una plataforma de servidor Sapphire Rapids HBM.

Intel muestra el rendimiento de la GPU Ponte Vecchio 2-Stack y la CPU Sapphire Rapids HBM frente a la A100 de NVIDIA

En la presentación de Intel Fellow & Chief GPU Compute Architect, Hong Jiang, obtenemos más detalles sobre las próximas potencias de servidor del equipo azul. La GPU Ponte Vecchio viene en tres configuraciones que comienzan con un OAM singular y van hasta un subsistema x4 con Xe Links, ya sea que se ejecute solo o con una plataforma Sapphire Rapids de doble socket.

El OAM admite topologías de todos a todos para plataformas de 4 GPU y 8 GPU. Como complemento de toda la plataforma, se encuentra la pila de software oneAPI de Intel, que es una API de nivel cero que proporciona una interfaz de hardware de bajo nivel para admitir la programación entre arquitecturas. Algunas de las características principales de oneAPI incluyen:

  • Interfaz para oneAPI y otras herramientas para dispositivos aceleradores
  • Control de ganancia fino y baja latencia para las capacidades del acelerador
  • Diseño de subprocesos múltiples
  • Para GPU, se envía como parte del controlador

Entonces, en cuanto a las métricas de rendimiento, una configuración de GPU Ponte Vecchio de 2 pilas como la que se presenta en un OAM singular es capaz de entregar hasta 52 TFLOP de cómputo FP64/FP32, 419 TFLOP de TF32 (XMX Float 32), 839 TFLOP de BF16/FP16 y 1678 TFLOPs de INT8 caballos de fuerza.

Intel también detalla sus tamaños máximos de caché y el ancho de banda máximo que ofrece cada uno de ellos. El tamaño del archivo de registro en la GPU Ponte Vecchio es de 64 MB y ofrece 419 TB/s de ancho de banda, la caché L1 también tiene 64 MB y ofrece 105 TB/s (4:1), y la caché L2 tiene 408 MB y ofrece un ancho de banda de 13 TB/s (8:1), mientras que la memoria de HBM agrupa hasta 128 GB y ofrece un ancho de banda de 4,2 TB/s (4:1). Existe una variedad de técnicas de eficiencia informática dentro de Ponte Vecchio, tales como:

Archivo de registro:

  • Registro de almacenamiento en caché
  • Acumuladores

Caché L1/L2:

  • Escriba por medio de
  • Respóndeme
  • Escritura de transmisión
  • Sin caché

captación previa:

  • Precarga de software (instrucción) a L1 y/o L2
  • Command Streamer capta previamente a L2 para instrucciones y datos

Intel explica que la caché L2 más grande puede ofrecer grandes ganancias en cargas de trabajo como 2D-FFT Case y DNN Case. Se han mostrado algunas comparaciones de rendimiento entre una GPU Ponte Vecchio completa y un módulo configurado a 80 MB y 32 MB.

Pero eso no es todo, Intel también tiene comparaciones de rendimiento entre NVIDIA Ampere A100 con CUDA y SYCL y sus propias GPU Ponte Vecchio con SYCL. En miniBUDE, que es una carga de trabajo computacional que puede predecir la energía de enlace del ligando con el objetivo, la GPU Ponte Vecchio simula los resultados de la prueba 2 veces más rápido que Ampere A100. Hay otra métrica de rendimiento en ExaSMR (reactores modulares pequeños para diseños de reactores nucleares grandes). aquí, se muestra que la GPU Intel ofrece una ventaja de rendimiento de 1,5 veces sobre la GPU NVIDIA.

Es un poco interesante que Intel todavía esté comparando sus GPU Ponte Vecchio con Ampere A100 porque el equipo ecológico lanzó al mercado su Hopper H100 de última generación y ya se ha enviado a los clientes. Si Chipzilla se siente tan seguro dentro de sus cifras de rendimiento de 2-2.5x, entonces no creo que tenga ningún problema para competir bien con Hopper a menos que sea de otra manera.

Aquí está todo lo que sabemos sobre las GPU Ponte Vecchio con tecnología Intel 7

Pasando a las especificaciones de Ponte Vecchio, Intel describió algunas características clave de su GPU insignia para centros de datos, como 128 núcleos Xe, 128 unidades RT, memoria HBM2e y un total de 8 GPU Xe-HPC que se conectarán entre sí. El chip contará con hasta 408 MB de caché L2 en dos pilas separadas que se conectarán a través de la interconexión EMIB. El chip contará con múltiples troqueles basados ​​en el propio proceso ‘Intel 7’ de Intel y los nodos de proceso N7/N5 de TSMC.

Intel también detalló previamente el paquete y el tamaño de matriz de su GPU insignia Ponte Vecchio basada en la arquitectura Xe-HPC. La ficha constará de 2 fichas con 16 dados activos por pila. El tamaño máximo activo del troquel superior será de 41 mm2, mientras que el tamaño del troquel base, que también se conoce como ‘Compute Tile’, es de 650 mm2. Tenemos todos los chiplets y nodos de proceso que utilizarán las GPU Ponte Vecchio, que se enumeran a continuación:

  • Intel 7nm
  • TSMC 7nm
  • Embalaje Foveros 3D
  • EMIB
  • Súper aleta mejorada de 10 nm
  • Caché Rambo
  • HBM2

A continuación se muestra cómo Intel llega a 47 mosaicos en el chip Ponte Vecchio:

  • 16 Xe HPC (interno/externo)
  • 8 Rambo (interno)
  • Base 2 Xe (interna)
  • 11 EMIB (interno)
  • 2 enlaces Xe (externos)
  • 8 HBM (externo)

La GPU Ponte Vecchio utiliza 8 pilas HBM 8-Hi y contiene un total de 11 interconexiones EMIB. Todo el paquete Intel Ponte Vecchio mediría 4843,75 mm2. También se menciona que el paso de golpe para las CPU Meteor Lake que utilizan el paquete Forveros 3D de alta densidad será de 36u.

La GPU Ponte Vecchio no es 1 chip sino una combinación de varios chips. Es una fuente inagotable de chiplets, ya que contiene la mayor cantidad de chiplets en cualquier GPU/CPU, 47 para ser precisos. Y estos no se basan en un solo nodo de proceso, sino en varios nodos de proceso, como habíamos detallado hace unos días.

Aunque la supercomputadora Aurora en la que se iban a usar las GPU Ponte Vecchio y las CPU Sapphire Rapids se retrasó debido a varios retrasos por parte del equipo azul, todavía es bueno ver que la compañía ofrece más detalles. Desde entonces, Intel se ha burlado de su GPU Rialto Bridge de próxima generación como sucesora de las GPU Ponte Vecchio y se dice que comenzará a probar en 2023. Puede leer más detalles al respecto aquí.

Aceleradores de GPU para centros de datos de próxima generación

Nombre de la GPU AMD instinto MI250X NVIDIA tolva GH100 Intel Ponte Vecchio Puente Intel Rialto
Diseño de envases MCM (tejido infinito) Monolítico MCM (EMIB + Foveros) MCM (EMIB + Foveros)
Arquitectura GPU Aldebarán (CDNA 2) Tolva GH100 Xe-HPC Xe-HPC
Nodo de proceso GPU 6nm 4N 7 nm (Intel 4) 5 nm (Intel 3)?
Núcleos de GPU 14,080 16,896 16.384 ALU
(128 núcleos Xe)
20.480 ALU
(160 núcleos Xe)
Velocidad de reloj de la GPU 1700 MHz ~1780 MHz por confirmar por confirmar
Caché L2/L3 2 x 8 MB 50 MB 2 x 204 MB por confirmar
Cómputo FP16 383 tops 2000 TFLOP por confirmar por confirmar
Cómputo FP32 95,7 TFLOP 1000 TFLOP ~45 TFLOP (silicio A0) por confirmar
Cómputo FP64 47,9 TFLOP 60 TFLOP por confirmar por confirmar
Capacidad de memoria 128 GB HBM2E 80GB HBM3 128GB HBM2e 128 GB HBM3?
Reloj de la memoria 3,2 Gb/s 3,2 Gb/s por confirmar por confirmar
Bus de memoria 8192 bits 5120 bits 8192 bits 8192 bits
ancho de banda de memoria 3,2 TB/s 3,0 TB/s ~3 TB/s ~3 TB/s
Factor de forma OAM OAM OAM OAM v2
Enfriamiento Enfriamiento Pasivo
Refrigeración líquida
Enfriamiento Pasivo
Refrigeración líquida
Enfriamiento Pasivo
Refrigeración líquida
Enfriamiento Pasivo
Refrigeración líquida
TDP 560W 700W 600W 800W
Lanzar Q4 2021 2H 2022 2022? 2024?





Source link-29