Vecchio – Magazine Office

Es el final del camino para la GPU Ponte Vecchio de Intel, la empresa ahora se centra en el desarrollo de Falcon Shores

John — Tue, 14 May 2024 23:48:08 +0000

Intel ha finalizado el despliegue de su GPU Ponte Vecchio, marcando el final del camino para un chip que se considera una maravilla técnica.

La GPU Ponte Vecchio de Intel fue una maravilla técnica en lo que respecta a su diseño con muchos chipsets, ¡pero el equipo azul ahora sigue adelante!

La GPU Ponte Vecchio de Intel se reveló por primera vez en 2019 y fue una creación del gurú Ex GPU de Intel, Raja Koduri. Cuando se anunció, el chip fue diseñado para alimentar las plataformas informáticas a exaescala de próxima generación, pero la compañía tuvo que superar varios obstáculos para construir esta maravilla de chip que albergaba varios chiplets en un solo paquete. Como referencia, la GPU Ponte Vecchio de Intel tenía un total de 47 mosaicos en un solo paquete que incluía:

16 Xe HPC (interno/externo)
8 Rambo (interno)
2 bases Xe (internas)
11 EMIB (interno)
2 Xe Link (externo)
8 HBM (externo)

Las GPU Ponte Vecchio vieron un lugar en la serie de GPU Intel Data Center Max y uno de los productos líderes construidos en esta plataforma de chip exaescala fue la supercomputadora Aurora, que logró romper la barrera exaescala, pero demasiado tarde. La supercomputadora Frontier con tecnología AMD no solo logró vencer a Aurora con tecnología Intel en la carrera de exaescala, sino que actualmente ocupa el puesto número 1 y tiene una eficiencia máxima más alta que el sistema con tecnología Ponte Vecchio.

Intel logró batir algunos récords de rendimiento de IA con la supercomputadora Aurora gracias a su hardware Xe, que incluye aceleradores de IA dedicados, pero la compañía ahora está cambiando el enfoque a sus aceleradores Gaudi, siendo Gaudi 2 y Gaudi 3 los chips principales para atender el segmento. .

En declaraciones a ServerTheHome, Intel confirmó que no implementará más clústeres con GPU Ponte Vecchio. La empresa seguirá ofreciendo Ponte Vecchio en los grupos existentes, pero no se crearán nuevos grupos. Para aquellos que estén interesados en aprovechar las capacidades HPC de las GPU Ponte Vecchio, seguirán estando disponibles en Intel Developer Cloud, pero la compañía ha reafirmado que ahora está centrando su atención en la GPU Falcon Shores de próxima generación.

Desde la semana pasada, Intel Ponte Vecchio está entrando en una nueva fase. En lugar de buscar nuevos grupos, se seguirá vendiendo y completando los grupos existentes. Del mismo modo, la arquitectura Intel Xe es importante para la empresa, por lo que Intel seguirá desarrollando el software detrás de Intel Xe a medida que avance hacia Falcon Shores, con suerte el próximo año.

a través de ServerTheHome

También se esperaba que Intel lanzara Rialto Bridge, una versión mejorada de las GPU Ponte Vecchio que luego fue enlatada. Y Falcon Shores originalmente iba a ser una combinación de arquitectura de CPU y GPU x86, pero eso se abandonó en favor de un diseño solo de GPU. Este diseño habría sido similar al acelerador APU AMD MI300A que combina GPU CDNA 3 con núcleos de CPU Zen 4 en un paquete singular.

Según lo que sabemos, la GPU Intel Falcon Shores utilizará lo mejor de las arquitecturas de GPU Gaudí y Xe de próxima generación y las combinará en un solo paquete. El lanzamiento de la GPU está programado para el próximo año, pero tenemos que esperar y ver si el producto realmente se envía a tiempo o termina enfrentando un retraso similar al Ponte Vecchio que lo precedió.

Source link-29

La supercomputadora Aurora con Intel Ponte Vecchio no logra superar la frontera totalmente AMD en la carrera de exaescala

John — Tue, 14 Nov 2023 15:37:08 +0000

Ayer, Top500.org publicó la lista de las supercomputadoras más rápidas del planeta y parece que la supercomputadora Aurora de Intel no logró vencer a la Frontier de AMD, la única máquina exaflop que está en pleno funcionamiento.

Olvídese de Zettascale, Intel aún debe lograr un rendimiento de exaescala con la supercomputadora Aurora y los chips Ponte Vecchio, totalmente AMD Frontier, el único sistema Exaflop+ del planeta

Los aceleradores Ponte Vecchio de Intel que alimentan la supercomputadora Aurora en Argonne Leadership Computing Facility en Illinois, EE. UU., ya están operativos, pero el rendimiento informático prometido está lejos de ser alcanzable, ya que el sistema está funcionando a una cuarta parte de su producción informática esperada. Tanto en términos de rendimiento bruto como de eficiencia bruta, el sistema AMD Frontier supera al sistema Aurora de Intel.

Las siguientes son las tres mejores supercomputadoras del planeta:

Frontier sigue siendo el sistema número uno en el TOP500. Este sistema HPE Cray EX es el primer sistema estadounidense con un rendimiento superior a un Exaflop/s. Está instalado en el Laboratorio Nacional Oak Ridge (ORNL) en Tennessee, EE. UU., donde es operado por el Departamento de Energía (DOE). Actualmente ha alcanzado 1.194 Exaflop/s utilizando 8.699.904 núcleos. La arquitectura HPE Cray EX combina CPU AMD EPYC de tercera generación optimizadas para HPC e IA, con aceleradores AMD Instinct 250X y una interconexión Slingshot-11.
Aurora logró el puesto número 2 al presentar una puntuación HPL de 585 Pflop/s medida en la mitad del sistema completo. Está instalado en Argonne Leadership Computing Facility, Illinois, EE. UU., donde también es operado por el Departamento de Energía (DOE). Este nuevo sistema Intel está basado en HPE Cray EX – Intel Exascale Compute Blades. Utiliza procesadores Intel Xeon CPU Max Series, aceleradores Intel Data Center GPU Max Series y una interconexión Slingshot-11.
Eagle, el nuevo sistema número 3, lo instala Microsoft en su nube Azure. Este sistema Microsoft NDv5 se basa en procesadores Xeon Platinum 8480C y aceleradores NVIDIA H100 y logró una puntuación HPL de 561 Pflop/s.

Fuente de la imagen: Top500

Entonces, comenzando con los detalles, la supercomputadora Aurora utiliza una combinación de GPU Intel Xeon Max «4th Gen Sapphire Rapids» y Data Center Max «Ponte Vecchio». El sistema cuenta con un total de 4.742 millones de núcleos y eso es mucho menos que las cifras finales que se esperaban en el sistema. El sistema produjo un rendimiento informático máximo FP64 de 585,34 PFLOP, que es menos de la mitad del rendimiento máximo (Rmax) de la Frontier basada en AMD, que es la única máquina con capacidad para exaflop, ya que alcanza 1194 PFLOP. El sistema ha estado operativo desde 2022.

En términos de eficiencia, la supercomputadora Aurora alcanza un máximo de 1.059,33 PFLOP/s, mientras que la supercomputadora Frontier alcanza un máximo de 1.679,82 PFLOP/s. La supercomputadora Aurora tiene un consumo de energía máximo de 24,6 MW, pero esa es la cifra para todo el sistema y no para la configuración actual que se ejecuta con la mitad de las especificaciones/hardware. La supercomputadora Frontier tiene un consumo de energía de 22,7 MW.

R_cima Los valores se calculan utilizando la frecuencia de reloj anunciada de la CPU. Para la eficiencia de los sistemas, debe tener en cuenta la velocidad del reloj Turbo CPU cuando se aplique.

a través de Top500

No sorprende que Aurora se encuentre en el estado en el que se encuentra ahora. Aunque el sistema finalmente está operativo, no se acerca a los 2 Exaflops que Intel había prometido. Esta situación actual se debe en parte a los importantes retrasos con los chips Sapphire Rapids y Ponte Vecchio de Intel que llevaron a AMD a ocupar el primer puesto en la carrera exaescala y conservarlo durante todo un año. Intel Aurora se presentó por primera vez en 2019, es decir, hace cuatro años. Pero si realmente quieres retroceder, entonces el diseño original de Aurora se presentó en 2015 con una llegada programada para 2018. En aquel entonces, era un sistema de 180 PFLOP y se basaba en el Xeon Phi, ahora descontinuado. Plataforma Knights Hill».

No se sabe cuándo veremos finalmente a Aurora distribuir sus 2 Exaflops de computación, pero AMD ya está planeando un sistema de 2 Exaflop+ conocido como El-Capitan que también debería estar operativo el próximo año. Esto supondrá un nuevo golpe para Intel en el espacio de HPC y supercomputación.

Intel anunció dos supercomputadoras adicionales, Dawn (Universidad de Cambridge, Reino Unido) y SuperMuc-NG (LRZ, Alemania). La compañía también compartió algunas cifras de rendimiento de los nodos Aurora en comparación con Frontier y Polaris, pero creo que no importan mucho cuando Frontier lidera las cifras de rendimiento general en la lista Top500.

AMD ya lidera al impulsar más de 120 supercomputadoras en todo el mundo y la lista continuará expandiéndose con su sólido EPYC y las próximas ofertas de Instinct que parecen muy poderosas.

Source link-29

TACC presenta la supercomputadora Stampede3: Xeon Max con HBM se encuentra con Ponte Vecchio

John — Tue, 25 Jul 2023 02:07:01 +0000

El Texas Advanced Computing Center (TACC) anunció el lunes Stampede3, su nueva supercomputadora que se utilizará para simulaciones de alto nivel, así como aplicaciones de inteligencia artificial/aprendizaje automático. El nuevo sistema se basará en los procesadores Xeon CPU Max de Intel, con memoria HBM2E en el paquete y GPU de cómputo Data Center Max.

«Continuaremos con nuestra larga asociación con Dell e Intel y aprovecharemos las inversiones de NSF en Stampede2 para este nuevo recurso científico utilizando los procesadores de última tecnología con memoria de gran ancho de banda y haciendo que las unidades de procesamiento de gráficos de Intel estén ampliamente disponibles para la comunidad científica abierta de NSF», dijo Dan Stanzione, director ejecutivo de TACC.

Stampede3 de TACC será construido por Dell utilizando el último hardware de Intel. La nueva máquina constará de 560 nodos basados en procesadores Intel Xeon CPU Max de 56 núcleos con 64 GB de memoria HBM2E en el paquete que generará casi 63 000 núcleos de propósito general y un rendimiento máximo de alrededor de 4 FP64 PetaFLOPS. Además, Stampede 3 incluirá 10 servidores Dell PowerEdge XE9640 con 40 nuevas GPU Intel Data Center GPU Max Compute con nombre en código Ponte Vecchio para capacidades AI/ML.

«Creemos que la memoria de alto ancho de banda de los nodos de CPU Xeon Max ofrecerá un mejor rendimiento que cualquier CPU que nuestros usuarios hayan visto», dijo Stanzione. «Ofrecen más del doble de rendimiento de ancho de banda de memoria por núcleo que los nodos de procesador escalable Intel Xeon de segunda y tercera generación actuales en Stampede2».

La nueva supercomputadora utiliza la última tecnología Omni-Path Fabric 400 Gb/s, con un ancho de banda de backplane de 24 TB/s para una escalabilidad superior y baja latencia para varias aplicaciones que requieren simulaciones de alta precisión.

Además del último hardware de Intel, Stampede3 está configurado para reintegrar nodos Stampede2 basados en CPU escalables Xeon de generaciones anteriores para aplicaciones de mayor memoria, computación de alto rendimiento, cargas de trabajo interactivas y otras cargas de trabajo más pequeñas.

TACC dice que el nuevo sistema utilizará 1858 nodos de cómputo con más de 140 000 núcleos y más de 330 TB de RAM, 13 PB de almacenamiento nuevo y casi 10 PetaFLOPS de rendimiento máximo.

Al igual que sus predecesores, Stampede de 2012 y Stampede2 de 2017, Stampede 3 será una parte vital del ecosistema de supercomputación científica ACCESS de la Fundación Nacional de Ciencias de EE. UU. (NSF) y se utilizará para proyectos de investigación de ciencia abierta.

TACC espera que Stampede3 se entregue en el otoño de 2023 y luego entre en pleno rendimiento a principios de 2024. Servirá a la comunidad científica abierta desde 2024 hasta 2029.

Source link-41

El Ponte Vecchio de Intel finalmente está en estado salvaje

John — Sat, 03 Jun 2023 12:10:26 +0000

Aunque hemos estado hablando del Ponte Vecchio de Intel durante más de tres años, incluidas las imágenes del laboratorio, pocos de nosotros pudimos ver la GPU Max 1550 del centro de datos de Intel (un producto basado en el diseño de PVC) en persona. Esto se debe a que los chips se retrasaron repetidamente y no se ofrecieron en los sistemas de servidor, pero ahora eso cambió, Intel prometió que estos sistemas 8-OAM estarán disponibles para sus clientes en julio. En Computex, Supermicro decidió corregir este error y demostró su sistema de GPU Ponte Vecchio X13 8U de 8 vías para IA y HPC, así como la propia GPU de cómputo.

(Crédito de la imagen: Hardware de Tom)

El Ponte Vecchio de Intel representa el pináculo de la complejidad del procesador, con un número de transistores de más de 100 mil millones (sin incluir la memoria) y un tamaño de troquel combinado de 2330 mm². El diseño de PVC es una disposición compleja de 47 mosaicos que incluye mosaicos de cómputo, mosaicos de caché Rambo, mosaicos Xe Link y pilas de memoria HBM2E interconectadas mediante las tecnologías de empaquetado avanzadas de Intel, como Embedded Multi-Die Interconnect Bridge (EMIB) y Foveros. Las tejas para PVC se fabrican utilizando una variedad de tecnologías de proceso y luego se ensamblan.

El servidor de GPU Ponte Vecchio de 8 vías X13 8U de Supermicro se basa en dos procesadores Xeon Scalable ‘Sapphire Rapids’ de cuarta generación clasificados para hasta 350 W que se acoplan con 32 ranuras DIMM, así como hasta 20 de intercambio en caliente de 2,5 pulgadas. SSD (12 NVMe, 8 SATA).

Imagen 1 de 2

(Crédito de la imagen: Hardware de Tom)

Pero mientras que el Ponte Vecchio de Intel es extremadamente complejo por dentro, se ve bastante humilde en su factor de forma OAM con un disipador de calor encendido. Dado el hecho de que la bestia de 100 mil millones de transistores está clasificada para un TDP de 600 W, tiene un módulo de regulación de voltaje intrincado que incluye dos convertidores de alto rendimiento, cada uno de los cuales está sirviendo a su propia «mitad» de MOSFET para mayor granularidad de suministro de energía. . Por el contrario, el Instinct MI250X de AMD utiliza solo un convertidor de alto rendimiento integrado, aunque «solo» está clasificado para un TDP de 550 W. Mientras tanto, una ranura OAM puede suministrar hasta 700 W de potencia, por lo que el módulo de Intel probablemente se diseñó teniendo en cuenta el espacio libre.

(Crédito de la imagen: Hardware de Tom)

600 W es una cantidad excepcional de energía, por lo que el SYS-821PV-TNR de Supermicro utiliza radiadores enormes y ventiladores de alta presión para eliminar el calor de ocho de los procesadores GPU Max 1550 del centro de datos de Intel. Estos radiadores tienen siete tubos de calor de cobre y docenas de aletas de aluminio, por lo que incluso un radiador de PVC es un arreglo bastante complicado.

Source link-41

Resumen del día 4 de Computex 2023: Intel Ponte Vecchio, sopladores RTX 4090 de 4.5 ranuras y más

John — Sat, 03 Jun 2023 08:21:42 +0000

Este es nuestro último día de cobertura en vivo de Computex 2023 mientras el espectáculo en Taipei, Taiwán, llega a su fin. Hemos visto muchos equipos geniales durante la semana, desde cameos inesperados de Intel Meteor Lake hasta elaboradas soluciones de refrigeración líquida para SSD PCIe 5.0. Así que asegúrese de revisar nuestra cobertura del Día 1, Día 2 y Día 3 para conocer todo lo mejor que Computex tuvo para ofrecer hasta ahora esta semana.

Terminando las cosas en Computex 2023
Aunque la GPU del centro de datos Ponte Vecchio de Intel ha estado en nuestras mentes durante años, finalmente la vimos en carne y hueso en Computex. Esta bestia de 100 mil millones de transistores es impresionante por derecho propio, y ver ocho de ellos juntos es una rareza. También está disponible la fuente de alimentación FSP de 2500 W que puede alimentar fácilmente cuatro GPU GeForce RTX 4090 y algunas de las modificaciones de carcasa más increíbles que vimos en la feria.

Source link-41

Intel ahora envía procesadores Ponte Vecchio y Xeon de cuarta generación al laboratorio nacional de Argonne

John — Thu, 29 Sep 2022 01:40:20 +0000

Intel ha logrado un hito importante hoy al anunciar que su GPU para centros de datos, también conocida como Ponte Vecchio (PVC), finalmente se envía en servidores blade al laboratorio de Argonne. Las GPU de PVC de Intel se basan en la arquitectura Xe HPC y se utilizarán para impulsar la supercomputadora Argonne a más de petaFLOP de rendimiento. Están siendo emparejados con los procesadores escalables Xeon de cuarta generación recientemente anunciados por Intel.

La GPU Intel Ponte Vecchio es un producto importante que tiene 128 núcleos Xe, 128 núcleos RT, hasta 64 MB de caché L1 y hasta 408 MB de caché L2. También se ha utilizado HBM2e y el IO conectará hasta 8 troqueles discretos. PCIe Gen 5 se está utilizando junto con Xe Link para ofrecer una gran cantidad de potencia de procesamiento. Se crea utilizando una combinación de Intel 7, TSMC N5 y TSMC N7 empaquetados a través de enfoques EMIB y Foveros.

Intel Data Center GPU (nombre en código Ponte Vecchio) ofrece petaFLOPS de rendimiento y, junto con la 4.ª generación #IntelXeon procesadores forman el cerebro de la supercomputadora Aurora.

Estamos emocionados de compartir que ahora estamos enviando cuchillas a @argonne. #IntelON https://t.co/kBnVNaVo2A pic.twitter.com/BrQqDCIKl1

— Gráficos Intel (@IntelGraphics) 27 de septiembre de 2022

Ha habido muchas especulaciones de que este contrato en particular podría cancelarse o que Intel no podría cumplir con el contrato con PVC (o incluso que el propio PVC fue enlatado), pero esto debería probar que todos esos rumores son falsos. El PVC no solo está vivo y bien, sino que finalmente comenzó a enviarse a su cliente final previsto, aunque un poco tarde. Actualizaremos la historia si Intel revela más información al respecto.

Source link-29

Intel detalla el rendimiento de GPU Ponte Vecchio y Sapphire Rapids HBM, hasta 2,5 veces más rápido que NVIDIA A100

John — Wed, 24 Aug 2022 21:36:40 +0000

Durante Hot Chips 34, Intel una vez más detalló sus GPU Ponte Vecchio ejecutándose en una plataforma de servidor Sapphire Rapids HBM.

Intel muestra el rendimiento de la GPU Ponte Vecchio 2-Stack y la CPU Sapphire Rapids HBM frente a la A100 de NVIDIA

En la presentación de Intel Fellow & Chief GPU Compute Architect, Hong Jiang, obtenemos más detalles sobre las próximas potencias de servidor del equipo azul. La GPU Ponte Vecchio viene en tres configuraciones que comienzan con un OAM singular y van hasta un subsistema x4 con Xe Links, ya sea que se ejecute solo o con una plataforma Sapphire Rapids de doble socket.

El OAM admite topologías de todos a todos para plataformas de 4 GPU y 8 GPU. Como complemento de toda la plataforma, se encuentra la pila de software oneAPI de Intel, que es una API de nivel cero que proporciona una interfaz de hardware de bajo nivel para admitir la programación entre arquitecturas. Algunas de las características principales de oneAPI incluyen:

Interfaz para oneAPI y otras herramientas para dispositivos aceleradores
Control de ganancia fino y baja latencia para las capacidades del acelerador
Diseño de subprocesos múltiples
Para GPU, se envía como parte del controlador

Entonces, en cuanto a las métricas de rendimiento, una configuración de GPU Ponte Vecchio de 2 pilas como la que se presenta en un OAM singular es capaz de entregar hasta 52 TFLOP de cómputo FP64/FP32, 419 TFLOP de TF32 (XMX Float 32), 839 TFLOP de BF16/FP16 y 1678 TFLOPs de INT8 caballos de fuerza.

Intel también detalla sus tamaños máximos de caché y el ancho de banda máximo que ofrece cada uno de ellos. El tamaño del archivo de registro en la GPU Ponte Vecchio es de 64 MB y ofrece 419 TB/s de ancho de banda, la caché L1 también tiene 64 MB y ofrece 105 TB/s (4:1), y la caché L2 tiene 408 MB y ofrece un ancho de banda de 13 TB/s (8:1), mientras que la memoria de HBM agrupa hasta 128 GB y ofrece un ancho de banda de 4,2 TB/s (4:1). Existe una variedad de técnicas de eficiencia informática dentro de Ponte Vecchio, tales como:

Archivo de registro:

Registro de almacenamiento en caché
Acumuladores

Caché L1/L2:

Escriba por medio de
Respóndeme
Escritura de transmisión
Sin caché

captación previa:

Precarga de software (instrucción) a L1 y/o L2
Command Streamer capta previamente a L2 para instrucciones y datos

Intel explica que la caché L2 más grande puede ofrecer grandes ganancias en cargas de trabajo como 2D-FFT Case y DNN Case. Se han mostrado algunas comparaciones de rendimiento entre una GPU Ponte Vecchio completa y un módulo configurado a 80 MB y 32 MB.

Pero eso no es todo, Intel también tiene comparaciones de rendimiento entre NVIDIA Ampere A100 con CUDA y SYCL y sus propias GPU Ponte Vecchio con SYCL. En miniBUDE, que es una carga de trabajo computacional que puede predecir la energía de enlace del ligando con el objetivo, la GPU Ponte Vecchio simula los resultados de la prueba 2 veces más rápido que Ampere A100. Hay otra métrica de rendimiento en ExaSMR (reactores modulares pequeños para diseños de reactores nucleares grandes). aquí, se muestra que la GPU Intel ofrece una ventaja de rendimiento de 1,5 veces sobre la GPU NVIDIA.

Es un poco interesante que Intel todavía esté comparando sus GPU Ponte Vecchio con Ampere A100 porque el equipo ecológico lanzó al mercado su Hopper H100 de última generación y ya se ha enviado a los clientes. Si Chipzilla se siente tan seguro dentro de sus cifras de rendimiento de 2-2.5x, entonces no creo que tenga ningún problema para competir bien con Hopper a menos que sea de otra manera.

Aquí está todo lo que sabemos sobre las GPU Ponte Vecchio con tecnología Intel 7

Pasando a las especificaciones de Ponte Vecchio, Intel describió algunas características clave de su GPU insignia para centros de datos, como 128 núcleos Xe, 128 unidades RT, memoria HBM2e y un total de 8 GPU Xe-HPC que se conectarán entre sí. El chip contará con hasta 408 MB de caché L2 en dos pilas separadas que se conectarán a través de la interconexión EMIB. El chip contará con múltiples troqueles basados en el propio proceso ‘Intel 7’ de Intel y los nodos de proceso N7/N5 de TSMC.

Intel también detalló previamente el paquete y el tamaño de matriz de su GPU insignia Ponte Vecchio basada en la arquitectura Xe-HPC. La ficha constará de 2 fichas con 16 dados activos por pila. El tamaño máximo activo del troquel superior será de 41 mm2, mientras que el tamaño del troquel base, que también se conoce como ‘Compute Tile’, es de 650 mm2. Tenemos todos los chiplets y nodos de proceso que utilizarán las GPU Ponte Vecchio, que se enumeran a continuación:

Intel 7nm
TSMC 7nm
Embalaje Foveros 3D
EMIB
Súper aleta mejorada de 10 nm
Caché Rambo
HBM2

A continuación se muestra cómo Intel llega a 47 mosaicos en el chip Ponte Vecchio:

16 Xe HPC (interno/externo)
8 Rambo (interno)
Base 2 Xe (interna)
11 EMIB (interno)
2 enlaces Xe (externos)
8 HBM (externo)

La GPU Ponte Vecchio utiliza 8 pilas HBM 8-Hi y contiene un total de 11 interconexiones EMIB. Todo el paquete Intel Ponte Vecchio mediría 4843,75 mm2. También se menciona que el paso de golpe para las CPU Meteor Lake que utilizan el paquete Forveros 3D de alta densidad será de 36u.

La GPU Ponte Vecchio no es 1 chip sino una combinación de varios chips. Es una fuente inagotable de chiplets, ya que contiene la mayor cantidad de chiplets en cualquier GPU/CPU, 47 para ser precisos. Y estos no se basan en un solo nodo de proceso, sino en varios nodos de proceso, como habíamos detallado hace unos días.

Aunque la supercomputadora Aurora en la que se iban a usar las GPU Ponte Vecchio y las CPU Sapphire Rapids se retrasó debido a varios retrasos por parte del equipo azul, todavía es bueno ver que la compañía ofrece más detalles. Desde entonces, Intel se ha burlado de su GPU Rialto Bridge de próxima generación como sucesora de las GPU Ponte Vecchio y se dice que comenzará a probar en 2023. Puede leer más detalles al respecto aquí.

Aceleradores de GPU para centros de datos de próxima generación

Nombre de la GPU	AMD instinto MI250X	NVIDIA tolva GH100	Intel Ponte Vecchio	Puente Intel Rialto
Diseño de envases	MCM (tejido infinito)	Monolítico	MCM (EMIB + Foveros)	MCM (EMIB + Foveros)
Arquitectura GPU	Aldebarán (CDNA 2)	Tolva GH100	Xe-HPC	Xe-HPC
Nodo de proceso GPU	6nm	4N	7 nm (Intel 4)	5 nm (Intel 3)?
Núcleos de GPU	14,080	16,896	16.384 ALU (128 núcleos Xe)	20.480 ALU (160 núcleos Xe)
Velocidad de reloj de la GPU	1700 MHz	~1780 MHz	por confirmar	por confirmar
Caché L2/L3	2 x 8 MB	50 MB	2 x 204 MB	por confirmar
Cómputo FP16	383 tops	2000 TFLOP	por confirmar	por confirmar
Cómputo FP32	95,7 TFLOP	1000 TFLOP	~45 TFLOP (silicio A0)	por confirmar
Cómputo FP64	47,9 TFLOP	60 TFLOP	por confirmar	por confirmar
Capacidad de memoria	128 GB HBM2E	80GB HBM3	128GB HBM2e	128 GB HBM3?
Reloj de la memoria	3,2 Gb/s	3,2 Gb/s	por confirmar	por confirmar
Bus de memoria	8192 bits	5120 bits	8192 bits	8192 bits
ancho de banda de memoria	3,2 TB/s	3,0 TB/s	~3 TB/s	~3 TB/s
Factor de forma	OAM	OAM	OAM	OAM v2
Enfriamiento	Enfriamiento Pasivo Refrigeración líquida	Enfriamiento Pasivo Refrigeración líquida	Enfriamiento Pasivo Refrigeración líquida	Enfriamiento Pasivo Refrigeración líquida
TDP	560W	700W	600W	800W
Lanzar	Q4 2021	2H 2022	2022?	2024?

Source link-29

Intel Ponte Vecchio aparentemente ofrece un rendimiento 2,5 veces mayor que el A100 de Nvidia

John — Tue, 23 Aug 2022 04:59:18 +0000

Intel ha detallado la GPU Ponte Vecchio Xe-HPC de la empresa en Hot Chips 34. En los puntos de referencia proporcionados, el fabricante de chips afirma que Ponte Vecchio ofrece hasta 2,5 veces más rendimiento que Nvidia A100. Pero, como de costumbre, tome los puntos de referencia proporcionados por los proveedores con pinzas.

Ponte Vecchio superó al A100 por márgenes significativos en varios puntos de referencia seleccionados por Intel. La potencia de Intel también ostentó una ventaja de 2x en miniBUDE y 1.5x en ExaSMR. Es una comparación interesante si se tiene en cuenta que el Ponte Vecchio aún no ha salido y que el A100 (Ampere) está en el mercado desde 2020. Y no olvidemos que, según los informes, el Instinct MI250X (Aldebaran) de AMD es tres veces más rápido que el A100. Por lo tanto, Intel debería preocuparse por los productos HPC de próxima generación de AMD y Nvidia.

Si los números de Intel son precisos, Ponte Vecchio podría ser un competidor potencial contra el H100 (Hopper) de próxima generación de Nvidia. Según las especificaciones que tenemos hasta ahora, el H100 debería ser al menos el doble de rápido que el A100, lo que es aún más amenazador en el Instinct MI300 de AMD, que fusiona los chipsets de CPU Zen 4 y GPU CDNA 3 en un solo producto. Apodado como el primer APU del centro de datos del mundo, AMD afirma que el Instinct MI300 representa una mejora de 8 veces en el rendimiento del entrenamiento de IA en comparación con el Instinct MI250X.

Imagen 1 de 4

ponte viejo (Credito de imagen: Intel)

Imagen 1 de 4

Ponte Vecchio vendrá en tres sabores: OAM, subsistema x4 con enlaces Xe y subsistema x4 con enlaces Xe en una plataforma Sapphire Rapids de doble socket. Desafortunadamente, Sapphire Rapids ha sufrido tantos retrasos que ya no tiene gracia. A menos que se produzcan más contratiempos, algunos productos de Sapphire Rapids finalmente podrían debutar en octubre. No obstante, es posible que los chips de gran volumen no lleguen hasta febrero de 2023.

En su factor de forma OAM, Ponte Vecchio cuenta con soporte para plataformas de cuatro GPU y ocho GPU. Una configuración Ponte Vecchio de dos pilas bombea 52 TFLOP de rendimiento FP32 y FP64. A modo de comparación, un solo módulo H100 SXM5 alcanza un máximo de 60 TFLOP de FP32 y 30 TFLOP de rendimiento de FP64.

Ponte Vecchio presenta un archivo de registro de 64 MB, con una salida de hasta 419 TBps de ancho de banda. Los cachés L1 y L2 son de 64 MB y 408 MB, respectivamente. La gran caché L2 en Ponte Vecchio beneficia cargas de trabajo específicas, como 2D-FFT Case y DNN Case. En la presentación, los resultados de Intel revelan una mejora sustancial del rendimiento de 80 MB a 408 MB en ambos escenarios.

Source link-41