2024 - Intel lanza CPU y GPU Xeon Max para rivalizar con AMD y Nvidia

Apenas unos días antes del lanzamiento de Supercomputing 22, Intel presentó (se abre en una pestaña nueva) su CPU Xeon Max de próxima generación, anteriormente con el nombre en código Sapphire Rapids HBM, y las GPU de cómputo de la serie Max de GPU para centros de datos, conocidas como Ponte Vecchio. Los nuevos productos se adaptan a diferentes tipos de cargas de trabajo informáticas de alto rendimiento o trabajan juntos para resolver las tareas de supercomputación más complejas.

La CPU Xeon Max: Sapphire Rapids obtiene 64 GB de HBM2E

Los procesadores x86 de uso general se han utilizado para prácticamente todo tipo de informática técnica durante décadas y, por lo tanto, admiten muchas aplicaciones. Sin embargo, mientras que el rendimiento de los núcleos de CPU de uso general se ha escalado con bastante rapidez durante años, los procesadores actuales tienen dos limitaciones significativas con respecto al rendimiento en cargas de trabajo de inteligencia artificial y HPC: paralelización y ancho de banda de memoria. Los procesadores Xeon Max ‘Sapphire Rapids HBM’ de Intel prometen eliminar ambos límites.

Imagen 1 de 3

(Credito de imagen: Intel)

El procesador Xeon Max de Intel cuenta con hasta 56 núcleos Golden Cove de alto rendimiento (distribuidos en cuatro chipsets interconectados mediante la tecnología EMIB de Intel) mejorados aún más con múltiples motores aceleradores para cargas de trabajo de IA y HPC y 64 GB de memoria HBM2E en el paquete. Al igual que otras CPU Sapphire Rapids, Xeon Max seguirá admitiendo ocho canales de memoria DDR5 e interfaz PCIe Gen 5 con el protocolo CXL 1.1 en la parte superior, por lo que podrá utilizar todos esos aceleradores habilitados para CXL cuando tenga sentido.

Además de la compatibilidad con los aceleradores vectoriales AVX-512 y Deep Learning Boost (AVX512_VNNI y AVX512_BF16), los nuevos núcleos también traen el acelerador de multiplicación de matriz en mosaico Advanced Matrix Extensions (AMX), que es esencialmente una cuadrícula de unidades fusionadas de multiplicación y suma compatibles con BF16 e INT8 tipos de entrada que se pueden programar usando solo 12 instrucciones y realizar hasta 1024 TMUL BF16 o 2048 TMUL INT8 operaciones por ciclo por núcleo. Además, la nueva CPU es compatible con Data Streaming Accelerator (DSA), que descarga las cargas de trabajo de transformación y copia de datos de la CPU.

Los 64 GB de memoria HBM2E en el paquete (cuatro pilas de 16 GB) proporcionan un ancho de banda máximo de alrededor de 1 TB/s, lo que se traduce en ~1,14 GB de HBM2E por núcleo a 18,28 GB/s por núcleo. Para poner los números en contexto, un procesador Sapphire Rapids de 56 núcleos equipado con ocho módulos DDR5-4800 obtiene hasta 307,2 GB/s de ancho de banda, lo que significa 5,485 GB/s por núcleo. Mientras tanto, Xeon Max puede usar su memoria HBM2E de diferentes maneras: utilícela como memoria del sistema, lo que no requiere cambios de código; utilícelo como un caché de alto rendimiento para el subsistema de memoria DDR5, que no requiere cambiar el código; utilícelo como parte de un grupo de memoria unificado (modo plano de HBM), que implica optimizaciones de software.

Según la carga de trabajo, el procesador Xeon Max habilitado para AMX de Intel puede proporcionar una mejora del rendimiento de 3X a 5,3X con respecto al procesador Xeon Scalable 8380 disponible actualmente que utiliza el procesamiento FP32 convencional para las mismas cargas de trabajo. Mientras tanto, en aplicaciones como el desarrollo de modelos para la dinámica molecular, las nuevas CPU equipadas con HBM2E son hasta 2,8 veces más rápidas que la EPYC 7773X de AMD, que cuenta con 3D V-Cache.

Imagen 1 de 13

Pero HBM2E tiene otra implicación importante para Intel, ya que reduce un poco la sobrecarga de movimiento de datos entre la CPU y la GPU, lo cual es esencial para varias cargas de trabajo de HPC. Nos lleva al segundo de los anuncios de hoy: las GPU de cómputo de la serie Data Center GPU Max.

El centro de datos GPU Max: el pináculo de las innovaciones del centro de datos de Intel

La serie de GPU de cómputo GPU Max para centro de datos de Intel empleará la arquitectura Ponte Vecchio con nombre en código de la compañía, presentada por primera vez en 2019 y luego detallada en 2020 ~ 2021. Ponte Vecchio de Intel es el procesador más complejo jamás creado, ya que incluye más de 100 mil millones de transistores (sin incluir memoria) más de 47 mosaicos (incluidos 8 mosaicos HBM2E). Además, el producto utiliza ampliamente las tecnologías de empaquetado avanzadas de Intel (por ejemplo, EMIB) ya que otros fabricantes fabrican diferentes mosaicos utilizando diferentes tecnologías de proceso.

Imagen 1 de 6

Las GPU de cómputo GPU Max para centros de datos de Intel se basarán en la arquitectura Xe-HPC de la empresa, diseñada específicamente para cargas de trabajo de IA y HPC y, por lo tanto, admitirán formatos de datos e instrucciones apropiados, así como motores de matriz (tensor) de 4096 bits y vectores de 512 bits.

Desliza para desplazarte horizontalmente

	Centro de datos Max 1100	Centro de datos Max 1350	Centro de datos Max 1550	AMD instinto MI250X	Nvidia H100	Nvidia H100	Puente de Rialto
Factor de forma	PCIe	OAM	OAM	OAM	SXM	PCIe	OAM
Azulejos + Memoria	?	?	39+8	2+8	1+6	1+6	muchos
transistores	?	?	100 mil millones	58 mil millones	80 mil millones	80 mil millones	montones de ellos
Núcleos HPC Xe \| Unidades de cómputo	56	112	128	220	132	114	160 núcleos Xe HPC mejorados
Núcleos RT	56	112	128	–	–	–	?
Motores vectoriales de 512 bits	448	896	1024	?	?	?	?
Motores de matriz de 4096 bits	448	896	1024	?	?	?	?
Caché L1	?	?	64 MB a 105 TB/s	?	?	?	?
Caché Rambo L2	?	?	408 MB a 13 TB/s	?	50 MB	50 MB	?
HBM2E	48GB	96GB	128 GB a 3,2 TB/s	128 GB/s a 3,2 TB/s	80 GB a 3,35 TB/s	8 GB a 2 TB/s	?
E/S multi-GPU	8	dieciséis	dieciséis	8	8	8	?
Energía	300W	450W	600W	560W	700W	350W	800W

En comparación con Xe-HPG, Xe-HPC tiene subsistemas de almacenamiento en caché y memoria considerablemente más sofisticados, núcleos Xe configurados de manera diferente (cada núcleo Xe-HPG presenta 16 motores vectoriales de 256 bits y 16 motores matriciales de 1024 bits, mientras que cada núcleo Xe-HPC tiene ocho motores vectoriales de 512 bits y ocho motores vectoriales de 4096 bits). Además, las GPU Xe-HPC no cuentan con unidades de texturización ni backends de renderizado, por lo que no pueden renderizar gráficos con métodos tradicionales. Mientras tanto, Xe-HPG admite sorprendentemente el trazado de rayos para la visualización de supercomputadoras.

Uno de los ingredientes más importantes de Xe-HPC son las Xe Matrix Extensions (XMX) de Intel que permiten un rendimiento de tensor/matriz bastante formidable de la GPU Max 1550 del centro de datos de Intel (consulte la tabla a continuación): hasta 419 TF32 TFLOPS y hasta 1678 INT8 TOPS, según Intel. Por supuesto, las cifras de rendimiento máximo proporcionadas por los desarrolladores de GPU de cómputo son importantes, pero es posible que no reflejen el rendimiento alcanzable en supercomputadoras del mundo real en aplicaciones del mundo real. Aún así, no podemos dejar de notar que el Ponte Vecchio de gama alta de Intel está significativamente por detrás del H100 de Nvidia en la mayoría de los casos y no ofrece ventajas tangibles sobre el Instinct MI250X de AMD en todos los casos, excepto en FP32 Tensor (TF32).

Desliza para desplazarte horizontalmente

	Centro de datos Max 1550	AMD instinto MI250X	Nvidia H100	Nvidia H100
Factor de forma	OAM	OAM	SXM	PCIe
HBM2E	128 GB a 3,2 TB/s	128 GB/s a 3,2 TB/s	80 GB a 3,35 TB/s	80 GB a 2 TB/s
Energía	600W	560W	700W	350W
Vector pico INT8	?	383 PARTES SUPERIORES	133,8 TFLOPS	102,4 TFLOPS
Vector pico FP16	104 TFLOPS	383 TFLOPS	134 TFLOPS	102,4 TFLOPS
Vector pico BF16	?	383 TFLOPS	133,8 TFLOPS	102,4 TFLOPS
Vector pico FP32	52 TFLOPS	47,9 TFLOPS	67 TFLOPS	51 TFLOPS
Vector pico FP64	52 TFLOPS	47,9 TFLOPS	34 TFLOPS	26 TFLOPS
Tensor pico INT8	1678 TOPS	?	TOPS DE 1979 \| 3958 TOPS*	1513 TOPS \| 3026 TOPS*
Tensor pico FP16	839 TFLOPS	?	989 TFLOPS \| 1979 TFLOPS*	756 TFLOPS \| 1513 TFLOPS*
Tensor pico BF16	839 TFLOPS	?	989 TFLOPS \| 1979 TFLOPS*	756 TFLOPS \| 1513 TFLOPS*
Tensor de Pico FP32	419 TFLOPS	95,7 TFLOPS	989 TFLOPS	756 TFLOPS
Tensor de Pico FP64	–	95,7 TFLOPS	67 TFLOPS	51 TFLOPS

Mientras tanto, Intel dice que su Data Center GPU Max 1550 es 2,4 veces más rápido que el A100 de Nvidia en el precio de opción de crédito de Riskfuel y ofrece una mejora de rendimiento de 1,5 veces sobre A100 para simulaciones de reactores virtuales NekRS.

Intel planea ofrecer tres productos Ponte Vecchio: la GPU Max 1550 para centro de datos de gama alta en factor de forma OAM con 128 núcleos Xe-HPC, 128 GB de memoria HBM2E y una potencia de diseño térmico nominal de hasta 600 W; la GPU de centro de datos Max 1350 reducida en factor de forma OAM con 112 núcleos Xe-HPC, 96 GB de memoria y un TDP de 450 W; y la GPU Max 1100 para centros de datos de nivel de entrada que viene en un factor de forma FLFH de doble ancho y lleva un procesador con 56 núcleos Xe-HPC, tiene 56 GB de memoria HBM2E y está clasificado para un TDP de 300 W.

Mientras tanto, a sus clientes de supercomputadoras, Intel ofrecerá subsistemas de la serie Max con cuatro módulos OAM en una placa portadora clasificada para un TDP de 1800 W y 2400 W.

Imagen 1 de 17

Puente Rialto de Intel: Mejorando el máximo

Además de presentar formalmente sus GPU de cómputo GPU Max para centros de datos, Intel también dio un adelanto de su GPU de centros de datos de próxima generación, cuyo nombre en código es Rialto Bridge, que llegará en 2024. Esta GPU de cómputo HPC e IA se basará en Xe- Núcleos HPC, presumiblemente con una arquitectura ligeramente diferente, pero mantendrán la compatibilidad con las aplicaciones basadas en Ponte Vecchi. Desafortunadamente, esa complejidad adicional aumentará el TDP de la GPU de cómputo insignia de próxima generación a 800 W, aunque habrá versiones más simples y que consuman menos energía.

Disponibilidad

Uno de los primeros clientes en obtener los productos Intel Xeon Max e Intel Data Center GPU Max será Argonne National Laboratory, que está construyendo sus >2 supercomputadoras ExaFLOPS basadas en más de 10 000 blades que utilizan CPU Xeon Max y dispositivos Data Center GPU Max (dos CPU y seis GPU por hoja). Además, Intel y Argonne están terminando de construir Sunspot, el sistema de desarrollo de prueba de Aurora que consta de 128 blades de producción que estarán disponibles para las partes interesadas a fines de 2022. La supercomputadora Aurora debería estar en línea en 2023.

Los socios de Intel, entre los fabricantes de servidores, lanzarán máquinas basadas en CPU Xeon Max y dispositivos GPU Max para centros de datos en enero de 2023.

Source link-41

Los monos se tratan específicamente con plantas: Dr. medicina Orangután curó su herida con hojas de liana

Mandato Take-Two sobre microtransacciones: la entrega excesiva de contenido y la monetización seguirán

2K revelará un nuevo juego en una de sus franquicias «más grandes y queridas» el próximo mes

La actualización del ‘Modo Historia’ de la demostración beta mundial de Inazuma Eleven: Victory Road se lanza hoy

Intel lanza CPU y GPU Xeon Max para rivalizar con AMD y Nvidia

La CPU Xeon Max: Sapphire Rapids obtiene 64 GB de HBM2E