Tachyum publica el informe técnico del procesador universal Prodigy: hasta 6 veces más rápido que NVIDIA H100 y 30 veces más rápido que Intel Xeon 8380, disponible en la segunda mitad de 2023


Tachyum ha publicado oficialmente el documento técnico de su Procesador Universal Prodigy de 5 nm que se presentó en 2018.

Tachyum promete grandes cifras en el informe técnico del procesador universal Prodigy de 5 nm, hasta 9 veces mayor eficiencia de rendimiento que el H100 de NVIDIA

Las CPU Tachyum Prodigy utilizan un diseño de procesador universal, lo que significa que pueden ejecutar tareas de CPU, GPU y TPU en el mismo chip, lo que ahorra costos en comparación con los productos de la competencia y también ofrece un rendimiento realmente alto.

La compañía tiene como objetivo abordar a los tres gigantes de chips, AMD, Intel y NVIDIA con su línea Prodigy y en sus presentaciones, Tachyum ha estimado un aumento del rendimiento de 4x sobre las CPU Xeon de Intel, en el frente de HPC, un aumento de 3x sobre H100 de NVIDIA y un aumento de 6x aumento del rendimiento bruto en cargas de trabajo de IA e inferencia. También se dice que los chips ofrecen más de 10 veces el rendimiento de los sistemas de la competencia con la misma potencia. Algunas de las características principales de las CPU incluyen:

  • 128 núcleos unificados de 64 bits de alto rendimiento que funcionan hasta 5,7 GHz
  • 16 controladores de memoria DDR5
  • 64 carriles PCIe 5.0
  • Compatibilidad con multiprocesador para plataformas de 4 y 2 zócalos
  • Soluciones de rack para centros de datos refrigerados por aire y refrigerados por líquido
  • SPECrate 2017 Rendimiento entero de alrededor de 4x Intel 8380 y alrededor de 3x AMD 7763HPC
  • El rendimiento de punto flotante de doble precisión es 3x NVIDIA H100
  • El rendimiento de AI FP8 es 6x NVIDIA H100

Tachyum ahora ha publicado el documento técnico completo de su procesador universal Prodigy que detalla la arquitectura, la plataforma y la línea de CPU, que escalará desde la CPU de 32 núcleos T8232-LP de bajo consumo a 180 W TDP, hasta el buque insignia T16128- AIX, que cuenta con un total de 128 núcleos.

Tachyum Prodigy Universal CPU Architecture – Diseño personalizado de 64 bits

Tachyum Prodigy utiliza una arquitectura OOD (fuera de servicio) que puede descodificar y retirar hasta 8 instrucciones por reloj, emitir hasta 11 instrucciones por reloj, con una cola de instrucciones que admite hasta 48 instrucciones y un programador que admite 12 colas con 15 entradas de profundidad. Viene con cuatro ALU, una unidad de carga, una unidad de almacenamiento, una unidad de carga/almacenamiento, una unidad de máscara y dos unidades vectoriales de 1024 bits. Cada núcleo también tiene un subsistema de IA que incluye una unidad de matriz de 4096 bits. Cada núcleo es un diseño de hardware de un solo subproceso.

En cuanto a la configuración de caché, cada núcleo incluye 64 KB I-Cache y 64 KB D-Cache con ECC SECDED. Cada núcleo también tiene 1 MB de L2 con corrección de errores doble ECC y detección de errores triples DECTED. Los núcleos activos también pueden agruparse en la memoria caché L2 desde núcleos de CPU inactivos para actuar como una memoria caché L3 compartida.

Prodigy emplea un protocolo de coherencia innovador, T-MESI (Tachyum-MESI), que se basa en MESI. T-MESI agrega optimizaciones que mejoran el MESI estándar que mejoran la latencia y el rendimiento. Además de la coherencia de caché en el chip, Prodigy también es compatible con la coherencia de hardware entre los dispositivos Prodigy, lo que permite que las plataformas de 2 y 4 zócalos sean totalmente coherentes. La coherencia de hardware de Prodigy utiliza ocho carriles dúplex completos de enlaces SERDES de 112 gigabits por segundo entre cada conjunto de dispositivos coherentes, lo que proporciona un ancho de banda agregado de 1,8 terabits por segundo entre dispositivos coherentes.

El TLB de Prodigy puede contener grandes espacios de memoria para HPC, hasta 128 TB. La MMU está administrada por hardware para obtener el máximo rendimiento e incluye un sofisticado mecanismo de purga global.

Unidades vectoriales y matriciales

Los subsistemas vectoriales de 2 x 1024 bits de Prodigy tienen el doble del tamaño de Intel y el cuádruple del tamaño de los procesadores de gama alta de AMD. La unidad de matriz 4096 de Prodigy admite operaciones de 16 x 16, 8 x 8 y 4 x 4. Los subsistemas vectoriales y matriciales admiten una amplia gama de tipos de datos, incluidos FP64, FP32, TF32, BF16, Int8, FP8, así como TAI o Tachyum AI, un nuevo tipo de datos que se anunciará más adelante este año y ofrecerá una mayor rendimiento que el FP8. Las operaciones matriciales de Prodigy admiten tipos de datos dispersos para obtener el máximo rendimiento, incluida la escasez de 4:2, que también es compatible con Nvidia H100, así como Super-Sparsity de Tachyum, que permite un rendimiento aún mayor con una proporción de 8:3.

Los tipos de datos dispersos maximizan el rendimiento para el entrenamiento y la inferencia con una reducción muy pequeña de la precisión. Los tipos de datos de menor precisión y la escasez se analizan con más detalle en la sección «Prodigy en la vanguardia de las tendencias de la industria de IA» a continuación. Las operaciones de dispersión/recopilación proporcionan carga y almacenamiento rápidos y eficientes para vectores y matrices.

Subsistemas de memoria y E/S

Prodigy integra dieciséis controladores de memoria DDR5 líderes en la industria que se ejecutan hasta DDR5-7200, proporcionando aproximadamente 1 TB/seg de ancho de banda de memoria y admiten 2 DIMM por canal. Tachyum anunciará una nueva característica a finales de este año llamada «Amplificación de ancho de banda» que efectivamente duplica el ancho de banda de la memoria a la asombrosa cifra de 2 TB/seg. El subsistema PCIe incluye 64 carriles de PCIe 5.0 con 32 controladores PCIe.

El subsistema PCIe incluye cuatro bloques funcionales PCIe x16, y cada uno de los bloques x16 incluye 8 controladores que pueden bifurcarse hasta x2, lo que ofrece la máxima flexibilidad para admitir dispositivos externos que van desde NIC de alto rendimiento hasta grandes arreglos de almacenamiento NVMe.

Emulación para x86, Arm, RISC-V Prodigy Runs

Prodigy admite la traducción binaria dinámica de software para otras arquitecturas de conjunto de instrucciones (ISA) que incluyen x86, Arm y RISC-V. x86 es el procesador de centro de datos establecido, Arm es muy frecuente para aplicaciones de telecomunicaciones y RISC-V es popular entre las instituciones académicas. La sobrecarga para la traducción binaria es aproximadamente del 30 al 40 %, pero Prodigy se ejecutará aproximadamente con el doble de frecuencia que los procesadores de la competencia, por lo que el rendimiento debería ser similar al de la ejecución nativa. La traducción binaria está diseñada para permitir evaluaciones y pruebas listas para usar rápidas y sencillas para clientes y socios, y los clientes migran al ISA nativo de Prodigy para implementaciones de producción para obtener el máximo rendimiento.

Todos los chips se fabrican en el nodo de proceso de 5 nm (N5P) de TSMC, que es una variante ligeramente optimizada del nodo estándar de 5 nm (N5) y ejecuta binarios nativos y x86, Arm y RISC-V. En cuanto a las características específicas de HPC e IA, la línea Tachyum Prodigy incluye:

  • 2 unidades vectoriales de 1024 bits por núcleo
  • Procesadores de matriz de 4096 bits por núcleo
  • FP64, FP32, TF32, BF16, Int8, FP8, TAI Tipos de datos
  • Los tipos de datos dispersos optimizan la eficiencia
  • Compatibilidad con la cuantificación mediante tipos de datos de baja precisión
  • Dispersión/recopilación para almacenar y cargar matrices de manera eficiente

Línea/plataforma de CPU universal Tachyum Prodigy – Escalado de 180 W a 900 W

Los 128 núcleos de la CPU insignia tienen una frecuencia de 5,7 GHz y, además, los clientes de IA obtendrán hasta 16 canales de memoria, que admiten hasta 32 TB (64 DIMM) de DDR5-7200. El procesador también tendrá 64 carriles PCIe Gen 5.0 y vendrá en un paquete TDP de 950W.

El resto de las CPU que ofrecerá Tachyum se enumeran en la hoja de especificaciones a continuación:

Núcleos Reloj Memoria PCIe TDP Segmento de mercado
Prodigio T16128-AIX 128 5,7 GHz 16x DDR5-7200 Gen5 x64 950W HPC, gran IA
Prodigio T16128-OBJETIVO 128 4,5 GHz 16x DDR5-7200 Gen5 x64 700W HPC, gran IA
Prodigio T16128-AIE 128 4,0 GHz 16x DDR5-7200 Gen5 x64 600W HPC, gran IA
Prodigio T16128-HT 128 4,5 GHz 16x DDR5-6400 Gen5 x64 300W Analítica, Big Data
Prodigio T864-HS 64 5,7 GHz 8x DDR5-6400 Gen5 x32 300W Nube, Bases de datos
Prodigio T864-HT 64 4,5 GHz 8x DDR5-6400 Gen5 x32 300W Nube, Bases de datos
Prodigio T832-HS 32 5,7 GHz 8x DDR5-6400 Gen5 x32 300W Cargas de trabajo escalares
Prodigio T832-LP 32 3,2 GHz 8x DDR5-4800 Gen5 x32 180W Alojamiento, almacenamiento, borde

Ahora, eso es solo un chip y Tachyum permitirá una coherencia de hardware total compatible con sistemas de 2 y 4 zócalos. Eso es hasta 512 núcleos y 3600 W de potencia de cuatro procesadores de nivel Progidy T16128-AIX.

La plataforma Prodigy vendrá en varias soluciones de rack, como un servidor 2U enfriado por aire que podrá albergar hasta cuatro chips Tachyum Prodigy, 64 DIMM DDR5 de 16 GB y 2 NIC RoCE de 200 GbE. También hay un diseño de referencia de rack de 48U personalizado que viene en 2 versiones, una refrigerada por líquido y otra por aire. La versión refrigerada por aire admite 40 servidores 2U de 4 sockets para un total de 160 chips, mientras que la versión refrigerada por líquido admite 88 servidores 1U de 4 sockets para un total de 352 chips. Ambos racks tienen un diseño modular y 2 racks se pueden combinar en un gabinete de 2 racks para optimizar el espacio en el piso. Cada servidor viene con cuatro sockets cLGA.

Línea de CPU universal Tachyum Prodigy: llega a NVIDIA, Intel y AMD a la vez

Tachyum también proporciona algunas estimaciones de rendimiento preliminares frente a los chips Intel Ice Lake, NVIDIA Hopper/Grace HPC y las CPU AMD Milan. La compañía afirma un aumento de hasta 4x SPECrate 2017 Integer y 30x Raw Floating Point (FP64) en comparación con la competencia. Hopper H100 de NVIDIA es el chip principal en el que Tachyum parece tener los ojos puestos, ya que se usa en varias pruebas comparativas.

Algunas de las cifras de rendimiento mencionadas incluyen:

  • 3x vs NVIDIA H100 en rendimiento de coma flotante de doble precisión
  • 6x vs NVIDIA H100 en rendimiento AI FP8
  • 9x frente a NVIDIA H100 en rendimiento por vatio
  • 4x vs Intel Xeon Platinum 8380 en Specrate 2017 Rendimiento INT
  • 30x vs Intel Xeon Platinum 8380 en rendimiento FP64

Tachyum también proporciona algunas estimaciones de rendimiento preliminares frente a los chips Intel Ice Lake, NVIDIA Hopper/Grace HPC y las CPU AMD Milan. La compañía afirma un aumento de hasta 4x SPECrate 2017 Integer y 30x Raw Floating Point (FP64) en comparación con la competencia. Hopper H100 de NVIDIA es el chip principal en el que Tachyum parece tener los ojos puestos, ya que se usa en varias pruebas comparativas.

Mientras que el Prodigy T16128-AIX ofrece alrededor de 90 TFLOP de rendimiento FP64 (con escasez). La empresa utiliza un rack Prodigy refrigerado por aire que se estima que ofrece hasta 6,2 PetaFlops de HPC FP64 caballos de fuerza frente a un rack NVIDIA H100 DGX POD que ofrece 960 TFLOP de rendimiento HPC FP64. El Prodigy refrigerado por líquido que puede admitir chips de gama alta debería ofrecer más del doble de rendimiento a 12,9 PetaFLOP.

Tachyum espera que los primeros barcos Prodigy comiencen a tomar muestras a finales de este año y se espera una producción en volumen en la segunda mitad de 2023. La actualización de próxima generación de Prodigy, conocida como Prodigy 2, también figura en la hoja de ruta de Tachyum y ofrecerá una nueva arquitectura de 3 nm con incluso más núcleos, mayor ancho de banda de memoria, compatibilidad con PCIe 6.0 + CXL y conectividad mejorada. El muestreo debería comenzar en la segunda mitad de 2024.





Source link-29