Ampere presentó esta semana sus procesadores AmpereOne para centros de datos en la nube que resultan ser las primeras CPU de propósito general de la industria con hasta 132 que se pueden usar para la inferencia de IA.
Los nuevos chips consumen más energía que sus predecesores, Ampere Altra (que permanecerá en el establo de Ampere durante al menos un tiempo), pero la compañía afirma que, a pesar del mayor consumo de energía, sus procesadores con hasta 192 núcleos brindan mayor densidad computacional que las CPU. de AMD e Intel. Algunas de esas afirmaciones de rendimiento pueden ser controvertidas.
192 núcleos nativos de nube personalizados
Los procesadores AmpereOne de Ampere cuentan con 136 a 192 núcleos (a diferencia de los 32 a 128 núcleos de Ampere Altra) que funcionan hasta a 3,0 GHz y se basan en la implementación patentada de la empresa de la arquitectura del conjunto de instrucciones Armv8.6+ (con dos vectores de 128 bits). unidades compatibles con los formatos FP16, BF16, INT16 e INT8) que están equipados con 2 MB de caché L2 de asociatividad establecida de 8 vías por núcleo (antes 1 MB) y están interconectados mediante una red mecánica con 64 nodos domésticos y snoop basado en directorio filtrar. Además de los cachés L1 y L2, el SoC también tiene un caché de nivel de sistema de 64 MB. Las nuevas CPU tienen una clasificación de 200 W a 350 W según el SKU exacto, en comparación con 40 W a 180 W para Ampere Altra.
La compañía afirma que sus nuevos núcleos están aún más optimizados para cargas de trabajo de inteligencia artificial y en la nube y cuentan con instrucciones de ‘potencia y eficiencia’ por ganancias de reloj (IPC), lo que probablemente significa un IPC más alto (en comparación con Neoverse N1 de Arm utilizado para Altra) sin un aumento tangible. en consumo de energía y área de troquel. Hablando del área de la matriz, Ampere no lo revela, pero dice que el AmpereOne está fabricado con una de las tecnologías de proceso de clase de 5nm de TSMC.
Aunque Ampere no revela todos los detalles sobre su núcleo AmpereOne, dice que cuentan con un precapturador de datos L1 de alta precisión (reduce la latencia, asegura que la CPU pase menos tiempo esperando datos y reduce el consumo de energía del sistema al minimizar los accesos a la memoria), recuperación refinada de predicción errónea de rama (cuanto antes la CPU pueda detectar una predicción errónea de rama y recuperarse, reducirá la latencia y desperdiciará menos energía) y desambiguación de memoria sofisticada (aumenta el IPC, minimiza las paradas de la tubería, maximiza la ejecución fuera de orden, reduce latencia y mejora el manejo de múltiples solicitudes de lectura/escritura en entornos virtualizados).
Si bien la lista de mejoras en la arquitectura central de AmpereOne no parece demasiado larga en papel, estas cosas pueden mejorar significativamente el rendimiento y requirieron mucha investigación (es decir, ¿qué cosas ralentizan más el rendimiento de una CPU de centro de datos en la nube?) y mucho trabajo para implementarlos de manera eficiente.
Seguridad avanzada y E/S
Dado que AmpereOne SoC está dirigido a centros de datos en la nube, está equipado con E/S apropiadas, que incluye ocho canales DDR5 para hasta 16 módulos que admiten hasta 8 TB de memoria por socket, 128 carriles de PCIe Gen5 con 32 controladores y bifurcación x4.
Los centros de datos también requieren ciertas funciones de confiabilidad, disponibilidad, servicio (RAS) y seguridad. Con ese fin, el SoC es totalmente compatible con la memoria ECC, el cifrado de memoria de clave única, el etiquetado de memoria, la virtualización segura y la virtualización anidada, solo por nombrar algunos de ellos. Además, AmpereOne tiene numerosas capacidades de seguridad como aceleradores de criptografía y entropía, mitigación de ataques de canal lateral especulativo, mitigación de ataques ROP/JOP, etc.
Resultados curiosos de referencia
Sin lugar a dudas, AmpereOne SoC de Ampere es una impresionante pieza de silicio diseñada para manejar cargas de trabajo en la nube y que cuenta con 192 núcleos de propósito general, los primeros de la industria. Sin embargo, para probar sus puntos, Ampere utiliza resultados de referencia bastante curiosos.
Ampere ve la densidad de cómputo de su AmpereOne como su principal ventaja. La empresa afirma que un rack de 42U y 16,5 kW lleno de máquinas 1S basadas en SoC AmpereOne de 192 núcleos puede admitir hasta 7926 máquinas virtuales, mientras que un rack basado en EPYC 9654 ‘Genoa’ de 96 núcleos de AMD puede manejar 2496 VM y un rack alimentado por las CPU Xeon Scalable 8480+ ‘Sapphire Rapids’ de 56 núcleos de Intel pueden manejar 1680 VM. Esta comparación tiene mucho sentido en el presupuesto de energía de 16,5 kW.
Pero la densidad de potencia de los racks de 42U está aumentando y los exescaladores como AWS, Google y Microsoft están preparados para esto, especialmente para sus cargas de trabajo que exigen rendimiento. Según una encuesta de UpTimeInstitute en 2020, podemos decir que el 16 % de las empresas implementaron rakcs típicos de 42U con una densidad de potencia de rack de 20kW a más de 50kW. A estas alturas, la cantidad de implementaciones típicas con racks de 20kW ha aumentado, no disminuido, ya que las CPU de AMD más recientes y de la generación anterior aumentaron sus TDP en comparación con sus predecesores.
Cuando se trata de rendimiento, Ampere demuestra las ventajas de su sistema basado en AmpereOne de 160 núcleos con 512 GB de memoria que ejecuta IA generativa (difusión estable) y Recomendadores de IA (DLRM) frente a sistemas basados en la CPU EPYC 9654 de 96 núcleos de AMD con 256 GB de memoria (lo que significa que funcionó en un modo de ocho canales, no en el modo de 12 canales que admite Génova). Las máquinas basadas en amperios produjeron 2,3 veces más fotogramas por segundo para IA generativa y más de 2 veces más consultas por segundo para recomendaciones de IA.
En este caso, Ampere comparó el rendimiento de sus sistemas procesando datos con una precisión de FP16, mientras que las máquinas basadas en AMD calcularon con una precisión de FP32, que no es una comparación de manzanas con manzanas. Además, muchas cargas de trabajo de FP16 ahora se ejecutan en GPU en lugar de CPU y las GPU masivamente paralelas tienden a ofrecer resultados espectaculares con cargas de trabajo de IA generativa y recomendaciones de IA.
Resumen
Los AmpereOne de Ampere son los primeros CPU de propósito general de la industria con hasta 192 núcleos, lo que sin duda merece mucho respeto. Estas CPU también cuentan con sólidas capacidades de E/S, características de seguridad avanzadas y prometen ganancias mejoradas de instrucciones por reloj (IPC). También pueden ejecutar cargas de trabajo de IA con precisión FP16, BF16, FP8 e INT8.
Pero la compañía optó por utilizar métodos bastante controvertidos para probar sus puntos cuando se trata de resultados de referencia, lo que arroja cierta sombra sobre sus logros. Dicho esto, será particularmente interesante ver los resultados de las pruebas independientes de los servidores basados en AmpereOne.