Las demandas de rendimiento siempre crecientes de los centros de datos en la nube requieren que los desarrolladores de CPU reconsideren sus diseños en un intento por ofrecer el máximo rendimiento por socket mientras enfrentan las restricciones de costos establecidas por la ley de Moore. EPYC ‘Begamo’ de AMD es la primera CPU nativa de la nube x86 de la industria que se basa en la microarquitectura Zen 4c especialmente diseñada que mantiene esencialmente el mismo conjunto de características con la microarquitectura Zen 4 mientras reduce a la mitad los requisitos de tamaño del núcleo, informa SemiAnalysis.
El procesador EPYC ‘Bergamo’ de AMD incluye 128 núcleos y se ubica en el mismo zócalo SP5 que la CPU EPYC ‘Genoa’ de 96 núcleos y tiene un subsistema de memoria DDR5-4800 de 12 canales similar, además de usar el mismo troquel de E/S (nombre en código Floyd), lo que significa que también cuenta con 128 carriles PCIe Gen5 y otras peculiaridades de los productos SP5. Al ser un sistema en chip (SoC) nativo de la nube y, hasta cierto punto, una respuesta a los SoC de grado de centro de datos basados en Arm emergentes de Ampere, Amazon, Google y Microsoft, el diseño de Bergamo fue moldeado por múltiples factores, que incluyen eficiencia, el uso de energía, el tamaño del troquel y el bajo costo total de propiedad (TCO) en lugar del objetivo de brindar el máximo rendimiento por núcleo.
Fila 0 – Celda 0 | EPYC 9654 | EPYC 9754 | EPYC 9734 |
Diseño | Génova | Bérgamo | Bérgamo |
microarquitectura | Zen 4/Perséfone | Zen 4c/Dionisio | Zen 4c/Dionisio |
Núcleos/Hilos | 96/192 | 128/256 | 112/224 |
Caché L1i | 32 KB | 32 KB | 32 KB |
Caché L1d | 32 KB | 32 KB | 32 KB |
Caché L2 | 1MB | 1MB | 1MB |
Caché L2 total | 96 MB | 128 MB | 112 MB |
Caché L3 por CCX | 32MB | 16 MB | 16 MB |
Caché L3 total | 384MB | 256 MB | 256 MB |
CCD | Durango | Vindhya | Vindhya |
Recuento de CCD | 12 | 8 | 8 |
CCX por CCD | 1 | 2 | 2 |
Núcleos por CCD | 8 | dieciséis | 14 |
Troquel de E/S | floyd | floyd | floyd |
Canales de memoria | 12 | 12 | 12 |
Velocidad de memoria nominal | DDR5-4800 | DDR5-4800 | DDR5-4800 |
ancho de banda de memoria | 460,8 GB/s | 460,8 GB/s | 460,8 GB/s |
Carriles PCIe 5.0 | 128 | 128 | 128 |
TDP/TDP máx. | 360W/400W | 360W/400W | 360W/400W |
Enchufe | SP5 | SP5 | SP5 |
Escalabilidad | 2P | 2P | 2P |
En el nivel de microarquitectura, Zen 4c conserva el mismo diseño que Zen 4, incluidas características e instrucciones por reloj de rendimiento idénticas, pero están configurados e implementados de una manera drásticamente diferente, afirma SemiAnalysis. Cuando se trata de los núcleos Zen 4c ‘Dionysus’, son aproximadamente un 35,4% más pequeños en comparación con los núcleos Zen 4 ‘Persephone’, según SemiAnalysis. Para lograr esto, AMD tuvo que implementar una serie de trucos de diseño. Los analistas creen:
- Redujo los objetivos de impulso del reloj de 3,70 GHz a 3,10 GHz. Esto simplificó el cierre de tiempo y disminuyó la necesidad de celdas amortiguadoras adicionales para cumplir con las restricciones de tiempo relajadas. Los diseños actuales a menudo están limitados por la densidad de enrutamiento y la congestión, por lo que la reducción de la frecuencia permite un empaquetamiento más ajustado de las rutas de señal, lo que mejora la densidad de las celdas estándar.
- Redujo el número de particiones físicas de un dado y empaquetó la lógica más cerca, lo que hizo que la depuración y la introducción de correcciones fueran más difíciles pero redujo el tamaño del dado.
- Usó celdas SRAM de doble puerto 6T más densas para Zen 4c en lugar de circuitos SRAM de doble puerto 8T para Zen 4 para reducir el área de SRAM. Como resultado, mientras que los núcleos Zen 4 y Zen 4c tienen tamaños de caché L1 y L2 similares, el área utilizada por los cachés en el caso de Zen 4c es menor, pero estos cachés tampoco son tan rápidos como los del Zen 4.
- Finalmente, eliminó las matrices de vías de silicio a través (TSV) para 3D V-Cache, para ahorrar más silicio.
Estos no fueron los únicos métodos de reducción del área de matriz utilizados por AMD. Según SemiAnalysis, Bergamo de AMD se basa en ocho matrices del complejo de núcleo Vindhya (CCD) que contienen 16 núcleos Zen 4c (en lugar de ocho núcleos Zen 4 por CCD), lo que se justifica porque los núcleos se hicieron más pequeños, pero también afecta el potencial de velocidad del reloj. Cada CCD también cuenta con dos complejos de ocho núcleos (CCX) y 32 MB de caché L3, o 16 MB por CCX. Por el contrario, cada Zen 4 CCX tiene 32 MB de L2, lo que aumenta mucho su tamaño en comparación con Zen 4c CCX.
En general, podríamos decir que Zen 4c y Bergamo de AMD hacen un cambio en la trayectoria del diseño, ya que la empresa necesitaba colocar 128 núcleos de clase Zen 4 en la misma envolvente de potencia de 360 W a 400 W que Génova. Los objetivos de frecuencia reducida, el uso de celdas SRAM más densas y la reducción de L3 por CCX a la mitad sin duda permitieron que AMD aumentara su número de núcleos, pero cómo eso afectó el rendimiento por núcleo es algo que todavía tendremos que descubrir.
SemiAnalysis dice que AMD se está preparando para lanzar dos procesadores Bergamo a finales de este mes: el EPYC 9754 de 128 núcleos y su hermano ligeramente reducido, el EPYC 9734 de 112 núcleos. Dado que los operadores de centros de datos de exaescala tienden a tener requisitos específicos para sus implementaciones , solo podemos preguntarnos cuántas ofertas de Bérgamo personalizadas y semi-personalizadas producirá AMD, pero por ahora se presentarán dos modelos la próxima semana.
«Van a escuchar sobre esto la próxima semana con Bergamo, que es un dispositivo optimizado nativo de la nube con alta densidad y muy buen rendimiento por vatio en eficiencia energética para la computación nativa de la nube», dijo Dan McNamara, el negocio de servidores de AMD. jefe, en la Conferencia de Tecnología Global 2023 de Bank of America (a través de SeekingAlpha).