El Ryzen 9 7950X3D de AMD es la CPU para juegos más rápida del planeta debido a la decisión de AMD de llevar su tecnología disruptiva de apilamiento de chips 3D a Zen 4, pero curiosamente, la compañía no compartió ningún detalle sobre su nuevo V-Cache 3D de segunda generación. en sus materiales informativos Ryzen 7000X3D. Inicialmente encontramos algunos detalles en una conferencia tecnológica reciente que incluimos en nuestra revisión, y ahora AMD finalmente respondió algunas de nuestras preguntas de seguimiento y compartió nuevos detalles importantes, incluido que el chiplet permanece en el proceso de 7 nm y ahora tiene un ancho de banda máximo de hasta 2,5 TB/s, mientras que el 3D V-Cache de primera generación alcanzó un máximo de 2 TB/s (entre mucha otra información nueva). También tenemos nuevas fotos y diagramas del nuevo troquel de E/S de 6 nm que AMD usa para sus procesadores Ryzen 7000.
AMD pasó a la segunda generación de su 3D V-Cache e Intel no tiene una tecnología competidora. Eso le asegura a AMD una victoria tanto en las mejores CPU para juegos como en ciertas aplicaciones de centros de datos. En general, la tecnología 3D V-Cache de segunda generación de AMD es un avance impresionante con respecto a la primera generación porque permite a la empresa aprovechar el nodo de proceso de 7 nm, ahora maduro y menos costoso, para aumentar el rendimiento de su computación de 5 nm de vanguardia. morir. El nuevo diseño representa a AMD aprovechando la ventaja clave de las metodologías de diseño basadas en chiplets (utilizando un nodo de proceso más antiguo y menos costoso junto con tecnología de proceso nueva y costosa) en la tercera dimensión. Ahora para los detalles esenciales.
Primero, un repaso rápido de alto nivel. Como puede ver arriba, la tecnología 3D V-Cache de AMD apila un chiplet L3 SRAM adicional directamente en el centro del chiplet de matriz de cómputo (CCD) para aislarlo de los núcleos que generan calor. Este caché aumenta la capacidad a 96 MB para el chiplet equipado con 3D V-Cache, lo que aumenta el rendimiento de las aplicaciones sensibles a la latencia, como los juegos. Hemos cubierto los detalles profundos de la primera generación de esta tecnología aquí.
Recibimos nueva información sobre la implementación de segunda generación tanto directamente de AMD como de la Conferencia Internacional de Circuitos de Estado Sólido (ISSCC) de 2023, donde AMD realizó una presentación sobre la arquitectura Zen 4.
El V-Cache 3D de la generación anterior de AMD usaba un chiplet SRAM L3 de 7 nm apilado sobre un CCD Zen 3 de 7 nm. AMD se quedó con el proceso de 7 nm para el nuevo chiplet L3 SRAM, pero ahora lo apila sobre un CCD Zen 4 de 5 nm más pequeño (consulte la tabla a continuación). Sin embargo, esto crea un desajuste de tamaño que requirió algunas modificaciones.
Fila 0 – Celda 0 | Troquel V-Cache 3D de 7nm de segunda generación | Troquel V-Cache 3D de 7nm de primera generación | 5nm Zen 4 Core Complex Die (CCD) | Troquel complejo de núcleo Zen 3 de 7nm (CCD) |
Tamaño | 36 mm ^ 2 | 41 mm ^ 2 | 66,3mm^2 | 80,7 mm^2 |
Recuento de transistores | ~ 4.7 mil millones | 4.7 mil millones | 6.57 mil millones | 4.15 mil millones |
MTr/mm^2 (Densidad de transistores) | ~130,6 millones | ~114,6 millones | ~99 millones | ~51,4 millones |
En primer lugar, AMD hizo que el chip SRAM de 7 nm fuera más pequeño, por lo que ahora mide 36 mm2 en comparación con los 41 mm2 de la generación anterior. Sin embargo, la cantidad total de transistores sigue siendo la misma en aproximadamente 4700 millones, por lo que el nuevo troquel es significativamente más denso que el chiplet de primera generación.
Como vimos con el chiplet SRAM de primera generación, esta es una densidad de transistor increíble para el chiplet de 7 nm: estamos viendo casi 3 veces la densidad del chiplet de cómputo de 7 nm de primera generación y, sorprendentemente, el chiplet SRAM de 7 nm es significativamente más denso. que el chiplet de cómputo de 5nm. Esto se debe a que, como antes, el chiplet usa una versión optimizada de densidad de 7nm que está especializada para SRAM. También carece de los circuitos de control típicos que se encuentran en la memoria caché: esos circuitos residen en la matriz base, lo que también ayuda a reducir la sobrecarga de latencia. Por el contrario, el chip de 5 nm incluye varios tipos de transistores junto con rutas de datos y otros tipos de estructuras que no están presentes en el chiplet L3 SRAM simplificado.
Como antes, la latencia adicional de la memoria caché SRAM L3 adicional tiene un peso de 4 relojes, pero el ancho de banda entre el chiplet L3 y el chip base ha aumentado a 2,5 TB/s, una mejora del 25 % con respecto al pico anterior de 2 TB/s.
El chiplet L3 SRAM apilado está conectado a la matriz base con dos tipos de vías de silicio (TSV, una conexión eléctrica vertical). Los Power TSV transportan energía entre los chipsets, mientras que los Signal TSV transportan datos entre las unidades.
En el diseño de primera generación, ambos tipos de TSV residían en la región L3 del chiplet base. Sin embargo, la memoria caché L3 en la matriz base ahora es más pequeña debido a la mayor densidad del proceso de 5 nm, y aunque el chiplet SRAM L3 de 7 nm es más pequeño, ahora se superpone a la memoria caché L2 (la generación anterior solo se superpone a la L3 en la base). morir). Como tal, AMD tuvo que modificar las conexiones TSV tanto en la matriz base como en el chiplet L3 SRAM.
AMD tuvo que extender los TSV de potencia de L3 a la región L2 debido a la mayor densidad de la memoria caché L3 de 5 nm en la matriz base. Para el chip base, AMD logró una escala de área efectiva de 0,68x en la memoria caché L3, las rutas de datos y la lógica de control en comparación con el antiguo chiplet base de 7 nm, por lo que físicamente hay menos espacio para los TSV en la memoria caché L3.
Los TSV de señal permanecen dentro del área de caché L3 en la matriz base, pero AMD redujo el área de TSV en el caché L3 en un 50 % al aplicar los aprendizajes del diseño de primera generación junto con las mejoras de DTCO para reducir la sobrecarga de circuitos en el nuevo diseño de interfaz.
La tecnología de apilamiento de chips 3D de AMD se basa en la tecnología SoIC de TSMC. El SoIC de TSMC no tiene golpes, lo que significa que no usa micro golpes ni soldadura para conectar los dos troqueles. Puede leer mucho más sobre la unión híbrida y el proceso de fabricación aquí. AMD nos dice que usó el mismo proceso de vinculación fundamental junto con el proceso continuo y las mejoras de DTCO, pero el paso mínimo de TSV no ha cambiado.
Medidas de hardware de Tom | Pico de un solo hilo | Sostenido de subprocesos múltiples | Voltaje (pico) | nT de potencia |
CCD 0 (caché V 3D) | 5,25 GHz | 4,85 GHz | 1.152 | 86W |
CCD 1 (sin caché adicional) | 5,75 GHz | 5,3 GHz | 1.384 | 140W |
El chiplet L3 SRAM también permanece en el mismo dominio de potencia que los núcleos de la CPU, por lo que no se pueden ajustar de forma independiente. Esto contribuye a la frecuencia más baja en el chiplet equipado con caché porque el voltaje no puede exceder ~1.15V. Puede ver nuestras pruebas en profundidad de los dos tipos diferentes de chiplets aquí.
Fila 0 – Celda 0 | Matriz de E/S de 6 nm (IOD) – Ryzen 7000 | Troquel de E/S de 12nm (IOD) – Ryzen 5000 | Matriz de E/S de 6 nm (IOD) – EPYC |
Tamaño | 117,8 mm^2 | 125 mm^2 | 386,88 mm^2 |
Recuento de transistores | 3.37 mil millones | 2.09 mil millones | 11 mil millones |
MTr/mm^2 (Densidad de transistores) | ~28,6 millones | ~16,7 millones | ~29,8 millones |
La presentación ISSCC de AMD también incluyó muchos detalles nuevos sobre los troqueles de E/S (IOD) de 6nm utilizados en los procesadores Ryzen 7000 y EPYC Genoa. En el álbum de arriba, puede ver las imágenes ampliadas y un disparo anotado de chip detective. @Locuza_. También puedes expandir el tweet a continuación para leer el excelente análisis de Locuza del Ryzen 7000 IOD.
Ponemos las especificaciones en la tabla para facilitar la comparación y, como puede ver, el EPYC Genoa I/O Die es simplemente enorme en comparación con la variante Ryzen 7000, eso se debe a que AMD puede conectar hasta 12 chiplets de cómputo (CCD) al I. /O Muere por sus procesadores EPYC Genoa.
Por el contrario, los chips de consumo están limitados a dos chiplets, una limitación inmutable porque, como puede ver en el diagrama de Locuza, el Ryzen 7000 I/O Die solo tiene dos enlaces Global Memory Interconnect 2 (GMI2) que conectan los chiplets de cómputo al IOD. Eso es una lástima: los modelos Génova con menor número de núcleos con cuatro CCD pueden tener enlaces duales GMI3 (modo amplio), una nueva capacidad que puede ofrecer ventajas en algunas tareas de rendimiento intensivo de la memoria. Habría sido interesante agregarlo a los chips de consumo.
También hemos agregado el mazo completo de ISSCC 2022 a continuación para su lectura; incluye algunos otros datos interesantes.
Matriz de E/S de cliente Zen 4 Raphael de 6 nm:- 128b DDR5 PHY + 32b para ECC (8b por canal de 32b)- 2 puertos GMI3, 3 CCD no son posibles. :p- 28x PCIe 5, Zen1/2/3 cIOD tenía 32x carriles PCIe. Entonces, AMD redujo el desperdicio para el mercado de clientes. – Realmente solo un RDNA2 WGP, 128 Shader «Cores» https://t.co/bkqdVvhgrn pic.twitter.com/erYxTw1p8h4 de marzo de 2023