2024 - Nvidia revela los secretos de GPU de Ada Lovelace: Recuentos extremos de transistores en relojes altos

Cuando Nvidia presentó su familia de unidades de procesamiento de gráficos Ada Lovelace a principios de esta semana, se centró principalmente en su GPU AD102 de gama alta y su tarjeta gráfica insignia GeForce RTX 4090. No dio a conocer demasiados detalles sobre sus chips gráficos AD103 y AD104. Afortunadamente, Nvidia subió hoy su documento técnico de Ada Lovelace que contiene una gran cantidad de datos sobre las nuevas GPU y llena muchos vacíos. Hemos actualizado el concentrador de GPU de la serie RTX 40 con los nuevos detalles, pero aquí está la descripción general de la información nueva e interesante.

Grandes GPU para grandes juegos

Ya sabemos que el AD102 tope de gama de Nvidia es una GPU de 608 mm^2 que contiene 76.300 millones de transistores, 18.432 núcleos CUDA y 96 MB de caché L2. Ahora también sabemos que AD103 es un procesador de gráficos de 378,6 mm^2 con 45,9 mil millones de transistores, 10 240 núcleos CUDA y 64 MB de caché L2. En cuanto al AD104, tiene un tamaño de matriz de 294,5 mm^2, 35,800 millones de transistores, 7680 núcleos CUDA y 48 MB de L2.

Especificaciones de Nvidia Ada frente a Ampere
GPU/tarjeta gráfica	AD102 completo	RTX 4090	RTX 4080 16GB	RTX 4080 12GB	RTX 3090 Ti
Arquitectura	AD102	AD102	AD103	AD104	GA102
Proceso tecnológico	TSMC 4N	TSMC 4N	TSMC 4N	TSMC 4N	Samsung 8LPP
Transistores (miles de millones)	76.3	76.3	45,9	35.8	28.3
Tamaño del troquel (mm^2)	608	608	378.6	294.5	628.4
Multiprocesadores de transmisión	144	128	76	60	84
Núcleos de GPU (sombreadores)	18432	16384	9728	7680	10752
Núcleos tensoriales	576	512	320	240	336
Núcleos de trazado de rayos	144	144	80	60	84
TMU	512	512	304?	240	336
ROP	192	192	112	80	112
Caché L2 (MB)	96	96	64	48	6
Reloj de impulso (MHz)	?	2520	2505	2600	1860
TFLOPS FP32 (impulso)	?	82.6	48.7	40.1	40,0
TFLOPS FP16 (FP8)	?	661 (1321)	390 (780)	319 (639)	320 (N/D)
Trazado de rayos TFLOPS	?	191	113	82	78.1
Interfaz de memoria (bit)	384	384	256	192	384
Velocidad de memoria (GT/s)	?	21	22.4	21	21
Ancho de banda (GBps)	?	1008	736	504	1008
TDP (vatios)	?	450	320	285	450
Fecha de lanzamiento	?	12 de octubre de 2022	noviembre de 2022?	noviembre de 2022?	marzo 2022
Precio de lanzamiento	?	$1,599	$1,199	$899	$1,999

Una de las cosas interesantes que cuenta Nvidia en su documento técnico es que las GPU Ada Lovelace usan transistores de alta velocidad en rutas críticas para aumentar las velocidades máximas de reloj. Como resultado, su GPU AD102 totalmente habilitada con 18 432 núcleos CUDA es «capaz de funcionar a velocidades superiores a 2,5 GHz, manteniendo el mismo TGP de 450 W». Teniendo esto en cuenta, no nos sorprende que la compañía esté hablando de relojes de 3.0 GHz para la GeForce RTX 4090 (con 16,384 núcleos CUDA) alcanzados en sus laboratorios. A 3,0 GHz, la GeForce RTX 4090 encabezará absolutamente nuestra lista de las mejores tarjetas gráficas.

(Crédito de la imagen: Nvidia)

Además de los relojes altos, la GPU Ada Lovelace de Nvidia también cuenta con cachés L2 masivos que mejoran el rendimiento en cargas de trabajo intensivas (por ejemplo, trazado de rayos, seguimiento de rutas, simulaciones, etc.) y reducen los requisitos de ancho de banda de memoria. Esencialmente, las GPU Ada de Nvidia toman una página del libro de RDNA 2 Infinity Cache aquí, aunque creemos que los objetivos generales para la nueva arquitectura se establecieron mucho antes de que los productos de la serie Radeon RX 6000 de AMD debutaran en 2020.

Hablando de cargas de trabajo como simulaciones, debemos señalar que en el mundo de las supercomputadoras se realizan con números en formato de punto flotante de doble precisión (FP64) para mejorar la precisión de los resultados. FP64 es más costoso que FP32 tanto en términos de rendimiento como en términos de complejidad de hardware. Esta es la razón por la cual los gráficos por computadora usan formatos FP32 y muchas simulaciones de activos no críticos también se realizan con precisión FP32. Mientras tanto, la GPU AD102 presenta solo 288 núcleos FP64 (dos por multiprocesador de transmisión) incluidos para garantizar que cualquier programa con código FP64 funcione correctamente, incluido el código FP64 Tensor Core.

Aún así, la tasa FP64 de AD102 es 1/64 de la tasa TFLOP de las operaciones FP32 (que está en línea con la arquitectura Ampere). Nvidia no muestra sus núcleos FP64 en los diagramas de sus módulos multiprocesador (SM) de transmisión y no revela la cantidad de dichos núcleos en las GPU AD103 y AD104. La baja tasa de FP64 de los procesadores gráficos Ada enfatiza que estas partes están destinadas principalmente a los juegos.

Más transistores = más rendimiento

La complejidad y los tamaños de matriz de los procesadores gráficos Ada Lovelace de Nvidia en comparación con las GPU Ampere de la empresa no deberían sorprender. Las nuevas GPU Ada se fabrican con las tecnologías de fabricación 4N (clase 5nm) de TSMC, mientras que Ampere se fabricó con el proceso 8LPP de Samsung Foundry (un nodo de clase 10nm con un encogimiento óptico del 10%). Esa complejidad adicional (recuento de transistores) es lo que permite mejoras de rendimiento impresionantes en elementos como el trazado de rayos y mejoras de calidad con DLSS 3.0.

Especificaciones de Nvidia Ada frente a Ampere
GPU/tarjeta gráfica	AD102	RTX 4090	RTX 4080 16GB	RTX 4080 12GB	RTX 3090 Ti
GPU	AD102	AD102	AD103	AD104	GA102
TFLOPS FP32 (impulso)	?	82.6	48.7	40.1	40,0
TFLOPS FP16 (FP8)	?	661 (1321)	390 (780)	319 (639)	320 (N/D)
Trazado de rayos TFLOPS	?	191	113	82	78.1

Otra cosa a tener en cuenta es que la GPU AD102 de Nvidia tiene una mayor densidad de transistores que sus hermanos menores. Por un lado, esa densidad de transistores añadida del 3,6% le permite empaquetar significativamente más unidades de ejecución en AD102 en comparación con sus hermanos más pequeños. Pero por otro lado, la relajada densidad de transistores de AD103 y AD104 en muchos casos permite mejores rendimientos (asumiendo que la densidad de defectos del nodo no es alta en general) y relojes más altos.

Es difícil hacer predicciones sobre el potencial de frecuencia de AD103 y AD104 sin acceso al hardware real y/o conocimiento de sus tasas de rendimiento reales. Sin embargo, si el AD102 puede funcionar a 2,50 GHz ~ 3,0 GHz, entonces es razonable esperar que el AD103 y el AD104 tengan un potencial aún mayor. También sabemos que el RTX 4080 de 12 GB usa un chip AD104 completamente habilitado que funciona a 2610 MHz, mientras que el RTX 4080 de 16 GB usa el 95 % de un chip AD103 (76 de 80 SM) que funciona a 2505 MHz, y el RTX 4090 solo usa el 89 % ( 128 de 144 SM) funcionando a 2510 MHz, también con el 25 % de la memoria caché L2 deshabilitada.

Una cantidad extrema de unidades de ejecución, habilitadas por una alta complejidad, junto con relojes altos, deberían brindar ganancias de rendimiento notables. La GeForce RTX 4090 de Nvidia tiene una tasa de cómputo teórica máxima de FP32 dos veces mayor (~82,6 TFLOPS) en comparación con la GeForce RTX 3090 Ti (~40 TFLOPS).

Mientras tanto, la línea actual de GPU Ada de Nvidia para jugadores exigentes muestra que la empresa ha vuelto a la normalidad con su enfoque de tres chips para el mercado de juegos de gama alta. Normalmente, Nvidia lanza su GPU insignia para juegos, le sigue un chip que tiene aproximadamente entre el 66 % y el 75 % de los recursos del buque insignia (p. ej., núcleos CUDA) y luego presenta un procesador de gráficos que tiene alrededor del 50 % de las unidades del buque insignia. Con la familia Ampere, esa estrategia se ajustó un poco ya que el chip GA103 de Nvidia se diseñó principalmente con las computadoras portátiles en mente y apenas llegó a las computadoras de escritorio (también llegó tarde a la fiesta), sin embargo, con la generación Ada, Nvidia vuelve a su enfoque habitual con tres fichas

Más SKU entrantes

Una conclusión interesante es la disparidad entre las configuraciones máximas que ofrece la GPU AD102 y la tarjeta gráfica GeForce RTX 4090. AD102 incluye 18 432 núcleos CUDA, mientras que la GeForce RTX 4090 viene con 16 384 núcleos CUDA habilitados. Este enfoque le da a Nvidia cierta flexibilidad adicional con respecto a los rendimientos y la introducción de nuevas tarjetas gráficas en el futuro, por lo que hay mucho espacio para una generación RTX 4090 Ti, RTX 4080 Ti y RTX 5500/5000 Ada para los mercados de ProViz, etc.

Mientras tanto, la GeForce RTX 4080 de 16 GB y la RTX 4080 de 12 GB utilizan GPU AD103 casi completas y AD104 completas, respectivamente. No sabemos qué traerá el futuro, pero anticipamos que eventualmente veremos versiones reducidas de las GPU AD103 y AD104. Podemos especular sobre GeForce RTX 4070 Ti y/o RTX 4070 en función de los contenedores reducidos del chip AD104, así como el potencial de soluciones gráficas de gama ultra alta para computadoras portátiles con el procesador de gráficos AD103, pero solo podemos adivinar las especificaciones de estas partes.

Algunos pensamientos

La arquitectura Ada Lovelace de Nvidia es un salto tanto cualitativo como cuantitativo sobre la arquitectura Ampere. Nvidia no solo mejoró seriamente el rendimiento de su trazado de rayos, núcleos tensoriales y algunas otras unidades a nivel arquitectónico, sino que también aumentó su número y mejoró sus relojes. Una mejora importante aquí son las cachés L2 enormemente aumentadas de las GPU Ada en comparación con las GPU Ampere.

En gran medida, estos avances fueron posibles gracias a la tecnología de proceso 4N optimizada para GPU de Nvidia de TSMC. Además, la empresa también usó transistores de alta velocidad para aumentar las frecuencias de sus nuevos procesadores gráficos, lo que proporcionó ganancias de rendimiento adicionales.

Pero un nodo de producción de vanguardia y los tamaños de matriz grandes de las nuevas GPU de Nvidia también hacen que las piezas sean significativamente más costosas de construir, razón por la cual los precios de las tarjetas gráficas GeForce RTX 4080 y 4090 son considerablemente más altos que sus predecesores directos.

Hasta el momento, Nvidia ha presentado solo cinco productos basados en Ada Lovelace: tarjetas gráficas GeForce RTX 4080 de 12 GB, RTX 4080 de 16 GB y RTX 4090 para computadoras de escritorio, junto con la generación RTX 6000 Ada para estaciones de trabajo/centros de datos y placas L40 (Lovelace 40) para equipos de alto rendimiento. estaciones de trabajo finales y entornos de estaciones de trabajo virtualizadas.

Teniendo en cuenta que la empresa puede ofrecer AD102 completo y versiones reducidas de las GPU AD102, AD103 y AD104, podemos imaginar una gran cantidad de nuevas tarjetas de la serie GeForce RTX 40 para máquinas cliente y soluciones de la serie Ada RTX para centros de datos. Mientras tanto, Nvidia probablemente esté preparando algunas GPU más pequeñas (AD106, AD107), por lo que parece que la familia de productos Ada Lovelace será al menos tan amplia como la línea Ampere.

Source link-41

Cómo jugar Pokémon y otros juegos de Game Boy en tu iPhone

El piloto de McLaren, Lando Norris, gana el Gran Premio de Fórmula 1 en Miami

Se revelan los tamaños estimados de archivos de Switch de Paper Mario: TTYD y Luigi’s Mansion 2 HD

Apex Legends Solos regresa en la temporada 21, a pesar de que Respawn dijo que nunca sucedería

Nvidia revela los secretos de GPU de Ada Lovelace: Recuentos extremos de transistores en relojes altos

Grandes GPU para grandes juegos