Cuando Nvidia presentó su familia de unidades de procesamiento de gráficos Ada Lovelace a principios de esta semana, se centró principalmente en su GPU AD102 de gama alta y su tarjeta gráfica insignia GeForce RTX 4090. No dio a conocer demasiados detalles sobre sus chips gráficos AD103 y AD104. Afortunadamente, Nvidia subió hoy su documento técnico de Ada Lovelace que contiene una gran cantidad de datos sobre las nuevas GPU y llena muchos vacíos. Hemos actualizado el concentrador de GPU de la serie RTX 40 con los nuevos detalles, pero aquí está la descripción general de la información nueva e interesante.
Grandes GPU para grandes juegos
Ya sabemos que el AD102 tope de gama de Nvidia es una GPU de 608 mm^2 que contiene 76.300 millones de transistores, 18.432 núcleos CUDA y 96 MB de caché L2. Ahora también sabemos que AD103 es un procesador de gráficos de 378,6 mm^2 con 45,9 mil millones de transistores, 10 240 núcleos CUDA y 64 MB de caché L2. En cuanto al AD104, tiene un tamaño de matriz de 294,5 mm^2, 35,800 millones de transistores, 7680 núcleos CUDA y 48 MB de L2.
GPU/tarjeta gráfica | AD102 completo | RTX 4090 | RTX 4080 16GB | RTX 4080 12GB | RTX 3090 Ti |
---|---|---|---|---|---|
Arquitectura | AD102 | AD102 | AD103 | AD104 | GA102 |
Proceso tecnológico | TSMC 4N | TSMC 4N | TSMC 4N | TSMC 4N | Samsung 8LPP |
Transistores (miles de millones) | 76.3 | 76.3 | 45,9 | 35.8 | 28.3 |
Tamaño del troquel (mm^2) | 608 | 608 | 378.6 | 294.5 | 628.4 |
Multiprocesadores de transmisión | 144 | 128 | 76 | 60 | 84 |
Núcleos de GPU (sombreadores) | 18432 | 16384 | 9728 | 7680 | 10752 |
Núcleos tensoriales | 576 | 512 | 320 | 240 | 336 |
Núcleos de trazado de rayos | 144 | 144 | 80 | 60 | 84 |
TMU | 512 | 512 | 304? | 240 | 336 |
ROP | 192 | 192 | 112 | 80 | 112 |
Caché L2 (MB) | 96 | 96 | 64 | 48 | 6 |
Reloj de impulso (MHz) | ? | 2520 | 2505 | 2600 | 1860 |
TFLOPS FP32 (impulso) | ? | 82.6 | 48.7 | 40.1 | 40,0 |
TFLOPS FP16 (FP8) | ? | 661 (1321) | 390 (780) | 319 (639) | 320 (N/D) |
Trazado de rayos TFLOPS | ? | 191 | 113 | 82 | 78.1 |
Interfaz de memoria (bit) | 384 | 384 | 256 | 192 | 384 |
Velocidad de memoria (GT/s) | ? | 21 | 22.4 | 21 | 21 |
Ancho de banda (GBps) | ? | 1008 | 736 | 504 | 1008 |
TDP (vatios) | ? | 450 | 320 | 285 | 450 |
Fecha de lanzamiento | ? | 12 de octubre de 2022 | noviembre de 2022? | noviembre de 2022? | marzo 2022 |
Precio de lanzamiento | ? | $1,599 | $1,199 | $899 | $1,999 |
Una de las cosas interesantes que cuenta Nvidia en su documento técnico es que las GPU Ada Lovelace usan transistores de alta velocidad en rutas críticas para aumentar las velocidades máximas de reloj. Como resultado, su GPU AD102 totalmente habilitada con 18 432 núcleos CUDA es «capaz de funcionar a velocidades superiores a 2,5 GHz, manteniendo el mismo TGP de 450 W». Teniendo esto en cuenta, no nos sorprende que la compañía esté hablando de relojes de 3.0 GHz para la GeForce RTX 4090 (con 16,384 núcleos CUDA) alcanzados en sus laboratorios. A 3,0 GHz, la GeForce RTX 4090 encabezará absolutamente nuestra lista de las mejores tarjetas gráficas.
Además de los relojes altos, la GPU Ada Lovelace de Nvidia también cuenta con cachés L2 masivos que mejoran el rendimiento en cargas de trabajo intensivas (por ejemplo, trazado de rayos, seguimiento de rutas, simulaciones, etc.) y reducen los requisitos de ancho de banda de memoria. Esencialmente, las GPU Ada de Nvidia toman una página del libro de RDNA 2 Infinity Cache aquí, aunque creemos que los objetivos generales para la nueva arquitectura se establecieron mucho antes de que los productos de la serie Radeon RX 6000 de AMD debutaran en 2020.
Hablando de cargas de trabajo como simulaciones, debemos señalar que en el mundo de las supercomputadoras se realizan con números en formato de punto flotante de doble precisión (FP64) para mejorar la precisión de los resultados. FP64 es más costoso que FP32 tanto en términos de rendimiento como en términos de complejidad de hardware. Esta es la razón por la cual los gráficos por computadora usan formatos FP32 y muchas simulaciones de activos no críticos también se realizan con precisión FP32. Mientras tanto, la GPU AD102 presenta solo 288 núcleos FP64 (dos por multiprocesador de transmisión) incluidos para garantizar que cualquier programa con código FP64 funcione correctamente, incluido el código FP64 Tensor Core.
Aún así, la tasa FP64 de AD102 es 1/64 de la tasa TFLOP de las operaciones FP32 (que está en línea con la arquitectura Ampere). Nvidia no muestra sus núcleos FP64 en los diagramas de sus módulos multiprocesador (SM) de transmisión y no revela la cantidad de dichos núcleos en las GPU AD103 y AD104. La baja tasa de FP64 de los procesadores gráficos Ada enfatiza que estas partes están destinadas principalmente a los juegos.
Más transistores = más rendimiento
La complejidad y los tamaños de matriz de los procesadores gráficos Ada Lovelace de Nvidia en comparación con las GPU Ampere de la empresa no deberían sorprender. Las nuevas GPU Ada se fabrican con las tecnologías de fabricación 4N (clase 5nm) de TSMC, mientras que Ampere se fabricó con el proceso 8LPP de Samsung Foundry (un nodo de clase 10nm con un encogimiento óptico del 10%). Esa complejidad adicional (recuento de transistores) es lo que permite mejoras de rendimiento impresionantes en elementos como el trazado de rayos y mejoras de calidad con DLSS 3.0.
GPU/tarjeta gráfica | AD102 | RTX 4090 | RTX 4080 16GB | RTX 4080 12GB | RTX 3090 Ti |
---|---|---|---|---|---|
GPU | AD102 | AD102 | AD103 | AD104 | GA102 |
TFLOPS FP32 (impulso) | ? | 82.6 | 48.7 | 40.1 | 40,0 |
TFLOPS FP16 (FP8) | ? | 661 (1321) | 390 (780) | 319 (639) | 320 (N/D) |
Trazado de rayos TFLOPS | ? | 191 | 113 | 82 | 78.1 |
Otra cosa a tener en cuenta es que la GPU AD102 de Nvidia tiene una mayor densidad de transistores que sus hermanos menores. Por un lado, esa densidad de transistores añadida del 3,6% le permite empaquetar significativamente más unidades de ejecución en AD102 en comparación con sus hermanos más pequeños. Pero por otro lado, la relajada densidad de transistores de AD103 y AD104 en muchos casos permite mejores rendimientos (asumiendo que la densidad de defectos del nodo no es alta en general) y relojes más altos.
Es difícil hacer predicciones sobre el potencial de frecuencia de AD103 y AD104 sin acceso al hardware real y/o conocimiento de sus tasas de rendimiento reales. Sin embargo, si el AD102 puede funcionar a 2,50 GHz ~ 3,0 GHz, entonces es razonable esperar que el AD103 y el AD104 tengan un potencial aún mayor. También sabemos que el RTX 4080 de 12 GB usa un chip AD104 completamente habilitado que funciona a 2610 MHz, mientras que el RTX 4080 de 16 GB usa el 95 % de un chip AD103 (76 de 80 SM) que funciona a 2505 MHz, y el RTX 4090 solo usa el 89 % ( 128 de 144 SM) funcionando a 2510 MHz, también con el 25 % de la memoria caché L2 deshabilitada.
Una cantidad extrema de unidades de ejecución, habilitadas por una alta complejidad, junto con relojes altos, deberían brindar ganancias de rendimiento notables. La GeForce RTX 4090 de Nvidia tiene una tasa de cómputo teórica máxima de FP32 dos veces mayor (~82,6 TFLOPS) en comparación con la GeForce RTX 3090 Ti (~40 TFLOPS).
Mientras tanto, la línea actual de GPU Ada de Nvidia para jugadores exigentes muestra que la empresa ha vuelto a la normalidad con su enfoque de tres chips para el mercado de juegos de gama alta. Normalmente, Nvidia lanza su GPU insignia para juegos, le sigue un chip que tiene aproximadamente entre el 66 % y el 75 % de los recursos del buque insignia (p. ej., núcleos CUDA) y luego presenta un procesador de gráficos que tiene alrededor del 50 % de las unidades del buque insignia. Con la familia Ampere, esa estrategia se ajustó un poco ya que el chip GA103 de Nvidia se diseñó principalmente con las computadoras portátiles en mente y apenas llegó a las computadoras de escritorio (también llegó tarde a la fiesta), sin embargo, con la generación Ada, Nvidia vuelve a su enfoque habitual con tres fichas
Más SKU entrantes
Una conclusión interesante es la disparidad entre las configuraciones máximas que ofrece la GPU AD102 y la tarjeta gráfica GeForce RTX 4090. AD102 incluye 18 432 núcleos CUDA, mientras que la GeForce RTX 4090 viene con 16 384 núcleos CUDA habilitados. Este enfoque le da a Nvidia cierta flexibilidad adicional con respecto a los rendimientos y la introducción de nuevas tarjetas gráficas en el futuro, por lo que hay mucho espacio para una generación RTX 4090 Ti, RTX 4080 Ti y RTX 5500/5000 Ada para los mercados de ProViz, etc.
Mientras tanto, la GeForce RTX 4080 de 16 GB y la RTX 4080 de 12 GB utilizan GPU AD103 casi completas y AD104 completas, respectivamente. No sabemos qué traerá el futuro, pero anticipamos que eventualmente veremos versiones reducidas de las GPU AD103 y AD104. Podemos especular sobre GeForce RTX 4070 Ti y/o RTX 4070 en función de los contenedores reducidos del chip AD104, así como el potencial de soluciones gráficas de gama ultra alta para computadoras portátiles con el procesador de gráficos AD103, pero solo podemos adivinar las especificaciones de estas partes.
Algunos pensamientos
La arquitectura Ada Lovelace de Nvidia es un salto tanto cualitativo como cuantitativo sobre la arquitectura Ampere. Nvidia no solo mejoró seriamente el rendimiento de su trazado de rayos, núcleos tensoriales y algunas otras unidades a nivel arquitectónico, sino que también aumentó su número y mejoró sus relojes. Una mejora importante aquí son las cachés L2 enormemente aumentadas de las GPU Ada en comparación con las GPU Ampere.
En gran medida, estos avances fueron posibles gracias a la tecnología de proceso 4N optimizada para GPU de Nvidia de TSMC. Además, la empresa también usó transistores de alta velocidad para aumentar las frecuencias de sus nuevos procesadores gráficos, lo que proporcionó ganancias de rendimiento adicionales.
Pero un nodo de producción de vanguardia y los tamaños de matriz grandes de las nuevas GPU de Nvidia también hacen que las piezas sean significativamente más costosas de construir, razón por la cual los precios de las tarjetas gráficas GeForce RTX 4080 y 4090 son considerablemente más altos que sus predecesores directos.
Hasta el momento, Nvidia ha presentado solo cinco productos basados en Ada Lovelace: tarjetas gráficas GeForce RTX 4080 de 12 GB, RTX 4080 de 16 GB y RTX 4090 para computadoras de escritorio, junto con la generación RTX 6000 Ada para estaciones de trabajo/centros de datos y placas L40 (Lovelace 40) para equipos de alto rendimiento. estaciones de trabajo finales y entornos de estaciones de trabajo virtualizadas.
Teniendo en cuenta que la empresa puede ofrecer AD102 completo y versiones reducidas de las GPU AD102, AD103 y AD104, podemos imaginar una gran cantidad de nuevas tarjetas de la serie GeForce RTX 40 para máquinas cliente y soluciones de la serie Ada RTX para centros de datos. Mientras tanto, Nvidia probablemente esté preparando algunas GPU más pequeñas (AD106, AD107), por lo que parece que la familia de productos Ada Lovelace será al menos tan amplia como la línea Ampere.