Una breve historia sobre la abrumadora demanda del hardware informático de alto rendimiento de Nvidia en China ha revelado el rendimiento de la misteriosa GPU de cómputo A800 de Nvidia, que está hecha para el mercado chino. Según MyDrivers, el A800 funciona al 70 % de la velocidad de las GPU A100 y cumple con los estrictos estándares de exportación de EE. UU. que limitan la cantidad de potencia de procesamiento que Nvidia puede vender.
Con tres años, el A100 de Nvidia tiene un gran rendimiento: ofrece 9,7 FP64/19,5 FP64 Tensor TFLOPS para HPC y hasta 624 BF16/FP16 TFLOPS (con escasez) para cargas de trabajo de IA. Incluso con una reducción de alrededor del 30 %, estos números seguirán pareciendo formidables: 6,8 FP64/13,7 FP64 Tensor TFLOPS, así como 437 BF16/FP16 (con escasez).
A pesar de la «castración» (límites de rendimiento) como lo expresa MyDrivers, el A800 de Nvidia es un gran rival contra las GPU de cómputo BR104 y BR100 de Biren con sede en China en términos de capacidades de cómputo. Mientras tanto, las GPU de cómputo de Nvidia y su arquitectura CUDA son ampliamente compatibles con las aplicaciones que ejecutan sus clientes, mientras que los procesadores de Biren aún deben adoptarse. E incluso Biren no puede enviar sus GPU de cómputo completas a China debido a las últimas regulaciones.
Fila 0 – Celda 0 | Biren BR104 | Nvidia A800 | Nvidia A100 | Nvidia H100 |
Factor de forma | Tarjeta FHFL | Tarjeta FHFL (?) | SXM4 | SXM5 |
Recuento de transistores | ? | 54,2 mil millones | 54,2 mil millones | 80 mil millones |
Nodo | N7 | N7 | N7 | 4N |
Fuerza | 300W | ? | 400W | 700W |
FP32 TFLOPS | 128 | 13.7 (?) | 19.5 | 60 |
TF32+ TFLOPS | 256 | ? | ? | ? |
TF32 TFLOPS | ? | 109/218* (?) | 156/312* | 500/1000* |
FP16 TFLOPS | ? | 56 (?) | 78 | 120 |
Tensor FP16 TFLOPS | ? | 218/437* | 312/624* | 1000/2000* |
BF16 TFLOPS | 512 | 27 | 39 | 120 |
Tensor BF16 TFLOPS | ? | 218/437* | 312/624* | 1000/2000* |
INT8 | 1024 | ? | ? | ? |
Tensor INT8 TFLOPS | ? | 437/874* | 624/1248* | 2000/4000* |
* Con escasez
Las reglas de exportación impuestas por los Estados Unidos en octubre de 2021 prohíben la exportación de tecnologías estadounidenses que permitan supercomputadoras con un rendimiento superior a 100 FP64 PetaFLOPS o 200 FP32 PetaFLOPS dentro de un espacio de 41.600 pies cúbicos (1.178 metros cúbicos) o menos a China. Si bien las restricciones a la exportación no limitan específicamente el rendimiento de cada GPU de cómputo vendida a una entidad con sede en China, limitan su rendimiento y escalabilidad.
Después de que las nuevas reglas entraron en vigencia, Nvidia perdió la capacidad de vender sus GPU de cómputo A100 y H100 de gama ultra alta a clientes con sede en China sin una licencia de exportación, lo cual es difícil de obtener. En un intento por satisfacer la demanda del rendimiento requerido por los hiperescaladores chinos, la compañía presentó una versión reducida de su GPU A100 denominada A800. Hasta ahora, no estaba claro qué tan capaz es esta GPU.
A medida que aumenta el uso de la inteligencia artificial tanto entre los consumidores como entre las empresas, la popularidad del hardware de alto rendimiento que puede manejar las cargas de trabajo adecuadas está en auge. Nvidia se encuentra entre los principales beneficiarios de la megatendencia de la IA, razón por la cual sus GPU tienen una demanda tan alta que incluso el A800 reducido se agotó en China.
El BR100 de Biren estará disponible en un factor de forma OAM y consumirá hasta 550 W de potencia. El chip es compatible con la tecnología BLink de 8 vías patentada por la empresa que permite la instalación de hasta ocho GPU BR100 por sistema. Por el contrario, el BR104 de 300 W se enviará en un factor de forma de tarjeta PCIe de doble ancho FHFL y admitirá una configuración multi-GPU de hasta 3 vías. Ambos chips usan una interfaz PCIe 5.0 x16 con el protocolo CXL para aceleradores en la parte superior, informa EETrend (a través de VideoCardz).
Biren dice que sus dos chips están fabricados con el proceso de fabricación de clase 7nm de TSMC (sin especificar si usa N7, N7+ o N7P). El BR100 más grande contiene 77 mil millones de transistores, superando los 54,2 mil millones con el Nvidia A100 que también se fabrica utilizando uno de los nodos N7 de TSMC. La compañía también dice que para superar las limitaciones impuestas por el tamaño de la retícula de TSMC, tuvo que usar el diseño de chiplet y la tecnología CoWoS 2.5D de la fundición, lo cual es completamente lógico ya que el A100 de Nvidia se acercaba al tamaño de una retícula y se supone que el BR100 es parejo. más grande dada su mayor cantidad de transistores.
Dadas las especificaciones, podemos especular que BR100 básicamente usa dos BR104, aunque el desarrollador no lo ha confirmado formalmente.
Para comercializar su acelerador BR100 OAM, Biren trabajó con Inspur en un servidor de IA de 8 vías que se probará a partir del cuarto trimestre de 2022. Baidu y China Mobile estarán entre los primeros clientes en utilizar las GPU de cómputo de Biren.