Biren Technology ha presentado formalmente sus primeras GPU diseñadas principalmente para inteligencia artificial (IA) y computación de alto rendimiento (HPC). Según la compañía, la GPU BR100 de gama alta puede desafiar a los chips A100 e incluso H100 de Nvidia en ciertas cargas de trabajo, pero su complejidad es comparable con la de la GPU de cómputo H100 de Nvidia.
La familia inicial de GPU de cómputo de Biren incluye dos chips. El BR100 promete un rendimiento de hasta 256 FP32 TFLOPS o 2 INT8 PetaFLOPS, mientras que el BR104 está clasificado para un rendimiento de hasta 128 FP32 TFLOPS o 1 INT8 PetaFLOPS.
El BR100 de gama alta viene con 64 GB de memoria HBM2E con una interfaz de 4096 bits (1,64 TB/s), mientras que el BR104 de gama media viene con 32 GB de memoria HBM2E con una interfaz de 2048 bits (819 GB/s).
Biren BR104 | Biren BR100 | Nvidia A100 | Nvidia H100 | |
Factor de forma | Tarjeta FHFL | Módulo OAM | SXM4 | SXM5 |
Recuento de transistores | ? | 77 mil millones | 54,2 mil millones | 80 mil millones |
Nodo | N7 | N7 | N7 | 4N |
Energía | 300W | 550W | 400W | 700W |
FP32 TFLOPS | 128 | 256 | 19.5 | 60 |
TF32+ TFLOPS | 256 | 512 | ? | ? |
TF32 TFLOPS | ? | ? | 156/312* | 500/1000* |
FP16 TFLOPS | ? | ? | 78 | 120 |
Tensor FP16 TFLOPS | ? | ? | 312/624* | 1000/2000* |
BF16 TFLOPS | 512 | 1024 | 39 | 120 |
Tensor BF16 TFLOPS | ? | ? | 312/624* | 1000/2000* |
INT8 | 1024 | 2048 | ? | ? |
Tensor INT8 TFLOPS | ? | ? | 624/1248* | 2000/4000* |
* Con escasez
Ambos chips admiten los formatos de datos INT8, FP16, BF16, FP32 y TF32+, por lo que no estamos hablando de formatos de supercomputación (p. ej., FP64), aunque Biren dice que su formato TF32+ proporciona mayor precisión de datos que el TF32 tradicional. Mientras tanto, el BR100 y el BR104 ofrecen números de rendimiento máximo bastante formidables. De hecho, si la empresa hubiera incorporado funcionalidades específicas de GPU (unidades de textura, back-end de renderizado, etc.) en sus GPU de cómputo y hubiera diseñado los controladores adecuados, estos chips habrían sido GPU bastante increíbles (al menos BR104, que es presumiblemente un configuración de un solo chip).
Además de las capacidades informáticas, las GPU de Biren también pueden admitir la codificación y decodificación de video H.264.
El BR100 de Biren estará disponible en un factor de forma OAM y consumirá hasta 550 W de potencia. El chip es compatible con la tecnología BLink de 8 vías patentada por la empresa que permite la instalación de hasta ocho GPU BR100 por sistema. Por el contrario, el BR104 de 300 W se enviará en un factor de forma de tarjeta PCIe de doble ancho FHFL y admitirá una configuración multi-GPU de hasta 3 vías. Ambos chips usan una interfaz PCIe 5.0 x16 con el protocolo CXL para aceleradores en la parte superior, informa EETrend (a través de VideoCardz).
Biren dice que sus dos chips están fabricados con el proceso de fabricación de clase 7nm de TSMC (sin especificar si usa N7, N7+ o N7P). El BR100 más grande contiene 77 mil millones de transistores, superando los 54,2 mil millones con el Nvidia A100 que también se fabrica utilizando uno de los nodos N7 de TSMC. La compañía también dice que para superar las limitaciones impuestas por el tamaño de la retícula de TSMC, tuvo que usar el diseño de chiplet y la tecnología CoWoS 2.5D de la fundición, lo cual es completamente lógico ya que el A100 de Nvidia se acercaba al tamaño de una retícula y se supone que el BR100 es parejo. más grande dada su mayor cantidad de transistores.
Dadas las especificaciones, podemos especular que BR100 básicamente usa dos BR104, aunque el desarrollador no lo ha confirmado formalmente.
Para comercializar su acelerador BR100 OAM, Biren trabajó con Inspur en un servidor de IA de 8 vías que se probará a partir del cuarto trimestre de 2022. Baidu y China Mobile estarán entre los primeros clientes en utilizar las GPU de cómputo de Biren.