Birentech detalla la GPU más potente de China, la Biren BR100: 1074 mm2 en 7 nm, 77 mil millones de transistores, hasta 2,8 veces más rápida que NVIDIA Ampere a 550 W


A principios de este mes, informamos que Birentech, una empresa procedente de China, estaba trabajando en su GPU más rápida hasta la fecha, la Biren BR100. Según lo que la compañía ha revelado públicamente, Biren BR100 pretende ser una GPU de uso general que ofrecería un rendimiento más rápido que las GPU A100 de NVIDIA en el procesamiento de IA. Ahora, en Hot Chips 34, la compañía nos presenta más detalles sobre las especificaciones y la arquitectura dentro de su línea Biren GPGPU.

La GPU MCM de uso general más rápida de China, Birentech Biren BR100, arquitectura detallada

Birentech BR100 es la GPU insignia de uso general que China tiene para ofrecer, con una arquitectura de GPU interna que utiliza un nodo de proceso de 7 nm y alberga 77 mil millones de transistores en su matriz. La GPU se fabricó con el diseño CoWoS 2.5D de TSMC y también viene con 300 MB de caché en el chip, 64 GB de HBM2e con un ancho de banda de memoria de 2,3 TB/s y soporte para PCIe Gen 5.0 (protocolo de interconexión CXL). Todo el chip mide 1074 mm2, que está más allá del límite de retícula del nodo de proceso.

Algunos de los fundamentos que intervinieron en el diseño de la GPU BR100 incluyeron:

  • Para romper el límite del tamaño de la retícula e integrar más transistores en un chip
  • Una cinta para potenciar múltiples SKU
  • Troquel más pequeño para un mejor rendimiento, por lo tanto, menor costo
  • Interconexión de matriz a matriz de alta velocidad de 896 GB/s
  • 30 % más de rendimiento y 20 % más de rendimiento en comparación con un diseño monolítico
birentech-biren-br100-chinas-fastest-general-purpose-gpu-hot-chips-34_4
birentech-biren-br100-chinas-fastest-general-purpose-gpu-hot-chips-34_3

Hablando de la arquitectura en sí, el Biren BR100 se compone de dos chipsets, cada uno de los cuales alberga 16 SPC o clústeres de procesamiento de transmisión. Cada SPC tiene 16 EU y cuatro de estos EU forman una unidad de cómputo interna o CU que se adjunta a 64 KB de caché L1 (LSC), mientras que el SPC presenta un caché L2 de 8 MB compartido en todas las unidades de ejecución. Eso es un total de 32 SPC con 512 unidades de ejecución, 256 MB de caché L2 y 8 MB de caché L1.

Una mirada más profunda a la Unidad de Ejecución revela 16 núcleos de procesamiento de transmisión (V-Core) y un solo Tensor Engine (T-Core). Hay 40 KB de TLR (Registro local de subprocesos), 4 SFU y un TDA (Acelerador de datos de tensor). Curiosamente, cada CU puede contener 4, 8 y hasta 16 UE. El V-Core en sí es un procesador SIMT de propósito general que cuenta con 16 núcleos que admiten FP32, FP16, INT32 e INT16 junto con SFU, carga/almacenamiento y procesamiento de datos, mientras maneja operaciones de aprendizaje profundo como Batch Norm, ReLu, etc. También cuenta con un modelo SIMT mejorado que puede ejecutar hasta 128 000 subprocesos en 32 SPC en un modo superescalar (estático y dinámico). Para los T-Cores, el diseño de tensor se usa para acelerar las operaciones de IA como MMA, Convolución, etc.

Birentech reveló varias métricas de rendimiento del chip. Ofrece hasta 2048 TOP (INT8), 1024 TFLOP (BF16), 512 TFLOP (TF32+) y 256 TFLOP (FP32) y, según las cifras de rendimiento, parece que este chip será más rápido que NVIDIA Ampere. A100, al menos en papel. La GPU se ha comparado con NVIDIA Ampere A100 en varias cargas de trabajo de HPC y parece que ofrecería una aceleración media de hasta 2,6x y de hasta 2,8x sobre su principal competidor.

La GPU Hopper H100 ofrece casi 2 o 2,5 veces el rendimiento en las mismas métricas de rendimiento de GPU. El chip también admite codificación de 64 canales y codificación de 512 canales. En cuanto a las interconexiones, el chip viene con una solución 8 BLink que ofrece 2,3 TB/s de ancho de banda de E/S externo.

Lo interesante es que el BR100 no se queda atrás en términos de cantidad total de transistores en comparación con el NVIDIA H100. El H100 presenta 80 mil millones de transistores en el nuevo nodo de proceso N4, mientras que el BR100 está solo 3 mil millones de transistores por detrás del nodo de proceso de 7 nm. Esto conduciría a un tamaño de troquel mucho más grande.

birentech-biren-br100-gpu-low_res-scale-4_00x
birentech-biren-br100-low_res-scale-4_00x
Birentech Biren BR100
Proceso 7 nm
Interfaz del sistema, ancho de banda, protocolo de interconexión PCIe5.0 X16, 128 GB/s, compatible con CXL
FP32 TFLOPS (pico) 256
TF32+ TFLOPS (pico) 512
BF16 TFLOPS (pico) 1,024
TOPS INT8 (pico) 2,048
Capacidad de memoria, ancho de bit de interfaz, ancho de banda HBM2E de 64 GB; 4096 bits, 1,64 TB/s
interconexión BLink™ de 512 GB/s, compatible con 8 puertos x8
Instancia virtual segura Hasta 8 porciones
Códec de vídeo (FHD@30fps) Codificación HEVC/H.264 de 64 canales/descodificación HEVC/H.264 de 512 canales
TDP 550W
formulario de producto módulo OAM

El Biren BR100 no es el único chip que ha anunciado la empresa con sede en China. También está el Biren BR104, que ofrece la mitad de las métricas de rendimiento del BR100, pero aún no se han dicho las especificaciones. El único detalle disponible en el otro chip es que, a diferencia del Biren BR100 que usa un diseño de chiplet, el BR104 es un chip monolítico y viene en un factor de forma PCIe estándar con un TDP de 300W.

Birentech Biren 104
Proceso 7 nm
Interfaz del sistema, ancho de banda, protocolo de interconexión PCIe5.0 X16, 128 GB/s, compatible con CXL
FP32 TFLOPS (pico) 128
TF32+ TFLOPS (pico) 256
BF16 TFLOPS (pico) 512
TOPS INT8 (pico) 1,024
Capacidad de memoria, ancho de bit de interfaz, ancho de banda 32 GB HBM2E; 2048 bits, 819 GB/s
interconexión BLink™ de 192 GB/s, admite 3 puertos x8
Instancia virtual segura hasta 4 porciones
Códec de vídeo (FHD@30fps) 32 canales de codificación HEVC/H.264, 256 canales de decodificación HEVC/H.264
TDP 300W
formulario de producto Tarjeta PCIe de doble ranura de altura completa y longitud completa
birentech-biren-br100-chinas-fastest-general-purpose-gpu-hot-chips-34_7
birentech-biren-br100-chinas-fastest-general-purpose-gpu-hot-chips-34_6

La compañía afirma que un chip con 77 mil millones de transistores puede imitar las células nerviosas del cerebro humano y que el chip en sí se usará para fines de DNN e IA, por lo que más o menos reemplazará la dependencia de China de las GPU de IA de NVIDIA.





Source link-29