{"id":116281,"date":"2022-08-24T07:37:07","date_gmt":"2022-08-24T07:37:07","guid":{"rendered":"https:\/\/magazineoffice.com\/birentech-detalla-la-gpu-mas-potente-de-china-la-biren-br100-1074-mm2-en-7-nm-77-mil-millones-de-transistores-hasta-28-veces-mas-rapida-que-nvidia-ampere-a-550-w\/"},"modified":"2022-08-24T07:37:10","modified_gmt":"2022-08-24T07:37:10","slug":"birentech-detalla-la-gpu-mas-potente-de-china-la-biren-br100-1074-mm2-en-7-nm-77-mil-millones-de-transistores-hasta-28-veces-mas-rapida-que-nvidia-ampere-a-550-w","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/birentech-detalla-la-gpu-mas-potente-de-china-la-biren-br100-1074-mm2-en-7-nm-77-mil-millones-de-transistores-hasta-28-veces-mas-rapida-que-nvidia-ampere-a-550-w\/","title":{"rendered":"Birentech detalla la GPU m\u00e1s potente de China, la Biren BR100: 1074 mm2 en 7 nm, 77 mil millones de transistores, hasta 2,8 veces m\u00e1s r\u00e1pida que NVIDIA Ampere a 550 W"},"content":{"rendered":"


\n<\/p>\n

\n

A principios de este mes, informamos que Birentech, una empresa procedente de China, estaba trabajando en su GPU m\u00e1s r\u00e1pida hasta la fecha, la Biren BR100. Seg\u00fan lo que la compa\u00f1\u00eda ha revelado p\u00fablicamente, Biren BR100 pretende ser una GPU de uso general que ofrecer\u00eda un rendimiento m\u00e1s r\u00e1pido que las GPU A100 de NVIDIA en el procesamiento de IA. Ahora, en Hot Chips 34, la compa\u00f1\u00eda nos presenta m\u00e1s detalles sobre las especificaciones y la arquitectura dentro de su l\u00ednea Biren GPGPU.<\/p>\n

La GPU MCM de uso general m\u00e1s r\u00e1pida de China, Birentech Biren BR100, arquitectura detallada<\/h2>\n

Birentech BR100 es la GPU insignia de uso general que China tiene para ofrecer, con una arquitectura de GPU interna que utiliza un nodo de proceso de 7 nm y alberga 77 mil millones de transistores en su matriz. La GPU se fabric\u00f3 con el dise\u00f1o CoWoS 2.5D de TSMC y tambi\u00e9n viene con 300 MB de cach\u00e9 en el chip, 64 GB de HBM2e con un ancho de banda de memoria de 2,3 TB\/s y soporte para PCIe Gen 5.0 (protocolo de interconexi\u00f3n CXL). Todo el chip mide 1074 mm2, que est\u00e1 m\u00e1s all\u00e1 del l\u00edmite de ret\u00edcula del nodo de proceso.<\/p>\n

<\/figure>\n

Algunos de los fundamentos que intervinieron en el dise\u00f1o de la GPU BR100 incluyeron:<\/p>\n

    \n
  • Para romper el l\u00edmite del tama\u00f1o de la ret\u00edcula e integrar m\u00e1s transistores en un chip<\/li>\n
  • Una cinta para potenciar m\u00faltiples SKU<\/li>\n
  • Troquel m\u00e1s peque\u00f1o para un mejor rendimiento, por lo tanto, menor costo<\/li>\n
  • Interconexi\u00f3n de matriz a matriz de alta velocidad de 896 GB\/s<\/li>\n
  • 30 % m\u00e1s de rendimiento y 20 % m\u00e1s de rendimiento en comparaci\u00f3n con un dise\u00f1o monol\u00edtico<\/li>\n<\/ul>\n
    \n
    \n
    \n
    \"birentech-biren-br100-chinas-fastest-general-purpose-gpu-hot-chips-34_4\"\/<\/div>\n
    \"birentech-biren-br100-chinas-fastest-general-purpose-gpu-hot-chips-34_3\"\/<\/div>\n<\/div>\n<\/div>\n<\/figure>\n

    Hablando de la arquitectura en s\u00ed, el Biren BR100 se compone de dos chipsets, cada uno de los cuales alberga 16 SPC o cl\u00fasteres de procesamiento de transmisi\u00f3n. Cada SPC tiene 16 EU y cuatro de estos EU forman una unidad de c\u00f3mputo interna o CU que se adjunta a 64 KB de cach\u00e9 L1 (LSC), mientras que el SPC presenta un cach\u00e9 L2 de 8 MB compartido en todas las unidades de ejecuci\u00f3n. Eso es un total de 32 SPC con 512 unidades de ejecuci\u00f3n, 256 MB de cach\u00e9 L2 y 8 MB de cach\u00e9 L1.<\/p>\n

    Una mirada m\u00e1s profunda a la Unidad de Ejecuci\u00f3n revela 16 n\u00facleos de procesamiento de transmisi\u00f3n (V-Core) y un solo Tensor Engine (T-Core). Hay 40 KB de TLR (Registro local de subprocesos), 4 SFU y un TDA (Acelerador de datos de tensor). Curiosamente, cada CU puede contener 4, 8 y hasta 16 UE. El V-Core en s\u00ed es un procesador SIMT de prop\u00f3sito general que cuenta con 16 n\u00facleos que admiten FP32, FP16, INT32 e INT16 junto con SFU, carga\/almacenamiento y procesamiento de datos, mientras maneja operaciones de aprendizaje profundo como Batch Norm, ReLu, etc. Tambi\u00e9n cuenta con un modelo SIMT mejorado que puede ejecutar hasta 128 000 subprocesos en 32 SPC en un modo superescalar (est\u00e1tico y din\u00e1mico). Para los T-Cores, el dise\u00f1o de tensor se usa para acelerar las operaciones de IA como MMA, Convoluci\u00f3n, etc.<\/p>\n

    \n<\/figure>\n

    Birentech revel\u00f3 varias m\u00e9tricas de rendimiento del chip. Ofrece hasta 2048 TOP (INT8), 1024 TFLOP (BF16), 512 TFLOP (TF32+) y 256 TFLOP (FP32) y, seg\u00fan las cifras de rendimiento, parece que este chip ser\u00e1 m\u00e1s r\u00e1pido que NVIDIA Ampere. A100, al menos en papel. La GPU se ha comparado con NVIDIA Ampere A100 en varias cargas de trabajo de HPC y parece que ofrecer\u00eda una aceleraci\u00f3n media de hasta 2,6x y de hasta 2,8x sobre su principal competidor.<\/p>\n

    \"\"<\/figure>\n

    La GPU Hopper H100 ofrece casi 2 o 2,5 veces el rendimiento en las mismas m\u00e9tricas de rendimiento de GPU. El chip tambi\u00e9n admite codificaci\u00f3n de 64 canales y codificaci\u00f3n de 512 canales. En cuanto a las interconexiones, el chip viene con una soluci\u00f3n 8 BLink que ofrece 2,3 TB\/s de ancho de banda de E\/S externo.<\/p>\n

    Lo interesante es que el BR100 no se queda atr\u00e1s en t\u00e9rminos de cantidad total de transistores en comparaci\u00f3n con el NVIDIA H100. El H100 presenta 80 mil millones de transistores en el nuevo nodo de proceso N4, mientras que el BR100 est\u00e1 solo 3 mil millones de transistores por detr\u00e1s del nodo de proceso de 7 nm. Esto conducir\u00eda a un tama\u00f1o de troquel mucho m\u00e1s grande.<\/p>\n

    \n
    \n
    \n
    \"birentech-biren-br100-gpu-low_res-scale-4_00x\"\/<\/div>\n
    \"birentech-biren-br100-low_res-scale-4_00x\"\/<\/div>\n<\/div>\n<\/div>\n<\/figure>\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n
    Birentech Biren BR100<\/th>\n<\/tr>\n
    Proceso<\/td>\n7 nm<\/td>\n<\/tr>\n
    Interfaz del sistema, ancho de banda, protocolo de interconexi\u00f3n<\/td>\nPCIe5.0 X16, 128 GB\/s, compatible con CXL<\/td>\n<\/tr>\n
    FP32 TFLOPS (pico)<\/td>\n256<\/td>\n<\/tr>\n
    TF32+ TFLOPS (pico)<\/td>\n512<\/td>\n<\/tr>\n
    BF16 TFLOPS (pico)<\/td>\n1,024<\/td>\n<\/tr>\n
    TOPS INT8 (pico)<\/td>\n2,048<\/td>\n<\/tr>\n
    Capacidad de memoria, ancho de bit de interfaz, ancho de banda<\/td>\nHBM2E de 64 GB; 4096 bits, 1,64 TB\/s<\/td>\n<\/tr>\n
    interconexi\u00f3n<\/td>\nBLink\u2122 de 512 GB\/s, compatible con 8 puertos x8<\/td>\n<\/tr>\n
    Instancia virtual segura<\/td>\nHasta 8 porciones<\/td>\n<\/tr>\n
    C\u00f3dec de v\u00eddeo (FHD@30fps)<\/td>\nCodificaci\u00f3n HEVC\/H.264 de 64 canales\/descodificaci\u00f3n HEVC\/H.264 de 512 canales<\/td>\n<\/tr>\n
    TDP<\/td>\n550W<\/td>\n<\/tr>\n
    formulario de producto<\/td>\nm\u00f3dulo OAM<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n

    El Biren BR100 no es el \u00fanico chip que ha anunciado la empresa con sede en China. Tambi\u00e9n est\u00e1 el Biren BR104, que ofrece la mitad de las m\u00e9tricas de rendimiento del BR100, pero a\u00fan no se han dicho las especificaciones. El \u00fanico detalle disponible en el otro chip es que, a diferencia del Biren BR100 que usa un dise\u00f1o de chiplet, el BR104 es un chip monol\u00edtico y viene en un factor de forma PCIe est\u00e1ndar con un TDP de 300W.<\/p>\n

    \"\"<\/figure>\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n
    Birentech Biren 104<\/th>\n<\/tr>\n
    Proceso<\/td>\n7 nm<\/td>\n<\/tr>\n
    Interfaz del sistema, ancho de banda, protocolo de interconexi\u00f3n<\/td>\nPCIe5.0 X16, 128 GB\/s, compatible con CXL<\/td>\n<\/tr>\n
    FP32 TFLOPS (pico)<\/td>\n128<\/td>\n<\/tr>\n
    TF32+ TFLOPS (pico)<\/td>\n256<\/td>\n<\/tr>\n
    BF16 TFLOPS (pico)<\/td>\n512<\/td>\n<\/tr>\n
    TOPS INT8 (pico)<\/td>\n1,024<\/td>\n<\/tr>\n
    Capacidad de memoria, ancho de bit de interfaz, ancho de banda<\/td>\n32 GB HBM2E; 2048 bits, 819 GB\/s<\/td>\n<\/tr>\n
    interconexi\u00f3n<\/td>\nBLink\u2122 de 192 GB\/s, admite 3 puertos x8<\/td>\n<\/tr>\n
    Instancia virtual segura<\/td>\nhasta 4 porciones<\/td>\n<\/tr>\n
    C\u00f3dec de v\u00eddeo (FHD@30fps)<\/td>\n32 canales de codificaci\u00f3n HEVC\/H.264, 256 canales de decodificaci\u00f3n HEVC\/H.264<\/td>\n<\/tr>\n
    TDP<\/td>\n300W<\/td>\n<\/tr>\n
    formulario de producto<\/td>\nTarjeta PCIe de doble ranura de altura completa y longitud completa<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n
    \n
    \n
    \n
    \"birentech-biren-br100-chinas-fastest-general-purpose-gpu-hot-chips-34_7\"\/<\/div>\n
    \"birentech-biren-br100-chinas-fastest-general-purpose-gpu-hot-chips-34_6\"\/<\/div>\n<\/div>\n<\/div>\n<\/figure>\n

    La compa\u00f1\u00eda afirma que un chip con 77 mil millones de transistores puede imitar las c\u00e9lulas nerviosas del cerebro humano y que el chip en s\u00ed se usar\u00e1 para fines de DNN e IA, por lo que m\u00e1s o menos reemplazar\u00e1 la dependencia de China de las GPU de IA de NVIDIA.<\/p>\n<\/p><\/div>\n