{"id":107474,"date":"2022-08-19T20:59:48","date_gmt":"2022-08-19T20:59:48","guid":{"rendered":"https:\/\/magazineoffice.com\/nvidia-detalla-el-diseno-del-superchip-de-la-cpu-grace-hopper-144-nucleos-en-el-proceso-4n-tsmc\/"},"modified":"2022-08-19T20:59:49","modified_gmt":"2022-08-19T20:59:49","slug":"nvidia-detalla-el-diseno-del-superchip-de-la-cpu-grace-hopper-144-nucleos-en-el-proceso-4n-tsmc","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/nvidia-detalla-el-diseno-del-superchip-de-la-cpu-grace-hopper-144-nucleos-en-el-proceso-4n-tsmc\/","title":{"rendered":"Nvidia detalla el dise\u00f1o del superchip de la CPU Grace Hopper: 144 n\u00facleos en el proceso 4N TSMC"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div id=\"article-body\">\n<p>Nvidia anunci\u00f3 nuevos detalles sobre su Grace CPU Superchip antes de su presentaci\u00f3n Hot Chips 34 la pr\u00f3xima semana, revelando que los chips vienen fabricados en el proceso 4N.  Nvidia tambi\u00e9n comparti\u00f3 m\u00e1s informaci\u00f3n sobre la arquitectura y el tejido de datos, junto con m\u00e1s puntos de referencia de rendimiento y eficiencia.  Nvidia a\u00fan no ha hecho su presentaci\u00f3n oficial en Hot Chips (agregaremos los detalles m\u00e1s detallados despu\u00e9s de la sesi\u00f3n), pero la informaci\u00f3n compartida hoy nos da las pinceladas generales a medida que los chips y servidores Grace llegan al mercado por primera vez. mitad de 2023.<\/p>\n<p>Como recordatorio r\u00e1pido, la CPU Grace de Nvidia es el primer chip Arm solo para CPU de la compa\u00f1\u00eda dise\u00f1ado para el centro de datos y viene como dos chips en una placa base, con un total de 144 n\u00facleos, mientras que el Superchip Grace Hopper combina una GPU Hopper y la CPU Grace en la mismo tablero.<\/p>\n<p>Entre las revelaciones m\u00e1s importantes, Nvidia finalmente confirm\u00f3 oficialmente que las CPU Grace utilizan el proceso TSMC 4N.  TSMC incluye el proceso de 4nm \u00abN4\u00bb en su familia de nodos de 5nm y lo describe como una versi\u00f3n mejorada del nodo de 5nm.  Nvidia usa una variante especializada de este nodo, denominada &#8216;4N&#8217;, que est\u00e1 optimizada espec\u00edficamente para sus GPU y CPU.<\/p>\n<figure class=\"van-image-figure inline-layout\" data-bordeaux-image-check=\"\">\n<div class=\"image-full-width-wrapper\">\n<div class=\"image-widthsetter\" style=\"max-width:813px;\">\n<p class=\"vanilla-image-block\" style=\"padding-top:65.07%;\"><picture><source type=\"image\/webp\" alt=\"Nvidia Grace\" class=\" lazy-image-van\" onerror=\"if(this.src &amp;&amp; this.src.indexOf('missing-image.svg') !== -1)return true;;this.parentNode.replaceChild(window.missingImage(),this)\" data-normal=\"https:\/\/vanilla.futurecdn.net\/tomshardware\/media\/img\/missing-image.svg\" data-srcset=\"https:\/\/cdn.mos.cms.futurecdn.net\/jQbxXGz7ey8SY6oi5JboqW-320-80.jpg.webp 320w, https:\/\/cdn.mos.cms.futurecdn.net\/jQbxXGz7ey8SY6oi5JboqW-480-80.jpg.webp 480w, https:\/\/cdn.mos.cms.futurecdn.net\/jQbxXGz7ey8SY6oi5JboqW-650-80.jpg.webp 650w, https:\/\/cdn.mos.cms.futurecdn.net\/jQbxXGz7ey8SY6oi5JboqW-970-80.jpg.webp 970w, https:\/\/cdn.mos.cms.futurecdn.net\/jQbxXGz7ey8SY6oi5JboqW-1024-80.jpg.webp 1024w, https:\/\/cdn.mos.cms.futurecdn.net\/jQbxXGz7ey8SY6oi5JboqW-1200-80.jpg.webp 1200w\" data-sizes=\"(min-width: 1000px) 970px, calc(100vw - 40px)\" data-original-mos=\"https:\/\/cdn.mos.cms.futurecdn.net\/jQbxXGz7ey8SY6oi5JboqW.jpg\" data-pin-media=\"https:\/\/cdn.mos.cms.futurecdn.net\/jQbxXGz7ey8SY6oi5JboqW.jpg\"\/><source type=\"image\/jpeg\" alt=\"Nvidia Grace\" class=\" lazy-image-van\" onerror=\"if(this.src &amp;&amp; this.src.indexOf('missing-image.svg') !== -1)return true;;this.parentNode.replaceChild(window.missingImage(),this)\" data-normal=\"https:\/\/vanilla.futurecdn.net\/tomshardware\/media\/img\/missing-image.svg\" data-srcset=\"https:\/\/cdn.mos.cms.futurecdn.net\/jQbxXGz7ey8SY6oi5JboqW-320-80.jpg 320w, https:\/\/cdn.mos.cms.futurecdn.net\/jQbxXGz7ey8SY6oi5JboqW-480-80.jpg 480w, https:\/\/cdn.mos.cms.futurecdn.net\/jQbxXGz7ey8SY6oi5JboqW-650-80.jpg 650w, https:\/\/cdn.mos.cms.futurecdn.net\/jQbxXGz7ey8SY6oi5JboqW-970-80.jpg 970w, https:\/\/cdn.mos.cms.futurecdn.net\/jQbxXGz7ey8SY6oi5JboqW-1024-80.jpg 1024w, https:\/\/cdn.mos.cms.futurecdn.net\/jQbxXGz7ey8SY6oi5JboqW-1200-80.jpg 1200w\" data-sizes=\"(min-width: 1000px) 970px, calc(100vw - 40px)\" data-original-mos=\"https:\/\/cdn.mos.cms.futurecdn.net\/jQbxXGz7ey8SY6oi5JboqW.jpg\" data-pin-media=\"https:\/\/cdn.mos.cms.futurecdn.net\/jQbxXGz7ey8SY6oi5JboqW.jpg\"\/><\/picture><\/p>\n<\/div>\n<\/div><figcaption itemprop=\"caption description\" class=\" inline-layout\"><span class=\"credit\" itemprop=\"copyrightHolder\">(Cr\u00e9dito de la imagen: Nvidia)<\/span><\/figcaption><\/figure>\n<p>Estos tipos de nodos especializados se est\u00e1n volviendo m\u00e1s comunes a medida que la Ley de Moore se desvanece y la reducci\u00f3n de los transistores se vuelve m\u00e1s dif\u00edcil y costosa con cada nuevo nodo.  Para habilitar nodos de procesos personalizados como 4N de Nvidia, los dise\u00f1adores de chips y las fundiciones trabajan mano a mano mediante el uso de la Optimizaci\u00f3n conjunta de tecnolog\u00eda de dise\u00f1o (DTCO) para marcar caracter\u00edsticas personalizadas de potencia, rendimiento y \u00e1rea (PPA) para sus productos espec\u00edficos.<\/p>\n<p>Nvidia ha revelado previamente que usa n\u00facleos Arm Neoverse listos para usar para sus CPU Grace, pero la compa\u00f1\u00eda a\u00fan no ha especificado qu\u00e9 versi\u00f3n espec\u00edfica usa.  Sin embargo, Nvidia ha revelado que Grace usa n\u00facleos Arm v9 y es compatible con SVE2, y la plataforma Neoverse N2 es la primera IP de Arm compatible con Arm v9 y extensiones como SVE2.  La plataforma N2 Perseus viene con un dise\u00f1o de 5 nm (recuerde, N4 est\u00e1 en la familia de 5 nm de TSMC) y es compatible con PCIe Gen 5.0, DDR5, HBM3, CCIX 2.0 y CXL 2.0.  El dise\u00f1o de Perseus est\u00e1 optimizado para rendimiento por potencia (vatios) y rendimiento por \u00e1rea.  Arm dice que sus n\u00facleos de pr\u00f3xima generaci\u00f3n, Poseidon, no llegar\u00e1n al mercado hasta 2024, lo que hace que esos n\u00facleos sean candidatos menos probables dada la fecha de lanzamiento de Grace a principios de 2023.<\/p>\n<h2 id=\"nvidia-grace-hopper-cpu-architecture\">Arquitectura de CPU Nvidia Grace Hopper<\/h2>\n<p>La nueva Nvidia Scalable Coherency Fabric (SCF) de Nvidia es una interconexi\u00f3n de malla que parece muy similar a la red de malla coherente CMN-700 est\u00e1ndar que se usa con los n\u00facleos Arm Neoverse.<\/p>\n<p>Nvidia SCF proporciona 3,2 TB\/s de ancho de banda biseccional entre las distintas unidades de chip Grace, como los n\u00facleos de la CPU, la memoria y las E\/S, sin mencionar la interfaz NVLink-C2C que vincula el chip a la otra unidad presente en la placa base, ya sea otra CPU Grace o la GPU Hopper. <\/p>\n<figure class=\"van-image-figure inline-layout\" data-bordeaux-image-check=\"\">\n<div class=\"image-full-width-wrapper\">\n<div class=\"image-widthsetter\" style=\"max-width:1291px;\">\n<p class=\"vanilla-image-block\" style=\"padding-top:61.04%;\"><picture><source type=\"image\/webp\" alt=\"Grace CPU\" class=\" lazy-image-van\" onerror=\"if(this.src &amp;&amp; this.src.indexOf('missing-image.svg') !== -1)return true;;this.parentNode.replaceChild(window.missingImage(),this)\" data-normal=\"https:\/\/vanilla.futurecdn.net\/tomshardware\/media\/img\/missing-image.svg\" data-srcset=\"https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY-320-80.jpg.webp 320w, https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY-480-80.jpg.webp 480w, https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY-650-80.jpg.webp 650w, https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY-970-80.jpg.webp 970w, https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY-1024-80.jpg.webp 1024w, https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY-1200-80.jpg.webp 1200w\" data-sizes=\"(min-width: 1000px) 970px, calc(100vw - 40px)\" data-original-mos=\"https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY.jpg\" data-pin-media=\"https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY.jpg\"\/><source type=\"image\/jpeg\" alt=\"Grace CPU\" class=\" lazy-image-van\" onerror=\"if(this.src &amp;&amp; this.src.indexOf('missing-image.svg') !== -1)return true;;this.parentNode.replaceChild(window.missingImage(),this)\" data-normal=\"https:\/\/vanilla.futurecdn.net\/tomshardware\/media\/img\/missing-image.svg\" data-srcset=\"https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY-320-80.jpg 320w, https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY-480-80.jpg 480w, https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY-650-80.jpg 650w, https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY-970-80.jpg 970w, https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY-1024-80.jpg 1024w, https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY-1200-80.jpg 1200w\" data-sizes=\"(min-width: 1000px) 970px, calc(100vw - 40px)\" data-original-mos=\"https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY.jpg\" data-pin-media=\"https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY.jpg\"\/><img decoding=\"async\" alt=\"CPU de gracia\" class=\" lazy-image-van\" onerror=\"if(this.src &amp;&amp; this.src.indexOf('missing-image.svg') !== -1)return true;;this.parentNode.replaceChild(window.missingImage(),this)\" src=\"https:\/\/vanilla.futurecdn.net\/tomshardware\/media\/img\/missing-image.svg\" data-srcset=\"https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY-320-80.jpg 320w, https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY-480-80.jpg 480w, https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY-650-80.jpg 650w, https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY-970-80.jpg 970w, https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY-1024-80.jpg 1024w, https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY-1200-80.jpg 1200w\" data-sizes=\"(min-width: 1000px) 970px, calc(100vw - 40px)\" data-original-mos=\"https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY.jpg\" data-pin-media=\"https:\/\/cdn.mos.cms.futurecdn.net\/NM98jPL5Ab6H36dQPHfKFY.jpg\"\/><\/picture><\/p>\n<\/div>\n<\/div><figcaption itemprop=\"caption description\" class=\" inline-layout\"><span class=\"credit\" itemprop=\"copyrightHolder\">(Cr\u00e9dito de la imagen: Nvidia)<\/span><\/figcaption><\/figure>\n<p>La malla admite m\u00e1s de 72 n\u00facleos y cada CPU tiene 117 MB de cach\u00e9 L3 total.  Nvidia dice que el primer diagrama de bloques en el \u00e1lbum anterior es una \u00abtopolog\u00eda posible con fines ilustrativos\u00bb y su alineaci\u00f3n no concuerda del todo con el segundo diagrama.<\/p>\n<p>Este diagrama muestra el chip con ocho particiones de cach\u00e9 SCF (SCC) que parecen ser segmentos de cach\u00e9 L3 (obtendremos m\u00e1s detalles en la presentaci\u00f3n) junto con ocho unidades de CPU (que parecen ser grupos de n\u00facleos).  El SCC y los n\u00facleos est\u00e1n conectados a Cache Switch Nodes (CSN) en grupos de dos, y el CSN luego reside en la estructura de malla SCF para proporcionar una interfaz entre los n\u00facleos de la CPU y la memoria para el resto del chip.  SCF tambi\u00e9n admite coherencia en hasta cuatro sockets con Coherent NVLink. <\/p>\n<figure class=\"van-image-figure inline-layout\" data-bordeaux-image-check=\"\">\n<div class=\"image-full-width-wrapper\">\n<div class=\"image-widthsetter\" style=\"max-width:1238px;\">\n<p class=\"vanilla-image-block\" style=\"padding-top:76.09%;\"><picture><source type=\"image\/webp\" alt=\"Grace CPU\" class=\" lazy-image-van\" onerror=\"if(this.src &amp;&amp; this.src.indexOf('missing-image.svg') !== -1)return true;;this.parentNode.replaceChild(window.missingImage(),this)\" data-normal=\"https:\/\/vanilla.futurecdn.net\/tomshardware\/media\/img\/missing-image.svg\" data-srcset=\"https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY-320-80.jpg.webp 320w, https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY-480-80.jpg.webp 480w, https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY-650-80.jpg.webp 650w, https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY-970-80.jpg.webp 970w, https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY-1024-80.jpg.webp 1024w, https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY-1200-80.jpg.webp 1200w\" data-sizes=\"(min-width: 1000px) 970px, calc(100vw - 40px)\" data-original-mos=\"https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY.jpg\" data-pin-media=\"https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY.jpg\"\/><source type=\"image\/jpeg\" alt=\"Grace CPU\" class=\" lazy-image-van\" onerror=\"if(this.src &amp;&amp; this.src.indexOf('missing-image.svg') !== -1)return true;;this.parentNode.replaceChild(window.missingImage(),this)\" data-normal=\"https:\/\/vanilla.futurecdn.net\/tomshardware\/media\/img\/missing-image.svg\" data-srcset=\"https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY-320-80.jpg 320w, https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY-480-80.jpg 480w, https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY-650-80.jpg 650w, https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY-970-80.jpg 970w, https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY-1024-80.jpg 1024w, https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY-1200-80.jpg 1200w\" data-sizes=\"(min-width: 1000px) 970px, calc(100vw - 40px)\" data-original-mos=\"https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY.jpg\" data-pin-media=\"https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY.jpg\"\/><img decoding=\"async\" alt=\"CPU de gracia\" class=\" lazy-image-van\" onerror=\"if(this.src &amp;&amp; this.src.indexOf('missing-image.svg') !== -1)return true;;this.parentNode.replaceChild(window.missingImage(),this)\" src=\"https:\/\/vanilla.futurecdn.net\/tomshardware\/media\/img\/missing-image.svg\" data-srcset=\"https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY-320-80.jpg 320w, https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY-480-80.jpg 480w, https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY-650-80.jpg 650w, https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY-970-80.jpg 970w, https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY-1024-80.jpg 1024w, https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY-1200-80.jpg 1200w\" data-sizes=\"(min-width: 1000px) 970px, calc(100vw - 40px)\" data-original-mos=\"https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY.jpg\" data-pin-media=\"https:\/\/cdn.mos.cms.futurecdn.net\/2XDukssHrm4RvafwvsRkRY.jpg\"\/><\/picture><\/p>\n<\/div>\n<\/div><figcaption itemprop=\"caption description\" class=\" inline-layout\"><span class=\"credit\" itemprop=\"copyrightHolder\">(Cr\u00e9dito de la imagen: Nvidia)<\/span><\/figcaption><\/figure>\n<p>Nvidia tambi\u00e9n comparti\u00f3 este diagrama, que muestra que cada CPU Grace admite hasta 68 carriles PCIe y hasta cuatro conexiones PCIe 5.0 x16.  Cada conexi\u00f3n x16 admite hasta 128 GB\/s de rendimiento bidireccional (los enlaces x16 se pueden bifurcar en dos enlaces x8).  Tambi\u00e9n vemos 16 controladores de memoria (MC) LPDDR5X de dos canales.<\/p>\n<p>Sin embargo, este diagrama es diferente al primero: muestra la memoria cach\u00e9 L3 como dos bloques contiguos conectados a cl\u00fasteres de CPU de cuatro n\u00facleos, lo que tiene mucho m\u00e1s sentido que el diagrama anterior y tiene un total de hasta 72 n\u00facleos en el chip.  Sin embargo, no vemos las particiones SCF separadas o los nodos CSN del primer diagrama, lo que genera un poco de confusi\u00f3n.  Descubriremos esto durante la presentaci\u00f3n y lo actualizaremos seg\u00fan sea necesario.<\/p>\n<p>Nvidia nos dice que Scalable Coherency Fabric (SCF) es su dise\u00f1o patentado, pero Arm permite a sus socios personalizar la malla CMN-700 ajustando la cantidad de n\u00facleos, los tama\u00f1os de cach\u00e9 y usando diferentes tipos de memoria, como DDR5 y HBM, y seleccionando varias interfaces, como PCIe 5.0, CXL y CCIX.  Eso significa que es posible que Nvidia use una implementaci\u00f3n CMN-700 altamente personalizada para el tejido integrado.<\/p>\n<h2 id=\"nvidia-grace-hopper-extended-gpu-memory\">Memoria GPU extendida Nvidia Grace Hopper<\/h2>\n<aside class=\"hawk-nest\" data-render-type=\"fte\" data-skip=\"dealsy\" data-widget-type=\"seasonal\"\/>\n<p>A las GPU les encanta el rendimiento de la memoria, por lo que, naturalmente, Nvidia se ha centrado en mejorar el rendimiento de la memoria no solo dentro del chip sino tambi\u00e9n entre la CPU y la GPU.  La CPU Grace tiene 16 controladores de memoria LPDDR5X de doble canal, que funcionan en 32 canales que admiten hasta 512 GB de memoria y hasta 546 GB\/s de rendimiento.  Nvidia dice que seleccion\u00f3 LPDDR5X sobre HBM2e debido a m\u00faltiples factores, como la capacidad y el costo.  Mientras tanto, LPDDR5X proporciona un 53 % m\u00e1s de ancho de banda y 1\/8 de potencia por GB en comparaci\u00f3n con la memoria DDR5 est\u00e1ndar, lo que la convierte en la mejor opci\u00f3n en general. <\/p>\n<p>Nvidia tambi\u00e9n presenta Extended GPU Memory (EGM), que permite que cualquier GPU Hopper en la red NVLink acceda a la memoria LPDDR5X de cualquier CPU Grace en la red, pero con el rendimiento nativo de NVLink. <\/p>\n<p>El objetivo de Nvidia es proporcionar un conjunto unificado de memoria que se pueda compartir entre la CPU y la GPU, proporcionando as\u00ed un mayor rendimiento y simplificando el modelo de programaci\u00f3n.  El chip Grace Hopper CPU+GPU admite memoria unificada con tablas de p\u00e1ginas compartidas, lo que significa que los chips pueden compartir un espacio de direcciones y tablas de p\u00e1ginas con aplicaciones CUDA y permite usar asignadores del sistema para asignar memoria GPU.  Tambi\u00e9n admite at\u00f3micos nativos entre la CPU y la GPU.<\/p>\n<h2 id=\"nvidia-nvlink-c2c\">Nvidia NVLink-C2C<\/h2>\n<p>Los n\u00facleos de CPU son el motor inform\u00e1tico, pero las interconexiones son el campo de batalla que definir\u00e1 el futuro de la inform\u00e1tica.  Mover datos consume m\u00e1s energ\u00eda que procesarlos realmente, por lo que mover datos de forma m\u00e1s r\u00e1pida y eficiente, o incluso evitar transferencias de datos, es un objetivo clave.<\/p>\n<p>La CPU Grace de Nvidia, que consta de dos CPU en una sola placa, y el Superchip Grace Hopper, que consta de una CPU Grace y una GPU Hopper en la misma placa, est\u00e1n dise\u00f1ados para maximizar la transferencia de datos entre las unidades a trav\u00e9s de un chip patentado NVLink. interconexi\u00f3n a chip (C2C) y para proporcionar coherencia de memoria para reducir o eliminar las transferencias de datos.<\/p>\n<div class=\"widthsetter\">\n<div class=\"articletable\">\n<table>\n<tbody>\n<tr>\n<td class=\"firstcol \">Interconectar<\/td>\n<td>Picojulios por Bit (pJ\/b)<\/td>\n<\/tr>\n<tr>\n<td class=\"firstcol \">NVLink-C2C<\/td>\n<td>1,3 pJ\/b<\/td>\n<\/tr>\n<tr>\n<td class=\"firstcol \">UCIe<\/td>\n<td>0,5 &#8211; 0,25 pJ\/b<\/td>\n<\/tr>\n<tr>\n<td class=\"firstcol \">tela infinita<\/td>\n<td>~1,5 pJ\/b<\/td>\n<\/tr>\n<tr>\n<td class=\"firstcol \">CoWoS de TSMC<\/td>\n<td>0,56 pJ\/b<\/td>\n<\/tr>\n<tr>\n<td class=\"firstcol \">Foveros<\/td>\n<td>0,2 pJ\/b<\/td>\n<\/tr>\n<tr>\n<td class=\"firstcol \">EMIB<\/td>\n<td>0,3 pJ\/b<\/td>\n<\/tr>\n<tr>\n<td class=\"firstcol \">Mont\u00f3n de cables (BoW)<\/td>\n<td>0,7 a 0,5 pJ\/b<\/td>\n<\/tr>\n<tr>\n<td class=\"firstcol \">en morir<\/td>\n<td>0,1 pJ\/b<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<\/div>\n<\/div>\n<p>Nvidia comparti\u00f3 nuevos detalles sobre su interconexi\u00f3n NVLink-C2C.  Como recordatorio, se trata de una interconexi\u00f3n de chip a chip y de matriz a matriz que admite coherencia de memoria y ofrece hasta 900 GB\/s de rendimiento (7 veces el ancho de banda de un enlace PCIe 5.0 x16).  Esta interfaz usa el protocolo NVLink, y Nvidia dise\u00f1\u00f3 la interfaz usando sus tecnolog\u00edas de dise\u00f1o SERDES y LINK con un enfoque en la eficiencia energ\u00e9tica y de \u00e1rea.  Sin embargo, NVLink-C2C tambi\u00e9n admite protocolos est\u00e1ndar de la industria como CXL y la interfaz de concentrador coherente AMBA de Arm (CHI, clave para la malla Neoverse CMN-700).  Tambi\u00e9n admite varios tipos de conexiones que van desde interconexiones basadas en PCB hasta intercaladores de silicio e implementaciones a escala de obleas.<\/p>\n<p>La eficiencia energ\u00e9tica es una m\u00e9trica clave para todas las estructuras de datos, y hoy Nvidia comparti\u00f3 que el enlace consume 1,3 picojulios por bit (pJ\/b) de datos transferidos.  Esto es 5 veces la eficiencia de la interfaz PCIe 5.0, pero es m\u00e1s del doble de la potencia de la interconexi\u00f3n UCIe que llegar\u00e1 al mercado en el futuro (0,5 a 0,25 pJ\/b).  Los tipos de paquetes var\u00edan y el enlace C2C proporciona a Nvidia una combinaci\u00f3n s\u00f3lida de rendimiento y eficiencia para su caso de uso espec\u00edfico, pero como puede ver en la tabla anterior, las opciones m\u00e1s avanzadas brindan niveles m\u00e1s altos de eficiencia energ\u00e9tica.<\/p>\n<h2 id=\"nvidia-grace-cpu-benchmarks\">Puntos de referencia de la CPU Nvidia Grace<\/h2>\n<p>Nvidia comparti\u00f3 m\u00e1s puntos de referencia de rendimiento, pero al igual que con todos los datos de rendimiento proporcionados por los proveedores, debe tomar estos n\u00fameros con cautela.  Estos puntos de referencia tambi\u00e9n vienen con la advertencia adicional de que se realizan antes del silicio, lo que significa que son proyecciones emuladas que a\u00fan no se han probado con silicio real y est\u00e1n \u00absujetas a cambios\u00bb.  Como tal, espolvorea un poco de sal extra. <\/p>\n<p>El nuevo punto de referencia de Nvidia aqu\u00ed es la puntuaci\u00f3n de 370 con una sola CPU Grace en el punto de referencia SpecIntRate 2017.  Esto coloca a los chips justo en el rango que esperar\u00edamos: Nvidia ya ha compartido un punto de referencia de m\u00faltiples CPU, reclamando una puntuaci\u00f3n de 740 para <em>dos<\/em> CPU Grace en el banco de pruebas SpecIntRate2017.  Obviamente, esto sugiere una mejora de escala lineal con dos chips. <\/p>\n<p>Los chips EPYC Milan de generaci\u00f3n actual de AMD, el actual l\u00edder en rendimiento en el centro de datos, han publicado resultados SPEC que oscilan entre 382 y 424 cada uno, lo que significa que los chips x86 de gama m\u00e1s alta seguir\u00e1n liderando.  Sin embargo, la soluci\u00f3n de Nvidia tendr\u00e1 muchas otras ventajas, como la eficiencia energ\u00e9tica y un dise\u00f1o m\u00e1s compatible con GPU.<\/p>\n<p>Nvidia comparti\u00f3 sus puntos de referencia de rendimiento de la memoria, que muestran que la CPU Grace puede proporcionar ~500 GB\/s de rendimiento en las pruebas de rendimiento de la memoria de la CPU.  Nvidia tambi\u00e9n afirma que el chip tambi\u00e9n puede impulsar hasta 506 GB\/s de rendimiento combinado de lectura\/escritura a una GPU Hopper adjunta, y registr\u00f3 el ancho de banda de CPU a GPU a 429 GB\/s durante las pruebas de rendimiento de lectura y 407 GB\/s con escrituras. . <\/p>\n<h2 id=\"grace-hopper-is-arm-system-ready\">Grace Hopper est\u00e1 listo para el sistema de brazo<\/h2>\n<p>Nvidia tambi\u00e9n anunci\u00f3 que Grace CPU Superchip cumplir\u00e1 con los requisitos necesarios para obtener la certificaci\u00f3n System Ready.  Esta certificaci\u00f3n significa que un chip Arm &#8216;simplemente funcionar\u00e1&#8217; con los sistemas operativos y el software, lo que facilitar\u00e1 la implementaci\u00f3n.  Grace tambi\u00e9n admitir\u00e1 extensiones de virtualizaci\u00f3n, incluida la virtualizaci\u00f3n anidada y la compatibilidad con S-EL2.  Nvidia tambi\u00e9n enumera soporte para lo siguiente:<\/p>\n<ul>\n<li>RAS v1.1 Controlador de interrupci\u00f3n gen\u00e9rico (GIC) v4.1 <\/li>\n<li>Supervisi\u00f3n y partici\u00f3n de memoria (MPAM) <\/li>\n<li>Unidad de administraci\u00f3n de memoria del sistema (SMMU) v3.1<\/li>\n<li>Arm Server Base System Architecture (SBSA) para permitir interfaces de hardware y software compatibles con los est\u00e1ndares.  Adem\u00e1s, para habilitar los flujos de arranque est\u00e1ndar en los sistemas basados \u200b\u200ben CPU Grace, la CPU Grace se ha dise\u00f1ado para admitir los requisitos de arranque base del servidor Arm (SBBR).<\/li>\n<li>Para la partici\u00f3n de cach\u00e9 y ancho de banda, as\u00ed como la supervisi\u00f3n del ancho de banda, Grace CPU tambi\u00e9n es compatible con Arm Memory Partitioning and Monitoring (MPAM).  Grace CPU tambi\u00e9n incluye unidades de monitoreo de rendimiento Arm, lo que permite monitorear el rendimiento de los n\u00facleos de la CPU, as\u00ed como otros subsistemas en la arquitectura de sistema en un chip (SoC).  Esto permite que se utilicen herramientas est\u00e1ndar, como Linux perf, para investigaciones de rendimiento.<\/li>\n<\/ul>\n<p>La CPU Grace y el superchip Grace Hopper de Nvidia est\u00e1n en camino para su lanzamiento a principios de 2023, con la variante Hopper orientada al entrenamiento de IA, inferencia y HPC, mientras que los sistemas Grace de doble CPU est\u00e1n dise\u00f1ados para cargas de trabajo de computaci\u00f3n en la nube y HPC. <\/p>\n<\/div>\n<p><br \/>\n<br \/><a href=\"https:\/\/magazineoffice.com\/\">Source link-41<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Nvidia anunci\u00f3 nuevos detalles sobre su Grace CPU Superchip antes de su presentaci\u00f3n Hot Chips 34 la pr\u00f3xima semana, revelando que los chips vienen fabricados en el proceso 4N. Nvidia&hellip;<\/p>\n","protected":false},"author":1,"featured_media":107475,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[21393,194,4379,15340,6531,16411,22323,843,3446,36997,23456],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/107474"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=107474"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/107474\/revisions"}],"predecessor-version":[{"id":107476,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/107474\/revisions\/107476"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/107475"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=107474"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=107474"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=107474"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}