{"id":557322,"date":"2023-04-05T19:55:53","date_gmt":"2023-04-05T19:55:53","guid":{"rendered":"https:\/\/magazineoffice.com\/nvidia-el-rendimiento-de-h100-ai-mejora-hasta-en-un-54-por-ciento-con-optimizaciones-de-software\/"},"modified":"2023-04-05T19:55:58","modified_gmt":"2023-04-05T19:55:58","slug":"nvidia-el-rendimiento-de-h100-ai-mejora-hasta-en-un-54-por-ciento-con-optimizaciones-de-software","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/nvidia-el-rendimiento-de-h100-ai-mejora-hasta-en-un-54-por-ciento-con-optimizaciones-de-software\/","title":{"rendered":"Nvidia: el rendimiento de H100 AI mejora hasta en un 54 por ciento con optimizaciones de software"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div id=\"article-body\">\n<p>Nvidia acaba de publicar algunos n\u00fameros de rendimiento nuevos para su GPU de c\u00f3mputo H100 en MLPerf 3.0, la \u00faltima versi\u00f3n de un importante punto de referencia para cargas de trabajo de aprendizaje profundo.  El procesador Hopper H100 no solo supera a su predecesor A100 en las mediciones de tiempo de entrenamiento, sino que est\u00e1 ganando rendimiento gracias a las optimizaciones de software.  Adem\u00e1s, Nvidia tambi\u00e9n revel\u00f3 las primeras comparaciones de rendimiento de su GPU de c\u00f3mputo compacta L4 compacta con su predecesora, la GPU T4.<\/p>\n<p>Nvidia public\u00f3 por primera vez los resultados de la prueba H100 obtenidos en el benchmark MLPerf 2.1 en septiembre de 2022, revelando que su GPU de c\u00f3mputo insignia puede vencer a su predecesor A100 hasta 4.3\u20134.4 veces en varias cargas de trabajo de inferencia.  Los n\u00fameros de rendimiento recientemente publicados obtenidos en MLPerf 3.0 no solo confirman que el H100 de Nvidia es m\u00e1s r\u00e1pido que su A100 (no es de extra\u00f1ar), sino que reafirma que tambi\u00e9n es tangiblemente m\u00e1s r\u00e1pido que el procesador Xeon Platinum 8480+ (Sapphire Rapids) recientemente lanzado de Intel, as\u00ed como el procesador de NeuChips. ReccAccel N3000 y las soluciones Cloud AI 100 de Qualcomm en una gran cantidad de cargas de trabajo<\/p>\n<p>Estas cargas de trabajo incluyen clasificaci\u00f3n de im\u00e1genes (ResNet 50 v1.5), procesamiento de lenguaje natural (BERT Large), reconocimiento de voz (RNN-T), im\u00e1genes m\u00e9dicas (3D U-Net), detecci\u00f3n de objetos (RetinaNet) y recomendaci\u00f3n (DLRM).  Nvidia destaca que sus GPU no solo son m\u00e1s r\u00e1pidas, sino que tienen un mejor soporte en toda la industria de ML: algunas de las cargas de trabajo fallaron en las soluciones de la competencia.<\/p>\n<figure class=\"van-image-figure inline-layout\" data-bordeaux-image-check=\"\">\n<div class=\"image-full-width-wrapper\">\n<div class=\"image-widthsetter\" style=\"max-width:3300px;\">\n<p class=\"vanilla-image-block\" style=\"padding-top:52.91%;\"><picture><source type=\"image\/webp\" alt=\"Nvidia\" class=\"expandable lazy-image-van\" onerror=\"if(this.src &amp;&amp; this.src.indexOf('missing-image.svg') !== -1)return true;;this.parentNode.replaceChild(window.missingImage(),this)\" data-normal=\"https:\/\/vanilla.futurecdn.net\/tomshardware\/media\/img\/missing-image.svg\" data-srcset=\"https:\/\/cdn.mos.cms.futurecdn.net\/6VQWSgcKu7HCfYbknYuvnk-320-80.png.webp 320w, https:\/\/cdn.mos.cms.futurecdn.net\/6VQWSgcKu7HCfYbknYuvnk-480-80.png.webp 480w, https:\/\/cdn.mos.cms.futurecdn.net\/6VQWSgcKu7HCfYbknYuvnk-650-80.png.webp 650w, https:\/\/cdn.mos.cms.futurecdn.net\/6VQWSgcKu7HCfYbknYuvnk-970-80.png.webp 970w, https:\/\/cdn.mos.cms.futurecdn.net\/6VQWSgcKu7HCfYbknYuvnk-1024-80.png.webp 1024w, https:\/\/cdn.mos.cms.futurecdn.net\/6VQWSgcKu7HCfYbknYuvnk-1200-80.png.webp 1200w\" data-sizes=\"(min-width: 1000px) 970px, calc(100vw - 40px)\" data-original-mos=\"https:\/\/cdn.mos.cms.futurecdn.net\/6VQWSgcKu7HCfYbknYuvnk.png\" data-pin-media=\"https:\/\/cdn.mos.cms.futurecdn.net\/6VQWSgcKu7HCfYbknYuvnk.png\"\/><source type=\"image\/png\" alt=\"Nvidia\" class=\"expandable lazy-image-van\" onerror=\"if(this.src &amp;&amp; this.src.indexOf('missing-image.svg') !== -1)return true;;this.parentNode.replaceChild(window.missingImage(),this)\" data-normal=\"https:\/\/vanilla.futurecdn.net\/tomshardware\/media\/img\/missing-image.svg\" data-srcset=\"https:\/\/cdn.mos.cms.futurecdn.net\/6VQWSgcKu7HCfYbknYuvnk-320-80.png 320w, https:\/\/cdn.mos.cms.futurecdn.net\/6VQWSgcKu7HCfYbknYuvnk-480-80.png 480w, https:\/\/cdn.mos.cms.futurecdn.net\/6VQWSgcKu7HCfYbknYuvnk-650-80.png 650w, https:\/\/cdn.mos.cms.futurecdn.net\/6VQWSgcKu7HCfYbknYuvnk-970-80.png 970w, https:\/\/cdn.mos.cms.futurecdn.net\/6VQWSgcKu7HCfYbknYuvnk-1024-80.png 1024w, https:\/\/cdn.mos.cms.futurecdn.net\/6VQWSgcKu7HCfYbknYuvnk-1200-80.png 1200w\" data-sizes=\"(min-width: 1000px) 970px, calc(100vw - 40px)\" data-original-mos=\"https:\/\/cdn.mos.cms.futurecdn.net\/6VQWSgcKu7HCfYbknYuvnk.png\" data-pin-media=\"https:\/\/cdn.mos.cms.futurecdn.net\/6VQWSgcKu7HCfYbknYuvnk.png\"\/><\/picture><\/p>\n<\/div>\n<\/div><figcaption itemprop=\"caption description\" class=\" inline-layout\"><span class=\"credit\" itemprop=\"copyrightHolder\">(Cr\u00e9dito de la imagen: Nvidia)<\/span><\/figcaption><\/figure>\n<p>Sin embargo, hay una trampa con los n\u00fameros publicados por Nvidia.  Los proveedores tienen la opci\u00f3n de enviar sus resultados de MLPerf en dos categor\u00edas: cerrados y abiertos.  En la categor\u00eda cerrada, todos los proveedores deben ejecutar redes neuronales matem\u00e1ticamente equivalentes, mientras que en la categor\u00eda abierta pueden modificar las redes para optimizar el rendimiento de su hardware.  Los n\u00fameros de Nvidia solo reflejan la categor\u00eda cerrada, por lo que las optimizaciones que Intel u otros proveedores pueden introducir para optimizar el rendimiento de su hardware no se reflejan en los resultados de este grupo.<\/p>\n<p>Las optimizaciones de software pueden traer grandes beneficios al hardware de IA moderno, como muestra el propio ejemplo de Nvidia.  El H100 de la empresa gan\u00f3 entre un 7 % en cargas de trabajo de recomendaci\u00f3n y un 54 % en cargas de trabajo de detecci\u00f3n de objetos con MLPerf 3.0 frente a MLPerf 2.1, lo que representa una mejora considerable del rendimiento.<\/p>\n<figure class=\"van-image-figure inline-layout\" data-bordeaux-image-check=\"\">\n<div class=\"image-full-width-wrapper\">\n<div class=\"image-widthsetter\" style=\"max-width:3168px;\">\n<p class=\"vanilla-image-block\" style=\"padding-top:54.86%;\"><picture><source type=\"image\/webp\" alt=\"Nvidia\" class=\" lazy-image-van\" onerror=\"if(this.src &amp;&amp; this.src.indexOf('missing-image.svg') !== -1)return true;;this.parentNode.replaceChild(window.missingImage(),this)\" data-normal=\"https:\/\/vanilla.futurecdn.net\/tomshardware\/media\/img\/missing-image.svg\" data-srcset=\"https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk-320-80.png.webp 320w, https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk-480-80.png.webp 480w, https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk-650-80.png.webp 650w, https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk-970-80.png.webp 970w, https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk-1024-80.png.webp 1024w, https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk-1200-80.png.webp 1200w\" data-sizes=\"(min-width: 1000px) 970px, calc(100vw - 40px)\" data-original-mos=\"https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk.png\" data-pin-media=\"https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk.png\"\/><source type=\"image\/png\" alt=\"Nvidia\" class=\" lazy-image-van\" onerror=\"if(this.src &amp;&amp; this.src.indexOf('missing-image.svg') !== -1)return true;;this.parentNode.replaceChild(window.missingImage(),this)\" data-normal=\"https:\/\/vanilla.futurecdn.net\/tomshardware\/media\/img\/missing-image.svg\" data-srcset=\"https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk-320-80.png 320w, https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk-480-80.png 480w, https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk-650-80.png 650w, https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk-970-80.png 970w, https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk-1024-80.png 1024w, https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk-1200-80.png 1200w\" data-sizes=\"(min-width: 1000px) 970px, calc(100vw - 40px)\" data-original-mos=\"https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk.png\" data-pin-media=\"https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk.png\"\/><img decoding=\"async\" alt=\"nvidia\" class=\" lazy-image-van\" onerror=\"if(this.src &amp;&amp; this.src.indexOf('missing-image.svg') !== -1)return true;;this.parentNode.replaceChild(window.missingImage(),this)\" data-normal=\"https:\/\/vanilla.futurecdn.net\/tomshardware\/media\/img\/missing-image.svg\" data-srcset=\"https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk-320-80.png 320w, https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk-480-80.png 480w, https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk-650-80.png 650w, https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk-970-80.png 970w, https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk-1024-80.png 1024w, https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk-1200-80.png 1200w\" data-sizes=\"(min-width: 1000px) 970px, calc(100vw - 40px)\" src=\"https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk.png\" data-pin-media=\"https:\/\/cdn.mos.cms.futurecdn.net\/ssQNXMjNgDWwia5bKPnVtk.png\"\/><\/picture><\/p>\n<\/div>\n<\/div><figcaption itemprop=\"caption description\" class=\" inline-layout\"><span class=\"credit\" itemprop=\"copyrightHolder\">(Cr\u00e9dito de la imagen: Nvidia)<\/span><\/figcaption><\/figure>\n<p>Haciendo referencia a la explosi\u00f3n de ChatGPT y servicios similares, Dave Salvator, Director de IA, Benchmarking y Cloud, en Nvidia, escribe en una publicaci\u00f3n de blog: \u00abEn este momento iPhone de IA, el rendimiento en la inferencia es vital&#8230; El aprendizaje profundo ahora est\u00e1 siendo implementado en casi todas partes, impulsando una necesidad insaciable de rendimiento de inferencia desde las plantas de producci\u00f3n hasta los sistemas de recomendaci\u00f3n en l\u00ednea\u00bb.<\/p>\n<p>Adem\u00e1s de reafirmar que su H100 es el rey del rendimiento de inferencia en MLPerf 3.0, la compa\u00f1\u00eda tambi\u00e9n dio un adelanto del rendimiento de su GPU de c\u00f3mputo L4 basada en AD104 recientemente lanzada.<span class=\"sr-only\"> (se abre en una pesta\u00f1a nueva)<\/span>.  Esta tarjeta GPU de c\u00f3mputo con tecnolog\u00eda Ada Lovelace viene en un factor de forma de perfil bajo de una sola ranura para adaptarse a cualquier servidor, pero ofrece un rendimiento formidable: hasta 30.3 FP32 TFLOPS para c\u00f3mputo general y hasta 485 FP8 TFLOPS (con escasez ).<\/p>\n<figure class=\"van-image-figure inline-layout\" data-bordeaux-image-check=\"\">\n<div class=\"image-full-width-wrapper\">\n<div class=\"image-widthsetter\" style=\"max-width:2996px;\">\n<p class=\"vanilla-image-block\" style=\"padding-top:56.48%;\"><picture><source type=\"image\/webp\" alt=\"Nvidia\" class=\" lazy-image-van\" onerror=\"if(this.src &amp;&amp; this.src.indexOf('missing-image.svg') !== -1)return true;;this.parentNode.replaceChild(window.missingImage(),this)\" data-normal=\"https:\/\/vanilla.futurecdn.net\/tomshardware\/media\/img\/missing-image.svg\" data-srcset=\"https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk-320-80.png.webp 320w, https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk-480-80.png.webp 480w, https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk-650-80.png.webp 650w, https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk-970-80.png.webp 970w, https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk-1024-80.png.webp 1024w, https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk-1200-80.png.webp 1200w\" data-sizes=\"(min-width: 1000px) 970px, calc(100vw - 40px)\" data-original-mos=\"https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk.png\" data-pin-media=\"https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk.png\"\/><source type=\"image\/png\" alt=\"Nvidia\" class=\" lazy-image-van\" onerror=\"if(this.src &amp;&amp; this.src.indexOf('missing-image.svg') !== -1)return true;;this.parentNode.replaceChild(window.missingImage(),this)\" data-normal=\"https:\/\/vanilla.futurecdn.net\/tomshardware\/media\/img\/missing-image.svg\" data-srcset=\"https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk-320-80.png 320w, https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk-480-80.png 480w, https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk-650-80.png 650w, https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk-970-80.png 970w, https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk-1024-80.png 1024w, https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk-1200-80.png 1200w\" data-sizes=\"(min-width: 1000px) 970px, calc(100vw - 40px)\" data-original-mos=\"https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk.png\" data-pin-media=\"https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk.png\"\/><img decoding=\"async\" alt=\"nvidia\" class=\" lazy-image-van\" onerror=\"if(this.src &amp;&amp; this.src.indexOf('missing-image.svg') !== -1)return true;;this.parentNode.replaceChild(window.missingImage(),this)\" data-normal=\"https:\/\/vanilla.futurecdn.net\/tomshardware\/media\/img\/missing-image.svg\" data-srcset=\"https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk-320-80.png 320w, https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk-480-80.png 480w, https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk-650-80.png 650w, https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk-970-80.png 970w, https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk-1024-80.png 1024w, https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk-1200-80.png 1200w\" data-sizes=\"(min-width: 1000px) 970px, calc(100vw - 40px)\" src=\"https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk.png\" data-pin-media=\"https:\/\/cdn.mos.cms.futurecdn.net\/4FVKVyt8FK2PcK2KNS6zyk.png\"\/><\/picture><\/p>\n<\/div>\n<\/div><figcaption itemprop=\"caption description\" class=\" inline-layout\"><span class=\"credit\" itemprop=\"copyrightHolder\">(Cr\u00e9dito de la imagen: Nvidia)<\/span><\/figcaption><\/figure>\n<p>Nvidia solo compar\u00f3 su L4 con una de sus otras GPU compactas para centros de datos, la T4.  Esta \u00faltima se basa en la GPU TU104 con la arquitectura Turing de 2018, por lo que no sorprende que la nueva GPU sea entre 2,2 y 3,1 veces m\u00e1s r\u00e1pida que la predecesora en MLPerf 3.0, seg\u00fan la carga de trabajo.<\/p>\n<p>\u00abAdem\u00e1s del rendimiento estelar de la IA, las GPU L4 ofrecen una decodificaci\u00f3n de im\u00e1genes hasta 10 veces m\u00e1s r\u00e1pida, un procesamiento de video hasta 3,2 veces m\u00e1s r\u00e1pido y un rendimiento de representaci\u00f3n en tiempo real y gr\u00e1ficos m\u00e1s de 4 veces m\u00e1s r\u00e1pido\u00bb, escribi\u00f3 Salvator.<\/p>\n<p>Sin duda, los resultados de referencia de las GPU de c\u00f3mputo H100 y L4 de Nvidia, que ya ofrecen los principales fabricantes de sistemas y proveedores de servicios en la nube, parecen impresionantes.  A\u00fan as\u00ed, tenga en cuenta que estamos tratando con n\u00fameros de referencia publicados por la propia Nvidia en lugar de pruebas independientes.<\/p>\n<aside class=\"hawk-nest\" data-render-type=\"fte\" data-skip=\"dealsy\" data-widget-type=\"seasonal\"\/>\n<\/div>\n<p><br \/>\n<br \/><a href=\"https:\/\/magazineoffice.com\/\">Source link-41<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Nvidia acaba de publicar algunos n\u00fameros de rendimiento nuevos para su GPU de c\u00f3mputo H100 en MLPerf 3.0, la \u00faltima versi\u00f3n de un importante punto de referencia para cargas de&hellip;<\/p>\n","protected":false},"author":1,"featured_media":557323,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[9848,133,38730,882,4580,843,39622,110,3074,6877],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/557322"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=557322"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/557322\/revisions"}],"predecessor-version":[{"id":557324,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/557322\/revisions\/557324"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/557323"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=557322"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=557322"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=557322"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}