{"id":807005,"date":"2023-09-11T17:26:07","date_gmt":"2023-09-11T17:26:07","guid":{"rendered":"https:\/\/magazineoffice.com\/nvidia-afirma-duplicar-el-rendimiento-de-inferencia-con-h100\/"},"modified":"2023-09-11T17:26:11","modified_gmt":"2023-09-11T17:26:11","slug":"nvidia-afirma-duplicar-el-rendimiento-de-inferencia-con-h100","status":"publish","type":"post","link":"https:\/\/magazineoffice.com\/nvidia-afirma-duplicar-el-rendimiento-de-inferencia-con-h100\/","title":{"rendered":"Nvidia afirma duplicar el rendimiento de inferencia con H100"},"content":{"rendered":"<p> <br \/>\n<\/p>\n<div id=\"article-body\">\n<p>Nvidia afirma que su nuevo software de c\u00f3digo abierto TensorRT-LL puede aumentar dr\u00e1sticamente el rendimiento de los modelos de lenguajes grandes (LLM) en sus GPU.  Seg\u00fan la compa\u00f1\u00eda, las capacidades de TensorRT-LL de Nvidia le permitieron duplicar el rendimiento de su GPU de c\u00f3mputo H100 en GPT-J LLM con seis mil millones de par\u00e1metros.  Es importante destacar que el software puede permitir esta mejora del rendimiento sin volver a entrenar el modelo.<\/p>\n<p>Nvidia desarroll\u00f3 TensorRT-LLM espec\u00edficamente para acelerar el rendimiento de la inferencia LLM y los gr\u00e1ficos de rendimiento proporcionados por Nvidia muestran un aumento de velocidad 2 veces mayor para su H100 debido a las optimizaciones de software apropiadas.  Una caracter\u00edstica particularmente destacada de TensorRT-LLM de Nvidia es su innovadora t\u00e9cnica de procesamiento por lotes en vuelo.  Este m\u00e9todo aborda las cargas de trabajo din\u00e1micas y diversas de los LLM, que pueden variar mucho en sus demandas computacionales. <\/p>\n<p>El procesamiento por lotes en vuelo optimiza la programaci\u00f3n de estas cargas de trabajo, lo que garantiza que los recursos de la GPU se utilicen en su m\u00e1ximo potencial.  Como resultado, las solicitudes de LLM del mundo real en las GPU H100 Tensor Core ven una duplicaci\u00f3n en el rendimiento, lo que lleva a procesos de inferencia de IA m\u00e1s r\u00e1pidos y eficientes.<\/p>\n<figure class=\"van-image-figure inline-layout\" data-bordeaux-image-check=\"\">\n<div class=\"image-full-width-wrapper\">\n<div class=\"image-widthsetter\" style=\"max-width:832px;\">\n<p class=\"vanilla-image-block\" style=\"padding-top:80.05%;\"><picture><source type=\"image\/webp\" alt=\"Nvidia\" class=\"expandable lazy-image-van\" onerror=\"if(this.src &amp;&amp; this.src.indexOf('missing-image.svg') !== -1)return true;;this.parentNode.replaceChild(window.missingImage(),this)\" data-normal=\"https:\/\/vanilla.futurecdn.net\/tomshardware\/media\/img\/missing-image.svg\" data-srcset=\"https:\/\/cdn.mos.cms.futurecdn.net\/fKbKHWkbzpjDDtConcfxNj-320-80.png.webp 320w, https:\/\/cdn.mos.cms.futurecdn.net\/fKbKHWkbzpjDDtConcfxNj-480-80.png.webp 480w, https:\/\/cdn.mos.cms.futurecdn.net\/fKbKHWkbzpjDDtConcfxNj-650-80.png.webp 650w, https:\/\/cdn.mos.cms.futurecdn.net\/fKbKHWkbzpjDDtConcfxNj-970-80.png.webp 970w, https:\/\/cdn.mos.cms.futurecdn.net\/fKbKHWkbzpjDDtConcfxNj-1024-80.png.webp 1024w, https:\/\/cdn.mos.cms.futurecdn.net\/fKbKHWkbzpjDDtConcfxNj-1200-80.png.webp 1200w\" data-sizes=\"(min-width: 1000px) 970px, calc(100vw - 40px)\" data-original-mos=\"https:\/\/cdn.mos.cms.futurecdn.net\/fKbKHWkbzpjDDtConcfxNj.png\" data-pin-media=\"https:\/\/cdn.mos.cms.futurecdn.net\/fKbKHWkbzpjDDtConcfxNj.png\"\/><source type=\"image\/png\" alt=\"Nvidia\" class=\"expandable lazy-image-van\" onerror=\"if(this.src &amp;&amp; this.src.indexOf('missing-image.svg') !== -1)return true;;this.parentNode.replaceChild(window.missingImage(),this)\" data-normal=\"https:\/\/vanilla.futurecdn.net\/tomshardware\/media\/img\/missing-image.svg\" data-srcset=\"https:\/\/cdn.mos.cms.futurecdn.net\/fKbKHWkbzpjDDtConcfxNj-320-80.png 320w, https:\/\/cdn.mos.cms.futurecdn.net\/fKbKHWkbzpjDDtConcfxNj-480-80.png 480w, https:\/\/cdn.mos.cms.futurecdn.net\/fKbKHWkbzpjDDtConcfxNj-650-80.png 650w, https:\/\/cdn.mos.cms.futurecdn.net\/fKbKHWkbzpjDDtConcfxNj-970-80.png 970w, https:\/\/cdn.mos.cms.futurecdn.net\/fKbKHWkbzpjDDtConcfxNj-1024-80.png 1024w, https:\/\/cdn.mos.cms.futurecdn.net\/fKbKHWkbzpjDDtConcfxNj-1200-80.png 1200w\" data-sizes=\"(min-width: 1000px) 970px, calc(100vw - 40px)\" data-original-mos=\"https:\/\/cdn.mos.cms.futurecdn.net\/fKbKHWkbzpjDDtConcfxNj.png\" data-pin-media=\"https:\/\/cdn.mos.cms.futurecdn.net\/fKbKHWkbzpjDDtConcfxNj.png\"\/><\/picture><\/p>\n<\/div>\n<\/div><figcaption itemprop=\"caption description\" class=\" inline-layout\"><span class=\"credit\" itemprop=\"copyrightHolder\">(Cr\u00e9dito de la imagen: Nvidia)<\/span><\/figcaption><\/figure>\n<aside class=\"hawk-nest\" data-render-type=\"fte\" data-skip=\"dealsy\" data-widget-type=\"seasonal\"\/>\n<p>Nvidia dice que su TensorRT-LLM integra un compilador de aprendizaje profundo con n\u00facleos optimizados, pasos de pre y posprocesamiento y primitivas de comunicaci\u00f3n multi-GPU\/multi-nodo, asegurando que se ejecuten de manera m\u00e1s eficiente en sus GPU.  Esta integraci\u00f3n se complementa a\u00fan m\u00e1s con una API Python modular, que proporciona una interfaz f\u00e1cil de usar para los desarrolladores para aumentar a\u00fan m\u00e1s las capacidades del software y el hardware sin profundizar en lenguajes de programaci\u00f3n complejos.  Por ejemplo, MosaicML agreg\u00f3 funciones espec\u00edficas que necesitaba adem\u00e1s de TensorRT-LLM sin problemas y las integr\u00f3 en su servicio de inferencia. <\/p>\n<p>\u00abTensorRT-LLM es f\u00e1cil de usar, est\u00e1 repleto de funciones con transmisi\u00f3n de tokens, procesamiento por lotes en vuelo, atenci\u00f3n paginada, cuantificaci\u00f3n y m\u00e1s, y es eficiente\u00bb, afirm\u00f3 Naveen Rao, vicepresidente de ingenier\u00eda de Databricks.  \u00abOfrece un rendimiento de \u00faltima generaci\u00f3n para el servicio LLM utilizando GPU NVIDIA y nos permite trasladar el ahorro de costos a nuestros clientes\u00bb.<\/p>\n<figure class=\"van-image-figure inline-layout\" data-bordeaux-image-check=\"\">\n<div class=\"image-full-width-wrapper\">\n<div class=\"image-widthsetter\" style=\"max-width:832px;\">\n<p class=\"vanilla-image-block\" style=\"padding-top:80.05%;\"><picture><source type=\"image\/webp\" alt=\"Nvidia\" class=\"expandable lazy-image-van\" onerror=\"if(this.src &amp;&amp; this.src.indexOf('missing-image.svg') !== -1)return true;;this.parentNode.replaceChild(window.missingImage(),this)\" data-normal=\"https:\/\/vanilla.futurecdn.net\/tomshardware\/media\/img\/missing-image.svg\" data-srcset=\"https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj-320-80.png.webp 320w, https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj-480-80.png.webp 480w, https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj-650-80.png.webp 650w, https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj-970-80.png.webp 970w, https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj-1024-80.png.webp 1024w, https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj-1200-80.png.webp 1200w\" data-sizes=\"(min-width: 1000px) 970px, calc(100vw - 40px)\" data-original-mos=\"https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj.png\" data-pin-media=\"https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj.png\"\/><source type=\"image\/png\" alt=\"Nvidia\" class=\"expandable lazy-image-van\" onerror=\"if(this.src &amp;&amp; this.src.indexOf('missing-image.svg') !== -1)return true;;this.parentNode.replaceChild(window.missingImage(),this)\" data-normal=\"https:\/\/vanilla.futurecdn.net\/tomshardware\/media\/img\/missing-image.svg\" data-srcset=\"https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj-320-80.png 320w, https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj-480-80.png 480w, https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj-650-80.png 650w, https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj-970-80.png 970w, https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj-1024-80.png 1024w, https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj-1200-80.png 1200w\" data-sizes=\"(min-width: 1000px) 970px, calc(100vw - 40px)\" data-original-mos=\"https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj.png\" data-pin-media=\"https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj.png\"\/><img decoding=\"async\" alt=\"NVIDIA\" class=\"expandable lazy-image-van\" onerror=\"if(this.src &amp;&amp; this.src.indexOf('missing-image.svg') !== -1)return true;;this.parentNode.replaceChild(window.missingImage(),this)\" data-normal=\"https:\/\/vanilla.futurecdn.net\/tomshardware\/media\/img\/missing-image.svg\" data-srcset=\"https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj-320-80.png 320w, https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj-480-80.png 480w, https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj-650-80.png 650w, https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj-970-80.png 970w, https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj-1024-80.png 1024w, https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj-1200-80.png 1200w\" data-sizes=\"(min-width: 1000px) 970px, calc(100vw - 40px)\" src=\"https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj.png\" data-pin-media=\"https:\/\/cdn.mos.cms.futurecdn.net\/VEW4eza97W3tyxgDpzfPFj.png\"\/><\/picture><\/p>\n<\/div>\n<\/div><figcaption itemprop=\"caption description\" class=\" inline-layout\"><span class=\"credit\" itemprop=\"copyrightHolder\">(Cr\u00e9dito de la imagen: Nvidia)<\/span><\/figcaption><\/figure>\n<p>El rendimiento del H100 de Nvidia cuando se combina con TensorRT-LLM es impresionante.  En la arquitectura Hopper de NVIDIA, la GPU H100, cuando se combina con TensorRT-LLM, supera a la GPU A100 por un factor de ocho.  Adem\u00e1s, al probar el modelo Llama 2 desarrollado por Meta, TensorRT-LLM logr\u00f3 una aceleraci\u00f3n de 4,6 veces en el rendimiento de inferencia en comparaci\u00f3n con las GPU A100.  Estas cifras subrayan el potencial transformador del software en el \u00e1mbito de la inteligencia artificial y el aprendizaje autom\u00e1tico.<\/p>\n<p>Por \u00faltimo, las GPU H100, cuando se utilizan junto con TensorRT-LLM, admiten el formato FP8.  Esta capacidad permite una reducci\u00f3n en el consumo de memoria sin p\u00e9rdida en la precisi\u00f3n del modelo, lo cual es beneficioso para las empresas que tienen un presupuesto y\/o espacio en el centro de datos limitado y no pueden instalar una cantidad suficiente de servidores para ajustar sus LLM.<\/p>\n<\/div>\n<p><br \/>\n<br \/><a href=\"https:\/\/magazineoffice.com\/\">Source link-41<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Nvidia afirma que su nuevo software de c\u00f3digo abierto TensorRT-LL puede aumentar dr\u00e1sticamente el rendimiento de los modelos de lenguajes grandes (LLM) en sus GPU. Seg\u00fan la compa\u00f1\u00eda, las capacidades&hellip;<\/p>\n","protected":false},"author":1,"featured_media":759220,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[21980],"tags":[2165,133,11132,38730,92825,843,3074],"_links":{"self":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/807005"}],"collection":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/comments?post=807005"}],"version-history":[{"count":1,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/807005\/revisions"}],"predecessor-version":[{"id":807006,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/posts\/807005\/revisions\/807006"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media\/759220"}],"wp:attachment":[{"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/media?parent=807005"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/categories?post=807005"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/magazineoffice.com\/wp-json\/wp\/v2\/tags?post=807005"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}