Ganancia de hasta 3 veces en GenAI con TensorRT-LLM


NVIDIA continúa ampliando los límites de la IA con su sólida suite TensorRT-LLM, impulsando las GPU H200 a nuevas alturas en los últimos resultados de MLPerf v4.0.

Blackwell ya está aquí, pero NVIDIA continúa impulsando las GPU Hopper H100 y H200 AI con nuevas optimizaciones TensorRT-LLM para obtener una ganancia de hasta 3 veces en MLPerf v4.0

La IA generativa o GenAI es un mercado emergente y todos los fabricantes de hardware están tratando de quedarse con su porción del pastel. Pero a pesar de sus mejores esfuerzos, es NVIDIA la que hasta ahora se ha llevado la mayor parte de la participación y no hay nada que pueda detener al gigante verde, ya que ha mostrado algunos puntos de referencia y registros absolutamente sólidos dentro de los resultados de inferencia de MLPerf v4.0.

El ajuste de TensorRT-LLM ha estado en curso desde que se lanzó el paquete de software AI el año pasado. Vimos un aumento importante en el rendimiento con los resultados anteriores de MLPerf v3.1 y ahora, con MLPerf v4.0, NVIDIA está potenciando el rendimiento de Hopper. La razón por la que la inferencia es importante es porque representa el 40% de los ingresos del centro de datos (generados el año pasado). Las cargas de trabajo de inferencia van desde LLM (modelos de lenguajes grandes), contenido visual y recomendadores. A medida que estos modelos aumentan de tamaño, aumenta la complejidad y la necesidad de contar con hardware y software potentes.

Es por eso que TensorRT-LLM existe como un compilador de inferencia de última generación diseñado conjuntamente con las arquitecturas de GPU de NVIDIA. Algunas características de TensorRT-LLM incluyen:

  • Procesamiento por lotes de secuencias en vuelo (optimiza la utilización de la GPU)
  • Gestión de caché KV (mayor utilización de memoria de GPU)
  • Atención generalizada (kernel XQA)
  • Multi-GPU Multi-Nodo (Tensor y Pipeline Paralelo)
  • Cuantización FP8 (mayor rendimiento y ajuste a modelos más grandes)

Utilizando las últimas optimizaciones de TensorRT-LLM, NVIDIA ha logrado obtener un rendimiento adicional de 2,9 veces para sus GPU Hopper (como la H100) en MLPerf v4.0 frente a MLPerf v3.1. En los resultados de referencia de hoy, NVIDIA ha establecido nuevos récords de rendimiento en MLPerf Llama 2 (70 mil millones) con hasta 31,712 tokens generados por segundo en el H200 (vista previa) y 21,806 tokens generados por segundo en el H100.

Cabe mencionar que la GPU H200 fue evaluada hace aproximadamente un mes, por lo que se menciona en el estado de vista previa, pero NVIDIA ha declarado que ya están probando las GPU a los clientes y las enviarán en el segundo trimestre.

La GPU NVIDIA H200 logra ofrecer una ganancia de rendimiento adicional del 45 % en Llama 2 en comparación con las GPU H100 gracias a su mayor configuración de memoria de 141 GB HBM3E y un ancho de banda más rápido de hasta 4,8 TB/s. Mientras tanto, el H200 es un gigante frente al Gaudi 2 de Intel, la única otra solución de la competencia presentada dentro de los puntos de referencia MLPerf v4.0, mientras que el H100 también tiene una ganancia masiva de 2,7 veces.

Además de estos, un sistema de GPU NVIDIA HGX H200 de 8 GPU superó el punto de referencia Stable Diffusion XL, logrando 13,8 consultas/segundo y 13,7 muestras/segundo en escenarios de servidor y fuera de línea, respectivamente.

La cosa no termina ahí, si bien el H200 es compatible con las plataformas H100, también existe una variante de diseño térmico personalizado del H200 en forma de plataforma MGX (GPU+CPU+DPU) que puede aumentar el TDP hasta 1000W. para un rendimiento hasta un 14 % mayor que la variante estándar refrigerada por aire. Las soluciones personalizadas están disponibles en fabricantes de equipos originales como ASRock Rack, ASUS, Gigabyte, Pegatron, QCT y Supermicro. Además, también se espera que las GPU H200 AI estén disponibles en una amplia lista de socios CSP y OEM de NVIDIA.

Las GPU Hopper H200 de NVIDIA se entregan con TDP base de 700 W y diseños personalizados de hasta 1000 W. Las GPU Blackwell vienen en configuraciones de 700W (B100) y 1000/1200W (B200). Hablando de las GPU Blackwell, NVIDIA confirmó que solo las GPU B100 serán compatibles con los sistemas Hopper, mientras que las GPU B200 requerirán un chasis y un diseño de sistema completamente diferentes. Los primeros sistemas Blackwell se enviarán al mercado a finales de este año, por lo que podemos esperar resultados en MLPerf en futuras presentaciones.

Comparte esta historia

Facebook

Gorjeo



Source link-29