Nvidia afirma duplicar el rendimiento de inferencia con H100


Nvidia afirma que su nuevo software de código abierto TensorRT-LL puede aumentar drásticamente el rendimiento de los modelos de lenguajes grandes (LLM) en sus GPU. Según la compañía, las capacidades de TensorRT-LL de Nvidia le permitieron duplicar el rendimiento de su GPU de cómputo H100 en GPT-J LLM con seis mil millones de parámetros. Es importante destacar que el software puede permitir esta mejora del rendimiento sin volver a entrenar el modelo.

Nvidia desarrolló TensorRT-LLM específicamente para acelerar el rendimiento de la inferencia LLM y los gráficos de rendimiento proporcionados por Nvidia muestran un aumento de velocidad 2 veces mayor para su H100 debido a las optimizaciones de software apropiadas. Una característica particularmente destacada de TensorRT-LLM de Nvidia es su innovadora técnica de procesamiento por lotes en vuelo. Este método aborda las cargas de trabajo dinámicas y diversas de los LLM, que pueden variar mucho en sus demandas computacionales.

El procesamiento por lotes en vuelo optimiza la programación de estas cargas de trabajo, lo que garantiza que los recursos de la GPU se utilicen en su máximo potencial. Como resultado, las solicitudes de LLM del mundo real en las GPU H100 Tensor Core ven una duplicación en el rendimiento, lo que lleva a procesos de inferencia de IA más rápidos y eficientes.

(Crédito de la imagen: Nvidia)



Source link-41