NVIDIA TensorRT-LLM mejora enormemente los modelos de lenguajes grandes, con una ganancia de hasta 8 veces en las GPU Hopper


NVIDIA anuncia hoy una nueva pila de software de inteligencia artificial conocida como TensorRT LLM que aumenta el rendimiento de los modelos de lenguajes grandes en sus GPU.

NVIDIA TensorRT-LLM ofrece una ganancia de hasta 8 veces en el rendimiento del modelo de lenguaje grande en las GPU Hopper AI

TensorRT-LLM de NVIDIA se anuncia como una biblioteca de código abierto altamente optimizada que permite el rendimiento de inferencia más rápido en todos los modelos de lenguajes grandes con las GPU de IA de NVIDIA como Hopper. NVIDIA ha trabajado con todos los LLM dentro de la comunidad de código abierto para optimizar sus GPU mediante la utilización de los últimos núcleos de IA con técnicas de vanguardia como SmoothQuant, FlashAttention y fMHA. La base de código abierto incluye versiones optimizadas para inferencia SOTA listas para ejecutar de LLM como GPT-3 (175B), Llama Falcom (180B) y Bloom, solo por nombrar algunos.

TensorRT-LLM también está optimizado para realizar paralelización automática en múltiples servidores NVLINK con interconexión Infiniband. Anteriormente, a los servidores se les debía asignar manualmente un modelo de lenguaje grande en múltiples servidores/GPU, lo que ya no debería ser el caso con Tensor-RT LLM.

Una de las actualizaciones más importantes que trae TensorRT-LLM es la forma de un nuevo programador conocido como procesamiento por lotes en vuelo que permite que el trabajo entre y salga de la GPU independientemente de otras tareas. Permite el procesamiento dinámico de varias consultas más pequeñas mientras procesa solicitudes grandes con uso intensivo de computación en la misma GPU. Todo este proceso hace que la GPU sea más eficiente y genera enormes ganancias en el rendimiento de GPU como la H100, hasta el doble para ser exactos.

La pila TensorRT-LLM también está optimizada en torno al motor Transformer de Hopper y sus capacidades informáticas FP8. La biblioteca ofrece conversión automática de FP8, un compilador DL ​​para fusión de kernel y un optimizador de precisión mixta junto con soporte para el algoritmo Smoothquaint propio de NVIDIA que permite un rendimiento de cuantificación de 8 bits sin pérdida de precisión.

En cuanto a las cifras de rendimiento, NVIDIA compara el rendimiento del A100 con el H100 en agosto y el rendimiento del H100 con TensorRT-LLM. En GPT-J 6B (Inferencia), el H100 ya ofrecía una ganancia de 4x, pero con TensorRT-LLM, la compañía duplica el rendimiento, lo que lleva a una ganancia de 8x en esta prueba específica. En Llama2, vemos una ganancia de hasta 5x con TensorRT LLM y casi una ganancia de 2x sobre el H100 estándar sin TensorRT-LLM.

NVIDIA afirma que están trabajando con todas las cargas de trabajo de inferencia líderes, como Meta, Grammarly, Deci, anyscale, etc. para acelerar sus LLM utilizando TensorRT-LLM. En cuanto a la disponibilidad, TensorRT-LLM está disponible en acceso temprano ahora y se espera un lanzamiento completo el próximo mes. En cuanto al soporte, TensorRT-LLM será compatible con todas las GPU de inteligencia artificial y centros de datos de NVIDIA que están en producción actualmente, como A100, H100, L4, L40, L40S, HGX, Grace Hopper, etc.

Comparte esta historia

Facebook

Gorjeo



Source link-29