TensorRTLLM – Magazine Office

Ganancia de hasta 3 veces en GenAI con TensorRT-LLM

John — Thu, 28 Mar 2024 12:24:31 +0000

NVIDIA continúa ampliando los límites de la IA con su sólida suite TensorRT-LLM, impulsando las GPU H200 a nuevas alturas en los últimos resultados de MLPerf v4.0.

Blackwell ya está aquí, pero NVIDIA continúa impulsando las GPU Hopper H100 y H200 AI con nuevas optimizaciones TensorRT-LLM para obtener una ganancia de hasta 3 veces en MLPerf v4.0

La IA generativa o GenAI es un mercado emergente y todos los fabricantes de hardware están tratando de quedarse con su porción del pastel. Pero a pesar de sus mejores esfuerzos, es NVIDIA la que hasta ahora se ha llevado la mayor parte de la participación y no hay nada que pueda detener al gigante verde, ya que ha mostrado algunos puntos de referencia y registros absolutamente sólidos dentro de los resultados de inferencia de MLPerf v4.0.

El ajuste de TensorRT-LLM ha estado en curso desde que se lanzó el paquete de software AI el año pasado. Vimos un aumento importante en el rendimiento con los resultados anteriores de MLPerf v3.1 y ahora, con MLPerf v4.0, NVIDIA está potenciando el rendimiento de Hopper. La razón por la que la inferencia es importante es porque representa el 40% de los ingresos del centro de datos (generados el año pasado). Las cargas de trabajo de inferencia van desde LLM (modelos de lenguajes grandes), contenido visual y recomendadores. A medida que estos modelos aumentan de tamaño, aumenta la complejidad y la necesidad de contar con hardware y software potentes.

Es por eso que TensorRT-LLM existe como un compilador de inferencia de última generación diseñado conjuntamente con las arquitecturas de GPU de NVIDIA. Algunas características de TensorRT-LLM incluyen:

Procesamiento por lotes de secuencias en vuelo (optimiza la utilización de la GPU)
Gestión de caché KV (mayor utilización de memoria de GPU)
Atención generalizada (kernel XQA)
Multi-GPU Multi-Nodo (Tensor y Pipeline Paralelo)
Cuantización FP8 (mayor rendimiento y ajuste a modelos más grandes)

Utilizando las últimas optimizaciones de TensorRT-LLM, NVIDIA ha logrado obtener un rendimiento adicional de 2,9 veces para sus GPU Hopper (como la H100) en MLPerf v4.0 frente a MLPerf v3.1. En los resultados de referencia de hoy, NVIDIA ha establecido nuevos récords de rendimiento en MLPerf Llama 2 (70 mil millones) con hasta 31,712 tokens generados por segundo en el H200 (vista previa) y 21,806 tokens generados por segundo en el H100.

Cabe mencionar que la GPU H200 fue evaluada hace aproximadamente un mes, por lo que se menciona en el estado de vista previa, pero NVIDIA ha declarado que ya están probando las GPU a los clientes y las enviarán en el segundo trimestre.

La GPU NVIDIA H200 logra ofrecer una ganancia de rendimiento adicional del 45 % en Llama 2 en comparación con las GPU H100 gracias a su mayor configuración de memoria de 141 GB HBM3E y un ancho de banda más rápido de hasta 4,8 TB/s. Mientras tanto, el H200 es un gigante frente al Gaudi 2 de Intel, la única otra solución de la competencia presentada dentro de los puntos de referencia MLPerf v4.0, mientras que el H100 también tiene una ganancia masiva de 2,7 veces.

Además de estos, un sistema de GPU NVIDIA HGX H200 de 8 GPU superó el punto de referencia Stable Diffusion XL, logrando 13,8 consultas/segundo y 13,7 muestras/segundo en escenarios de servidor y fuera de línea, respectivamente.

La cosa no termina ahí, si bien el H200 es compatible con las plataformas H100, también existe una variante de diseño térmico personalizado del H200 en forma de plataforma MGX (GPU+CPU+DPU) que puede aumentar el TDP hasta 1000W. para un rendimiento hasta un 14 % mayor que la variante estándar refrigerada por aire. Las soluciones personalizadas están disponibles en fabricantes de equipos originales como ASRock Rack, ASUS, Gigabyte, Pegatron, QCT y Supermicro. Además, también se espera que las GPU H200 AI estén disponibles en una amplia lista de socios CSP y OEM de NVIDIA.

Las GPU Hopper H200 de NVIDIA se entregan con TDP base de 700 W y diseños personalizados de hasta 1000 W. Las GPU Blackwell vienen en configuraciones de 700W (B100) y 1000/1200W (B200). Hablando de las GPU Blackwell, NVIDIA confirmó que solo las GPU B100 serán compatibles con los sistemas Hopper, mientras que las GPU B200 requerirán un chasis y un diseño de sistema completamente diferentes. Los primeros sistemas Blackwell se enviarán al mercado a finales de este año, por lo que podemos esperar resultados en MLPerf en futuras presentaciones.

Source link-29

«Chat With RTX» de NVIDIA es un chatbot de IA localizado para PC con Windows con tecnología TensorRT-LLM y disponible de forma gratuita en todas las GPU RTX 30 y 40

John — Wed, 14 Feb 2024 04:46:02 +0000

Ampliando su ecosistema de IA, NVIDIA ha presentado «Chat with RTX», un chatbot para PC con Windows impulsado por TensorRT-LLM y disponible de forma gratuita en las últimas GPU RTX.

NVIDIA quiere reemplazar ChatGPT con su propio chatbot de IA «Chat With RTX» disponible localmente y de forma gratuita en las GPU RTX 30 y 40

La utilidad del chatbot «Chat with RTX» es muy simple, está diseñado como un sistema localizado lo que significa que tendrás un chatbot GPT personalizado disponible todo el tiempo en tu PC sin necesidad de conectarte. El chat con RTX se puede personalizar completamente utilizando un conjunto de datos que está disponible localmente en su PC y la mejor parte es que se ejecuta en casi todas las GPU RTX 40 y RTX 30.

Fuente de la imagen: NVIDIA

Comenzando con los detalles, Chat with RTX aprovecha el software TensorRT-LLM y Retrieval Augmented Generated (RAG) de NVIDIA que se anunció para PC con Windows el año pasado y aprovecha al máximo la aceleración RTX disponible en el hardware RTX para brindar la mejor experiencia posible a los usuarios. Una vez más, la aplicación es compatible con todas las GPU GeForce RTX 30 y 40 con al menos 8 GB de memoria de video.

Después de descargar «Chat with RTX» de forma gratuita, los usuarios pueden conectarlo a un conjunto de datos local disponible en la PC (.txt, .pdf, .doc, .docx, .xml) y conectarlo a un modelo de lenguaje grande como Mistral y Llama 2. También puedes agregar URL específicas, por ejemplo, para videos de YouTube o listas de reproducción completas para mejorar aún más los resultados de búsqueda del conjunto de datos. Después de conectarse, los usuarios pueden usar Chat With RTX de la misma manera que usarían ChatGPT ejecutando diferentes consultas, pero los resultados generados se basarán completamente en el conjunto de datos específico, lo que le brindará mejores respuestas en comparación con los métodos en línea.

Tener una GPU NVIDIA RTX compatible con TensorRT-LLM significa que tendrá todos sus datos y proyectos disponibles localmente en lugar de guardarlos en la nube. Esto ahorraría tiempo y ofrecería resultados más precisos. RAG o Retrieval Augamanted Generation es una de las técnicas utilizadas para acelerar los resultados de la IA mediante el uso de una biblioteca localizada que se puede completar con el conjunto de datos que desea que revise el LLM y luego aprovechar las capacidades de comprensión del lenguaje de ese LLM para brindarle información precisa. resultados.

NVIDIA afirma un aumento de rendimiento 5 veces mayor con TensorRT-LLM v0.6.0, que estará disponible a finales de este mes. Además, también permitirá la compatibilidad con LLM adicionales como Mistral 7B y Nemotron 3 8B.

Puedes descargar la aplicación «Chat with RTX» de NVIDIA aquí. Es compatible con PC con Windows 11 y Windows 10 y requiere los controladores de GPU NVIDIA más recientes para un rendimiento óptimo.

Source link-29

AMD responde a los resultados de H100 TensorRT-LLM de NVIDIA y una vez más muestra que la GPU MI300X es líder con un rendimiento un 30 % mejor utilizando una pila de software de IA optimizada

John — Sat, 16 Dec 2023 11:47:43 +0000

AMD ha respondido a las cifras del H100 TensorRT-LLM de NVIDIA con el MI300X una vez más liderando las pruebas de IA cuando se ejecuta software optimizado.

AMD y NVIDIA están inmersos en una feroz batalla en la que ambos fabricantes de GPU afirman que la IA es superior entre sí utilizando pilas de software optimizadas para los chips H100 y MI300X.

Hace dos días, NVIDIA publicó nuevos puntos de referencia de sus GPU Hopper H100 para mostrar que sus chips funcionan mucho mejor que lo mostrado por AMD durante su evento «Advancing AI». El equipo rojo comparó su nueva GPU Instinct MI300X con el chip Hopper H100, que ya tiene más de un año pero sigue siendo la opción más popular en la industria de la IA. Los puntos de referencia utilizados por AMD no utilizaban bibliotecas optimizadas como TensorRT-LLM, que proporciona un gran impulso a los chips de IA de NVIDIA.

Fuente de la imagen: AMD

El uso de TensorRT-LLM dio como resultado que la GPU Hopper H100 obtuviera un aumento de rendimiento de casi un 50% sobre la GPU Instinct MI300X de AMD. Ahora, AMD está disparando con todos los cilindros a NVIDIA al mostrar cómo el MI300X aún conserva un rendimiento más rápido que el H100 incluso cuando el Hopper H100 está ejecutando su pila de software optimizada. Según AMD, los números publicados por NVIDIA:

Usé TensorRT-LLM en H100 en lugar de vLLM usado en los puntos de referencia de AMD
Rendimiento comparado del tipo de datos FP16 en GPU AMD Instinct MI300X con el tipo de datos FP8 en H100
Se invirtieron los datos de rendimiento publicados por AMD de números de latencia relativa a rendimiento absoluto.

Entonces AMD decidió hacer una comparación más justa y con las últimas cifras, vemos que el Instinct MI300X ejecutándose en vLLM ofrece un rendimiento un 30% más rápido que el Hopper H100 ejecutándose en TensorRT-LLM.

MI300X a H100 usando vLLM para ambos.

En nuestro evento de lanzamiento a principios de diciembre, destacamos una ventaja de rendimiento de 1,4 veces para MI300X frente a H100 utilizando un tipo de datos y una configuración de biblioteca equivalentes. Con las últimas optimizaciones que hemos realizado, esta ventaja de rendimiento ha aumentado a 2,1 veces.

Seleccionamos vLLM en función de la amplia adopción por parte de la comunidad de usuarios y desarrolladores y es compatible con GPU AMD y Nvidia.

MI300X usando vLLM vs H100 usando TensorRT-LLM optimizado de Nvidia

Incluso cuando usamos TensorRT-LLM para H100 como lo describió nuestro competidor, y vLLM para MI300X, aún mostramos una mejora de 1,3 veces en la latencia.

Resultados de latencia medidos para el conjunto de datos MI300X FP16 frente a H100 utilizando el conjunto de datos TensorRT-LLM y FP8.

MI300X continúa demostrando una ventaja de rendimiento al medir la latencia absoluta, incluso cuando se utilizan FP8 y TensorRT-LLM de menor precisión para H100 frente a vLLM y el tipo de datos FP16 de mayor precisión para MI300X.

Usamos el tipo de datos FP16 debido a su popularidad y, hoy en día, vLLM no es compatible con FP8.

Estos resultados muestran nuevamente que MI300X usando FP16 es comparable a H100 con sus mejores configuraciones de rendimiento recomendadas por Nvidia incluso cuando se usa FP8 y TensorRT-LLM.

a través de AMD

Seguramente, estos números de ida y vuelta son algo inesperado, pero dada la importancia que se ha vuelto la IA para empresas como AMD, NVIDIA e Intel, podemos esperar ver más ejemplos de este tipo compartidos en el futuro. Incluso Intel ha declarado recientemente que toda la industria está motivada para poner fin al dominio CUDA de NVIDIA en la industria. El hecho en este momento es que NVIDIA tiene años de experiencia en software en el segmento de IA y, si bien Instinct MI300X ofrece algunas especificaciones bestiales, pronto competirá con una solución Hopper aún más rápida en forma de H200 y las próximas GPU Blackwell B100 en 2024.

TSMC lidera la carrera de la IA al producir chips de IA de próxima generación para NVIDIA y AMD. (Fuente de la imagen: Wccftech)

Intel también está listo para lanzar sus aceleradores Gaudí 3 en 2024, lo que calentaría aún más el espacio de la IA, pero en cierto modo, esta competencia generaría una industria de la IA vibrante y más animada donde cada proveedor continúa innovando y sobresaliendo sobre el otro, ofreciendo a los clientes mejores capacidades y un rendimiento aún más rápido. NVIDIA, a pesar de no tener competencia durante años, ha seguido innovando en este segmento, y con AMD e Intel aumentando su producción y software de IA, podemos esperar que respondan con su propio hardware/software aún mejor.

Source link-29

NVIDIA TensorRT-LLM llega a Windows y brinda un enorme impulso de IA a las PC de consumo que ejecutan GPU GeForce RTX y RTX Pro

John — Wed, 18 Oct 2023 05:52:44 +0000

NVIDIA ha anunciado que TensorRT-LLM llegará pronto a Windows y traerá un gran impulso de IA a las PC que ejecutan GPU RTX.

Las PC con GPU NVIDIA RTX obtendrán un aumento gratuito del rendimiento de la IA en Windows con la próxima compatibilidad con TensorRT-LLM

En septiembre, NVIDIA anunció su modelo TensoRT-LLM para centros de datos que ofrecía una ganancia 8 veces superior a las principales GPU de IA de la industria, como Hopper H100 y Ampere A100. Aprovechando al máximo la aceleración del núcleo tensorial que ofrecen las GPU GeForce RTX y RTX Pro de NVIDIA, el último modelo ofrecerá un rendimiento hasta 4 veces más rápido en cargas de trabajo de inferencia LLM.

Anteriormente, explicamos que una de las actualizaciones más importantes que trae TensorRT-LLM es la forma de un nuevo programador conocido como procesamiento por lotes en vuelo que permite que el trabajo entre y salga de la GPU independientemente de otras tareas. Permite el procesamiento dinámico de varias consultas más pequeñas mientras procesa solicitudes grandes con uso intensivo de computación en la misma GPU. TensorRT-LLM utiliza modelos optimizados de código abierto que permiten mayores aceleraciones cuando aumentan los tamaños de lote. A partir de hoy, estos modelos optimizados de código abierto se han puesto a disposición del público y están disponibles para descargar en desarrollador.nvidia.com.

La aceleración de IA agregada con el modelo TensorRT-LLM ayudará a impulsar diversas tareas de productividad diaria, como participar en chats, resumir documentos y contenido web, redactar correos electrónicos y blogs, y también se puede usar para analizar datos y generar grandes cantidades de contenido usando lo que está disponible para el modelo.

Entonces, ¿cómo ayudará TensorRT-LLM a las PC de consumo que ejecutan Windows? Bueno, en una demostración mostrada por NVIDIA, se mostró una comparación entre un modelo LLM previamente entrenado de código abierto como LLaMa-2 y TensorRT-LLM. Cuando se pasa una consulta a LLaMa-2, recopilará información de un gran conjunto de datos generalizados como Wikipedia, por lo que no tendrán información actualizada después de haber sido entrenados ni conjuntos de datos de dominios específicos que no tenían. entrenado en. Seguramente tampoco conocerán ningún conjunto de datos almacenado en sus dispositivos o sistemas personalizados. Por lo tanto, no obtendrá los datos específicos que está buscando.

Hay dos enfoques para resolver este problema, uno es el ajuste fino donde el LLM se optimiza en torno a un conjunto de datos específico, pero eso lleva mucho tiempo dependiendo del tamaño del conjunto de datos. El otro enfoque es RAG o Retrieval Augamanted Generation, que utiliza una biblioteca localizada que se puede completar con el conjunto de datos que desea que revise el LLM y luego aprovechar las capacidades de comprensión del lenguaje de ese LLM para brindarle la información que solo proviene de ese conjunto de datos. .

En el ejemplo, se hace una pregunta relacionada con las integraciones tecnológicas de NVIDIA dentro de Alan Wake 2 para las cuales el modelo estándar LLaMa 2 no puede encontrar los resultados adecuados, pero el otro modelo con TensorRT-LLM, que recibe datos de 30 artículos de GeForce News en el repositorio local puede proporcionar la información requerida sin ningún problema. Entonces TensorRT-LLM proporciona una respuesta relevante y también lo hace más rápido que el modelo LLaMa-2. Además, NVIDIA también confirmó que puede utilizar TenosrRT-LLM para acelerar casi cualquier modelo. Este es solo uno de los muchos casos de uso en los que NVIDIA TensorRT-LLM puede aprovechar la IA para ofrecer experiencias de PC más rápidas y productivas en Windows, así que estad atentos a más anuncios en el futuro.

Source link-29

NVIDIA TensorRT-LLM mejora enormemente los modelos de lenguajes grandes, con una ganancia de hasta 8 veces en las GPU Hopper

John — Sun, 10 Sep 2023 07:26:54 +0000

NVIDIA anuncia hoy una nueva pila de software de inteligencia artificial conocida como TensorRT LLM que aumenta el rendimiento de los modelos de lenguajes grandes en sus GPU.

NVIDIA TensorRT-LLM ofrece una ganancia de hasta 8 veces en el rendimiento del modelo de lenguaje grande en las GPU Hopper AI

TensorRT-LLM de NVIDIA se anuncia como una biblioteca de código abierto altamente optimizada que permite el rendimiento de inferencia más rápido en todos los modelos de lenguajes grandes con las GPU de IA de NVIDIA como Hopper. NVIDIA ha trabajado con todos los LLM dentro de la comunidad de código abierto para optimizar sus GPU mediante la utilización de los últimos núcleos de IA con técnicas de vanguardia como SmoothQuant, FlashAttention y fMHA. La base de código abierto incluye versiones optimizadas para inferencia SOTA listas para ejecutar de LLM como GPT-3 (175B), Llama Falcom (180B) y Bloom, solo por nombrar algunos.

TensorRT-LLM también está optimizado para realizar paralelización automática en múltiples servidores NVLINK con interconexión Infiniband. Anteriormente, a los servidores se les debía asignar manualmente un modelo de lenguaje grande en múltiples servidores/GPU, lo que ya no debería ser el caso con Tensor-RT LLM.

Una de las actualizaciones más importantes que trae TensorRT-LLM es la forma de un nuevo programador conocido como procesamiento por lotes en vuelo que permite que el trabajo entre y salga de la GPU independientemente de otras tareas. Permite el procesamiento dinámico de varias consultas más pequeñas mientras procesa solicitudes grandes con uso intensivo de computación en la misma GPU. Todo este proceso hace que la GPU sea más eficiente y genera enormes ganancias en el rendimiento de GPU como la H100, hasta el doble para ser exactos.

La pila TensorRT-LLM también está optimizada en torno al motor Transformer de Hopper y sus capacidades informáticas FP8. La biblioteca ofrece conversión automática de FP8, un compilador DL para fusión de kernel y un optimizador de precisión mixta junto con soporte para el algoritmo Smoothquaint propio de NVIDIA que permite un rendimiento de cuantificación de 8 bits sin pérdida de precisión.

En cuanto a las cifras de rendimiento, NVIDIA compara el rendimiento del A100 con el H100 en agosto y el rendimiento del H100 con TensorRT-LLM. En GPT-J 6B (Inferencia), el H100 ya ofrecía una ganancia de 4x, pero con TensorRT-LLM, la compañía duplica el rendimiento, lo que lleva a una ganancia de 8x en esta prueba específica. En Llama2, vemos una ganancia de hasta 5x con TensorRT LLM y casi una ganancia de 2x sobre el H100 estándar sin TensorRT-LLM.

NVIDIA afirma que están trabajando con todas las cargas de trabajo de inferencia líderes, como Meta, Grammarly, Deci, anyscale, etc. para acelerar sus LLM utilizando TensorRT-LLM. En cuanto a la disponibilidad, TensorRT-LLM está disponible en acceso temprano ahora y se espera un lanzamiento completo el próximo mes. En cuanto al soporte, TensorRT-LLM será compatible con todas las GPU de inteligencia artificial y centros de datos de NVIDIA que están en producción actualmente, como A100, H100, L4, L40, L40S, HGX, Grace Hopper, etc.

Source link-29