NVIDIA TensorRT acelera la difusión estable GenAI para todas las GPU RTX, RTX 4090 hasta 7 veces más rápido que Apple M2 Ultra


Las actualizaciones de TensorRT de NVIDIA para GPU RTX también permiten grandes mejoras en el rendimiento de las cargas de trabajo GenAI, como Stable Diffusion.

La difusión estable y GenAI se impulsan gracias a la compatibilidad con TensorRT en las GPU Gaming y Pro RTX de NVIDIA

Ya hemos detallado cómo TensorRT-LLM está brindando capacidades de IA más rápidas a Windows en hardware RTX y GenAI es otra área donde los consumidores que poseen una GPU RTX podrán ver un beneficio directo.

No es ningún secreto que las GPU de NVIDIA se encuentran entre las soluciones más populares para cargas de trabajo de difusión estable e IA generativa. Hemos visto a NVIDIA estar por delante de casi todos en este campo, pero los lanzamientos de CPU más recientes y futuros (de AMD e Intel) han comenzado a incluir una unidad NPU dedicada que puede descargar las tareas de IA de la CPU/GPU y completar el trabajo en un modo eficiente y de muy bajo consumo para la gran mayoría de usuarios.

NVIDIA afirma que es fantástico ver el impulso para acelerar la IA al infundir IA en las CPU y que se usarán principalmente para tareas livianas de IA que se ejecutan a baja potencia y la GPU será para casos de uso más exigentes. Tanto la NPU como las GPU son recursos fuera de línea y disponibles localmente, lo que proporciona baja latencia y características de localidad/privacidad de datos, mientras que los centros de datos en la nube apuntan a cargas de trabajo pesadas de IA para modelos muy grandes y uso bajo demanda. Se dice que las GPU RTX de NVIDIA ofrecen entre 20 y 100 veces más rendimiento que estas NPU.

La aceleración de TensorRT ahora está disponible para Stable Diffusion en la popular interfaz de usuario web de la distribución Automatic1111. Acelera el modelo de difusión de IA generativa hasta 2 veces más que la implementación más rápida anterior.

a través de NVIDIA

En una demostración de rendimiento de Difusión estable, NVIDIA muestra la GeForce RTX 4090 ejecutando WebUI desde Automatic 1111 y generando 27 imágenes por minuto usando la implementación de PyTorc xFormers, pero ejecutándola con TensorRT duplica el rendimiento a 52 imágenes por minuto.

NVIDIA también compara el rendimiento con el M2 Ultra de Apple (variante de 72 núcleos), que cuesta un precio base de 5000 dólares estadounidenses. Este sistema solo genera 7 imágenes por minuto utilizando el modelo CoreML. Mientras tanto, puedes construir un sistema de muy alta gama con dos GPU GeForce RTX 4090 con el mismo presupuesto.

La compañía ha anunciado que TensorRT ahora está disponible en WebUI (Automatic 1111) y se puede descargar desde GitHub.com/NVIDIA.

Comparte esta historia

Facebook

Gorjeo



Source link-29