NVIDIA ha acelerado recientemente los desarrollos para optimizar los LLM estándar de la industria con sus GPU RTX con inteligencia artificial, a medida que la empresa ahora mejora el modelo Gemma de vanguardia de Google.
NVIDIA mejora TensorRT-LLM y múltiples recursos de software para brindar un rendimiento rentable con sus GPU AI y RTX
[Press Release]: NVIDIA, en colaboración con Google, lanzó hoy optimizaciones en todas las plataformas de IA de NVIDIA para Gemma, los nuevos modelos de lenguaje abierto ligeros de 2 mil millones y 7 mil millones de parámetros de última generación de Google que se pueden ejecutar en cualquier lugar, lo que reduce costos y acelera Trabajo innovador para casos de uso de dominios específicos.
Los equipos de las empresas trabajaron en estrecha colaboración para acelerar el rendimiento de Gemma, creado a partir de la misma investigación y tecnología utilizada para crear los modelos Gemini, con NVIDIA TensorRT-LLM, una biblioteca de código abierto para optimizar la inferencia de modelos de lenguaje grandes, cuando se ejecuta en NVIDIA. GPU en el centro de datos, en la nube y en PC con GPU NVIDIA RTX.
Esto permite a los desarrolladores apuntar a la base instalada de más de 100 millones de GPU NVIDIA RTX disponibles en PC con IA de alto rendimiento en todo el mundo.
Los desarrolladores también pueden ejecutar Gemma en las GPU NVIDIA en la nube, incluidas las instancias A3 de Google Cloud basadas en la GPU H100 Tensor Core y, próximamente, las GPU H200 Tensor Core de NVIDIA, con 141 GB de memoria HBM3e a 4,8 terabytes por segundo, que Google implementará en este año.
Los desarrolladores empresariales también pueden aprovechar el rico ecosistema de herramientas de NVIDIA, incluido NVIDIA AI Enterprise con el marco NeMo y TensorRT-LLM, para ajustar Gemma e implementar el modelo optimizado en su aplicación de producción.
Gemma viene a chatear con RTX
Próximamente se agregará soporte para Gemma Chat with RTX, una demostración técnica de NVIDIA que utiliza generación de recuperación aumentada y el software TensorRT-LLM para brindar a los usuarios capacidades de IA generativa en sus PC Windows locales con tecnología RTX. Chat with RTX permite a los usuarios personalizar un chatbot con sus datos conectando fácilmente archivos locales en una PC a un modelo de lenguaje grande.
Dado que el modelo se ejecuta localmente, proporciona resultados rápidamente y los datos del usuario permanecen en el dispositivo. En lugar de depender de servicios LLM basados en la nube, Chat with RTX permite a los usuarios procesar datos confidenciales en una PC local sin la necesidad de compartirlos con un tercero o tener una conexión a Internet.
[Journalist Note]: La optimización de Gemma de Google tiene un factor bastante interesante, y es que NVIDIA ha introducido mejoras para hacer que el modelo también esté más optimizado para sus GPU RTX de consumo, lo que es un excelente paso para permitir a los desarrolladores trabajar sin la necesidad de alta gama. equipos como GPU AI dedicadas.
Este aspecto ha sido debatido en los tiempos modernos, ya que se percibía que los fabricantes están cambiando el lado del «desarrollo» hacia GPU específicas debido a la inexistencia de bibliotecas y recursos adecuados para los desarrolladores, pero parece que NVIDIA está tratando de involucrar a todos. aquí, lo cual es un paso muy apreciado.
Fuente de noticias: Blog de NVIDIA