NVIDIA agrega soporte para la API Chat de OpenAI a sus últimas GPU. He aquí por qué es tan importante.


Lo que necesitas saber

  • TensorRT-LLM está agregando compatibilidad con Chat API de OpenAI para computadoras de escritorio y portátiles con GPU RTX a partir de 8 GB de VRAM.
  • Los usuarios pueden procesar consultas de LLM más rápido y localmente sin cargar conjuntos de datos a la nube.
  • NVIDIA combina esto con la «Generación aumentada de recuperación» (RAG), lo que permite casos de uso de LLM más personalizados.

Durante la conferencia Ignite de Microsoft hoy, NVIDIA anunció una actualización de su TensorRT-LLM, que lanzado en octubre. Los principales anuncios de hoy son que la función TensorRT-LLM ahora está ganando soporte para las API de LLM, específicamente OpenAI Chat API, que es la más conocida en este momento, y también que han trabajado para mejorar el rendimiento con TensorRT-LLM para obtener mejor rendimiento por token en sus GPU.

Hay un anuncio terciario que es bastante interesante también. NVIDIA incluirá la generación aumentada de recuperación con TensorRT-LLM. Esto permite a un LLM utilizar una fuente de datos externa para su base de conocimientos en lugar de depender de cualquier cosa en línea, una característica muy demandada para la IA.

¿Qué es TensorRT-LLM?

LEER MÁS DE IGNITE 2023





Source link-40