Las GPU NVIDIA impulsan el modelo Llama 3 de próxima generación de Meta, IA optimizada en todas las plataformas, incluido RTX


NVIDIA ha anunciado que los LLM Llama 3 de Meta se crearon con GPU NVIDIA y están optimizados para ejecutarse en todas las plataformas, desde servidores hasta PC.

Los LLM de IA Llama 3 de próxima generación de Meta ya están aquí y NVIDIA es la fuerza impulsora detrás de ellos, soporte optimizado en PC en la nube, perimetrales y RTX

Presione soltar: NVIDIA anunció hoy optimizaciones en todas sus plataformas para acelerar Meta Llama 3, la última generación del modelo de lenguaje grande (LLM). El modelo abierto combinado con la computación acelerada de NVIDIA equipa a desarrolladores, investigadores y empresas para innovar de manera responsable en una amplia variedad de aplicaciones.

Capacitado en IA de NVIDIA

Los metaingenieros entrenaron a Llama 3 en un grupo de computadoras que incluye 24,576 GPU H100 Tensor Core, conectadas con una red Quantum-2 InfiniBand. Con el apoyo de NVIDIA, Meta ajustó sus arquitecturas de red, software y modelos para su LLM insignia.

Para avanzar aún más en el estado del arte en IA generativa, Meta describió recientemente sus planes para escalar su infraestructura a 350.000 GPU H100.

Poniendo a Llama 3 a trabajar

Las versiones de Llama 3, aceleradas en GPU NVIDIA, están disponibles hoy para su uso en la nube, el centro de datos, el perímetro y la PC.

Fuente de la imagen: Wccftech (generada por IA)

Las empresas pueden ajustar Llama 3 con sus datos utilizando NVIDIA NeMo, un marco de código abierto para LLM que forma parte de la plataforma segura y compatible con NVIDIA AI Enterprise. Los modelos personalizados se pueden optimizar para la inferencia con NVIDIA TensorRT-LLM e implementar con Triton Inference Server.

Llevando Llama 3 a dispositivos y PC

Llama 3 también se ejecuta en Jetson Orin para robótica y dispositivos informáticos de vanguardia, creando agentes interactivos como los del Jetson AI Lab. Además, las GPU RTX y GeForce RTX para estaciones de trabajo y PC aceleran la inferencia en Llama 3. Estos sistemas ofrecen a los desarrolladores un objetivo de más de 100 millones de sistemas acelerados por NVIDIA en todo el mundo.

Obtenga un rendimiento óptimo con Llama 3

Las mejores prácticas al implementar un LLM para un chatbot implican un equilibrio entre baja latencia, buena velocidad de lectura y uso óptimo de GPU para reducir costos. Un servicio de este tipo necesita entregar tokens (el equivalente aproximado de palabras para un LLM) a aproximadamente el doble de la velocidad de lectura del usuario, que es de aproximadamente 10 tokens/segundo.

Aplicando estas métricas, una sola GPU NVIDIA H200 Tensor Core generó alrededor de 3000 tokens/segundo (suficiente para atender a unos 300 usuarios simultáneos) en una prueba inicial utilizando la versión de Llama 3 con 70 mil millones de parámetros. Eso significa que un único servidor NVIDIA HGX con ocho GPU H200 podría entregar 24.000 tokens/segundo, optimizando aún más los costos al admitir a más de 2.400 usuarios al mismo tiempo.

Para dispositivos de borde, la versión de Llama 3 con ocho mil millones de parámetros generó hasta 40 tokens/segundo en Jetson AGX Orin y 15 tokens/segundo en Jetson Orin Nano.

Avanzando en los modelos comunitarios

NVIDIA, un colaborador activo de código abierto, se compromete a optimizar el software comunitario que ayuda a los usuarios a abordar sus desafíos más difíciles. Los modelos de código abierto también promueven la transparencia de la IA y permiten a los usuarios compartir ampliamente el trabajo sobre la seguridad y la resiliencia de la IA.

Comparte esta historia

Facebook

Gorjeo



Source link-29