Gaudi – Magazine Office

Optimizado para CPU Xeon y Core Ultra, GPU Arc y aceleradores Gaudí

John — Fri, 19 Apr 2024 13:59:25 +0000

Por qué es importante: Como parte de su misión de llevar la IA a todas partes, Intel invierte en software y ecosistema de IA para garantizar que sus productos estén preparados para las últimas innovaciones en el espacio dinámico de la IA. En el centro de datos, los procesadores Gaudi y Xeon con aceleración Advanced Matrix Extension (AMX) brindan a los clientes opciones para cumplir con requisitos dinámicos y de amplio alcance.

Los procesadores Intel Core Ultra y los productos gráficos Arc brindan un vehículo de desarrollo local y una implementación en millones de dispositivos con soporte para marcos y herramientas de software integrales, incluidos PyTorch e Intel Extension para PyTorch utilizados para investigación y desarrollo local y el kit de herramientas OpenVINO para desarrollo e inferencia de modelos. .

Acerca de Llama 3 ejecutándose en Intel: Las pruebas iniciales y los resultados de rendimiento de Intel para los modelos Llama 3 8B y 70B utilizan software de código abierto, incluidos PyTorch, DeepSpeed, la biblioteca Optimum Habana e Intel Extension para PyTorch para proporcionar las últimas optimizaciones de software.

Los aceleradores Intel Gaudi 2 han optimizado el rendimiento en los modelos Llama 2 (parámetros 7B, 13B y 70B) y ahora tienen mediciones de rendimiento iniciales para el nuevo modelo Llama 3. Con la madurez del software Gaudí, Intel ejecutó fácilmente el nuevo modelo Llama 3 y generó resultados para inferencias y ajustes. Llama 3 también cuenta con el apoyo del acelerador Gaudí 3 recientemente anunciado.
Los procesadores Intel Xeon abordan cargas de trabajo exigentes de IA de extremo a extremo e Intel invierte en optimizar los resultados de LLM para reducir la latencia. Los procesadores Xeon 6 con núcleos de rendimiento (cuyo nombre en código es Granite Rapids) muestran una mejora del doble en la latencia de inferencia de Llama 3 8B en comparación con los procesadores Xeon de cuarta generación y la capacidad de ejecutar modelos de lenguaje más grandes, como Llama 3 70B, por debajo de 100 ms por token generado.
Intel Core Ultra y Arc Graphics ofrecen un rendimiento impresionante para Llama 3. En una ronda inicial de pruebas, los procesadores Core Ultra ya generan velocidades de lectura humanas más rápidas que las típicas. Además, la GPU Arc A770 tiene X^mi Aceleración de IA Matrix eXtensions (XMX) y 16 GB de memoria dedicada para proporcionar un rendimiento excepcional para cargas de trabajo de LLM.

Procesadores escalables Xeon

Intel ha estado optimizando continuamente la inferencia LLM para plataformas Xeon. Como ejemplo, en comparación con el lanzamiento de Llama 2, las mejoras del software en PyTorch e Intel Extension para PyTorch han evolucionado para ofrecer una reducción de latencia 5 veces mayor. La optimización utiliza la atención paginada y el tensor paralelo para maximizar la utilización informática disponible y el ancho de banda de la memoria. La Figura 1 muestra el rendimiento de la inferencia de Meta Llama 3 8B en la instancia AWS m7i.metal-48x, que se basa en el procesador escalable Xeon de cuarta generación.

Comparamos Meta Llama 3 en un procesador Xeon 6 con núcleos Performance (anteriormente llamado Granite Rapids) para compartir una vista previa del rendimiento. Estos números de vista previa demuestran que Xeon 6 ofrece una mejora del doble en la latencia de inferencia de Llama 3 8B en comparación con los procesadores Xeon de cuarta generación ampliamente disponibles, y la capacidad de ejecutar modelos de lenguaje más grandes, como Llama 3 70B, por debajo de 100 ms por token generado en un solo dos. servidor de socket.

Modelo	TP	Precisión	Longitud de entrada	Longitud de salida	Rendimiento	Latencia*	Lote
Meta-Llama-3-8B-Instrucción	1	fp8	2k	4k	1549.27 token/seg	7.747 EM	12
Meta-Llama-3-8B-Instrucción	1	bf16	1k	3k	469.11 token/seg	8.527 EM	4
Meta-Llama-3-70B-Instrucción	8	fp8	2k	4k	4927.31 token/seg	56,23 EM	277
Meta-Llama-3-70B-Instrucción	8	bf16	2k	2k	3574.81 token/seg	60.425 EM	216

Plataformas de clientes

En una ronda inicial de evaluación, el procesador Intel Core Ultra ya genera velocidades de lectura más rápidas que las típicas de los humanos. Estos resultados están impulsados por la GPU Arc integrada con 8 núcleos Xe, aceleración AI DP4a incluida y hasta 120 GB/s de ancho de banda de memoria del sistema. Estamos entusiasmados de invertir en optimizaciones continuas de rendimiento y eficiencia energética en Llama 3, especialmente a medida que pasamos a nuestros procesadores de próxima generación.

Con soporte el día del lanzamiento para los procesadores Core Ultra y los productos gráficos Arc, la colaboración entre Intel y Meta proporciona tanto un vehículo de desarrollo local como una implementación en millones de dispositivos. El hardware del cliente Intel se acelera a través de herramientas y marcos de software integrales, incluidos PyTorch e Intel Extension para PyTorch utilizados para investigación y desarrollo local, y OpenVINO Toolkit para implementación e inferencia de modelos.

Que sigue: En los próximos meses, Meta espera introducir nuevas capacidades, tamaños de modelos adicionales y un rendimiento mejorado. Intel continuará optimizando el rendimiento de sus productos de IA para respaldar este nuevo LLM.

Source link-29

Intel lanzará dos aceleradores de IA Gaudi 3 «específicos de China», disponibles en septiembre

John — Fri, 12 Apr 2024 16:55:38 +0000

Intel ha esbozado su plan para los futuros mercados chinos de IA, revelando el debut de dos aceleradores de IA Gaudi 3 «específicos de China», superando potencialmente a sus competidores.

Intel hará pasar un mal rato a NVIDIA y AMD en China con sus nuevas soluciones de IA Gaudi 3, potencialmente ganando una enorme tracción

Intel presentó recientemente sus tan esperados aceleradores de IA Gaudi 3, que presentaban la última arquitectura Tensor Core (quinta generación) y muchas otras características específicas orientadas a la industria de la IA.

El acelerador Gaudi 3 obtuvo una respuesta decente por parte de los mercados, ya que Intel logró ofrecer rendimiento y eficiencia en un solo paquete. Sin embargo, otro dato interesante con los últimos aceleradores de Gaudí son los planes de Intel de entrar en los mercados chinos, esta vez con una oferta más atractiva y potencialmente dominante, posicionándose en lo más alto de la región.

Fuente de la imagen: Intel

Según se informa, Intel se está preparando para dos aceleradores de IA Gaudi 3 diseñados para apuntar a los mercados chinos, y para hacerlo; la empresa tiene que adherirse a las políticas estadounidenses.

Según la lista de especificaciones generales de producto revelada por Intel, las variantes Gaudi 3 HL-328 y HL-388 están «diseñadas por la República Popular China». La lista de especificaciones muestra que la única compensación está en la reducción del TDP del acelerador, ambos con una potencia nominal de 450 W (refrigerado por aire), lo que supone una caída de casi el 50 % con respecto a las variantes normales. El resto de las especificaciones son bastante similares, incluida una memoria HBM2e de 128 GB, un ancho de banda de 3,7 TB/s y mucho más, que hemos comentado aquí.

Ahora que vemos a Intel reingresar a los mercados chinos, será interesante ver cómo se desarrolla la situación. El primer factor es si la administración estadounidense permitirá a Intel vender los nuevos aceleradores, incluso si cumplen con las normas de China. Incluso si obtienen acceso, las GPU con IA Gaudi 3 de Intel se enfrentarán a una seria competencia de empresas internas como Huawei e incluso de competidores del mercado existentes como NVIDIA. En este caso, sin embargo, Intel podría tener la oportunidad de tomar ventaja, considerando la reacción del Equipo Verde de la administración Biden.

Es demasiado pronto para decir si las nuevas ofertas de Intel tendrán éxito en China. Aún así, si la empresa mantiene su compromiso y ofrece una cadena de suministro estable, muy bien podría penetrar los mercados y arrebatar participación de mercado a algunos de los gigantes tecnológicos.

Source link-29

Los aceleradores Intel Gaudi 2 muestran un rendimiento competitivo por dólar frente a NVIDIA H100 en los puntos de referencia MLPerf 4.0 GenAI

John — Thu, 28 Mar 2024 13:08:20 +0000

Intel acaba de publicar sus últimas cifras de rendimiento de MLPerf v4.0 que cubren los aceleradores Gaudi 2 y las CPU Xeon «Emerald Rapids» de quinta generación; el primero muestra sólidos valores de rendimiento por dólar en comparación con la GPU H100 de NVIDIA.

El acelerador Intel Gaudi 2 AI es la única «alternativa comparada» a las GPU H100 de NVIDIA para GenAI, fuerte rendimiento/$ en resultados de MLPerf v4.0

Intel ha estado ajustando el rendimiento de su línea de aceleradores Gaudí en cargas de trabajo de IA utilizando su marco OneAPI desde hace algún tiempo. El resultado de este trabajo de software continuo se mostró en las últimas cifras de rendimiento de MLPerf v4.0 que muestran las capacidades de GenAI en cargas de trabajo como Llama-70B y Stable Diffusion XL, donde las soluciones de Intel ofrecen un rendimiento competitivo frente a los chips rivales. Más recientemente, la compañía mostró cómo los aceleradores Gaudi 2 eran más rápidos en comparación con las soluciones de NVIDIA en las últimas cargas de trabajo GenAI, como Stable Diffusion y Llama 2 LLM. Más sobre eso aquí.

Para realizar comparaciones, Intel utilizó una configuración de acelerador Gaudi 2 x8 frente a GPU NVIDIA H100 x8 para realizar evaluaciones comparativas de rendimiento de FP8 e INT8. En rendimiento relativo, la NVIDIA H100 sin duda está muy por delante de los aceleradores Intel Gaudi 2, ofreciendo mejoras de hasta 3,35 veces en servidor y hasta 2,76 veces en generación fuera de línea. Pero donde el juego cambia completamente a favor de Intel es en el rendimiento/$ donde los aceleradores Gaudi 2 se convierten en un producto con una posición muy competitiva y lo que Intel denomina Gaudi 2 como la única «alternativa comparada» al H100 de NVIDIA para cargas de trabajo GenAI.

Entonces, en términos de rendimiento por dólar, el acelerador Intel Gaudi 2 AI ofrece un valor 33 % mejor que la solución NVIDIA H100; NVIDIA H100 solo supera a Gaudi 2 en Llama-70B (servidor). Intel también se ha asociado recientemente con Qualcomm y Google para abordar el dominio CUDA de NVIDIA en IA a través de oneAPI, lo que puede conducir a mayores mejoras en el futuro. Los aceleradores de IA Gaudi 3 y Falcon Shores de próxima generación tendrán un sólido marco de software que los respalde en el momento de su lanzamiento.

Intel también comparte los resultados de MLPerf v4.0 para su familia escalable Xeon de quinta generación con nombre en código Emerald Rapids. Al comparar los chips con la familia «Sapphire Rapids» de cuarta generación, puede ver ganancias de hasta 1,9 veces y una ganancia promedio del 42 % con respecto a la generación anterior en cargas de trabajo como 3dUnet, BERT, RNN-T, ResNet50, RetinaNet, DLRMv2, GPT-J. Además, los socios OEM de Intel también han estado enviando sus resultados para CPU Xeon de quinta generación en una variedad de cargas de trabajo mixtas. Estos socios incluyen Dell Technologies, Quanta Computer, Supermicro, Wiwynn y CISCO.

Los aspectos más destacados de estos puntos de referencia son:

Aceleradores Intel Gaudí 2

La ÚNICA alternativa comparada al H100 para GenAI
Los puntos de referencia Stable Diffusion y Llama-70B muestran las ventajas de precio-rendimiento de Gaudí2 frente al H100
La cobertura del modelo Intel Guadi continúa avanzando y emplea enfoques de desarrollo SOTA como TGI, utilizado en el envío de Llama.

Procesadores Xeon de quinta generación

Intel sigue siendo el único proveedor de CPU para servidores que envía resultados de MLPerf
Los resultados de 5.ª generación Xeon mejoraron en una media geométrica de 1,42 veces en comparación con los resultados de 4.ª generación Xeon en MLPerf Inference v3.1
El número cada vez mayor de presentaciones y la creciente lista de socios son indicadores claros de que los clientes finales quieren maximizar la utilización de su infraestructura de CPU existente.

Estos puntos de referencia de MLPerf v4.0 muestran que Intel se toma muy en serio su ecosistema de IA y el trabajo que han estado realizando ha comenzado a dar frutos. La IA está exclusivamente dominada por NVIDIA en este momento, pero con los esfuerzos de Intel, el espacio puede volverse mucho más intenso en los próximos años.

Source link-29

Aceleradores Gaudi 3 y Falcon Shore de próxima generación, migración de terceros, SKU de China

John — Thu, 14 Mar 2024 06:36:08 +0000

Intel compartió algunas actualizaciones más sobre su estrategia de IA y aceleradores, incluidos Gaudi 3 y Falcon Shores de próxima generación, que revelan cómo la compañía está llevando la IA a la empresa y a todos los aspectos del segmento de centros de datos con sus productos y software.

Intel presenta una estrategia de aceleración e inteligencia artificial: Gaudi 3 este año, Falcon Shores el próximo año, SKU de Gaudi para China y más

Para la IA, Intel ha desarrollado una pila completa de IA empresarial, una combinación de hardware y aplicaciones/software de IA desarrollados utilizando estándares abiertos que son posibles con OpenVINO e Intel Developer Cloud oneAPI y Synapse. El hardware está segmentado en tres ramas: centro de datos (sistemas escalables, aceleradores, CPU), redes (estándares abiertos y configurabilidad, infraestructura) y cliente y borde (AI PC, NPU, GPU, CPU).

NVIDIA ha sido durante mucho tiempo el único proveedor de aceleradores de IA capaces y de alto rendimiento en el mercado, pero eso ha cambiado con Intel y AMD, junto con otros, que están preparando nuevas soluciones y parecen muy eficaces (en el papel por ahora). Intel quiere consolidarse como una clara alternativa al líder del mercado y al mismo tiempo van a consolidar el liderazgo en mercados y cargas de trabajo específicos. Recientemente vimos puntos de referencia de Stability AI que muestran que el hardware Gaudi 2 de Intel ofrece un aumento de 3 veces a un precio similar.

Intel afirma que, en términos de precio, Gaudi 2 se basa en el mismo proceso que el A100, que son los 7 nm de TSMC, pero la diferencia clave es que sus clientes ven una mejora de rendimiento hasta 3 veces mayor en cargas de trabajo de estabilidad, difusión y generación de IA, lo que significa que Puede obtener muchos más ahorros de costos usando Gaudi 2 que el A100 de NVIDIA. El hardware Gaudi 2 también sobresale sobre la última GPU H100 en ciertas cargas de trabajo, que es exactamente lo que Intel está buscando ahora y escalará el liderazgo más allá a partir de aquí.

En cuanto a la hoja de ruta, Intel todavía tiene a Gaudi 3 posicionado como el seguimiento de Gaudi 2 y Falcon Shores más allá de eso. Intel declaró que los aceleradores Gaudí 3 ya se encuentran en sus laboratorios de validación y estarán disponibles de forma general en el tercer trimestre de 2023.

Gaudi 3 también estará disponible a través de un amplio ecosistema de OEM y también en la nube de desarrolladores de Intel. En términos de hardware, el acelerador de IA Gaudi 3 utilizará la misma arquitectura de alto rendimiento que Gaudi 2 con avances significativos en capacidades informáticas. Obtendrá 4 veces más computación, 2 veces más ancho de banda de red, 1,5 veces más ancho de banda de memoria HBM y mayores capacidades para permitir modelos más grandes.

Falcon Shores será la primera arquitectura de GPU diseñada únicamente para cargas de trabajo de IA. Combina lo mejor de Gaudí AI IP y la tecnología Intel GPU en una oferta de productos convergentes. El desarrollo de Falcon Shores está en marcha y apunta a su lanzamiento en 2025.

Una de las principales preocupaciones de los desarrolladores de IA es que la migración a un nuevo hardware conlleva problemas, como la modificación del código para permitir la compatibilidad con los nuevos aceleradores. Según Intel, la mayoría de los desarrolladores están trabajando en el nivel alto de la pila (Hugging Face, Mosiac ML, PyTorch, etc.) y con las soluciones de software de Intel pueden aprovechar el hecho de que con solo unas pocas líneas de código en su script Python, pueden migrar sus modelos existentes o nuevos.

La migración de modelos de Intel requiere solo de 3 a 5 líneas de código para migrar modelos nuevos o existentes al nuevo hardware. Para software de alto nivel, Intel ofrece soporte de migración de NVIDIA a toda su línea de aceleradores Gaudí e incluso a la línea de aceleradores Falcon Shores de próxima generación. La compañía también está trabajando para agregar modelos de bajo nivel como OpenAPI, Triton y TPC-C para que sean compatibles con las GPU Falcon Shores al pasar del hardware NVIDIA.

Hablando de sus planes en China, Intel dijo que cumplen plenamente con las regulaciones de las autoridades estadounidenses y que se están adoptando nuevas variantes basadas en el hardware de Gaudí para garantizar que sean exportables a China.

Nos estamos centrando en asegurarnos de cumplir plenamente con los requisitos de exportación. Siempre lo hemos hecho y somos muy cercanos con el regulador en cuanto a que todo lo que ofrecemos a los clientes de la República Popular China cumple plenamente con las regulaciones. Ya vieron el anuncio de un SKU de Gaudí 2 el año pasado y, a medida que cambia la regulación, también conocemos la definición de los SKU que podemos ofrecer al mercado de la República Popular China. Tenemos clientes importantes en China y nos estamos asegurando de seguir las regulaciones y esperamos introducir SKU que cumplan con las regulaciones utilizando el mismo hardware de Gaudí pero con adopciones que los hagan exportables a China.

a través de Intel

Cuando se le preguntó si Intel estaba buscando segmentos de capacitación e inferencia, la compañía afirmó que apuntaban a ambos. La IA generativa y el LLM son los que impulsan la demanda. NVIDIA, en su llamada a inversores del año pasado, también afirmó que la demanda de IA proveniente de GenAI será enorme y eso se aplica a todos los proveedores de hardware, incluido Intel. Intel espera que la demanda de inferencia aumente con el tiempo, pero están enfocados en proporcionar un paquete completo que sobresalga tanto en tareas de capacitación como de inferencia.

Source link-29

El acelerador Intel Gaudi 2 es hasta un 55 % más rápido que el NVIDIA H100 en difusión estable y 3 veces más rápido que el A100 en un enfrentamiento de referencia de IA

John — Tue, 12 Mar 2024 14:59:25 +0000

Stability AI ha publicado una nueva publicación de blog que ofrece un enfrentamiento comparativo de IA entre los aceleradores GPU Intel Gaudi 2 y NVIDIA H100 y A100. Los puntos de referencia muestran que las soluciones de Intel ofrecen un gran valor y pueden verse como una alternativa respetada para los clientes que buscan una solución rápida y fácilmente disponible en comparación con las ofertas de NVIDIA.

Enfrentamiento entre Intel y NVIDIA AI Accelerator: Gaudi 2 muestra un sólido rendimiento frente a H100 y A100 en Stable Diffusion y Llama 2 LLM, excelente rendimiento/$ destacado como una fuerte razón para optar por el equipo azul

La empresa de inteligencia artificial Stability AI ha estado creando modelos abiertos que pueden manejar una amplia gama de tareas de manera eficiente. Para probar esto, Stability AI utilizó dos de sus modelos que incluyen Stable Diffusion 3, e hizo una evaluación comparativa entre los aceleradores de IA más populares de NVIDIA e Intel para ver cómo se desempeñan entre sí.

En Stability Diffusion 3, el siguiente capítulo del muy popular modelo de texto a imagen, el acelerador de IA Gaudi 2 de Intel arrojó algunos resultados excepcionales. El modelo oscila entre los parámetros 800M y 8B y se probó utilizando la versión de parámetros 2B. A modo de comparación, se utilizaron 2 nodos con un total de 16 aceleradores Intel y NVIDIA con un tamaño de lote establecido en 16 por acelerador y un tamaño de lote de hasta 512. El resultado final fue que Intel Gaudi 2 ofrece una aceleración del 56 % en comparación con el H100. GPU de 80 GB y una aceleración de 2,43 veces en comparación con la GPU A100 de 80 GB.

Fuente de la imagen: Estabilidad AI

La capacidad de 96 GB HBM también permitió que el Gaudi 2 de Intel encajara en un tamaño de lote de 32 por acelerador para un tamaño de lote total de 512. Esto permitió una velocidad adicional de 1254 imágenes por segundo, una aceleración del 35% con respecto a los 16 lotes. Acelerador Gaudi 2, 2,10 veces más que el H100 de 80 GB y 3,26 veces más que el A100 de 80 GB con GPU AI.

Fuente de la imagen: Estabilidad AI

Al ampliar aún más hasta 32 nodos (256 aceleradores) para las GPU Gaudi 2 y A100 de 80 GB, se observa un aumento de 3,16 veces en la solución Intel, que puede generar 49,4 imágenes/segundo/dispositivo frente a solo 15,6 en la solución A100.

Si bien el rendimiento del entrenamiento es excelente con los aceleradores de IA Gaudi 2, parece que NVIDIA aún conserva el trono en inferencia gracias a sus optimizaciones Tensor-RT que han logrado grandes avances durante el año anterior y el equipo ecológico está continuamente dando grandes pasos en este ecosistema. Se dice que las GPU A100 producen imágenes hasta un 40% más rápido en estas cargas de trabajo particulares bajo el mismo modelo Stable Diffusion 3 8B en comparación con los aceleradores Gaudi 2.

En las pruebas de inferencia con el modelo de parámetros Stable Diffusion 3 8B, los chips Gaudi 2 ofrecen una velocidad de inferencia similar a la de los chips Nvidia A100 que utilizan PyTorch base. Sin embargo, con la optimización de TensorRT, los chips A100 producen imágenes un 40% más rápido que Gaudi 2. Anticipamos que con una mayor optimización, Gaudi 2 pronto superará a los A100 en este modelo. En pruebas anteriores en nuestro modelo SDXL con PyTorch base, Gaudi 2 genera una imagen de 1024×1024 en 30 pasos en 3,2 segundos, frente a 3,6 segundos para PyTorch en A100 y 2,7 segundos para una generación con TensorRT en un A100.

La mayor memoria y la rápida interconexión de Gaudi 2, además de otras consideraciones de diseño, lo hacen competitivo para ejecutar la arquitectura Diffusion Transformer que sustenta esta próxima generación de modelos de medios.

a través de la estabilidad AI

Por último, tenemos resultados en el segundo modelo, que es Stable Beluga 2.5 70B, una versión mejorada del LLaMA 2 70B. Sin optimizaciones adicionales y funcionando bajo PyTorch, los 256 aceleradores de IA Intel Gaudi 2 lograron un rendimiento promedio de 116,777 tokens/segundo. Era aproximadamente un 28% más rápido que la solución A100 de 80 GB que se ejecuta con TensorRT.

Todo esto demuestra cuán competitivo se está volviendo el panorama de la IA y no es el hardware lo que más importa, sino el software y las optimizaciones para cada acelerador específico. Si bien el hardware es esencial, puedes tener lo último y lo mejor, pero si no hay una base sólida para impulsar todos esos núcleos, memoria y varios aceleradores específicos de IA, entonces tendrás dificultades en este espacio.

Pat Gelsinger (derecha), director ejecutivo de Intel, y Christoph Schell, vicepresidente ejecutivo y director comercial, muestran por primera vez un acelerador de IA Intel Gaudi 3 de próxima generación para aprendizaje profundo y modelos de IA generativa a gran escala. programar el próximo año, en el evento “AI Everywhere” de Intel el jueves 14 de diciembre de 2023 en la ciudad de Nueva York. (Crédito: Corporación Intel)

NVIDIA lo sabe desde hace mucho tiempo, por lo que Intel y AMD acaban de comenzar a solidificar sus paquetes de software para IA y aún está por verse si alcanzarán al gigante verde o podrán abordar la arquitectura CUDA/Tensor con lanzamientos rápidos de software. ser visto. Estos puntos de referencia muestran que Intel se está convirtiendo en una solución muy viable, no solo como una alternativa sino también como una solución competitiva frente a las ofertas de NVIDIA, y con las futuras ofertas de GPU de IA y Gaudí, podemos esperar un segmento de IA más sólido con excelentes soluciones para que los clientes seleccionen. en lugar de depender de una sola empresa.

Source link-29

Aceleradores de IA Intel Gaudi 2 capaces de generar texto con modelos Llama 2 con hasta 70 mil millones de parámetros

John — Wed, 06 Mar 2024 02:58:41 +0000

Los aceleradores de IA Gaudi 2 de Intel son la alternativa más viable a los chips de NVIDIA y Hugging Face ha demostrado su capacidad de generación de texto utilizando Llama 2.

Aceleradores Intel Gaudi 2 demostrados en generación de texto utilizando LLM Llama 2 de código abierto con hasta 70 mil millones de parámetros

A medida que Intel amplía su ecosistema de software de IA, la empresa se centra en las cargas de trabajo de IA más populares, que incluyen LLM (modelos de lenguajes grandes). El trabajo es posible utilizando Habana Optimum, que sirve como bibliotecas de transformadores y difusores de interfaz y los procesadores Intel Habana Gaudi como Gaudi 2. La compañía ya ha demostrado las capacidades de IA y el rendimiento de sus procesadores Gaudi 2 frente a las GPU A100 de NVIDIA, que son una de las opciones populares en el mercado, pero Gaudi 2 hace un trabajo encomiable al ofrecer un rendimiento más rápido con un TCO competitivo.

Para la última demostración, Hugging Face muestra la facilidad de generar texto con Llama 2 (7b, 13b, 70b) usando el mismo canal Optimum Habana y el acelerador Intel Gaudi 2 AI. El resultado final muestra que el chip Gaudi 2 no solo era capaz de aceptar mensajes únicos o múltiples, sino que era muy fácil de usar y también podía manejar complementos personalizados dentro de scripts.

Con la revolución de la IA generativa (GenAI) en pleno apogeo, la generación de texto con modelos transformadores de código abierto como Llama 2 se ha convertido en la comidilla de la ciudad. Los entusiastas de la IA y los desarrolladores buscan aprovechar las capacidades generativas de dichos modelos para sus propios casos de uso y aplicaciones. Este artículo muestra lo fácil que es generar texto con la familia de modelos Llama 2 (7b, 13b y 70b) usando Optimum Habana y una clase de canalización personalizada: ¡podrá ejecutar los modelos con solo unas pocas líneas de código!

Esta clase de canalización personalizada ha sido diseñada para ofrecer una gran flexibilidad y facilidad de uso. Además, proporciona un alto nivel de abstracción y realiza una generación de texto de un extremo a otro, lo que implica preprocesamiento y posprocesamiento. Hay varias formas de utilizar la canalización: puede ejecutar la run_pipeline.py script del repositorio de Optimum Habana, agregue la clase de canalización a sus propios scripts de Python o inicialice las clases de LangChain con ella.

Presentamos un canal de generación de texto personalizado en el acelerador Intel Gaudi 2 AI que acepta mensajes únicos o múltiples como entrada. Este canal ofrece una gran flexibilidad en términos de tamaño del modelo, así como parámetros que afectan la calidad de generación de texto. Además, también es muy fácil de usar y de conectar a sus scripts, y es compatible con LangChain.

a través de la cara abrazada

Intel se compromete a acelerar su segmento de IA en los próximos años. Este año, la compañía tiene planes de presentar la tercera versión de Gaudi conocida como Gaudi 3, que se espera que utilice un nodo de proceso de 5 nm y, según se informa, es más rápida que la NVIDIA H100 a un precio significativamente menor. De manera similar, la compañía también planea pasar a un diseño completamente interno con la GPU Falcon Shores de próxima generación que se espera para 2025. La compañía también está abriendo capacidades de inteligencia artificial, como la interfaz Llama 2 con PyTorch, para su nivel de consumidor. GPU Arc Serie A.

Source link-29

Se informa que el acelerador Intel Gaudi 3 AI está construido en el nodo TSMC de 5 nm, más rápido que NVIDIA H100

John — Mon, 18 Dec 2023 13:30:44 +0000

Según se informa, el acelerador de IA Gaudi 3 de Intel emplea el proceso TSMC de 5 nm y se espera que compita con NVIDIA H100 y AMD MI300X.

Intel aprovecha el nodo de 5 nm de TSMC para el acelerador Gaudi 3 y se lanza el próximo año para competir contra NVIDIA H100 y AMD MI300X

Además de la presentación de las CPU Intel Xeon Scalable y Core Ultra «Meteor Lake» de quinta generación, el CEO Pat Gelsinger brindó un pequeño vistazo al acelerador de inteligencia artificial de próxima generación de la compañía, sin dar detalles al respecto. Sin embargo, los informes de los medios coreanos han revelado lo que el acelerador Gaudi 3 de Team Blue podría incorporar, y se espera que compita con las GPU de IA H100 de NVIDIA y Instinct MI300X de AMD en términos de rendimiento de IA.

Fuente de la imagen: Intel

Intel reveló que su acelerador de IA Gaudi 3 ofrecerá un rendimiento 1,5 veces mayor que su contraparte anterior, el Gaudi 2, junto con un incremento de cuatro veces en el rendimiento de BFloat16, el doble de computación y un aumento del 50% en las capacidades de memoria, lo que nos brinda 144 GB frente a 96 GB de los aceleradores Gaudi2 actuales. Además, se espera que el acelerador incluya HBM3 o HBM3e, lo que se espera que lo ponga a la par con las ofertas actuales de la industria, haciéndolo mucho más competitivo y una alternativa viable, especialmente cuando se considera su rendimiento/vatio frente a la GPU H100 de NVIDIA.

Nuestra hoja de ruta sobre Gaudí sigue en marcha con Gaudi3 fuera de la fábrica, ahora en embalaje y se espera que se lance el próximo año. En 2025, Falcon Shores reunirá nuestras capacidades de GPU y Gaudí en un solo producto.

Pat Gelsinger (CEO de Intel) a través de BuscandoAlpha

La información recientemente revelada revela que el Gaudi 3 de Intel se basará en el proceso de 5 nm de TSMC. El H100 de NVIDIA utiliza un proceso similar, aunque una variante ligeramente más optimizada conocida como 4N, mientras que la GPU MI300X emplea tecnologías de proceso de 5 nm y 6 nm.

Además, se dice que Intel ha contado con la ayuda de Al chip Technologies, con sede en Taiwán, para diseñar el chip, y seguirá haciéndolo con el próximo chip de inferencia Goya. Sin embargo, todavía tenemos que ver mucho más sobre la iteración Gaudí de Intel en el futuro, pero por lo que parece, el futuro parece emocionante para la arquitectura.

Fuente de la imagen: Intel

Intel ha expresado confianza en su enfoque hacia los mercados de IA en el futuro, y la compañía ha insinuado un cambio de enfoque en la inferencia y en el futuro. Será interesante ver cómo se perfila la plataforma Gaudí, ya que Team Blue planea lanzar el acelerador de próxima generación para 2024.

Fuente de noticias: Ctee

Source link-29

Intel duplicó el rendimiento FP8 GPT3 para su chip Gaudi 2 AI en las últimas pruebas comparativas de MLPerf

John — Thu, 09 Nov 2023 02:16:29 +0000

Intel lanzó la actualización de noviembre de 2023 de sus resultados de MLPerf Training 3.1 y logró un aumento de rendimiento del 103 % en comparación con su proyección del 90 % en junio. Actualmente, solo hay tres aceleradores que están enviando resultados de GPT-3 en MLPerf: Intel, NVIDIA y Google, lo que hace que Gaudi 2 de Intel sea actualmente la única alternativa viable a las GPU de NVIDIA (¿es ese el término correcto?) para cargas de trabajo de IA de MLPerf. .

Intel muestra precio/rendimiento competitivo para los chips Hopper de vanguardia de NVIDIA en el último MLPerf 3.1

Intel también se apresuró a señalar que Xeon es la única CPU que también envía resultados de entrenamiento en MLPerf Benchmark. Sin más preámbulos aquí están las diapositivas presentadas:

Como puede ver, el equipo Gaudí de Intel proyectó inicialmente una ganancia de rendimiento del 90 % en el FP8, pero pudo lograr una ganancia del 103 % en el punto de referencia de la industria GPT-3, reduciendo su tiempo para entrenar en minutos (en 384 aceleradores) de 311,94 minutos o 5,2 horas hasta poco más de 2 horas o 153,58 minutos. Intel también presentó varias diapositivas para ayudar en la toma de decisiones basadas en el TCO (costo total de propiedad), mostrando que el chip Gaudi 2 ofrece un rendimiento similar al NVIDIA H100 y al mismo tiempo tiene un menor costo de servidor, lo que lo hace competitivo en precio/rendimiento.

En GPTJ-99, Gaudi 2 brilla aún más: queda ligeramente por detrás de los nuevos chips Hopper de NVIDIA. Si bien la discusión en junio fue acerca de que Gaudi 2 era simplemente una alternativa viable a los chips de NVIDIA y estaba significativamente por detrás del H100 (solo intercambiando golpes con el modelo A100 anterior), ahora el chip Gaudi 2 está ligeramente por detrás de las configuraciones H100 y GH200-96G. El H100 es sólo un 9 % más rápido, mientras que el GH200-96G es sólo un 12 % más rápido que Gaudi 2 en las pruebas comparativas de rendimiento del servidor. Esta ventaja se extiende al 28% en los puntos de referencia fuera de línea. Gaudí 2 superó al A100 casi el doble en ambos casos.

Por último, Intel también señaló que Xeon es la única CPU que actualmente presenta puntos de referencia MLPerf y enfatizó su compromiso con las cargas de trabajo de IA.

Acerca de los resultados de Intel Gaudi2:

Gaudi2 sigue siendo la única alternativa viable al H100 de NVIDIA para las necesidades informáticas de IA, ofreciendo una relación precio-rendimiento significativa. Los resultados de MLPerf para Gaudi2 mostraron el creciente rendimiento del entrenamiento del acelerador de IA:

Gaudi2 demostró un salto de rendimiento 2 veces mayor con la implementación del tipo de datos FP8 en el punto de referencia de entrenamiento GPT-3 v3.1, reduciendo el tiempo de entrenamiento a más de la mitad en comparación con el punto de referencia MLPerf de junio, completando el entrenamiento en 153,58 minutos en 384 Aceleradores Intel Gaudi2. El acelerador Gaudi2 admite FP8 en formatos E5M2 y E4M3, con la opción de escalado retrasado cuando sea necesario.
Intel Gaudi2 demostró el entrenamiento en el modelo multimodal Stable Diffusion con 64 aceleradores en 20,2 minutos, utilizando BF16. En futuros puntos de referencia de entrenamiento de MLPerf, el rendimiento de Difusión estable se presentará en el tipo de datos FP8.
En ocho aceleradores Intel Gaudi2, los resultados de las pruebas comparativas fueron 13,27 y 15,92 minutos para BERT y ResNet-50, respectivamente, utilizando BF16.
Acerca de los resultados de Xeon de cuarta generación: Intel sigue siendo el único proveedor de CPU que envía resultados de MLPerf. Los resultados de MLPerf para 4th Gen Xeon resaltaron su sólido desempeño:
Intel presentó resultados para RESNet50, RetinaNet, BERT y DLRM dcnv2. Los resultados de los procesadores escalables Intel Xeon de cuarta generación para ResNet50, RetinaNet y BERT fueron similares a los sólidos resultados de rendimiento listos para usar presentados para la prueba comparativa MLPerf de junio de 2023.
DLRM dcnv2 es un nuevo modelo presentado en junio, en el que la CPU demuestra un tiempo de entrenamiento de 227 minutos utilizando solo cuatro nodos.

Source link-29

Intel Habana Gaudi supera al H100 de Nvidia en modelos de IA en lenguaje visual: Hugging Face

John — Thu, 31 Aug 2023 19:28:35 +0000

Un nuevo punto de referencia de rendimiento de ajuste para BridgeTower, un modelo de IA Vision-Language (VL), ha demostrado que hay vida en el campo de la aceleración de IA además del verde de Nvidia. Si bien Nvidia domina el mercado de aceleración de la IA (a través de una previsión excepcional, una pila de software bien pensada y documentada y un rendimiento de procesamiento puro), otros jugadores están deseosos de hacerse con una parte del mercado de la IA. Y al menos para BridgeTower, Hugging Face ha demostrado que el propio silicio Gaudi 2 de Intel (diseñado y fabricado a través de la adquisición de Habana por 2 mil millones de dólares de Intel en 2019) supera al A100 de 80 GB de Nvidia en una asombrosa cifra de 2,5 veces, e incluso supera al prodigio de Nvidia. niño H100 en 1,4x.

Visión-Lenguaje

Vision-Language (VL) se refiere a modelos de IA que pueden procesar y asociar información a través de las modalidades de lenguaje y representación visual. Los modelos VL en específico se asocian comúnmente con modelos de generación de imágenes como CLIP de Open AI y Stable Diffusion XL, un mercado de rápido crecimiento liderado principalmente por Midjourney, Stable Diffusion y ahora Ideogram.

Según Habana, las importantes aceleraciones son el resultado de un sistema de carga de datos acelerado por hardware, uno de los cuellos de botella para el ajuste fino de los modelos de IA, y especialmente para los modelos VL. Cargar una carga de trabajo en la memoria es a menudo un cuello de botella en el rendimiento dondequiera que se encuentre la informática, por lo que Habana no buscaría optimizar este paso particular en el proceso de capacitación.

El principal cuello de botella se relaciona con cómo las CPU se ven abrumadas con muchas operaciones costosas, como la decodificación y el aumento de imágenes (un problema similar al debate sobre la GPU), lo que lleva a la HPU (o GPU Nvidia) a detenerse mientras espera que se envíen más datos. ser procesado (por la CPU) y luego enviado al acelerador de IA de su elección. Así es como transcurre el proceso sin ninguna aceleración de hardware:

Obtener datos (por ejemplo, dónde se almacenan sus imágenes JPEG en el disco)
La CPU lee imágenes codificadas.
La CPU decodifica imágenes.
La CPU aplica transformaciones de imágenes para aumentarlas.
Las imágenes se envían a los dispositivos (aunque normalmente esto no lo hace el propio cargador de datos)

Y este es el proceso a través de la aceleración de hardware integrada de Gaudi 2, que acelera la transformación de la imagen:

Obtener datos
La CPU lee imágenes codificadas.
Las imágenes codificadas se envían a los dispositivos.
Dispositivos decodifican imágenes
Los dispositivos aplican transformaciones de imágenes para aumentarlas

A través del método de aceleración de hardware, queda claro que la CPU está mucho menos aprovechada (liberando ciclos de CPU para otras tareas dentro del proceso principal de ajuste), lo que debería resultar en un mejor rendimiento.

La evaluación comparativa del Gaudi 2 de Habana mediante el ajuste de un punto de control BridgeTower previamente entrenado con parámetros 866M nos permite ver las ganancias de rendimiento que la carga de imágenes acelerada por hardware aporta. Las cargas de trabajo se ejecutaron en computación distribuida en 8 dispositivos cada uno (de Nvidia A100 80 GB, H100 y Gaudi 2). Los resultados se midieron y promediaron en tres ejecuciones de procesamiento diferentes, y cada ejecución generó procesos de CPU crecientes completamente dedicados a cargar datos en la memoria (la primera ejecución carga memoria dentro del proceso principal de la CPU, mientras que las ejecuciones dos y tres aumentan la cantidad de cargas de memoria). procesos por uno y dos, respectivamente).

Desliza para desplazarte horizontalmente

Rendimiento de carga de datos en Gaudi 2, Nvidia A100 y Nvidia H100. Unidades expresadas en muestras por segundo.
Dispositivo	cargador de datos_num_trabajadores=0	cargador de datos_num_trabajadores=1	cargador de datos_num_trabajadores=2	cargador de datos_num_workers=2 + mediapipe_dataloader
Gaudí 2 HPU	601.5	747,4	768,7	847,7
GPU H100	336,5	580.1	602.1	N / A
GPU A100 de 80 GB	227,5	339,7	345,4	N / A

Los resultados son claros: el mejor escenario de rendimiento para Gaudi 2 es el primero, donde los datos se cargan junto con el proceso de entrenamiento principal, con Gaudi 2 superando incluso a la Nvidia H100 en 1,79x y a la A100 en 2,23x. Pero se trata de un escenario no optimizado, como lo admitió la propia Habana; Entonces, quizás los resultados más reveladores provengan del tercer punto de datos, donde se generaron dos procesos adicionales para manejar la carga de datos. afuera del principal proceso de ajuste. Allí, los productos de Nvidia ciertamente tienen que entrecerrar los ojos para captar la nube de polvo de Gaudi 2 mientras se aleja: Gaudi 2 ofrece un rendimiento mejorado de 1,3 veces frente a la crema de la cosecha H100 de Nvidia, y una mejora de rendimiento de 2,23 veces frente a la A100. 80 GB.

Sería posible generar procesos adicionales para manejar la carga de datos; pero como se puede ver en la progresión del desempeño, esa estrategia generaría rendimientos cada vez más decrecientes. En la Nvidia H100, por ejemplo, el rendimiento mejora 1,72 veces al generar un único proceso de carga de datos dedicado, pero pasar de un proceso a dos solo aporta una mejora adicional del 3%. Sin embargo, debido a la capacidad de Habana para incorporar la mayoría de los pasos de carga de datos a Gaudi 2, la compañía puede desbloquear una mejora de rendimiento adicional del 10 % en comparación con su mejor puntuación (donde la carga de datos y las transformaciones son manejadas por dos procesos de CPU).

Todavía queda un largo camino por recorrer antes de que cualquier empresa pueda reclamar hegemonía en el espacio de aceleración de la IA. Nvidia tiene una increíble pila de productos y software que le ha permitido obtener la ventaja de ser el primero en actuar; pero hemos visto suficientes carreras en las que los menos favorecidos alcanzan (y a veces incluso superan) a los favoritos para saber que Intel, AMD y otros están buscando robarle el protagonismo a Nvidia.

Source link-41

Intel lanza el acelerador de IA reducido Gaudi 2 para el mercado chino

John — Sat, 15 Jul 2023 05:35:02 +0000

Intel realizó recientemente un evento de lanzamiento de una nueva versión específica para China de su procesador Gaudi 2 para cargas de trabajo de inteligencia artificial (IA), y esta nueva versión cumple con las últimas sanciones de EE. UU. sobre procesadores de GPU e IA destinados a China. La nueva versión reduce la interconexión de ampliación de la tarjeta, lo que limita un poco el rendimiento de los servidores de IA en su base. Hasta cierto punto, esto ayudará con la escasez masiva de GPU de IA, como las A100 y H100 de Nvidia, así como las versiones reducidas de A800 que Nvidia también ha creado específicamente para sus clientes de China.

Intel tiene dos versiones de Gaudi 2 que vienen en el factor de forma del modelo OCP de 600 W. La versión normal, llamada Gaudi 2 HL-225H, tiene 24 interconexiones RDMA (RoCE v2) de 100 Gbps, mientras que la versión reducida del producto, llamada Gaudi 2 HL-225B, tiene 21 interconexiones RDMA (RoCE v2) de 100 Gbps. hasta interconexiones. La cantidad reducida de interfaces ampliables reduce el rendimiento de los servidores de IA basados en esta versión de Gaudi 2, pero teniendo en cuenta la gran demanda de capacidades de IA en China, es probable que sea popular de todos modos.

Intel describe la versión del acelerador Gaudi 2 para el mercado chino como ‘El procesador HLB-225B cumple con las regulaciones BIS de EE. UU.’ para supercomputadoras y semiconductores.

Si bien la disponibilidad de Habana Gaudi 2 de Intel en China aliviará la escasez de servidores de GPU, se debe tener en cuenta que no es probable que las aplicaciones que ya usan las GPU de Nvidia se transfieran a Gaudi. Por lo tanto, los clientes existentes de Nvidia tendrán que seguir comprando de Nvidia.

«El 11 de julio, Intel realizó un evento para clientes, socios y medios locales en el mercado de China», dijo un portavoz de Intel. «Como parte del programa del evento, Intel proporcionó a los asistentes actualizaciones sobre nuestra estrategia de IA, nuestra cartera única de productos de IA y anunció la disponibilidad de Gaudi2 para los clientes en China. La disponibilidad de Gaudi2 en China continúa los casi 40 años de historia de Intel de ofrecer productos innovadores pero que cumplen con la ley para este mercado clave en crecimiento».

Source link-41