inferencia – Magazine Office

Nvidia afirma duplicar el rendimiento de inferencia con H100

John — Mon, 11 Sep 2023 17:26:07 +0000

Nvidia afirma que su nuevo software de código abierto TensorRT-LL puede aumentar drásticamente el rendimiento de los modelos de lenguajes grandes (LLM) en sus GPU. Según la compañía, las capacidades de TensorRT-LL de Nvidia le permitieron duplicar el rendimiento de su GPU de cómputo H100 en GPT-J LLM con seis mil millones de parámetros. Es importante destacar que el software puede permitir esta mejora del rendimiento sin volver a entrenar el modelo.

Nvidia desarrolló TensorRT-LLM específicamente para acelerar el rendimiento de la inferencia LLM y los gráficos de rendimiento proporcionados por Nvidia muestran un aumento de velocidad 2 veces mayor para su H100 debido a las optimizaciones de software apropiadas. Una característica particularmente destacada de TensorRT-LLM de Nvidia es su innovadora técnica de procesamiento por lotes en vuelo. Este método aborda las cargas de trabajo dinámicas y diversas de los LLM, que pueden variar mucho en sus demandas computacionales.

El procesamiento por lotes en vuelo optimiza la programación de estas cargas de trabajo, lo que garantiza que los recursos de la GPU se utilicen en su máximo potencial. Como resultado, las solicitudes de LLM del mundo real en las GPU H100 Tensor Core ven una duplicación en el rendimiento, lo que lleva a procesos de inferencia de IA más rápidos y eficientes.

(Crédito de la imagen: Nvidia)

Nvidia dice que su TensorRT-LLM integra un compilador de aprendizaje profundo con núcleos optimizados, pasos de pre y posprocesamiento y primitivas de comunicación multi-GPU/multi-nodo, asegurando que se ejecuten de manera más eficiente en sus GPU. Esta integración se complementa aún más con una API Python modular, que proporciona una interfaz fácil de usar para los desarrolladores para aumentar aún más las capacidades del software y el hardware sin profundizar en lenguajes de programación complejos. Por ejemplo, MosaicML agregó funciones específicas que necesitaba además de TensorRT-LLM sin problemas y las integró en su servicio de inferencia.

«TensorRT-LLM es fácil de usar, está repleto de funciones con transmisión de tokens, procesamiento por lotes en vuelo, atención paginada, cuantificación y más, y es eficiente», afirmó Naveen Rao, vicepresidente de ingeniería de Databricks. «Ofrece un rendimiento de última generación para el servicio LLM utilizando GPU NVIDIA y nos permite trasladar el ahorro de costos a nuestros clientes».

(Crédito de la imagen: Nvidia)

El rendimiento del H100 de Nvidia cuando se combina con TensorRT-LLM es impresionante. En la arquitectura Hopper de NVIDIA, la GPU H100, cuando se combina con TensorRT-LLM, supera a la GPU A100 por un factor de ocho. Además, al probar el modelo Llama 2 desarrollado por Meta, TensorRT-LLM logró una aceleración de 4,6 veces en el rendimiento de inferencia en comparación con las GPU A100. Estas cifras subrayan el potencial transformador del software en el ámbito de la inteligencia artificial y el aprendizaje automático.

Por último, las GPU H100, cuando se utilizan junto con TensorRT-LLM, admiten el formato FP8. Esta capacidad permite una reducción en el consumo de memoria sin pérdida en la precisión del modelo, lo cual es beneficioso para las empresas que tienen un presupuesto y/o espacio en el centro de datos limitado y no pueden instalar una cantidad suficiente de servidores para ajustar sus LLM.

Source link-41

IBM promociona chip híbrido analógico-digital para inferencia de IA

John — Wed, 16 Aug 2023 18:34:14 +0000

IBM, que ha estado a la vanguardia de la computación cuántica y una serie de otros campos de investigación, mostró recientemente lo que cree que podría ser la solución para el procesamiento de IA (y sus costos). Y si la visión de IBM se traduce en algo, el futuro no se centra en las GPU: en cambio, tiene lugar dentro de chips analógicos de señal mixta que podrían generar mejoras masivas en la eficiencia energética al tiempo que ofrecen un rendimiento competitivo frente a los go-tos actuales del mercado.

Según un trabajo de investigación publicado en Naturaleza Electrónica la semana pasada, IBM cree que el futuro de la inferencia de IA podría pasar por un chip que combine memoria de cambio de fase (PCM) junto con circuitos digitales. Según el documento, la multiplicación de matriz-vector (una de las principales cargas de trabajo para la inferencia de IA) podría realizarse directamente en pesos almacenados en chips.

En este escenario, los requisitos de potencia reducidos de los circuitos analógicos pasivos (que no requieren una corriente eléctrica continua para mantener el valor de bits que están manteniendo) deberían permitir una reducción en la potencia total requerida para realizar con éxito los cálculos matriciales, o , como mínimo, permitir que el presupuesto de energía excedente de las (ahora) secciones analógicas del chip se reutilice hacia sus circuitos digitales restantes para un rendimiento adicional. El diseño toma pistas de los aprendizajes de la investigación en computación neuromórfica.

Desarrollado como parte del proyecto Hermes de IBM, la última versión del chip cuenta con 64 mosaicos de cómputo, que se comunican entre sí a través de un enfoque de red en chip (NOC) que es similar en concepto al Infinity Fabric de AMD. También hay hardware de función fija que se especializa en el procesamiento de capas convolucionales (que tienen como objetivo reducir la complejidad de la información subyacente para acelerar la velocidad de procesamiento y aumentar la eficiencia). Al ser un chip de investigación, se fabricó con un proceso de fabricación de 14 nm; tal vez IBM tenga espacio para mejorar aún más la eficiencia energética, si las celdas analógicas pueden miniaturizarse aún más.

Las propias celdas de memoria de cambio de fase (PCM) se distribuyen a lo largo de cada uno de los 64 mosaicos dispuestos en una barra transversal, que puede almacenar un espacio de multiplicación de vectores de matriz de 256×256. Para ser justos, existen ciertas limitaciones de rendimiento en un diseño mixto analógico-digital: las señales deben convertirse de analógicas a digitales (y viceversa), lo que incurre en penalizaciones tanto en la latencia como en la utilización de la energía. Pero con las optimizaciones de programación adecuadas, el resultado final es una mayor eficiencia en comparación con un chip completamente digital (como el A100 y el H100 de Nvidia). Según IBM, una sola entrada ResNet-9 se procesó en 1,52 μs (microsegundos) y consumió 1,51 μJ (microjulios) de energía. Según Abu Sebastian en el IBM Rüschlikon Center (según lo cubierto por EE Times), la iteración actual del chip logra un rendimiento máximo de multiplicación de vectores de matriz de 16,1 a 63,1 TOPC (billones de operaciones por segundo) con una eficiencia energética de 2,48 a 9.76 TOPS W-1.

La «revolución» de la IA aún en curso ha provocado movimientos volcánicos en el mercado de la computación de alto rendimiento (HPC). Pero además de llevar a casa la maravilla de las GPU (las unidades de procesamiento generales responsables de acelerar la mayor parte de ese mercado en particular), la fiebre del oro de los aceleradores de IA ha demostrado cuán dependiente aún es el mercado de un solo jugador (léase: Nvidia), mientras que también volviendo a poner en primer plano las cuestiones de la eficiencia energética.

Los chips analógicos que rompen las barreras de eficiencia energética sin duda serían un paso bienvenido, pero como con cualquier nueva tecnología, los chips de inferencia de IA analógica tendrán que luchar para sobrevivir contra las tecnologías, la pila de software y las técnicas ya arraigadas implementadas hoy. Los efectos de red y la participación de mercado son reales, y el control de Nvidia en el mercado de HPC a través de sus pilas de hardware y software CUDA es… vicioso, por decir lo menos.

Source link-41

AMD se une a la guerra de la IA con una demostración de inferencia en chip

John — Fri, 02 Jun 2023 11:43:06 +0000

No queriendo ser superado por Intel mostrando Stable Diffusion ejecutándose en su nueva CPU Meteor Lake, AMD se unió a la batalla de la IA con su propia demostración de Computex.

Nuestro sitio hermano, Tom’s Hardware, probó el nuevo motor de IA en la APU Pheonix de AMD haciendo su trabajo. Phoenix es la APU que forma la base no solo de los procesadores de computadora portátil de la serie Ryzen 7040 de AMD, sino también del chip Z1 en el Asus RoG Ally. Entonces, el silicio no es nuevo.

Pero esta es la primera vez que vemos que el nuevo núcleo de IA de Phoenix, conocido como XDNA AI, realmente hace algo. Curiosamente, AMD aparentemente no tiene planes firmes para poner el motor XDNA de Phoenix en sus CPU de escritorio. Por ahora, es una computadora portátil y una computadora de mano exclusiva.

De todos modos, la plataforma de demostración fue un Asus Strix Scar 17 con un chip Ryzen 9 7940HS. A diferencia del motor de inteligencia artificial de Intel en Meteor Lake, el motor XDNA no aparece como un componente discreto en el Administrador de tareas de Windows.

Lo que sea, la demostración implicó acelerar una tarea de reconocimiento facial pero no generó números comparativos. Por lo tanto, no hay una medida de cuán mejor fue Phoenix en la tarea en comparación con, por ejemplo, ejecutarlo en una CPU, GPU o alguna combinación de los dos.

Aún así, por lo que vale, AMD considera que su motor XDNA es más rápido que el motor Neural equivalente en el chip M2 de Apple, aunque no ha hecho ninguna afirmación en comparación con el mosaico AI de Intel en Meteor Lake, también conocido como VPU o «Unidad de procesamiento versátil». .

AMD ha anunciado un nuevo conjunto de herramientas para ayudar a los desarrolladores a codificar para el motor XDNA. Pero no tenemos muchos ejemplos de software o aplicaciones que realmente puedan usar XDNA por ahora.

La idea general es que el motor XDNA AI acelere las cargas de trabajo ligeras de inferencia de IA, incluido el procesamiento de audio, video e imágenes, y lo haga más rápido y de manera más eficiente que una CPU o GPU. El resultado neto debería ser una latencia más baja para tales tareas, por ejemplo, procesamiento de audio en tiempo real o desenfoque de fondo, y una mejor duración de la batería mientras lo hace.

Queda por ver qué tan útil será cualquiera de estos núcleos de IA. Pero al menos, hay una ensalada de palabras completamente nueva de motores XDNA, VPU y cargas de trabajo de inferencia a las que acostumbrarse. Diversión, diversión, y tres veces exclamamos sin reservas, diversión.

Source link-8