La supercomputadora Frontier con tecnología AMD utiliza 3K de sus GPU MI250X de 37K para lograr una increíble ejecución de LLM de 1 billón de parámetros, comparable a ChatGPT-4


La supercomputadora Frontier con tecnología AMD y GPU Instinct MI250X ha logrado una ejecución LLM de 1 billón de parámetros, rivalizando con ChatGPT-4.

La supercomputadora Frontier establece nuevos récords en el espacio de la capacitación LLM, cortesía de las CPU EPYC y las GPU Instinct de AMD

La supercomputadora Frontier es la supercomputadora líder en el mundo y la única máquina exaescala que está operativa actualmente. Esta máquina funciona con el hardware EPYC e Instinct de AMD, que no solo ofrece el máximo rendimiento de HPC, sino que también es la segunda supercomputadora más eficiente del planeta. Un informe presentado sobre Arxiv por parte de individuos ha revelado que la supercomputadora Frontier ha alcanzado la capacidad de entrenar un billón de parámetros a través del «ajuste de hiperparámetros», estableciendo un nuevo punto de referencia en la industria.

Antes de entrar en el quid de la cuestión, hagamos un breve resumen de lo que contiene la supercomputadora Frontier. La supercomputadora de ORNL ha sido diseñada desde cero con CPU EPYC Trento de tercera generación de AMD y aceleradores GPU Instinct MI250X. Está instalado en el Laboratorio Nacional Oak Ridge (ORNL) en Tennessee, EE. UU., donde es operado por el Departamento de Energía (DOE). Actualmente ha alcanzado 1.194 Exaflop/s utilizando 8.699.904 núcleos. La arquitectura HPE Cray EX combina CPU AMD EPYC de tercera generación optimizadas para HPC e IA, con aceleradores AMD Instinct 250X y una interconexión Slingshot-11. Frontier ha podido mantener el puesto número uno en la lista de supercomputadoras Top500.org, lo que demuestra su dominio.

Los nuevos récords logrados por Frontier son el resultado de la implementación de estrategias efectivas para capacitar a los LLM y utilizar el hardware integrado de manera más eficiente. El equipo ha podido lograr resultados notables a través de pruebas exhaustivas de 22 mil millones, 175 mil millones y 1 billón de parámetros, y las cifras obtenidas son el resultado de optimizar y ajustar el proceso de capacitación del modelo. Los resultados se lograron empleando hasta 3000 aceleradores de IA MI250X de AMD, que han demostrado su destreza a pesar de ser una pieza de hardware relativamente obsoleta.

Lo que es más interesante es que toda la supercomputadora Frontier alberga 37.000 GPU MI250X, por lo que uno puede imaginar el tipo de rendimiento cuando se utiliza todo el grupo de GPU para alimentar los LLM. AMD también está a punto de implementar sus aceleradores GPU MI300 en supercomputadoras completamente nuevas con un robusto ecosistema ROCm 6.0 que acelera aún más el rendimiento de la IA.

El futuro depara mucho para el segmento de servidores y centros de datos, y es importante señalar que Frontier actualmente emplea hardware que no es relativamente nuevo en la industria. Con avances continuos dentro del segmento de IA generativa, es evidente que los mercados necesitarían más potencia informática para avanzar, razón por la cual los avances en el hardware diseñado para este segmento son vitales para la progresión de la próxima generación.

Fuente de noticias: Arvix

Comparte esta historia

Facebook

Gorjeo





Source link-29