La supercomputadora Eos de NVIDIA acaba de batir su propio récord de referencia en entrenamiento de IA


Dependiendo del hardware que esté utilizando, entrenar un modelo de lenguaje grande de cualquier tamaño significativo puede tardar semanas, meses e incluso años en completarse. Esa no es forma de hacer negocios: nadie tiene la electricidad ni el tiempo para esperar tanto tiempo. El miércoles, NVIDIA presentó la versión más reciente de su supercomputadora Eos, impulsada por más de 10,000 GPU H100 Tensor Core y capaz de entrenar un modelo GPT-3 de 175 mil millones de parámetros en mil millones de tokens en menos de cuatro minutos. Esto es tres veces más rápido que el punto de referencia anterior del estándar industrial MLPerf AI, que NVIDIA estableció hace apenas seis meses.

Eos representa una enorme cantidad de cómputo. Aprovecha 10.752 GPU conectadas mediante la red Infiniband de NVIDIA (moviendo un petabyte de datos por segundo) y 860 terabytes de memoria de alto ancho de banda (ancho de banda agregado de 36 PB/s y 1,1 PB interconectados) para ofrecer 40 exaflops de la potencia de procesamiento de la IA. Toda la arquitectura de la nube se compone de 1.344 nodos: servidores individuales a los que las empresas pueden alquilar el acceso por alrededor de 37.000 dólares al mes para ampliar sus capacidades de inteligencia artificial sin tener que construir su propia infraestructura.

En total, NVIDIA estableció seis récords en nueve pruebas de referencia: la muesca de 3,9 minutos para GPT-3, una marca de 2,5 minutos para entrenar un modelo de difusión estable utilizando 1.024 GPU Hopper., un minuto incluso para entrenar DLRM, 55,2 segundos para RetinaNet, 46 segundos para 3D U-Net y el modelo BERT-Large requirió solo 7,2 segundos para entrenar.

NVIDIA se apresuró a notar que la versión de 175 mil millones de parámetros de GPT-3 utilizada en la evaluación comparativa no es la iteración de tamaño completo del modelo (tampoco lo fue el modelo de Difusión Estable). El GPT-3 más grande ofrece alrededor de 3,7 billones de parámetros y es demasiado grande y difícil de manejar para usarlo como prueba de evaluación comparativa. Por ejemplo, se necesitarían 18 meses para entrenarlo en el antiguo sistema A100 con 512 GPU; aunque Eos solo necesita ocho días.

Entonces, NVIDIA y MLCommons, que administra el estándar MLPerf, aprovechan una versión más compacta que utiliza mil millones de tokens (la unidad de datos con el denominador más pequeño que entienden los sistemas de IA generativa). Esta prueba utiliza una versión GPT-3 con la misma cantidad de interruptores potenciales para activar (que el tamaño completo (esos 175 mil millones de parámetros), solo un conjunto de datos mucho más manejable para usar en él (mil millones de tokens frente a 3,7 billones).

La impresionante mejora en el rendimiento, por supuesto, se debe al hecho de que esta reciente ronda de pruebas empleó 10,752 GPU H100 en comparación con las 3,584 GPU Hopper que la compañía utilizó en las pruebas comparativas de junio. Sin embargo, NVIDIA explica que a pesar de triplicar la cantidad de GPU, logró mantener un rendimiento escalado 2,8 veces mayor (una tasa de eficiencia del 93 por ciento) mediante el uso generoso de optimización de software.

«Escalar es algo maravilloso», dijo Salvator. «Pero con escalar, estás hablando de más infraestructura, lo que también puede significar cosas como más costos. Un aumento escalado eficientemente significa que los usuarios están «haciendo el mejor uso de su infraestructura». para que básicamente puedas hacer tu trabajo tan rápido [as possible] y obtener el máximo valor de la inversión que ha realizado su organización.»

El fabricante de chips no estuvo solo en sus esfuerzos de desarrollo. El equipo Azure de Microsoft presentó un sistema similar de 10,752 GPU H100 para esta ronda de evaluación comparativa y logró resultados dentro del dos por ciento de los de NVIDIA.

«[The Azure team have] hemos podido lograr un rendimiento que está a la par con la supercomputadora Eos», dijo a los periodistas Dave Salvator, director de productos de computación acelerada de NVIDIA, durante una sesión informativa previa el martes. Es más, «están usando Infiniband, pero esta es una instancia disponible comercialmente. Este no es un sistema de laboratorio prístino del que los clientes reales nunca verán sus beneficios. Esta es la instancia real que Azure pone a disposición de sus clientes».

NVIDIA planea aplicar estas capacidades informáticas ampliadas a una variedad de tareas, incluido el trabajo continuo de la compañía en el desarrollo de modelos fundamentales, diseño de GPU asistido por IA, renderizado neuronal, IA generativa multimodal y sistemas de conducción autónoma.

«Cualquier buen punto de referencia que busque mantener su relevancia en el mercado tiene que actualizar continuamente las cargas de trabajo que lanzará al hardware para reflejar mejor el mercado al que busca servir», dijo Salvator, señalando que MLCommons ha agregado recientemente un punto de referencia adicional para probar el rendimiento del modelo. en tareas de Difusión Estable. «Ésta es otra área apasionante de la IA generativa en la que estamos viendo que se crean todo tipo de cosas», desde la programación de códigos hasta el descubrimiento de cadenas de proteínas.

Estos puntos de referencia son importantes porque, como señala Salvator, el estado actual del marketing de IA generativa puede parecer un «salvaje oeste». La falta de supervisión y regulación estrictas significa que «a veces vemos ciertas afirmaciones sobre el rendimiento de la IA en las que no estás muy seguro de todos los parámetros que intervinieron para generar esas afirmaciones en particular». MLPerf proporciona la seguridad profesional de que los números de referencia que las empresas generan utilizando sus pruebas «fueron revisados, examinados y, en algunos casos, incluso cuestionados o cuestionados por otros miembros del consorcio», dijo Salvator. «Es ese tipo de proceso de revisión por pares lo que realmente aporta credibilidad a estos resultados».

NVIDIA se ha centrado constantemente en sus capacidades y aplicaciones de IA en los últimos meses. «Estamos en el momento del iPhone para la IA», dijo el director ejecutivo Jensen Huang durante su discurso de apertura en el GTC en marzo. En ese momento, la compañía anunció su sistema en la nube DGX, que divide la potencia de procesamiento de la supercomputadora, específicamente mediante ocho chips H100 o A100 que ejecutan 60 GB de VRAM (640 de memoria en total). La compañía amplió su cartera de supercomputación con el lanzamiento del DGX GH200 en Computex en mayo.



Source link-47