Tesla ha mejorado su supercomputadora de IA interna con miles de GPU Nvidia A100 adicionales. La supercomputadora Tesla tenía 5760 GPU A100 hace aproximadamente un año, y ese número ha aumentado desde entonces a 7360 GPU A100, lo que representa 1600 GPU adicionales, o un aumento de alrededor del 28 %.
Según el director de ingeniería de Tesla, Tim Zaman, esta actualización convierte al sistema de IA de la empresa en una de las 7 mejores supercomputadoras del mundo por número de GPU.
Una GPU Nvidia A100 es una poderosa solución de arquitectura Ampere dirigida a los centros de datos. Sí, utiliza la misma arquitectura de GPU que las GPU de la serie GeForce RTX 30, que son algunas de las mejores tarjetas gráficas disponibles actualmente. Sin embargo, no existe una estrecha relación de consumo con el A100, que viene con 80 GB de memoria HBM2e integrada, ofrece un ancho de banda de hasta 2 TB/s y requiere hasta 400 W de potencia. La arquitectura del A100 también se ha modificado para acelerar tareas comunes en aplicaciones de inteligencia artificial, análisis de datos y computación de alto rendimiento (HPC).
El primer sistema que Nvidia mostró manejando el A100 fue el Nvidia DGX A100, que incluía ocho GPU A100 conectadas a través de seis NVSwitch con 4,8 TBps de ancho de banda bidireccional para hasta 10 PetaOPS de rendimiento INT8, 5 PFLOPS de FP16, 2,5 TFLOPS de TF32 , y 156 TFLOPS de FP64 en un solo nodo.
Eran ocho GPU A100: la supercomputadora AI de Tesla ahora tiene 7,360 de estas. Tesla no ha evaluado públicamente su supercomputadora de inteligencia artificial, pero la NERSC Perlmutter basada en GPU equipada de manera similar, que tiene 6144 GPU Nvidia A100, logra 70,87 petaflops Linpack. Usando esto y los datos de otras supercomputadoras GPU A100 como puntos de referencia de rendimiento, HPC Wire estima que la supercomputadora Tesla AI es capaz de lograr alrededor de 100 petaflops Linpack.
Tesla no tiene la intención de continuar por el camino de la arquitectura GPU de Nvidia para sus supercomputadoras internas de IA a largo plazo. Las 7 mejores máquinas del mundo por recuento de GPU son simplemente un precursor de la próxima supercomputadora Dojo, que fue la primera Anunciado por Elon Musk en 2020. Hace un año echamos un vistazo al chip Tesla D1 Dojo, que está diseñado para suplantar las GPU de Nvidia para «máximo rendimiento, rendimiento y ancho de banda en cada granularidad».
El Tesla Dojo D1 es un diseño personalizado de ASIC (circuito integrado de aplicación específica), diseñado para el entrenamiento de IA, y es uno de los primeros ASIC en este campo. Los chips de prueba D1 actuales se fabrican en TSMC N7 y se empaquetan en aproximadamente 50 millones de transistores.
Es posible que se revele más información sobre el chip Dojo D1 y el sistema Dojo en el Simposio Hot Chips de la próxima semana: tres presentaciones de Tesla están programadas para el próximo martes, abordando la arquitectura del chip Dojo D1, el entrenamiento Dojo y ML, y habilitando la IA a través de la integración del sistema.