AMD presentó su acelerador Instinct MI300 de próxima generación en CES 2023, y tuvimos la suerte de tener algo de tiempo práctico y tomar algunas imágenes de primer plano del gigantesco chip.
No se equivoque, el Instinct MI300 es un diseño que cambia las reglas del juego: la APU del centro de datos combina un total de 13 chipsets, muchos de ellos apilados en 3D, para crear un chip con veinticuatro núcleos de CPU Zen 4 fusionados con gráficos CDNA 3. motor y 8 pilas de HBM3. En general, el chip pesa 146 mil millones de transistores, lo que lo convierte en el chip más grande que AMD ha presionado para producir.
El MI300 pesa 146 mil millones de transistores en total, superando fácilmente los 100 mil millones de transistores Ponte Vecchio de Intel, junto con 128 GB de memoria HBM3. El chip descifrado es increíblemente difícil de fotografiar debido a su exterior brillante, pero se pueden ver claramente las ocho pilas de HBM3 que flanquean los troqueles centrales. Se colocan pequeñas astillas de silicio estructural entre estas pilas de HBM para garantizar la estabilidad cuando se aplica una solución de enfriamiento sobre el paquete.
La parte informática del chip consta de nueve chipsets de 5 nm que son núcleos de CPU o GPU, pero AMD no nos ha dado detalles sobre cuántos de cada uno se emplean. Los núcleos Zen 4 generalmente se implementan como matrices de ocho núcleos, por lo que podríamos estar viendo tres matrices de CPU y seis matrices de GPU. La GPU utiliza la arquitectura CDNA 3 de AMD, la tercera revisión de la arquitectura gráfica específica del centro de datos de AMD. AMD no ha especificado el recuento de CU.
Esos nueve troqueles están apilados en 3D sobre cuatro troqueles base de 6 nm que no son simplemente intercaladores pasivos; se nos dice que estos troqueles están activos y manejan E/S y varias otras funciones. Los representantes de AMD nos mostraron otra muestra de MI300 a la que se le lijaron los troqueles superiores con una lijadora de banda para revelar la arquitectura de los cuatro troqueles intercaladores activos. Allí pudimos ver claramente las estructuras que permiten la comunicación no solo entre los mosaicos de E/S, sino también los controladores de memoria que interactúan con las pilas HBM3. No se nos permitió fotografiar esta segunda muestra.
El diseño 3D permite un rendimiento de datos increíble entre la CPU, la GPU y las matrices de memoria, al mismo tiempo que permite que la CPU y la GPU trabajen con los mismos datos en la memoria simultáneamente (copia cero), lo que ahorra energía, aumenta el rendimiento y simplifica la programación. Será interesante ver si este dispositivo se puede usar sin DRAM estándar, como vemos con las CPU Xeon Max de Intel que también emplean HBM en el paquete.
Los representantes de AMD fueron tímidos con los detalles, por lo que no está claro si AMD usa un enfoque TSV estándar para fusionar los troqueles superior e inferior, o si usa un enfoque de enlace híbrido más avanzado. Nos dijeron que AMD compartirá más detalles sobre el empaque pronto.
AMD afirma que el MI300 ofrece ocho veces el rendimiento de la IA y cinco veces el rendimiento por vatio que el Instinct MI250 (medido con FP8 con escasez). AMD también dice que puede reducir el tiempo de entrenamiento para modelos de IA ultragrandes, como ChatGPT y DALL-E, de meses a semanas, ahorrando así millones de dólares en electricidad.
El Instinct MI250 de generación actual impulsa la supercomputadora Frontier, la primera máquina de exaescala del mundo, y el Instinct MI300 impulsará la próxima supercomputadora de dos exaflop El Capitan. AMD nos dice que estos chips halo MI300 serán costosos y relativamente raros; no son un producto de gran volumen, por lo que no verán una implementación amplia como las CPU del centro de datos EPYC Genoa. Sin embargo, la tecnología se filtrará a múltiples variantes en diferentes factores de forma.
Este chip también competirá con el Superchip Grace Hopper de Nvidia, que es la combinación de una GPU Hopper y la CPU Grace en la misma placa. Se espera que estos chips lleguen este año. Las CPU Grace basadas en Neoverse admiten el conjunto de instrucciones Arm v9 y los sistemas vienen con dos chips fusionados con la nueva tecnología de interconexión NVLink-C2C de Nvidia. El enfoque de AMD está diseñado para ofrecer un rendimiento superior y eficiencia energética, ya que la combinación de estos dispositivos en un solo paquete generalmente permite un mayor rendimiento entre las unidades que cuando se conectan a dos dispositivos separados.
El MI300 también competirá con Falcon Shores de Intel, un chip que contará con una cantidad variable de mosaicos de cómputo con núcleos x86, núcleos de GPU y memoria en una cantidad vertiginosa de configuraciones posibles, pero no está previsto que lleguen hasta 2024.
Aquí podemos ver la parte inferior del paquete MI300 con las almohadillas de contacto utilizadas para un sistema de montaje LGA. AMD no compartió detalles sobre el mecanismo de conexión, pero nos aseguraremos de aprender más pronto: el chip se encuentra actualmente en los laboratorios de AMD y la compañía espera entregar el Instinct MI300 en la segunda mitad de 2023. El Capitán supercomputadora será la supercomputadora más rápida del mundo cuando se implemente en 2023. Actualmente está según lo programado.