Seguimos pisándoles los talones al anuncio oficial de AMD de su acelerador de centro de datos de IA, el MI300X. Sin duda, es una fuerza de procesamiento a tener en cuenta, una que AMD pretende usar como un garrote para tratar de desalojar a Nvidia de su posición como jugador dominante en el mundo de la aceleración de la IA. Pero el aumento del rendimiento a veces se traduce en un mayor consumo de energía, a pesar de que cada nueva arquitectura suele mejorar la eficiencia energética (consumiendo menos energía para la misma unidad de trabajo). Y el módulo acelerador OCP basado en OAM de AMD, el MI300X, es sin duda un gran consumidor de energía: con 750 W, en realidad es el producto con el TDP mejor calificado en su factor de forma. Sin embargo, no se preocupe: las especificaciones para las soluciones OAM llegan hasta 1000 W de potencia disponible, por lo que todavía hay espacio para escalar aún más el rendimiento.
Si bien 750 W es una cantidad enorme de energía para ser consumida por cualquier pieza individual de hardware de PC (al menos desde la perspectiva de un individuo), debemos tener en cuenta que esos vatios alimentan hardware que es mucho más rápido y más especializado que incluso las tarjetas gráficas más potentes de AMD. Por esa potencia, AMD ofrece lo que afirma ser el acelerador de mayor rendimiento para cargas de trabajo relacionadas con la IA (tanto en IA generativa como en Modelo de lenguaje grande). [LLM] Procesando).
Teniendo en cuenta cómo AMD logró meter 12 chipsets construidos a través de dos procesos de fabricación (8x 5nm [GPU] y 4x 6nm nodos [I/O die] para un total de 153 mil millones de transistores, esa afirmación puede tener algún respaldo. Por supuesto, también está el asunto de que AMD logró ejecutar un modelo LLM de 40 mil millones de parámetros (Falcon 40-B) sobre un solo MI300X. Ahora eso es impresionante, especialmente considerando que AMD apunta a que el MI300X escale hasta ocho aceleradores en un solo paquete.
Fila 0 – Celda 0 | AMD MI300X | AMD MI300A | AMD MI250X | AMD RX 7900 XTX |
núcleos de CPU | 0 | 3 CCD de 8 núcleos (24 núcleos) [Zen 4] | – | – |
núcleos de GPU | 8x GCD (304 CU) [CDNA 3] | 6x GCD (228 CU) [CDNA 3] | (220 CU) [CDNA 2] | (RDNA 3) |
Memoria direccionable | 192 GB (8x 24 GB HBM3) | 128 GB (8x 16 GB HBM3) | 128 GB (8x 16 GB HBM2e) | 24GB GDDR5 |
ancho de banda de memoria | 5,2 TB/s | 5,2 TB/s | ~ 3,28 TB/s | 384 GB/s |
Ancho de banda de tela Infinity | 896 GB/s | 896 GB/s | 800 GB/s | – |
Recuento de transistores | 153 mil millones | 146 mil millones | ~ 58,2 mil millones | ~ 57 mil millones |
TDP | 750W | ? | 560W | 355W |
Como vemos en la tabla anterior, el enfoque de AMD en una mayor eficiencia energética no ha sido suficiente para compensar los crecientes requisitos informáticos para escenarios de informática de alto rendimiento (HPC), que ahora incluyen el procesamiento de modelos LLM que parecen estar surgiendo de izquierda a derecha. . El aumento de los requisitos de rendimiento significa que incluso con las últimas tecnologías y técnicas de ahorro de energía de AMD y la última tecnología de fabricación de TSMC, todavía era necesario un aumento de la envolvente de potencia de 190 W.
Pero ese aumento de TDP de 190 W (alrededor de un 33 % más de consumo de energía) se traduce en aproximadamente el triple de transistores que se encienden en comparación con el MI250X, una muestra impresionante de ganancias de eficiencia, incluso sin considerar el soporte mejorado del MI300X para algoritmos dispersos (increíblemente importante para el procesamiento de LLM y AI). Eso no quiere decir nada sobre la diferencia entre los aceleradores de cómputo de AMD y la GPU de juegos insignia de la compañía, la comparativamente insignificante RX 7900 XTX.