El vicepresidente y gerente general de sistemas DGX con HPC de Nvidia se ha presentado para establecer un estado récord sobre dónde se encuentran exactamente los problemas de volumen de GPU de la compañía. Según Boyle, el problema no proviene de que Nvidia calcule mal la demanda o los problemas de rendimiento de obleas en su socio de fabricación, TSMC.
En cambio, el cuello de botella en la fabricación de suficientes GPU que pueden satisfacer las cargas de trabajo tanto de los consumidores como de los profesionales (mirándote, el auge de la IA) radica en los pasos de empaquetado del chip que vienen después. Las GPU de clase H de Nvidia utilizan la tecnología de empaquetado Chip-on-Wafer-on-Substrate (CoWoS) 2.5D de TSMC, un paso de ingeniería de alta precisión de varios pasos cuya complejidad reduce la cantidad de GPU que se pueden ensamblar en un marco de tiempo dado. Esto puede tener un impacto desproporcionado en el suministro; el delta entre la cantidad de GPU requeridas y las disponibles incluso llevó a Elon Musk a decir que estaban resultando «más difíciles de adquirir que las drogas». No pudimos verificar eso aquí en Tom’s Hardware, pero confiamos en que el Sr. Musk sepa que después de que Twitter/X adquirió hasta 10,000 de las GPU enfocadas en computación de Nvidia.
Se requieren varios pasos, desde el diseño del chip hasta la fabricación, antes de que un chip se convierta en una GPU utilizable. Por un lado, los problemas durante la etapa de diseño del chip podrían crear un cuello de botella en la fabricación debido a los descuidos del diseño que reducen el rendimiento de un diseño (el rendimiento es el porcentaje de chips utilizables de una oblea completamente grabada). La falta de metales de tierras raras u otros materiales, como el galio recientemente restringido, afectaría otros pasos en la larga cadena logística; también la contaminación de materiales, los apagones de energía y muchos otros factores, como ya hemos visto suceder a lo largo de los años.
Pero este problema de cuello de botella de CoWoS puede ser más grave de lo esperado. TSMC mismo ha dicho que espera que tome 1.5 años (y la finalización de fábricas adicionales y la expansión de las instalaciones ya existentes) para volver a alinear el proceso de empaque. Esto probablemente signifique que Nvidia tendrá que decidir qué capacidad de empaque asignar a qué productos; no hay suficiente tiempo ni capacidad para empaquetarlos todos.
Los problemas de suministro pueden provenir del empaque de TSMC, pero al final, Nvidia domina el espacio de la IA a través de su (según Pat Gelsinger) «increíble ejecución». TSMC, por su parte, es uno de los pocos jugadores con una tecnología de empaquetado funcional y de alto rendimiento que es un requisito absoluto para escalar el rendimiento. Definitivamente, se necesita más competencia en el espacio de la IA (y en una señal buena pero insuficiente, las GPU para juegos de AMD, como la RX 7900 XTX, también se han visto dirigiéndose hacia los centros de datos de IA).
Pero también se necesita competencia en el lado de la fabricación de la ecuación. Existe la esperanza de que los Servicios de fundición de Intel (IFS) traigan a otro jugador al juego de GPU de alto rendimiento; Al mismo tiempo, los ojos también están puestos en Samsung para al menos cerrar su brecha tecnológica de fabricación en relación con TSMC, de modo que sus chips sean lo suficientemente atractivos como para que otro fabricante esté sobre la mesa.