La demanda de IA es inmensa en estos días. La empresa francesa Schneider Electric estima que el consumo de energía de las cargas de trabajo de IA totalizará alrededor de 4,3 GW en 2023, lo que es ligeramente inferior al consumo de energía de la nación de Chipre (4,7 GW) en 2021. La compañía anticipa que el consumo de energía de las cargas de trabajo de IA aumentará a una tasa de crecimiento anual compuesta (CAGR) del 26% al 36%, lo que sugiere que para 2028, las cargas de trabajo de IA consumirán de 13,5 GW a 20 GW, que es más de lo que consumió Islandia en 2021.
Requisitos de energía masivos
En 2023, se estima que el consumo energético total de todos los centros de datos será de 54 GW, y las cargas de trabajo de IA representarán 4,3 GW de esta demanda, según Schneider Electric. Dentro de estas cargas de trabajo de IA, la distribución entre entrenamiento e inferencia se caracteriza por un 20% de la energía consumida para fines de entrenamiento y un 80% asignado a tareas de inferencia. Esto significa que las cargas de trabajo de IA serán responsables de aproximadamente el 8% del consumo total de energía de los centros de datos este año.
De cara a 2028, Schneider proyecta que el consumo total de energía de los centros de datos aumentará a 90 GW, y las cargas de trabajo de IA consumirán entre 13,5 GW y 20 GW de este total. Esto indica que para 2028, la IA podría ser responsable de consumir entre el 15% y el 20% del uso total de energía de los centros de datos, lo que muestra un aumento significativo en la proporción de energía consumida por las cargas de trabajo de IA en los centros de datos durante el período de cinco años. Se espera que la distribución entre entrenamiento e inferencia cambie ligeramente: el entrenamiento consumirá el 15% de la energía y la inferencia representará el 85%, según estimaciones de Schneider Electric.
Las GPU con IA se vuelven más hambrientas
El creciente consumo de energía en los centros de datos de IA se atribuye principalmente a la intensificación de las cargas de trabajo de IA, los avances de las GPU y los procesadores de IA y los crecientes requisitos de otro hardware de los centros de datos. Por ejemplo, la A100 de Nvidia de 2020 consumía hasta 400W, la H100 de 2022 consumía hasta 700W. Además de las GPU, los servidores de IA también ejecutan CPU y tarjetas de red que consumen mucha energía.
Las cargas de trabajo de IA, especialmente aquellas asociadas con la capacitación, requieren recursos computacionales sustanciales, incluidos servidores especializados equipados con GPU de IA, ASIC especializados o CPU. El tamaño de los grupos de IA, influenciado por la complejidad y magnitud de los modelos de IA, es un determinante importante del consumo de energía. Los modelos de IA más grandes requieren una cantidad mayor de GPU, lo que aumenta los requisitos energéticos generales. Por ejemplo, un clúster con 22.000 GPU H100 utiliza alrededor de 700 bastidores. Un bastidor basado en H100, cuando se completa con ocho servidores HPE Cray XD670 acelerados por GPU, da como resultado una densidad de bastidor total de 80 kW. Como resultado, todo el clúster demanda aproximadamente 31 MW de potencia, excluyendo la energía necesaria para necesidades de infraestructura adicionales como la refrigeración, señala Schneider Electric.
Estos clústeres y GPU suelen estar operativos casi a plena capacidad durante los procesos de capacitación, lo que garantiza que el uso promedio de energía sea casi sinónimo del consumo máximo de energía. El documento especifica que las densidades de rack en grandes grupos de IA varían entre 30 kW y 100 kW, dependiendo de la cantidad y el modelo de la GPU.
La latencia de la red también juega un papel crucial en el consumo de energía de los centros de datos de IA. Una infraestructura de red sofisticada es esencial para respaldar la comunicación de datos de alta velocidad que requieren las GPU potentes durante los procesos de capacitación distribuidos. La necesidad de infraestructuras y cables de red de alta velocidad, como aquellos capaces de soportar velocidades de hasta 800 Gb/s, aumenta aún más el consumo general de energía.
Dado que las cargas de trabajo de IA requieren ASIC, GPU, CPU, tarjetas de red y SSD que consumen mucha energía, la refrigeración plantea un gran desafío. Dadas las altas densidades de rack y el inmenso calor generado durante los procesos computacionales, son imprescindibles soluciones de refrigeración eficaces para mantener un rendimiento óptimo y evitar fallos o mal funcionamiento del hardware. Mientras tanto, los métodos de refrigeración líquida y por aire también son «caros» en términos de consumo de energía, por lo que también contribuyen en gran medida al consumo de energía de los centros de datos utilizados para cargas de trabajo de IA.
Algunas recomendaciones
Schneider Electric no espera que el consumo de energía del hardware de IA disminuya en el corto plazo, y la compañía espera que el consumo de energía de un rack de IA llegue a 100 kW o más. Por ello, Schneider Electric tiene algunas recomendaciones para centros de datos especializados en cargas de trabajo de IA.
En particular, Schneider Electric recomienda la transición a una distribución de 240/415 V desde la convencional 120/208 V para adaptarse mejor a las altas densidades de potencia de las cargas de trabajo de IA. Para la refrigeración, se recomienda pasar de la refrigeración por aire a la refrigeración líquida para mejorar la confiabilidad del procesador y la eficiencia energética, aunque la refrigeración por inmersión podría producir resultados aún mejores. Los bastidores utilizados deberían ser de mayor capacidad, con especificaciones como tener al menos 750 mm de ancho y una capacidad de peso estático superior a 1.800 kg.