En las décadas transcurridas desde que Seymour Cray desarrolló lo que se considera la primera supercomputadora del mundo, la CDC 6600 (se abre en una pestaña nueva), se ha librado una carrera armamentista en la comunidad informática de alto rendimiento (HPC). El objetivo: mejorar el rendimiento, por cualquier medio, a cualquier precio.
Impulsado por los avances en los campos de la informática, el almacenamiento, las redes y el software, el rendimiento de los sistemas líderes se ha multiplicado por un billón desde la presentación del CDC 6600 en 1964, desde los millones de operaciones de coma flotante por segundo (megaFLOPS) hasta la quintillones (exaFLOPS).
El actual poseedor de la corona, una colosal supercomputadora estadounidense llamada Frontera, es capaz de lograr 1.102 exaFLOPS según el punto de referencia High Performance Linpack (HPL). Pero se sospecha que incluso máquinas más poderosas son en funcionamiento en otros lugaresa puerta cerrada.
Se espera que la llegada de las llamadas supercomputadoras a exaescala beneficie prácticamente a todos los sectores, desde la ciencia hasta la ciberseguridad, desde la atención médica hasta las finanzas, y prepare el escenario para nuevos y poderosos modelos de IA que, de otro modo, habrían llevado años entrenar.
Sin embargo, un aumento en las velocidades de esta magnitud ha tenido un costo: el consumo de energía. A todo gas, Frontier consume hasta 40MW (se abre en una pestaña nueva) de energía, aproximadamente lo mismo que 40 millones PC de escritorio.
La supercomputación siempre se ha tratado de ampliar los límites de lo posible. Pero a medida que la necesidad de minimizar las emisiones se vuelve cada vez más clara y los precios de la energía continúan aumentando, la industria de HPC tendrá que volver a evaluar si vale la pena seguir su principio rector original.
Rendimiento frente a eficiencia
Una organización que opera a la vanguardia de este problema es la Universidad de Cambridge, que en asociación con Dell Technologies ha desarrollado múltiples supercomputadoras con eficiencia energética en la vanguardia del diseño.
los Wilkes3 (se abre en una pestaña nueva)por ejemplo, está posicionado solo en el puesto 100 en el gráficos de rendimiento general (se abre en una pestaña nueva)pero ocupa el tercer lugar en el verde500 (se abre en una pestaña nueva)una clasificación de los sistemas HPC basada en el rendimiento por vatio de energía consumida.
En conversación con TechRadar Proel Dr. Paul Calleja, director de Research Computing Services de la Universidad de Cambridge, explicó que la institución está mucho más preocupada por construir máquinas altamente productivas y eficientes que por máquinas extremadamente poderosas.
“Realmente no estamos interesados en sistemas grandes, porque son soluciones puntuales altamente específicas. Pero las tecnologías implementadas dentro de ellos tienen una aplicación mucho más amplia y permitirán que los sistemas operen un orden de magnitud más lento de una manera mucho más eficiente en cuanto a costos y energía”, dice el Dr. Calleja.
“Al hacerlo, se democratiza el acceso a la informática para muchas más personas. Estamos interesados en usar tecnologías diseñadas para esos grandes sistemas de época para crear supercomputadoras mucho más sostenibles, para una audiencia más amplia”.
En los próximos años, el Dr. Calleja también predice un impulso cada vez más feroz por la eficiencia energética en el sector de HPC y en la comunidad de centros de datos en general, donde el consumo de energía representa más del 90 % de los costos, según nos dijeron.
Las recientes fluctuaciones en el precio de la energía relacionadas con la guerra en Ucrania también habrán hecho que las supercomputadoras sean mucho más costosas, particularmente en el contexto de la computación a exaescala, lo que ilustra aún más la importancia del rendimiento por vatio.
En el contexto de Wilkes3, la universidad descubrió que había una serie de optimizaciones que ayudaron a mejorar el nivel de eficiencia. Por ejemplo, al reducir la velocidad del reloj a la que se ejecutaban algunos componentes, según la carga de trabajo, el equipo pudo lograr reducciones en el consumo de energía del orden del 20-30 %.
“Dentro de una familia arquitectónica particular, la velocidad del reloj tiene una relación lineal con el rendimiento, pero una relación cuadrática con el consumo de energía. Ese es el asesino”, explicó el Dr. Calleja.
“Reducir la velocidad del reloj reduce el consumo de energía a un ritmo mucho más rápido que el rendimiento, pero también prolonga el tiempo que lleva completar un trabajo. Entonces, lo que deberíamos considerar no es el consumo de energía durante una ejecución, sino la energía consumida por trabajo. Hay un punto dulce”.
El software es el rey
Más allá de ajustar las configuraciones de hardware para cargas de trabajo específicas, también hay una serie de optimizaciones que se deben realizar en otros lugares, en el contexto del almacenamiento y las redes, y en disciplinas conectadas como la refrigeración y el diseño de racks.
Sin embargo, cuando se le preguntó dónde específicamente le gustaría ver los recursos asignados en la búsqueda para mejorar la eficiencia energética, el Dr. Calleja explicó que el enfoque debe estar en el software, ante todo.
“El hardware no es el problema, se trata de la eficiencia de la aplicación. Este va a ser el principal cuello de botella en el futuro”, dijo. “Los sistemas de exaescala actuales se basan en GPU arquitecturas y la cantidad de aplicaciones que pueden ejecutarse de manera eficiente a escala en sistemas de GPU es pequeña”.
“Para aprovechar realmente la tecnología actual, debemos centrarnos mucho en el desarrollo de aplicaciones. El ciclo de vida del desarrollo se extiende durante décadas; el software que se usa hoy en día se desarrolló hace 20 o 30 años y es difícil cuando tienes un código tan longevo que necesita ser rediseñado”.
Sin embargo, el problema es que la industria de HPC no tiene el hábito de pensar primero en el software. Históricamente se ha prestado mucha más atención al hardware, porque, en palabras del Dr. Calleja, “es fácil; solo compras un chip más rápido. No tienes que pensar inteligentemente”.
“Si bien teníamos la Ley de Moore, con una duplicación del rendimiento del procesador cada dieciocho meses, no tenías que hacer nada [on a software level] para aumentar el rendimiento. Pero esos días se han ido. Ahora bien, si queremos avances, tenemos que volver atrás y rediseñar el software”.
El Dr. Calleja reservó algunos elogios para Intel, en este sentido. como el servidor el espacio de hardware se vuelve más diverso desde la perspectiva del proveedor (en la mayoría de los aspectos, un desarrollo positivo), la compatibilidad de aplicaciones tiene el potencial de convertirse en un problema, pero Intel está trabajando en una solución.
“Un diferenciador que veo para Intel es que invierte muchísimo [of both funds and time] en el una API ecosistema, para desarrollar la portabilidad del código entre tipos de silicio. Es este tipo de cadenas de herramientas lo que necesitamos para permitir que las aplicaciones del mañana aprovechen el silicio emergente”, señala.
Por separado, el Dr. Calleja pidió un enfoque más estricto en la «necesidad científica». Con demasiada frecuencia, las cosas “salen mal en la traducción”, creando una desalineación entre las arquitecturas de hardware y software y las necesidades reales del usuario final.
Un enfoque más enérgico para la colaboración entre industrias, dice, crearía un «círculo virtuoso» compuesto por usuarios, proveedores de servicios y vendedores, lo que se traducirá en beneficios tanto del desempeño y perspectiva de la eficiencia.
Un futuro a escala zetta
De manera típica, con la caída del hito simbólico de la exaescala, la atención ahora se centrará en el siguiente: la escala zetta.
“Zettascale es solo la próxima bandera en el suelo”, dijo el Dr. Calleja, “un tótem que destaca las tecnologías necesarias para alcanzar el próximo hito en los avances informáticos, que hoy en día son inalcanzables”.
“Los sistemas más rápidos del mundo son extremadamente caros para lo que se obtiene de ellos, en términos de producción científica. Pero son importantes, porque demuestran el arte de lo posible y hacen avanzar la industria”.
Si los sistemas capaces de lograr un zettaFLOPS de rendimiento, mil veces más potente que la cosecha actual, se pueden desarrollar de una manera que se alinee con los objetivos de sostenibilidad dependerá de la capacidad de invención de la industria.
No existe una relación binaria entre el rendimiento y la eficiencia energética, pero se requerirá una buena dosis de destreza en cada subdisciplina para brindar el aumento de rendimiento necesario dentro de un marco de potencia adecuado.
En teoría, existe una proporción áurea entre el rendimiento y el consumo de energía, por lo que se puede decir que los beneficios para la sociedad que genera la HPC justifican el gasto en emisiones de carbono.
La cifra precisa seguirá siendo esquiva en la práctica, por supuesto, pero la búsqueda de la idea es en sí misma, por definición, un paso en la dirección correcta.