2024 - El sucio secreto de la informática de alto rendimiento

En las décadas transcurridas desde que Seymour Cray desarrolló lo que se considera la primera supercomputadora del mundo, la CDC 6600 (se abre en una pestaña nueva), se ha librado una carrera armamentista en la comunidad informática de alto rendimiento (HPC). El objetivo: mejorar el rendimiento, por cualquier medio, a cualquier precio.

Impulsado por los avances en los campos de la informática, el almacenamiento, las redes y el software, el rendimiento de los sistemas líderes se ha multiplicado por un billón desde la presentación del CDC 6600 en 1964, desde los millones de operaciones de coma flotante por segundo (megaFLOPS) hasta la quintillones (exaFLOPS).

El actual poseedor de la corona, una colosal supercomputadora estadounidense llamada Frontera, es capaz de lograr 1.102 exaFLOPS según el punto de referencia High Performance Linpack (HPL). Pero se sospecha que incluso máquinas más poderosas son en funcionamiento en otros lugaresa puerta cerrada.

Se espera que la llegada de las llamadas supercomputadoras a exaescala beneficie prácticamente a todos los sectores, desde la ciencia hasta la ciberseguridad, desde la atención médica hasta las finanzas, y prepare el escenario para nuevos y poderosos modelos de IA que, de otro modo, habrían llevado años entrenar.

La CDC 6600, ampliamente considerada la primera supercomputadora del mundo. (Crédito de la imagen: Museo de Historia de la Computación)

Sin embargo, un aumento en las velocidades de esta magnitud ha tenido un costo: el consumo de energía. A todo gas, Frontier consume hasta 40MW (se abre en una pestaña nueva) de energía, aproximadamente lo mismo que 40 millones PC de escritorio.

La supercomputación siempre se ha tratado de ampliar los límites de lo posible. Pero a medida que la necesidad de minimizar las emisiones se vuelve cada vez más clara y los precios de la energía continúan aumentando, la industria de HPC tendrá que volver a evaluar si vale la pena seguir su principio rector original.

Rendimiento frente a eficiencia

Una organización que opera a la vanguardia de este problema es la Universidad de Cambridge, que en asociación con Dell Technologies ha desarrollado múltiples supercomputadoras con eficiencia energética en la vanguardia del diseño.

los Wilkes3 (se abre en una pestaña nueva)por ejemplo, está posicionado solo en el puesto 100 en el gráficos de rendimiento general (se abre en una pestaña nueva)pero ocupa el tercer lugar en el verde500 (se abre en una pestaña nueva)una clasificación de los sistemas HPC basada en el rendimiento por vatio de energía consumida.

En conversación con TechRadar Proel Dr. Paul Calleja, director de Research Computing Services de la Universidad de Cambridge, explicó que la institución está mucho más preocupada por construir máquinas altamente productivas y eficientes que por máquinas extremadamente poderosas.

“Realmente no estamos interesados en sistemas grandes, porque son soluciones puntuales altamente específicas. Pero las tecnologías implementadas dentro de ellos tienen una aplicación mucho más amplia y permitirán que los sistemas operen un orden de magnitud más lento de una manera mucho más eficiente en cuanto a costos y energía”, dice el Dr. Calleja.

“Al hacerlo, se democratiza el acceso a la informática para muchas más personas. Estamos interesados en usar tecnologías diseñadas para esos grandes sistemas de época para crear supercomputadoras mucho más sostenibles, para una audiencia más amplia”.

Universidad de Cambridge

Puede que la supercomputadora Wilkes3 no sea la más rápida del mundo, pero se encuentra entre las más eficientes energéticamente. (Crédito de la imagen: Universidad de Cambridge)

En los próximos años, el Dr. Calleja también predice un impulso cada vez más feroz por la eficiencia energética en el sector de HPC y en la comunidad de centros de datos en general, donde el consumo de energía representa más del 90 % de los costos, según nos dijeron.

Las recientes fluctuaciones en el precio de la energía relacionadas con la guerra en Ucrania también habrán hecho que las supercomputadoras sean mucho más costosas, particularmente en el contexto de la computación a exaescala, lo que ilustra aún más la importancia del rendimiento por vatio.

En el contexto de Wilkes3, la universidad descubrió que había una serie de optimizaciones que ayudaron a mejorar el nivel de eficiencia. Por ejemplo, al reducir la velocidad del reloj a la que se ejecutaban algunos componentes, según la carga de trabajo, el equipo pudo lograr reducciones en el consumo de energía del orden del 20-30 %.

“Dentro de una familia arquitectónica particular, la velocidad del reloj tiene una relación lineal con el rendimiento, pero una relación cuadrática con el consumo de energía. Ese es el asesino”, explicó el Dr. Calleja.

“Reducir la velocidad del reloj reduce el consumo de energía a un ritmo mucho más rápido que el rendimiento, pero también prolonga el tiempo que lleva completar un trabajo. Entonces, lo que deberíamos considerar no es el consumo de energía durante una ejecución, sino la energía consumida por trabajo. Hay un punto dulce”.

El software es el rey

Más allá de ajustar las configuraciones de hardware para cargas de trabajo específicas, también hay una serie de optimizaciones que se deben realizar en otros lugares, en el contexto del almacenamiento y las redes, y en disciplinas conectadas como la refrigeración y el diseño de racks.

Sin embargo, cuando se le preguntó dónde específicamente le gustaría ver los recursos asignados en la búsqueda para mejorar la eficiencia energética, el Dr. Calleja explicó que el enfoque debe estar en el software, ante todo.

“El hardware no es el problema, se trata de la eficiencia de la aplicación. Este va a ser el principal cuello de botella en el futuro”, dijo. “Los sistemas de exaescala actuales se basan en GPU arquitecturas y la cantidad de aplicaciones que pueden ejecutarse de manera eficiente a escala en sistemas de GPU es pequeña”.

“Para aprovechar realmente la tecnología actual, debemos centrarnos mucho en el desarrollo de aplicaciones. El ciclo de vida del desarrollo se extiende durante décadas; el software que se usa hoy en día se desarrolló hace 20 o 30 años y es difícil cuando tienes un código tan longevo que necesita ser rediseñado”.

Sin embargo, el problema es que la industria de HPC no tiene el hábito de pensar primero en el software. Históricamente se ha prestado mucha más atención al hardware, porque, en palabras del Dr. Calleja, “es fácil; solo compras un chip más rápido. No tienes que pensar inteligentemente”.

“Si bien teníamos la Ley de Moore, con una duplicación del rendimiento del procesador cada dieciocho meses, no tenías que hacer nada [on a software level] para aumentar el rendimiento. Pero esos días se han ido. Ahora bien, si queremos avances, tenemos que volver atrás y rediseñar el software”.

CPU con los contactos hacia arriba sobre la placa base de la PC. el chip está resaltado con luz azul

A medida que la Ley de Moore comienza a fallar, ya no se puede confiar en los avances en la arquitectura de la CPU como fuente de mejoras de rendimiento. (Crédito de la imagen: Alexander_Safonov / Shutterstock)

El Dr. Calleja reservó algunos elogios para Intel, en este sentido. como el servidor el espacio de hardware se vuelve más diverso desde la perspectiva del proveedor (en la mayoría de los aspectos, un desarrollo positivo), la compatibilidad de aplicaciones tiene el potencial de convertirse en un problema, pero Intel está trabajando en una solución.

“Un diferenciador que veo para Intel es que invierte muchísimo [of both funds and time] en el una API ecosistema, para desarrollar la portabilidad del código entre tipos de silicio. Es este tipo de cadenas de herramientas lo que necesitamos para permitir que las aplicaciones del mañana aprovechen el silicio emergente”, señala.

Por separado, el Dr. Calleja pidió un enfoque más estricto en la «necesidad científica». Con demasiada frecuencia, las cosas “salen mal en la traducción”, creando una desalineación entre las arquitecturas de hardware y software y las necesidades reales del usuario final.

Un enfoque más enérgico para la colaboración entre industrias, dice, crearía un «círculo virtuoso» compuesto por usuarios, proveedores de servicios y vendedores, lo que se traducirá en beneficios tanto del desempeño y perspectiva de la eficiencia.

Un futuro a escala zetta

De manera típica, con la caída del hito simbólico de la exaescala, la atención ahora se centrará en el siguiente: la escala zetta.

“Zettascale es solo la próxima bandera en el suelo”, dijo el Dr. Calleja, “un tótem que destaca las tecnologías necesarias para alcanzar el próximo hito en los avances informáticos, que hoy en día son inalcanzables”.

“Los sistemas más rápidos del mundo son extremadamente caros para lo que se obtiene de ellos, en términos de producción científica. Pero son importantes, porque demuestran el arte de lo posible y hacen avanzar la industria”.

Universidad de Cambridge

Pembroke College, Universidad de Cambridge, la sede del Open Zettascale Lab. (Crédito de la imagen: Universidad de Cambridge)

Si los sistemas capaces de lograr un zettaFLOPS de rendimiento, mil veces más potente que la cosecha actual, se pueden desarrollar de una manera que se alinee con los objetivos de sostenibilidad dependerá de la capacidad de invención de la industria.

No existe una relación binaria entre el rendimiento y la eficiencia energética, pero se requerirá una buena dosis de destreza en cada subdisciplina para brindar el aumento de rendimiento necesario dentro de un marco de potencia adecuado.

En teoría, existe una proporción áurea entre el rendimiento y el consumo de energía, por lo que se puede decir que los beneficios para la sociedad que genera la HPC justifican el gasto en emisiones de carbono.

La cifra precisa seguirá siendo esquiva en la práctica, por supuesto, pero la búsqueda de la idea es en sí misma, por definición, un paso en la dirección correcta.

Source link-36

La estrella de ‘Seinfeld’ Michael Richards revela su batalla contra el cáncer de próstata

Bad Boys: Ride or Die Directors sobre el regreso del ‘mejor dúo de la historia del cine’

Códigos de carreras de saltos de Parkour (mayo de 2024)

Baldur’s Gate 3 se demostró recientemente funcionando a 30 FPS en un Snapdragon X Elite, pero es probable que el juego se estuviera ejecutando con el ajuste preestablecido de gráficos bajo

El sucio secreto de la informática de alto rendimiento