Las CPU AMD EPYC Rome dejan de funcionar después de 1044 días de tiempo de actividad


Una guía de revisión para el procesador de servidor AMD EPYC 7002 «Rome» revela que un núcleo de chip podría bloquearse después de 1044 días de tiempo de actividad (aproximadamente tres años).

El núcleo de la CPU EPYC Rome de AMD entra en estado de suspensión después de casi tres años de tiempo de actividad

Las CPU AMD EPYC Rome se basan en la arquitectura de núcleo Zen 2 y son algunos de los chips más competitivos que el equipo de Red ha introducido para el mercado de centros de datos. Sin embargo, se ha detectado un problema reciente en el que el chip entra en estado de suspensión después de casi tres años de funcionamiento. Así es como AMD describe el problema:

Un núcleo no podrá salir de CC6 después de aproximadamente 1044 días después del último reinicio del sistema. El tiempo de falla puede variar según el espectro ensanchado y la frecuencia REFCLK.

Según AMD, el momento de la falla depende del espectro ensanchado (cambiar las velocidades del reloj base para reducir la interferencia electromagnética) y la frecuencia REFCLK (reloj de referencia que ayuda al chip a realizar un seguimiento del tiempo). Sin embargo, el tiempo de falla especificado por AMD puede ser un poco engañoso ya que, según un usuario de Reddit, acid_migrain, el tiempo real puede ser de alrededor de 1042 días y aproximadamente 12 horas. He aquí por qué:

A pesar de lo que dicen, el problema en realidad se manifiesta a los 1042 días y aproximadamente a las 12 horas. El TSC marca 2800 MHz y 2800 * 10**6 * 1042,5 días casi equivale a 0x380000000000000, que tiene demasiados ceros para no ser una coincidencia.

Arreglar el problema no requiere una solución larga. Reinicie antes de los 1044 días de tiempo de actividad, reinicie el temporizador de la CPU o apague el estado de suspensión CC6. AMD no tiene planes de proporcionar una solución para esto, como se menciona en el documento. Este no es un problema grave; tales problemas aparecen en varias CPU diferentes. El EPYC 7002 se introdujo en 2018, y esta vulnerabilidad ahora está saliendo a la luz, ya que algunos clientes específicos podrían haberse topado con él debido al tiempo de actividad completo (1044 días).

Debido a la compleja arquitectura de los procesadores, se descubren varios tipos de errores una vez que los procesadores están empacados y listos para enviarse. Los problemas son de todo tipo, algunos son menos efectivos, como banderas y etiquetas de caché que funcionan mal, hasta los más problemáticos, como los que podrían dejar abierto un vector de ataque. El fabricante de chips evalúa la gravedad del defecto, la facilidad con la que se puede solucionar y la urgencia con la que debe abordarse antes de decidir cuándo y cómo proporcionar soluciones.

Fuente de noticias: Hardware de Tom

Comparte esta historia

Facebook

Gorjeo



Source link-29