Las sondas Backblaze aumentaron la tasa de falla anualizada para sus 240,940 HDD


Las actualizaciones trimestrales de Backblaze sobre las tasas de falla anualizadas (AFR) para su arsenal de unidades de disco duro (HDD) han brindado una visión única del uso del almacenamiento a largo plazo durante más de 10 años. Hoy, la compañía de respaldo y almacenamiento en la nube publicó los datos del segundo trimestre de 2023, que exploran un aumento intrigante en las AFR.

La publicación de blog de hoy detalla los datos de 240 940 HDD que Backblaze utiliza para el almacenamiento de datos en todo el mundo. Hay 31 modelos diferentes, y Andy Klein de Backblaze, autor del blog, estimó en un correo electrónico a Ars Technica que el 15 por ciento de los discos duros en el conjunto de datos, incluidos algunos de los discos de 4, 6 y 8 TB, son de grado de consumo. El conjunto de datos no incluye unidades de arranque, unidades en servicio con fines de prueba o modelos de unidades para los que Backblaze no tenía al menos 60 unidades.

Los modelos HDD necesitan al menos 50 000 días de manejo para que Backblaze los considere estadísticamente relevantes.
Agrandar / Los modelos HDD necesitan al menos 50 000 días de manejo para que Backblaze los considere estadísticamente relevantes.

Una de las mayores revelaciones del examen de las unidades desde el 1 de abril de 2023 hasta el 30 de junio de 2023 fue un aumento en la AFR del primer trimestre de 2023 (1,54 %) al segundo trimestre de 2023 (2,28 por ciento). El conjunto de datos del primer trimestre de Backblaze examinó 237 278 HDD en 30 modelos.

Por supuesto, ese aumento de AFR por sí solo no es suficiente para justificar el pánico. Dado que los números trimestrales de AFR son «volátiles», dijo Klein a Ars Technica, Backblaze evalúa aún más las tendencias trimestrales y de por vida «para ver si lo que sucedió fue una anomalía o algo más».

Entonces, Klein comenzó a investigar más a fondo agrupando las unidades por capacidad. Esto se debe a que, como explicó Klein a Ars:

Una bóveda de almacenamiento Backblaze consta de 1200 unidades del mismo tamaño, con 60 unidades en 20 servidores de almacenamiento. Si agrupamos las unidades estrictamente por antigüedad y quisiéramos reemplazar solo las unidades más antiguas en una bóveda de Backblaze determinada, solo reemplazaríamos las unidades en la bóveda que cumplieron con los criterios de antigüedad, no todas las unidades. Luego, dentro de un año, lo haríamos de nuevo, y el año siguiente, etc. Al usar la edad promedio por tamaño de unidad, podemos, según corresponda, reemplazar/actualizar todas las unidades en una bóveda a la vez.

Después de eliminar las unidades que Backblaze consideraba jóvenes (menos de 5 años), Backblaze ideó el siguiente gráfico de líneas, centrándose en AFR trimestrales para sus HDD de 4, 6, 8 y 10 TB. Y mirando el cuadro a continuación, se destacan las líneas para los modelos de 10 y 8 TB:

Cambiar a AFR de por vida

Profundizando aún más para ver si realmente se trata de unidades de 8 TB y 10 TB que aumentan la AFR de las unidades, Backblaze recurrió a las AFR de por vida, que analizan los datos de las unidades con una antigüedad de 10 años, 2 meses, 10 días, con la unidad más antigua (una unidad de 6 TB Seagate ST6000DX000) con unos 10 años y 2 meses de antigüedad.

El AFR de por vida para los discos duros de Backblaze aumentó un 0,05 por ciento desde el trimestre anterior (1,4 por ciento) hasta ahora (1,45 por ciento). Los grandes impulsores de ese cambio fueron los discos duros de 10 TB, así como los de 8 TB.

Backblaze tiene muchas más unidades de 8TB (24,891) que de 10TB (1,124). Entonces, Klein agrupó las unidades de 8 TB por modelo. Klein le dijo a Ars que cada uno de los modelos de unidades a continuación tuvo más de 50 000 días de conducción durante el trimestre y más de 2 millones de días de conducción durante su vida útil.

«Para los tres modelos, el aumento de la tasa de falla anualizada de por vida del primer trimestre al segundo trimestre es del 10 % o más, que es estadísticamente similar al aumento del 12 % para todos los modelos de unidades de 8 TB. Si tuviera que seleccionar un modelo de unidad para centrarse en la migración, cualquiera de los tres sería un buen candidato», dice el blog de Klein.

¿Qué hemos aprendido?

El ejecutivo le dijo a Ars que años de recopilación de datos como este le han enseñado a Backblaze que la tasa de falla de un modelo determinado no predice la tasa de falla de otros modelos del mismo tamaño o del mismo fabricante:

Es por eso que una vez que identificamos las unidades de 8 TB como el problema potencial, tuvimos que profundizar en los números específicos del modelo. En este caso, todos los modelos fueron similares en el aumento de las tasas de fallas, pero podría haber sido igual de probable que no lo fueran.

Una cosa para recordar es que estamos observando el cambio en las tasas de falla a lo largo del tiempo, no las tasas de falla reales en sí mismas. Estamos buscando cambios inusuales fuera de lo que esperaríamos.

Ver datos detallados de la unidad como este le da a Backblaze una mirada íntima a su entorno de almacenamiento para que pueda hacer los ajustes necesarios.

«Tenemos un programa de migración de unidades para pasar de unidades más pequeñas a unidades más grandes para mejorar la densidad de almacenamiento en una bóveda de Backblaze dada. Por razones económicas, comenzamos con las unidades más pequeñas y luego consideramos otros detalles, como las tasas de fallas, en el proceso. Con ese fin, el análisis que hicimos se está utilizando para ayudar a priorizar qué bóvedas Backblaze se actualizan», dijo Klein a Ars.

Para los consumidores que están considerando un nuevo HDD para uso personal (pero no como parte de una matriz RAID), Klein aconsejó buscar un modelo que «creen que falla menos».

Añadió:

Pero la diferencia entre una tasa de falla del 1 por ciento y del 2 por ciento es discutible si no hace una copia de seguridad de sus cosas en otro lugar. Confiar en una sola unidad, HDD o SSD, como su única fuente de almacenamiento de datos es una bomba de relojería. Ya sea que una unidad dure 2 años o 10 años, fallará.

El conjunto de datos completo de Backblaze está disponible para el público de forma gratuita en su sitio web.



Source link-49