Google ha revelado más información sobre lo que sucedió cuando se vio obligado a cerrar uno de sus centros de datos de Londres en el día más caluroso del año en el Reino Unido hasta el momento.
La falla de la zona «europe-west2-a» el mes pasado se debió, según Google, a no mantener una temperatura de funcionamiento segura debido a una falla simultánea de múltiples sistemas de enfriamiento redundantes combinados con las temperaturas exteriores «extraordinariamente altas».
La falla afectó a numerosos servicios de Google, incluidos Google Compute Engine, Persistent Disk (PD) y Google Cloud Storage, lo que provocó la terminación de instancias, la degradación del servicio y problemas de red.
¿Lo que realmente pasó?
Los ingenieros de Google apagaron el centro de datos que albergaba una parte de la zona afectada Europe-west2-a mientras se reparaba el sistema de refrigeración.
El impacto total en los servicios en la nube se estimó en 18 horas y 23 minutos.
Esta es una noticia bastante inquietante, particularmente considerando cómo Google afirma que estos servicios regionales están «diseñados para sobrevivir a la falla de una sola zona».
Google atribuyó el error a la modificación inadvertida del enrutamiento del tráfico para los servicios internos para evitar las tres zonas en la región «europe-west2», en lugar de solo la zona afectada «europe-west2-a».
El incidente de enrutamiento impidió que los clientes pudieran acceder a los datos de los servicios de almacenamiento regionales, incluidos GCS y BigQuery, en varias zonas.
¿Ocurrirá esto de nuevo?
Es comprensible que noticias como esta sean bastante aterradoras si le preocupa el calentamiento global, ya que el Reino Unido podría estar viendo algunos días aún más cálidos en el futuro.
Afortunadamente, Google se comprometió a evitar que este tipo de fallas vuelvan a afectar su alojamiento en la nube.
Estos incluyeron reparar y volver a probar su automatización de conmutación por error en un intento por garantizar una mayor resiliencia en sus protocolos de conmutación por error durante eventos a gran escala como este.
El gigante de la nube también se compromete a investigar y desarrollar «métodos más avanzados» para disminuir progresivamente la carga térmica dentro de un solo espacio de centro de datos, reduciendo la probabilidad de que se requiera un apagado total.
Además, Google supuestamente está configurado para examinar sus procedimientos, herramientas y sistemas de recuperación automatizados en busca de brechas y realizará una auditoría de los equipos y estándares del sistema de enfriamiento en los centros de datos que albergan Google Cloud en todo el mundo.
- ¿Quiere alejar su almacenamiento de los centros de datos externos? Consulte nuestra guía sobre el mejor almacenamiento bare metal