Microsoft ha revelado sus conclusiones iniciales sobre lo que cree que causó una importante interrupción reciente que afectó a algunas de sus ofertas de software más populares.
La interrupción hizo que los trabajadores de Europa y Asia no pudieran iniciar sesión en los servicios de Microsoft 365 durante varias horas, y los gustos de Microsoft Teams, Outlook, OneDrive for Business, Exchange Online y SharePoint se vieron afectados.
Habiendo identificado inicialmente «un cambio de enrutamiento de red de área amplia (WAN)» como el culpable, Microsoft ahora ha publicado los hallazgos (se abre en una pestaña nueva) de su investigación inicial sobre la interrupción, revelando que las cosas eran, de hecho, un poco más complicadas que eso.
Explicación de la interrupción de Microsoft Teams
«Entre las 07:05 UTC y las 12:43 UTC del 25 de enero de 2023, los clientes experimentaron problemas con la conectividad de la red, lo que se manifestó como una latencia prolongada de la red y/o tiempos de espera al intentar conectarse a los recursos alojados en las regiones de Azure, así como a otros servicios de Microsoft, incluidos Microsoft 365 y Power Platform», señaló el informe de la compañía.
«Determinamos que un cambio realizado en la Red de área amplia (WAN) de Microsoft afectó la conectividad entre los clientes en Internet a Azure, la conectividad entre regiones, así como la conectividad entre locales a través de ExpressRoute».
«Como parte de un cambio planificado para actualizar la dirección IP en un enrutador WAN, un comando dado al enrutador provocó que enviara mensajes a todos los demás enrutadores en la WAN, lo que resultó en que todos ellos recalcularan sus tablas de adyacencia y reenvío. Durante este proceso de recálculo, los enrutadores no pudieron reenviar correctamente los paquetes que los atravesaban. El comando que causó el problema tiene diferentes comportamientos en diferentes dispositivos de red, y el comando no había sido examinado utilizando nuestro proceso de calificación completo en el enrutador en el que estaba ejecutado.»
Microsoft dijo que, en general, pudo identificar el problema en una hora y que todo su equipo de red interno volvió a la normalidad en dos horas y media.
Para ayudar a evitar que el mismo problema vuelva a ocurrir en el futuro, Microsoft dice que ha «bloqueado la ejecución de comandos de gran impacto en los dispositivos». La compañía también está trabajando para agregar un nuevo requisito para que todas las ejecuciones de comandos en sus dispositivos sigan pautas de cambio seguras.