La semaine dernière, Microsoft a confirmé une panne de plusieurs heures qui empêchait les utilisateurs d’accéder à Azure, Microsoft Teams et d’autres services Microsoft 365. La société a depuis publié un rapport préliminaire post-incident pour informer les clients de la cause principale du problème.

Microsoft a expliqué que la perturbation avait été causée par un changement d’adresse IP du routeur lors d’une mise à jour de maintenance planifiée le 25 janvier. Il avait rompu les connexions entre les appareils clients et Azure. Le problème a touché Exchange Online, Teams, Outlook, OneDrive Entreprise, SharePoint Online, Microsoft Intune, PowerBi, Microsoft Graph, le portail d’administration M365, Microsoft Defender pour Identity et Microsoft Defender pour les applications cloud.

“Comme Dans le cadre d’un changement prévu pour mettre à jour l’adresse IP sur un routeur WAN, une commande donnée au routeur l’a amené à envoyer des messages à tous les autres routeurs du WAN, ce qui a entraîné le recalcul de leurs tables de contiguïté et de transfert. Au cours de ce processus de recalcul, les routeurs n’ont pas été en mesure de transférer correctement les paquets qui les traversaient », a écrit Microsoft sur la page d’historique des statuts d’Azure.

Microsoft prend un approche proactive pour éviter les pannes mondiales de Microsoft 365

Les ingénieurs de Microsoft ont examiné les modifications récentes et identifié la commande problématique qui a causé les problèmes de service de nom de domaine (DNS) et de WAN. La société a ensuite annulé le changement de réseau pour atténuer le problème sur tous les locataires Microsoft 365 dans le monde.

Les services de Microsoft ont été entièrement remis en ligne vers 12h43 UTC le 25 janvier après une interruption de plus de quatre heures. La société a confirmé que la panne mondiale affectait également les services cloud du gouvernement Azure.

Microsoft a souligné qu’il avait pris quelques mesures pour éviter que des incidents similaires ne se reproduisent à l’avenir. Il a bloqué l’exécution de toutes les commandes à fort impact sur les périphériques réseau. À l’avenir, toutes les exécutions de commandes sur les appareils doivent respecter les directives de changement en toute sécurité. Microsoft a l’intention de publier le rapport final post-incident dans les prochaines semaines.

By Henry Taylor

Je travaille en tant que développeur back-end. Certains d'entre vous m'ont peut-être vu à la conférence des développeurs. Dernièrement, j'ai travaillé sur un projet open source.