W zeszłym tygodniu miała miejsce wielogodzinna przerwa w działaniu wieloskładnikowego uwierzytelniania, która uniemożliwiła logowanie do Azure, Office 365, Dynamics i innych usług Microsoftu. Inżynierowie firmy na bieżąco raportowali o postępach w naprawach, ale dopiero dzisiaj otrzymaliśmy szczegółowe wyjaśnienia. W rzeczywistości Microsoft odkrył aż trzy niezależne przyczyny usterki.
19 listopada usługa Microsoft Azure Active Directory Multi-Factor Authentication (MFA) była przez 14 godzin niedostępna dla wielu użytkowników. Ponieważ użytkownicy Office 365 i Dynamics logują się za jej pośrednictwem, również oni zostali tym dotknięci. Microsoft wyjaśnia, że pierwszą przyczyną awarii było opóźnienie w komunikacji front-end z usługami pamięci podręcznej MFA. Drugą przyczyną było zjawisko race condition przy przetwarzaniu odpowiedzi z serwera back-endowego MFA. Problemy te pojawiły się po aktualizacji kodu, która rozpoczęła się 13 listopada w niektórych centrach danych i zakończyła we wszystkich centrach danych 16 listopada. Trzecia zidentyfikowana przyczyna została wywołana przez drugą i spowodowała, że back-end MFA nie był w stanie przetworzyć dalszych żądań z front-endu, a usługi monitorujące Microsoftu tego nie wychwyciły.
Klienci z Europy, Bliskiego Wschodu i Afryki (EMEA) oraz Azji i Pacyfiku (APAC) po raz pierwszy zostali dotknięci tego typu kaskadą problemów. Awaria dosięgnęła najpierw zachodnioeuropejskie, a potem amerykańskie centra danych. Nawet po zastosowaniu poprawki, która rozwiązała pierwszy problem, nie udało się przywrócić działania MFA, a ponadto zawiodły telemetria i monitorowanie. Gdy udało się już podnieść MFA, Microsoft zaczął planować przyszłe działania, mające na celu poprawienie usługi, by uniknąć tego typu problemów w przyszłości. Do końca tego roku firma zamierza przejrzeć procedury aktualizacji i wdrażania, usługi i narzędzia monitorujące, a także procesy komunikacji z pulpitem. W styczniu z kolei dopracowany ma zostać proces kwarantanny, który pomoże uniknąć rozprzestrzeniania się problemów na inne centra danych.
Microsoftu przeprosił klientów, ale nie wspomniał o możliwej rekompensacie finansowej. Awaria miała miejsce w poniedziałek, zatem wielu subskrybentów mogło przez to ponieść straty. Warto też zauważyć, że Microsoft jest jednym z największych promotorów wieloczynnikowego uwierzytelniania, które może i jest bezpieczniejsze od tradycyjnych haseł, ale jego obsługa może być bardziej awaryjna.