Niezawodność chmury Azure wynosi 99.995%. Microsoft chce poprawić wynik

Niezawodność chmury Azure wynosi 99.995%. Microsoft chce poprawić wynik

Autor: Krzysztof Sulikowski

Opublikowano: 7/15/2019, 9:16 PM

Liczba odsłon: 1053

Microsoft rzeczywiście może pochwalić się wynikiem average uptime, czyli średniej niezawodności lub też dyspozycyjności swojej globalnej infrastruktury chmurowej. Przez ostatnie 12 miesięcy wyniósł on 99.995%. Wciąż jednak może być lepiej! Dlaczego i w jaki sposób Microsoft chce poprawić niezawodność Azure?

Mimo ogólnej wysokiej niezawodności Azure w zeszłym roku doświadczył trzech znaczących incydentów, które wpłynęły na klientów: przestoju centrum danych w regionie South Central US we wrześniu 2018 r., kłopotów z usługą Multi-Factor Authentication (MFA) w Azure Active Directory (Azure AD) w listopadzie 2018 r. oraz problemów z utrzymaniem DNS w maju bieżącego roku. Budowanie i zarządzanie globalną infrastrukturą chmurową 54 regionów, składającą się z setek ewoluujących usług, jest sporym i złożonym zadaniem, dlatego traktujemy każdy incydent jako ważną lekcję - wyjaśnia Mark Russinovich, Chief Technology Officer w Microsoft Azure. Przestoje i inne incydenty z usługami są wyzwaniem dla wszystkich dostawców chmury publicznej, dlatego wciąż poprawiamy nasze zrozumienie złożonych sposobów, w które czynniki, takie jak procesy operacyjne, projekty architektury, problemy sprzętowe, luki w oprogramowaniu i czynniki ludzkie, mogą doprowadzić do incydentów. Wymienione wcześniej przypadki były rezultatem wielu błędów i ich interakcji, dlatego Microsoft chce zapobiegać im w przyszłości.

Reklama

Microsoft powołał nowy zespół Quality Engineering podlegający pod biuro CTO Azure, który będzie współpracował z zespołem Site Reliability Engineering (SRE) nad opracowaniem nowych sposobów poprawy niezawodności. Kluczowe inicjatywy dla tego przedsięwzięcia obejmują:

  • Praktyki bezpiecznego wdrażania przy pomocy specjalnego frameworka, które mają na celu upewnienie się, że wszystkie zmiany kodu i konfiguracji przeszły przez cykl konkretnych etapów testów i walidacji.
  • Praca awaryjna, która w przypadku przestoju za jeszcze większy priorytet obiera pomyślne przywrócenie wszystkich danych klientów. Ponadto klienci otrzymają możliwość zainicjowania własnego przywracania na poziomie magazynowym.
  • Rozszerzenie stref dostępności na kolejnych 10 największych regionów Azure do 2021 roku.
  • Project Tardigrade, czyli nowa usługa Azure zapowiedziana na konferencji Build 2019. Nazwę zawdzięcza niemalże niezniszczalnemu, mikroskopijnemu zwierzęciu (niesporczakowi). Usługa ta pozwoli rozpoznać błędy sprzętowe lub wycieki pamięci, jeszcze zanim doprowadzą do wysypania systemu operacyjnego. Dzięki temu Azure będzie mógł zamrozić maszyny wirtualne na kilka sekund i w tym czasie przenieść obciążenia do zdrowego hosta.
  • Utrzymywanie o niewielkim lub zerowym wpływie na klienta - Microsoft testuje nowe technologie aktualizacji, w tym hot patchingu, migracji w czasie rzeczywistym i migracji na miejscu, a w zeszłym roku wdrożył dziesiątki łatek i poprawek, które nie miały wpływu na klienta ani nie powodowały przestoju.
  • Wstrzykiwanie błędów i testy warunków skrajnych, które pomogą upewnić się, że systemy będą działać zgodnie z tym, jak zostały zaprojektowane, w obliczu błędów i usterek.

Sądząc po tych wypowiedziach, widać, że Microsoft mocno stara się o poprawę jakości swojej chmury i utrzymanie dobrej renomy wśród klientów. W tak innowacyjnym środowisku, jakim jest chmura obliczeniowa, brak innowacyjności oznacza regres, dlatego... starać się trzeba.

Jak wykorzystać Copilot w codziennej pracy? Kurs w przedsprzedaży
Jak wykorzystać Copilot w codziennej pracy? Kurs w przedsprzedaży

Wydarzenia