Blackout Azure, Microsoft chiede scusa

Microsoft ha spiegato che l'interruzione di quasi 11 ore è stata causata da un bug nel servizio Azure Storage, non prontamente individuato durante i test.
Microsoft ha spiegato che l'interruzione di quasi 11 ore è stata causata da un bug nel servizio Azure Storage, non prontamente individuato durante i test.

Nella serata di martedì (prime ore di mercoledì in Italia) si è verificata un’interruzione dei servizi di Azure, la piattaforma cloud di Microsoft, durata quasi 11 ore. L’azienda di Redmond ha chiesto scusa ai suoi clienti attraverso la pubblicazione di un post sul blog officiale, con il quale ha chiarito il motivo del blackout. Il problema è stato risolto, ma ci sono ancora malfunzionamenti per i siti web e le macchine virtuali in Europa occidentale, come si può vedere nella pagina Stato di Azure.

L’interruzione di Azure si è verificata in Europa, Stati Uniti e parte dell’Asia, e ha riguardano anche i servizi offerti direttamente da Microsoft, come OneDrive, MSN e Xbox Live, non solo quelli dei clienti ospitati sui server dell’azienda. Nonostante Service Health Dashboard e Azure Management Portal indicassero che il funzionamento era regolare, Il problema è stato individuato in Azure Storage (Archiviazione in italiano) e la causa è correlata ad un “performance update“, ovvero ad un aggiornamento che doveva migliorare le prestazioni.

Microsoft spiega che vengono eseguiti test su un numero ristretto di servizi di storage per diverse settimane. Lo scopo è individuare eventuali problemi, prima di applicare l’update a tutti i clienti. Il test, denominato flighting, ha confermato notevoli miglioramenti di prestazioni, per cui l’aggiornamento è stato distribuito globalmente. Ma durante il rollout, i tecnici hanno rilevato che i front end degli storage blob andava in loop infinito, provocando quindi l’interruzione a cascata degli altri servizi.

Il bug è stato risolto ripristinando lo stato precedente, ma la sua complessità ha richiesto più tempo del previsto. Microsoft promette di rivedere il protocollo per l’applicazione delle modifiche e ridurre al minimo la durata delle interruzioni, se dovessero verificarsi in futuro.

Ti consigliamo anche

Link copiato negli appunti