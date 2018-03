Luca Colantuoni,

Il 29 febbraio scorso, il servizio di cloud computing Windows Azure è andato in tilt, bloccando l’accesso agli utenti. L’azienda di Redmond ha spiegato che il problema è stato causato dall’errata gestione della data da parte dei server e, pertanto, offrirà a tutti i clienti un credito del 33% sul costo dell’abbonamento mensile. Insomma, tutto come ipotizzato fin dalla prima ora: è stata colpa dell’anno bisestile e dell’incapacità del sistema di gestire la data eccezionale del 29 febbraio.

Azure è composto da diversi servizi, ma il problema ha colpito esclusivamente il servizio Compute, senza nessun impatto negativo sui servizi Storage e SQL Azure. Per spiegare il motivo dell’interruzione del servizio, Microsoft ha descritto brevemente il funzionamento della piattaforma.

Come è noto, in Windows Azure le applicazioni cloud sono macchine virtuali in esecuzione su server fisici ospitati nei datacenter Microsoft. La funzionalità Platform as a Service (PaaS) richiede la stretta integrazione tra i “guest agent” (GA) delle macchine virtuali e gli “host agent” (HA) del sistema operativo. Quando viene creata un’applicazione, il GA invia ad HA un certificato che garantisce la riservatezza delle informazioni trasmesse in forma criptata sulle reti fisiche o logiche.

Questo certificato SSL contiene un intervallo di validità con la data di inizio e fine. Il 29 febbraio scorso, il GA ha calcolato il periodo di validità, sommando un anno alla data iniziale e ottenendo come data finale il 29 febbraio 2013. Ciò ha impedito la creazione del certificato, che non è stato ricevuto dagli HA. Dopo 25 minuti senza risposta, l’host agent suppone che il server sia guasto e avvia la procedura automatica di recupero che sposta le macchine virtuali sugli altri server del cluster. Per impedire la diffusione a cascata del bug, il controller del cluster blocca la procedura dopo 75 minuti e invia un segnale di allarme. A questo punto, per risolvere il problema, Microsoft ha reso inaccessibile Azure, bloccando l’accesso da tutto il mondo. Il fix è stato successivamente applicato e il servizio è tornato online circa 12 ore dopo.

Microsoft trarrà insegnamento da questo inconveniente per offrire un servizio migliore in futuro, ottimizzando i processi relativi alla prevenzione, rilevazione e riduzione dei tempi di ripristino dopo un guasto. Considerata la natura straordinaria dell’evento, tutti i clienti di Windows Azure riceveranno un credito pari al 33% dell’abbonamento mensile che sarà scontato sulla successiva fattura.