A caccia di errori nei datacenter di Google

Gli errori di calcolo nei banchi di memoria DRAM sono molto più frequenti del previsto. A sostenerlo è uno studio realizzato dalla University of Toronto in collaborazione con Google, il primo ad aver analizzato le performance dei sistemi di memoria volatile su larga scala attraverso i server utilizzati da Mountain View. I risultati della ricerca confermano la necessità di implementare maggiori soluzioni per attenuare il problema e ridurre il numero di crash dei sistemi causati dagli errori.

Gli autori dell’analisi [pdf] hanno raccolto dati dai datacenter di Google per due anni e mezzo, registrando natura e gravità degli errori e prendendo nota di altre importanti variabili come la temperatura dei componenti, il grado di utilizzo delle CPU dei server e le quantità di memoria allocate. Le informazioni raccolte hanno infine portato i ricercatori verso una prima grande conclusione: gli errori DRAM sono molto più comuni di quanto rilevato da alcuni studi precedenti, basati su test in laboratorio e non su ricerche sul campo. Alcune ricerche avevano messo in evidenza una media compresa tra 200 e 5mila avarie per ogni miliardo di ore di attività (FIT) per Mbit, mentre lo studio effettuato sui server di Google ha portato a una media compresa tra 25mila e 75mila FIT per Mbit.

Gli autori dello studio basato sui datacenter della società di Mountain View hanno inoltre evidenziato come tali errori siano stati causati da un numero ridotto di memorie, afflitte con ogni evidenza da seri problemi hardware a causa di un uso intenso o di un imprevisto difetto di fabbrica. Appena l’8% delle DIMM ha causato il 90% circa di tutti gli errori rilevati e ogni banco di memoria alla base di un errore ha aumentato di diverse centinaia di volte la probabilità di essere la causa di almeno un altro errore nei 30 giorni successivi.

Lo studio ha poi confermato quanto ipotizzato da numerosi ricercatori nel corso degli ultimi anni: l’hardware maggiormente datato ha più probabilità di incorrere in un malfunzionamento. Ma sul termine “datato”, la ricerca ha fornito una cifra precisa che testimonia la rapida usura dei componenti nei datacenter: dopo appena 20 mesi di utilizzo una DIMM fa aumentare drasticamente la media degli errori di calcolo.

I server di Google utilizzano l’ECC (Error Correction Code) per arginare il più possibile il numero di errori e corregerli sul momento prima che possano causare seri problemi di stabilità. Semplificando un poco, il sistema è in grado di rilevare la presenza di un 1 al posto di uno 0 (e viceversa) in una cella di memoria e di porvi rimedio in tempo scongiurando malfunzionamenti più gravi. Tale soluzione viene spesso implementata nei datacenter, ma non sui personal computer, che possono essere dunque maggiormente esposti agli errori di memoria. Tuttavia, le quantità di dati elaborate da un PC e presenti nella memoria volatile sono ben lontane dalla mole di informazioni processate dai server, una condizione che solitamente rende meno grave un errore su una postazione singola e “consumer”.

La ricerca ha poi dimostrato come la temperatura dei componenti abbia un impatto marginale sulla probabilità di registrare un errore. Le alte temperature di norma aumentano il rateo di malfunzionamenti, ma stando a quanto affermato dai ricercatori, tale condizione non avrebbe influito particolarmente sulle prestazioni dei sistemi analizzati nel corso degli ultimi due anni e mezzo. Lo studio evidenza, inoltre, come gli errori gravi e irreparabili legati all’hardware siano molto più comuni degli errori lievi causati solitamente da eventi esterni come il passaggio random dei raggi cosmici.

Una conclusione che sembra sovvertire quanto ipotizzato in un’ampia serie di precedenti ricerche, viziate però dalla realizzazione in laboratorio su scala ridotta. Infine, stando ai risultati le DDR2 non sono meno affidabili a causa della loro architettura come temuto da numerosi osservatori. Scrivono i ricercatori: «Le DIMM utilizzate nelle tre piattaforme più recenti hanno messo in evidenza un tasso inferiore di errori correggibili rispetto alle altre due piattaforme più datate, nonostante maggiori capacità di memoria».

Gli elementi portati alla luce dallo studio sui datacenter di Google, il primo su larga scala sulle prestazioni di memoria, potranno consentire ai progettisti hardware e software di mettere in cantiere nuove soluzioni per arginare il problema degli errori e rendere maggiormente stabili e affidabili i sistemi.