QR code per la pagina originale

A caccia di errori nei datacenter di Google

Gli errori dovuti alle DRAM sono molto più frequenti di quanto previsto in precedenza. Lo rivela il primo studio su larga scala realizzato sui datacenter di Google nel corso degli ultimi due anni e mezzo

,

Gli errori di calcolo nei banchi di memoria DRAM sono molto più frequenti del previsto. A sostenerlo è uno studio realizzato dalla University of Toronto in collaborazione con Google, il primo ad aver analizzato le performance dei sistemi di memoria volatile su larga scala attraverso i server utilizzati da Mountain View. I risultati della ricerca confermano la necessità di implementare maggiori soluzioni per attenuare il problema e ridurre il numero di crash dei sistemi causati dagli errori.

Gli autori dell’analisi [pdf] hanno raccolto dati dai datacenter di Google per due anni e mezzo, registrando natura e gravità degli errori e prendendo nota di altre importanti variabili come la temperatura dei componenti, il grado di utilizzo delle CPU dei server e le quantità di memoria allocate. Le informazioni raccolte hanno infine portato i ricercatori verso una prima grande conclusione: gli errori DRAM sono molto più comuni di quanto rilevato da alcuni studi precedenti, basati su test in laboratorio e non su ricerche sul campo. Alcune ricerche avevano messo in evidenza una media compresa tra 200 e 5mila avarie per ogni miliardo di ore di attività (FIT) per Mbit, mentre lo studio effettuato sui server di Google ha portato a una media compresa tra 25mila e 75mila FIT per Mbit.

errori ram

Gli autori dello studio basato sui datacenter della società di Mountain View hanno inoltre evidenziato come tali errori siano stati causati da un numero ridotto di memorie, afflitte con ogni evidenza da seri problemi hardware a causa di un uso intenso o di un imprevisto difetto di fabbrica. Appena l’8% delle DIMM ha causato il 90% circa di tutti gli errori rilevati e ogni banco di memoria alla base di un errore ha aumentato di diverse centinaia di volte la probabilità di essere la causa di almeno un altro errore nei 30 giorni successivi.

Lo studio ha poi confermato quanto ipotizzato da numerosi ricercatori nel corso degli ultimi anni: l’hardware maggiormente datato ha più probabilità di incorrere in un malfunzionamento. Ma sul termine “datato”, la ricerca ha fornito una cifra precisa che testimonia la rapida usura dei componenti nei datacenter: dopo appena 20 mesi di utilizzo una DIMM fa aumentare drasticamente la media degli errori di calcolo.

Notizie su: