Google Refine per analisi e gestione dei dati

Google Refine è un nuovo tool gratuito distribuito da Google per l'analisi di database testuali di grandi dimensioni
Google Refine è un nuovo tool gratuito distribuito da Google per l'analisi di database testuali di grandi dimensioni

Grazie all’acquisizione di Metaweb durante lo scorso mese di Luglio, Google si è ritrovato tra le mani un prodotto sul quale ha deciso di puntare per lanciarsi in un nuovo settore. Si tratta di Freebase Gridworks, che dopo alcuni mesi di manutenzione nelle officine di Mountain View esce e si mostra al grande pubblico sotto il nome di Google Refine.

Lo scopo principale di tale applicazione, giunta alla versione 2.0, è quello di fornire un ampio numero di strumenti per la gestione, l’analisi e l’elaborazione di pacchetti di informazioni in formato testuale. Grazie a Refine, rilasciato sotto licenza open source, chiunque possegga una base di dati, anche apparentemente priva di un significato apparente, può rielaborare il tutto ed estrapolare utili informazioni.

[youtube]http://www.youtube.com/watch?v=yNccGtn3Wb0[/youtube]

Tra le operazioni possibili figura anche quella che prende il nome di normalizzazione: digitando una parola si può dare il via alla ricerca di tutte le sue possibili varianti, sotto il profilo semantico, e sostituire queste con l’espressione più corretta. Piuttosto utile per coloro che si trovano a gestire frequentemente dati, inoltre, è il linguaggio introdotto da Google in Refine per l’analisi delle informazioni intrinseche dei data set studiati.

[youtube]http://www.youtube.com/watch?v=45EnWK-fE9k[/youtube]

Oltre a rappresentare una delle più interessanti soluzioni del settore, grazie ad ottime prestazioni anche in condizioni di lavoro estreme, Google Refine elimina anche la necessità di scrivere apposite applicazioni per l’elaborazione di determinati tipi di dati. La stessa applicazione può essere infatti sfruttata per gestire più tipologie diverse di data set, con la possibilità di collegarne due o più tramite dei record.

[youtube]http://www.youtube.com/watch?v=m5ER2qRH1OQ[/youtube]

A giovare del lavoro svolto dagli ingegneri saranno soprattutto aziende ed associazioni che per i propri scopi necessitano di lavorare con grosse quantità di dati. L’agenzia statunitense ProPublica, ad esempio, ha già sfruttato Refine per aggregare informazioni provenienti da sette database diversi, per studiare l’andamento di alcuni aspetti legati al campo sanitario.

Google Refine è disponibile per il download gratuito tramite la pagina ufficiale del progetto, sulla quale figurano anche i principali cambiamenti apportati dal team di sviluppo nel passaggio alla versione 2.0.

Ti consigliamo anche

Link copiato negli appunti