QR code per la pagina originale

Il segreto della velocità di Google Books

Il progetto di digitalizzazione dei libri avviato da Google ha un piccolo segreto, svelato da un brevetto, relativamente al processo di digitalizzazione. Tutto viene attuato grazie a due raggi infrarossi che analizzano la curvatura delle pagine

,

Mentre il progetto Google Books è sotto i riflettori per quel che il relativo caso legale sta proponendo, alcune interessanti novità stanno emergendo relativamente a quello che è invece il profilo tecnico che sta dietro l’iniziativa dell’azienda di Mountain View. A parlare è un brevetto, dai cui estremi emerge un impegno di alto profilo non soltanto dal punto di vista organizzativo, non soltanto per l’idea di fondo, ma anche per come tutto ciò è stato messo a punto per fare in modo che il lavoro di scannerizzazione potesse essere quanto più rapido e qualitativo possibile.

Google è riuscita a scannerizzare miliardi di pagine in pochi mesi, portando così a compimento un enorme database a cavallo tra più biblioteche statunitensi. L’immaginario collettivo vuole la scannerizzazione operata tramite l’apposizione di una superficie piana sul libro, così che le deformazioni vengano annullate e lo scanner possa operare ottenendo un’immagine regolare della pagina analizzata. Google, invece, ha ideato un procedimento molto più complesso, ma al tempo stesso in grado di velocizzare e migliorare la resa dello scanning. E il tutto è posto in essere grazie all’uso di infrarossi.

Una immagine catturata dai documenti depositati presso l’USPTO (brevetto numero 7508978) delinea le componenti dello scanner made in Google:

Processo di scanning brevettato da Google

Processo di scanning brevettato da Google

Due raggi infrarossi hanno l’incarico di valutare la curvatura delle pagine del libro. Il volume viene ad assumere così contorni tridimensionali che servono, una volta scattata la fotografia della pagina, a deformare ogni elemento così da riportarlo tramite elaborazione grafica ad avere forma virtuale planare. Soltanto a questo stadio l’immagine viene passata al sistema OCR che riconoscerà i singoli caratteri e trasformerà in testo l’immagine catturata.

L’esigenza di Google era fin dall’inizio quella di creare un database quanto più corposo possibile nel minor tempo possibile. Ai tempi, infatti, Google era tra i pochi ad operare nel settore e Microsoft era pronta a minacciare da lontano l’iniziativa. Google in breve tempo è però riuscita a fare il vuoto dietro di sé ed oggi, addirittura, si trova a dover rispondere ad accuse di monopolio dovute al modo in cui il gruppo sta tentando di risolvere la class action intentata dal mondo degli autori e degli editori coinvolti.

Durante le prime fasi la velocità era dunque un elemento fondamentale. A supporto di Google venne l’idea di Francois-Marie Lefevere e Marin Saric. La richiesta di registrazione del brevetto risale al Settembre del 2004, con riconoscimento ufficiale dell’USPTO datato 24 Marzo 2009.