QR code per la pagina originale

Dropbox riconosce il testo in immagini e PDF

Dropbox utilizza il machine learning per il riconoscimento dei caratteri in immagini e PDF, consentendo la ricerca del testo contenuto nel documento.

,

Molti utenti utilizzano il popolare servizio di cloud storage per conservare i documenti in formato digitale, ma cercare quello desiderato diventa un’impresa quasi impossibile, se non è stato scelto un nome appropriato. Dropbox ha quindi sviluppato un sistema OCR che sfrutta il machine learning per riconoscere il testo nelle immagini e nei file PDF.

Su Dropbox sono presenti oltre 20 miliardi di immagini e PDF, il 10% dei quali sono foto di documenti. A differenza dei documenti Word o dei PDF con solo testo, il contenuto di queste immagini non può essere cercato. Per risolvere il problema, l’azienda californiana ha implementato il riconoscimento automatico dei caratteri (OCR), utilizzando la potenza di calcolo dei suoi computer. Il processo, in particolare con i PDF, è piuttosto complesso.

È infatti necessario innanzitutto dividere i file in tre gruppi: PDF con testo indicizzabile, PDF con testo in forma di immagine e PDF senza testo. Quindi viene estratto il testo dalle prime 10 pagine del documento. L’operazione viene effettuata attraverso una rete neurale convoluzionale addestrata con immagini pubbliche o fornite dagli stessi utenti. Il testo diventa così “ricercabile” ed è possibile trovare il file digitando la keyword nell’apposito campo.

Attualmente la tecnologia funziona solo per i documenti in lingua inglese (anche quelli già sul cloud) salvati nei formati JPEG, GIF, PNG, TIFF e PDF. Il riconoscimento automatico del testo è attivo sulle versioni web, desktop e mobile di Dropbox, ma sarà inizialmente accessibile solo agli abbonati Business Advanced e Enterprise (se la funzionalità viene attivata dall’amministratore). Gli utenti Professional potranno utilizzarla nei prossimi mesi. Gli utenti ordinari dovranno invece scegliere un nome migliore.

Fonte: Dropbox • Via: VentureBeat