Un sistema antispam aiuta a digitalizzare i libri

Il nuovo sistema reCAPTCHA, rielaborazione dei diffusissimi CAPTCHA, consente di discriminare gli uomini dai sistemi automatici e quindi di prevenire lo spam, ma contemporaneamente aiuta a digitalizzare le parole che i computer non riconoscono sui libri
Il nuovo sistema reCAPTCHA, rielaborazione dei diffusissimi CAPTCHA, consente di discriminare gli uomini dai sistemi automatici e quindi di prevenire lo spam, ma contemporaneamente aiuta a digitalizzare le parole che i computer non riconoscono sui libri

A metà tra il distributed computing del SETI@HOME project e il Mechanical Turk di Amazon si inserisce ora il nuovo reCAPTCHA, sistema in grado di prevenire lo spam nei commenti e nelle sottoscrizioni ai servizi sul web e contemporaneamente aiutare il difficile processo di digitalizzazione dei libri con strumenti OCR.

Il CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart), già esistente da anni, è una forma base di discriminazione tra umani e computer: propone codici leggibili unicamente dagli uomini che chiede agli utenti di ricopiare in un box al momento di effettuare una registrazione o di commentare su un blog che vuole prevenire lo spam. I codici sono costituiti da sequenze di lettere o di numeri presentate in forme non convenzionali (sbarrate oppure in maniera non lineare) che, non potendo essere interpretate da un bot, impediscono a sistemi automatizzati di registrazione o spamming di completare la procedura.

Ora il sistema reCAPTCHA elaborato alla Carnegie Mellon University aggiunge al tradizionale sistema anche una variante. L’utente deve prima ricopiare un codice come nel CAPTCHA normale, dopodichè gli viene chiesto di ricopiare anche un’altra stringa di testo che questa volta è effettivamente una stringa che i computer incaricati di digitalizzare le versioni cartacee di libri non sono riuscite a leggere e quindi non conoscono.

Errori nella digitalizzazione OCR

Errori nella digitalizzazione OCR

Se l’utente dà prova di non essere un bot risolvendo la prima parte del test allora viene ritenuto affidabile per la risposta che darà alla seconda parte. Ad ogni modo la traduzione di una parola in linguaggio digitale che le macchine possano comprendere viene giudicata come effettiva solo se questa viene identificata nello stesso modo da almeno tre utenti diversi.

Homepage reCAPCHA

Homepage reCAPCHA

I numeri che un simile progetto riesce a sviluppare sono già impressionanti. Nella prima metà del primo giorno di prova, quando il reCAPTCHA era adottato da circa 150 siti, il sistema ha aiutato a digitalizzare 8,000 parole. Naturalmente chiunque voglia aderire e contribuire alla digitalizzazione dei libri lo può fare liberamente: le API utili ad integrare il sistema nel proprio software di autenticazione sono a disposizione di tutti.

Le parole, una volta interpretate, sono inviate alla direzione del progetto di digitalizzazione dei libri che fa capo all’Internet Archive Project, il cui direttore, Brewster Kahle, ha commentato su NetworkWorld: «penso sia un’idea brillante usare internet per correggere gli errori dei computer. Questo è un esempio del perchè sia importante avere collezioni aperte di dominio pubblico. La gente lavora insieme per costruire un sistema buono e libero».

Ti consigliamo anche

Link copiato negli appunti