Digital.it
QR code per la pagina originale
news_89b40cfd731bf780.png

Google, ReCaptcha contro spam ed errori

Google ha rilevato la proprietà di ReCaptcha, sistema che mette le procedure di login ai servizi online a disposizione dei sistemi di scannerizzazione: l'occhio umano è in grado di aiutare gli OCR ad interpretare quelle parole che il sistema non riconosce

L’idea è geniale, e Google l’ha fatta propria. Per una somma non meglio precisata, il gruppo ha infatti acquisito il gruppo ReCaptcha, piccola start-up che da tempo porta avanti una semplice idea in grado di coniugare l’esigenza di bloccare i bot dello spam con la necessità di offrire un aiuto umano al lavoro degli OCR che trasformano i libri stampati in bit. Su Webnews se ne parlò già il 25 maggio del 2007, quando ancora la digitalizzazione dei libri era agli albori: ReCaptcha faceva capolino online attirando molte attenzioni, fino a giungere a due anni di distanza alla cessione dell’idea per farla fiorire sui server di Mountain View.

Il Captcha è un sistema noto, utile a certificare il fatto che l’accesso ad un sito sia stato compiuto da una persona fisica piuttosto che da un bot. Questi ultimi, infatti, tentano di accedere a sistemi quali Gmail per offrire a malintenzionati uno strumento utile all’invio di grosse quantità di spam. I sistemi Captcha, però, sono dovuti cambiare nel tempo poiché le tecniche di violazione si son fatte sempre più raffinate ed il gioco a “guardia e ladri” si sussegue ormai da tempo. Il sistema che meglio sembra funzionare è la proposizione di parole distorte che l’occhio umano è in grado di identificare con facilità, ma che un bot difficilmente riuscirà a riconoscere. ReCaptcha va un passo oltre, proponendo parole non solo distorte, ma parole la cui soluzione può avere anche una successiva utilità.

Ciò che ReCaptcha si propone di fare, infatti, è raccogliere tutti quei lemmi che i software OCR non sono riusciti ad identificare con chiarezza, proponendoli quindi agli utenti e chiedendo loro di identificarli per avere accesso al login del caso. L’aiuto dell’occhio umano è in grado di portare la precisione delle digitalizzazioni al 99.5%, migliorando in modo sostanziale il margine d’errore proprio dei sistemi OCR tradizionali. Con l’acquisto di Google l’orizzonte si fa chiaro: ReCaptcha verrà adottato su alcuni dei servizi del gruppo, portando così sotto gli occhi di milioni di utenti le parole che l’OCR non è riuscito a identificare in fase di scannerizzazione dei libri da portare su Google Books.

Il funzionamento di ReCaptcha

«Questa tecnologia potenzierà i progetti di scannerizzazione su larga scala quali Google Books o Google News Archive Search. Avere la versione testuale dei documenti è importante perché il testo permette la ricerca [...]. Perciò applicheremo la tecnologia su Google non solo per aumentare la protezione da frodi e spam, ma anche per migliorare i processi di scannerizzazione di libri e giornali». Google spiega che il team ReCaptcha entrerà ad ogni effetto all’interno del team di Mountain View.

ReCaptcha è stato adottato in precedenza anche dal New York Times, aiutando il gruppo a migliorare l’esportazione in bit di 150 anni di archivio cartaceo. Il sistema dei due piccioni con una fava farà ora capolino su Google (ove peraltro è già presente sotto forma di progetto inserito nell’area Google Code), apportando un’utilità sociale alla semplice e ripetitiva operazione che richiede l’attenzione dell’utente ad ogni registrazione online richiedente una verifica anti-bot.

Se vuoi aggiornamenti su Google, ReCaptcha contro spam ed errori inserisci la tua e-mail nel box qui sotto:

  • http://www.patrickweb.it Patrick

    Sono contento di questo acquisto da parte di Google! E’ un sistema che funziona bene e il fatto che ora ci metterà le mani MisterG, non può che migliorare!

  • Baffo

    non capisco… ma se il sistema non sa cosa c’è scritto nell’immagine perchè l’ocr non lo riconosce, come fa a sapere che l’utente scrive effettivamente la corrispondente parola ?

  • http://www.webnews.it Giacomo Dotta

    Domanda che mi son posto. Penso personalmente sia una questione statistica, magari chiedendo la ripetizione di una parola o fornendo più richieste. Ma non sembra spiegato il funzionamento esatto

  • Luca

    Da wikipedia:
    “Quando due sistemi OCR identificano in modo diverso una parola questa viene associata a una parola nota e inviata a un utente che deve superare un test captcha per accedere a un servizio. Si presuppone che se un utente individui correttamente la parola nota allora individuerà anche la parola ignota con elevata probabilità. Quando tre utenti danno la stessa risposta il sistema archivia la parola come corretta.”

    http://it.wikipedia.org/wiki/CAPTCHA#reCaptcha

  • Baffo

    Se sono un malintenzionato, utilizzo un bot, e tento di riconoscere una parola che non è mai stata utilizzata nel captcha (quindi è la 1a delle 3 risposte) inserendo un termine simile, il sistema (che non sa ancora qual’è l’esatta parola) mi farà accedere ?

  • Pako

    Da wikipedia: “Si presuppone che se un utente individui” (http://it.wikipedia.org/w/index.php?title=CAPTCHA&oldid=26764062#reCaptcha). Non male, anche considerando che quest’errore è ancora lì dopo più di un anno… (http://it.wikipedia.org/w/index.php?title=CAPTCHA