QR code per la pagina originale

Facebook, AI comprende il testo in immagini e video

Si chiama Rosetta ed è un nuovo sistema di intelligenza artificiale che Facebook usa per leggere il testo di immagini e video e comprenderne il contesto.

,

In un momento in cui Facebook deve affrontare una maggiore attenzione alla moderazione dei contenuti e tentare di combattere l’incitamento all’odio che spopola nel suo social network, l’azienda ha appena annunciato un nuovo sistema di intelligenza artificiale chiamato Rosetta che aiuta i suoi sistemi a leggere e comprendere i testi di miliardi di immagini e video che vengono pubblicati dagli utenti ogni giorno. Con la nuova AI, Facebook potrebbe rilevare più facilmente quali contenuti violano le sue regole di incitamento all’odio.

Comprendere il testo che appare nelle immagini è importante per migliorare le esperienze utente, ad esempio per i non vedenti; ma comprendere il testo nelle immagini insieme al contesto in cui appare «aiuta anche i nostri sistemi a identificare proattivamente contenuti inappropriati o dannosi e a mantenere la nostra community al sicuro», annuncia Facebook in un post pubblicato sul suo blog dedicato al Coding. Normalmente, i computer usano un metodo chiamato Optical Character Recognition, o OCR, per vedere cosa c’è nelle immagini o nei video, ma a causa degli enormi numeri di Facebook – ci sono 2,2 miliardi di persone che usano il social network ogni mese – l’OCR ha i suoi difetti, dato che riconosce i caratteri ma non comprende il contesto dell’immagine associata. Quindi Facebook ha costruito un sistema per lavorare su una scala più grande.

Questo sistema si chiama Rosetta, viene utilizzato sia su Facebook che su Instagram e funziona estraendo il testo in diverse lingue da oltre un miliardo di immagini e fotogrammi video in tempo reale, e lo inserisce in un modello di riconoscimento del testo che è stato addestrato sui classificatori per comprendere il contesto del testo e dell’immagine insieme. Può anche essere usato per migliorare la ricerca di foto e di contenuti nel feed di notizie.

Facebook esegue l’estrazione del testo su un’immagine in due fasi indipendenti: rilevamento e riconoscimento. Nel primo passaggio, rileva regioni rettangolari che potenzialmente contengono testo. Nella seconda fase, esegue il riconoscimento testuale, dove, per ognuna delle regioni rilevate, utilizza una rete neurale convoluzionale (CNN) per riconoscere e trascrivere la parola nella regione. «Entrambe le fasi consentono di ottenere una buona precisione», dichiara l’azienda guidata da Mark Zuckerberg.

Ecco come Facebook sta utilizzando Rosetta oggi:

Rosetta è stata ampiamente adottata da vari prodotti e team all’interno di Facebook e Instagram. Il testo estratto da immagini viene utilizzato come caratteristica in vari modelli di apprendimento automatico a monte come quelli per migliorare la pertinenza e la qualità della ricerca di foto, identificare automaticamente il contenuto che viola la nostra politica di incitamento alla parola sulla piattaforma in varie lingue e migliorare la precisione di classificazione delle foto in News Feed per rendere più personalizzato il contenuto.

Dati i problemi di moderazione dei contenuti della società, un sistema di intelligenza artificiale ben funzionante in grado di contrassegnare automaticamente le immagini potenzialmente problematiche potrebbe dunque essere di grande aiuto.