QR code per la pagina originale

Reti neurali per le anteprime dei video su YouTube

Google sfrutta reti neurali e intelligenza artificiale per estrarre, dai video di YouTube, un fotogramma che risulti identificativo per l'intero filmato.

,

Quando si effettua il caricamento di un filmato su YouTube, la piattaforma analizza in modo del tutto automatico il video, frame dopo frame, alla ricerca di quello che può essere utilizzato come un’anteprima da mostrare agli utenti. Successivamente il creatore può scegliere una delle tre proposte formulate dal servizio oppure caricarne una propria. In futuro il sistema che si occupa di questa operazione sarà reso più smart, grazie all’impiego delle reti neurali.

Il processo impiegato da YouTube per la scelta dei frame da utilizzare come anteprime

Il processo impiegato da YouTube per la scelta dei frame da utilizzare come anteprime

Per allenare l’algoritmo ad ottenere risultati migliori, Google gli ha fornito alcuni esempi positivi come immagini caricate dai creatori di contenuti oppure frame in cui soggetto della clip è ben visibile al centro, mentre negli esempi le cose inquadrate sono mosse, solo parzialmente visibili o non messe a fuoco. Partendo da questa premessa, il software incaricato della scelta sfrutta un metodo chiamato Binary Classification (Classificazione Binaria) per stabilire, frame dopo frame, se le immagini incluse nel video sono adatte o meno a fungere da anteprima. In altre parole, bigG impiega una tecnologia legata all’intelligenza artificiale per stabilire se un’immagine è rappresentativa per il filmato in questione.

Esempi positivi ed esempi negativi forniti da Google all'algoritmo

Esempi positivi ed esempi negativi forniti da Google all’algoritmo

Secondo Google, i frame giusti sono solitamente “ben inquadrati, con un soggetto specifico al centro”. Quelli estratti dalle reti neurali vengono selezionati dall’utente nel 65% dei casi, a testimonianza della bontà dell’algoritmo. Di seguito alcuni esempi per capire, in termini visivi, quale sia la differenza tra un frame adatto a rappresentare l’intero filmato e quale invece risulta poco identificativo. La novità è stata introdotta di recente e i suoi effetti non dovrebbero tardare a mostrarsi.

I risultati del vecchio algoritmo (in alto) a confronto con quelli forniti dal nuovo algoritmo (in basso)

I risultati del vecchio algoritmo (in alto) a confronto con quelli forniti dal nuovo algoritmo (in basso)

Fonte: Google Research Blog • Notizie su: ,