Per questo motivo, rilevare audio falsi è diventato uno degli aspetti più delicati della sicurezza digitale, soprattutto quando il malintenzionato punta a ottenere codici OTP, credenziali o trasferimenti di denaro sfruttando la manipolazione emotiva.
Come FUN-Media smaschera i contenuti audio falsi
Il progetto FUN-Media, sviluppato con il contributo dell’Image and Sound Processing Lab (ISPL) del Politecnico di Milano, utilizza l’intelligenza artificiale per individuare con precisione tracce audio contraffatte. Gli esperti, tra cui Paolo Bestagini e Stefano Tubaro, hanno spiegato che mentre i video falsi sono immediatamente riconoscibili, clonare una voce è oggi più semplice e credibile. Per testare il sistema, il team ha analizzato file generati con strumenti online di sintesi vocale: il risultato è stato l’identificazione immediata del contenuto come falso.

Come si possono riconoscere gli audio e le chiamate false – Webnews.it
La tecnologia FUN-Media non si affida a un singolo algoritmo: si tratta di un ecosistema di detector specializzati, ciascuno progettato per analizzare diversi aspetti del parlato. Alcuni sistemi valutano l’evoluzione delle emozioni, altri la prosodia, ovvero ritmo, intonazione e cadenza, mentre altri ancora controllano il contenuto semantico per individuare schemi sospetti tipici dei bot. Questa strategia consente di ridurre la probabilità di falsi negativi, garantendo una maggiore accuratezza.
Machine learning e spiegabilità dei risultati
I detector utilizzano tecniche di machine learning e deep learning addestrate su ampi dataset di voci reali e sintetiche. Le registrazioni autentiche provengono spesso da audiolibri o materiali pubblici, mentre i file falsi sono generati da sintetizzatori vocali commerciali o strumenti online. Un aspetto innovativo di FUN-Media è la spiegabilità dei risultati: ogni verdetto è accompagnato da un’analisi chiara e interpretabile, fondamentale per eventuali contesti legali. Non basta dire che l’IA ha identificato un falso; il sistema mostra anche i parametri, le anomalie e i motivi della classificazione.
Il futuro del rilevamento dei deepfake vocali
Il progetto punta a evolvere continuamente. La prossima fase prevede l’introduzione di un agente IA che coordinerà i detector, decidendo quali attivare e in quale ordine, regolando autonomamente i parametri e le soglie dei singoli algoritmi. Questo permetterà di aggiornare il sistema in tempo reale di fronte alle nuove tecnologie di clonazione vocale, aumentando l’efficienza e la precisione del rilevamento.
La strategia di FUN-Media si basa sulla ridondanza: molti detector differenti lavorano in parallelo, aggiornandosi costantemente. Questo approccio è essenziale, perché i sintetizzatori più recenti e i file rumorosi possono ancora ingannare sistemi non aggiornati. L’obiettivo finale è rendere possibile identificare qualsiasi chiamata o audio falso in pochi istanti, proteggendo così la sicurezza quotidiana di milioni di utenti e rafforzando la fiducia nella comunicazione digitale.