QR code per la pagina originale

Amazon, 4 milioni di parole in archivio

Molto presto Amazon rilascerà un set di dati conversazionali composto da oltre 4 milioni di parole e 210 mila espressioni, in modalità open source.

,

Il grosso dell’Intelligenza Artificiale, si sa, viene dagli archivi di dati. Ed è per questo che Amazon ha in programma di rendere disponibile un vasto catalogo di informazioni, sotto forma di conversazioni, per far crescere la comprensione e l’elaborazione del linguaggio naturale. La società di Seattle ha annunciato che nel settembre 2019, rilascerà il set di dati di Topical Chat, un corpus organizzato in file ottenuti volontariamente, tramite crowdsourcing, grazie ai team che partecipano all’annuale Alexa Prize Socialbot Grand Challenge.

Il set di dati è composto da oltre 210 mila espressioni e più di 4 milioni di parole, il che lo rende uno dei più grandi set di dati di conversazione e conoscenza pubblici. Ciascuna delle conversazioni è stata raccolta da una serie di risorse di testo “non strutturate” e “liberamente strutturate” relative a un insieme di entità.

Lo sicenziato di Amazon, Dilek Hakkani-Tur, ha chiarito in un post sul blog che nessuna delle conversazioni proviene dai clienti Alexa. “L’obiettivo di questa raccolta è di consentire le prossime fasi di ricerca nei sistemi di generazione di risposte neurali basate sulla conoscenza, affrontando sfide difficili in conversazioni naturali che non sono affrontate da altri set di dati pubblicamente disponibili. Ciò consentirà ai ricercatori di concentrarsi sul modo in cui gli umani passano da un argomento all’altro, alla selezione e arricchimento della conoscenza e all’integrazione di fatti e opinioni nel dialogo.

Amazon afferma che i team che competono per il Premio Alexa avranno accesso a una versione ampliata del set di dati, il dataset Extended Topical Chat, che include i risultati delle raccolte e le annotazioni in corso. L’annuncio arriva circa sei mesi dopo che Amazon ha aperto in modalità open-source un set di dati che potrebbe essere utilizzato per addestrare i modelli di intelligenza artificiale e identificare i nomi attraverso tipi di script. Definito “sistema di traslitterazione di entità nominali multilingue”, comprende quasi 400 mila nomi in lingue come arabo, inglese, ebraico, giapponese katakana e russo.

Video:Amazon Scout