Perché Google ha reso open source il robots.txt

Il Robots Exclusion Protocol (REP) è fondamentalmente una funzione di web parser che i webmaster possono usare per mantenere parte dei loro siti fuori dalla vista del motore di ricerca di Google. Adesso, Big G ha deciso di rendere il protocollo uno standard, svelando dunque come effettua le procedure di scansione della rete.

Usando il REP per scrivere righe di comando nel file robots.txt, sviluppatori e gestori dei portali informano sia il Google Search Googlebot che gli altri crawler automatici di quali parti dei website evitare di esaminare, mantenendo così alcuni contenuti privati ed evitando qualsiasi indicizzazione non necessaria. Per circa 25 anni, il REP è diventato un must nel lavoro di creazione di internet anche se mai ufficialmente.

Nessuno standard ufficiale vuol dire nessuna linea guida ufficiale su come utilizzare REP, il che ha portato a problemi di interpretazione del formato robots.txt in diversi modi, creando quindi anche difficoltà nel mettere assieme i risultati pertinenti di una ricerca.

Aprendo il parser robots.txt alla community open source, Google spera di dare agli sviluppatori la possibilità di dare maggiore compattezza alle loro librerie C++, usate da Googlebot per l’analisi e la corrispondenza delle regole nei file robots.txt. Essenzialmente, questo dovrebbe aprire la strada ad una migliore comprensione di come i crawler interagiscono con i file robots.txt e ottimizzare le modalità di sviluppo online.

Google ha pubblicato una bozza di proposta in cui spiega perché REP dovrebbe divenire uno standard, che presenterà alla Internet Engineering Task Force (IETF) nei prossimi giorni. Non c’è alcuna garanzia che l’open source porterà a migliorare la situazione ma è un tentativo. Per l’utente web medio, il tutto dovrebbe tradursi in contenuti migliori e più accurati durante la ricerca mentre, nel prossimo futuro, la search engine di Google potrebbe oscurare, in autonomia, siti con file robots.txt non corrispondenti allo standard, ma ci vorrà del tempo.

Perché Google ha reso open source il robots.txt

Ti consigliamo anche

Google Doppl: L'app che rivoluziona il virtual try-on con l'IA

Instagram risolve il problema di consumo batteria sui Pixel

Google introduce nuove funzionalità su Chrome per migliorare l'accessibilità

Phishing con falsi operatori Google: come proteggere il tuo account