SiteMaps, come pilotare Google

Google chiede la collaborazione dei webmaster: una apposita mappa autoredatta permetterà di insegnare al motore come indicizzare meglio i propri siti web
Google chiede la collaborazione dei webmaster: una apposita mappa autoredatta permetterà di insegnare al motore come indicizzare meglio i propri siti web

In casa Google lo chiamano esperimento, e rincarano con il classico «beta» che disimpegna di ogni responsabilità. È così che dal clima gioviale di un blog e dai termini disincantati di quello che sembra essere un semplice gioco, Google tira fuori una novità che, per come è proposta, si va a posizionare esattamente a metà tra motore ed utente e crescendo potrebbe mutuarne profondamente il rapporto. 3 Giugno 2005, nasce Google SiteMaps.

L’idea, va detto, non è per niente nuova. Cercando proprio su Google è facile reperire messaggi datati addirittura 2001 in cui alcuni utenti si chiedono se l’uso delle cosiddette “Sitemaps” sia una cosa lecita che Google accetta di buon grado. Per Sitemap si intende un file contenente tutti i link (una “mappa”) che si vogliono proporre al motore di ricerca: tra chi lo ritiene un espediente ottimo per far lievitare il pagerank e chi ne stigmatizza l’uso in quanto tecnica truffaldina, il sistema è rimasto per anni in una sua dimensione sottaciuta. Oggi Google spolvera il sistema e lo ripropone: visti i tempi che corrono, la sensazione è subito quella di una nuova rivoluzione in atto.

I presupposti per la verità ci sono tutti. Ad oggi per fare indicizzare il proprio sito ogni webmaster cerca di ottimizzare le pagine in base alle proprie conoscenze dell’ambito, quindi lo sottopone all’analisi di Google, eventualmente lo inserisce in qualche directory strategica, cerca qualche link “tanto per cominciare”: l’occhio di Google arriverà presto a posarsi sul sito tramite una visita del cosiddetto Googlebot. Quello che Google SiteMaps propone è un radicale cambiamento di paradigma: il motore non va più a cercare (sporadicamente) un sito, ma è l’utente stesso a richiedere la visita del motore, a suggerire i tempi di aggiornamento delle pagine ed a segnalare ulteriori variazioni nel tempo. La responsabilità dell’aggiornamento si sposta, con il motore che si fa strumento al servizio del webmaster impegnato che intende mantenere aggiornata la situazione dei propri contenuti nell’indice. La rivoluzione è ovviamente solo declamata, e nella realtà al momento non v’è traccia alcuna di cambiamento. Il sistema tradizionale rimane e ancora non è dato a sapersi come il nuovo sistema di indicizzazione andrà ad affiancare il regime attuale.

SiteMaps: come funziona
Un file XML sul server del sito in questione, la segnalazione dell’url del file a Google ed il gioco è fatto. Nell’arco di circa 12 ore (questi i tempi registrati durante le prime prove) Google analizza il file, dopodiché nessuna garanzia viene data circa l’indicizzazione delle pagine o circa un qualsivoglia cambiamento nel ranking del motore. Sono ancora le prime prove eseguite a dimostrare che non vi sia al momento alcuna certa consequenzialità tra l’analisi del file ed i cambiamenti nell’indice (aspetto peraltro importante al fine di mantenere un certo distacco che non incoraggi un uso manipolatorio del motore di ricerca).

Vi sono tre metodologie valide per partecipare al progetto SiteMaps: innanzitutto è possibile usare il SiteMaps Generator, inoltre è possibile creare manualmente il file XML, infine è possibile usare un semplice “.txt”.SiteMaps Generator
Secondo la prima metodologia, il file da inserire sul server va compilato sfruttando l’apposito SiteMaps Generator scaricabile da Google o da SourceForge. Tale sistema presuppone che il server sul quale si ha il controllo abbia installato Python 2.2. Dopo l’apposito download del pacchetto iniziale, si ottengono numerosi file dei quali vanno tenuti in considerazione in particolar modo i seguenti:

  • sitemap_gen.py
  • example_config.xml
  • example_urllist.txt

SiteMaps Generator è utile a velocizzare la compilazione del file XML che altrimenti andrebbe compilato manualmente: dopo aver prodotto una lista dei link su di un apposito file esterno, è sufficiente attivare il Generator per ottenere il file XML da sottoporre quindi all’analisi Google. Un software quale Gsitemap già promette una semplificazione del tutto: raccolta automatica dei link e successiva compilazione del file XML senza l’ausilio del Generator distribuito da Google. Altri esempi di script utili a generare file SiteMaps sono riscontrabili all’interno dell’apposito gruppo di discussione aperto per il progetto. Non è difficile, a questo punto, ipotizzare un sistema che, direttamente su server, aggiorna in automatico il file XML senza la necessaria interazione dell’utente. Compilazione manuale
E’ possibile inoltre sottoporre a Google una mappa creata manualmente ed il cui codice base è il seguente:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
<url>
<loc>http://www.xxxxxxxxxx.it/xxx.html</loc>
<lastmod>2005-06-06</lastmod>
<changefreq>weekly</changefreq>
<priority>0.5</priority>
</url>
</urlset>

Il significato delle varie parti è facilmente intuibile:

  • <loc>
    Indica la pagina da sottoporre al crawling. In caso di pagina dinamica va inserito l’esatto indirizzo completo di eventuale numero finale (esempio: catalogo.asp?ID=529); l’url non può eccedere i 2048 caratteri totali;
  • <lastmode>
    Indica l’ultima modifica effettuata ai contenuti della pagina. La data va formattata secondo apposita codifica ISO 8601: è possibile indicare anche l’ora esatta dell’aggiornamento;
  • <changefreq>
    Indica la frequenza con cui la pagina cambia di contenuto (quotidiana, settimanale, mensile, eccetera). Tale parametro suggerisce al motore la frequenza con cui verificare eventuali cambiamenti di contenuto;
  • <priority>
    Indica la priorità della pagina all’interno del sito: numero tra 0.1 e 1.0, inutile al fine di una migliore indicizzazione da parte del motore e utile solo a suggerire la pagina più importante all’interno del proprio sito. 0.5 è il valore predefinito.

Ogni singolo parametro contempla diverse possibilità: per capire al meglio tutte le opzioni a disposizione è necessario analizzare le apposite regole elencate dall’apposito protocollo (dal quale si ottengono tutte le regole utili ad una corretta compilazione del codice). Il codice finale può essere infine compattato con gzip. Le pagine descritte tra <url> e </url> (tale insieme di tag può essere ripetuto sequenzialmente) possono essere fino ad un numero massimo di 50.000 (10Mb la dimensione massima del file non compattato): oltre le 50.000 pagine Google consiglia di creare più file SiteMaps, i quali andranno a loro volta elencati in un apposito Sitemap_index.xml (contenente non più di 1000 voci). In tutto è dunque possibile sottoporre a Google fino a 50.000.000 di pagine: il numero risulta essere sufficientemente ampio per qualunque tipo di sito web. Una volta salvato il file (codifica UTF-8) il tutto andrà depositato su server ed infine, tramite l’apposito pannello di controllo SiteMaps, bisognerà indicare a Google l’esatto indirizzo del file: entro poche ore si otterrà il responso.

File TXT
L’ultima metodologia è quella riservata a chi ha minori capacità nell’uso del codice. E’ possibile infatti anche creare una semplice lista di indirizzi da salvare in un semplicissimo file testuale .txt. Ogni linea dovrà avere un indirizzo diverso. Il file così ottenuto viene uploadato su server ed infine si procede (come per i casi precedenti) alla segnalazione a Google del file depositato su server indicando l’esatto indirizzo della risorsa. In caso di errore (o di aggiornamento dei contenuti) il problema non sussiste: si elimina il file errato (o vetusto), lo si sostituisce con un file nuovo e si indica a Google la modifica effettuata. Tentar sicuramente non nuoce.

Ti consigliamo anche

Link copiato negli appunti