Altra cosa molto interessante: Google si è inventata uno standard,
che ha denominato, ovviamente, Sitemaps, che prevede che posizionando un file
in formato Sitemap sul server Web, si aiutino i crawler nell'individuazione
di quali pagine sono presenti e quali sono state modificate di recente e di
eseguire, di conseguenza, la scansione del sito.
Il Protocollo Sitemap è un dialetto XML utilizzato per riepilogare le informazioni
della Sitemap rilevanti per i crawler Web. Per ciascun URL, è possibile includere
"suggerimenti" di scansione, quali la data dell'ultima modifica e la frequenza
di modifica approssimativa.
Sono disponibili vari metodi per creare una sitemap. Si può utilizzare Sitemap
Generator di Google, scaricabile da Google
Code.
E, infine, se vi chiedete perchè Google lo fa, questa è la risposta che trovate
nelle FAQ
di Sitemaps:
Allineandosi con la mission di Google volta a organizzare le informazioni a
livello mondiale e a renderle universalmente accessibili, questo sistema di
scansione collaborativo consentirà ai nostri crawler di ottimizzare l'utilità
dell'indice di Google per gli utenti, aumentandone la copertura e l'aggiornamento.
Stefano Bonacina - Intelligrate, una società che si occupa di Competitive Intelligence, Text Mining e Sicurezza. Al contempo tiene seminari e corsi e collabora con siti e pubblicazioni. Precedentemente (1998-2003) ha lavorato in Fineco SIM e Banca Fineco, di cui ha diretto i sistemi informativi dal 2000, è stato IT System and Project Manager in St Microelectronics dal 1990 al 1998. E' membro della Society of Competitive Intelligence Professionals e della Information Systems Security Assosiacion, nonché vicepresidente della XML Finance Association