Home - Articoli, Docs & Ricerche


Articoli, Docs & Ricerche - I MOTORI DI RICERCA


I segreti dei motori di ricerca: qualche nozione fondamentale - parte II


mar 12, 2003

Conoscere a fondo il mondo dei motori di ricerca per sfruttarli al meglio. Alcune premesse.

di Dott. Carmelo Cutuli - Global Communication

 




Tools




Le componenti fondamentali che abbiamo visto nell'articolo precedente sono comuni a tutti i motori di ricerca, ciò che rende differenti i motori l'uno dall’altro sono le modalità adoperate, l'architettura dei software proprietari e l'organizzazione delle varie fasi.

Spidering (Scansione)

Gli spider, che a volte vengono anche chiamati crawler o robot, visitano le pagine web del vostro sito come un vero utente (agli 'occhi' del server, ovviamente) lasciano quindi traccia di sé nei server-logs.

Potreste quindi controllare, avendo accesso ai log del vostro server, se un dato spider vi abbia realmente visitato subito dopo aver effettuato l'iscrizione, quante volte e soprattutto quanto frequentemente torna a visitare il vostro sito in cerca di aggiornamenti.

La quasi totalità degli spider in circolazione inizia il proprio processo di scansione da un file ROBOTS.TXT presente nella root dell'URL inserita che contiene, secondo una certa sintassi, alcune righe di codice che comunicano allo spider quali pagine possono essere indicizzate e quali no.

Tutti gli host, che troverete nei vostri log, che richiedono questo file appartengono ad uno spider, ciò vi aiuterà ad individuare meglio la corrispondenza host/spider.

Molto spesso potrete trovare host che non si riferiscono a motori di ricerca veri e propri bensì a programmi di visualizzazione off-line come teleport PRO o Web Grabber. Questi software possono inviare i loro spider su internet al fine di scaricare in locale siti interi e potrebbero trarvi in inganno facendovi pensare che siano spider provenienti da un motore di ricerca.

Se avete un programma di analisi dei log che vi permetta di elaborare statistiche in base a d una query, potreste inserire il nome dell'host ed ottenere delle statistiche sulla frequenza delle visite del 'ragno' del motore di ricerca.

Ranking (Rilevanza)

Provate ad inserire un termine nel vostro motore di ricerca preferito, in pochi istanti il motore scansionerà milioni di informazioni presenti nel suo archivio alla ricerca degli URL che contengono le informazioni che vi necessitano.

Le pagine che il motore vi restituisce sono ordinate per rilevanza (ranking) in modo da far apparire per primi i siti che potrebbero essere più pregnanti rispetto all'interrogazione.

Naturalmente non sempre i motori restituiscono URL strettamente inerenti all'argomento dell'interrogazione (query), ma con una buona percentuale di scarto il lavoro reso dai motori di ricerca è sempre eccezionalmente preciso.

Ma come fanno i motori, dei software quindi, a stabilire la rilevanza di un sito rispetto alla domanda formulata dall'utente?

I motori cercano di simulare il ragionamento di un essere umano ed effettuano il ranking secondo una serie di processi che si basano sulla localizzazione e sulla frequenza di una data keyword (parola chiave) menzionata all'interno di una pagina web.

Immaginate di avere una biblioteca e di cercare un testo che parli di un dato argomento, ad esempio 'piante', sicuramente inizierete la vostra ricerca prendendo in considerazione tutti i testi che contengono nel proprio titolo la parola 'pianta' o 'piante'. Allo stesso modo i motori di ricerca assumono come traccia il titolo di una pagina web (ben identificabile all'interno di una pagina web perché compreso tra i tag <TITLE> e </TITLE>).

La ricerca all'interno del titolo potrebbe però rivelarsi insufficiente ai fini di stabilire la rilevanza della ricerca rispetto ad una data keyword, a tal fine quindi la scansione prosegue all'interno della pagina web prendendo in considerazione la testata ed alcuni paragrafi di testo, rilevando l'eventuale ripetizione della keyword in quella pagina.

La frequenza con cui una keyword è ripetuta, aiuta a determinare ulteriormente la rilevanza secondo il principio che se una data parola è ripetuta con maggiore frequenza la rilevanza sarà maggiore.

Questo principio di base è comune a tutti i motori di ricerca, i quali aggiungono a questo modello alcune discriminanti che permettono di affinare ulteriormente il ranking e renderlo più efficiente.
Google, ad esempio, attribuisce molta importanza alla popolarità di un sito basandosi sulla quantità/qualità di altri siti che lo linkano in internet, se un sito viene linkato da molti altri siti probabilmente il suo contenuto sarà importante e maggiormente interessante rispetto ad altri siti che non ottengono la stessa popolarità.

I motori ibridi, Lycos ad esempio, attribuiscono invece un ranking elevato a quei siti che hanno precedentemente ottenuto una recensione nella directory, se un sito è stato recensito da un operatore … sicuramente il suo contenuto sarà stato controllato e giudicato pregnante rispetto ad un dato argomento.

di Carmelo Cutuli
Tratto dall'e-book "I segreti dei motori di ricerca"

Carmelo Cutuli è fondatore e Presidente dal 1996 della "Global Communication", realtà italiana tra le più attive, orientata al lancio di progetti legati al Web, come Internet Incubator.
Numerose le iniziative già realizzate, la più famosa sviluppata proprio in Sicilia orientale, realizzando quel polo hi-tech chiamato Etna Valley.
L'azienda è presto divenuta un vero e proprio laboratorio multimediale sempre pronto ad appoggiare nuovi progetti per lo sviluppo tecnologico delle imprese del distretto siciliano: "Only dreams come true. Make it possible in Etna Valley".
Scarica l'e-book di Carmelo Cutuli nella sua versione integrale.


Iscrizione newsletter

   
Prevenzione SPAM: reinserire nel campo il codice dell'immagine
CAPTCHA 
  
Ho letto e accetto l`informativa sulla privacy