|
Home - Articoli, Docs & Ricerche Articoli, Docs & Ricerche - I MOTORI DI RICERCA
I segreti dei motori di ricerca: qualche nozione fondamentale - parte II
mar 12, 2003 Conoscere a fondo il mondo dei motori di ricerca per sfruttarli al meglio. Alcune premesse. di Dott. Carmelo Cutuli - Global Communication
Tools
Le componenti fondamentali che abbiamo visto nell'articolo precedente sono comuni a tutti i motori di ricerca, ciò che rende differenti i motori l'uno dall’altro sono le modalità adoperate, l'architettura dei software proprietari e l'organizzazione delle varie fasi. Spidering (Scansione) Gli spider, che a volte vengono anche chiamati crawler o robot, visitano le pagine web del vostro sito come un vero utente (agli 'occhi' del server, ovviamente) lasciano quindi traccia di sé nei server-logs. Potreste quindi controllare, avendo accesso ai log del vostro server, se un dato spider vi abbia realmente visitato subito dopo aver effettuato l'iscrizione, quante volte e soprattutto quanto frequentemente torna a visitare il vostro sito in cerca di aggiornamenti. La quasi totalità degli spider in circolazione inizia il proprio processo di scansione da un file ROBOTS.TXT presente nella root dell'URL inserita che contiene, secondo una certa sintassi, alcune righe di codice che comunicano allo spider quali pagine possono essere indicizzate e quali no. Tutti gli host, che troverete nei vostri log, che richiedono questo file appartengono ad uno spider, ciò vi aiuterà ad individuare meglio la corrispondenza host/spider. Molto spesso potrete trovare host che non si riferiscono a motori di ricerca veri e propri bensì a programmi di visualizzazione off-line come teleport PRO o Web Grabber. Questi software possono inviare i loro spider su internet al fine di scaricare in locale siti interi e potrebbero trarvi in inganno facendovi pensare che siano spider provenienti da un motore di ricerca. Se avete un programma di analisi dei log che vi permetta di elaborare statistiche in base a d una query, potreste inserire il nome dell'host ed ottenere delle statistiche sulla frequenza delle visite del 'ragno' del motore di ricerca. Ranking (Rilevanza) Provate ad inserire un termine nel vostro motore di ricerca preferito, in pochi istanti il motore scansionerà milioni di informazioni presenti nel suo archivio alla ricerca degli URL che contengono le informazioni che vi necessitano. Le pagine che il motore vi restituisce sono ordinate per rilevanza (ranking) in modo da far apparire per primi i siti che potrebbero essere più pregnanti rispetto all'interrogazione. Naturalmente non sempre i motori restituiscono URL strettamente inerenti all'argomento dell'interrogazione (query), ma con una buona percentuale di scarto il lavoro reso dai motori di ricerca è sempre eccezionalmente preciso. Ma come fanno i motori, dei software quindi, a stabilire la rilevanza di un sito rispetto alla domanda formulata dall'utente? I motori cercano di simulare il ragionamento di un essere umano ed effettuano il ranking secondo una serie di processi che si basano sulla localizzazione e sulla frequenza di una data keyword (parola chiave) menzionata all'interno di una pagina web. Immaginate di avere una biblioteca e di cercare un testo che parli di un dato argomento, ad esempio 'piante', sicuramente inizierete la vostra ricerca prendendo in considerazione tutti i testi che contengono nel proprio titolo la parola 'pianta' o 'piante'. Allo stesso modo i motori di ricerca assumono come traccia il titolo di una pagina web (ben identificabile all'interno di una pagina web perché compreso tra i tag <TITLE> e </TITLE>). La ricerca all'interno del titolo potrebbe però rivelarsi insufficiente ai fini di stabilire la rilevanza della ricerca rispetto ad una data keyword, a tal fine quindi la scansione prosegue all'interno della pagina web prendendo in considerazione la testata ed alcuni paragrafi di testo, rilevando l'eventuale ripetizione della keyword in quella pagina. La frequenza con cui una keyword è ripetuta, aiuta a determinare ulteriormente la rilevanza secondo il principio che se una data parola è ripetuta con maggiore frequenza la rilevanza sarà maggiore. Questo principio di base è comune a tutti i motori di ricerca, i quali aggiungono a questo modello alcune discriminanti che permettono di affinare ulteriormente il ranking e renderlo più efficiente. I motori ibridi, Lycos ad esempio, attribuiscono invece un ranking elevato a quei siti che hanno precedentemente ottenuto una recensione nella directory, se un sito è stato recensito da un operatore … sicuramente il suo contenuto sarà stato controllato e giudicato pregnante rispetto ad un dato argomento. di Carmelo Cutuli
|
Iscrizione newsletter |