Ecco cosa si nasconde dietro l’intelligenza del motore di ricerca del colosso di Mountain View, sempre più abile nell’intuire in modo accurato le intenzioni dell'utente
Redazione PMI-dome |
11 ottobre 2010

Quando si parla di motori di ricerca,
il primo nome che viene in mente è
Google; e la fama è senz’altro ben
meritata, tanto che in inglese è stato coniato
il neologismo “
To google” per indicare,
appunto, l’azione del cercare qualcosa
in Internet. Eppure, nonostante ormai
detenga oltre il
65% dello share mondiale,
Google, anno dopo anno, si rinnova, migliorando
il suo algoritmo affinché possa
soddisfare in maniera sempre più precisa
le esigenze del popolo della Rete, e aggiungendo
all’offerta nuove funzionalità.
L'intelligenza del motore di ricercaSecondo quanto riportato da
Wired.com, prestigiosa rivista online di tematiche
informatiche, per rispondere a Brian
MacDonald, vice presidente del
Core Search
Program Management in Microsoft,
che cercava mostrare la superiorità
Bing, Google ha laconicamente
utilizzato solo quattro parole, che
in poche ore sono divenute l’emblema della
disputa: “mike siwek lawyer mi”. Digitando
questa stringa nel riquadro di ricerca
di Google, i primi risultati facevano
riferimento a tale Michael Siwek, un avvocato
di Grand Rapids nel Michigan: una
dimostrazione della “intelligenza” del motore
di ricerca, in grado di “intuire” in maniera
sempre più accurata le intenzioni
dell’utente (Figura 1). La stessa ricerca
eseguita in Bing aveva prodotto, invece,
risultati diversi: tra i primi link, un riferimento
alla National Football League e al
giocatore Lawyer Milloy; soltanto diverse
pagine dopo è stato trovato l’avvocato oggetto
della richiesta. Ovviamente, lo stato
dell’arte adesso è cambiato, e la stessa ricerca
su entrambi i motori conduce ormai a
un proliferare di articoli sulla battaglia che
si è scatenata.
Figura 1. Il risultato della ricerca “intelligente” fatta da Google con stringa generica “mike siwek lawyer mi”Come funziona la ricerca di Google? La ricerca in Internet è un processo complesso,
che si articola su diverse fasi. Il primo
passo consiste nell’effettuare il “
crawling”
del Web: la Rete viene scandita
periodicamente alla ricerca di tutte le pagine
raggiungibili, che vengono poi
indicizzate,
cioè organizzate per parole come
l’indice analitico in un’enciclopedia tradizionale.
Quando un utente digita una frase,
si procede a scandire l’indice per individuare
quelle pagine che coincidono al
meglio con i termini inseriti. Questo è il
punto più critico del processo: il
parsing
della stringa allo scopo di interpretarla al
meglio, anche quando vengono commessi
degli errori ortografici; qui entrano in gioco
i cosiddetti
“segnali”, circa 200 allo stato
dell’arte. Uno degli aspetti più importanti
nell’interpretazione corretta di una
stringa di ricerca è poter riconoscere i sinonimi
di una parola; questo significa che
in inglese “dog” e “puppy” hanno lo stesso
significato, come in italiano bisogna dare
la medesima interpretazione, ad esempio,
a “bimbo” e “bambino”. Ma disporre
di un semplice dizionario dei sinonimi non
è sufficiente; fu emblematico il caso dell’
“hot dog”, che nei primi tentativi di Google
veniva considerato come un “cane bollito”!
Il punto, quindi, è riuscire a interpretare
una parola e i suoi sinonimi in base al
contesto; in questo modo, “bio” potrà essere
interpretato come “biografia” quando
è accanto a un nome, e come sinonimo di
“biologico” in altre situazioni.
Sbagliando s'impara
Gli insuccessi, analizzati costantemente,
diventano uno strumento per migliorare
il risultato finale.
Wired, ad esempio, racconta
come un errore riportato nel 2001
abbia consentito a Google di migliorare
il parsing di una stringa di ricerca quando
sono presenti dei nomi propri. Chi inseriva
“Audrey Fino” si ritrovava link che
puntavano esclusivamente a informazioni
sull’indimenticabile
Audrey Hepburn, dando
a “Fino” il significato della corrispondente
parola italiana e non di un cognome. A questo si aggiungevano problemi legati
al secondo nome, posizionato tra primo
nome e cognome, e spesso omesso. Tra le
situazioni di errore, significativo per gli ingegneri
della ricerca fu il caso della psicologa
Cindy Greenslade di Garden Grove.
Inserendo la stringa “Cindy Louise Greenslade”,
i link erano giusti, ma tra i primi
risultati non c’erano riferimenti al sito
Web personale, che compariva più in basso,
perché la dottoressa aveva omesso di
inserire il suo secondo nome Louise. I segnali
giusti hanno consentito nel tempo di
dare la giusta interpretazione anche ai nomi,
tenendo in considerazione tutte le varianti
che possono esserci anche in funzione
del paese di origine.
RE: SEO: i segreti dell’algoritmo di Google
ciao volevo segnalare che il 1° novembre 2010 ci sarà un BarCamp in cui si parlerà proprio di Google e del funzionamento dei motori di ricerca http://barcamp.org/SEO-Camp-2010 ciao!
Inviato da simone