Sappiamo che il data
mining permette di scoprire nuovi punti di vista e correlazioni trovando
dei pattern in dati che non sarebbero correlabili con le tradizionali query
e le tecniche di reporting. Queste tecniche permettono di confrontare dati provenienti
da fonti eterogenee di diverso tipo ed estrarre informazioni che non sarebbero
visibili all’utente, organizzare documenti e informazioni per soggetto e argomento.
Il text mining è l’applicazione delle metodologie del data mining a dati poco
o non strutturati.
Opera in un mondo meno strutturato dove i documenti hanno raramente una strutturazione,
e, laddove esiste, è inerente al formato del documento, non al contenuto.
Il text mining permette l’estrazione di metadati dai documenti e il conseguente
inserimento in un DB sul quale si potranno effettuare analisi di data mining.
Le tecniche di text mining sono il modo per estendere le metodologie di data
mining al volume di testi immenso e in via di espansione mediante un processo
automatico che produce dati strutturati.
In questo breve articolo parlerò di tre aspetti dell’impiego delle tcnologie
di TM, ovvero dei settori di interesse, dei tipi di applicazione e delle strategie
da adottare.
Da un esame della letteratura e delle applicazioni disponibili, al momento il
TM è stato impiegato nei seguenti settori di mercato:
Sebbene apparentemente si possano riscontrare scarsi legami tra i settori sopra citati, è opportuno precisare che il TM non si occupa solo di documenti, ma di dati testuali in genere: quindi, che si tratti di brevetti, di e-mail dei propri clienti, di sondaggi, di articoli di giornale, di informazioni pubblicate su un sito web, di pratiche amministrative e legali, di curriculum vitae, il text mining viene in aiuto per estrarre e organizzare l’informazione.
...continua
Stefano Bonacina - http://connexioni.blogspot.com/
Stefano Bonacina lavora come Director in Intelligrate, una società che si occupa di Competitive Intelligence, Text Mining e Sicurezza. Al contempo tiene seminari e corsi e collabora con siti e pubblicazioni. Precedentemente (1998-2003) ha lavorato in Fineco SIM e Banca Fineco, di cui ha diretto i sistemi informativi dal 2000, è stato IT System and Project Manager in St Microelectronics dal 1990 al 1998. E' membro della Society of Competitive Intelligence Professionals e della Information Systems Security Assosiacion, nonché vicepresidente della XML Finance Association