4 Creare contenuti per il web - Andrea Giachetti
4 Creare contenuti per il web - Andrea Giachetti
4 Creare contenuti per il web - Andrea Giachetti
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Funzionamento e gestione dei siti <strong>web</strong> 57<br />
3.9 Gestione e ricerca dell'informazione sul <strong>web</strong>, <strong>il</strong> <strong>web</strong><br />
semantico<br />
Abbiamo visto che <strong>il</strong> <strong>web</strong> odierno si caratterizza <strong>per</strong> l'enorme mole di dati archiviati sotto<br />
forma di f<strong>il</strong>e (pagine) e di tabelle di database sui vari server accessib<strong>il</strong>i, in modo più o meno<br />
f<strong>il</strong>trato, dagli utenti. E' evidente che la vastità di tale struttura rappresenta un'enorme<br />
potenzialità, ma anche un serio problema. Oggi in rete possiamo trovare quasi tutte le<br />
informazioni di nostro interesse, ma spesso non siamo in grado di raggiungerle.<br />
Come si fa a recu<strong>per</strong>are l'informazione che ci serve? Come fare a definire cosa è r<strong>il</strong>evante e<br />
cosa non lo è? E' possib<strong>il</strong>e catalogare e strutturare l'informazione del <strong>web</strong> in modo efficace?<br />
Abbiamo visto che molti siti gestiscono i loro archivi di dati ut<strong>il</strong>izzano le cosiddette basi di dati<br />
relazionali: in tal caso è relativamente semplice fare in modo che si possano trovare i dati ut<strong>il</strong>i<br />
all'interno del sito strutturando in modo corretto <strong>il</strong> database e usando i linguaggi di<br />
interrogazione degli stessi <strong>per</strong> recu<strong>per</strong>are i dati.<br />
Questo ovviamente non è possib<strong>il</strong>e quando vogliamo recu<strong>per</strong>are informazioni dall'intera rete,<br />
cioè da siti indipendenti ognuno con le sue pagine ed eventualmente con le proprie basi di dati.<br />
I motori di ricerca, come abbiamo visto, cercano una soluzione mediante tecniche di<br />
information retrieval (disciplina che si occupa, appunto, del re<strong>per</strong>imento automatico di<br />
informazione da collezioni e archivi digitali). Essi basano la ricerca su parole chiave cercando<br />
nella collezione dei documenti quelli ritenuti più <strong>per</strong>tinenti a tali parole.<br />
Per fare questo devono creare degli indici del <strong>web</strong>, realizzati mediante software (detti crawler<br />
o spider o robot) che navigano automaticamente tra le pagine raccogliendone i <strong>contenuti</strong>, che<br />
vengono poi analizzati da altri software che ne estrapolano una rappresentazione compatta. In<br />
pratica essi elaborano <strong>il</strong> testo, estraendo le radici delle parole non triviali (escludendo cioè le<br />
cosiddette stop words come articoli e congiunzioni). Attraverso successive analisi su<br />
posizionamento, ruolo e frequenza delle parole cercano poi di stab<strong>il</strong>ire la r<strong>il</strong>evanza di esse <strong>per</strong><br />
indicizzare <strong>il</strong> documento.<br />
Per generare la risposta alle richieste verranno cercate le pagine indicizzate che hanno la<br />
maggiore “r<strong>il</strong>evanza” rispetto alle parole chiave inserite. Questa r<strong>il</strong>evanza è calcolata mediante<br />
opportuni algoritmi che sono un po' <strong>il</strong> segreto del successo del motore stesso: in qualche modo<br />
<strong>il</strong> successo di Google è stato dovuto all'efficacia dei suoi algoritmi (<strong>il</strong> cosiddetto PageRank).<br />
Tre gli altri “motori” usati sul <strong>web</strong> possiamo citare AltaVista, ut<strong>il</strong>izzato da Yahoo e “Bing” di<br />
Microsoft, che ha soppiantato <strong>il</strong> precedente “Live Search”.<br />
Il limite di questo metodi di ricerca di informazioni consiste nel fatto che la r<strong>il</strong>evanza viene<br />
calcolata a partire semplicemente dal contenuto testuale dei documenti e dal numero e<br />
contenuto dei riferimenti ai documenti trovati su altre pagine (Google attribuisce maggiore<br />
r<strong>il</strong>evanza alle pagine maggiormente citate pesate dall'importanza della pagina citante). Non c'è<br />
quindi nessuna comprensione del “significato” del documento stesso <strong>per</strong> l'utente. Inoltre non c'è<br />
accesso alle informazioni nei database dei server, <strong>per</strong> cui gran parte dell'informazione contenuta<br />
in rete non viene ut<strong>il</strong>izzata.<br />
Per i più diffusi motori di ricerca, poi, <strong>il</strong> risultato finale è una semplice lista di pagine e non<br />
un'informazione elaborata che cerchi effettivamente di rispondere alla domanda posta<br />
dall'utente o estrapoli la parte informativa dalle varie fonti facendone un sunto. Quest'ultimo