04.11.2014 Views

elektronická verzia publikácie - FIIT STU - Slovenská technická ...

elektronická verzia publikácie - FIIT STU - Slovenská technická ...

elektronická verzia publikácie - FIIT STU - Slovenská technická ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Získavanie informácií z webu metódami inšpirovanými sociálnym hmyzom 319<br />

ku, ktorú ú odporuil sa považuje stránka, ktorá bola dlhodobo najviac propagovaná<br />

v taniarni.<br />

Urovanie kvality zdroja<br />

Kvalita zdroja je z intervalu 0 , 1 priom 0 je najnižšia a 1 najvyššia kvalita.<br />

Kvalita vzdialenosti<br />

Vzdialenos dvoch stránok definujme ako poet krokov, ktoré vela potrebuje, aby sa<br />

z jednej domény dostala na druhú. ím je poet krokov menší, tým je väšia pravdepodobnos,<br />

že dané stránky sú obsahovo príbuzné. Na kvantifikáciu vzdialenosti boli navrhnuté<br />

vzahy:<br />

DIST<br />

max<br />

= 0 q dist<br />

= Q DIST<br />

d > DISTmax qdist<br />

= 0<br />

Q<br />

d ≤ DISTmax<br />

qdist<br />

= QDIST<br />

− d<br />

DIST<br />

kde DIST max je maximálna vzdialenos doletu vely, Q DIST je maximálna hodnota iastkovej<br />

kvality a d je vzdialenos od pôvodnej stránky.<br />

Kvalita potu výskytov<br />

Aby sa rozlíšil poet kokokrát sa výraz na stránke objavil bola navrhnutá funkcia, ktorej<br />

hodnota na zaiatku rýchlejšie rastie, potom sa rast spomalí a asymptoticky sa blíži k definovanej<br />

maximálnej hodnote kvality. Funkcia je tvaru:<br />

−1<br />

q count =<br />

+ Q<br />

1 <br />

2<br />

n <br />

+<br />

Q<br />

2 COUNT <br />

DIST<br />

COUNT<br />

kde n je poet výskytov daného slova a Q COUNT je maximálna hodnota definovaná pre<br />

túto iastkovú kvalitu.<br />

Kvalita výskytu v nadpise<br />

Pri vyhadávaní sa dá oakáva, že výraz vyskytujúci sa v nadpise je zaujímavejší ako ten<br />

istý výraz vyskytujúci sa v lánku. V takomto prípade je dôležité sledova ako hierarchicky<br />

vysoko sa slová v nadpisoch vyskytujú, nie celkový poet výskytov. HTML definuje<br />

nadpis celej stránky ako title a h1<br />

až h6<br />

pre nadpisy a podnadpisy stránok. Každej<br />

úrovni bolo priradené íslo ( title )<br />

0 až ( )<br />

6<br />

MAX<br />

6 h . Bola navrhnutá funkcia:<br />

q<br />

header<br />

= Q<br />

HEADER<br />

Q<br />

− h*<br />

HEADER<br />

HEADER<br />

MAX<br />

+ 1<br />

kde h je minimum zo všetkých hodnôt nadpisov, v ktorých sa hadané slovo vyskytuje;<br />

Q HEADER je maximálna hodnota tejto iastkovej kvality; HEADER MAX je najväšia hbka<br />

v hierarchii nadpisov zobraná pri výpote do úvahy.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!