You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Metoda Saltona
Słowem wstępu…<br />
• Rozszerzenie metody list prostych.<br />
• Dokumenty są dzielone na grupy tematyczne<br />
(klasteryzowane).<br />
• Każda grupa jest opisana koniunkcją<br />
deskryptorów (z wagami).<br />
• Wyszukiwanie najpierw interesującą nas grupę<br />
dokumentów, a następnie jak w MLP.
Główne cechy metody Saltona<br />
• Metoda Saltona - opracowana dla dokumentów i pytao zadawanych w języku naturalnym, dlatego<br />
też podstawowy moduł stanowi moduł analizy językowej, którego opracowanie jest niezwykle<br />
pracochłonne i wymaga rozwiązania szeregu problemów natury lingwistycznej.<br />
• Zrealizowany system SMART oparty na metodzie Saltona zajmuje się wyszukiwaniem dokumentów<br />
opisanych w języku angielskim.<br />
• W metodzie Saltona opisy obiektów są tekstami w języku naturalnym. Metoda polega na podziale<br />
wszystkich obiektów na grupy o podobnym opisie. Istnieje wiele sposobów takiego grupowania.<br />
Każda grupa obiektów jest poprzedzona określonym wektorem pojęd charakterystycznych dla danej<br />
grupy (wektor centriodalny, profil).<br />
• Wyszukiwanie odpowiedzi polega na porównaniu pytania z wektorami pojęd charakteryzujących<br />
poszczególne grupy obiektów, a następnie wybraniu grup o wektorze najbardziej zbliżonym do<br />
pytania. Obiekty występujące w tych grupach stanowią tzw. odpowiedź przybliżoną na pytanie.<br />
• Następnie dokonuje się przeglądu zupełnego wybranych obiektów dla znalezienia odpowiedzi<br />
dokładnej, tzn. obiektów, których opisy dokładnie odpowiadają pytaniu (zawierają identyczne<br />
pojęcia jak w pytaniu). W przypadku otrzymania dużej liczby grup w BD stosuje się dalsze ich<br />
łączenie w grupy większe, tworząc strukturę drzewiastą. Pojęcia charakteryzujące duże grupy (pnie)<br />
zawierają zbiory wektorów pojęd grup, a te dopiero - zbiory obiektów.<br />
• *- automatyczny system wyszukiwania dokumentów zaprojektowany na Uniwersytecie Harvarda w<br />
latach 1961 - 1964. System przyjmuje dokumenty i żądania usług sformułowane w języku<br />
naturalnym, dokonuje automatycznej analizy tekstów przy użyciu jednej z kilkudziesięciu metod<br />
analizy językowej, kojarzy przeanalizowane dokumenty z kwerendami i wyszukuje dla użytkownika<br />
te pozycje, które uzna za najbardziej odpowiadające zgłoszonym kwerendom.
PROCES WYSZUKIWANIA<br />
Proces wyszukiwania w systemie Smart można<br />
podzielid na 5 etapów:<br />
• wprowadzenie tekstu drukowanego<br />
• grupowanie dokumentów dla celów<br />
przeszukiwania (wiązanie w grupy)<br />
• wybranie grupy dokumentów do wyszukiwania<br />
• przeszukiwanie grupy dokumentów<br />
• ocena wyszukiwania.
Cel grupowania dokumentów<br />
Grupowanie polega na umieszczeniu w tej samej<br />
grupie dokumentów zawierających podobne<br />
pojęcia, oraz na określeniu dla każdej grupy<br />
reprezentatywnej pozycji centralnej (CENTROID).<br />
Po utworzeniu kartoteki dokumentów<br />
powiązanych w grupy, przeszukiwanie grup<br />
polega na uprzednim dobieraniu kwerend do<br />
centroidów każdej grupy. Następnie dokonuje się<br />
wyboru grup, które prawdopodobnie zawierają<br />
najwłaściwsze dokumenty, po czym następuje<br />
przeszukiwanie grup przy użyciu normalnej<br />
procedury - pozycja za pozycją.
Algorytmy grupowania dokumentów<br />
Istnieje wiele sposobów grupowania. My poznamy<br />
2 metody:<br />
• algorymt Rocchia<br />
• algorytm Doyle'a<br />
Zarówno proces grupowania, jak i proces<br />
porównywania pytania z pniami czy wektorami<br />
pojęd odbywa się poprzez znajdowanie<br />
współczynników korelacji (podobieostwa)<br />
pomiędzy pojęciami występującymi w pytaniu lub<br />
pojęciami występującymi w wektorze pojęd danej<br />
grupy.
Miary korelacji (podobieostwa)<br />
• Współczynnik korelacji to wartośd z przedziału . Im bardziej podobne<br />
są do siebie obiekty tym wyższy jest dla nich współczynnik korelacji.<br />
• Jeżeli dwa obiekty są identyczne to współczynnik korelacji = 1.<br />
• Dla obiektów w ogóle nie podobnych współczynnik korelacji = 0.<br />
• I tak dla dwóch obiektów x1 i x2 poniżej przedstawione są typowe miary<br />
korelacji:
W systemie Smart<br />
• W systemie SMART Saltona istnieją dwie miary<br />
korelacji:<br />
• korelacja cosinusowa<br />
• korelacja nakładania<br />
• gdzie:<br />
• d i q to n-wymiarowe wektory terminów<br />
reprezentujących analizowaną kwerendę q i<br />
analizowany dokument d.
Struktura kartoteki<br />
Czyli mamy system S = .<br />
Opisy obiektów pogrupowane są w BD w grupy Xi, gdzie i=1,..,m przy czym spełniony jest<br />
warunek:<br />
X<br />
<br />
m<br />
<br />
i1<br />
X i<br />
Struktura kartoteki ma więc formę drzewiastą (hierarchię) w której dokumenty<br />
podobne do siebie łączone są w grupy, dla których tworzy reprezentantów (centroid<br />
bądź profil). Jeśli grup tak utworzonych jest dużo, traktowane są one jak dokumenty i<br />
ponownie grupowane w grupy a kolejnym poziomie hierarchii (pnie).<br />
Każda grupa Xi poprzedzona jest identyfikatorem grupy, który jest nazywany<br />
CENTROIDEM (Ci) lub PROFILEM (Pi): Xi = (Ci, {t{xi}}).<br />
Centroid - Ci to wektor pojęd opisujących dokumenty danej grupy. Stosowany do opisu<br />
grupy w algorytmie Rocchio'a.<br />
Profil - Pi to wektor wartości pozycyjnych pojęd opisujących dokumenty danej grupy.<br />
Stosowany do opisu grupy w algorytmie Doyle'a.
Przyporządkowanie dokumentów do<br />
kategorii (grup)
Struktura hierarchiczna dokumentów,<br />
grup i pni<br />
Grupa 1: Doc_1, Doc_5, Doc_4<br />
Centroid: A,b<br />
Pieo I<br />
A,b,f<br />
Pieo II<br />
C,d,e<br />
gr_1<br />
A,b<br />
Gr_2<br />
a,f<br />
Gr_3<br />
C,d<br />
gr_4<br />
C, e<br />
Doc_1<br />
A,b,c<br />
Doc_5<br />
A,b<br />
Doc_4<br />
A,b,d<br />
Doc_2<br />
a,e,f<br />
Doc_6<br />
a,f<br />
Doc_7<br />
a,f,g<br />
Doc_3<br />
b,c,d<br />
Doc_8<br />
d,e,c
Wyszukiwanie – obliczanie podobieostw<br />
Szukamy dokumentów zawierających słowa: „a” i „f”<br />
Pieo I<br />
A,b,f<br />
2/3<br />
0/5<br />
Pieo II<br />
C,d,e<br />
gr_1<br />
A,b<br />
Gr_2<br />
a,f<br />
Gr_3<br />
C,d<br />
gr_4<br />
C, e<br />
Doc_1<br />
A,b,c<br />
Doc_5<br />
A,b<br />
Doc_4<br />
A,b,d<br />
Doc_2<br />
a,e,f<br />
Doc_6<br />
a,f<br />
Doc_7<br />
a,f,g<br />
Doc_3<br />
b,c,d<br />
Doc_8<br />
d,e,c
Wyszukiwanie – obliczanie podobieostw<br />
Szukamy dokumentów zawierających słowa: „a” i „f”<br />
Wybieramy pieo najbardziej obiecujący – czyli pieo I<br />
Pieo I<br />
A,b,f<br />
2/3<br />
0/5<br />
Pieo II<br />
C,d,e<br />
gr_1<br />
A,b<br />
Gr_2<br />
a,f<br />
Gr_3<br />
C,d<br />
gr_4<br />
C, e<br />
Doc_1<br />
A,b,c<br />
Doc_5<br />
A,b<br />
Doc_4<br />
A,b,d<br />
Doc_2<br />
a,e,f<br />
Doc_6<br />
a,f<br />
Doc_7<br />
a,f,g<br />
Doc_3<br />
b,c,d<br />
Doc_8<br />
d,e,c
Wyszukiwanie – obliczanie podobieostw<br />
Szukamy dokumentów zawierających słowa: „a” i „f”<br />
Wybieramy pieo najbardziej obiecujący – czyli pieo I<br />
Pieo I<br />
A,b,f<br />
2/3<br />
0/5<br />
Pieo II<br />
C,d,e<br />
1/2 2/2<br />
gr_1<br />
A,b<br />
Gr_2<br />
a,f<br />
Gr_3<br />
C,d<br />
gr_4<br />
C, e<br />
Doc_1<br />
A,b,c<br />
Doc_5<br />
A,b<br />
Doc_4<br />
A,b,d<br />
Doc_2<br />
a,e,f<br />
Doc_6<br />
a,f<br />
Doc_7<br />
a,f,g<br />
Doc_3<br />
b,c,d<br />
Doc_8<br />
d,e,c
Wyszukiwanie – obliczanie podobieostw<br />
Szukamy dokumentów zawierających słowa: „a” i „f”<br />
Wybieramy pieo najbardziej obiecujący – czyli pieo I<br />
Pieo I<br />
A,b,f<br />
2/3<br />
0/5<br />
Pieo II<br />
C,d,e<br />
1/2 2/2<br />
gr_1<br />
A,b<br />
Gr_2<br />
a,f<br />
Grupa<br />
wyszkana<br />
Gr_3<br />
C,d<br />
gr_4<br />
C, e<br />
Doc_1<br />
A,b,c<br />
Doc_5<br />
A,b<br />
Doc_4<br />
A,b,d<br />
Doc_2<br />
a,e,f<br />
Doc_6<br />
a,f<br />
Doc_7<br />
a,f,g<br />
Doc_3<br />
b,c,d<br />
Doc_8<br />
d,e,c
Przykłady takich systemów<br />
Identyfikatory<br />
dokumentów w<br />
skupieniu <strong>nr</strong> 5<br />
Reprezentant<br />
skupienia <strong>nr</strong> 5
Dokumenty w danej grupie powinny<br />
zawierad wspólne cechy (słowa)
Test gęstości<br />
• Na początku zakłada się, że wszystkie dokumenty są niezwiązane, a każdy<br />
jest poddany testowi gęstości dla określenia, czy dostatecznie duża liczba<br />
dokumentów znajduje się w sąsiedztwie badanego.<br />
• Ponad n1 dokumentów powinno mied współczynnik korelacji z<br />
dokumentem badanym, wyższy od pewnego parametru p1, a więcej niż n2<br />
dokumentów – wyższy od p2 np. „co najmniej 5 dokumentów ma mieć<br />
korelację z centrum grupy większą bądź równą 0.5 i co najmniej 3<br />
dokumenty większą bądź równą 0.7”.<br />
• Dzięki testowi mamy pewnośd, że elementy z brzegu dużych grup nie będą<br />
centrami i że regiony, gdzie dokumenty są skupione w kształcie pierścienia<br />
nie będą akceptowane jako grupy.<br />
• Elementy nie spełniające testu gęstości nazywamy „swobodnymi”. Nie<br />
mogą byd one potem wybierane jako potencjalne centra grup.<br />
• Jeśli dokument przejdzie test gęstości to wybiera się wartośd progową jako<br />
funkcję minimalnie i maksymalnie dopuszczalnej liczby elementów w<br />
grupie . Grupę wtedy tworzą dokumenty, które mają z elementem<br />
centralnym korelację większą od wybranego progu.
Wartośd progowa<br />
• Wartośd progowa jest wybierana jako<br />
maksymalna różnica korelacji dwóch kolejnych<br />
dokumentów, tak, aby odległośd pomiędzy<br />
tworzonym zbiorem a sąsiednimi nie<br />
związanymi elementami była możliwie<br />
najmniejsza.
Wyszukiwanie strukturalne<br />
• Po powiązaniu dokumentów w zbiorze wyjściowym<br />
przeprowadza się dwuetapową operację wyszukiwania.<br />
Nadchodzącą kwerendę najpierw porównuje się z<br />
wektorami centroidalnymi wszystkich grup.<br />
• Jeśli np. 82 dokumenty rozdzielono między 7 grup, to<br />
trzeba dla danej kwerendy dokonad jej porównania z<br />
opisem każdej z 7 grup (opisem grupy: centroidem) i<br />
następnie porównad ją z dokumentami z n grup o<br />
najwyższym współczynniku korelacji, lub alternatywnie<br />
z dokumentami wszystkich grup takich, że współczynnik<br />
korelacji ich centroidu z kwerendą przekracza zadany<br />
próg.
1. Pobranie opisów obiektów.<br />
2. Ustalenie parametrów:<br />
Algorytm Rocchia<br />
P1,P2,N1,N2 - dla centrum grupy, P1p,P2p,N1p,N2p - dla centroidu.<br />
3. Wybranie potencjalnego centrum grupy: xc<br />
4. Przeprowadzamy test gęstości dla centrum grupy xc,(co najmniej N1 dokumentów ma współczynnik<br />
większy bądź równy od P1 a N2 dokumentów ma współczynnik większy bądź równy P2). W tym celu<br />
obliczamy współczynniki korelacji dokumentów z potencjalnym centrum grupy.<br />
– Jeżeli założenia nie są spełnione to konieczny jest wybór innego potencjalnego centrum grupy lub<br />
zmiana parametrów tekstu gęstości (punkt 3).<br />
– Jeśli potencjalne centrum grupy przeszło test gęstości: przechodzimy do punktu 5.<br />
5. Określamy rangę obiektów.<br />
6. Wyznaczamy M1 (liczebnośd zbioru obiektów dla których elementy są większe bądź równe P2) , M2<br />
(liczebnośd zbioru obiektów dla których elementy są większe bądź równe P1).<br />
– Jeśli M1=M2 to Pmin równa się najmniejszemu współczynnikowi korelacji obiektu należącego do<br />
M1,przechodzimy do punktu 7.<br />
– Jeśli M1 ≠ M2 to:<br />
• Obliczamy różnicę pomiędzy współczynnikami korelacji obiektów sąsiednich w grupie<br />
maksymalnej M2,bez obiektów grupy minimalnej M1 i określamy największą różnicę.<br />
• Minimalny współczynnik korelacji Pmin jest równy odjemnej z największej różnicy.<br />
• Jeśli największa różnica powtarza się to za Pmin przyjmujemy odjemną o większej wartości.<br />
7. Tworzymy wstępną grupę do której należą elementy o współczynniku korelacji większym bądź równym<br />
P min .<br />
8. Tworzymy wektor centroidalny, który stanowi sumę opisów obiektów należących do grupy wstępnej.
II-ga iteracja algorytmu - dla tworzenia<br />
tzw. grupy poprawionej<br />
1. Przeprowadzamy test gęstości dla centroidu, (co najmniej N1p dokumentów ma współczynnik większy<br />
bądź równy od P1p a N2p dokumentów ma współczynnik większy bądź równy P2p).<br />
2. Obliczamy współczynniki korelacji dokumentów z centroidem.<br />
3. Określamy rangę obiektów.<br />
4. Wyznaczamy M1p (liczebnośd zbioru obiektów dla których elementy są większe bądź równe P2p) , M2p<br />
(liczebnośd zbioru obiektów dla których elementy są większe bądź równe P1p).<br />
• Jeśli M1p=M2p to Pmin równa się najmniejszemu współczynnikowi korelacji obiektu należącego<br />
do M1p,przechodzimy do punktu 5.<br />
• Jeśli M1p ≠M2p to:<br />
1. Obliczamy różnicę pomiędzy współczynnikami korelacji obiektów sąsiednich w grupie<br />
maksymalnej M2p,bez obiektów grupy minimalnej M1p.<br />
2. Określamy największą różnicę.<br />
3. Minimalny współczynnik korelacji Pmin jest równy odjemnej z największej różnicy.<br />
4. Jeśli największa różnica powtarza się to za Pmin przyjmujemy odjemną o większej wartości.<br />
5. Tworzymy grupę poprawioną do której należą elementy o współczynniku korelacji większym bądź<br />
równym Pmin.<br />
6. Tworzymy wektor centroidalny, który stanowi sumę opisów obiektów należących do grupy poprawionej.<br />
7. Obiekty nie należące do grupy poprawionej (swobodne),traktujemy jako wejściowe opisy obiektów i<br />
generujemy kolejne grupy dokumentów.
Przykład<br />
• Wykorzystując opis (poniżej) algorytmu Rocchia przeprowadź grupowanie 10 obiektów<br />
o następujących opisach:<br />
• x1=a1 b1 c1 d1 e1<br />
• x2=a1 b1 c1 d1 e2<br />
• x3=a1 b1 c2 d1 e3<br />
• x4=a1 b1 c3 d1 e1<br />
• x5=a1 b1 c1 d1 e3<br />
• x6=a2 b1 c2 d1 e2<br />
• x7=a2 b1 c3 d1 e3<br />
• x8=a2 b2 c3 d3 e3<br />
• x9=a3 b3 c2 d2 e2<br />
• x10=a3 b3 c2 d3 e2<br />
• Dla podanego wyżej zbioru obiektów dane są następujące parametry:<br />
• a) Dla centrum grupy: N1=5, N2=3, p1=0,2, p2=0,3<br />
• b) Dla centroidu: N1c=5, N2c=3, p1c=0,25, p2c=0,35<br />
• Wybór potencjalnego centrum grupy xc<br />
• Jako potencjalne centrum grupy 1 przyjmij obiekt – x1.<br />
• Wybór miary podobieostwa (korelacji) każdego dokumentu z centrum grupy xc:<br />
p(<br />
x<br />
c<br />
,<br />
x<br />
i<br />
)<br />
<br />
x<br />
x<br />
c<br />
c<br />
<br />
<br />
x<br />
x<br />
i<br />
i
• Przeprowadzamy test gęstości dla centrum grupy: x c<br />
• Test ten mówi, że co najmniej N1 dokumentów ma współczynnik większy bądź<br />
równy od P1, a N2 dokumentów ma współczynnik większy bądź równy P2.<br />
• W tym celu obliczamy współczynniki korelacji (podobieostwa każdego dokumentu<br />
(x i ) z wybranym centrum grupy x c ) stosując wybraną wcześniej miarę korelacji.<br />
• Gdy mamy 10 dokumentów w systemie to po kolei dla każdego dokumentu<br />
wyliczamy taki współczynnik:<br />
• p(x1,xc)= ?<br />
• ...<br />
• p(x10,xc)= ?<br />
• W liczniku podajemy liczbę pojęd wspólnym danego dokumentu z centrum grupy x c<br />
• W mianowniku podajemy sumę pojęd, którymi są opisane obydwa dokumenty:<br />
dany dokument x i i dokument stanowiący centrum grupy.
zatem:<br />
Aby obliczyd współczynnik korelacji obiektu 1 z centrum grupy – który jest jednocześnie obiektem 1<br />
wykonujemy następujące czynności.<br />
• x1=a1 b1 c1 d1 e1<br />
• xc=a1 b1 c1 d1 e1<br />
Liczba pojęd wspólnych = 5, bo są to pojęcia: (a1,b1,c1,d1,e1)<br />
Suma wszystkich pojęd = 5, bo są to pojęcia: (a1,b1,c1,d1,e1)<br />
Zatem:<br />
• p(xc,x1) = 5/5 = 1.0<br />
• p(xc,x2) = 4/6 = 0.67<br />
• p(xc,x3) = 3/7 = 0.43<br />
• p(xc,x4) = 4/6 = 0.67<br />
• p(xc,x5) = 4/6 = 0.67<br />
• p(xc,x6) = 2/8 = 0.25<br />
• p(xc,x7) = 2/8 = 0.25<br />
• p(xc,x8) = 0/10 = 0<br />
• p(xc,x9) = 0/10 = 0<br />
• p(xc,x10) = 0/10 = 0
Określamy rangę dokumentów, czyli porządkujemy dokumenty malejąco według<br />
obliczonych w kroku 5 współczynników korelacji i nadajemy tak ułożonym wartościom rangi<br />
od 1 do n.<br />
Ranga 1: p(x1,xc)=1.0<br />
Ranga 2: p(x2,xc)=0.67<br />
Ranga 3: p(x4,xc)=0.67<br />
Ranga 4: p(x5,xc)=0.67<br />
Ranga 5: p(x3,xc)=0.43<br />
Ranga 6: p(x6,xc)=0.25<br />
Ranga 7: p(x7,xc)=0.25<br />
Ranga 8: p(x8,xc)=0.0<br />
Ranga 9: p(x9,xc)=0.0<br />
Ranga 10: p(x10,xc)=0.0<br />
Przeprowadzamy test gęstości – czyli sprawdzamy, czy na pewno:<br />
N1 dokumentów ma podobieostwo >= p1 ?<br />
Tak<br />
N2 dokumentów ma podobieostwo >=p2 ?<br />
Nie<br />
wybrane centrum grupy<br />
przeszedł test gęstości<br />
wybieramy inny obiekt jako centrum<br />
grupy (x c ).
Obliczamy faktyczne rozmiary grupy:<br />
M1 (liczebnośd zbioru obiektów dla których elementy są większe bądź równe P2)<br />
M2 (liczebnośd zbioru obiektów dla których elementy są większe bądź równe P1.<br />
M1 = 5 zaś M2 = 7<br />
Obliczamy minimalny współczynnik korelacji p min :<br />
• Jeśli M1=M2 to p min równa się najmniejszemu współczynnikowi korelacji obiektu<br />
należącego do M1<br />
• Jeśli M1 < M2 to:<br />
• Obliczamy różnicę pomiędzy współczynnikami korelacji obiektów sąsiednich w grupie<br />
maksymalnej M2,bez obiektów grupy minimalnej M1. Wybieramy największą różnicę i<br />
obliczamy minimalny współczynnik korelacji p min jako odjemną z tej największej<br />
różnicy.<br />
• Jeśli największa różnica powtarza się to za p min przyjmujemy odjemną o większej<br />
wartości.
Ranga 1: p(x1,xc)=1.0<br />
Ranga 2: p(x2,xc)=0.67<br />
Ranga 3: p(x4,xc)=0.67<br />
Ranga 4: p(x5,xc)=0.67<br />
Ranga 5: p(x3,xc)=0.43<br />
Ranga 6: p(x6,xc)=0.25<br />
Ranga 7: p(x7,xc)=0.25<br />
Ranga 8: p(x8,xc)=0.0<br />
Ranga 9: p(x9,xc)=0.0<br />
Ranga 10:p(x10,xc)=0.0<br />
M1 – większe od 0.3<br />
Ranga 1: p(x1,xc)=1.0<br />
Ranga 2: p(x2,xc)=0.67<br />
Ranga 3: p(x4,xc)=0.67<br />
Ranga 4: p(x5,xc)=0.67<br />
Ranga 5: p(x3,xc)=0.43<br />
M2 – większe od 0.2<br />
Ranga 1: p(x1,xc)=1.0<br />
Ranga 2: p(x2,xc)=0.67<br />
Ranga 3: p(x4,xc)=0.67<br />
Ranga 4: p(x5,xc)=0.67<br />
Ranga 5: p(x3,xc)=0.43<br />
Ranga 6: p(x6,xc)=0.25<br />
Ranga 7: p(x7,xc)=0.25
Ranga 1: p(x1,xc)=1.0<br />
Ranga 2: p(x2,xc)=0.67<br />
Ranga 3: p(x4,xc)=0.67<br />
Ranga 4: p(x5,xc)=0.67<br />
Ranga 5: p(x3,xc)=0.43<br />
Ranga 6: p(x6,xc)=0.25<br />
Ranga 7: p(x7,xc)=0.25<br />
Ranga 8: p(x8,xc)=0.0<br />
Ranga 9: p(x9,xc)=0.0<br />
Ranga 10:p(x10,xc)=0.0<br />
5 różnica z 6: 0,43 – 0,25 = 0, 18<br />
6 różnica z 7: 0,25 – 0,25 = 0<br />
7 różnica z 8: 0,25 – 0 = 0,25<br />
M1=5<br />
M2=7<br />
W naszym przypadku: M1 = 5 a M2 = 7, zatem są to różne wartości, więc, aby<br />
obliczyd współczynnik korelacji p min obliczamy różnicę między dokumentami na<br />
granicy tych grup.<br />
5:<br />
6:<br />
7:<br />
8:
Szukamy p min<br />
• Minimalny współczynnik korelacji p min jest<br />
równy odjemnej z największej różnicy.<br />
• p min = p7(x7) = 0,25
Tworzymy grupę wstępną (X 1W )<br />
Do grupy wstępnej będą<br />
należały wszystkie te<br />
dokumenty, które miały<br />
wyliczony współczynnik<br />
korelacji większy lub<br />
równy p min.<br />
p(x1,xc)=1.0<br />
p(x2,xc)=0.67<br />
p(x4,xc)=0.67<br />
p(x5,xc)=0.67<br />
p(x3,xc)=0.43<br />
p(x6,xc)=0.25<br />
p(x7,xc)=0.25<br />
p(x8,xc)=0.0<br />
p(x9,xc)=0.0<br />
p(x10,xc)=0.0<br />
Są to wszystkie obiekty grupy maksymalnej M2: x1, x2, x3, x4, x5, x6 i x7.
Grupa wstępna to dokumenty:<br />
x1, x2, x3, x4, x5, x6 i x7.<br />
Wyznaczamy wstępnego reprezentanta grupy X 1 – czyli centroid:<br />
Centroid to zbiór wszystkich pojęd, którymi są opisane dokumenty grupy<br />
minimalnej M1 (x1,x2,x3,x4,x5):<br />
x1=a1 b1 c1 d1 e1<br />
x2=a1 b1 c1 d1 e2<br />
x3=a1 b1 c2 d1 e3<br />
x4=a1 b1 c3 d1 e1<br />
x5=a1 b1 c1 d1 e3<br />
x6=a2 b1 c2 d1 e2<br />
x7=a2 b1 c3 d1 e3<br />
x8=a2 b2 c3 d3 e3<br />
x9=a3 b3 c2 d2 e2<br />
x10=a3 b3 c2 d3 e2<br />
czyli:C W1 : = {a1, b1, c1, c2, c3, d1, e1, e2, e3}
Generujemy grupę poprawioną:<br />
DRUGA ITERACJA<br />
W tym celu powtarzamy raz jeszcze cały algorytm, z tym, że teraz centrum grupy stanowi teraz CENTROID C1.<br />
Ustalenie parametrów testu gęstości dla centroidu:<br />
p1c = 0,25 ;p2c = 0,35 ;N1c = 5 ;N2c = 3<br />
Test gęstości dla centroidu:<br />
W tym celu obliczamy współczynniki korelacji (podobieostwa) dokumentów grupy<br />
maksymalnej M2 z centroidem C1<br />
P(x1,c1)=5/9 = 0.55<br />
P(x2,c1)=5/9 = 0.55<br />
P(x3,c1)=5/9 = 0.55<br />
P(x4,c1)=5/9= 0.55<br />
P(x5,c1)=5/9 = 0.55<br />
P(x6,c1)=4/10 = 0.4<br />
P(x7,c1)=4/10 = 0.4<br />
Określamy rangę dokumentów:<br />
Ranga 1 p(x1,xc)=0.55<br />
Ranga 2 p(x2,xc)= 0.55<br />
Ranga 3 p(x4,xc)=0.55<br />
Ranga 4 p(x5,xc)=0.55<br />
Ranga 5 p(x3,xc)=0.55<br />
Ranga 6 p(x6,xc)=0.4<br />
Ranga 7 p(x7,xc)=0.4
Sprawdzamy, czy na pewno: N1c dokumentów ma p>= p1c i N2c dokumentów ma współczynnik<br />
p>=p2c<br />
Jeśli tak to znaczy, że wybrane centrum grupy przeszedł test gęstości. Jeśli nie to zmieniamy<br />
parametry testu gęstości dla centroidu, bądź zaczynamy cały algorytm od nowa łącznie z<br />
wyborem nowego potencjalnego centrum grupy x_c.<br />
Obliczamy faktyczne rozmiary grupy poprawionej:<br />
Wyznaczamy M1 (liczebnośd zbioru obiektów dla których elementy są większe bądź równe P2) ,<br />
M2 (liczebnośd zbioru obiektów dla których elementy są większe bądź równe P1).<br />
Jeśli M1=M2 to p min równa się najmniejszemu współczynnikowi korelacji obiektu należącego do<br />
M1 czyli p min = p7(x7) = 0,4<br />
m1=m2= 7<br />
Wyznaczamy grupę poprawioną X_1<br />
Do tej grupy będą należały wszystkie te dokumenty, które miały wyliczony współczynnik korelacji<br />
większy lub równy pmin.<br />
Są to wszystkie obiekty grupy maksymalnej M2:<br />
X1= {x1, x2, x3, x4, x5, x6,x7}<br />
Wyznaczamy reprezentanta grupy X_1 – czyli centroid<br />
Centroid to zbiór wszystkich pojęd, którymi są opisane wszystkie dokumenty grupy X_1, czyli...<br />
C_1 = {a1, a2, b1, c1, c2, c3, d1, e1, e2, e3<br />
KONIEC GENEROWANIA PIERWSZEJ GRUPY.
Rezultat<br />
Zatem jedna iteracja algorytmu doprowadziła do powstania grupy:<br />
X1 = {X1, x2, x3, x4, x5, x6, x7}<br />
Na jej czele stoi centroid<br />
C1 = {a1, a2, b1, c1, c2, c3, d1, e1, e2, e3}<br />
Co dalej ? Są 2 możliwości:<br />
LUB<br />
Z dokumentów pozostałych:<br />
X – X1 = {x8,x9, x10}<br />
powinniśmy tworzyd kolejne grupy.<br />
Jednakże jak łatwo zauważyd<br />
patrząc na ustalone na początku<br />
parametry testu gęstości nie<br />
możliwe będzie utworzenie<br />
następnych grup, gdyż test ten<br />
wymaga aby...grupa maksymalna<br />
liczyła co najmniej N2=5<br />
dokumentów...a nam zostały już<br />
tylko 3 ....<br />
Zatem na tym kooczy się algorytm.<br />
Z wszystkich dokumentów<br />
X = {X1, x2, x3, x4, x5,<br />
x6, x7 ,x8,x9, x10}<br />
powinniśmy tworzyd kolejne<br />
grupy. Tyle że wybieramy teraz<br />
inne potencjalne centrum grupy<br />
(a więc nie obiektu x1) i<br />
próbujemy wokół niego związad<br />
grupę. Zatem na tym kooczy się<br />
algorytm.
Algorytm Doyle’a<br />
Zakładamy następujące wartości:<br />
m - liczba grup<br />
T - wartośd progowa<br />
a - współczynnik skalujący z przedziału - <br />
Dokonujemy wstępnego podziału zbioru dokumentów na m grup. Dla każdej grupy wyznaczamy:<br />
• Wektor Sj- wektor dokumentów<br />
• Wektor Cj - wektor pojęd występujących w j-tej grupie<br />
• Wektor Fj- wektor częstości występowania pojęd<br />
• Wektor Rj - wektor rang przyporządkowanych pojęciom grupy<br />
• Wektor Pj - wektor wartości pozycyjnych (PROFIL) gdzie: pi = ( b - ri )<br />
* wcześniej wyznaczamy wartośd bazową "b".<br />
dla każdego di wyliczamy wartośd funkcji punktującej g(di,Pj) w każdej grupie zawierającej<br />
wszystkie pojęcia opisujące obiekt di<br />
• wybieramy wartośd maksymalną !!!<br />
• Zazwyczaj „b” wybiera się jako wartośd całkowitą o 1 większą od maksymalnej liczby cech w<br />
danej grupie Sj.
Dla przykładowej grupy:<br />
Sj Cj Fj Rj Pj<br />
Doc_1 Kobieta 4 2 B-r(kobieta)<br />
Doc_2 Niska 3 3 B-r(niska)<br />
… Oczy niebieskie 5 1 B-r(oczy niebieskie)<br />
Jakie<br />
dokumenty<br />
Należą do<br />
Grupy ?<br />
Jakie cechy<br />
(pojęcia)<br />
opisują<br />
dokumenty<br />
danej grupy?<br />
Jaka jest<br />
częstośd<br />
wystąpienia<br />
cechy<br />
„kobieta” we<br />
wszystkich<br />
dokumentach<br />
danej grupy ?<br />
Tam gdzie jest<br />
największa<br />
częstośd<br />
wpiszemy<br />
najwyższą<br />
rangę („1”) i<br />
potem<br />
mniejszym<br />
częstościom<br />
przypiszemy<br />
niższe rangi<br />
Wartośd<br />
pozycyjna dla<br />
każdego<br />
pojęcia,<br />
obliczana jako<br />
różnica<br />
między<br />
wartością<br />
bazową „b” a<br />
rangą danej<br />
cechy
Potem obliczamy funkcję punktującą:<br />
Dla każdego dokumentu obliczamy wartośd funkcji punktującej.<br />
Nazywamy ją g(di,Pj) i obliczamy ją dla każdego profilu Pj (więc jeśli mamy 3 grupy:<br />
S1,S2i S3 to mamy 3 profile grup: P1,P2 i P3) wartośd funkcji punktującej.<br />
Funkcja punktująca oblicza dla każdego dokumentu di sumę wartości<br />
pozycyjnych pojęć opisujących ten dokument w Profilu Pj.<br />
Opis dokumentu x1:<br />
tx1=(Pł,K)(TY,DR)(SP,5)(OZ,c)<br />
Suma=34<br />
Wartości pozycyjne pojęd opisujących ten<br />
dokument to:<br />
cecha<br />
K 8<br />
DR 8<br />
5 9<br />
c 9<br />
Wartośd<br />
pozycyjna
Na podstawie wyznaczonych wartości funkcji<br />
punktującej dokonaj wstępnego podziału<br />
dokumentów do grup tak, że:<br />
gdy<br />
Gdzie: Hj = max(g (di,Pj))<br />
A więc maksymalna wartośd funkcji punktującej w każdej grupie: Hj = max(g (di,Pj))<br />
* z reguły powstaje m+1 grup (bo m grup + grupa dokumentów swobodnych)<br />
Jeśli podział w i+1-ej iteracji jest identyczny jak w i-tej to KONIEC algorytmu.<br />
REZULTAT:<br />
m- grup dokumentów (na czele każdej grupy stoi PROFIL) i ewentualnie grupa<br />
dokumentów swobodnych (L).
Przydział dokumentów do grup<br />
• Sj – to będzie wektor tych wszystkich<br />
dokumentów (każdy taki dokument „di”) dla<br />
którego wartość funkcji punktującej (g(di,Pj))<br />
jest większa niż ustalona wartość Tj
Przykład algorytmu Doyle'a<br />
Dla podanego zbioru obiektów przeprowadź jedną iterację grupowania algorytmem Doyle'a przy założeniach:<br />
liczba grup wynosi m=3, współczynnik a= 0,5<br />
tx1=(Pł,K)(TY,DR)(SP,5)(OZ,c)<br />
tx2=(Pł,M)(TY,PR)(SP,2)(OZ,b)<br />
tx3=(Pł,M)(TY,MGR)(SP,5)(OZ,c)<br />
tx4=(Pł,M)(TY,MGR)(SP,2)(OZ,a)<br />
tx5=(Pł,M)(TY,PR)(SP,12)(OZ,d)<br />
tx6=(Pł,M)(TY,DR)(SP,5)(OZ,b)<br />
tx7=(Pł,K)(TY,DR)(SP,2)(OZ,b)<br />
tx8=(Pł,M)(TY,MGR)(SP,12)(OZ,c)<br />
tx9=(Pł,M)(TY,PR)(SP,5)(OZ,d)<br />
tx10=(Pł,K)(TY,PR)(SP,2)(OZ,d)
I iteracja<br />
Tworzymy wektory opisujące każdą grupę:<br />
tx1=(Pł,K)(TY,DR)(SP,5)(OZ,c)<br />
tx2=(Pł,M)(TY,PR)(SP,2)(OZ,b)<br />
tx3=(Pł,M)(TY,MGR)(SP,5)(OZ,c)<br />
tx4=(Pł,M)(TY,MGR)(SP,2)(OZ,a)<br />
tx5=(Pł,M)(TY,PR)(SP,12)(OZ,d)<br />
tx6=(Pł,M)(TY,DR)(SP,5)(OZ,b)<br />
tx7=(Pł,K)(TY,DR)(SP,2)(OZ,b)<br />
tx8=(Pł,M)(TY,MGR)(SP,12)(OZ,c)<br />
tx9=(Pł,M)(TY,PR)(SP,5)(OZ,d)<br />
tx10=(Pł,K)(TY,PR)(SP,2)(OZ,d)
Obliczamy wartośd funkcji punktującej g(di,Pj)<br />
dla każdego dokumentu di i profilu Pj:
Dla każdej grupy ustalamy wartośd progową Tj, którą muszą spełnid dokumenty aby wejśd do<br />
danej grupy. Wartośd progową obliczamy wg jednego z poniższych wzorów:<br />
Przyjmijmy więc, że T = 37.<br />
Nowy podział na grupy ustalamy zgodnie ze wzorem podanym poniżej. Do nowych<br />
grup będą należed obiekty, których wartości funkcji punktującej będą ≥Tj czyli<br />
większe bądź równe od wartości progowej j-tej grupy.
Wyznaczamy maksymalną wartośd funkcji punktującej<br />
j-tej grupy:<br />
H1= 37<br />
H2= 40<br />
H3= 39
Następnie wartości progowe danych grup (Tj), przy założeniu, że a = 0.5.<br />
T1= H1- a(H1 - T) = 37<br />
T2= H2- a(H2 - T) = 40 - 0,5*(40-37) = 38,5<br />
T3= H3- a(H3 - T) = 39 - 0,5*(39-37) = 38<br />
OTRZYMANE GRUPY:<br />
Porównując wartości funkcji punktującej z wartościami progowymi według wzoru<br />
Otrzymujemy nowe grupy których jest m+1 ponieważ tworzy się jeszcze jedna grupa ,<br />
grupa obiektów swobodnych (niesklasyfikowanych).<br />
tx1=(Pł,K)(TY,DR)(SP,5)(OZ,c)<br />
tx2=(Pł,M)(TY,PR)(SP,2)(OZ,b)<br />
tx3=(Pł,M)(TY,MGR)(SP,5)(OZ,c)<br />
tx4=(Pł,M)(TY,MGR)(SP,2)(OZ,a)<br />
tx5=(Pł,M)(TY,PR)(SP,12)(OZ,d)<br />
tx6=(Pł,M)(TY,DR)(SP,5)(OZ,b)<br />
tx7=(Pł,K)(TY,DR)(SP,2)(OZ,b)<br />
tx8=(Pł,M)(TY,MGR)(SP,12)(OZ,c)<br />
tx9=(Pł,M)(TY,PR)(SP,5)(OZ,d)<br />
tx10=(Pł,K)(TY,PR)(SP,2)(OZ,d)<br />
Co zapiszemy następująco:<br />
Grupa I<br />
Grupa II<br />
Grupa III<br />
Grupa IV<br />
tx3=(Pł,M)(TY,MGR)(SP,5)(OZ,c)<br />
tx2=(Pł,M)(TY,PR)(SP,2)(OZ,b)<br />
tx7=(Pł,K)(TY,DR)(SP,2)(OZ,b)<br />
tx5=(Pł,M)(TY,PR)(SP,12)(OZ,d)<br />
tx9=(Pł,M)(TY,PR)(SP,5)(OZ,d)<br />
tx10=(Pł,K)(TY,PR)(SP,2)(OZ,d)<br />
tx1=(Pł,K)(TY,DR)(SP,5)(OZ,c)<br />
tx4=(Pł,M)(TY,MGR)(SP,2)(OZ,a)<br />
tx6=(Pł,M)(TY,DR)(SP,5)(OZ,b)<br />
tx8=(Pł,M)(TY,MGR)(SP,12)(OZ,c)<br />
X1={x3} X2={x2,x7} X3={x5,x9,x10}<br />
Grupa obiektów swobodnych: L={x1,x4,x6,x8}
Dlaczego parametr „a” wpływa na moc wiązania<br />
dokumentów w grupy ?<br />
Jeśli:<br />
a = 0.5<br />
Wówczas:<br />
T1= H1- a(H1 - T) = 37<br />
T2= H2- a(H2 - T) = 40 - 0,5*(40-37) = 38,5<br />
T3= H3- a(H3 - T) = 39 - 0,5*(39-37) = 38<br />
Wtedy przydział do grup jest następujący:<br />
Grupa I<br />
Grupa II<br />
Grupa III<br />
Grupa IV<br />
tx3=(Pł,M)(TY,MGR)(SP,5)(OZ,c)<br />
tx2=(Pł,M)(TY,PR)(SP,2)(OZ,b)<br />
tx6=(Pł,M)(TY,DR)(SP,5)(OZ,b)<br />
tx7=(Pł,K)(TY,DR)(SP,2)(OZ,b)<br />
tx5=(Pł,M)(TY,PR)(SP,12)(OZ,d)<br />
tx8=(Pł,M)(TY,MGR)(SP,12)(OZ,c)<br />
tx9=(Pł,M)(TY,PR)(SP,5)(OZ,d)<br />
tx10=(Pł,K)(TY,PR)(SP,2)(OZ,d)<br />
tx1=(Pł,K)(TY,DR)(SP,5)(OZ,c)<br />
tx4=(Pł,M)(TY,MGR)(SP,2)(OZ,a)
Dlaczego parametr „a” wpływa na moc wiązania<br />
dokumentów w grupy ?<br />
Jeśli:<br />
a = 0<br />
Wówczas:<br />
T1= H1- a(H1 - T) = 37<br />
T2= H2- a(H2 - T) = 40 – 0*(40-37) = 40<br />
T3= H3- a(H3 - T) = 39 - 0*(39-37) = 40<br />
Wtedy przydział do grup jest następujący:<br />
Grupa I<br />
Grupa II<br />
tx3=(Pł,M)(TY,MGR)(SP,5)(OZ,c)<br />
tx6=(Pł,M)(TY,DR)(SP,5)(OZ,b)<br />
Grupa III<br />
Grupa IV<br />
Brak dokumentów<br />
spełniających kryteria<br />
tx1=(Pł,K)(TY,DR)(SP,5)(OZ,c)<br />
tx2=(Pł,M)(TY,PR)(SP,2)(OZ,b)<br />
tx4=(Pł,M)(TY,MGR)(SP,2)(OZ,a)<br />
tx7=(Pł,K)(TY,DR)(SP,2)(OZ,b)<br />
tx8=(Pł,M)(TY,MGR)(SP,12)(OZ,c)<br />
tx5=(Pł,M)(TY,PR)(SP,12)(OZ,d)<br />
tx9=(Pł,M)(TY,PR)(SP,5)(OZ,d)<br />
tx10=(Pł,K)(TY,PR)(SP,2)(OZ,d)
Dlaczego parametr „a” wpływa na moc wiązania<br />
dokumentów w grupy ?<br />
Jeśli:<br />
a = 1<br />
Wówczas:<br />
T1= H1- a(H1 - T) = 37<br />
T2= H2- a(H2 - T) = 40 - 1*(40-37) = 37<br />
T3= H3- a(H3 - T) = 39 - 1*(39-37) = 37<br />
Wtedy przydział do grup jest następujący:<br />
Grupa I<br />
Grupa II<br />
Grupa III<br />
Grupa IV<br />
tx3=(Pł,M)(TY,MGR)(SP,5)(OZ,c)<br />
tx2=(Pł,M)(TY,PR)(SP,2)(OZ,b)<br />
tx6=(Pł,M)(TY,DR)(SP,5)(OZ,b)<br />
tx7=(Pł,K)(TY,DR)(SP,2)(OZ,b)<br />
tx5=(Pł,M)(TY,PR)(SP,12)(OZ,d)<br />
tx9=(Pł,M)(TY,PR)(SP,5)(OZ,d)<br />
tx8=(Pł,M)(TY,MGR)(SP,12)(OZ,c)<br />
tx10=(Pł,K)(TY,PR)(SP,2)(OZ,d)<br />
tx1=(Pł,K)(TY,DR)(SP,5)(OZ,c)<br />
tx4=(Pł,M)(TY,MGR)(SP,2)(OZ,a)
Wnioski ?<br />
• Gdy a wówczas Tj dzięki czemu <br />
zdolność wiązania dokumentów w grupy jest<br />
większa<br />
I odwrotnie:<br />
• Gdy a wówczas Tj dzięki czemu <br />
zdolność wiązania dokumentów w grupy jest<br />
mniejsza
II ITERACJA<br />
• Aby wykonad kolejną iterację algorytmu przyporządkujemy obiekty swobodne do grup ale innych<br />
niż występowały w poprzedniej iteracji, wtedy otrzymujemy nowy podział grup. Cała operacja<br />
kolejnych iteracji się kooczy, kiedy otrzymujemy po raz kolejny ten sam podział.
Obliczamy wartośd funkcji punktującej g(di,Pj)<br />
dla każdego dokumentu di i profilu Pj:
Kiedy kooczymy algorytm ?<br />
• Kiedy w dwóch kolejnych iteracjach nie ma już<br />
zmian w przydziale dokumentów do grup:<br />
Iteracja „i”<br />
Iteracja „i+1”<br />
X1={x3}<br />
X2={x2,x7}<br />
X3={x5,x9,x10}<br />
L={x1,x4,x6,x8}<br />
X1={x3}<br />
X2={x2,x7}<br />
X3={x5,x9,x10}<br />
L={x1,x4,x6,x8}
Wyszukiwanie w systemie Saltona<br />
Najpierw formułujemy kwerendę, posługując się<br />
oryginalnym żądaniem autora albo jego<br />
modyfikacją w postaci numerycznego<br />
wektora pojęd. Jedną z najważniejszych<br />
metod modyfikacji kwerend źródłowych jest<br />
korzystanie z dokumentów, które autor ocenił<br />
jako relewantne. Z chwilą sformułowania<br />
kwerendy selekcjonuje się zbiór<br />
dokumentów, które będą z nią korelowane.
Metody wyszukiwania<br />
• sekwencyjna - pełna ( full search)<br />
• strukturalna (tree search)
Metoda sekwencyjna<br />
• Metoda ta jest niezależna od klasyfikacji dokumentów w grupie.<br />
Polega ona na tym, że pytanie kierowane do systemu jest<br />
korelowane z każdym dokumentem. Jest liczony współczynnik<br />
korelacji - podobieostwa pytania z każdym dokumentem. Wybiera<br />
się te dokumenty, w których współczynnik jest większy od założonej<br />
wartości progowej (p min ). Dla wszystkich dokumentów robiony jest<br />
przegląd zupełny. Czyli nie grupujemy dokumentów. Odpowiedź na<br />
zadane pytanie otrzymujemy przez przegląd wszystkich, po kolei<br />
dokumentów znajdujących się w kartotece wyszukiwawczej. Im<br />
więcej będzie dokumentów tym dłuższy będzie czas obliczenia<br />
współczynników korelacji. Wada: bardzo wiele zależy od przyjętego<br />
współczynnika progowego, im on będzie mniejszy tym więcej<br />
obiektów zaliczymy do grupy będącej odpowiedzią na pytanie. Jeśli<br />
będzie za wysoki - to może się okazad, ze mało dokumentów spełni<br />
warunek wymagalny (tzn. mało będzie miało współczynnik korelacji<br />
z pytaniem ≥ temu założonemu współczynnikowi progowemu).
• P(pytanie,x1) = 5/5 = 1.0<br />
• P(pytanie,x2) = 4/6 = 0.67<br />
• p(pytanie,x3) = 3/7 = 0.43<br />
• p(pytanie,x4) = 4/6 = 0.67<br />
• p(pytanie,x5) = 4/6 = 0.67<br />
• p(pytanie,x6) = 2/8 = 0.25<br />
• P(pytanie,x7) = 2/8 = 0.25<br />
• p(pytanie,x8) = 0/10 = 0<br />
• p(pytanie,x9) = 0/10 = 0<br />
• p(pytanie,x10) = 0/10 = 0<br />
Przykład dla p min =0.65<br />
1. Obliczamy podobieostwo pytania do każdego dokumentu:<br />
2. Wybieramy jako odpowiedź tylko te dokumenty, które mają<br />
podobieostwo z pytaniem większe lub równe p min :<br />
• P(pytanie,x1) = 5/5 = 1.0<br />
• P(pytanie,x2) = 4/6 = 0.67<br />
• p(pytanie,x3) = 3/7 = 0.43<br />
• p(pytanie,x4) = 4/6 = 0.67<br />
• p(pytanie,x5) = 4/6 = 0.67<br />
• p(pytanie,x6) = 2/8 = 0.25<br />
• P(pytanie,x7) = 2/8 = 0.25<br />
• p(pytanie,x8) = 0/10 = 0<br />
• p(pytanie,x9) = 0/10 = 0<br />
• p(pytanie,x10) = 0/10 = 0<br />
(pytanie) = {x1,x2,x4,x5}
Metoda strukturalna<br />
Ta metoda jest ściśle związana ze strukturą bazy danych.<br />
Polega na obliczeniu współczynnika korelacji pytania z<br />
pniami i wybór pni najbardziej obiecujących, czyli tych o<br />
najwyższych współczynnikach korelacji. Wybrane pnie<br />
zostają usunięte i następuje obliczanie współczynników<br />
korelacji pytania z centroidami (w tych wybranych<br />
grupach). Ponownie wybiera się poziomy najbardziej<br />
obiecujące na poziomie centroidów i dla tych centroidów,<br />
usuwamy je i liczymy współczynniki korelacji dokumentów<br />
(tzn. pytania z dokumentami zbioru). Ostatecznie<br />
odpowiedzią na pytanie jest zbiór dokumentów, dla których<br />
współczynniki korelacji są większe od założonego pmin.
PARAMETRY EFEKTYWNOŚCI SYSTEMÓW<br />
INFORMACYJNYCH<br />
Dokument jest relewantny względem pytania Q wtedy i tylko<br />
wtedy jeżeli w opisie dokumentu występują wszystkie<br />
niezaprzeczone deskryptory pytania Q i w opisie tym nie<br />
występuje żaden z deskryptorów zaprzeczonych pytaniem.
Kompletnośd<br />
Kompletność określa zdolność systemu do wyszukiwania<br />
wszystkich dokumentów, które mogą okazać się<br />
relewantnymi<br />
gdzie:<br />
• a - liczba dokumentów relewantnych wyszukanych<br />
• c - liczba dokumentów relewantnych niewyszukanych
Dokładnośd<br />
Dokładność określa zdolność systemu do nie wyznaczania<br />
dokumentów nierelewantnych względem danego pytania Q.<br />
gdzie:<br />
• a - liczba<br />
wyszukanych<br />
dokumentów relewantnych<br />
• b - liczba<br />
wyszukanych.<br />
dokumentów nierelewantnych
Pozostałe parametry efektywności
Przykład badania efektywności<br />
W systemie zorganizowanym zgodnie z metodą Saltona występują dokumenty o następujących<br />
opisach:<br />
d1: abe<br />
d2: acef<br />
d3: abec<br />
d4: ab<br />
d5: cde<br />
d6: def<br />
d7: aef<br />
d8: f<br />
d9: efg<br />
d10: ceg<br />
Na pytanie t=ab+f, odpowiedź systemu była następująca: {d1, d2, d7,d9}.
Pytanie do systemu:<br />
T = t1 + t2<br />
ab + f<br />
ab<br />
f<br />
d1: abe<br />
d2: acef<br />
d3: abec<br />
d4: ab<br />
d5: cde<br />
d6: def<br />
d7: aef<br />
d8: f<br />
d9: efg<br />
d10: ceg<br />
d1,d3,d4<br />
+<br />
d1: abe<br />
d2: acef<br />
d3: abec<br />
d4: ab<br />
d5: cde<br />
d6: def<br />
d7: aef<br />
d8: f<br />
d9: efg<br />
d10: ceg<br />
d2,d6,d7,d8,d9<br />
Dokumenty relewantne:<br />
d1,d3,d4,d2,d6,d7,d8,d9
Zapis formalny<br />
Pytanie do systemu:<br />
T = ab + f<br />
T1 = ab<br />
T2 = f<br />
(t1)={d1,d3,d4}<br />
(t2)={d2,d6,d7,d8,d9}<br />
(t)=(t1) (t2)<br />
(t)={d1,d3,d4} {d2,d6,d7,d8,d9} = {d1,d3,d4,d2,d6,d7,d8,d9}
Dokumenty relewantne:<br />
d1,d3,d4,d2,d6,d7,d8,d9<br />
Dokumenty Wyszukane<br />
przez system:<br />
d1,d2,d7,d9<br />
Parametry oceny efektywności wyszukiwania takiego systemu kształtują się zatem<br />
następująco:<br />
wyszukane<br />
Niewyszukane<br />
Relewantne d1,d2,d7,d9 d3,d4,d6,d8<br />
nierelewantne brak d5,d10
wyszukane<br />
Niewyszukane<br />
wyszukane<br />
Niewyszukane<br />
Relewantne<br />
a<br />
c<br />
Relewantne d1,d2,d7,d9 d3,d4,d6,d8<br />
nierelewantne<br />
b<br />
d<br />
nierelewantne brak d5,d10<br />
Kompletnośd<br />
K = a/(a+c) = 4/(4+4) = 1/2<br />
Dokładnośd:<br />
D = a/(a+b) = 4/(4+0) = 1<br />
Uzyskaliśmy pełną dokładnośd (D), gdyż nie wyszukano nierelewantnych<br />
dokumentów.<br />
Kompletnośd wyniosła jedynie 0.5 gdyż spośród 8 relewantnych dokumentów<br />
znaleziono jedynie połowę.
Relacja między kompletnością a<br />
dokładnością<br />
Dokładnośd<br />
Wysokiej dokładności towarzyszy niska kompletnośd i odwrotnie: wysokiej<br />
kompletności niska dokładnośd.