17.11.2014 Views

Wykład 3: Sieci Bayesa

Wykład 3: Sieci Bayesa

Wykład 3: Sieci Bayesa

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Agnieszka Nowak – Brzezińska


Klasyfikacja Bayesowska jest klasyfikacją statystyczną.<br />

Pozwala przewidzieć prawdopodobieństwo przynależności<br />

obiektu do klasy. Opiera się na twierdzeniu <strong>Bayesa</strong>.<br />

<br />

Twierdzenia <strong>Bayesa</strong> pokazuje, w jaki sposób obliczyć<br />

prawdopodobieństwo warunkowe P(H|X), jeśli znane są<br />

prawdopodobieństwa: warunkowe P(X|H) oraz<br />

bezwarunkowe P(H) i P(X).<br />

<br />

Prawdopodobieństwa: P(X|H), P(H) oraz P(X) mogą być<br />

bezpośrednio wyliczone z danych zgromadzonych w<br />

treningowym zbiorze danych (w bazie danych).


Każdy obiekt traktowany jest jako wektor X (krotka) wartości<br />

atrybutów A 1 , ..., A n : X = (x1, x2, ..., xn).<br />

Niech C 1 , ..., C m będą klasami, do których może należeć X,<br />

<br />

P(C|X) niech oznacza prawdopodobieństwo przynależności X<br />

(ściślej: obiektów o właściwości X) do klasy C.<br />

<br />

W klasyfikacji <strong>Bayesa</strong> przypisujemy X do tej klasy, do której<br />

prawdopodobieństwo warunkowe przynależności X jest<br />

największe.<br />

<br />

X jest więc przypisany do C i , jeśli P(C i |X) ≥ P(C k |X), dla<br />

każdego k, 1 ≤ k ≤ m, k ≠ i.


1. W klasyfikacji <strong>Bayesa</strong> maksymalizujemy:<br />

2. Ponieważ P(X) jest stałe, więc wystarczy maksymalizować<br />

Iloczyn P(X|C i )P(C i ).<br />

3. Ponadto przyjmujemy: P(C i ) = s i / s,<br />

gdzie s oznacza liczbę obiektów w zbiorze treningowym,<br />

a s i oznacza liczbę obiektów w klasie C i .<br />

4. Dla X = (x 1 , x 2 , ..., x n ), wartość P(X|C i ) obliczamy jako<br />

iloczyn: P(X|C i ) = P(x 1 |C i )*P(x 2 |C i )* ... *P(x n |C i ),<br />

przy czym: P(x k |C i ) = s ik / s i ,<br />

gdzie s ik oznacza liczbę obiektów klasy C i , dla których wartość<br />

atrybutu A k jest równa x k , a s i oznacza liczbę wszystkich<br />

obiektów klasy Ci w zadanym zbiorze treningowym.


Klasyfikacja bayesowska, to metoda budowy systemu ekspertowego, w<br />

której wiedza przedstawiona jest á priori z warunkowymi<br />

prawdopodobieństwami, a wnioskowanie polega na liczeniu<br />

następnych prawdopodobieństw.<br />

Mechanizm wnioskowania wykorzystujący twierdzenie <strong>Bayesa</strong> polega<br />

na obliczaniu prawdopodobieństwa każdego możliwego wyniku, gdy<br />

znany jest dany konkretny przypadek.


Wadą tej metody jest fakt, że wymaga ona znajomości<br />

dokładnych wartości lub rozkładów prawdopodobieństw<br />

pojawienia się parametrów zjawiska, czyli problemu będącego<br />

przedmiotem rozważań.<br />

Innym problemem jest to, że należy dokonać pewnych<br />

nierealistycznych założeń – na przykład w klasyfikacji<br />

bayesowskiej wymagane wyniki, np. rozpoznawania, musza<br />

się wzajemnie wykluczać. Niestety w wielu przypadkach mogą<br />

występować liczne podobne wyniki (np. w diagnostyce:<br />

pacjent może mieć wiele chorób).<br />

Innym założeniem, co prawda niewymaganym przez<br />

twierdzenie <strong>Bayesa</strong>, ale wymuszonym przez praktykę, jest<br />

statystyczna niezależność cechy problemu .


Koncepcja sieci <strong>Bayesa</strong> wynika wprost z koncepcji<br />

prawdopodobieństwa warunkowego.<br />

Jak się okazuje w rzeczywistym świecie jest wiele sytuacji w których<br />

wystąpienie jakiegoś zdarzenia ściśle zależy od innego zdarzenia.<br />

Zastosowanie sieci <strong>Bayesa</strong><br />

pozwala na uniknięcie obliczeń o dużej złożoności – obliczenie<br />

jednego prawdopodobieństwa a posteriori łączy się z uprzednim<br />

obliczeniem wykorzystywanych prawdopodobieństw.<br />

<strong>Sieci</strong> <strong>Bayesa</strong> służą do przedstawiania niepewności wiedzy.<br />

Niepewność wiedzy używanej zawartej w systemach ekspertowych<br />

może mieć wiele czynników:<br />

<br />

<br />

<br />

<br />

niepewność ekspertów dotycząca ich wiedzy<br />

niepewność tkwiąca w modelowanej dziedzinie<br />

niepewność inżyniera próbującego przetłumaczyć wiedzę<br />

niepewność wynikła z dokładności dostępnej wiedzy


<strong>Sieci</strong> <strong>Bayesa</strong> używają teorii prawdopodobieństwa do<br />

określenia niepewności przez jawne reprezentowanie<br />

warunkowych zależności pomiędzy różnymi częściami<br />

wiedzy.<br />

Pozwala to na intuicyjną graficzną wizualizację wiedzy<br />

zawierającą wzajemne oddziaływania pomiędzy różnymi<br />

źródłami niepewności.<br />

<strong>Sieci</strong> <strong>Bayesa</strong> są stosowane w diagnostyce, w rozumowaniu<br />

przebiegającym od efektów do przyczyn i odwrotnym.<br />

W systemach ekspertowych sieci <strong>Bayesa</strong> znalazły<br />

zastosowanie w medycynie (systemy doradcze, które<br />

rozpoznają chorobę na podstawie podawanych objawów).


Wejście:<br />

• Rozważana populacja obiektów (klientów) opisana jest za pomocą<br />

czterech atrybutów: Wiek, Dochód, Studia, OcenaKred.<br />

• Interesuje nas przynależność obiektów do jednej z dwóch klas:<br />

klienci kupujący komputery (o etykiecie TAK) i klienci nie kupujący<br />

komputerów (o etykiecie NIE).<br />

• Z bazy danych wybrano zbiór treningowy.<br />

• Obiekt X o nieznanej przynależności klasowej ma postać:<br />

X = (Wiek = „


Klasyfikowany obiekt:<br />

X = (Wiek = „


Ze zbioru treningowego obliczamy:<br />

P(Wiek=„


Stąd:<br />

P(X|C 1 ) = 0.222*0.444*0.667*0.667 = 0.044<br />

P(X|C 1 )P(C 1 ) = 0.044*0.643 = 0.028<br />

P(X|C 2 ) = 0.600*0.400*0.200*0.400 = 0.019<br />

P(X|C 2 )P(C 2 ) = 0.019*0.357 = 0.007<br />

X – został zaklasyfikowany do C 1 .


Thomas Bayes (ur. ok. 1702 w Londynie — zm. 17 kwietnia<br />

1761) brytyjski matematyk i duchowny prezbiteriański, znany<br />

ze sformułowania opublikowanego pośmiertnie twierdzenia<br />

<strong>Bayesa</strong>, które to zapoczątkowało dział statystyki.


(od nazwiska Thomasa <strong>Bayesa</strong>) to twierdzenie teorii<br />

prawdopodobieństwa, wiążące prawdopodobieństwa<br />

warunkowe zdarzeń.<br />

Na przykład, jeśli jest zdarzeniem "u pacjenta występuje<br />

wysoka gorączka", i jest zdarzeniem "pacjent ma grypę",<br />

twierdzenie <strong>Bayesa</strong> pozwala przeliczyć znany odsetek<br />

gorączkujących wśród chorych na grypę i znane odsetki<br />

gorączkujących i chorych na grypę w całej populacji, na<br />

prawdopodobieństwo, że ktoś jest chory na grypę, gdy wiemy<br />

że ma wysoką gorączkę.<br />

Twierdzenie stanowi podstawę teoretyczną sieci<br />

bayesowskich, stosowanych w eksploracji danych.


Jeśli A i B są prostymi zdarzeniami w przestrzeni prób, to<br />

prawdopodobieństwo warunkowe P(A/B) będzie określone<br />

jako:<br />

P(<br />

A|<br />

B)<br />

<br />

P(<br />

A<br />

B)<br />

P(<br />

B)<br />

liczba wyników<br />

<br />

liczba<br />

Również P(B/A) = P(AB)/P(A).<br />

zarówno<br />

wyników<br />

w<br />

w<br />

A jak<br />

B<br />

Przekształcając ten wzór, otrzymujemy wzór na przecięcie<br />

zdarzeń P(AB) = P(B/A)P(A) i po podstawieniu mamy:<br />

P(<br />

B / A)<br />

P(<br />

A)<br />

P(<br />

A|<br />

B)<br />

<br />

P(<br />

B)<br />

Co jest tezą twierdzenia <strong>Bayesa</strong> dla prostych zdarzeń.<br />

i<br />

B


Sieć bayesowska to acykliczny (nie zawierający cykli) graf<br />

skierowany, w którym:<br />

węzły reprezentują zmienne losowe (np. temperaturę jakiegoś<br />

źródła, stan pacjenta, cechę obiektu itp.)<br />

łuki (skierowane) reprezentują zależność typu „ zmienna X ma<br />

bezpośredni wpływ na zmienna Y”,<br />

każdy węzeł X ma stowarzyszona z nim tablice<br />

prawdopodobieństw warunkowych określających wpływ<br />

wywierany na X przez jego poprzedników (rodziców) w grafie,<br />

Zmienne reprezentowane przez węzły przyjmują wartości<br />

dyskretne (np.: TAK, NIE).


<strong>Sieci</strong>ą <strong>Bayesa</strong> nazywamy skierowany graf acykliczny o<br />

wierzchołkach reprezentujących zmienne losowe i<br />

łukach określających zależności.<br />

Istnienie łuku pomiędzy dwoma wierzchołkami oznacza<br />

istnienie bezpośredniej zależności przyczynowo<br />

skutkowej pomiędzy odpowiadającymi im zmiennymi.<br />

Siła tej zależności określona jest przez tablice<br />

prawdopodobieństw warunkowych.


a<br />

E<br />

b<br />

d<br />

c<br />

G<br />

F<br />

<br />

<br />

<br />

<br />

gdzie a, b, c, d to obserwacje, E, F, G to hipotezy<br />

Aby zdefiniować graf zwykle podaje się zbiór jego wierzchołków<br />

oraz zbiór jego krawędzi.<br />

Każdy wierzchołek reprezentuje obserwację lub hipotezę, każda<br />

krawędź jest określona w ten sposób, że podaje się dla niej<br />

informacje o wierzchołkach które dana krawędź łączy, oraz<br />

ewentualnie dla grafów skierowanych informację o kierunku<br />

krawędzi.<br />

Załóżmy, że G będzie grafem określonym zbiorem wierzchołków<br />

N i krawędzi E.<br />

Załóżmy, również że dany jest zbiór prawdopodobieństw<br />

warunkowych CP. Elementami tego zbiory są<br />

prawdopodobieństwa opisujące poszczególne krawędzie grafu


Pod pojęciem sieci Bayesowskiej rozumieć będziemy trójkę:<br />

B = { N, E, CP }<br />

gdzie dwójka {N,E} jest zorientowanym grafem acyklicznym<br />

zbudowanym na podstawie zadanych prawdopodobieństw<br />

warunkowych zawartych w zbiorze CP.<br />

N – (ang. Nodes) węzły w grafie odpowiadające zbiorom<br />

obserwacji i hipotez<br />

E – (ang. edges) krawędzie odzwierciedlające kierunek<br />

wnioskowania<br />

Każdy wierzchołek w sieci przechowuje rozkład P(X i | (i) ) gdzie X (i) jest zbiorem<br />

wierzchołków odpowiadających (i) – poprzednikom (rodzicom) wierzchołka (i).


Prawdopodobieństwo wystąpienia anginy w przypadku objawów takich jak<br />

ból gardła i gorączka jest wysokie i wynosić może 0.8. Jednak wystąpienie<br />

gorączki i bólu głowy może świadczyć o grypie, co jest hipoteza<br />

prawdopodobna na 0.6. W przypadku gdy pacjent cierpiący na grypę nie<br />

wyleczył się całkowicie może dojść do zapalenia oskrzeli z<br />

prawdopodobieństwem 0.4. Zapalenie oskrzeli może spowodować ból gardła<br />

z prawdopodobieństwem 0.3.<br />

Hipotezy:<br />

A – Angina<br />

D-grypa<br />

O-Zapalenie oskrzeli<br />

b<br />

g<br />

0.8<br />

A<br />

0.3<br />

Objawy:<br />

b-ból gardła<br />

g-Gorączka<br />

c-ból głowy<br />

c<br />

0.6<br />

D<br />

e<br />

0.4<br />

O<br />

e-brak całkowitego wyleczenia<br />

CP = {P(A|b,g)=0.8; P(D|g,c)=0.6; P(O|D,e)=0.4;P(b|O)=0.3}


Rozkład prawdopodobieństw zapisuje się jako:<br />

P(<br />

x<br />

n<br />

,..., x ) P(<br />

x X )<br />

1 n<br />

i ( i)<br />

i1<br />

W grafie wierzchołki są etykietowane nazwami<br />

atrybutów. Przy każdym wierzchołku występuje tabela<br />

prawdopodobieństw warunkowych pomiędzy danym<br />

wierzchołkiem i jego rodzicami.


Węzeł A jest rodzicem lub poprzednikiem wierzchołka X, a<br />

wierzchołek X jest potomkiem lub następnikiem węzła<br />

A, jeżeli istnieje bezpośrednia krawędź z wierzchołka A<br />

do X.<br />

p(<br />

X<br />

m<br />

1<br />

x1,<br />

X<br />

2<br />

x2,...,<br />

X<br />

m<br />

xm)<br />

p(<br />

X<br />

i<br />

xi<br />

|<br />

rodzice(<br />

X i ))<br />

i1<br />

A więc prawdopodobieństwo pojawienia się wierzchołka<br />

potomnego zależy tylko od jego rodziców !


zdefiniowanie zmiennych,<br />

zdefiniowanie połączeń pomiędzy zmiennymi,<br />

określenie prawdopodobieństw warunkowych i ”a priori”<br />

(łac. z założenia)<br />

wprowadzenie danych do sieci,<br />

uaktualnienie sieci,<br />

wyznaczenie prawdopodobieństw ”a posteriori” ( łac. z<br />

następstwa)<br />

Sieć bayesowska koduje informacje o określonej dziedzinie za pomocą<br />

wykresu, którego wierzchołki wyrażają zmienne losowe, a krawędzie<br />

obrazują probabilistyczne zależności między nimi.


<strong>Sieci</strong> te mają wiele zastosowań m.in. w Sztucznej inteligencji,<br />

medycynie (w diagnozowaniu), w genetyce, statystyce, w ekonomii.<br />

O popularności SB zadecydowało to, że są dla nich wydajne metody<br />

wnioskowania. Możliwe jest proste wnioskowanie o zależności<br />

względnej i bezwzględnej badanych atrybutów.<br />

Niezależność może tak zmodularyzować naszą wiedzę, że wystarczy<br />

zbadanie tylko części informacji istotnej dla danego zapytania,<br />

zamiast potrzeby eksploracji całej wiedzy.<br />

<strong>Sieci</strong> Bayesowskie mogą być ponadto rekonstruowane, nawet jeśli<br />

tylko część właściwości warunkowej niezależności zmiennych jest<br />

znana. Inną cechą SB jest to, że taką sieć można utworzyć mając<br />

niepełne dane na temat zależności warunkowej atrybutów.


Przykład: jakie są szanse zdania ustnego egzaminu u prof. X, który jest<br />

kibicem Wisły i nie lubi deszczu ?<br />

Z - zaliczony egzamin<br />

N - dobre przygotowanie<br />

H - dobry humor egzaminatora<br />

A - awans Wisły do Ligi Mistrzów<br />

D - deszcz<br />

Łączny rozkład prawdopodobieństwa:<br />

P(Z, N, H, A ,D)<br />

wyznaczony przez 2 5 wartości (32 wartości)


Prawdopodobieństwo dobrego humoru, jeżeli Wisła<br />

awansowała: P(H=trueA=true):<br />

P(<br />

H<br />

|<br />

A)<br />

<br />

P(<br />

H,<br />

A)<br />

P(<br />

A)<br />

obliczymy z łącznego rozkładu P(Z, N, H, A ,D), na podstawie<br />

prawdopodobieństw brzegowych:<br />

P(<br />

H,<br />

A)<br />

<br />

<br />

Z , N , D<br />

P(<br />

Z,<br />

N,<br />

H,<br />

A,<br />

D)<br />

8 sumowań<br />

P(<br />

A)<br />

<br />

<br />

Z , N , H , D<br />

P(<br />

Z,<br />

N,<br />

H,<br />

A,<br />

D)<br />

16 sumowań


P(A)<br />

0.20<br />

P(D)<br />

0.30<br />

P(N)<br />

0.20 A D P(H)<br />

T 0.95<br />

T<br />

F 0.99<br />

T 0.05<br />

F<br />

F 0.15<br />

P(Z|H,D) = P(Z|H)<br />

N H P(Z)<br />

T 0.90<br />

T<br />

F 0.55<br />

T 0.45<br />

F<br />

F 0.05


Musimy pamiętać mniej wartości: w naszym przypadku 11 zamiast<br />

31 (ogólnie n2 k , n-liczba wierzchołków, k - maksymalna liczba<br />

rodziców; zamiast 2 n -1 wszystkich wartości w rozkładzie pełnym)<br />

Naturalne modelowanie: łatwiej oszacować prawd. warunkowe<br />

bezpośrednich zależności niż koniunkcji wszystkich możliwych<br />

zdarzeń<br />

Dowolny kierunek wnioskowania<br />

Czytelna reprezentacja wiedzy<br />

Łatwa modyfikacja


Reguła łańcuchowa: z def. P(X 1 ,X 2 )=P(X 1 |X 2 )P(X 2 )<br />

<br />

P( X ,..., X<br />

n)<br />

P(<br />

X<br />

i<br />

| X<br />

i1,...,<br />

X<br />

1 n<br />

i<br />

Numerując wierzchołki grafu tak aby indeks każdej zmiennej<br />

był mniejszy niż indeks przypisany jego przodkom oraz<br />

korzystając z warunkowej niezależności otrzymujemy:<br />

)<br />

P( Xi<br />

| X<br />

i1,...,<br />

X<br />

n)<br />

P(<br />

Xi<br />

| Parents ( Xi))<br />

<br />

Model zupełny<br />

P(<br />

X1,...,<br />

X<br />

n)<br />

P(<br />

X<br />

i<br />

i<br />

|<br />

Parents ( X<br />

i<br />

))


P(Z,N,H,A,D) = P(Z|N,H) P(N) P(H|A,D) P(A) P(D)<br />

Jaka jest szansa zaliczenia dla nieprzygotowanego studenta, gdy pada,<br />

Wisła odpadła i egzaminator jest w złym humorze ?<br />

P(Z N H A D) = 0.05 0.8 0.05 0.8 .30 = 0.0048<br />

P(A)<br />

0.20<br />

P(D)<br />

0.30<br />

P(N)<br />

0.20<br />

N H P(Z)<br />

T 0.90<br />

T<br />

F 0.55<br />

T 0.45<br />

F<br />

F 0.05<br />

A D P(H)<br />

T 0.95<br />

T<br />

F 0.99<br />

T 0.05<br />

F<br />

F 0.15


Prawdopodobieństwo Zaliczenia 74%


Egzamin zaliczony, jakie były tego przyczyny ?<br />

Wzrost P(A) z 20% do 40%, przy spadku P(D) - wykluczanie


Jeśli się przygotowaliśmy, to jaka jest szansa na zaliczenie ?<br />

Spadek P(Z) z 26% do 17%


... ale dodatkowo, Wisła awansowała i świeci słońce !<br />

Wzrost P(Z) z 17% do 45%.<br />

Podchodzić ?


Dodajemy wierzchołki decyzyjne (Podejście) oraz użyteczności<br />

(Stypendium) i możemy mierzyć wpływ ilościowy decyzji (Podchodzić, Nie<br />

Podchodzić)<br />

Podej Zalicz Styp<br />

true<br />

false<br />

true<br />

true<br />

7000<br />

5000<br />

false<br />

false<br />

2500<br />

5000


Czy warto iść gdy jesteśmy nieprzygotowani, świeci słońce i Wisła awansowała ?


A – pogoda<br />

(słonecznie/pochmurno/deszczowo/wietrznie)<br />

B – czas wolny (tak/nie)<br />

X – humor (bardzo dobry/dobry/nietęgi)<br />

C – zajęcie na zewnątrz (spacer/basen/rower)<br />

D – zajęcie w domu(komputer/książka/gotowanie)<br />

A<br />

X<br />

B<br />

C<br />

D


If A=a1 and B=b1 then X=x1 with 30%<br />

If A=a1 and B=b1 then X=x2 with 30%<br />

If A=a1 and B=b1 then X=x2 with 40%<br />

If A=a1 and B=b2 then X=x1 with 20%<br />

If A=a1 and B=b2 then X=x2 with 40%<br />

If A=a1 and B=b2 then X=x2 with 40%<br />

If A=a2 and B=b1 then X=x1 with 10%<br />

If A=a2 and B=b1 then X=x2 with 30%<br />

If A=a2 and B=b1 then X=x2 with 60%<br />

If A=a2 and B=b2 then X=x1 with 5%<br />

If A=a2 and B=b2 then X=x2 with 35%<br />

If A=a2 and B=b2 then X=x2 with 60%<br />

If A=a3 and B=b1 then X=x1 with 40%<br />

If A=a3 and B=b1 then X=x2 with 40%<br />

If A=a3 and B=b1 then X=x2 with 20%<br />

P(X|A,B) x1 x2 x3<br />

a1b1 0.3 0.3 0.4<br />

a1b2 0.2 0.4 0.4<br />

a2b1 0.1 0.3 0.6<br />

a2b2 0.05 0.35 0.6<br />

a3b1 0.4 0.4 0.2<br />

a3b2 0.2 0.5 0.3<br />

a4b1 0.6 0.35 0.05<br />

a4b2 0.3 0.4 0.3<br />

If A=a3 and B=b2 then X=x1 with 20%<br />

If A=a3 and B=b2 then X=x2 with 50%<br />

If A=a3 and B=b2 then X=x2 with 30%<br />

If A=a4 and B=b1 then X=x1 with 60%<br />

If A=a4 and B=b1 then X=x2 with 35%<br />

If A=a4 and B=b1 then X=x2 with 5%<br />

If A=a4 and B=b2 then X=x1 with 30%<br />

If A=a4 and B=b2 then X=x2 with 40%<br />

If A=a4 and B=b2 then X=x2 with 30%


A<br />

a1 0.25<br />

a2 0.25<br />

a3 0.25<br />

a4 0.25<br />

P(X|A,B) x1 x2 x3<br />

a1b1 0.3 0.3 0.4<br />

a1b2 0.2 0.4 0.4<br />

a2b1 0.1 0.3 0.6<br />

a2b2 0.0<br />

5<br />

0.35 0.6<br />

a3b1 0.4 0.4 0.2<br />

a3b2 0.2 0.5 0.3<br />

a4b1 0.6 0.35 0.05<br />

a4b2 0.3 0.4 0.3<br />

B<br />

b1 0.4<br />

b2 0.6<br />

P(C|X) c1 c2 c3<br />

X1 0.1 0.2 0.7<br />

X2 0.2 0.6 0.2<br />

X3 0.5 0.4 0.1<br />

P(DX) d1 d2 d3<br />

X1 0.1 0.3 0.6<br />

X2 0.7 0.2 0.1<br />

X3 0.3 0.4 0.3


A<br />

B<br />

a1 0.25<br />

a2 0.25<br />

a3 0.25<br />

a4 0.25<br />

P(C|X) c1 c2 c3<br />

X1 0.1 0.2 0.7<br />

X2 0.2 0.6 0.2<br />

X3 0.5 0.4 0.1<br />

P(X|A,B) X1 x2 x3<br />

a1b1 0.3 0.3 0.4<br />

a1b2 0.2 0.4 0.4<br />

a2b1 0.1 0.3 0.6<br />

a2b2 0.05 0.35 0.6<br />

a3b1 0.4 0.4 0.2<br />

a3b2 0.2 0.5 0.3<br />

a4b1 0.6 0.35 0.05<br />

a4b2 0.3 0.4 0.3<br />

b1 0.4<br />

b2 0.6<br />

P(DX) d1 d2 d3<br />

X1 0.1 0.3 0.6<br />

X2 0.7 0.2 0.1<br />

X3 0.3 0.4 0.3<br />

p(<br />

A a<br />

p(<br />

A a<br />

p(<br />

A a<br />

p(<br />

A a<br />

4<br />

4<br />

4<br />

4<br />

, B b<br />

2<br />

, C<br />

) p(<br />

B b<br />

, B b<br />

2<br />

, C<br />

) p(<br />

B b<br />

, X<br />

, X<br />

0.25*0.6*0.05*0.5*0.4 0.0015<br />

2<br />

2<br />

c , D d<br />

1<br />

) p(<br />

X x<br />

1<br />

3<br />

c , D d<br />

) p(<br />

X x<br />

3<br />

2<br />

2<br />

<br />

| A a<br />

<br />

| A a<br />

4<br />

4<br />

x<br />

3<br />

3<br />

)<br />

B <br />

x<br />

)<br />

<br />

<br />

B <br />

b<br />

b<br />

2<br />

2<br />

) p(<br />

C<br />

) p(<br />

C<br />

<br />

<br />

c<br />

c<br />

1<br />

1<br />

|<br />

|<br />

X<br />

X<br />

<br />

<br />

x<br />

x<br />

3<br />

3<br />

) p(<br />

D<br />

) p(<br />

D<br />

<br />

<br />

d<br />

d<br />

2<br />

2<br />

|<br />

|<br />

X<br />

X<br />

<br />

<br />

x<br />

x<br />

3<br />

3<br />

)<br />

)


A<br />

a1 0.25<br />

a2 0.25<br />

a3 0.25<br />

a4 0.25<br />

P(X|A,B) X1 x2 x3<br />

a1b1 0.3 0.3 0.4<br />

a1b2 0.2 0.4 0.4<br />

a2b1 0.1 0.3 0.6<br />

a2b2 0.05 0.35 0.6<br />

a3b1 0.4 0.4 0.2<br />

a3b2 0.2 0.5 0.3<br />

a4b1 0.6 0.35 0.05<br />

a4b2 0.3 0.4 0.3<br />

B<br />

b1 0.4<br />

b2 0.6<br />

p(<br />

X x1<br />

| A a1<br />

B b1<br />

)* p(<br />

A a1)*<br />

p(<br />

B b1<br />

)<br />

0.3*(0.25*0.4) 0.3*0.1 0.03


A<br />

B<br />

a1 0.25<br />

a2 0.25<br />

a3 0.25<br />

a4 0.25<br />

P(C|X) c1 c2 c3<br />

X1 0.1 0.2 0.7<br />

X2 0.2 0.6 0.2<br />

X3 0.5 0.4 0.1<br />

P(X|A,B) X1 x2 x3<br />

a1b1 0.3 0.3 0.4<br />

a1b2 0.2 0.4 0.4<br />

a2b1 0.1 0.3 0.6<br />

a2b2 0.05 0.35 0.6<br />

a3b1 0.4 0.4 0.2<br />

a3b2 0.2 0.5 0.3<br />

a4b1 0.6 0.35 0.05<br />

a4b2 0.3 0.4 0.3<br />

b1 0.4<br />

b2 0.6<br />

P(DX) d1 d2 d3<br />

X1 0.1 0.3 0.6<br />

X2 0.7 0.2 0.1<br />

X3 0.3 0.4 0.3<br />

p(<br />

X <br />

p(<br />

X x<br />

p(<br />

X x<br />

p(<br />

X x<br />

p(<br />

X x<br />

x ) p(<br />

X x<br />

1<br />

1<br />

1<br />

1<br />

1<br />

|<br />

|<br />

|<br />

|<br />

A a<br />

A a<br />

A a<br />

A a<br />

1<br />

2<br />

3<br />

4<br />

1<br />

B b<br />

| A a<br />

2<br />

B b<br />

B b<br />

B b<br />

2<br />

2<br />

2<br />

1<br />

B b<br />

) p(<br />

A a<br />

1<br />

) p(<br />

A a<br />

) p(<br />

A a<br />

) p(<br />

A a<br />

2<br />

3<br />

4<br />

1<br />

) p(<br />

A a<br />

B b<br />

2<br />

B b<br />

B b<br />

2<br />

2<br />

B b<br />

2<br />

) <br />

| A a<br />

| A a<br />

| A a<br />

) p(<br />

A a<br />

) p(<br />

A a<br />

) p(<br />

A a<br />

0.3*0.1<br />

0.2*0.15 0.1*0.1<br />

0.05*0.15 0.4*0.1<br />

0.2*0.15 0.6*0.1<br />

0.3*0.15 0.2525<br />

1<br />

B b<br />

1<br />

) p(<br />

X x<br />

) <br />

1<br />

) p(<br />

X x<br />

) p(<br />

X x<br />

1<br />

1<br />

2<br />

3<br />

4<br />

B b<br />

1<br />

B b<br />

B b<br />

1<br />

1<br />

2<br />

3<br />

4<br />

B b<br />

1<br />

B b<br />

B b<br />

) <br />

1<br />

1<br />

) <br />

)


Jakie są szanse zdania ustnego egzaminu u prof. X, który<br />

jest kibicem Wisły i nie lubi deszczu?<br />

Wynik egzaminu zależy od:<br />

dobrego przygotowania studenta<br />

dobrego humor egzaminatora<br />

awansu Wisły do Ligi Mistrzów<br />

Deszczu – by nie padał !!!


Jak prawdopodobne jest zdanie egzaminu gdy humor egzaminatora i<br />

przygotowanie studenta jest pewne w skali „pół na pół” ?


Jak prawdopodobne jest zdanie egzaminu gdy humor egzaminatora i<br />

przygotowanie studenta jest pewne przynajmniej w 70 % ?


Jak prawdopodobne jest zdanie egzaminu gdy humor egzaminatora<br />

jest dobry ale przygotowanie studenta niestety fatalne ! ?


SMILE Zestaw klas C++ implementujących różne modele decyzyjne w oparciu o analizę<br />

probabilistyczną. Wśród nich sieci <strong>Bayesa</strong>, modele równań strukturalnych. SMILE<br />

doskonałe sprawdzi się w roli engine'u dla różnego rodzaju aplikacji, których celem jest<br />

tworzenia graficznej reprezentacji model probabilistycznego. Biblioteka została<br />

zaprojektowana w ten sposób, iż może być wykorzystana w kodzie C poprzez wywołania<br />

funkcji. Co więcej, istnieje również wersja przeznaczona dla platformy .NET.<br />

Platforma: Macintosh, Linux, Solaris, Windows<br />

Licencja: Decision Systems Laboratory, University of Pittsburgh License<br />

http://www.sis.pitt.edu/~genie/smile/smile.htm<br />

GeNIe 2 GeNIe stanowi komplementarny element dla SMILE. Jest graficzną nakładką dla tej<br />

biblioteki. Z uwagi na to, że twórcy SMILE rozwijali również GeNIe, można być pewnym<br />

bezproblemowej współpracy. Za sprawą wbudowanego edytora modeli GeNIe pozwala na<br />

swobodną modyfikację modeli probabilistycznych. Możliwa jest także wymiana danych z<br />

innymi aplikacjami (Excel).<br />

Platforma: Windows<br />

Licencja: Decision Systems Laboratory, University of Pittsburgh License<br />

http://www.sis.pitt.edu/~genie/genie/genie.htm


Przedstawione na grafie zależności są modelowane przez przedstawione liczbowo<br />

prawdopodobieństwo wyrażające siłę, z jaką oddziałują na siebie zmienne.<br />

Prawdopodobieństwo jest kodowane w tabelach dołączanych do każdego węzła i<br />

indeksowanych przez węzły nadrzędne. Górne wiersze tabeli przedstawiają wszystkie<br />

kombinacje stanów zmiennych nadrzędnych.


Węzły bez poprzedników są opisane głównymi prawdopodobieństwami. Węzeł<br />

„Success” będzie opisany przez rozkład prawdopodobieństw tylko jego dwóch<br />

wyników możliwych: Success i Failure.<br />

Węzeł „Forecast” będzie natomiast opisany przez rozkład prawdopodobieństw<br />

wyjściowych wartości (Good, Moderate, Poor) uwarunkowanych dodatkowo<br />

przez ich poprzedniki (węzeł Success, i wyjściowe wartości Success i Failure).


Sieć <strong>Bayesa</strong>


Rozważmy osobę, która spędza sporo czasu przy komputerze, w wolnych chwilach gra na komputerze oraz<br />

przegląda Internet. Mało czasu poświęca na sport czy spotkania z przyjaciółmi. W szkole nie ma problemów z<br />

przedmiotami ścisłymi typu matematyka czy fizyka, jednak ma pewne problemy z przedmiotami<br />

humanistycznymi. Osoba lubi majsterkować ze sprzętem<br />

Węzeł Odpowiedź Komentarz<br />

zdolności techniczne tak Typowy gracz jest zainteresowany nowinkami<br />

technologicznymi, zdobywa różnego rodzaju<br />

gadżety i potrafi je obsługiwać. Dodatkowo, gry<br />

uczą logicznego myślenia.<br />

twórczość nie Brak poczucia estetyki i twórczego myślenia.<br />

zdolności werbalne nie Mogą być problemy z wysłowieniem się poza<br />

wirtualnym światem, dosyć ograniczone<br />

słownictwo.<br />

zdolności liczbowe tak Zamiłowanie do matematyki, fizyki.<br />

praca z ludźmi nie Trudności w poznawaniu nowych ludzi. Rzadkie<br />

spotkania z przyjaciółmi wskazują na<br />

zamkniętość osoby.<br />

polityka nie Brak zainteresowania bieżącymi wydarzeniami<br />

społecznymi i gospodarczymi.<br />

status społeczny wysoki Oczekiwanie wysokiego statusu społecznego.<br />

zarobki wysokie Oczekiwanie wysokich zarobków.<br />

kontakt z ludźmi brak Oczekiwanie braku częstego kontaktu z ludźmi<br />

w pracy – praca indywidualna.


Rozważmy osobę, która spędza sporo czasu przy komputerze, w wolnych chwilach gra na komputerze oraz przegląda Internet.<br />

Mało czasu poświęca na sport czy spotkania z przyjaciółmi. W szkole nie ma problemów z przedmiotami ścisłymi typu<br />

matematyka czy fizyka, jednak ma pewne problemy z przedmiotami humanistycznymi. Osoba lubi majsterkować ze sprzętem


Otrzymane wyniki (kolor fioletowy na diagramie):<br />

◦ Warstwa kierunki studiów:<br />

• Kierunki techniczne: otrzymały najwyższy wynik (pole żaden uzyskało tylko 5%).<br />

Osoba nie mająca problemów z przedmiotami ścisłymi ma predyspozycje do<br />

kierunków technicznych. W ramach tego typu kierunków widać niewielką przewagę<br />

kierunku informatyka (50%) nad kierunkiem budownictwo (45%).<br />

• Kierunki ekonomiczne: również przystępny wynik (pole żaden uzyskało 33%). Brak<br />

problemów z matematyką osoby, wpłynął na dosyć wysoki wynik dla kierunku<br />

finanse (48%) oraz niższy dla kierunku marketing (20%). Sumowanie się wyników<br />

do 101% jest spowodowane zapewne błędem programu GeNIe.<br />

• Kierunki społeczne i artystyczne: otrzymano 100% i 96% dla pola żaden. Osoba,<br />

która rzadko spotyka się z przyjaciółmi, czy ma problemy z przedmiotami<br />

humanistycznymi powinna unikać tych kierunków.


◦ Warstwa praca zawodowa, stanowisko:<br />

• Praca inżynierska: Wysoki wynik dla kierunków technicznych w poprzedniej<br />

warstwie wpłynął na dosyć wysoki wynik dla zawodów, które wymagają tytułu<br />

inżyniera (85%).<br />

Branża rozrywkowa: Niski wynik spowodowany unikaniem kontaktów z ludźmi przez<br />

typowego gracza<br />

• Stanowisko kierownicze: Dosyć wysoki wynik (80%) wynika z predyspozycji osoby<br />

do kierunków technicznych oraz ekonomicznych.<br />

• Marketing: Tutaj również unikanie kontaktów z ludźmi zaniżyło wynik (11%), mimo<br />

dosyć dobrych wyników kierunków ekonomicznych.<br />

• Finanse: Dosyć wysoki wynik (63%) spowodowany zdolnościami technicznymi oraz<br />

liczbowymi typowego gracza.<br />

◦ Warstwa różne cechy i aspekty pracy:<br />

• Kariera zawodowa: Dobre wyniki dla pracy jako inżynier oraz w finansach w<br />

poprzedniej warstwie, spowodowały wysoki wynik dla stabilności kariery<br />

zawodowej typowego gracza (87%).


<strong>Sieci</strong> bayesowskie - efektywne narzędzie w zagadnieniach<br />

systemów eksperckich oraz sztucznej inteligencji<br />

<br />

<br />

<br />

<br />

Szerokie zastosowania: NASA-AutoClass, Microsoft-Office<br />

Assistant, w przemyśle - www.hugin.com, medycyna,<br />

sądownictwo, itd.<br />

<strong>Sieci</strong> <strong>Bayesa</strong> stanowią naturalną reprezentację niezależności<br />

warunkowej (indukowanej przyczynowo).<br />

Topologia sieci i tablice prawdopodobieństwa warunkowego<br />

(CPT) pozwalają na zwartą reprezentację rozkładu łącznego<br />

prawdopodobieństwa.<br />

<strong>Sieci</strong> <strong>Bayesa</strong> są szczególnie przydane i łatwe do zastosowania<br />

w systemach ekspertowych.


Naiwny klasyfikator bayesowski jest prostym probabilistycznym<br />

klasyfikatorem.<br />

Zakłada się wzajemną niezależność zmiennych niezależnych (tu<br />

naiwność)<br />

Bardziej opisowe może być określenie- „model cech niezależnych”.<br />

Model prawdopodobieństwa można wyprowadzić korzystając z<br />

twierdzenia <strong>Bayesa</strong>.<br />

W zależności od rodzaju dokładności modelu prawdopodobieństwa,<br />

naiwne klasyfikatory bayesowskie można „uczyć” bardzo skutecznie<br />

w trybie uczenia z nadzorem.


Jeśli wiemy, że kulek czerwonych jest 2 razy mniej niż zielonych (bo<br />

czerwonych jest 20 a zielonych 40) to prawdopodobieństwo tego, że<br />

kolejna (nowa) kulka będzie koloru zielonego jest dwa razy większe niż<br />

tego, że kulka będzie czerwona.<br />

Dlatego możemy napisać, że znane z góry prawdopodobieństwa:


Jeśli więc czerwonych jest 20 a zielonych 40, to razem wszystkich jest 60. Więc<br />

Więc teraz gdy mamy do czynienia z nową kulką ( na rysunku – biała):


To spróbujmy ustalić jaka ona będzie. Dokonujemy po prostu klasyfikacji kulki do jednej<br />

z dwóch klas: zielonych bądź czerwonych.<br />

Jeśli weźmiemy pod uwagę sąsiedztwo białej kulki takie jak zaznaczono, a więc do 4<br />

najbliższych sąsiadów, to widzimy, że wśród nich są 3 kulka czerwone i 1 zielona.<br />

<br />

Obliczamy liczbę kulek w sąsiedztwie należących do danej klasy : zielonych bądź<br />

czerwonych z wzorów:<br />

W naszym przypadku, jest dziwnie, bo akurat w sąsiedztwie kulki X jest więcej kulek czerwonych niż zielonych,<br />

mimo, iż kulek zielonych jest ogólnie 2 razy więcej niż czerwonych. Dlatego zapiszemy, że


Dlatego ostatecznie powiemy, że<br />

Prawdopodobieństwo że kulka X jest zielona = prawdopodobieństwo kulki<br />

zielonej * prawdopodobieństwo, że kulka X jest zielona w swoim sąsiedztwie<br />

=<br />

Prawdopodobieństwo że kulka X jest czerwona = prawdopodobieństwo kulki<br />

czerwonej * prawdopodobieństwo, że kulka X jest czerwona w swoim sąsiedztwie =<br />

Ostatecznie klasyfikujemy nową kulkę X do klasy kulek czerwonych, ponieważ ta klasa dostarcza nam<br />

większego prawdopodobieństwa posteriori.


Tylko dla cech jakościowych<br />

Tylko dla dużych zbiorów danych


Aby obliczyć P(diabetes=1) należy zliczyć liczbę<br />

obserwacji dla których spełniony jest warunek<br />

„diabetes=1”. Jest ich dokładnie 9 z 20 wszystkich.<br />

Podobnie, aby obliczyć P(diabetes=0) należy zliczyć<br />

liczbę obserwacji dla których spełniony jest warunek<br />

„diabetes=0”. Jest ich dokładnie 11 z 20 wszystkich.


Zakładając, że zmienne niezależne faktycznie są niezależne, wyliczenie<br />

P(X|diabetes=1) wymaga obliczenia prawdopodobieństwa warunkowego<br />

wszystkich wartości dla X:<br />

Np. obliczenie P(BP=high|diabetes=1) wymaga znów obliczenia P(BP=high) i<br />

P(diabetes=1) co jest odpowiednio równe 4 i 9 zatem prawdopodobieństwo<br />

to wynosi 4/9:


Zatem:<br />

Mając już prawdopodobieństwa P(X|diabetes=1) i P(diabetes=1)<br />

można wyznaczyć iloczyn tych prawdopodobieństw:


Teraz podobnie zrobimy w przypadku P(X|diabetes=0)


Możemy więc wyznaczyć P(X|diabetes=0):<br />

Ostatecznie iloczyn prawdopodobieństw jest wyznaczany:<br />

Jakoże P(X|diabeltes=1)P(diabetes=1) jest większe niż<br />

P(X|diabetes=0)P(diabetes=0) nowa obserwacja będzie zaklasyfikowana do<br />

klasy diabetes=1.<br />

Prawdopodobieństwo ostateczne że jeśli obiekt ma opis taki jak X będzie z<br />

klasy diabetes=1 jest równe:


Jakie będzie prawdopodobieństwo klasyfikacji<br />

do klasy „diabetes=1” gdy mamy następujące<br />

przypadki:<br />

X:BP=Average ; weight=above average; FH= yes; age=50+<br />

X:BP=low ; weight=average; FH= no; age=50+<br />

X:BP=high ; weight=average; FH= yes; age=50+


– jeden z algorytmów regresji nieparametrycznej używanych w<br />

statystyce do prognozowania wartości pewnej zmiennej losowej.<br />

Może również być używany do klasyfikacji.<br />

-<br />

Założenia<br />

• Dany jest zbiór uczący zawierający obserwacje z których każda<br />

ma przypisany wektor zmiennych objaśniających oraz wartość<br />

zmiennej objaśnianej Y.<br />

• Dana jest obserwacja C z przypisanym wektorem zmiennych<br />

objaśniających dla której chcemy prognozować wartość<br />

zmiennej objaśnianej Y.


Wyznaczanie odległości obiektów: odległość<br />

euklidesowa


Obiekty są analizowane w ten sposób , że oblicza się odległości bądź podobieństwa między<br />

nimi. Istnieją różne miary podobieństwa czy odległości. Powinny być one wybierane<br />

konkretnie dla typu danych analizowanych: inne są bowiem miary typowo dla danych<br />

binarnych, inne dla danych nominalnych a inne dla danych numerycznych.<br />

Nazwa<br />

Wzór<br />

gdzie: x,y - to<br />

wektory wartości<br />

cech<br />

porównywanych<br />

obiektów w<br />

przestrzeni p-<br />

wymiarowej, gdzie<br />

odpowiednio<br />

wektory wartości<br />

to: oraz .<br />

odległość euklidesowa<br />

odległość kątowa<br />

współczynnik korelacji<br />

liniowej Pearsona<br />

Miara Gowera


Oblicz odległość punktu A o współrzędnych (2,3) do punktu B o<br />

współrzędnych (7,8).<br />

9<br />

8<br />

7<br />

6<br />

5<br />

4<br />

3<br />

2<br />

1<br />

0<br />

0 2 4 6 8<br />

A<br />

B<br />

D (A,B) = pierwiastek ((7-2) 2 + (8-3) 2 ) = pierwiastek (25 + 25) =<br />

pierwiastek (50) = 7.07


9<br />

8<br />

B<br />

7<br />

6<br />

5<br />

4<br />

3<br />

A<br />

A<br />

B<br />

C<br />

2<br />

1<br />

C<br />

0<br />

0 1 2 3 4 5 6 7 8<br />

<br />

<br />

Mając dane punkty:<br />

A(2,3), B(7,8) oraz C(5,1) oblicz odległości między punktami:<br />

D (A,B) = pierwiastek ((7-2) 2 + (8-3) 2 ) = pierwiastek (25 + 25) = pierwiastek (50) = 7.07<br />

D (A,C) = pierwiastek ((5-2) 2 + (3-1) 2 ) = pierwiastek (9 + 4) = pierwiastek (13) = 3.60<br />

D (B,C) = pierwiastek ((7-5) 2 + (3-8) 2 ) = pierwiastek (4 + 25) = pierwiastek (29) = 5.38


1. porównanie wartości zmiennych objaśniających dla obserwacji C z<br />

wartościami tych zmiennych dla każdej obserwacji w zbiorze uczącym.<br />

2. wybór k (ustalona z góry liczba) najbliższych do C obserwacji ze zbioru<br />

uczącego.<br />

3. Uśrednienie wartości zmiennej objaśnianej dla wybranych obserwacji,<br />

w wyniku czego uzyskujemy prognozę.<br />

Przez "najbliższą obserwację" mamy na myśli, taką obserwację, której odległość do analizowanej przez<br />

nas obserwacji jest możliwie najmniejsza.


Najbliższy dla naszego obiektu „buźka” jest obiekt<br />

Więc przypiszemy nowemu obiektowi klasę:


Mimo, że najbliższy dla naszego obiektu „buźka” jest obiekt<br />

Metodą głosowania ustalimy, że skoro mamy wziąć pod uwagę 5 najbliższych<br />

sąsiadów tego obiektu, a widać, że 1 z nich ma klasę:<br />

Zaś 4 pozostałe klasę:<br />

To przypiszemy nowemu obiektowi klasę:


Obiekt klasyfikowany podany<br />

jako ostatni : a = 3, b = 6<br />

Teraz obliczmy odległości<br />

poszczególnych obiektów od<br />

wskazanego. Dla<br />

uproszczenia obliczeń<br />

posłużymy sie wzorem:


Znajdujemy więc k najbliższych sąsiadów. Załóżmy, że szukamy 9 najbliższych<br />

sąsiadów. Wyróżnimy ich kolorem zielonym.<br />

Sprawdzamy, które z tych 9 najbliższych sąsiadów są z klasy „+” a które z klasy „-” ?<br />

By to zrobić musimy znaleźć k najbliższych sąsiadów (funkcja Excela o nazwie MIN.K)


Wyobraźmy sobie, że nie mamy 2 zmiennych opisujących każdy obiekt, ale tych<br />

zmiennych jest np. 5: {v1,v2,v3,v4,v5} i że obiekty opisane tymi zmiennymi to 3<br />

punkty: A, B i C:<br />

V1 V2 V3 V4 V5<br />

A 0.7 0.8 0.4 0.5 0.2<br />

B 0.6 0.8 0.5 0.4 0.2<br />

C 0.8 0.9 0.7 0.8 0.9<br />

Policzmy teraz odległość między punktami:<br />

D (A,B) = pierwiastek ((0.7-0.6) 2 + (0.8-0.8) 2 + (0.4-0.3) 2 + (0.5-0.4) 2 + (0.2-0.2) 2 ) = pierwiastek<br />

(0.01 + 0.01 + 0.01) = pierwiastek (0.03) = 0.17<br />

D (A,C) = pierwiastek ((0.7-0.8) 2 + (0.8-0.9) 2 + (0.4-0.7) 2 + (0.5-0.8) 2 + (0.2-0.9) 2 ) = pierwiastek<br />

(0.01 + 0.01 + 0.09 + 0.09 + 0.49) = pierwiastek (0.69) = 0.83<br />

D (B,C) = pierwiastek ((0.6-0.8) 2 + (0.8-0.9) 2 + (0.5-0.7) 2 + (0.4-0.8) 2 + (0.2-0.9) 2 ) = pierwiastek<br />

(0.04 + 0.01 + 0.04+0.16 + 0.49) = pierwiastek (0.74) = 0.86<br />

Szukamy najmniejszej odległości, bo jeśli te dwa punkty są najbliżej siebie, dla których mamy<br />

najmniejszą odległości ! A więc najmniejsza odległość jest między punktami A i B !


Schemat algorytmu:<br />

Poszukaj obiektu najbliższego w stosunku do obiektu klasyfikowanego.<br />

Określenie klasy decyzyjnej na podstawie obiektu najbliższego.<br />

Cechy algorytmu:<br />

Bardziej odporny na szumy - w poprzednim algorytmie obiekt najbliższy<br />

klasyfikowanemu może być zniekształcony - tak samo zostanie zaklasyfikowany<br />

nowy obiekt.<br />

Konieczność ustalenia liczby najbliższych sąsiadów.<br />

Wyznaczenie miary podobieństwa wśród obiektów (wiele miar podobieństwa).<br />

Dobór parametru k - liczby sąsiadów:<br />

Jeśli k jest małe, algorytm nie jest odporny na szumy – jakość klasyfikacji jest<br />

niska. Jeśli k jest duże, czas działania algorytmu rośnie - większa złożoność<br />

obliczeniowa. Należy wybrać k, które daje najwyższą wartość klasyfikacji.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!