WykÅad 3: Sieci Bayesa

Agnieszka Nowak – Brzezińska

Klasyfikacja Bayesowska jest klasyfikacją statystyczną. 

Pozwala przewidzieć prawdopodobieństwo przynależności 

obiektu do klasy. Opiera się na twierdzeniu Bayesa. 

 

Twierdzenia Bayesa pokazuje, w jaki sposób obliczyć 

prawdopodobieństwo warunkowe P(H|X), jeśli znane są 

prawdopodobieństwa: warunkowe P(X|H) oraz 

bezwarunkowe P(H) i P(X). 

 

Prawdopodobieństwa: P(X|H), P(H) oraz P(X) mogą być 

bezpośrednio wyliczone z danych zgromadzonych w 

treningowym zbiorze danych (w bazie danych).

Każdy obiekt traktowany jest jako wektor X (krotka) wartości 

atrybutów A 1 , ..., A n : X = (x1, x2, ..., xn). 

Niech C 1 , ..., C m będą klasami, do których może należeć X, 

 

P(C|X) niech oznacza prawdopodobieństwo przynależności X 

(ściślej: obiektów o właściwości X) do klasy C. 

 

W klasyfikacji Bayesa przypisujemy X do tej klasy, do której 

prawdopodobieństwo warunkowe przynależności X jest 

największe. 

 

X jest więc przypisany do C i , jeśli P(C i |X) ≥ P(C k |X), dla 

każdego k, 1 ≤ k ≤ m, k ≠ i.

1. W klasyfikacji Bayesa maksymalizujemy: 

2. Ponieważ P(X) jest stałe, więc wystarczy maksymalizować 

Iloczyn P(X|C i )P(C i ). 

3. Ponadto przyjmujemy: P(C i ) = s i / s, 

gdzie s oznacza liczbę obiektów w zbiorze treningowym, 

a s i oznacza liczbę obiektów w klasie C i . 

4. Dla X = (x 1 , x 2 , ..., x n ), wartość P(X|C i ) obliczamy jako 

iloczyn: P(X|C i ) = P(x 1 |C i )*P(x 2 |C i )* ... *P(x n |C i ), 

przy czym: P(x k |C i ) = s ik / s i , 

gdzie s ik oznacza liczbę obiektów klasy C i , dla których wartość 

atrybutu A k jest równa x k , a s i oznacza liczbę wszystkich 

obiektów klasy Ci w zadanym zbiorze treningowym.

Klasyfikacja bayesowska, to metoda budowy systemu ekspertowego, w 

której wiedza przedstawiona jest á priori z warunkowymi 

prawdopodobieństwami, a wnioskowanie polega na liczeniu 

następnych prawdopodobieństw. 

Mechanizm wnioskowania wykorzystujący twierdzenie Bayesa polega 

na obliczaniu prawdopodobieństwa każdego możliwego wyniku, gdy 

znany jest dany konkretny przypadek.

Wadą tej metody jest fakt, że wymaga ona znajomości 

dokładnych wartości lub rozkładów prawdopodobieństw 

pojawienia się parametrów zjawiska, czyli problemu będącego 

przedmiotem rozważań. 

Innym problemem jest to, że należy dokonać pewnych 

nierealistycznych założeń – na przykład w klasyfikacji 

bayesowskiej wymagane wyniki, np. rozpoznawania, musza 

się wzajemnie wykluczać. Niestety w wielu przypadkach mogą 

występować liczne podobne wyniki (np. w diagnostyce: 

pacjent może mieć wiele chorób). 

Innym założeniem, co prawda niewymaganym przez 

twierdzenie Bayesa, ale wymuszonym przez praktykę, jest 

statystyczna niezależność cechy problemu .

Koncepcja sieci Bayesa wynika wprost z koncepcji 

prawdopodobieństwa warunkowego. 

Jak się okazuje w rzeczywistym świecie jest wiele sytuacji w których 

wystąpienie jakiegoś zdarzenia ściśle zależy od innego zdarzenia. 

Zastosowanie sieci Bayesa 

pozwala na uniknięcie obliczeń o dużej złożoności – obliczenie 

jednego prawdopodobieństwa a posteriori łączy się z uprzednim 

obliczeniem wykorzystywanych prawdopodobieństw. 

Sieci Bayesa służą do przedstawiania niepewności wiedzy. 

Niepewność wiedzy używanej zawartej w systemach ekspertowych 

może mieć wiele czynników: 

 

 

 

 

niepewność ekspertów dotycząca ich wiedzy 

niepewność tkwiąca w modelowanej dziedzinie 

niepewność inżyniera próbującego przetłumaczyć wiedzę 

niepewność wynikła z dokładności dostępnej wiedzy

Sieci Bayesa używają teorii prawdopodobieństwa do 

określenia niepewności przez jawne reprezentowanie 

warunkowych zależności pomiędzy różnymi częściami 

wiedzy. 

Pozwala to na intuicyjną graficzną wizualizację wiedzy 

zawierającą wzajemne oddziaływania pomiędzy różnymi 

źródłami niepewności. 

Sieci Bayesa są stosowane w diagnostyce, w rozumowaniu 

przebiegającym od efektów do przyczyn i odwrotnym. 

W systemach ekspertowych sieci Bayesa znalazły 

zastosowanie w medycynie (systemy doradcze, które 

rozpoznają chorobę na podstawie podawanych objawów).

Wejście: 

• Rozważana populacja obiektów (klientów) opisana jest za pomocą 

czterech atrybutów: Wiek, Dochód, Studia, OcenaKred. 

• Interesuje nas przynależność obiektów do jednej z dwóch klas: 

klienci kupujący komputery (o etykiecie TAK) i klienci nie kupujący 

komputerów (o etykiecie NIE). 

• Z bazy danych wybrano zbiór treningowy. 

• Obiekt X o nieznanej przynależności klasowej ma postać: 

X = (Wiek = „

Klasyfikowany obiekt: 

X = (Wiek = „

Ze zbioru treningowego obliczamy: 

P(Wiek=„

Stąd: 

P(X|C 1 ) = 0.222*0.444*0.667*0.667 = 0.044 

P(X|C 1 )P(C 1 ) = 0.044*0.643 = 0.028 

P(X|C 2 ) = 0.600*0.400*0.200*0.400 = 0.019 

P(X|C 2 )P(C 2 ) = 0.019*0.357 = 0.007 

X – został zaklasyfikowany do C 1 .

Thomas Bayes (ur. ok. 1702 w Londynie — zm. 17 kwietnia 

1761) brytyjski matematyk i duchowny prezbiteriański, znany 

ze sformułowania opublikowanego pośmiertnie twierdzenia 

Bayesa, które to zapoczątkowało dział statystyki.

(od nazwiska Thomasa Bayesa) to twierdzenie teorii 

prawdopodobieństwa, wiążące prawdopodobieństwa 

warunkowe zdarzeń. 

Na przykład, jeśli jest zdarzeniem "u pacjenta występuje 

wysoka gorączka", i jest zdarzeniem "pacjent ma grypę", 

twierdzenie Bayesa pozwala przeliczyć znany odsetek 

gorączkujących wśród chorych na grypę i znane odsetki 

gorączkujących i chorych na grypę w całej populacji, na 

prawdopodobieństwo, że ktoś jest chory na grypę, gdy wiemy 

że ma wysoką gorączkę. 

Twierdzenie stanowi podstawę teoretyczną sieci 

bayesowskich, stosowanych w eksploracji danych.

Jeśli A i B są prostymi zdarzeniami w przestrzeni prób, to 

prawdopodobieństwo warunkowe P(A/B) będzie określone 

jako: 

P( 

A| 

B) 

 

P( 

A 

B) 

P( 

B) 

liczba wyników 

 

liczba 

Również P(B/A) = P(AB)/P(A). 

zarówno 

wyników 

w 

w 

A jak 

B 

Przekształcając ten wzór, otrzymujemy wzór na przecięcie 

zdarzeń P(AB) = P(B/A)P(A) i po podstawieniu mamy: 

P( 

B / A) 

P( 

A) 

P( 

A| 

B) 

 

P( 

B) 

Co jest tezą twierdzenia Bayesa dla prostych zdarzeń. 

i 

B

Sieć bayesowska to acykliczny (nie zawierający cykli) graf 

skierowany, w którym: 

węzły reprezentują zmienne losowe (np. temperaturę jakiegoś 

źródła, stan pacjenta, cechę obiektu itp.) 

łuki (skierowane) reprezentują zależność typu „ zmienna X ma 

bezpośredni wpływ na zmienna Y”, 

każdy węzeł X ma stowarzyszona z nim tablice 

prawdopodobieństw warunkowych określających wpływ 

wywierany na X przez jego poprzedników (rodziców) w grafie, 

Zmienne reprezentowane przez węzły przyjmują wartości 

dyskretne (np.: TAK, NIE).

Siecią Bayesa nazywamy skierowany graf acykliczny o 

wierzchołkach reprezentujących zmienne losowe i 

łukach określających zależności. 

Istnienie łuku pomiędzy dwoma wierzchołkami oznacza 

istnienie bezpośredniej zależności przyczynowo 

skutkowej pomiędzy odpowiadającymi im zmiennymi. 

Siła tej zależności określona jest przez tablice 

prawdopodobieństw warunkowych.

a 

E 

b 

d 

c 

G 

F 

 

 

 

 

gdzie a, b, c, d to obserwacje, E, F, G to hipotezy 

Aby zdefiniować graf zwykle podaje się zbiór jego wierzchołków 

oraz zbiór jego krawędzi. 

Każdy wierzchołek reprezentuje obserwację lub hipotezę, każda 

krawędź jest określona w ten sposób, że podaje się dla niej 

informacje o wierzchołkach które dana krawędź łączy, oraz 

ewentualnie dla grafów skierowanych informację o kierunku 

krawędzi. 

Załóżmy, że G będzie grafem określonym zbiorem wierzchołków 

N i krawędzi E. 

Załóżmy, również że dany jest zbiór prawdopodobieństw 

warunkowych CP. Elementami tego zbiory są 

prawdopodobieństwa opisujące poszczególne krawędzie grafu

Pod pojęciem sieci Bayesowskiej rozumieć będziemy trójkę: 

B = { N, E, CP } 

gdzie dwójka {N,E} jest zorientowanym grafem acyklicznym 

zbudowanym na podstawie zadanych prawdopodobieństw 

warunkowych zawartych w zbiorze CP. 

N – (ang. Nodes) węzły w grafie odpowiadające zbiorom 

obserwacji i hipotez 

E – (ang. edges) krawędzie odzwierciedlające kierunek 

wnioskowania 

Każdy wierzchołek w sieci przechowuje rozkład P(X i | (i) ) gdzie X (i) jest zbiorem 

wierzchołków odpowiadających (i) – poprzednikom (rodzicom) wierzchołka (i).

Prawdopodobieństwo wystąpienia anginy w przypadku objawów takich jak 

ból gardła i gorączka jest wysokie i wynosić może 0.8. Jednak wystąpienie 

gorączki i bólu głowy może świadczyć o grypie, co jest hipoteza 

prawdopodobna na 0.6. W przypadku gdy pacjent cierpiący na grypę nie 

wyleczył się całkowicie może dojść do zapalenia oskrzeli z 

prawdopodobieństwem 0.4. Zapalenie oskrzeli może spowodować ból gardła 

z prawdopodobieństwem 0.3. 

Hipotezy: 

A – Angina 

D-grypa 

O-Zapalenie oskrzeli 

b 

g 

0.8 

A 

0.3 

Objawy: 

b-ból gardła 

g-Gorączka 

c-ból głowy 

c 

0.6 

D 

e 

0.4 

O 

e-brak całkowitego wyleczenia 

CP = {P(A|b,g)=0.8; P(D|g,c)=0.6; P(O|D,e)=0.4;P(b|O)=0.3}

Rozkład prawdopodobieństw zapisuje się jako: 

P( 

x 

n 

,..., x ) P( 

x X ) 

1 n 

i ( i) 

i1 

W grafie wierzchołki są etykietowane nazwami 

atrybutów. Przy każdym wierzchołku występuje tabela 

prawdopodobieństw warunkowych pomiędzy danym 

wierzchołkiem i jego rodzicami.

Węzeł A jest rodzicem lub poprzednikiem wierzchołka X, a 

wierzchołek X jest potomkiem lub następnikiem węzła 

A, jeżeli istnieje bezpośrednia krawędź z wierzchołka A 

do X. 

p( 

X 

m 

1 

x1, 

X 

2 

x2,..., 

X 

m 

xm) 

p( 

X 

i 

xi 

| 

rodzice( 

X i )) 

i1 

A więc prawdopodobieństwo pojawienia się wierzchołka 

potomnego zależy tylko od jego rodziców !

zdefiniowanie zmiennych, 

zdefiniowanie połączeń pomiędzy zmiennymi, 

określenie prawdopodobieństw warunkowych i ”a priori” 

(łac. z założenia) 

wprowadzenie danych do sieci, 

uaktualnienie sieci, 

wyznaczenie prawdopodobieństw ”a posteriori” ( łac. z 

następstwa) 

Sieć bayesowska koduje informacje o określonej dziedzinie za pomocą 

wykresu, którego wierzchołki wyrażają zmienne losowe, a krawędzie 

obrazują probabilistyczne zależności między nimi.

Sieci te mają wiele zastosowań m.in. w Sztucznej inteligencji, 

medycynie (w diagnozowaniu), w genetyce, statystyce, w ekonomii. 

O popularności SB zadecydowało to, że są dla nich wydajne metody 

wnioskowania. Możliwe jest proste wnioskowanie o zależności 

względnej i bezwzględnej badanych atrybutów. 

Niezależność może tak zmodularyzować naszą wiedzę, że wystarczy 

zbadanie tylko części informacji istotnej dla danego zapytania, 

zamiast potrzeby eksploracji całej wiedzy. 

Sieci Bayesowskie mogą być ponadto rekonstruowane, nawet jeśli 

tylko część właściwości warunkowej niezależności zmiennych jest 

znana. Inną cechą SB jest to, że taką sieć można utworzyć mając 

niepełne dane na temat zależności warunkowej atrybutów.

Przykład: jakie są szanse zdania ustnego egzaminu u prof. X, który jest 

kibicem Wisły i nie lubi deszczu ? 

Z - zaliczony egzamin 

N - dobre przygotowanie 

H - dobry humor egzaminatora 

A - awans Wisły do Ligi Mistrzów 

D - deszcz 

Łączny rozkład prawdopodobieństwa: 

P(Z, N, H, A ,D) 

wyznaczony przez 2 5 wartości (32 wartości)

Prawdopodobieństwo dobrego humoru, jeżeli Wisła 

awansowała: P(H=trueA=true): 

P( 

H 

| 

A) 

 

P( 

H, 

A) 

P( 

A) 

obliczymy z łącznego rozkładu P(Z, N, H, A ,D), na podstawie 

prawdopodobieństw brzegowych: 

P( 

H, 

A) 

 

 

Z , N , D 

P( 

Z, 

N, 

H, 

A, 

D) 

8 sumowań 

P( 

A) 

 

 

Z , N , H , D 

P( 

Z, 

N, 

H, 

A, 

D) 

16 sumowań

P(A) 

0.20 

P(D) 

0.30 

P(N) 

0.20 A D P(H) 

T 0.95 

T 

F 0.99 

T 0.05 

F 

F 0.15 

P(Z|H,D) = P(Z|H) 

N H P(Z) 

T 0.90 

T 

F 0.55 

T 0.45 

F 

F 0.05

Musimy pamiętać mniej wartości: w naszym przypadku 11 zamiast 

31 (ogólnie n2 k , n-liczba wierzchołków, k - maksymalna liczba 

rodziców; zamiast 2 n -1 wszystkich wartości w rozkładzie pełnym) 

Naturalne modelowanie: łatwiej oszacować prawd. warunkowe 

bezpośrednich zależności niż koniunkcji wszystkich możliwych 

zdarzeń 

Dowolny kierunek wnioskowania 

Czytelna reprezentacja wiedzy 

Łatwa modyfikacja

Reguła łańcuchowa: z def. P(X 1 ,X 2 )=P(X 1 |X 2 )P(X 2 ) 

 

P( X ,..., X 

n) 

P( 

X 

i 

| X 

i1,..., 

X 

1 n 

i 

Numerując wierzchołki grafu tak aby indeks każdej zmiennej 

był mniejszy niż indeks przypisany jego przodkom oraz 

korzystając z warunkowej niezależności otrzymujemy: 

) 

P( Xi 

| X 

i1,..., 

X 

n) 

P( 

Xi 

| Parents ( Xi)) 

 

Model zupełny 

P( 

X1,..., 

X 

n) 

P( 

X 

i 

i 

| 

Parents ( X 

i 

))

P(Z,N,H,A,D) = P(Z|N,H) P(N) P(H|A,D) P(A) P(D) 

Jaka jest szansa zaliczenia dla nieprzygotowanego studenta, gdy pada, 

Wisła odpadła i egzaminator jest w złym humorze ? 

P(Z N H A D) = 0.05 0.8 0.05 0.8 .30 = 0.0048 

P(A) 

0.20 

P(D) 

0.30 

P(N) 

0.20 

N H P(Z) 

T 0.90 

T 

F 0.55 

T 0.45 

F 

F 0.05 

A D P(H) 

T 0.95 

T 

F 0.99 

T 0.05 

F 

F 0.15

Prawdopodobieństwo Zaliczenia 74%

Egzamin zaliczony, jakie były tego przyczyny ? 

Wzrost P(A) z 20% do 40%, przy spadku P(D) - wykluczanie

Jeśli się przygotowaliśmy, to jaka jest szansa na zaliczenie ? 

Spadek P(Z) z 26% do 17%

... ale dodatkowo, Wisła awansowała i świeci słońce ! 

Wzrost P(Z) z 17% do 45%. 

Podchodzić ?

Dodajemy wierzchołki decyzyjne (Podejście) oraz użyteczności 

(Stypendium) i możemy mierzyć wpływ ilościowy decyzji (Podchodzić, Nie 

Podchodzić) 

Podej Zalicz Styp 

true 

false 

true 

true 

7000 

5000 

false 

false 

2500 

5000

Czy warto iść gdy jesteśmy nieprzygotowani, świeci słońce i Wisła awansowała ?

A – pogoda 

(słonecznie/pochmurno/deszczowo/wietrznie) 

B – czas wolny (tak/nie) 

X – humor (bardzo dobry/dobry/nietęgi) 

C – zajęcie na zewnątrz (spacer/basen/rower) 

D – zajęcie w domu(komputer/książka/gotowanie) 

A 

X 

B 

C 

D

If A=a1 and B=b1 then X=x1 with 30% 















P(X|A,B) x1 x2 x3 

a1b1 0.3 0.3 0.4 

a1b2 0.2 0.4 0.4 

a2b1 0.1 0.3 0.6 

a2b2 0.05 0.35 0.6 

a3b1 0.4 0.4 0.2 

a3b2 0.2 0.5 0.3 

a4b1 0.6 0.35 0.05 

a4b2 0.3 0.4 0.3 









If A=a4 and B=b2 then X=x2 with 30%

A 

a1 0.25 

a2 0.25 

a3 0.25 

a4 0.25 

P(X|A,B) x1 x2 x3 

a1b1 0.3 0.3 0.4 

a1b2 0.2 0.4 0.4 

a2b1 0.1 0.3 0.6 

a2b2 0.0 

5 

0.35 0.6 

a3b1 0.4 0.4 0.2 

a3b2 0.2 0.5 0.3 

a4b1 0.6 0.35 0.05 

a4b2 0.3 0.4 0.3 

B 

b1 0.4 

b2 0.6 

P(C|X) c1 c2 c3 

X1 0.1 0.2 0.7 

X2 0.2 0.6 0.2 

X3 0.5 0.4 0.1 

P(DX) d1 d2 d3 

X1 0.1 0.3 0.6 

X2 0.7 0.2 0.1 

X3 0.3 0.4 0.3

A 

B 

a1 0.25 

a2 0.25 

a3 0.25 

a4 0.25 

P(C|X) c1 c2 c3 

X1 0.1 0.2 0.7 

X2 0.2 0.6 0.2 

X3 0.5 0.4 0.1 

P(X|A,B) X1 x2 x3 

a1b1 0.3 0.3 0.4 

a1b2 0.2 0.4 0.4 

a2b1 0.1 0.3 0.6 

a2b2 0.05 0.35 0.6 

a3b1 0.4 0.4 0.2 

a3b2 0.2 0.5 0.3 

a4b1 0.6 0.35 0.05 

a4b2 0.3 0.4 0.3 

b1 0.4 

b2 0.6 


X1 0.1 0.3 0.6 

X2 0.7 0.2 0.1 

X3 0.3 0.4 0.3 

p( 

A a 

p( 

A a 

p( 

A a 

p( 

A a 

4 

4 

4 

4 

, B b 

2 

, C 

) p( 

B b 

, B b 

2 

, C 

) p( 

B b 

, X 

, X 

0.25*0.6*0.05*0.5*0.4 0.0015 

2 

2 

c , D d 

1 

) p( 

X x 

1 

3 

c , D d 

) p( 

X x 

3 

2 

2 

 

| A a 

 

| A a 

4 

4 

x 

3 

3 

) 

B 

x 

) 

 

 

B 

b 

b 

2 

2 

) p( 

C 

) p( 

C 

 

 

c 

c 

1 

1 

| 

| 

X 

X 

 

 

x 

x 

3 

3 

) p( 

D 

) p( 

D 

 

 

d 

d 

2 

2 

| 

| 

X 

X 

 

 

x 

x 

3 

3 

) 

)

A 

a1 0.25 

a2 0.25 

a3 0.25 

a4 0.25 

P(X|A,B) X1 x2 x3 

a1b1 0.3 0.3 0.4 

a1b2 0.2 0.4 0.4 

a2b1 0.1 0.3 0.6 

a2b2 0.05 0.35 0.6 

a3b1 0.4 0.4 0.2 

a3b2 0.2 0.5 0.3 

a4b1 0.6 0.35 0.05 

a4b2 0.3 0.4 0.3 

B 

b1 0.4 

b2 0.6 

p( 

X x1 

| A a1 

B b1 

)* p( 

A a1)* 

p( 

B b1 

) 

0.3*(0.25*0.4) 0.3*0.1 0.03

A 

B 

a1 0.25 

a2 0.25 

a3 0.25 

a4 0.25 

P(C|X) c1 c2 c3 

X1 0.1 0.2 0.7 

X2 0.2 0.6 0.2 

X3 0.5 0.4 0.1 

P(X|A,B) X1 x2 x3 

a1b1 0.3 0.3 0.4 

a1b2 0.2 0.4 0.4 

a2b1 0.1 0.3 0.6 

a2b2 0.05 0.35 0.6 

a3b1 0.4 0.4 0.2 

a3b2 0.2 0.5 0.3 

a4b1 0.6 0.35 0.05 

a4b2 0.3 0.4 0.3 

b1 0.4 

b2 0.6 


X1 0.1 0.3 0.6 

X2 0.7 0.2 0.1 

X3 0.3 0.4 0.3 

p( 

X 

p( 

X x 

p( 

X x 

p( 

X x 

p( 

X x 

x ) p( 

X x 

1 

1 

1 

1 

1 

| 

| 

| 

| 

A a 

A a 

A a 

A a 

1 

2 

3 

4 

1 

B b 

| A a 

2 

B b 

B b 

B b 

2 

2 

2 

1 

B b 

) p( 

A a 

1 

) p( 

A a 

) p( 

A a 

) p( 

A a 

2 

3 

4 

1 

) p( 

A a 

B b 

2 

B b 

B b 

2 

2 

B b 

2 

) 

| A a 

| A a 

| A a 

) p( 

A a 

) p( 

A a 

) p( 

A a 

0.3*0.1 

0.2*0.15 0.1*0.1 

0.05*0.15 0.4*0.1 

0.2*0.15 0.6*0.1 

0.3*0.15 0.2525 

1 

B b 

1 

) p( 

X x 

) 

1 

) p( 

X x 

) p( 

X x 

1 

1 

2 

3 

4 

B b 

1 

B b 

B b 

1 

1 

2 

3 

4 

B b 

1 

B b 

B b 

) 

1 

1 

) 

)

Jakie są szanse zdania ustnego egzaminu u prof. X, który 

jest kibicem Wisły i nie lubi deszczu? 

Wynik egzaminu zależy od: 

dobrego przygotowania studenta 

dobrego humor egzaminatora 

awansu Wisły do Ligi Mistrzów 

Deszczu – by nie padał !!!

Jak prawdopodobne jest zdanie egzaminu gdy humor egzaminatora i 

przygotowanie studenta jest pewne w skali „pół na pół” ?

Jak prawdopodobne jest zdanie egzaminu gdy humor egzaminatora i 

przygotowanie studenta jest pewne przynajmniej w 70 % ?

Jak prawdopodobne jest zdanie egzaminu gdy humor egzaminatora 

jest dobry ale przygotowanie studenta niestety fatalne ! ?

SMILE Zestaw klas C++ implementujących różne modele decyzyjne w oparciu o analizę 

probabilistyczną. Wśród nich sieci Bayesa, modele równań strukturalnych. SMILE 

doskonałe sprawdzi się w roli engine'u dla różnego rodzaju aplikacji, których celem jest 

tworzenia graficznej reprezentacji model probabilistycznego. Biblioteka została 

zaprojektowana w ten sposób, iż może być wykorzystana w kodzie C poprzez wywołania 

funkcji. Co więcej, istnieje również wersja przeznaczona dla platformy .NET. 

Platforma: Macintosh, Linux, Solaris, Windows 

Licencja: Decision Systems Laboratory, University of Pittsburgh License 

http://www.sis.pitt.edu/~genie/smile/smile.htm 

GeNIe 2 GeNIe stanowi komplementarny element dla SMILE. Jest graficzną nakładką dla tej 

biblioteki. Z uwagi na to, że twórcy SMILE rozwijali również GeNIe, można być pewnym 

bezproblemowej współpracy. Za sprawą wbudowanego edytora modeli GeNIe pozwala na 

swobodną modyfikację modeli probabilistycznych. Możliwa jest także wymiana danych z 

innymi aplikacjami (Excel). 

Platforma: Windows 

Licencja: Decision Systems Laboratory, University of Pittsburgh License 

http://www.sis.pitt.edu/~genie/genie/genie.htm

Przedstawione na grafie zależności są modelowane przez przedstawione liczbowo 

prawdopodobieństwo wyrażające siłę, z jaką oddziałują na siebie zmienne. 

Prawdopodobieństwo jest kodowane w tabelach dołączanych do każdego węzła i 

indeksowanych przez węzły nadrzędne. Górne wiersze tabeli przedstawiają wszystkie 

kombinacje stanów zmiennych nadrzędnych.

Węzły bez poprzedników są opisane głównymi prawdopodobieństwami. Węzeł 

„Success” będzie opisany przez rozkład prawdopodobieństw tylko jego dwóch 

wyników możliwych: Success i Failure. 

Węzeł „Forecast” będzie natomiast opisany przez rozkład prawdopodobieństw 

wyjściowych wartości (Good, Moderate, Poor) uwarunkowanych dodatkowo 

przez ich poprzedniki (węzeł Success, i wyjściowe wartości Success i Failure).

Sieć Bayesa

Rozważmy osobę, która spędza sporo czasu przy komputerze, w wolnych chwilach gra na komputerze oraz 

przegląda Internet. Mało czasu poświęca na sport czy spotkania z przyjaciółmi. W szkole nie ma problemów z 

przedmiotami ścisłymi typu matematyka czy fizyka, jednak ma pewne problemy z przedmiotami 

humanistycznymi. Osoba lubi majsterkować ze sprzętem 

Węzeł Odpowiedź Komentarz 

zdolności techniczne tak Typowy gracz jest zainteresowany nowinkami 

technologicznymi, zdobywa różnego rodzaju 

gadżety i potrafi je obsługiwać. Dodatkowo, gry 

uczą logicznego myślenia. 

twórczość nie Brak poczucia estetyki i twórczego myślenia. 

zdolności werbalne nie Mogą być problemy z wysłowieniem się poza 

wirtualnym światem, dosyć ograniczone 

słownictwo. 

zdolności liczbowe tak Zamiłowanie do matematyki, fizyki. 

praca z ludźmi nie Trudności w poznawaniu nowych ludzi. Rzadkie 

spotkania z przyjaciółmi wskazują na 

zamkniętość osoby. 

polityka nie Brak zainteresowania bieżącymi wydarzeniami 

społecznymi i gospodarczymi. 

status społeczny wysoki Oczekiwanie wysokiego statusu społecznego. 

zarobki wysokie Oczekiwanie wysokich zarobków. 

kontakt z ludźmi brak Oczekiwanie braku częstego kontaktu z ludźmi 

w pracy – praca indywidualna.

Rozważmy osobę, która spędza sporo czasu przy komputerze, w wolnych chwilach gra na komputerze oraz przegląda Internet. 

Mało czasu poświęca na sport czy spotkania z przyjaciółmi. W szkole nie ma problemów z przedmiotami ścisłymi typu 

matematyka czy fizyka, jednak ma pewne problemy z przedmiotami humanistycznymi. Osoba lubi majsterkować ze sprzętem

Otrzymane wyniki (kolor fioletowy na diagramie): 

◦ Warstwa kierunki studiów: 

• Kierunki techniczne: otrzymały najwyższy wynik (pole żaden uzyskało tylko 5%). 

Osoba nie mająca problemów z przedmiotami ścisłymi ma predyspozycje do 

kierunków technicznych. W ramach tego typu kierunków widać niewielką przewagę 

kierunku informatyka (50%) nad kierunkiem budownictwo (45%). 

• Kierunki ekonomiczne: również przystępny wynik (pole żaden uzyskało 33%). Brak 

problemów z matematyką osoby, wpłynął na dosyć wysoki wynik dla kierunku 

finanse (48%) oraz niższy dla kierunku marketing (20%). Sumowanie się wyników 

do 101% jest spowodowane zapewne błędem programu GeNIe. 

• Kierunki społeczne i artystyczne: otrzymano 100% i 96% dla pola żaden. Osoba, 

która rzadko spotyka się z przyjaciółmi, czy ma problemy z przedmiotami 

humanistycznymi powinna unikać tych kierunków.

◦ Warstwa praca zawodowa, stanowisko: 

• Praca inżynierska: Wysoki wynik dla kierunków technicznych w poprzedniej 

warstwie wpłynął na dosyć wysoki wynik dla zawodów, które wymagają tytułu 

inżyniera (85%). 

Branża rozrywkowa: Niski wynik spowodowany unikaniem kontaktów z ludźmi przez 

typowego gracza 

• Stanowisko kierownicze: Dosyć wysoki wynik (80%) wynika z predyspozycji osoby 

do kierunków technicznych oraz ekonomicznych. 

• Marketing: Tutaj również unikanie kontaktów z ludźmi zaniżyło wynik (11%), mimo 

dosyć dobrych wyników kierunków ekonomicznych. 

• Finanse: Dosyć wysoki wynik (63%) spowodowany zdolnościami technicznymi oraz 

liczbowymi typowego gracza. 

◦ Warstwa różne cechy i aspekty pracy: 

• Kariera zawodowa: Dobre wyniki dla pracy jako inżynier oraz w finansach w 

poprzedniej warstwie, spowodowały wysoki wynik dla stabilności kariery 

zawodowej typowego gracza (87%).

Sieci bayesowskie - efektywne narzędzie w zagadnieniach 

systemów eksperckich oraz sztucznej inteligencji 

 

 

 

 

Szerokie zastosowania: NASA-AutoClass, Microsoft-Office 

Assistant, w przemyśle - www.hugin.com, medycyna, 

sądownictwo, itd. 

Sieci Bayesa stanowią naturalną reprezentację niezależności 

warunkowej (indukowanej przyczynowo). 

Topologia sieci i tablice prawdopodobieństwa warunkowego 

(CPT) pozwalają na zwartą reprezentację rozkładu łącznego 

prawdopodobieństwa. 

Sieci Bayesa są szczególnie przydane i łatwe do zastosowania 

w systemach ekspertowych.

Naiwny klasyfikator bayesowski jest prostym probabilistycznym 

klasyfikatorem. 

Zakłada się wzajemną niezależność zmiennych niezależnych (tu 

naiwność) 

Bardziej opisowe może być określenie- „model cech niezależnych”. 

Model prawdopodobieństwa można wyprowadzić korzystając z 

twierdzenia Bayesa. 

W zależności od rodzaju dokładności modelu prawdopodobieństwa, 

naiwne klasyfikatory bayesowskie można „uczyć” bardzo skutecznie 

w trybie uczenia z nadzorem.

Jeśli wiemy, że kulek czerwonych jest 2 razy mniej niż zielonych (bo 

czerwonych jest 20 a zielonych 40) to prawdopodobieństwo tego, że 

kolejna (nowa) kulka będzie koloru zielonego jest dwa razy większe niż 

tego, że kulka będzie czerwona. 

Dlatego możemy napisać, że znane z góry prawdopodobieństwa:

Jeśli więc czerwonych jest 20 a zielonych 40, to razem wszystkich jest 60. Więc 

Więc teraz gdy mamy do czynienia z nową kulką ( na rysunku – biała):

To spróbujmy ustalić jaka ona będzie. Dokonujemy po prostu klasyfikacji kulki do jednej 

z dwóch klas: zielonych bądź czerwonych. 

Jeśli weźmiemy pod uwagę sąsiedztwo białej kulki takie jak zaznaczono, a więc do 4 

najbliższych sąsiadów, to widzimy, że wśród nich są 3 kulka czerwone i 1 zielona. 

 

Obliczamy liczbę kulek w sąsiedztwie należących do danej klasy : zielonych bądź 

czerwonych z wzorów: 

W naszym przypadku, jest dziwnie, bo akurat w sąsiedztwie kulki X jest więcej kulek czerwonych niż zielonych, 

mimo, iż kulek zielonych jest ogólnie 2 razy więcej niż czerwonych. Dlatego zapiszemy, że

Dlatego ostatecznie powiemy, że 

Prawdopodobieństwo że kulka X jest zielona = prawdopodobieństwo kulki 

zielonej * prawdopodobieństwo, że kulka X jest zielona w swoim sąsiedztwie 

= 

Prawdopodobieństwo że kulka X jest czerwona = prawdopodobieństwo kulki 

czerwonej * prawdopodobieństwo, że kulka X jest czerwona w swoim sąsiedztwie = 

Ostatecznie klasyfikujemy nową kulkę X do klasy kulek czerwonych, ponieważ ta klasa dostarcza nam 

większego prawdopodobieństwa posteriori.

Tylko dla cech jakościowych 

Tylko dla dużych zbiorów danych

Aby obliczyć P(diabetes=1) należy zliczyć liczbę 

obserwacji dla których spełniony jest warunek 

„diabetes=1”. Jest ich dokładnie 9 z 20 wszystkich. 

Podobnie, aby obliczyć P(diabetes=0) należy zliczyć 

liczbę obserwacji dla których spełniony jest warunek 

„diabetes=0”. Jest ich dokładnie 11 z 20 wszystkich.

Zakładając, że zmienne niezależne faktycznie są niezależne, wyliczenie 

P(X|diabetes=1) wymaga obliczenia prawdopodobieństwa warunkowego 

wszystkich wartości dla X: 

Np. obliczenie P(BP=high|diabetes=1) wymaga znów obliczenia P(BP=high) i 

P(diabetes=1) co jest odpowiednio równe 4 i 9 zatem prawdopodobieństwo 

to wynosi 4/9:

Zatem: 

Mając już prawdopodobieństwa P(X|diabetes=1) i P(diabetes=1) 

można wyznaczyć iloczyn tych prawdopodobieństw:

Teraz podobnie zrobimy w przypadku P(X|diabetes=0)

Możemy więc wyznaczyć P(X|diabetes=0): 

Ostatecznie iloczyn prawdopodobieństw jest wyznaczany: 

Jakoże P(X|diabeltes=1)P(diabetes=1) jest większe niż 

P(X|diabetes=0)P(diabetes=0) nowa obserwacja będzie zaklasyfikowana do 

klasy diabetes=1. 

Prawdopodobieństwo ostateczne że jeśli obiekt ma opis taki jak X będzie z 

klasy diabetes=1 jest równe:

Jakie będzie prawdopodobieństwo klasyfikacji 

do klasy „diabetes=1” gdy mamy następujące 

przypadki: 

X:BP=Average ; weight=above average; FH= yes; age=50+ 

X:BP=low ; weight=average; FH= no; age=50+ 

X:BP=high ; weight=average; FH= yes; age=50+

– jeden z algorytmów regresji nieparametrycznej używanych w 

statystyce do prognozowania wartości pewnej zmiennej losowej. 

Może również być używany do klasyfikacji. 

- 

Założenia 

• Dany jest zbiór uczący zawierający obserwacje z których każda 

ma przypisany wektor zmiennych objaśniających oraz wartość 

zmiennej objaśnianej Y. 

• Dana jest obserwacja C z przypisanym wektorem zmiennych 

objaśniających dla której chcemy prognozować wartość 

zmiennej objaśnianej Y.

Wyznaczanie odległości obiektów: odległość 

euklidesowa

Obiekty są analizowane w ten sposób , że oblicza się odległości bądź podobieństwa między 

nimi. Istnieją różne miary podobieństwa czy odległości. Powinny być one wybierane 

konkretnie dla typu danych analizowanych: inne są bowiem miary typowo dla danych 

binarnych, inne dla danych nominalnych a inne dla danych numerycznych. 

Nazwa 

Wzór 

gdzie: x,y - to 

wektory wartości 

cech 

porównywanych 

obiektów w 

przestrzeni p- 

wymiarowej, gdzie 

odpowiednio 

wektory wartości 

to: oraz . 

odległość euklidesowa 

odległość kątowa 

współczynnik korelacji 

liniowej Pearsona 

Miara Gowera

Oblicz odległość punktu A o współrzędnych (2,3) do punktu B o 

współrzędnych (7,8). 

9 

8 

7 

6 

5 

4 

3 

2 

1 

0 

0 2 4 6 8 

A 

B 

D (A,B) = pierwiastek ((7-2) 2 + (8-3) 2 ) = pierwiastek (25 + 25) = 

pierwiastek (50) = 7.07

9 

8 

B 

7 

6 

5 

4 

3 

A 

A 

B 

C 

2 

1 

C 

0 

0 1 2 3 4 5 6 7 8 

 

 

Mając dane punkty: 

A(2,3), B(7,8) oraz C(5,1) oblicz odległości między punktami: 

D (A,B) = pierwiastek ((7-2) 2 + (8-3) 2 ) = pierwiastek (25 + 25) = pierwiastek (50) = 7.07 

D (A,C) = pierwiastek ((5-2) 2 + (3-1) 2 ) = pierwiastek (9 + 4) = pierwiastek (13) = 3.60 

D (B,C) = pierwiastek ((7-5) 2 + (3-8) 2 ) = pierwiastek (4 + 25) = pierwiastek (29) = 5.38

1. porównanie wartości zmiennych objaśniających dla obserwacji C z 

wartościami tych zmiennych dla każdej obserwacji w zbiorze uczącym. 

2. wybór k (ustalona z góry liczba) najbliższych do C obserwacji ze zbioru 

uczącego. 

3. Uśrednienie wartości zmiennej objaśnianej dla wybranych obserwacji, 

w wyniku czego uzyskujemy prognozę. 

Przez "najbliższą obserwację" mamy na myśli, taką obserwację, której odległość do analizowanej przez 

nas obserwacji jest możliwie najmniejsza.

Najbliższy dla naszego obiektu „buźka” jest obiekt 

Więc przypiszemy nowemu obiektowi klasę:

Mimo, że najbliższy dla naszego obiektu „buźka” jest obiekt 

Metodą głosowania ustalimy, że skoro mamy wziąć pod uwagę 5 najbliższych 

sąsiadów tego obiektu, a widać, że 1 z nich ma klasę: 

Zaś 4 pozostałe klasę: 

To przypiszemy nowemu obiektowi klasę:

Obiekt klasyfikowany podany 

jako ostatni : a = 3, b = 6 

Teraz obliczmy odległości 

poszczególnych obiektów od 

wskazanego. Dla 

uproszczenia obliczeń 

posłużymy sie wzorem:

Znajdujemy więc k najbliższych sąsiadów. Załóżmy, że szukamy 9 najbliższych 

sąsiadów. Wyróżnimy ich kolorem zielonym. 

Sprawdzamy, które z tych 9 najbliższych sąsiadów są z klasy „+” a które z klasy „-” ? 

By to zrobić musimy znaleźć k najbliższych sąsiadów (funkcja Excela o nazwie MIN.K)

Wyobraźmy sobie, że nie mamy 2 zmiennych opisujących każdy obiekt, ale tych 

zmiennych jest np. 5: {v1,v2,v3,v4,v5} i że obiekty opisane tymi zmiennymi to 3 

punkty: A, B i C: 

V1 V2 V3 V4 V5 

A 0.7 0.8 0.4 0.5 0.2 

B 0.6 0.8 0.5 0.4 0.2 

C 0.8 0.9 0.7 0.8 0.9 

Policzmy teraz odległość między punktami: 

D (A,B) = pierwiastek ((0.7-0.6) 2 + (0.8-0.8) 2 + (0.4-0.3) 2 + (0.5-0.4) 2 + (0.2-0.2) 2 ) = pierwiastek 

(0.01 + 0.01 + 0.01) = pierwiastek (0.03) = 0.17 

D (A,C) = pierwiastek ((0.7-0.8) 2 + (0.8-0.9) 2 + (0.4-0.7) 2 + (0.5-0.8) 2 + (0.2-0.9) 2 ) = pierwiastek 

(0.01 + 0.01 + 0.09 + 0.09 + 0.49) = pierwiastek (0.69) = 0.83 

D (B,C) = pierwiastek ((0.6-0.8) 2 + (0.8-0.9) 2 + (0.5-0.7) 2 + (0.4-0.8) 2 + (0.2-0.9) 2 ) = pierwiastek 

(0.04 + 0.01 + 0.04+0.16 + 0.49) = pierwiastek (0.74) = 0.86 

Szukamy najmniejszej odległości, bo jeśli te dwa punkty są najbliżej siebie, dla których mamy 

najmniejszą odległości ! A więc najmniejsza odległość jest między punktami A i B !

Schemat algorytmu: 

Poszukaj obiektu najbliższego w stosunku do obiektu klasyfikowanego. 

Określenie klasy decyzyjnej na podstawie obiektu najbliższego. 

Cechy algorytmu: 

Bardziej odporny na szumy - w poprzednim algorytmie obiekt najbliższy 

klasyfikowanemu może być zniekształcony - tak samo zostanie zaklasyfikowany 

nowy obiekt. 

Konieczność ustalenia liczby najbliższych sąsiadów. 

Wyznaczenie miary podobieństwa wśród obiektów (wiele miar podobieństwa). 

Dobór parametru k - liczby sąsiadów: 

Jeśli k jest małe, algorytm nie jest odporny na szumy – jakość klasyfikacji jest 

niska. Jeśli k jest duże, czas działania algorytmu rośnie - większa złożoność 

obliczeniowa. Należy wybrać k, które daje najwyższą wartość klasyfikacji.

WykÅad 3: Sieci Bayesa

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?

WykÅad 3: Sieci Bayesa