2. Bayesin päätösteoria
2. Bayesin päätösteoria
2. Bayesin päätösteoria
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>2.</strong> <strong>Bayesin</strong> <strong>päätösteoria</strong><br />
<strong>2.</strong>1. Johdanto<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
13 / 99<br />
<strong>Bayesin</strong> <strong>päätösteoria</strong>n (Bayesian decision theory) avulla on mahdollista johtaa optimaalisia<br />
tilastollisia luokittelijoita. Perustuu todennäköisyyslaskentaan ja olettaa<br />
tarvittavat todennäköisyydet tunnetuiksi.<br />
Merkitään asiaintilaa (state of nature) symbolilla ω<br />
• kalanlajittelun esimerkissä tarkoittaa tarkasteltavan kalan lajia: ω = ω 1, kun kala<br />
on meriahven ja ω = ω 2 , kun kala on lohi<br />
• koska asiaintila on niin ennustamaton, tulkitaan ω muuttujaksi, joka täytyy<br />
kuvailla probabilistisesti<br />
Asiaintila ω on tässä diskreettiarvoinen, koska sillä on vain kaksi tilaa. Sen tiloihin<br />
liittyy a priori todennnäköisyydet P(ω j), jotka kuvastavat tilojen suhteellisia esiintymiskertoja<br />
populaatiossa:<br />
• P(ω 1 ): meriahvenien suhteellinen osuus saaliskaloissa<br />
• P(ω 2 ): lohien suhteellinen osuus saaliskaloissa<br />
• jos muita tiloja ei ole, P(ω 1 ) + P(ω 2 ) = 1<br />
Mikäli luokittelijalla ei ole muuta tietoa kaloista kuin a priori todennäköisyydet,<br />
päätössääntö on yksinkertainen:<br />
• päätä ω 1 jos P(ω 1 ) > P(ω 2 ), muutoin päätä ω 2<br />
Tavallisesti käytettävissä on muutakin tietoa, nimittäin aiemmin mainittuja kohteita<br />
luonnehtivia piirteitä. Olkoon x kalan kirkkautta kuvaava jatkuva-arvoinen satunnaismuuttuja,<br />
jonka jakauma p( x ω)<br />
riippuu asiaintilasta. Jakaumaa kutsutaan luokkaehdolliseksi<br />
todennäköisyystiheysfunktioksi (class-conditional probability<br />
density function): satunnaismuuttujan x tiheysfunktio oletuksella että asiaintila on<br />
ω. Tällöin tiheysfunktioiden p( x ω1) ja p( x ω2) välinen ero kuvastaa näiden kalalajien<br />
kirkkauseroja populaatiossa (kuva alla):
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
14 / 99<br />
Tiheysfunktioita voidaan käyttää hyväksi luokittelussa <strong>Bayesin</strong> kaavan avulla.<br />
Tämän johtamiseksi kirjoitetaan ensin yhteistodennäköisyystiheys (joint probability<br />
density) sille, että hahmo kuuluu luokkaan ω j JA sillä on piirteen arvo x:<br />
p( ωj, x)<br />
= P( ωj x)p<br />
( x)<br />
= p( x ωj)P ( ωj) Tästä saadaan kuuluisa <strong>Bayesin</strong> kaava (Bayes formula):<br />
P( ωj x)<br />
p( x ωj)P ( ωj) = --------------------------------- =<br />
p( x)<br />
Tämä voidaan ilmaista sanallisesti seuraavasti:<br />
p( x ωj)P ( ωj) --------------------------------------------<br />
2<br />
i = 1<br />
p( x ωi)P ( ωi) • “likelihood” : uskottavuus<br />
• a priori todennäköisyydestä lasketaan siis a posteriori todennäköisyys<br />
∑<br />
likelihood × prior<br />
posterior =<br />
----------------------------------------evidence
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
15 / 99<br />
A posteriori todennäköisyys P( ωj x)<br />
kuvastaa todennäköisyyttä, että asiaintila on<br />
ω j , kun piirrearvo x on havaittu.<br />
Tiheysfunktiota p( x ω)<br />
kutsutaan uskottavuusfunktioksi (likelihood function). Se<br />
kuvastaa asiaintilan ωj uskottavuutta suhteessa mittausarvoon x siten, että mitä<br />
suurempi funktion arvo on piirreavaruuden pisteessä x, sitä uskottavammin asiaintila<br />
on ωj .<br />
Nimittäjässä esiintyvä termi p(x) on lähinnä skaalaustekijä, jolla varmistetaan se,<br />
että posteriori-todennäköisyydet summautuvat arvoon 1 kaikkialla piirreavaruudessa.<br />
Se kuvastaa muuttujan x tiheyttä yli koko populaation.<br />
Tästä saadaan <strong>Bayesin</strong> päätössääntö (Bayes decision rule):<br />
Ekvivalentti päätössääntö:<br />
Päätä ω1 jos P( ω1 x)<br />
> P( ω2 x)<br />
, muutoin päätä ω2 Päätä ω1 jos p( x ω1)P ( ω1) ><br />
p( x ω2)P ( ω2) , muutoin päätä ω2
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
16 / 99<br />
<strong>Bayesin</strong> päätössääntö minimoi luokitteluvirheen keskimääräisen todennäköisyyden,<br />
mikä nähdään seuraavasti:<br />
Virheen keskimääräinen todennäköisyys saadaan lausekkeesta:<br />
∞<br />
∞<br />
∫<br />
P( virhe)<br />
= P( virhe, x)<br />
dx<br />
=<br />
– ∞<br />
P( virhe x)p<br />
( x)<br />
dx<br />
Tämä saa pienimmän arvonsa, kun P( virhe x)<br />
saa pienimmän arvonsa kaikissa<br />
kohdissa x.<br />
Yleisesti ottaen, kun havaitaan piirrearvo x, virheellisen luokittelupäätöksen todennäköisyys<br />
on:<br />
P( virhe x)<br />
=<br />
Noudatettaessa <strong>Bayesin</strong> päätössääntöä pätee jokaisessa pisteessä x:<br />
⎧<br />
⎨<br />
Siispä virheen keskimääräinen todennäköisyys saa pienimmän mahdollisen arvonsa<br />
käytettäessä <strong>Bayesin</strong> päätössääntöä! M.O.T.<br />
Mikään muu päätössääntö ei voi alittaa <strong>Bayesin</strong> luokitteluvirhettä. Mikäli siis<br />
todennäköisyydet tunnetaan (priorit ja jakaumat), kannattaa käyttää <strong>Bayesin</strong><br />
päätössääntöön perustuvaa luokittelijaa. Muut luokittelijat tuottavat korkeintaan<br />
yhtä hyviä tuloksia, todennäköisesti huonompia. Käytännön vaikeus on tietysti<br />
määrätä todennäköisyydet tarkasti.<br />
∫<br />
– ∞<br />
P( ω1 x),<br />
kun päätetään ω2 ⎩P(<br />
ω2 x),<br />
kun päätetään ω1 P( virhe x)<br />
=<br />
min[ P( ω1 x)<br />
, P( ω2 x)<br />
]
<strong>2.</strong><strong>2.</strong> <strong>Bayesin</strong> <strong>päätösteoria</strong> - jatkuva-arvoiset piirremuuttujat<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
17 / 99<br />
Yleistetään edellisen kappaleen tulokset:<br />
• sallitaan useita piirteitä<br />
• d-ulotteinen piirrevektori (satunnaismuuttuja) x piirreavaruudessa Rd • sallitaan useita asiaintiloja<br />
• { ω1 , ... , ωc} • sallitaan muitakin toimintoja (action) kuin päätöksenteko asiaintilasta (kuten<br />
kieltäytyminen päätöksenteosta, mikäli hahmon luokka ei näytä selvältä)<br />
• { α1 , ... , αa} • käyttämällä virheen todennäköisyyttä yleisempää kustannusfunktiota (cost function)<br />
• kustannusfunktio λ( αi ωj) ilmaisee kuinka suuri kustannus syntyy<br />
tekemällä toiminto α i asiaintilassa ω j<br />
<strong>Bayesin</strong> kaava on samaa muotoa kuin aiemmin:<br />
Oletetaan nyt, että havaitaan piirrevektori x ja halutaan tehdä sen perusteella toiminto<br />
α i . Tähän toiminnon tekemiseen liittyvän kustannuksen odotusarvo on:<br />
Päätösteoreettisessa terminologiassa kustannuksen odotusarvoa (expected loss) kutsutaan<br />
riskiksi (risk), ja suuretta R( αi x)<br />
kutsutaan ehdolliseksi riskiksi (condi-<br />
tional risk).<br />
P( ωj x)<br />
<strong>Bayesin</strong> päätösproseduuri:<br />
p( x ωj)P ( ωj) = --------------------------------- =<br />
p( x)<br />
c<br />
∑<br />
p( x ωj)P ( ωj) -------------------------------------------c<br />
i = 1<br />
p( x ωi)P ( ωi) Valitse se toiminto αi , jota vastaava ehdollinen riski R( αi x)<br />
on pienin<br />
∑<br />
R( αi x)<br />
= λ( αi ωj)P ( ωj x)<br />
j = 1
<strong>Bayesin</strong> päätössääntö tuottaa optimaalisen suorituskyvyn, mikä nähdään<br />
seuraavasti:<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
18 / 99<br />
Ongelmana on löytää kokonaisriskin minimoiva päätössääntö. Yleinen<br />
päätössääntö on funktio α(x), joka kertoo mikä toiminto αi ∈ { α1 , ... , αc} tulee valita<br />
kunkin tapauksen x kohdalla. Kokonaisriski on tiettyyn päätössääntöön liittyvä<br />
kustannuksen odotusarvo:<br />
R = R( α( x)<br />
) = R( α( x)<br />
, x)<br />
dx<br />
=<br />
Kun α(x) päätyy valintaan αi siten, että R( αi x)<br />
on pienin kaikilla x, ylläoleva<br />
lauseke saa pienimmän arvonsa. M.O.T.<br />
Pienintä kokonaisriskiä kutsutaan <strong>Bayesin</strong> riskiksi (Bayes risk) R*, joka on samalla<br />
pienin saavutettavissa oleva riski.<br />
Tarkastellaan 2-luokkaista erikoistapausta:<br />
jossa on yksinkertaistettu merkintöjä käyttämällä λ ij =<br />
Valitaan siis α1 , jos R( α1 x)<br />
< R( α2 x)<br />
, eli jos:<br />
∫<br />
∫R(<br />
α( x)<br />
x)p<br />
( x)<br />
dx<br />
R( α1 x)<br />
= λ11P( ω1 x)<br />
+ λ12P( ω2 x)<br />
R( α2 x)<br />
= λ21P( ω1 x)<br />
+ λ22P( ω2 x)<br />
λ( αi ωj) ( λ21– λ11)P ( ω1 x)<br />
> ( λ12– λ22)P ( ω2 x)<br />
eli<br />
( λ21– λ11)p ( x ω1)P ( ω1) > ( λ12– λ22)p ( x ω2)P ( ω2) eli<br />
p( x ω1) ( λ12– λ22) -----------------------------------------p( x ω2) ( λ21– λ11) P ω ( 2)<br />
><br />
--------------<br />
P( ω1) Alinta muotoa kutsutaan likelihood ratio -suureeksi ja sen käyttöä päätössääntönä<br />
LR-testiksi, jossa verrataan kahden uskottavuusfunktion suhdetta kynnysarvoon.
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
19 / 99<br />
Johdetaan aiemmin esitelty minimivirheluokittelija (minimum-error-rate classifier):<br />
Toiminto α i olkoon nyt hahmon luokittelu luokkaan ω i . Oikean ja väärän luokittelun<br />
kustannukset olkoon 0-1-kustannusfunktion mukaiset:<br />
Oikealla päätöksellä ei siis ole kustannuksia, ja kaikki väärät päätökset maksavat<br />
saman verran. Tätä kustannusfunktiota vastaava ehdollinen riski on nyt:<br />
Päätössääntö:<br />
eli:<br />
eli:<br />
Valitse α i , jos<br />
Valitse α i , jos<br />
Valitse α i , jos<br />
λ( αi ωj) 0 i = j<br />
1 i ≠ j<br />
Alla kuva, jossa piirretty LR-suhde edellisen kuvan esimerkille:<br />
=<br />
⎧<br />
⎨<br />
⎩<br />
R( αi x)<br />
c<br />
= ∑ λ( αi ωj)P ( ωj x)<br />
= ∑ P( ωj x)<br />
= 1 – P( ωi x)<br />
j = 1<br />
j ≠ i<br />
R( αi x)<br />
< R( αj x)<br />
kaikilla j ≠ i<br />
1– P(<br />
ωi x)<br />
< 1– P(<br />
ωj x)<br />
kaikilla j ≠ i<br />
P( ωi x)<br />
><br />
P( ωj x)<br />
kaikilla j ≠ i
<strong>2.</strong>3. Luokittelijat, diskriminanttifunktiot ja päätöspinnat<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
20 / 99<br />
Luokittelijat voidaan esittää monella tavalla yhden suosituimmista ollessa diskriminanttifunktiot<br />
g i(x), i=1,...,c. Suomeksi voidaan käyttää nimeä erottelufunktiot.<br />
Jokaiselle luokalle siis suunnitellaan oma diskriminanttifunktio. Luokittelija sijoittaa<br />
piirrevektorin x omaavan hahmon luokkaan ω i, jos:<br />
gi( x)<br />
> gj( x)<br />
kaikilla j ≠ i<br />
eli suurimman lukuarvon tuottavan funktion luokkaan.<br />
Riskin minimointiin perustuvalle <strong>Bayesin</strong> luokittelijalle voidaan valita:<br />
gi (x) = - R( αi x)<br />
, jolloin suurimman diskriminanttifunktion arvo vastaa pienintä ehdollista riskiä.<br />
Minimivirheeseen perustuvalle <strong>Bayesin</strong> luokittelijalle voidaan valita:<br />
gi (x) = P( ωi x)<br />
, jolloin suurimman diskriminanttifunktion arvo vastaa suurinta a posteriori todennäköisyyttä
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
21 / 99<br />
Diskriminanttifunktiota voidaan muokata vaikuttamatta päätössääntöön. Esimerkiksi,<br />
toimivasta d-funktiosta g i(x) saadaan uusi muunnoksella f(g i(x)), jossa f()<br />
on monotonisesti kasvava funktio.<br />
Eräitä suosittuja diskriminanttifunktioita ovat:<br />
gi( x)<br />
= P( ωi x)<br />
=<br />
p( x ωi)P ( ωi) -------------------------------------------c<br />
p( x ωj)P ( ωj) Päätössäännön tarkoitus on jakaa piirreavaruus päätösalueisiin (decision regions)<br />
R1 ,...,Rc . Mikäli siis gi( x)<br />
><br />
gj( x)<br />
kaikilla j ≠ i , niin piirevektori x kuuluu<br />
päätösalueeseen R i , ja päätössääntö luokittelee hahmon luokkaan ω i .<br />
Päätösalueita erottaa toisistaan päätöspinnat (decision boundary):<br />
∑<br />
gi( x)<br />
=<br />
j = 1<br />
p( x ωi)P ( ωi) gi( x)<br />
= ln p( x ωi) + ln P( ωi)
Kaksiluokkaisessa tapauksessa luokittelijaa kutsutaan Englanniksi dichotomizer,<br />
joka tulee jakamisesta kahteen osaan. Kahden diskriminanttifunktion sijasta<br />
käytetään yhtä, joka määritellään seuraavasti:<br />
Päätössääntö on:<br />
Usein käytetään seuraavia funktioita:<br />
g( x)<br />
= g1( x)<br />
– g2( x)<br />
Päätä ω1 , jos g( x)<br />
> 0 , muutoin päätä ω2 g( x)<br />
= P( ω1 x)<br />
– P( ω2 x)<br />
g( x)<br />
ln p x ω ( 1)<br />
------------------- ln<br />
p( x ω2) P ω ( 1)<br />
=<br />
+ --------------<br />
P( ω2) Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
22 / 99
<strong>2.</strong>4. Normaalijakauma<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
23 / 99<br />
<strong>Bayesin</strong> luokittelijan rakenteen määrittelee ehdolliset tiheysfunktiot p( x ωi) ja prioritodennäköisyydet<br />
P(ωi). Eniten tutkittu tiheysfunktiomuoto on normaalijakauma<br />
(normal density, Gaussian), koska sen analyyttinen käsiteltävyys on hyvä ja koska<br />
se sopii hyvin mallintamaan usein esiintyvää signaaliin summautunutta kohinaa.<br />
Ensialkuun palautetaan mieleen skalaariarvoisen funktion f(x) tilastollisen odotusarvon<br />
(expected value) määritelmä, kun x on jatkuva-arvoinen muuttuja:<br />
∞<br />
ε[ f( x)<br />
] ≡ f( x)p<br />
( x)<br />
dx<br />
Diskreetin muuttujan x ∈ D tapauksessa odotusarvo lasketaan kaavalla:<br />
Huomaa, että jatkuva muuttujan x tapauksessa käytetään todennäköisyystiheysfunktiota<br />
p(x) (pienellä p:llä), kun diskreetin muuttujan x tapauksessa käytetään<br />
todennäköisyysjakaumaa (todennäköisyysmassaa) P(x) (isolla P:llä).<br />
Jatkuva-arvoisen skalaarimuuttujan x normaalijakauma eli Gaussin jakauma:<br />
Muuttujan x odotusarvo ja neliöllisen poikkeaman odotusarvo eli varianssi:<br />
∞<br />
∫<br />
– ∞<br />
ε[ f( x)<br />
] = f( x)P<br />
( x)<br />
p( x)<br />
=<br />
∑<br />
x ∈ D<br />
1<br />
– -- ⎛----------- x – µ ⎞<br />
--------------e<br />
1 2⎝<br />
σ ⎠<br />
2πσ<br />
2<br />
µ ≡ ε[ x ] = xp( x)<br />
dx<br />
∫<br />
– ∞<br />
σ 2 ε ( x – µ ) 2 ≡ [ ] ( x – µ ) 2 =<br />
p( x)<br />
dx<br />
∞<br />
∫<br />
– ∞
Usein merkitään p( x)<br />
N µ σ , katso kuva alla:<br />
2<br />
∼ ( , )<br />
<strong>2.</strong>4.1. Piirrevektorin tiheysfunktio<br />
Monimuuttujainen (multivariate) normaalijakauma p( x)<br />
∼ N( m, Σ)<br />
:<br />
p( x)<br />
1<br />
d 2<br />
( 2π)<br />
⁄ 1 2<br />
Σ ⁄<br />
1<br />
– -- ( x – m)<br />
2<br />
-----------------------------------e<br />
t Σ 1 – ( x – m)<br />
, jossa m on x:n d-ulotteinen odotusarvovektori (mean vector), ja Σ on dxd-<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
=<br />
24 / 99<br />
kokoinen kovarianssimatriisi (covariance matrix), Σ ja Σ ovat kovarianssimatriisin<br />
determinantti ja käänteismatriisi, yläindeksi t tarkoittaa transpoosia.<br />
1 –<br />
∞<br />
m ≡ ε[ x ] = xp( x)<br />
dx<br />
∫<br />
– ∞<br />
Σ ε ( x – m)<br />
( x – m)<br />
t ≡ [<br />
] ( x – m)<br />
( x – m)<br />
t =<br />
p( x)<br />
dx<br />
∞<br />
∫<br />
– ∞
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
25 / 99<br />
Odotusarvo vektorista saadaan ottamalla odotusarvo vektorin komponenteista erikseen:<br />
= ε[ xi ]<br />
m i<br />
Kovarianssimatriisin elementti σij edustaa komponenttien xi ja xj välistä kovarianssia<br />
ja määritellään seuraavasti:<br />
σij = ε[ ( xi – mi) ( xj – mj) ]<br />
Kovarianssimatriisi on aina symmetrinen ja positiivinen semidefiniitti (eli determinantti<br />
nolla tai positiivinen). Determinantti on nolla esimerkiksi silloin, kun osa<br />
piirrevektorin komponenteista ovat identtisiä tai korreloivat täydellisesti keskenään.<br />
Jos komponentit x i ja x j ovat tilastollisesti riippumattomia (statistically independent),<br />
elementti σ ij = 0. Mutta ei välttämättä toisinpäin, sillä kovarianssianalyysissä<br />
arvioidaan lineaarista riippumattomuutta, ja riippuvuuksiahan on olemassa epälineaarisiakin!<br />
Diagonaalielementit σ ii = σ i 2 ovat komponenttien xi varianssit. Alla esimerkki 2ulotteisen<br />
piirrevektorijoukon kovarianssimatriisista:<br />
S<br />
2<br />
σ11 σ12 σ1 σ12<br />
= = =<br />
σ21 σ 2<br />
22 σ21 σ2 2<br />
σ1 σ12<br />
2<br />
σ12 σ2 Monimuuttujaisen normaalijakauman määrittelee siis d+d(d+1)/2 parametria, eli<br />
odotusarvovektori ja kovarianssimatriisin riippumattomat elementit.<br />
Esimerkiksi diskreetin muuttujan x tapauksessa lasketaan näitä suureita vastaavat<br />
otoskeskiarvo ja otoskovarianssimatriisi seuraavasti:<br />
N<br />
1<br />
x = --- x<br />
N ∑ i<br />
i = 1<br />
S<br />
1<br />
--- ( x<br />
N i – x)<br />
( xi – x)<br />
t<br />
N<br />
=<br />
∑<br />
i = 1
Alla kuva 2-ulotteisesta Gaussin jakaumasta.<br />
Jakauma on vino, koska esimerkkitapauksessa piirteet x 1 ja x 2 korreloivat positiivisesti<br />
(esimerkiksi kalan pituus ja paino). Ellipsit kuvastavat pisteitä, joissa<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
r 2<br />
( x – m)<br />
t Σ 1 – = ( x – m)<br />
=<br />
vakio<br />
26 / 99<br />
Suuretta r kutsutaan Mahalanobis-etäisyydeksi piirrevektorin x ja luokan jakauman<br />
odotusarvon m välillä. (Kuvassa odotusarvoa m merkitään symbolilla µ.) Sitä<br />
käytetään usein luokittelijoissa mitattaessa sitä kuinka etäällä/lähellä hahmo on eri<br />
luokkia, tähän palataan pian.<br />
Ellipsien akselit voidaan haluttaessa laskea ominaisarvoanalyysin kautta.<br />
Tyypillisesti kuvat piirretään siten, että sisin ellipsi on yhden keskihajonnan (standard<br />
deviation) etäisyydellä keskipisteestä, seuraava kahden keskihajonnan, jne.
<strong>2.</strong>5. Diskriminanttifunktioita normaalijakaumalle<br />
Käytettäessä diskriminanttifunktiona aiemmin esitettyä muotoa<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
27 / 99<br />
normaalijakautuneen satunnaismuuttujan x tapauksessa p( x ωi) ∼ N( mi, Σi) ja:<br />
gi( x)<br />
=<br />
Tarkastellaan seuraavaksi eräitä usein käytännössä esiintyviä erikoistapauksia.<br />
<strong>2.</strong>5.1. Tapaus Σ i = σ 2 I<br />
gi( x)<br />
= ln p( x ωi) + ln P( ωi) 1<br />
-- ( x – m<br />
2 i)<br />
t – 1 d<br />
– Σi ( x – mi)<br />
-- ln 2π<br />
2<br />
1<br />
– – -- ln Σ<br />
2 i<br />
ln P( ωi) Tässä tapauksessa kaikkien luokkien kovarianssimatriisi on identtinen ja on<br />
yksikkömatriisin muotoinen päädiagonaalielementin saadessa arvon σ 2 . Esim.:<br />
Σ<br />
=<br />
σ 2 0<br />
0 σ 2<br />
Näin käy jos piirrevektorin komponentit eli piirteet ovat tilastollisesti lineaarisesti<br />
riippumattomia ja jokaisen piirteen varianssi on sama σ 2 . Geometrisesti tulkittuna<br />
tämä tarkoittaa ympyrämäisesti samalla tavalla jakautuneita luokkia, jotka sijaitsevat<br />
piirreavaruuden kohdissa m i.<br />
+
Tällöin<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
Σ i<br />
σ 2d<br />
= ja Σ 1 – 1<br />
σ 2<br />
= ----- I<br />
28 / 99<br />
Koska <strong>2.</strong> ja 3. termi diskriminanttifunktiossa ovat riippumattomia luokasta, ne eivät<br />
vaikuta erottelukykyyn ja voidaan siten jättää pois. Saadaan siis:<br />
gi( x)<br />
=<br />
2<br />
x – mi 2σ 2<br />
– ---------------------- + ln P( ωi) Ensimmäisen termin osoittajassa esiintyvä lauseke on pisteiden x ja mi välinen<br />
Euklidinen etäisyys:<br />
2<br />
x – mi ( x – mi) t ( x – mi) ( xj – mij) 2<br />
d<br />
= =<br />
x 2<br />
x<br />
x-m i<br />
m i<br />
∑<br />
j = 1<br />
x 1
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
29 / 99<br />
Edellä esitettyä diskriminanttifunktiota voidaan muokata edelleen laskemalla etäisyyslauseke<br />
auki, jolloin saadaan:<br />
gi( x)<br />
=<br />
1<br />
2σ 2<br />
– -------- x t t t<br />
[ x – 2mix + mi mi]<br />
+ ln P( ωi) Termi x t x on sama kaikille luokille, joten se voidaan jättää pois. Merkitään nyt:<br />
1<br />
wi σ<br />
Tällöin saadaan muoto, jota kutsutaan lineaariseksi diskriminanttifunktioksi:<br />
2<br />
1<br />
= ----- mi ja wi0 2σ 2<br />
t<br />
= – -------- mi mi + ln P( ωi) t<br />
gi( x)<br />
= wix + wi0<br />
Lineaarista diskriminanttifunktiota käyttävää luokittelijaa kutsutaan lineaariseksi<br />
koneeksi (linear machine). Voidaan osoittaa, että lineaarisella koneella luokkia erottelevina<br />
päätöspintoina toimivat hypertasot, jotka voidaan laskea suoraviivaisesti<br />
jokaisen luokkaparin i-j välille asettamalla g i (x)=g j (x):<br />
w i<br />
gi( x)<br />
– gj( x)<br />
= 0<br />
t t<br />
x + wi0 – wjx – wj0 = 0<br />
1<br />
----- ( mi – mj) t 1 t<br />
x --------m<br />
1 t<br />
– imi<br />
+ ln P( ωi) + --------m jmj<br />
– ln P( ωj) = 0<br />
σ 2<br />
( mi – mj) t x<br />
( mi – mj) t x<br />
2σ 2<br />
( mi – mj) t x<br />
Yhtälö ( mi – mj) edustaa pisteen x0 kautta kulkevaa hypertasoa L,<br />
joka on kohtisuorassa luokkien i ja j keskipisteitä yhdistävää janaa mi-mj vastaan.<br />
t ( x – x0) =<br />
0<br />
2σ 2<br />
1 t t<br />
– -- ( m<br />
2 imi<br />
– mj mj)<br />
σ 2 ln P ω ( i)<br />
+ ------------- = 0<br />
P( ωj) 1<br />
-- ( m<br />
2 i – mj) t<br />
mi – mj –<br />
( mi + mj) -------------------------σ<br />
2<br />
mi – mj 2 ln P ω ( i)<br />
+ ------------- = 0<br />
P( ωj) 1<br />
-- ( m<br />
2 i – mj) t ( mi – mj) –<br />
( mi + mj) t<br />
-------------------------σ<br />
2<br />
mi – mj 2 ln P ω ( i)<br />
+ ------------- ( m<br />
P( ωj) i – mj) = 0<br />
( mi – mj) t 1<br />
x – -- ( m<br />
2 i + mj) -------------------------ln<br />
2<br />
mi – mj P ω ⎧ ( i)<br />
⎫<br />
⎨ +<br />
------------- ( m<br />
P( ωj) i – mj) ⎬<br />
⎩ ⎭<br />
σ 2<br />
( mi – mj) t ( x – x0) = 0<br />
2<br />
=<br />
0
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
30 / 99
Mikäli prioritodennäköisyydet ovat yhtäsuuret P(ω i)=P(ω j), lausekkeista nähdään<br />
että x0 =<br />
1<br />
-- ( m<br />
2 i + mj) eli hypertaso kulkee luokkakeskipisteiden puolivälistä.<br />
Mikäli P( ωi) > P( ωj) , leikkauspiste x0 siirtyy poispäin luokasta ωi . Alla olevassa<br />
piirroksessa uusi leikkauspiste on x’ 0 ja ε>0 tulee lausekkeesta:<br />
x 2<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
ε<br />
m i<br />
=<br />
x 0<br />
σ 2<br />
--------------------------ln<br />
2<br />
mi – mj P ω ( i)<br />
-------------<br />
P( ωj) m i-m j<br />
x’ 0<br />
−ε(m i -m j )<br />
31 / 99<br />
Mikäli priorit ovat samat kaikille luokille, diskriminanttifunktiota voidaan yksinkertaistaa<br />
edelleen poistamalla vastaavat termit. Lisäksi voidaan poistaa luokasta<br />
riippumattomat σ-termit, joten päätössäännöksi saadaan:<br />
Tätä kutsutaan minimietäisyysluokittelijaksi (minimum distance classifier), jota<br />
käytetään monissa sovelluksissa. Tämän luvun perusteella nähdään mitä matemaattisia<br />
oletuksia on oltava voimassa, jotta päätössääntö toimisi optimaalisesti.<br />
m j<br />
Päätä ωi mikäli x – mi <<br />
x – mj ∀j<br />
≠ i<br />
L<br />
L’<br />
x 1
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
32 / 99<br />
<strong>2.</strong>5.<strong>2.</strong> Tapaus Σ i = Σ<br />
Luokkien kovarianssimatriisit ovat identtiset, mutta muutoin mielivaltaiset. Geometrisen<br />
tulkinnan mukaan luokkien muodot on piirreavaruudessa ovat samanlaiset,<br />
mutta ne sijaitsevat eri paikoissa m i. Koska osa diskriminanttifunktion termeistä on<br />
jälleen luokasta riippumattomia, saadaan yksinkertaistamisen jälkeen:<br />
gi( x)<br />
=<br />
1<br />
-- ( x – m<br />
2 i)<br />
t Σ 1 – – ( x – mi) – ln P( ωi) Mikäli luokkien priorit ovat samat, saadaan päätössäännöksi yksinkertaistamisen<br />
jälkeen:<br />
Päätä ωi mikäli ( x – mi) t Σ 1 – ( x – mi) ( x – mj) t Σ 1 – <<br />
( x – mj) ∀j<br />
≠ i<br />
Etäisyysmittana käytetään tässä Mahalanobis-etäisyyttä, joka siis huomioi luokkaellipsien<br />
kiertymisen piirreavaruudessa. Alla olevassa kuvassa esiintyvät luokan<br />
jakauman muotoa kuvastavan ellipsin kaksi pistettä ovat yhtä etäällä luokan keskipisteestä<br />
tämän metriikan mukaan!<br />
x 2<br />
x 1
Vastaavalla tavalla kuin edellisessä kappaleessa diskriminanttifunktiosta voidaan<br />
jättää pois luokasta riippumattomia termejä ja muuntaa se lineaariseen muotoon:<br />
, jossa<br />
wi Σ 1 – = mi ja wi0 t<br />
gi( x)<br />
= wix + wi0<br />
Päätöspinnat ovat siis jälleen hypertasoja, mutta nyt tasot eivät ole yleisesti ottaen<br />
kohtisuorassa luokkien keskipisteitä yhdistäviä janoja vastaan. Tasojen yhtälöt<br />
voidaan johtaa vastaavalla tavalla kuin edellä.<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
1 t – 1<br />
=<br />
– -- m<br />
2 iΣ<br />
mi + ln P( ωi) 33 / 99
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
34 / 99<br />
<strong>2.</strong>5.3. Tapaus Σi = mielivaltainen<br />
Kullakin luokalla on mielivaltainen kovarianssimatriisi, joten alkuperäisestä diskriminanttifunktiosta<br />
voidaan pudottaa pois vain termi (d/2)ln 2π . Pienen manipulaation<br />
jälkeen saadaan kvadraattinen (neliöllinen) muoto:<br />
gi( x)<br />
x t t<br />
= Wix + wix<br />
+ wi0<br />
, jossa<br />
W i<br />
1 – 1 – 1<br />
– --Σ<br />
1 t – 1<br />
=<br />
2 i , wi = Σi mi ja w --<br />
1<br />
i0 =<br />
– m<br />
2 iΣi<br />
mi – -- ln Σ<br />
2 i + ln P( ωi) Kaksiluokkaisessa ongelmassa päätöspinnat ovat hyperkvadreja (hyperquadrics):<br />
• hypertasot<br />
• hypertasoparit<br />
• hyperpallot<br />
• hyperellipsoidit<br />
• hyperparaboloidit<br />
• hyperhyperboloidit<br />
Jopa 1-ulotteisessa tapauksessa päätösalueet saattavat jakaantua moneen osaan:<br />
Seuraavilla sivuilla on esitetty lisää esimerkkejä päätöspinnoista.
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
35 / 99
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
36 / 99
Allaolevassa kuvassa pyritään erottelemaan neljä Gaussista luokkaa toisistaan:<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
37 / 99<br />
Luokittelija tekee päätöksen jakaumien muodot huomioiden. Alla olevassa kuvassa<br />
keskellä oleva piste x kuuluu luokkaan ω 2 , vaikka se on lähempänä luokan ω 1<br />
keskipistettä! Minimietäisyysluokittelija sijoittaisi hahmon siis luokkaan ω 1 .<br />
x 2<br />
ω 1<br />
ω 2<br />
x 1
<strong>2.</strong>6. Virheen todennäköisyydestä<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
38 / 99<br />
Tarkastellaan kaksiluokkaista tapausta, jossa luokittelijalle on opetettu päätöspinta.<br />
Koska luokkajakaumat ovat yleensä osittain päällekkäiset, tapahtuu ajoittain luokitteluvirhe:<br />
• piirrevektori x kuuluu päätösalueeseen R 1 , vaikka hahmo kuuluu luokkaan ω 2<br />
• piirrevektori x kuuluu päätösalueeseen R 2, vaikka hahmo kuuluu luokkaan ω 1<br />
Virheen todennäköisyys saadaan seuraavasti:<br />
P( virhe)<br />
= P( x ∈ R2, ω1) + P( x ∈ R1, ω2) =<br />
=<br />
P( x ∈ R2 ω1)P ( ω1) + P( x ∈ R1 ω2)P ( ω2) ∫<br />
R2 p( x ω1)P ( ω1) dx<br />
p( x ω2)P ( ω2) dx<br />
Tulosta havainnollistetaan seuraavassa kuvassa. Päätöspinta on tässä pelkkä kynnys<br />
x* ja se on selvästi asetettu epäoptimaaliseen kohtaan; <strong>Bayesin</strong> valinta on x B .<br />
Kuvankin mukaan <strong>Bayesin</strong> päätössääntö johtaa pienimpään luokitteluvirheeseen,<br />
koska virhettä edustava pinta-ala on pienin mahdollinen.<br />
+<br />
∫<br />
R1
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
39 / 99<br />
Moniluokkaisessa tapauksessa on helpompaa laskea oikean luokittelun todennäköisyys:<br />
P( oikein)<br />
= P( x ∈ Ri, ωi) =<br />
=<br />
i = 1<br />
c<br />
<strong>Bayesin</strong> luokittelija maksimoi tämän todennäköisyyden valitsemalla päätösalueet<br />
siten, että integroitava lauseke on suurin mahdollinen kaikilla x. Tämän johdosta<br />
virheen todennäköisyys on pienin mahdollinen: P(virhe)=1-P(oikein) .<br />
c<br />
∑<br />
∑<br />
i = 1<br />
c<br />
∑<br />
i = 1<br />
P( x ∈ Ri ωi) P ( ωi) ∫<br />
Ri p( x ωi)P ( ωi) dx
<strong>2.</strong>7. Spesifisyys, sensitiivisyys, testin ennustearvo, ROC-käyrät<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
40 / 99<br />
Kaksiluokkaisessa ongelmassa on usein hyödyllistä tarkastella spesifisyyttä ja sensitiivisyyttä,<br />
jotka kuvastavat luokittelijan kykyä erotella luokat toisistaan. Tarkastellaan<br />
esimerkkinä hiihtäjien doping-testausta, jossa tavoitteena on erottaa<br />
dopingia käyttäneet. Seuraava nelikenttä kuvastaa minkä verran hiihtäjiä luokittelija<br />
on luokitellut oikein ja väärin:<br />
Sensitiivisyys:<br />
Spesifisyys:<br />
Test<br />
positive<br />
Test<br />
negative<br />
Sensitivity<br />
Specificity<br />
Positiivisen testin ennustearvo:<br />
Negatiivisen testin ennustearvo:<br />
Doping<br />
present<br />
Predictive value of positive test<br />
True<br />
positives<br />
False<br />
negatives<br />
Predictive value of negative test =<br />
=<br />
=<br />
Doping<br />
absent<br />
False<br />
positives<br />
True<br />
negatives<br />
----------------------------------------------------------------------------<br />
True positives<br />
True positives + False negatives<br />
True negatives<br />
----------------------------------------------------------------------------<br />
True negatives + False positives<br />
=<br />
---------------------------------------------------------------------------<br />
True positives<br />
True positives + False positives<br />
-----------------------------------------------------------------------------<br />
True negatives<br />
True negatives + False negatives
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
41 / 99<br />
Voidaan käyttää myös seuraavia nimikkeitä kentille:<br />
• oikea hälytys (hit): true positives, TP<br />
• väärä hälytys (false alarm): false positives, FP<br />
• väärä hylkäys (miss): false negatives, FN<br />
• oikea hylkäys (correct rejection): true negatives, TN<br />
Tarkastellaan tilannetta, jossa käytetään vain yhtä piirrettä. Oletetaan, että jakaumat<br />
ovat osittain päällekkäiset kuten kuvassa (esittää tutkapulssin ilmaisemista vastaanotetun<br />
signaalin amplitudimittauksella):<br />
TN<br />
FN<br />
Kuvaan on piirretty päälle edellä esitetyn nelikentän mukaiset merkinnät (TP, FP,<br />
TN, FN), joille on näin saatu geometriset tulkinnat. Kun kynnysarvo x*<br />
(päätöspinta) on kiinnitetty, sensitiivisyys ja spesifisyys saadaan laskettua helposti<br />
luokittelutuloksista kun tapausten luokat tunnetaan.<br />
Luokkien erottuvuuden mittana voidaan käyttää suuretta:<br />
d'<br />
µ 2 – µ 1<br />
=<br />
-------------------σ<br />
, joka ilmaisee Gaussisesti jakautuneiden luokkien keskipisteiden välisen etäisyyden<br />
(yhteisen) keskihajonnan monikertana. Mitä suurempi d’ on, sitä paremmin<br />
luokat erottuvat toisistaan ja luokittelija suoriutuu hyvällä suorituskyvyllä.<br />
TP<br />
FP
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
42 / 99<br />
Jos oletetaan tietyllä etäisyydellä d’ sijaitsevat jakaumat ja muutellaan luokittelijan<br />
kynnysarvoa x* systemaattisesti, saadaan jokaisella asetuksella (aineisto läpiajamalla)<br />
yksi sensitiivisyys-spesifisyys-lukupari. Nämä lukuparit voidaan esittää<br />
koordinaattipisteinä koordinaatistossa, jossa vaaka-akselina on väärien hälytysten<br />
todennäköisyys (1-Spesifisyys) ja pystyakselina oikean hälytyksen todennäköisyys<br />
(Sensitiivisyys):<br />
Sensitiivisyys<br />
1-Spesifisyys<br />
Jokaisella d’-suureen arvolla saadaan erillinen käyrä, ROC-käyrä. Jos d’=0, jakaumat<br />
ovat täysin päällekkäisiä ja erottuvuus huonoin. Erottuvuus on sitä parempi,<br />
mitä lähempää käyrä menee vasenta ylänurkkaa. Tutkaesimerkissämme valittu x*kynnysarvo<br />
on johtanut osumaan täplän osoittamaan kohtaan. Vaihtelemalla kynnysarvoa,<br />
täplä liikkuisi pitkin käyrää d’=3.
Kuvasta tehdään tärkeä havainto:<br />
Jakaumien ollessa kiinnitetyt, kun sensitiivisyys kasvaa suureksi niin spesifisyys<br />
pienenee huomattavasti, ja päinvastoin.<br />
Mitä tämä tarkoittaa tutkasignaalin ilmaisussa?<br />
Jakaumien ollessa monimutkaiset ROC-käyrä on monimutkaisempi:<br />
<strong>2.</strong>8. <strong>Bayesin</strong> <strong>päätösteoria</strong> diskreeteille muuttujille<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
43 / 99<br />
Useissa sovelluksissa piirteet ovat kokonaislukumuuttujia, jotka voivat saada arvot<br />
v 1 ,...,v m . Todennäköisyystiheysfunktioista tulee singulaarisia ja integraalimerkinnät<br />
joudutaan vaihtamaan summamerkintöihin. Esimerkiksi <strong>Bayesin</strong> kaava saa<br />
muodon:<br />
P( ωj x)<br />
P( x ωj)P ( ωj) P( x ωj)P ( ωj) = --------------------------------- =<br />
--------------------------------------------<br />
P( x)<br />
c<br />
i = 1<br />
P( x ωi)P ( ωi) Ehdollisen riskin määritelmä ei muutu, joten toiminnon α valinta saadaan kaavasta:<br />
∑
α* = arg min R( ωi x)<br />
i<br />
Suurimpaan posterioritodennäköisyyteen perustuvan päätössäännön muoto ei<br />
myöskään muutu, eikä aiemmin esiteltyjen diskriminanttifunktioiden muodot.<br />
<strong>2.</strong>9. <strong>Bayesin</strong> verkot<br />
Kaikissa sovelluksissa tietämyksemme ratkaistavasta ongelmasta ei sisällä tietoa<br />
piirteiden jakaumista, vaan osassa tiedetään jotain piirteiden välisistä riippuvuuksista<br />
tai riippumattomuuksista. <strong>Bayesin</strong> verkot (Bayesian networks) on kehitetty<br />
mallintamaan tällaista tietoa ja tekemään sen perusteella tilastollista päättelyä.<br />
Muita nimikkeitä ovat <strong>Bayesin</strong> uskomusverkot (Bayesian belief networks),<br />
kausaaliverkot (causal neworks) ja uskomusverkot (belief networks).<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
44 / 99<br />
Mikäli kahdelle satunnaismuuttujalle x ja y pätee: p(x, y) = p(x)p(y), näiden muuttujien<br />
sanotaan olevan tilastollisesti riippumattomia. Samoin jonkin piirrevektorin<br />
komponentit voivat olla tilastollisesti riippumattomia. Alla olevassa kuvassa on<br />
esitetty 3-ulotteisten piirrevektorien avulla erään luokan sijoittuminen piirreavaruuteen.<br />
Muuttujat x 1 ja x 3 ovat toisistaan tilastollisesti riippumattomia, mutta muut<br />
eivät. Mistä tämä nähdään?<br />
<strong>Bayesin</strong> verkot ovat suunnattuja syklittömiä verkkoja, joka sisältää solmuja ja niitä<br />
yhdistäviä suunnattuja linkkejä. Linkit esittävät muuttujien välisiä riippuvuussuhteita,<br />
kuten syy-seuraus-suhteita. Verkot voivat toimia myös moniulotteisten jatkuvien<br />
jakaumien esitystapana, mutta käytännössä niitä on eniten sovellettu<br />
diskreettien todennäköisyysmassojen esittämiseen.<br />
Kukin solmu A, B,... esittää yhtä ongelman muuttujaa. Kullakin diskreetillä muuttujalla<br />
voi olla useita eri tiloja, joita merkitään pienellä kirjaimella vastaavasti ai, bj,... alaindeksin merkitessä tiettyä tilaa. Esimerkiksi A voi merkitä binäärisen kytkimen<br />
tilaa: a1 = ‘on’ ja a2 = ‘off’, jolloin vaikkapa P(a1 )=0,739 ja P(a2 )=0,261.<br />
Todennäköisyydet summautuvat ykköseksi kaikissa muuttujissa. Alla olevassa<br />
kuvassa solmusta A solmuun C kulkeva linkki esittää ehdollisia todennäköisyyksiä<br />
P( ci aj) , joka tiiviimmin ilmaistaan muodossa P( c a)<br />
, jossa a ja c ovat muut-<br />
tujien A ja C tilat koottuina vektoreiksi: a [ a1, …, an] .<br />
T ja c [ c1, …, cm] T<br />
=<br />
=
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
45 / 99<br />
<strong>Bayesin</strong> päättelyn avulla voidaan verkkoa hyödyntäen laskea kunkin muuttujan eri<br />
arvojen todennäköisyydet. Itse asiassa, mikä tahansa useasta muuttujasta koostuvan<br />
yhdistelmän todennäköisyys (yhteistodennäköisyys, joint probability) on mahdollista<br />
laskea verkosta. Todennäköisyyksien laskennassa huomioidaan verkon<br />
ilmoittamat riippuvuudet, jolloin päästään yksinkertaistamaan (ja nopeuttamaan)<br />
laskentaa merkittävästi. Tarkastellaan ensin yksittäisen muuttujan arvojen<br />
todennnäköisyyksien laskemista esimerkkien avulla.<br />
Ennen esimerkkejä kolme tärkeää seikkaa:<br />
1) Marginalisointi, jossa todennäköisyyksiä summataan määrättyjen muuttujien
P(a) P(b|a) P(c|b) P(d|c)<br />
A B<br />
kaikkien vaihtoehtojen ylitse. Alla esiintyvissä merkinnöissä esiintyy kaksin- ja<br />
kolminkertaisia summauslausekkeita, esimerkiksi:<br />
2) <strong>Bayesin</strong> kaava, eli:<br />
C D<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
P(f|e)<br />
F<br />
P(e)<br />
E<br />
H<br />
P(h|f,g)<br />
Figure <strong>2.</strong>25. Vasemmalla lineaarinen ketju, oikealla silmukka.<br />
∑<br />
a, b, c<br />
P( a, b, c)<br />
↔<br />
∑∑∑<br />
P( a, b)<br />
=<br />
P( a)P<br />
( b a)<br />
a<br />
b<br />
c<br />
P( a, b, c)<br />
G<br />
P(g|e)<br />
46 / 99
3) Vakiotermien siirtäminen summalausekkeen vasemmalle puolelle nopeuttaa<br />
laskentaa.<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
47 / 99<br />
Seuraavaksi havainnollistetaan verkon muuttujien todennäköisyyksien laskemista.<br />
Vasemman puoleiselle verkolle voidaan laskea esimerkiksi P(d):<br />
=<br />
=<br />
P( d)<br />
= P( a, b, c, d)<br />
a, b, c<br />
Huomaa, että viimeisellä rivillä kyseessä on sisäkkäiset silmukat. Entä kuinka lasketaan<br />
P(b) samalle verkolle? Aivan vastaavalla tavalla:<br />
Vastaavasti oikeanpuoleiselle silmukkarakenteelle voidaan laskea esimerkiksi P(h):<br />
Entä kuinka lasketaan P(g) samalle verkolle?<br />
=<br />
∑<br />
a, b, c<br />
=<br />
∑<br />
c<br />
=<br />
∑<br />
a, b, c<br />
Edellä olevissa lausekkeissa viimeisen muodon johtaminen edelliseltä riviltä<br />
vaikuttaa vain laskennan määrään.<br />
∑<br />
∑ P( a)P<br />
( b, c, d a)<br />
a, b, c<br />
P( a)P<br />
b a<br />
P( a)P<br />
b a<br />
∑<br />
a, b, c<br />
( )P( c, d a, b)<br />
( )P( c a, b)P<br />
( d a, b, c)<br />
P( a)P<br />
( b a)P<br />
( c b)P<br />
( d c)<br />
∑<br />
∑<br />
P( d c)<br />
P( c b)<br />
P( b a)P<br />
( a)<br />
b<br />
a
=<br />
=<br />
=<br />
∑<br />
P( b)<br />
= P( a, b, c, d)<br />
a, c, d<br />
∑ P( a)P<br />
( b, c, d a)<br />
a, c, d<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
=<br />
∑<br />
a, c, d<br />
=<br />
∑<br />
c<br />
=<br />
∑<br />
a, c, d<br />
P( a)P<br />
b a<br />
P( a)P<br />
b a<br />
∑<br />
a, c, d<br />
P( c b)<br />
( )P( c, d a, b)<br />
( )P( c a, b)P<br />
( d a, b, c)<br />
P( a)P<br />
( b a)P<br />
( c b)P<br />
( d c)<br />
∑<br />
d<br />
P( d c)<br />
P( b a)P<br />
( a)<br />
48 / 99<br />
Edellä laskettiin tiettyjien muuttujien arvojen todennäköisyyksiä, kun verkon<br />
muiden muuttujien arvoja ei tunnettu. Tällöin laskelmissa tuli käydä kaikki mahdolliset<br />
muuttujien arvot läpi ja laskea näiden vaihtoehtojen todennäköisyyksillä painotettu<br />
tulos.<br />
Seuraavaksi havainnollistetaan <strong>Bayesin</strong> verkon käyttämistä tiettyjen muuttujien<br />
posteriotodennäköisyyksien laskemisessa, kun eräiden muuttujien arvot tunnetaan.<br />
Käytännön sovelluksissa muuttujien arvot saadaan esimerkiksi muista sovelluksista<br />
syötteinä tai vaikkapa mittaamalla ohjattavan toimilaitteen sensoreilla. Tätä ulkoista<br />
informaatiota voidaan kutsua todisteaineistoksi (evidence) toimintaympäristön<br />
tilasta.<br />
Merkitään muuttujajoukon X a posteriori todennäköisyyttä symbolilla P( X e)<br />
.<br />
Muuttuja e merkitsee muuttujajoukkoon X muista verkon osista saatavaa todistu-<br />
∑<br />
⎛ ⎞ ⎛ ⎞<br />
⎜∑ P( b a)P<br />
( a)<br />
⎟ ⎜ P( c b)<br />
⎝ ⎠ ∑ ∑P(<br />
d c)<br />
⎟<br />
⎝ ⎠<br />
a<br />
c d<br />
a
=<br />
=<br />
∑<br />
P( h)<br />
= P( e, f, g, h)<br />
e, f, g<br />
∑ P( e)P<br />
( f, g, h e)<br />
e, f, g<br />
saineistoa siitä missä tilassa X on. Voidaankin määritellä, että uskomus (belief)<br />
tarkoittaa ehdollista todennäköisyyttä P( X e)<br />
että muuttujajoukko X on tietyssä<br />
tilassa, kun verkon sisältämä todennäköisyystieto tunnetaan. Ajatuksena on hyödyntää<br />
päättelyssä ulkoisen informaation lisäksi kaikki verkon sisältämä todennäköisyystieto<br />
linkkien esittämän riippuvuustiedon mukaisesti minkä tahansa<br />
muuttujan posteriorien laskemiseksi.<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
=<br />
∑<br />
e, f, g<br />
=<br />
=<br />
∑<br />
e, f, g<br />
∑<br />
e, f, g<br />
∑<br />
f, g<br />
P( e)P<br />
f e<br />
P( e)P<br />
f e<br />
( )P( g, h e, f)<br />
( )P( g e, f)P<br />
( h e, f, g)<br />
P( e)P<br />
( f e)P<br />
g e<br />
P( h f, g)<br />
∑<br />
e<br />
( )P( h f, g)<br />
P( e)P<br />
( f e)P<br />
( g e)<br />
49 / 99<br />
Tyypillisesti halutaan laskea tietyn muuttujan todennäköisin tila; esimerkiksi onko<br />
saaliskala todennäköisemmin lohi vai meriahven, kun vuodenaika, kalastuspaikkakunta<br />
ja muita mittaustietoja on käytettävissä. Oleellisessa roolissa on<br />
<strong>Bayesin</strong> kaavasta saatava lauseke:<br />
P( X e)<br />
P( X, e)<br />
=<br />
----------------- = αP( X, e)<br />
P( e)<br />
Tämä posterioritodennäköisyyden lauseke lasketaan jokaiselle muuttujan X tilalle<br />
erikseen, minkä jälkeen suurin todennäköisyysarvo määrää todennäköisimmän
=<br />
P( g)<br />
= P( e, f, g, h)<br />
e, f, h<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
=<br />
∑<br />
e, f, h<br />
=<br />
=<br />
=<br />
∑<br />
e, f, h<br />
∑<br />
e, f, h<br />
∑<br />
f, h<br />
50 / 99<br />
tilan. Termiä α<br />
voidaan laskea aivan lopuksi; lausekkeen käyttöä havainnollistetaan<br />
seuraavaksi.<br />
Esimerkki: Kalalajin päätteleminen <strong>Bayesin</strong> verkon avulla<br />
Kuvatkoon alla esitetty kaavio käytettävää <strong>Bayesin</strong> verkkoa:<br />
Seuraavat taulukot kuvaavat asiantuntijan asettamia todennäköisyyksiä:<br />
∑<br />
∑ P( e)P<br />
( f, g, h e)<br />
e, f, h<br />
P( e)P<br />
f e<br />
P( e)P<br />
f e<br />
( )P( g, h e, f)<br />
( )P( g e, f)P(<br />
h e, f, g)<br />
P( e)P<br />
( f e)P<br />
g e<br />
P( h f, g)<br />
∑<br />
e<br />
( )P( h f, g)<br />
P( e)P<br />
( f e)P<br />
( g e)
a 1 = talvi<br />
a 2 = kevät<br />
a 3 = kesä<br />
a 4 = syksy<br />
c 1 = kirkas<br />
c 2 = keskink.<br />
c 3 = tumma<br />
P(a) P(b)<br />
A<br />
aika<br />
B<br />
paikka<br />
P(x a) P(x b)<br />
X<br />
laji<br />
P(c x) P(d x)<br />
C<br />
kirkkaus<br />
P(a i ) 0,25 0,25 0,25 0,25<br />
P(b i) 0,6 0,4<br />
P(c i|x 1) 0,6 0,2 0,2<br />
P(c i |x 2 ) 0,2 0,3 0,5<br />
P(d i |x 1 ) 0,3 0,7<br />
P(d i |x 2 ) 0,6 0,4<br />
D<br />
pituus<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
b 1 = Pohjois-Atlantti<br />
b 2 = Etelä-Atlantti<br />
x 1 = lohi<br />
x 2 = meriahven<br />
d 1 = pitkä<br />
d 2 = lyhyt<br />
i,j P(x 1|a i,b j) P(x 2|a i,b j)<br />
1,1 0,5 0,5<br />
1,2 0,7 0,3<br />
2,1 0,6 0,4<br />
2,2 0,8 0,2<br />
3,1 0,4 0,6<br />
3,2 0,1 0,9<br />
4,1 0,2 0,8<br />
4,2 0,3 0,7<br />
51 / 99<br />
Käytetään nyt esiteltyä <strong>Bayesin</strong> verkkoa päättelemään kalalaji. (Päätelmiä voitaisiin<br />
tehdä mistä tahansa muustakin verkon muuttujasta.) Kirjoitetaan ensin verkon
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
52 / 99<br />
muuttujien tilastollisten riippuvuuksien mukainen yhteistodennäköisyyden lauseke:<br />
P( a, b, x, c, d)<br />
= P( a)P<br />
( b a)P<br />
( x a, b)P<br />
( c a, b, x)P<br />
( d a, b, x, c)<br />
Kerätään todistusaineistoa kullekin muuttujalle olettaen että muuttujat ovat tilastollisesti<br />
riippumattomia:<br />
• kala on väriltään vaalea (c 1)<br />
• kala on saalistettu Etelä-Atlantilta (b 2 )<br />
• ei tiedetä mihin vuodenaikaan kala on saatu<br />
• pituustietoa ei ole käytettävissä.<br />
Millä todennäköisyydellä kala on lohi?<br />
=<br />
P( a)P<br />
( b)P<br />
( x a, b)P<br />
( c x)P<br />
( d x)<br />
Millä todennäköisyydellä kala on meriahven?<br />
=<br />
P( x1 c1, b2) =<br />
∑<br />
=<br />
=<br />
P( x1, c1, b2) ------------------------------ = αP( x<br />
P( c1, b2) 1, c1, b2) ∑<br />
α P( x1, a, b2, c1, d)<br />
a, d<br />
α P( a)P<br />
( b2)P ( x1 a, b2)P ( c1 x1)P ( d x1) a, d<br />
⎛ ⎞<br />
αP( b2)P ( c1 x1) ⎜∑ P( a)P<br />
( x1 a, b2) ⎟<br />
⎝ ⎠<br />
a<br />
P( x2 c1, b2) =<br />
=<br />
α( 0, 114)<br />
⎛ ⎞<br />
⎜∑ P( d x1) ⎟<br />
⎝ ⎠<br />
d<br />
P( x2, c1, b2) ------------------------------ = αP( x<br />
P( c1, b2) 2, c1, b2) =<br />
α( 0, 066)<br />
Kala on joko lohi tai meriahven, joten posteriorit summautuvat arvoon 1. Tästä
saadaan, että α=1/0,18 , P(x 1|c 1,b 2)=0,63 ja P(x 2|c 1,b 2)=0,27.<br />
Oulun yliopisto, Hahmontunnistus ja neuroverkot (521497S), TS<br />
53 / 99<br />
Saaliskala on siis todennäköisemmin lohi! Esimerkki loppuu.<br />
Mikäli ei tiedetä mitään ongelmaa kuvaavien muuttujien tilastollisista riippuvuuksista,<br />
voidaan käyttää esimerkiksi Naiivia <strong>Bayesin</strong> verkkoa (Naive Bayes network).<br />
Tällöin muuttujat oletetaan ehdollisesti riippumattomiksi ja verkon rakenne on erityisen<br />
yksinkertainen:<br />
Kuvassa juurimuuttuja (solmu) X on muuttuja, jonka suhteen tilastollisen riippumattomuuden<br />
oletus tehdään. X voi olla esimerkiksi luokkamuuttuja, jonka avulla<br />
(A/B/C/D)-muuttujien edustama hahmo pyritään tunnistamaan. Päättely perustuu<br />
posterioritodennäköisyyksien laskentaan kuten edellä.<br />
Mikäli riippumattomuusoletus pitää paikkansa sovelluksessa, kyseessä on minimivirheluokittelija.<br />
Naiivia Bayes-verkkoa on käytetty suurella menestyksellä<br />
monissa käytännön sovelluksissa.<br />
Toinen vaihtoehto on käyttää algoritmeja, jotka pyrkivät rakentamaan verkon<br />
automaattisesti opetusaineiston perusteella tarkastelemalla muuttujien välisiä riippuvuuksia.<br />
X<br />
A B C D<br />
P( x a, b, c, d)<br />
=<br />
αP( x)P<br />
( a x)P<br />
( b x)P<br />
( c x)P<br />
( d x)