AsociaÄnÃ pravidla - Sorry

AsociaÄnÃ pravidla - Sorry AsociaÄnÃ pravidla - Sorry

from sorry.vse.cz More from this publisher

24.06.2015 Views

Dobývání znalostí z databází T6: asociační pravidla Asociační pravidla Úloha hledání souvislostí mezi hodnotami atributů. analýza nákupního košíku (Agrawal, 1993) obecněji {párky, hořčice} {rohlíky} Ant Suc, kde Ant (antecedent) i Suc (sukcedent) jsou konjunkce hodnot KATEGORIÁLNÍCH atributů (kategorií) Základní charakteristiky pravidel: Suc Suc Ant a b r Ant c d s k l n kontingenční tabulka podpora (support) a resp. sup(Ant Suc) = P(Ant Suc) = a a + b + c + d . spolehlivost (confidence) , platnost (validity) conf(Ant Suc) = P(Suc|Ant) = a a + b P. Berka, 2011 1/25

Dobývání znalostí z databází

T6: asociační pravidla

Asociační pravidla

Úloha hledání souvislostí mezi hodnotami atributů.

analýza nákupního košíku (Agrawal, 1993)

obecněji

{párky, hořčice} {rohlíky}

Ant Suc,

kde Ant (antecedent) i Suc (sukcedent) jsou konjunkce

hodnot KATEGORIÁLNÍCH atributů (kategorií)

Základní charakteristiky pravidel:

Suc Suc

Ant a b r

Ant c d s

k l n

kontingenční tabulka

podpora (support)

a resp. sup(Ant Suc) = P(Ant Suc) =

a

a + b + c + d .

spolehlivost (confidence) , platnost (validity)

conf(Ant Suc) = P(Suc|Ant) =

a

a + b

P. Berka, 2011 1/25

Dobývání znalostí z databází

T6: asociační pravidla

Další charakteristiky:

absolutní resp. relativní počet objektů, které splňují

předpoklad

a + b

a + b resp. P(Ant) =

a + b + c + d

absolutní resp. relativní počet objektů, které splňují

závěr

a + c

a + c resp. P(Suc) =

a + b + c + d

pokrytí (coverage)

P(Ant|Suc) =

a

a + c .

kvalita, jako vážený součet spolehlivosti a pokrytí

Kvalita = w 1

a

a + b + w 2

a

a + c

zajímavost (interestingness, lift)

P(Ant Suc)

P(Ant) P(Suc)

=

a (a + b + c + d)

(a + b) (a + c)

závislost (dependency)

P(Suc|Ant) - P(Suc) =

a

a + b

a + c

a + b + c + d

P. Berka, 2011 2/25

Dobývání znalostí z databází

T6: asociační pravidla

Hledání asociačních pravidel

generování syntakticky korektního pravidla

testování vygenerovaného pravidla

Generování = prohledávání prostoru pravidel

Shora dolů

Slepé i heuristické

Jednoduché

Testování = zjišťování (na datech), zda pravidlo

splňuje zadané požadavky na hodnoty numerických

charakteristik

P. Berka, 2011 3/25

Dobývání znalostí z databází

T6: asociační pravidla

Generování kombinací:

do šířky

do hloubky

heuristicky

kombinace

1n

1v

2n

2s

2v

3m

3z

4a

4n

5a

5n

1n 2n

1n 2s

1n 2v

1n 3m

1n 3z

1n 4a

1n 4n

1n 5a

1n 5n

1v 2n

1v 2s

1v 2v

1v 3m

1v 3z

kombinace

1n

1n 2n

1n 2n 3m

1n 2n 3m 4n

1n 2n 3m 4n 5n

1n 2n 3m 5n

1n 2n 3z

1n 2n 3z 4a

1n 2n 3z 4a 5n

1n 2n 3z 5n

1n 2n 4a

1n 2n 4a 5n

1n 2n 4n

1n 2n 4n 5n

1n 2n 5n

1n 2s

1n 2s 3m

1n 2s 3m 4a

1n 2s 3m 4a 5n

1n 2s 3m 4n

1n 2s 3m 4n 5a

1n 2s 3m 5a

1n 2s 3m 5n

1n 2s 3z

1n 2s 3z 4a

Frq kombinace

8 5a

7 1n

6 3m

6 3z

6 4a

6 4n

5 1v

5 1n 4a

5 4n 5a

5 1v 5a

4 2v

4 2s

4 2n

4 5n

4 3m 5a

4 1n 3m

4 3z 5a

4 3z 4a

4 3m 4n

4 1v 4n

4 2v 5a

4 1n 5n

4 1v 4n 5a

3 1n 5a

3 1n 3z

1v 2v 3z 4n 5a

Do šířky

5n

Do hloubky

1 1v 2s 3z 4n 5a

heuristicky

m

počet kombinací =

j=1

atributu a m je maximální délka kombinace

(1 K

Aj)

-1, kde K Aj je počet hodnot j-tého

P. Berka, 2011 4/25

Dobývání znalostí z databází

T6: asociační pravidla

Generování podle četností:

Algoritmus generování kombinací

Inicializace

1. vytvoř CAT - seznam kategorií A(v) uspořádaný sestupně dle

četnosti

2. přiřaď OPEN = CAT

Hlavní cyklus

1. Dokud OPEN není prázdný seznam

1.1. vezmi první kombinaci ze seznamu OPEN (označ ji

COMB)

1.2. pro každé A(v) ze seznamu CAT takové, že A(v) je v

CAT před všemi hodnotami atributů z COMB (Tedy platí, že

četnost A(v) je větší nebo rovna četnosti COMB)

1.2.1.pokud se atribut A nevyskytuje v COMB potom

1.2.1.1. generuj novou kombinaci COMB A(v)

1.2.1.2. přidej COMB A(v) do seznamu OPEN za

poslední kombinaci C takovou, že četnost(C)

četnost(COMB A(v))

1.3. odstraň COMB ze seznamu OPEN

dříve generuje četnější (častěji se vyskytující)

kombinace (a tedy i vztahy),

dříve generuje spíše kratší kombinace (a tedy i

vztahy) (přidáním kategorie do kombinace se

zpřísní kritérium a tedy i sníží počet objektů,

které ho splní).

Dobývání znalostí z databází

T6: asociační pravidla

Algoritmus apriori

hledání často se opakujících položek (frequent

itemsets) v nákupním košíku (Agrawal, 1993)

1. krok: generování celé kombinace do šířky

Algoritmus apriori

1. do L1 přiřaď všechny hodnoty atributů, které dosahují

alespoň požadované četnosti

2. polož k=2

3. dokud Lk-1

3.1. pomocí funkce apriori-gen vygeneruj na základě

Lk-1 množinu kandidátů C k

3.2. do Lk zařaď ty kombinace z C k , které dosáhly

alespoň požadovanou četnost

3.3. zvětš počítadlo k

Funkce apriori-gen(Lk-1)

1. pro všechny dvojce kombinací p, q z Lk-1

Pokud p a q se shodují v prvních k-2 položkách přidej do

C k sjednocení pq

2. pro každou kombinaci c z Ck

Pokud některá z jejich podkombinací délky k-1 není

obsažena v Lk-1 odstraň c z Ck

2. krok: Každá kombinace C se rozdělí na všechny možné

dvojce podkombinací Ant a Suc takové, že Suc = C Ant.

Hledají se pravidla Ant Suc tak, že se postupně

přesouvají kategorie z Ant do Suc, je-li Ant‘ podkombinací

Ant, potom conf(Ant’ C-Ant’) conf(Ant C-Ant)

Algoritmus řízen parametry minsup (minimální podpora) a

minconf (minimální spolehlivost)

Dobývání znalostí z databází

T6: asociační pravidla

Např. pro data o klientech banky, minsup=4 a minconf=0.8

1. krok

L 1 : 5a(8), 1n(7), 3m(6), 3z(6), 4a(6), 4n(6), 1v(5), 2v(4),

2s(4), 2n(4), 5n(4)

C 2 : 5a1n, 5a3m, 5a3z, 5a4a, 5a4n, 5a1v, 5a2v, 5a2s, 5a2n,

1n3m, 1n3z, 1n4a, 1n4n, 1n2v, 1n2s, 1n2n, 1n5n, 3m4a,

3m4n, 3m1v, 3m2v, 3m2s, 3m2n, 3m5n, 3z4a, 3z4n, 3z1v,

3z2v, 3z2s, 3z2n, 3z5n, 4a1v, 4a2v, 4a2s, 4a2n, 4a5n,

4n1v, 4n2v, 4n2s, 4n2n, 4n5n, 1v2v, 1v2s, 1v2n, 1v5n,

2v5n, 2s5n, 2n5n

L 2 : 5a3m(4), 5a4n(5), 5a1v(5), 5a3z(4), 5a2v(4), 1n3m(4),

1n4a(5), 3m4n(4), 3z4a(4), 1n3m(4), 1n5n(4), 1v4n(4)

C 3 : 5a4n1v, 3m4n5a

L 3 : 5a4n1v(4)

2. krok: 1v 5a (1)

5n 2n (1)

2v 5a (1)

1v4n 5a (1)

4n 5a (0,83)

1v 4n (0.8)

4a 1n (0.8)

4n5a 1v (0.8)

1v5a 4n (0.8)

1v 4n5a (0.8)

Dobývání znalostí z databází

T6: asociační pravidla

Implementace

Weka (tabelární data)

SAS EM (jen transakce)

Dobývání znalostí z databází

T6: asociační pravidla

Zobecněná asociační pravidla

(Srikant, Agrawal, 1995)

práce s hierarchiemi hodnot atributů

uzeniny

hořčice

salámy párky buřty plnotučná kremžská

telecí

lahůdkový

drůbeží

Taxonomie sortimentu zboží

nákup položky

1 buřty

2 telecí párky

3 lahůdkové párky, kremžská

hořčice

4 telecí párky, plnotučná

hořčice

Nákupy

položka četnost

telecí párky 2

hořčice 2

párky 3

uzeniny 4

Četnosti položek

pravidlo podpora spolehlivost

párek hořčice 50% 66%

hořčice párek 50% 100%

hořčice uzenina 50% 100%

Zobecněná asociační pravidla

Dobývání znalostí z databází

T6: asociační pravidla

Pravidla s vyjímkami

(Suzuki, 1997)

A S

A B S

B S

první pravidlo odpovídá ustáleným představám (toto

pravidlo má vysokou podporu i spolehlivost),

druhé pravidlo je hledaná výjimka (toto pravidlo má

nízkou podporu ale vysokou spolehlivost),

třetí pravidlo je takzvané referenční (má nízkou

podporu a/nebo nízkou spolehlivost).

1. použité bezpečnostní pásy přežití automobilové havárie

(obecně uznávané pravidlo o účinnosti bezpečnostních

pásů)

2. použité bezpečnostní pásy věk(předškolní) úmrtí při

havárii

(překvapivá výjimka, pro malé děti nejsou pásy vhodné)

3. věk(předškolní) úmrtí při havárii

(referenční pravidlo, při haváriích umírá málo

předškolních dětí)

Dobývání znalostí z databází

T6: asociační pravidla

Akční pravidla

(Raś, 2009)

Formálně definována jako

[(w) ()] ()

kde w je konjunkce „fixních“ kategorií, popisuje

navrženou změnu hodnot „flexibilního“ atributu a

popisuje požadovaný efekt této akce

akční pravidlo tedy reprezentuje dvě „klasická“

pravidla.

např:

akční pravidlo

[Sex(male) BMI(highaverage)]

blood_pressure(highaverage)

reprezentuje pravidla

R1: Sex(male) BMI(high) blood_pressure(high)

R2: Sex(male) BMI(average) blood_pressure(average)

Dobývání znalostí z databází

T6: asociační pravidla

Časové sekvence

(Agrawal, Srikant, 1995)

( P, 123), (Q, 125), (S, 140), (P, 150), (R, 151),

(Q, 155), (S, 201), (P, 220), (S, 222), (Q, 225).

Sériová epizoda: “P se stane dříve než Q”

Paralelní epizoda: “R, S a T se stanou současně”

Základem definice časového okna, uvnitř kterého se musí

epizoda vyskytnout.

Např. pro pevné okno délky 20 budeme zpracovávat okna

[P Q S], [Q S], [S P R Q], [P R Q], [R, Q], [Q], [S P], [P S Q]

má-li pro okno dané délky dostatečnou četnost epizoda

PQR, mají dostatečnou četnost i epizody PQ, QR a

PR.

Dobývání znalostí z databází

T6: asociační pravidla

Implikace, dvojité implikace a ekvivalence

Východiskem metoda GUHA (Hájek, Havránek, 1978)

vyhodnocující různé typy závislosti mezi A a S (tzv.

kvantifikátory)

základní implikace A Ø S,

kde Ø (a,b) =

a

a + b

základní dvojitá implikace A Ø S,

kde Ø (a,b,c) =

a

a + b + c

základní ekvivalence A Ø S,

kde Ø (a,b,c,d) =

a + d

a + b + c + d

vybrané třídy kvantifikátorů

1. kvantifikátor ~(a,b) je implikační, právě když

a’ a b’ b implikuje ~(a‘,b‘) ~(a,b)

2. kvantifikátor ~(a,b,c) je-dvojitě implikační, právě když

a’ a b’+c’ b+c implikuje ~(a‘,b‘,c’) ~(a,b,c)

3. kvantifikátor ~(a,b,c,d) je -ekvivalenční, právě když

a’+d’ a+d b’+c’ b+c implikuje ~(a‘,b‘,c’,d’)

~(a,b,c,d)

Dobývání znalostí z databází

T6: asociační pravidla

Metoda GUHA

česká metoda, hledání „všeho zajímavého“ (hypotéz),

co plyne z dat: vztahy mezi kombinacemi hodnot

binárních atributů, korelace mezi numerickými

atributy podmíněné kombinací kategoriálních atributů,

nebo zdroje závislosti v nominálních datech.

metoda explorační analýzy dat, která kombinuje

logické a statistické postupy

hledání hypotéz jako výlov rybníka

Springer 1978

Oproti asociačním pravidlům bohatší syntaxe i

rozmanitější typy pravidel

Dobývání znalostí z databází

T6: asociační pravidla

LISp-Miner

Aktuální implementace metody GUHA vytvořená

na VŠE (Šimůnek, 2003), provázáno s MS

Access:

Procedura pro přípravu a předzpracování dat

7 procedur pro hledání různých typů asociačních

pravidel

4FT

KL

CF

SD4FT

SDKL

SDCF

AC4FT

2 procedury pro klasifikaci

KEX

ETree

Dobývání znalostí z databází

T6: asociační pravidla

Hypotézy (pravidla) vyjadřují vztahy mezi cedenty,

cedent je tvořen konjunkcí částečných cedentů a

částečný cedent je konjunkce nebo disjunkce literálů.

Literál je definován jako

atribut(koeficient) v případě pozitivního

literálu, resp. jako

atribut(koeficient) v případě negativního

literálu.

Koeficient (seznam hodnot atributu) pak může být:

podmnožina omezené délky

např. literál město(Praha, Brno) obsahuje

podmnožinu délky 2,

interval omezené délky

např. literály věk(nízký, střední),

věk(střední), věk(střední, vysoký) obsahují

interval délky 1 až 2,

řez (interval, obsahující krajní hodnotu) omezené

délky

např. literály věk(nízký), věk(nízký, střední),

věk(nízký, střední, vysoký) obsahují dolní řez

délky 1 až 3.

Z literálů jsou vytvářeny (generovány metodou „do

hloubky“) konjunkce, které tvoří jednotlivé části

nějakého pravidla (hypotézy).

Dobývání znalostí z databází

T6: asociační pravidla

Procedura 4FT

generované a testované hypotézy mají podobu

φ ≈ ψ /

kde φ, ψ, (cedent) jsou cedenty, a ≈ je tzv.

kvantifikátor vyjadřující typ vztahu mezi φ a ψ na

množině příkladů, které splňují

název

Fundovaná

implikace

Dvojitá

fundovaná

implikace

Fundovaná

ekvivalence

Fisherův

kvantifikátor

Chi-kvadrát

kvantifikátor

Značení parametry kdy platí

p,Base 0 p 1

Base 0

p,Base 0 p 1

Base 0

p,Base 0 p 1

,Base

Base 0

0

0.5

Base 0

0

0.5

Base 0

a

a + b p a Base

a

a + b + c p a Base

a + d

a + b + c + d p a Base

min(r,k)

r!s!k!l!

n!i!(r-i)!(k-i)!(n-r-k-i)!

i=a

a Base

ad bc

a Base

n(ad - bc)

klrs

např:

konto(vysoké OR střední) AND NOT(nezaměstnaný(ano))

0.9 úvěr(ano) / pohlaví(muž)

Dobývání znalostí z databází

T6: asociační pravidla

generování do hloubky, každý cedent zvlášť

Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena)

Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) Příjem(nízký) Úvěr( ne)

Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) Příjem(vysoký) Úvěr( ano)

Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) Úvěr( ano) Příjem(vysoký)

Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) Úvěr( ne) Příjem(nízký)

Konto( nízké) Nezaměstnaný( ano) Příjem(nízký) Úvěr( ne)

Konto( nízké) Nezaměstnaný( ano) Příjem(nízký) Pohlaví( žena)

Konto( nízké) Nezaměstnaný( ano) Příjem(nízký) Úvěr( ne) Pohlaví( žena)

Konto( nízké) Nezaměstnaný( ano) Příjem(vysoký) Úvěr( ano)

Konto( nízké) Nezaměstnaný( ano) Příjem(vysoký) Pohlaví( žena)

Konto( nízké) Nezaměstnaný( ano) Příjem(vysoký) Úvěr( ano) Pohlaví( žena)

Konto( nízké) Nezaměstnaný( ano) Úvěr( ano) Pohlaví( žena)

Konto( nízké) Nezaměstnaný( ano) Úvěr( ano) Příjem(vysoký)

Konto( nízké) Nezaměstnaný( ano) Úvěr( ne) Pohlaví( žena)

Konto( nízké) Nezaměstnaný( ano) Úvěr( ne) Příjem(nízký)

. . .

Dobývání znalostí z databází

T6: asociační pravidla

Procedura KL

generované a testované hypotézy mají podobu

R ~ C / ,

kde R a C jsou dva kategoriální atributy a je cedent

definující podmínku pro analyzovanou množinu

příkladů. Vztah ~ je definován pomocí statistických

kritérií (např. chi-kvadrát) nebo kritérií z oblasti

teorie informace (např. entropie).

Dobývání znalostí z databází

T6: asociační pravidla

Procedura CF

generované a testované hypotézy mají podobu

~C /

kde C je kategoriální atribut a je cedent.

Analyzuje se zde tedy histogram frekvencí kategorií

atributu C u příkladů splňujících podmínku .

Dobývání znalostí z databází

T6: asociační pravidla

Procedura SD4FT

generované a testované hypotézy mají podobu

φ ≈ ψ / (α, β, )

kde φ, ψ, α, β, jsou cedenty.

Hledáme tedy situace, kdy při splněné podmínce je

vzájemný 4FT-vztah mezi φ a ψ na množině α je jiný

než na množině β

a

1

a

1

b

1

a

2

a

2

b

2

0.2

Dobývání znalostí z databází

T6: asociační pravidla

Procedura SDKL

generované a testované hypotézy mají podobu

R ~ C / (α, β, )

kde R a C jsou kategoriální atributy a α, β a jsou

cedenty.

Hledáme tedy situace, kdy se za podmínky

podmnožiny α, β liší vzhledem k vzájemnému vztahu

atributů R a C

Dobývání znalostí z databází

T6: asociační pravidla

Procedura SDCF

generované a testované hypotézy mají podobu

~C / (α, β, )

kde C je kategoriální atribut a α, β, jsou cedenty.

Hledáme situace, kdy se za podmínky podmnožiny α,

β liší vzhledem k frekvencím jednotlivých kategorií

atributu C

Dobývání znalostí z databází

T6: asociační pravidla

Procedura AC4FT

generované a testované hypotézy mají podobu

α: φ ≈ β: ψ /

kde α, β jsou „fixní“ cedenty, φ je „flexibilní“ cedent

obsahující navržené akce, ψ je „flexibilní“ cedent

popisující efekt akce a (cedent) je podmínka.

Dobývání znalostí z databází

T6: asociační pravidla

Ošetření v datech

Chybějící hodnoty

Ošetření v nalezených pravidlech (GUHA)

S ?S S

A a’ i b‘ r‘

?A o m p

A c‘ j d‘ s‘

k‘ l‘ n‘

Devítipolní kontingenční tabulka

Doplnění tabulky (převod na čtyřpolní):

Konzervativní (ignorovat)

Optimistické (chybějící hodnoty podporují

vztah)

Zabezpečené (chybějící hodnoty v rozporu se

vztahem)

AsociaÄnÃ­ pravidla - Sorry

AsociaÄnÃ­ pravidla - Sorry ... View more AsociaÄnÃ­ pravidla - Sorry

Delete template?

Save as template ?

AsociaÄnÃ pravidla - Sorry

AsociaÄnÃ pravidla - Sorry AsociaÄnÃ pravidla - Sorry