AsociaÄnà pravidla - Sorry
AsociaÄnà pravidla - Sorry AsociaÄnà pravidla - Sorry
Dobývání znalostí z databází T6: asociační pravidla Asociační pravidla Úloha hledání souvislostí mezi hodnotami atributů. analýza nákupního košíku (Agrawal, 1993) obecněji {párky, hořčice} {rohlíky} Ant Suc, kde Ant (antecedent) i Suc (sukcedent) jsou konjunkce hodnot KATEGORIÁLNÍCH atributů (kategorií) Základní charakteristiky pravidel: Suc Suc Ant a b r Ant c d s k l n kontingenční tabulka podpora (support) a resp. sup(Ant Suc) = P(Ant Suc) = a a + b + c + d . spolehlivost (confidence) , platnost (validity) conf(Ant Suc) = P(Suc|Ant) = a a + b P. Berka, 2011 1/25
- Page 2 and 3: Dobývání znalostí z databází
- Page 4 and 5: Dobývání znalostí z databází
- Page 6 and 7: Dobývání znalostí z databází
- Page 8 and 9: Dobývání znalostí z databází
- Page 10 and 11: Dobývání znalostí z databází
- Page 12 and 13: Dobývání znalostí z databází
- Page 14 and 15: Dobývání znalostí z databází
- Page 16 and 17: Dobývání znalostí z databází
- Page 18 and 19: Dobývání znalostí z databází
- Page 20 and 21: Dobývání znalostí z databází
- Page 22 and 23: Dobývání znalostí z databází
- Page 24 and 25: Dobývání znalostí z databází
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Asociační <strong>pravidla</strong><br />
Úloha hledání souvislostí mezi hodnotami atributů.<br />
analýza nákupního košíku (Agrawal, 1993)<br />
obecněji<br />
{párky, hořčice} {rohlíky}<br />
Ant Suc,<br />
kde Ant (antecedent) i Suc (sukcedent) jsou konjunkce<br />
hodnot KATEGORIÁLNÍCH atributů (kategorií)<br />
Základní charakteristiky pravidel:<br />
Suc Suc <br />
Ant a b r<br />
Ant c d s<br />
k l n<br />
kontingenční tabulka<br />
podpora (support)<br />
a resp. sup(Ant Suc) = P(Ant Suc) =<br />
a<br />
a + b + c + d .<br />
spolehlivost (confidence) , platnost (validity)<br />
conf(Ant Suc) = P(Suc|Ant) =<br />
a<br />
a + b<br />
P. Berka, 2011 1/25
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Další charakteristiky:<br />
absolutní resp. relativní počet objektů, které splňují<br />
předpoklad<br />
a + b<br />
a + b resp. P(Ant) =<br />
a + b + c + d<br />
absolutní resp. relativní počet objektů, které splňují<br />
závěr<br />
a + c<br />
a + c resp. P(Suc) =<br />
a + b + c + d<br />
pokrytí (coverage)<br />
P(Ant|Suc) =<br />
a<br />
a + c .<br />
kvalita, jako vážený součet spolehlivosti a pokrytí<br />
Kvalita = w 1<br />
a<br />
a + b + w 2<br />
a<br />
a + c<br />
zajímavost (interestingness, lift)<br />
P(Ant Suc)<br />
P(Ant) P(Suc)<br />
=<br />
a (a + b + c + d)<br />
(a + b) (a + c)<br />
závislost (dependency)<br />
P(Suc|Ant) - P(Suc) =<br />
a<br />
a + b <br />
a + c<br />
a + b + c + d<br />
P. Berka, 2011 2/25
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Hledání asociačních pravidel<br />
generování syntakticky korektního <strong>pravidla</strong><br />
testování vygenerovaného <strong>pravidla</strong><br />
Generování = prohledávání prostoru pravidel<br />
Shora dolů<br />
Slepé i heuristické<br />
Jednoduché<br />
Testování = zjišťování (na datech), zda pravidlo<br />
splňuje zadané požadavky na hodnoty numerických<br />
charakteristik<br />
P. Berka, 2011 3/25
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Generování kombinací:<br />
do šířky<br />
do hloubky<br />
heuristicky<br />
kombinace<br />
1n<br />
1v<br />
2n<br />
2s<br />
2v<br />
3m<br />
3z<br />
4a<br />
4n<br />
5a<br />
5n<br />
1n 2n<br />
1n 2s<br />
1n 2v<br />
1n 3m<br />
1n 3z<br />
1n 4a<br />
1n 4n<br />
1n 5a<br />
1n 5n<br />
1v 2n<br />
1v 2s<br />
1v 2v<br />
1v 3m<br />
1v 3z<br />
kombinace<br />
1n<br />
1n 2n<br />
1n 2n 3m<br />
1n 2n 3m 4n<br />
1n 2n 3m 4n 5n<br />
1n 2n 3m 5n<br />
1n 2n 3z<br />
1n 2n 3z 4a<br />
1n 2n 3z 4a 5n<br />
1n 2n 3z 5n<br />
1n 2n 4a<br />
1n 2n 4a 5n<br />
1n 2n 4n<br />
1n 2n 4n 5n<br />
1n 2n 5n<br />
1n 2s<br />
1n 2s 3m<br />
1n 2s 3m 4a<br />
1n 2s 3m 4a 5n<br />
1n 2s 3m 4n<br />
1n 2s 3m 4n 5a<br />
1n 2s 3m 5a<br />
1n 2s 3m 5n<br />
1n 2s 3z<br />
1n 2s 3z 4a<br />
Frq kombinace<br />
8 5a<br />
7 1n<br />
6 3m<br />
6 3z<br />
6 4a<br />
6 4n<br />
5 1v<br />
5 1n 4a<br />
5 4n 5a<br />
5 1v 5a<br />
4 2v<br />
4 2s<br />
4 2n<br />
4 5n<br />
4 3m 5a<br />
4 1n 3m<br />
4 3z 5a<br />
4 3z 4a<br />
4 3m 4n<br />
4 1v 4n<br />
4 2v 5a<br />
4 1n 5n<br />
4 1v 4n 5a<br />
3 1n 5a<br />
3 1n 3z<br />
1v 2v 3z 4n 5a<br />
Do šířky<br />
5n<br />
Do hloubky<br />
1 1v 2s 3z 4n 5a<br />
heuristicky<br />
m<br />
počet kombinací = <br />
j=1<br />
atributu a m je maximální délka kombinace<br />
(1 K<br />
Aj)<br />
-1, kde K Aj je počet hodnot j-tého<br />
P. Berka, 2011 4/25
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Generování podle četností:<br />
Algoritmus generování kombinací<br />
Inicializace<br />
1. vytvoř CAT - seznam kategorií A(v) uspořádaný sestupně dle<br />
četnosti<br />
2. přiřaď OPEN = CAT<br />
Hlavní cyklus<br />
1. Dokud OPEN není prázdný seznam<br />
1.1. vezmi první kombinaci ze seznamu OPEN (označ ji<br />
COMB)<br />
1.2. pro každé A(v) ze seznamu CAT takové, že A(v) je v<br />
CAT před všemi hodnotami atributů z COMB (Tedy platí, že<br />
četnost A(v) je větší nebo rovna četnosti COMB)<br />
1.2.1.pokud se atribut A nevyskytuje v COMB potom<br />
1.2.1.1. generuj novou kombinaci COMB A(v)<br />
1.2.1.2. přidej COMB A(v) do seznamu OPEN za<br />
poslední kombinaci C takovou, že četnost(C) <br />
četnost(COMB A(v))<br />
1.3. odstraň COMB ze seznamu OPEN<br />
dříve generuje četnější (častěji se vyskytující)<br />
kombinace (a tedy i vztahy),<br />
dříve generuje spíše kratší kombinace (a tedy i<br />
vztahy) (přidáním kategorie do kombinace se<br />
zpřísní kritérium a tedy i sníží počet objektů,<br />
které ho splní).<br />
5
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Algoritmus apriori<br />
hledání často se opakujících položek (frequent<br />
itemsets) v nákupním košíku (Agrawal, 1993)<br />
1. krok: generování celé kombinace do šířky<br />
Algoritmus apriori<br />
1. do L1 přiřaď všechny hodnoty atributů, které dosahují<br />
alespoň požadované četnosti<br />
2. polož k=2<br />
3. dokud Lk-1 <br />
3.1. pomocí funkce apriori-gen vygeneruj na základě<br />
Lk-1 množinu kandidátů C k<br />
3.2. do Lk zařaď ty kombinace z C k , které dosáhly<br />
alespoň požadovanou četnost<br />
3.3. zvětš počítadlo k<br />
Funkce apriori-gen(Lk-1)<br />
1. pro všechny dvojce kombinací p, q z Lk-1<br />
Pokud p a q se shodují v prvních k-2 položkách přidej do<br />
C k sjednocení pq<br />
2. pro každou kombinaci c z Ck<br />
Pokud některá z jejich podkombinací délky k-1 není<br />
obsažena v Lk-1 odstraň c z Ck<br />
2. krok: Každá kombinace C se rozdělí na všechny možné<br />
dvojce podkombinací Ant a Suc takové, že Suc = C Ant.<br />
Hledají se <strong>pravidla</strong> Ant Suc tak, že se postupně<br />
přesouvají kategorie z Ant do Suc, je-li Ant‘ podkombinací<br />
Ant, potom conf(Ant’ C-Ant’) conf(Ant C-Ant)<br />
Algoritmus řízen parametry minsup (minimální podpora) a<br />
minconf (minimální spolehlivost)<br />
6
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Např. pro data o klientech banky, minsup=4 a minconf=0.8<br />
1. krok<br />
L 1 : 5a(8), 1n(7), 3m(6), 3z(6), 4a(6), 4n(6), 1v(5), 2v(4),<br />
2s(4), 2n(4), 5n(4)<br />
C 2 : 5a1n, 5a3m, 5a3z, 5a4a, 5a4n, 5a1v, 5a2v, 5a2s, 5a2n,<br />
1n3m, 1n3z, 1n4a, 1n4n, 1n2v, 1n2s, 1n2n, 1n5n, 3m4a,<br />
3m4n, 3m1v, 3m2v, 3m2s, 3m2n, 3m5n, 3z4a, 3z4n, 3z1v,<br />
3z2v, 3z2s, 3z2n, 3z5n, 4a1v, 4a2v, 4a2s, 4a2n, 4a5n,<br />
4n1v, 4n2v, 4n2s, 4n2n, 4n5n, 1v2v, 1v2s, 1v2n, 1v5n,<br />
2v5n, 2s5n, 2n5n<br />
L 2 : 5a3m(4), 5a4n(5), 5a1v(5), 5a3z(4), 5a2v(4), 1n3m(4),<br />
1n4a(5), 3m4n(4), 3z4a(4), 1n3m(4), 1n5n(4), 1v4n(4)<br />
C 3 : 5a4n1v, 3m4n5a<br />
L 3 : 5a4n1v(4)<br />
2. krok: 1v 5a (1)<br />
5n 2n (1)<br />
2v 5a (1)<br />
1v4n 5a (1)<br />
4n 5a (0,83)<br />
1v 4n (0.8)<br />
4a 1n (0.8)<br />
4n5a 1v (0.8)<br />
1v5a 4n (0.8)<br />
1v 4n5a (0.8)<br />
7
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Implementace<br />
Weka (tabelární data)<br />
SAS EM (jen transakce)<br />
8
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Zobecněná asociační <strong>pravidla</strong><br />
(Srikant, Agrawal, 1995)<br />
práce s hierarchiemi hodnot atributů<br />
uzeniny<br />
hořčice<br />
salámy párky buřty plnotučná kremžská<br />
telecí<br />
lahůdkový<br />
drůbeží<br />
Taxonomie sortimentu zboží<br />
nákup položky<br />
1 buřty<br />
2 telecí párky<br />
3 lahůdkové párky, kremžská<br />
hořčice<br />
4 telecí párky, plnotučná<br />
hořčice<br />
Nákupy<br />
položka četnost<br />
telecí párky 2<br />
hořčice 2<br />
párky 3<br />
uzeniny 4<br />
Četnosti položek<br />
pravidlo podpora spolehlivost<br />
párek hořčice 50% 66%<br />
hořčice párek 50% 100%<br />
hořčice uzenina 50% 100%<br />
Zobecněná asociační <strong>pravidla</strong><br />
9
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Pravidla s vyjímkami<br />
(Suzuki, 1997)<br />
A S<br />
A B S<br />
B S<br />
první pravidlo odpovídá ustáleným představám (toto<br />
pravidlo má vysokou podporu i spolehlivost),<br />
druhé pravidlo je hledaná výjimka (toto pravidlo má<br />
nízkou podporu ale vysokou spolehlivost),<br />
třetí pravidlo je takzvané referenční (má nízkou<br />
podporu a/nebo nízkou spolehlivost).<br />
1. použité bezpečnostní pásy přežití automobilové havárie<br />
(obecně uznávané pravidlo o účinnosti bezpečnostních<br />
pásů)<br />
2. použité bezpečnostní pásy věk(předškolní) úmrtí při<br />
havárii<br />
(překvapivá výjimka, pro malé děti nejsou pásy vhodné)<br />
3. věk(předškolní) úmrtí při havárii<br />
(referenční pravidlo, při haváriích umírá málo<br />
předškolních dětí)<br />
10
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Akční <strong>pravidla</strong><br />
(Raś, 2009)<br />
Formálně definována jako<br />
[(w) ()] ()<br />
kde w je konjunkce „fixních“ kategorií, popisuje<br />
navrženou změnu hodnot „flexibilního“ atributu a <br />
popisuje požadovaný efekt této akce<br />
akční pravidlo tedy reprezentuje dvě „klasická“<br />
<strong>pravidla</strong>.<br />
např:<br />
akční pravidlo<br />
[Sex(male) BMI(highaverage)] <br />
blood_pressure(highaverage)<br />
reprezentuje <strong>pravidla</strong><br />
R1: Sex(male) BMI(high) blood_pressure(high)<br />
R2: Sex(male) BMI(average) blood_pressure(average)<br />
11
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Časové sekvence<br />
(Agrawal, Srikant, 1995)<br />
( P, 123), (Q, 125), (S, 140), (P, 150), (R, 151),<br />
(Q, 155), (S, 201), (P, 220), (S, 222), (Q, 225).<br />
Sériová epizoda: “P se stane dříve než Q”<br />
Paralelní epizoda: “R, S a T se stanou současně”<br />
Základem definice časového okna, uvnitř kterého se musí<br />
epizoda vyskytnout.<br />
Např. pro pevné okno délky 20 budeme zpracovávat okna<br />
[P Q S], [Q S], [S P R Q], [P R Q], [R, Q], [Q], [S P], [P S Q]<br />
má-li pro okno dané délky dostatečnou četnost epizoda<br />
PQR, mají dostatečnou četnost i epizody PQ, QR a<br />
PR.<br />
12
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Implikace, dvojité implikace a ekvivalence<br />
Východiskem metoda GUHA (Hájek, Havránek, 1978)<br />
vyhodnocující různé typy závislosti mezi A a S (tzv.<br />
kvantifikátory)<br />
základní implikace A Ø S,<br />
kde Ø (a,b) =<br />
a<br />
a + b<br />
základní dvojitá implikace A Ø S,<br />
kde Ø (a,b,c) =<br />
a<br />
a + b + c<br />
základní ekvivalence A Ø S,<br />
kde Ø (a,b,c,d) =<br />
a + d<br />
a + b + c + d<br />
vybrané třídy kvantifikátorů<br />
1. kvantifikátor ~(a,b) je implikační, právě když<br />
a’ a b’ b implikuje ~(a‘,b‘) ~(a,b)<br />
2. kvantifikátor ~(a,b,c) je-dvojitě implikační, právě když<br />
a’ a b’+c’ b+c implikuje ~(a‘,b‘,c’) ~(a,b,c)<br />
3. kvantifikátor ~(a,b,c,d) je -ekvivalenční, právě když<br />
a’+d’ a+d b’+c’ b+c implikuje ~(a‘,b‘,c’,d’) <br />
~(a,b,c,d)<br />
13
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Metoda GUHA<br />
česká metoda, hledání „všeho zajímavého“ (hypotéz),<br />
co plyne z dat: vztahy mezi kombinacemi hodnot<br />
binárních atributů, korelace mezi numerickými<br />
atributy podmíněné kombinací kategoriálních atributů,<br />
nebo zdroje závislosti v nominálních datech.<br />
metoda explorační analýzy dat, která kombinuje<br />
logické a statistické postupy<br />
hledání hypotéz jako výlov rybníka<br />
Springer 1978<br />
Oproti asociačním pravidlům bohatší syntaxe i<br />
rozmanitější typy pravidel<br />
14
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
LISp-Miner<br />
Aktuální implementace metody GUHA vytvořená<br />
na VŠE (Šimůnek, 2003), provázáno s MS<br />
Access:<br />
<br />
Procedura pro přípravu a předzpracování dat<br />
7 procedur pro hledání různých typů asociačních<br />
pravidel<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
4FT<br />
KL<br />
CF<br />
SD4FT<br />
SDKL<br />
SDCF<br />
AC4FT<br />
2 procedury pro klasifikaci<br />
<br />
<br />
KEX<br />
ETree<br />
15
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Hypotézy (<strong>pravidla</strong>) vyjadřují vztahy mezi cedenty,<br />
cedent je tvořen konjunkcí částečných cedentů a<br />
částečný cedent je konjunkce nebo disjunkce literálů.<br />
Literál je definován jako<br />
atribut(koeficient) v případě pozitivního<br />
literálu, resp. jako<br />
atribut(koeficient) v případě negativního<br />
literálu.<br />
Koeficient (seznam hodnot atributu) pak může být:<br />
podmnožina omezené délky<br />
např. literál město(Praha, Brno) obsahuje<br />
podmnožinu délky 2,<br />
interval omezené délky<br />
např. literály věk(nízký, střední),<br />
věk(střední), věk(střední, vysoký) obsahují<br />
interval délky 1 až 2,<br />
řez (interval, obsahující krajní hodnotu) omezené<br />
délky<br />
např. literály věk(nízký), věk(nízký, střední),<br />
věk(nízký, střední, vysoký) obsahují dolní řez<br />
délky 1 až 3.<br />
Z literálů jsou vytvářeny (generovány metodou „do<br />
hloubky“) konjunkce, které tvoří jednotlivé části<br />
nějakého <strong>pravidla</strong> (hypotézy).<br />
16
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Procedura 4FT<br />
generované a testované hypotézy mají podobu<br />
φ ≈ ψ / <br />
kde φ, ψ, (cedent) jsou cedenty, a ≈ je tzv.<br />
kvantifikátor vyjadřující typ vztahu mezi φ a ψ na<br />
množině příkladů, které splňují <br />
název<br />
Fundovaná<br />
implikace<br />
Dvojitá<br />
fundovaná<br />
implikace<br />
Fundovaná<br />
ekvivalence<br />
Fisherův<br />
kvantifikátor<br />
Chi-kvadrát<br />
kvantifikátor<br />
Značení parametry kdy platí<br />
p,Base 0 p 1<br />
Base 0<br />
p,Base 0 p 1<br />
Base 0<br />
p,Base 0 p 1<br />
,Base<br />
,Base<br />
Base 0<br />
0 <br />
0.5<br />
Base 0<br />
0 <br />
0.5<br />
Base 0<br />
a<br />
a + b p a Base<br />
a<br />
a + b + c p a Base<br />
a + d<br />
a + b + c + d p a Base<br />
min(r,k)<br />
r!s!k!l!<br />
n!i!(r-i)!(k-i)!(n-r-k-i)! <br />
<br />
i=a<br />
a Base<br />
ad bc <br />
a Base<br />
n(ad - bc)<br />
klrs<br />
<br />
např:<br />
konto(vysoké OR střední) AND NOT(nezaměstnaný(ano))<br />
0.9 úvěr(ano) / pohlaví(muž)<br />
17
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
generování do hloubky, každý cedent zvlášť<br />
Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena)<br />
Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) Příjem(nízký) Úvěr( ne)<br />
Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) Příjem(vysoký) Úvěr( ano)<br />
Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) Úvěr( ano) Příjem(vysoký)<br />
Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) Úvěr( ne) Příjem(nízký)<br />
Konto( nízké) Nezaměstnaný( ano) Příjem(nízký) Úvěr( ne)<br />
Konto( nízké) Nezaměstnaný( ano) Příjem(nízký) Pohlaví( žena)<br />
Konto( nízké) Nezaměstnaný( ano) Příjem(nízký) Úvěr( ne) Pohlaví( žena)<br />
Konto( nízké) Nezaměstnaný( ano) Příjem(vysoký) Úvěr( ano)<br />
Konto( nízké) Nezaměstnaný( ano) Příjem(vysoký) Pohlaví( žena)<br />
Konto( nízké) Nezaměstnaný( ano) Příjem(vysoký) Úvěr( ano) Pohlaví( žena)<br />
Konto( nízké) Nezaměstnaný( ano) Úvěr( ano) Pohlaví( žena)<br />
Konto( nízké) Nezaměstnaný( ano) Úvěr( ano) Příjem(vysoký)<br />
Konto( nízké) Nezaměstnaný( ano) Úvěr( ne) Pohlaví( žena)<br />
Konto( nízké) Nezaměstnaný( ano) Úvěr( ne) Příjem(nízký)<br />
. . .<br />
18
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Procedura KL<br />
generované a testované hypotézy mají podobu<br />
R ~ C / ,<br />
kde R a C jsou dva kategoriální atributy a je cedent<br />
definující podmínku pro analyzovanou množinu<br />
příkladů. Vztah ~ je definován pomocí statistických<br />
kritérií (např. chi-kvadrát) nebo kritérií z oblasti<br />
teorie informace (např. entropie).<br />
19
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Procedura CF<br />
generované a testované hypotézy mají podobu<br />
~C / <br />
kde C je kategoriální atribut a je cedent.<br />
Analyzuje se zde tedy histogram frekvencí kategorií<br />
atributu C u příkladů splňujících podmínku .<br />
20
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Procedura SD4FT<br />
generované a testované hypotézy mají podobu<br />
φ ≈ ψ / (α, β, )<br />
kde φ, ψ, α, β, jsou cedenty.<br />
Hledáme tedy situace, kdy při splněné podmínce je<br />
vzájemný 4FT-vztah mezi φ a ψ na množině α je jiný<br />
než na množině β<br />
a<br />
1<br />
a<br />
1<br />
b<br />
1<br />
<br />
a<br />
2<br />
a<br />
2<br />
b<br />
2<br />
0.2<br />
21
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Procedura SDKL<br />
generované a testované hypotézy mají podobu<br />
R ~ C / (α, β, )<br />
kde R a C jsou kategoriální atributy a α, β a jsou<br />
cedenty.<br />
Hledáme tedy situace, kdy se za podmínky <br />
podmnožiny α, β liší vzhledem k vzájemnému vztahu<br />
atributů R a C<br />
22
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Procedura SDCF<br />
generované a testované hypotézy mají podobu<br />
~C / (α, β, )<br />
kde C je kategoriální atribut a α, β, jsou cedenty.<br />
Hledáme situace, kdy se za podmínky podmnožiny α,<br />
β liší vzhledem k frekvencím jednotlivých kategorií<br />
atributu C<br />
23
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Procedura AC4FT<br />
generované a testované hypotézy mají podobu<br />
α: φ ≈ β: ψ / <br />
kde α, β jsou „fixní“ cedenty, φ je „flexibilní“ cedent<br />
obsahující navržené akce, ψ je „flexibilní“ cedent<br />
popisující efekt akce a (cedent) je podmínka.<br />
24
Dobývání znalostí z databází<br />
T6: asociační <strong>pravidla</strong><br />
Ošetření v datech<br />
Chybějící hodnoty<br />
Ošetření v nalezených pravidlech (GUHA)<br />
S ?S S <br />
A a’ i b‘ r‘<br />
?A o m p<br />
A c‘ j d‘ s‘<br />
k‘ l‘ n‘<br />
Devítipolní kontingenční tabulka<br />
Doplnění tabulky (převod na čtyřpolní):<br />
Konzervativní (ignorovat)<br />
Optimistické (chybějící hodnoty podporují<br />
vztah)<br />
Zabezpečené (chybějící hodnoty v rozporu se<br />
vztahem)<br />
25