AsociaÄnÃ pravidla - Sorry

Dobývání znalostí z databází 

T6: asociační pravidla 

Asociační pravidla 

Úloha hledání souvislostí mezi hodnotami atributů. 

analýza nákupního košíku (Agrawal, 1993) 

obecněji 

{párky, hořčice} {rohlíky} 

Ant Suc, 

kde Ant (antecedent) i Suc (sukcedent) jsou konjunkce 

hodnot KATEGORIÁLNÍCH atributů (kategorií) 

Základní charakteristiky pravidel: 

Suc Suc 

Ant a b r 

Ant c d s 

k l n 

kontingenční tabulka 

podpora (support) 

a resp. sup(Ant Suc) = P(Ant Suc) = 

a 

a + b + c + d . 

spolehlivost (confidence) , platnost (validity) 

conf(Ant Suc) = P(Suc|Ant) = 

a 

a + b 

P. Berka, 2011 1/25



Další charakteristiky: 

absolutní resp. relativní počet objektů, které splňují 

předpoklad 

a + b 

a + b resp. P(Ant) = 

a + b + c + d 

absolutní resp. relativní počet objektů, které splňují 

závěr 

a + c 

a + c resp. P(Suc) = 

a + b + c + d 

pokrytí (coverage) 

P(Ant|Suc) = 

a 

a + c . 

kvalita, jako vážený součet spolehlivosti a pokrytí 

Kvalita = w 1 

a 

a + b + w 2 

a 

a + c 

zajímavost (interestingness, lift) 

P(Ant Suc) 

P(Ant) P(Suc) 

= 

a (a + b + c + d) 

(a + b) (a + c) 

závislost (dependency) 

P(Suc|Ant) - P(Suc) = 

a 

a + b 

a + c 

a + b + c + d 

P. Berka, 2011 2/25



Hledání asociačních pravidel 

generování syntakticky korektního pravidla 

testování vygenerovaného pravidla 

Generování = prohledávání prostoru pravidel 

Shora dolů 

Slepé i heuristické 

Jednoduché 

Testování = zjišťování (na datech), zda pravidlo 

splňuje zadané požadavky na hodnoty numerických 

charakteristik 

P. Berka, 2011 3/25



Generování kombinací: 

do šířky 

do hloubky 

heuristicky 

kombinace 

1n 

1v 

2n 

2s 

2v 

3m 

3z 

4a 

4n 

5a 

5n 

1n 2n 

1n 2s 

1n 2v 

1n 3m 

1n 3z 

1n 4a 

1n 4n 

1n 5a 

1n 5n 

1v 2n 

1v 2s 

1v 2v 

1v 3m 

1v 3z 

kombinace 

1n 

1n 2n 

1n 2n 3m 

1n 2n 3m 4n 

1n 2n 3m 4n 5n 

1n 2n 3m 5n 

1n 2n 3z 

1n 2n 3z 4a 

1n 2n 3z 4a 5n 

1n 2n 3z 5n 

1n 2n 4a 

1n 2n 4a 5n 

1n 2n 4n 

1n 2n 4n 5n 

1n 2n 5n 

1n 2s 

1n 2s 3m 

1n 2s 3m 4a 

1n 2s 3m 4a 5n 

1n 2s 3m 4n 

1n 2s 3m 4n 5a 

1n 2s 3m 5a 

1n 2s 3m 5n 

1n 2s 3z 

1n 2s 3z 4a 

Frq kombinace 

8 5a 

7 1n 

6 3m 

6 3z 

6 4a 

6 4n 

5 1v 

5 1n 4a 

5 4n 5a 

5 1v 5a 

4 2v 

4 2s 

4 2n 

4 5n 

4 3m 5a 

4 1n 3m 

4 3z 5a 

4 3z 4a 

4 3m 4n 

4 1v 4n 

4 2v 5a 

4 1n 5n 

4 1v 4n 5a 

3 1n 5a 

3 1n 3z 

1v 2v 3z 4n 5a 

Do šířky 

5n 

Do hloubky 

1 1v 2s 3z 4n 5a 

heuristicky 

m 

počet kombinací = 

j=1 

atributu a m je maximální délka kombinace 

(1 K 

Aj) 

-1, kde K Aj je počet hodnot j-tého 

P. Berka, 2011 4/25



Generování podle četností: 

Algoritmus generování kombinací 

Inicializace 

1. vytvoř CAT - seznam kategorií A(v) uspořádaný sestupně dle 

četnosti 

2. přiřaď OPEN = CAT 

Hlavní cyklus 

1. Dokud OPEN není prázdný seznam 

1.1. vezmi první kombinaci ze seznamu OPEN (označ ji 

COMB) 

1.2. pro každé A(v) ze seznamu CAT takové, že A(v) je v 

CAT před všemi hodnotami atributů z COMB (Tedy platí, že 

četnost A(v) je větší nebo rovna četnosti COMB) 

1.2.1.pokud se atribut A nevyskytuje v COMB potom 

1.2.1.1. generuj novou kombinaci COMB A(v) 

1.2.1.2. přidej COMB A(v) do seznamu OPEN za 

poslední kombinaci C takovou, že četnost(C) 

četnost(COMB A(v)) 

1.3. odstraň COMB ze seznamu OPEN 

dříve generuje četnější (častěji se vyskytující) 

kombinace (a tedy i vztahy), 

dříve generuje spíše kratší kombinace (a tedy i 

vztahy) (přidáním kategorie do kombinace se 

zpřísní kritérium a tedy i sníží počet objektů, 

které ho splní). 

5



Algoritmus apriori 

hledání často se opakujících položek (frequent 

itemsets) v nákupním košíku (Agrawal, 1993) 

1. krok: generování celé kombinace do šířky 

Algoritmus apriori 

1. do L1 přiřaď všechny hodnoty atributů, které dosahují 

alespoň požadované četnosti 

2. polož k=2 

3. dokud Lk-1 

3.1. pomocí funkce apriori-gen vygeneruj na základě 

Lk-1 množinu kandidátů C k 

3.2. do Lk zařaď ty kombinace z C k , které dosáhly 

alespoň požadovanou četnost 

3.3. zvětš počítadlo k 

Funkce apriori-gen(Lk-1) 

1. pro všechny dvojce kombinací p, q z Lk-1 

Pokud p a q se shodují v prvních k-2 položkách přidej do 

C k sjednocení pq 

2. pro každou kombinaci c z Ck 

Pokud některá z jejich podkombinací délky k-1 není 

obsažena v Lk-1 odstraň c z Ck 

2. krok: Každá kombinace C se rozdělí na všechny možné 

dvojce podkombinací Ant a Suc takové, že Suc = C Ant. 

Hledají se pravidla Ant Suc tak, že se postupně 

přesouvají kategorie z Ant do Suc, je-li Ant‘ podkombinací 

Ant, potom conf(Ant’ C-Ant’) conf(Ant C-Ant) 

Algoritmus řízen parametry minsup (minimální podpora) a 

minconf (minimální spolehlivost) 

6



Např. pro data o klientech banky, minsup=4 a minconf=0.8 

1. krok 

L 1 : 5a(8), 1n(7), 3m(6), 3z(6), 4a(6), 4n(6), 1v(5), 2v(4), 

2s(4), 2n(4), 5n(4) 

C 2 : 5a1n, 5a3m, 5a3z, 5a4a, 5a4n, 5a1v, 5a2v, 5a2s, 5a2n, 

1n3m, 1n3z, 1n4a, 1n4n, 1n2v, 1n2s, 1n2n, 1n5n, 3m4a, 

3m4n, 3m1v, 3m2v, 3m2s, 3m2n, 3m5n, 3z4a, 3z4n, 3z1v, 

3z2v, 3z2s, 3z2n, 3z5n, 4a1v, 4a2v, 4a2s, 4a2n, 4a5n, 

4n1v, 4n2v, 4n2s, 4n2n, 4n5n, 1v2v, 1v2s, 1v2n, 1v5n, 

2v5n, 2s5n, 2n5n 

L 2 : 5a3m(4), 5a4n(5), 5a1v(5), 5a3z(4), 5a2v(4), 1n3m(4), 

1n4a(5), 3m4n(4), 3z4a(4), 1n3m(4), 1n5n(4), 1v4n(4) 

C 3 : 5a4n1v, 3m4n5a 

L 3 : 5a4n1v(4) 

2. krok: 1v 5a (1) 

5n 2n (1) 

2v 5a (1) 

1v4n 5a (1) 

4n 5a (0,83) 

1v 4n (0.8) 

4a 1n (0.8) 

4n5a 1v (0.8) 

1v5a 4n (0.8) 

1v 4n5a (0.8) 

7



Implementace 

Weka (tabelární data) 

SAS EM (jen transakce) 

8



Zobecněná asociační pravidla 

(Srikant, Agrawal, 1995) 

práce s hierarchiemi hodnot atributů 

uzeniny 

hořčice 

salámy párky buřty plnotučná kremžská 

telecí 

lahůdkový 

drůbeží 

Taxonomie sortimentu zboží 

nákup položky 

1 buřty 

2 telecí párky 

3 lahůdkové párky, kremžská 

hořčice 

4 telecí párky, plnotučná 

hořčice 

Nákupy 

položka četnost 

telecí párky 2 

hořčice 2 

párky 3 

uzeniny 4 

Četnosti položek 

pravidlo podpora spolehlivost 

párek hořčice 50% 66% 

hořčice párek 50% 100% 

hořčice uzenina 50% 100% 

Zobecněná asociační pravidla 

9



Pravidla s vyjímkami 

(Suzuki, 1997) 

A S 

A B S 

B S 

první pravidlo odpovídá ustáleným představám (toto 

pravidlo má vysokou podporu i spolehlivost), 

druhé pravidlo je hledaná výjimka (toto pravidlo má 

nízkou podporu ale vysokou spolehlivost), 

třetí pravidlo je takzvané referenční (má nízkou 

podporu a/nebo nízkou spolehlivost). 

1. použité bezpečnostní pásy přežití automobilové havárie 

(obecně uznávané pravidlo o účinnosti bezpečnostních 

pásů) 

2. použité bezpečnostní pásy věk(předškolní) úmrtí při 

havárii 

(překvapivá výjimka, pro malé děti nejsou pásy vhodné) 

3. věk(předškolní) úmrtí při havárii 

(referenční pravidlo, při haváriích umírá málo 

předškolních dětí) 

10



Akční pravidla 

(Raś, 2009) 

Formálně definována jako 

[(w) ()] () 

kde w je konjunkce „fixních“ kategorií, popisuje 

navrženou změnu hodnot „flexibilního“ atributu a 

popisuje požadovaný efekt této akce 

akční pravidlo tedy reprezentuje dvě „klasická“ 

pravidla. 

např: 

akční pravidlo 

[Sex(male) BMI(highaverage)] 

blood_pressure(highaverage) 

reprezentuje pravidla 

R1: Sex(male) BMI(high) blood_pressure(high) 

R2: Sex(male) BMI(average) blood_pressure(average) 

11



Časové sekvence 

(Agrawal, Srikant, 1995) 

( P, 123), (Q, 125), (S, 140), (P, 150), (R, 151), 

(Q, 155), (S, 201), (P, 220), (S, 222), (Q, 225). 

Sériová epizoda: “P se stane dříve než Q” 

Paralelní epizoda: “R, S a T se stanou současně” 

Základem definice časového okna, uvnitř kterého se musí 

epizoda vyskytnout. 

Např. pro pevné okno délky 20 budeme zpracovávat okna 

[P Q S], [Q S], [S P R Q], [P R Q], [R, Q], [Q], [S P], [P S Q] 

má-li pro okno dané délky dostatečnou četnost epizoda 

PQR, mají dostatečnou četnost i epizody PQ, QR a 

PR. 

12



Implikace, dvojité implikace a ekvivalence 

Východiskem metoda GUHA (Hájek, Havránek, 1978) 

vyhodnocující různé typy závislosti mezi A a S (tzv. 

kvantifikátory) 

základní implikace A Ø S, 

kde Ø (a,b) = 

a 

a + b 

základní dvojitá implikace A Ø S, 

kde Ø (a,b,c) = 

a 

a + b + c 

základní ekvivalence A Ø S, 

kde Ø (a,b,c,d) = 

a + d 

a + b + c + d 

vybrané třídy kvantifikátorů 

1. kvantifikátor ~(a,b) je implikační, právě když 

a’ a b’ b implikuje ~(a‘,b‘) ~(a,b) 

2. kvantifikátor ~(a,b,c) je-dvojitě implikační, právě když 

a’ a b’+c’ b+c implikuje ~(a‘,b‘,c’) ~(a,b,c) 

3. kvantifikátor ~(a,b,c,d) je -ekvivalenční, právě když 

a’+d’ a+d b’+c’ b+c implikuje ~(a‘,b‘,c’,d’) 

~(a,b,c,d) 

13



Metoda GUHA 

česká metoda, hledání „všeho zajímavého“ (hypotéz), 

co plyne z dat: vztahy mezi kombinacemi hodnot 

binárních atributů, korelace mezi numerickými 

atributy podmíněné kombinací kategoriálních atributů, 

nebo zdroje závislosti v nominálních datech. 

metoda explorační analýzy dat, která kombinuje 

logické a statistické postupy 

hledání hypotéz jako výlov rybníka 

Springer 1978 

Oproti asociačním pravidlům bohatší syntaxe i 

rozmanitější typy pravidel 

14



LISp-Miner 

Aktuální implementace metody GUHA vytvořená 

na VŠE (Šimůnek, 2003), provázáno s MS 

Access: 

 

Procedura pro přípravu a předzpracování dat 

7 procedur pro hledání různých typů asociačních 

pravidel 

 

 

 

 

 

 

 

4FT 

KL 

CF 

SD4FT 

SDKL 

SDCF 

AC4FT 

2 procedury pro klasifikaci 

 

 

KEX 

ETree 

15



Hypotézy (pravidla) vyjadřují vztahy mezi cedenty, 

cedent je tvořen konjunkcí částečných cedentů a 

částečný cedent je konjunkce nebo disjunkce literálů. 

Literál je definován jako 

atribut(koeficient) v případě pozitivního 

literálu, resp. jako 

atribut(koeficient) v případě negativního 

literálu. 

Koeficient (seznam hodnot atributu) pak může být: 

podmnožina omezené délky 

např. literál město(Praha, Brno) obsahuje 

podmnožinu délky 2, 

interval omezené délky 

např. literály věk(nízký, střední), 

věk(střední), věk(střední, vysoký) obsahují 

interval délky 1 až 2, 

řez (interval, obsahující krajní hodnotu) omezené 

délky 

např. literály věk(nízký), věk(nízký, střední), 

věk(nízký, střední, vysoký) obsahují dolní řez 

délky 1 až 3. 

Z literálů jsou vytvářeny (generovány metodou „do 

hloubky“) konjunkce, které tvoří jednotlivé části 

nějakého pravidla (hypotézy). 

16



Procedura 4FT 

generované a testované hypotézy mají podobu 

φ ≈ ψ / 

kde φ, ψ, (cedent) jsou cedenty, a ≈ je tzv. 

kvantifikátor vyjadřující typ vztahu mezi φ a ψ na 

množině příkladů, které splňují 

název 

Fundovaná 

implikace 

Dvojitá 

fundovaná 

implikace 

Fundovaná 

ekvivalence 

Fisherův 

kvantifikátor 

Chi-kvadrát 

kvantifikátor 

Značení parametry kdy platí 

p,Base 0 p 1 

Base 0 

p,Base 0 p 1 

Base 0 

p,Base 0 p 1 

,Base 

,Base 

Base 0 

0 

0.5 

Base 0 

0 

0.5 

Base 0 

a 

a + b p a Base 

a 

a + b + c p a Base 

a + d 

a + b + c + d p a Base 

min(r,k) 

r!s!k!l! 

n!i!(r-i)!(k-i)!(n-r-k-i)! 

 

i=a 

a Base 

ad bc 

a Base 

n(ad - bc) 

klrs 

 

např: 

konto(vysoké OR střední) AND NOT(nezaměstnaný(ano)) 

0.9 úvěr(ano) / pohlaví(muž) 

17



generování do hloubky, každý cedent zvlášť 

Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) 

Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) Příjem(nízký) Úvěr( ne) 

Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) Příjem(vysoký) Úvěr( ano) 

Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) Úvěr( ano) Příjem(vysoký) 

Konto( nízké) Nezaměstnaný( ano) Pohlaví( žena) Úvěr( ne) Příjem(nízký) 

Konto( nízké) Nezaměstnaný( ano) Příjem(nízký) Úvěr( ne) 

Konto( nízké) Nezaměstnaný( ano) Příjem(nízký) Pohlaví( žena) 

Konto( nízké) Nezaměstnaný( ano) Příjem(nízký) Úvěr( ne) Pohlaví( žena) 

Konto( nízké) Nezaměstnaný( ano) Příjem(vysoký) Úvěr( ano) 

Konto( nízké) Nezaměstnaný( ano) Příjem(vysoký) Pohlaví( žena) 

Konto( nízké) Nezaměstnaný( ano) Příjem(vysoký) Úvěr( ano) Pohlaví( žena) 

Konto( nízké) Nezaměstnaný( ano) Úvěr( ano) Pohlaví( žena) 

Konto( nízké) Nezaměstnaný( ano) Úvěr( ano) Příjem(vysoký) 

Konto( nízké) Nezaměstnaný( ano) Úvěr( ne) Pohlaví( žena) 

Konto( nízké) Nezaměstnaný( ano) Úvěr( ne) Příjem(nízký) 

. . . 

18



Procedura KL 


R ~ C / , 

kde R a C jsou dva kategoriální atributy a je cedent 

definující podmínku pro analyzovanou množinu 

příkladů. Vztah ~ je definován pomocí statistických 

kritérií (např. chi-kvadrát) nebo kritérií z oblasti 

teorie informace (např. entropie). 

19



Procedura CF 


~C / 

kde C je kategoriální atribut a je cedent. 

Analyzuje se zde tedy histogram frekvencí kategorií 

atributu C u příkladů splňujících podmínku . 

20



Procedura SD4FT 


φ ≈ ψ / (α, β, ) 

kde φ, ψ, α, β, jsou cedenty. 

Hledáme tedy situace, kdy při splněné podmínce je 

vzájemný 4FT-vztah mezi φ a ψ na množině α je jiný 

než na množině β 

a 

1 

a 

1 

b 

1 

 

a 

2 

a 

2 

b 

2 

0.2 

21



Procedura SDKL 


R ~ C / (α, β, ) 

kde R a C jsou kategoriální atributy a α, β a jsou 

cedenty. 

Hledáme tedy situace, kdy se za podmínky 

podmnožiny α, β liší vzhledem k vzájemnému vztahu 

atributů R a C 

22



Procedura SDCF 


~C / (α, β, ) 

kde C je kategoriální atribut a α, β, jsou cedenty. 

Hledáme situace, kdy se za podmínky podmnožiny α, 

β liší vzhledem k frekvencím jednotlivých kategorií 

atributu C 

23



Procedura AC4FT 


α: φ ≈ β: ψ / 

kde α, β jsou „fixní“ cedenty, φ je „flexibilní“ cedent 

obsahující navržené akce, ψ je „flexibilní“ cedent 

popisující efekt akce a (cedent) je podmínka. 

24



Ošetření v datech 

Chybějící hodnoty 

Ošetření v nalezených pravidlech (GUHA) 

S ?S S 

A a’ i b‘ r‘ 

?A o m p 

A c‘ j d‘ s‘ 

k‘ l‘ n‘ 

Devítipolní kontingenční tabulka 

Doplnění tabulky (převod na čtyřpolní): 

Konzervativní (ignorovat) 

Optimistické (chybějící hodnoty podporují 

vztah) 

Zabezpečené (chybějící hodnoty v rozporu se 

vztahem) 

25

AsociaÄnÃ­ pravidla - Sorry

Create successful ePaper yourself

Delete template?

Save as template?

AsociaÄnÃ pravidla - Sorry