28.01.2015 Views

Chí-kvadrát test, korelační a regresní analýzy

Chí-kvadrát test, korelační a regresní analýzy

Chí-kvadrát test, korelační a regresní analýzy

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

III. CVIENÍ ZE STATISTIKY<br />

Vážení studenti,<br />

úkolem dnešního cviení je nauit se analyzovat data pomocí chí-kvadrát <strong>test</strong>u, korelaní a<br />

regresní analýzy. K tomuto budeme používat program Excel 2007 MS Office, v jehož prostedí<br />

jste již pracovali a který je pro Vás snadno dostupný.<br />

Co potebujete umt Pedpokládám, že umíte pracovat se základními nástroji<br />

programu Excel 2007 a že jste se v prvním cviení ze statistiky nauili vytváet<br />

kontingenní tabulky.<br />

Peji Vám mnoho úspch se studiem této kapitoly.<br />

Cíl dnešního cviení je nauit se analyzovat data pomocí chí-kvadrát <strong>test</strong>u, korelaní a<br />

regresní analýzy. K tomuto budeme používat program Excel 2007 MS Office, v jehož prostedí<br />

jste již pracovali a který je pro Vás snadno dostupný.<br />

1. Co je chí-kvadrát <strong>test</strong> a k emu jej mžete použít<br />

V úvodu si jen strun pipomeneme základní fakta z teorie <strong>test</strong>ování hypotéz.<br />

Chí-kvadrát <strong>test</strong><br />

chí-kvadrát <strong>test</strong> je statistická neparametrická metoda, která se používá k zjištní, zda mezi<br />

dvma znaky existuje prokazatelný výrazný vztah.<br />

Znaky mohou být:<br />

• kvalitativní (kategoriální)<br />

• diskrétní kvantitativní<br />

• spojité kvantitativní, ale s hodnotami slouenými do skupin.<br />

Data uspoádáme do kontingenní tabulky. Kategorie jednoho znaku urují ádky a kategorie<br />

druhého znaku sloupce. Jednotlivá pozorování jsou zaazena do píslušné buky kontingenní<br />

tabulky podle hodnot daných dvou znak. Pokud jeden ze znak má r kategorií a druhý znak<br />

má s kategorií, dostáváme kontingenní tabulku typu r x s .<br />

Nejmenší tabulku typu 2 x 2, kterou získáme v pípad, že každý znak má pouze dv<br />

kategorie, nazýváme typolní tabulka.<br />

Kontingenní tabulky umožují <strong>test</strong>ování rzných hypotéz. Ti obvykle <strong>test</strong>ované hypotézy<br />

jsou:<br />

1<br />

• Test homogenity<br />

• Test nezávislosti<br />

• Test dobré shody<br />

Test homogenity – slouží pro porovnání rozložení (distribuce) kvalitativní veliiny ve dvou<br />

nebo více populacích.


Test nezávislosti – používá se k posouzení závislosti dvou kvalitativních veliin mených na<br />

prvcích téhož výbru.<br />

Test dobré shody - zjišuje, zda sledovaná veliina má rozdlení pravdpodobnosti uritého<br />

typu.<br />

Základní myšlenka chí-kvadrát <strong>test</strong>u spoívá v porovnání pozorovaných a oekávaných<br />

etností. Pozorované etnosti zjistíme z kontingenní tabulky. Oekávané etnosti je nutné<br />

vypoítat. Pi výpotu vycházíme z pedpokladu, že platí nulová hypotéza. Tedy provádíme-li<br />

<strong>test</strong> homogenity, pedpokládáme, že rozložení hodnot sledované kategoriální veliiny je ve<br />

všech populacích shodné. Pokud provádíme <strong>test</strong> nezávislosti, nulová hypotéza pedpokládá,<br />

že mezi dvma kvalitativními veliinami není žádná závislost. V pípad <strong>test</strong>u dobré shody<br />

pedpokládáme, že sledovaná veliina má rozložení daného typu.<br />

Velikost rozdíl mezi pozorovanými a oekávanými etnostmi posuzujeme pomocí <strong>test</strong>ové<br />

statistiky χ 2 , její pesný tvar naleznete ve výukových textech. Na základ<br />

pravdpodobnostního rozložení chí-kvadrát se vypoítá pravdpodobnost výskytu takovéto<br />

nebo ješt extrémnjší hodnoty. Tato pravdpodobnost se nazývá dosažená hladina<br />

významnosti statistického <strong>test</strong>u (p-hodnota). Pokud je menší než 0,05, nulovou hypotézu<br />

zamítáme. Znamená to, že pravdpodobnost, že by pozorované rozdíly i závislosti vznikly<br />

pouze náhodou, je menší než 5 %.<br />

2. Jak provést chí-kvadrát <strong>test</strong> v programu Excel 2007<br />

V této kapitole si ukážeme postup, který nám umožní <strong>test</strong>ování hypotéz pomocí chí-kvadrát<br />

<strong>test</strong>u.<br />

Abychom mohli k analyzování dat použít výpoetní techniku, je teba mít data uložená<br />

v databázi. Nejbžnjší je uložení dat v souboru programu Excel. Data pro naše cviení jsou<br />

uložena na diskové jednotce F: ve složce SOFTWARE. Celá cesta je<br />

F:/SOFTWARE/biostatistika/data/analýza dat.xls<br />

Excelovský sešit má 6 list. První list má název „chí-kvadrát <strong>test</strong>“. Najdete v nm data, která<br />

byla zjištna pi preventivní prohlídce 584 zamstnanc nemocnice. V prvním sloupci (A)<br />

íslo zamstnance je uvedena identifikace zamstnance. Druhý sloupec (B) Pohlaví udává<br />

pohlaví zamstnance (M – muž, Ž – žena), tetí sloupec (C) Kouení obsahuje informaci o<br />

tom, zda zamstnanec aktuáln kouí i ne, ve sloupci (D) ischemie je zadáno, zda sledovaný<br />

jedinec trpí ischemickou chorobou srdení, ve sloupci (E) hypertenze zda trpí zvýšeným<br />

krevním tlakem ili hypertenzí, sloupec (F) BMI udává hodnocení zamstnance z hlediska<br />

body mass indexu – rozlišujeme zde ti kategorie – norma, nadváha, obezita.<br />

Zadání úkolu<br />

Vaším úkolem bude provit závislost mezi pohlavím zamstnanc a kouením, výskytem<br />

hypertenze resp. výskytem nadváhy i obezity. Jinými slovy se ptáme, zda podíl kuák je<br />

stejný i muž i u žen, zda podíl osob s hypertenzí je stejný u obou pohlaví i zda muži i ženy<br />

trpí nadváhou a obezitou ve stejné míe.<br />

2


Stanovíme nulové a alternativní hypotézy:<br />

1. Nulová hypotéza: Podíl kuák je stejný u muž i žen.<br />

Alternativní hypotéza: Podíl kuák u muž a u žen se liší.<br />

2. Nulová hypotéza: Výskyt hypertenze nezávisí na pohlaví.<br />

Alternativní hypotéza: Výskyt hypertenze závisí na pohlaví.<br />

3. Nulová hypotéza: Rozdlení zamstnanc podle BMI je stejné u muž i žen.<br />

Alternativní hypotéza: Rozdlení zamstnanc podle BMI není stejné u muž i žen.<br />

Postup ovení první hypotézy:<br />

Je zejmé, že oba znaky (tj. Kouení, Pohlaví) jsou kvalitativní povahy. Vhodnou metodou<br />

pro ovení hypotézy je tedy chí-kvadrát <strong>test</strong>.<br />

1. Vytvote kontingenní tabulku. Umístte ji na nový list. Do ádk tabulky vložte znak<br />

Pohlaví, do sloupc znak Kouení. Použijte postup, který jste se nauili na 1. cviení ze<br />

statistiky.<br />

Z tabulky je možno vyíst, že v souboru je 396 muž, z toho 119 kuák, což je<br />

30,1 %. Žen je v souboru pouze 188 a z nich je 66 kuaek, což je 35,1 %.<br />

Vidíme, že podíl kuák je o nco vyšší u žen. Zda je tento rozdíl statisticky významný je<br />

teba ovit chí-kvadrát <strong>test</strong>em.<br />

Jinak eeno, budeme zkoumat, zda tento rozdíl je pouze vcí náhody, i zda zde existuje<br />

skutený rozdíl.<br />

3


2. Pozorované absolutní etnosti opište pod kontingenní tabulku:<br />

3. Vypoítejte oekávané etnosti. Pro výpoet použijte pravidlo:<br />

oekávaná etnost = souet v sloupci / celkový poet * souet v ádku<br />

Tedy oekávané etnosti jsou:<br />

= 399/584*396=270,55 = 185/584*396=125,45<br />

= 399/584*188=128,45 = 185/584*188=59,55<br />

Tyto výpoty provete pod tabulku Pozorované etností:<br />

Šipka naznauje, že do bunk mžete vkládat pímo výpoty. Buky s píslušnými daty<br />

vyberte kliknutím myši.<br />

4


4. K výpotu dosažené hladiny statistické významnosti, neboli signifikance (tzv. p-hodnoty),<br />

použijeme funkci CHITEST.<br />

Kliknte do buky, kam chcete umístit hodnotu signifikance (nap. do buky E21).<br />

Z ádkového menu zvolte Vzorce a kliknte na ikonu Vložit funkci.<br />

Otevete dialogové okno Vložit funkci. V poli Vybrat kategorii vyberte Statistické, ze<br />

seznamu vyberte funkci CHITEST.<br />

Otevete dialogové okno Argumenty funkce. Do pole Aktuální zadejte adresu oblasti<br />

bunk s pozorovanými etnostmi C13:D14 (pouze tyi hodnoty!).<br />

5


Do pole Oekávané zadejte adresu oblasti bunk s vypoítanými oekávanými etnostmi<br />

C18:D19 (také tyi hodnoty).<br />

Kliknte na OK.<br />

Tabulky s výslednou hodnotou signifikance:<br />

Ped vypoítanou hodnotu (nap. do buky A21) napište text „Signifikance chí-kvadrát<br />

<strong>test</strong>u:“ Hodnotu signifikance zaokrouhlete na 3 desetinná místa.<br />

Funkce chí-kvadrát <strong>test</strong> v Excelu nezobrazuje hodnotu <strong>test</strong>ového kritéria χ 2 , zobrazí pouze<br />

p-hodnotu.<br />

6


5. Výsledek, tedy dosaženou hladinu statistické významnosti, porovnáme s hodnotou 0,05.<br />

Je-li dosažená hladina statistické významnosti menší než 0,05, nulovou hypotézu<br />

zamítáme, v opaném pípad nulovou hypotézu zamítnout nemžeme. V tomto píkladu<br />

p = 0,220, nulovou hypotézu tedy zamítnout nemžeme.<br />

Závr <strong>test</strong>ování zní: Podíl kuák je stejný v populaci muž i žen.<br />

Postup ovení druhé hypotézy:<br />

Nulová hypotéza: Výskyt hypertenze nezávisí na pohlaví.<br />

Alternativní hypotéza: Výskyt hypertenze závisí na pohlaví.<br />

Postup bude obdobný jako v prvním píkladu:<br />

1. Vytvote kontingenní tabulku. Do ádk tabulky vložte znak Pohlaví, do sloupc znak<br />

Hypertenze. Tabulku umístte na nový list.<br />

Kontingenní tabulka:<br />

Z tabulky je možno vyíst, že v souboru je zahrnuto 394 muž, z nichž 33 (t.j. 8,4 %) trpí<br />

hypertenzí, žen je v souboru 188, hypertenzí trpí 13 (t.j.6,9 %) žen. Vidíme, že rozdíl ve<br />

výskytu hypertenze u muž a u žen je malý.<br />

2. Pozorované absolutní etnosti opište pod kontingenní tabulku a spoítejte oekávané<br />

etnosti:<br />

7


K výpotu dosažené hladiny statistické významnosti opt použijte funkci CHITEST<br />

(Použijte píkaz Vzorce a zvolte Vložit funkci.)<br />

3. Pokud jste postupovali správn, dostanete tento výsledek:<br />

4. Dosažená hladina signifikance p = 0,541, nulovou hypotézu tedy zamítnout nemžeme.<br />

Závr <strong>test</strong>ování zní: Výskyt hypertenze nezávisí na pohlaví.<br />

Postup ovení tetí hypotézy:<br />

Nulová hypotéza: Rozdlení zamstnanc podle BMI je stejné u muž i žen.<br />

Alternativní hypotéza: Rozdlení zamstnanc podle BMI není stejné u muž i žen.<br />

Postup:<br />

1. Vytvote kontingenní tabulku. Do ádk tabulky vložte znak Pohlaví, do sloupc znak<br />

BMI hodnocení. Tabulku umístte na nový list.<br />

Kontingenní tabulka:<br />

8


Dostanete tabulku, která má 2 ádky a 3 sloupce. Kategorie uvedené ve sloupcích jsou<br />

uspoádány abecedn: nadváha, norma, obezita. Vzhledem k tomu, že BMI hodnocení je<br />

ordinální znak, mly by kategorie být logicky správn uspoádány: tedy norma, nadváha,<br />

obezita. Uspoádání mžete zmnit, vyberte položku “nadváha“ a kliknte pravým<br />

tlaítkem myši, v místní nabídce vyberte píkaz Pesunout a Pesunout položku<br />

nadváha vpravo.<br />

2. Pozorované absolutní etnosti opište pod kontingenní tabulku a spoítejte oekávané<br />

etnosti:<br />

3. K výpotu dosažené hladiny statistické významnosti opt použijte funkci CHITEST<br />

(Použijte píkaz Vzorce a zvolte ikonu Vložit funkci.)<br />

9


4. Pokud jste postupovali správn, dostanete tento výsledek:<br />

Dosažená hladina signifikance p = 3,1*10 -8 je podstatn menší než 0,05, nulovou hypotézu<br />

mžeme zamítnout a pijmout její alternativu.<br />

Závr <strong>test</strong>ování zní: Rozdlení zamstnanc podle BMI není stejné u muž i žen. 41,7 %<br />

muži trpí nadváhou, ženy trpí nadváhou mén asto – pouze v 17,6 % pípad. Obezitou trpí<br />

muži a ženy stejn.<br />

Úkol k samostatnému ešení:<br />

Otevete list „onkologická léba“. Zde jsou data pacient, kteí podstoupili onkologickou<br />

lébu. V sloupci B je uvedena diagnóza pacient, rozlišujeme dv diagnózy: rakovinu jazyka<br />

a rakovinu spodiny ústní. Ve sloupcích C a D jsou informace o tom, zda pacienti mají<br />

polykací potíže pi pození tuhé stravy i zda trpí pocitem pálení v dutin ústní.<br />

1. Ovte následující hypotézu:<br />

Nulová hypotéza: Výskyt polykacích potíží nezávisí na sledovaných diagnózách.<br />

Alternativní hypotéza: Výskyt polykacích potíží závisí na sledovaných diagnózách.<br />

Návod:<br />

10


Vytvote kontingenní tabulku, do ádk vložte znak Diagnóza, do sloupc znak Polykací<br />

potíže pi pození tuhé stravy. Spoítejte oekávané etnosti a použijte funkci CHITEST.<br />

2. Ovte následující hypotézu:<br />

Nulová hypotéza: Výskyt pálení v dutin ústní nezávisí na sledovaných diagnózách.<br />

Alternativní hypotéza: Výskyt pálení v dutin ústní závisí na sledovaných diagnózách.<br />

Návod:<br />

Vytvote kontingenní tabulku, do ádk vložte znak Diagnóza, do sloupc znak Pocit pálení<br />

v dutin ústní pi jídle. Spoítejte oekávané etnosti a k výpotu signifikance použijte<br />

funkci CHITEST.<br />

3. Jak mžeme analyzovat závislost mezi kvantitativními znaky<br />

V kapitole 3 si ukážeme, jakým zpsobem analyzujeme závislost mezi daty kvantitativní<br />

povahy. Krátce si pipomeme základní fakta ze statistické teorie.<br />

1. Korelaní analýza<br />

Posuzuje vzájemné vztahy pomocí rzných mr závislosti, vtšinou pomocí rzných<br />

korelaních koeficient. Nejpoužívanjší mírou tsnosti vztahu dvou spojitých znak je<br />

Pearsonv korelaní koeficient. Je mírou linearity vztahu (jak tsn se body pimykají<br />

k pímce). Pearsonv korelaní koeficient se znaí r a vzorec pro pesný výpoet najdete ve<br />

výukových textech. Pro hodnoty r platí: -1 r 1. Hodnoty ± 1 nabývá tehdy, když veliiny<br />

jsou absolutn závislé, tzn. pokud sestrojíme bodový graf dvojice zkoumaných veliin,<br />

všechny body leží na pímce. Pokud r = 0 (nebo nabývá hodnoty blízké nule), veliiny jsou<br />

nezávislé. Kladné hodnoty korelaního koeficientu znamenají pozitivní závislost, ob veliiny<br />

zárove rostou nebo klesají. Záporné hodnoty korelaního koeficientu znamenají negativní<br />

závislost, jedna veliina roste, zatímco druhá klesá. Míru závislosti podle absolutní hodnoty<br />

Pearsonova korelaního koeficientu obvykle interpretujeme:<br />

0,1 – 0,3 korelace slabá<br />

0,4 – 0,6 korelace stední<br />

0,7 – 0,8 korelace silná<br />

nad 0,9 korelace velmi silná.<br />

Data, se kterými budete pracovat, naleznete opt v souboru F://SOFTWARE/biostatistika/data<br />

/analýza dat.xls.<br />

Otevete list „Korelace“.<br />

11


Na listu „Korelace“ jsou data 600 zamstnanc nemocnice. Ve sloupci A íslo zamstnance<br />

je uvedena identifikace. Druhý sloupec (B) Vk poskytuje informaci o vku zamstnance<br />

v letech, sloupce C až F obsahují výsledky <strong>test</strong> lipidového profilu v mmol/l (celkový<br />

cholesterol, LDL, HDL, Triglyceridy).<br />

Úkol:<br />

U každého sledovaného znaku urete jeho typ.<br />

Návod: Rozlišujte znaky kvalitativní a kvantitativní.<br />

Zadání úkolu<br />

Vaším úkolem bude analyzovat míru závislosti namených parametr.<br />

Postup<br />

K výpotu Pearsonova korelaního koeficientu použijeme analytický nástroj Korelace. Tento<br />

nástroj je obsažen v položce Analýza dat. (Analýzu dat nastavte stejným zpsobem jako pi<br />

použití nástroje Popisná statistika – kliknte na ikonu , otevete Možnosti aplikace<br />

Excel, vyberte položku Doplky, nastavte Analytické nástroje jako Aktivní doplnk<br />

k dispozici a kliknte na tlaítko Pejít. Zaškrtnte Analytické nástroje a potvrte OK.<br />

Vyberte položku Data a v hlavním menu se Vám objeví nová položka Analýza dat:<br />

1. Kliknte na Analýza dat ze seznamu analytických nástroj vyberte položku Korelace.<br />

12


Vyplte dialogové okno Korelace.<br />

2. Do pole Vstupní oblast zadejte adresu celých sloupc B až F, které obsahují data týkající<br />

se lipidového profilu a vku zamstnanc. Data jsou sdružena ve sloupcích, zatrhnte<br />

položku Popisky v prvním ádku.<br />

3. Do pole Výstupní oblast zadejte adresu buky H1. Potvrte tlaítkem OK.<br />

Dostanete korelaní matici:<br />

13<br />

V ádcích i ve sloupcích jsou uvedeny všechny zkoumané znaky, ísla uvnit matice jsou<br />

hodnoty Pearsonova korelaního koeficientu pro danou dvojici znak.<br />

Je zejmé, že nejsilnjší pozitivní závislost je mezi celkovým cholesterolem a LDL<br />

cholesterolem r = 0,915, naopak tém nulová korelace, tedy nezávislost byla zjištna<br />

mezi celkovým cholesterolem a HDL cholesterolem r = 0,035. Slabá negativní korelace<br />

byla zjištna mezi triglyceridy a HDL, r = -0,342.


2. Regresní analýza<br />

Metoda regresní analýzy hledá matematické vyjádení vztahu mezi znaky (lineární,<br />

kvadratický, exponenciální …) a dává odpov na otázku, zda lze znak Y odhadnout na<br />

základ jiného nebo jiných znak a s jakou chybou.<br />

Postup regresní analýzy lze shrnout do tchto bod:<br />

1. Sestrojení bodového grafu a jeho posouzení.<br />

2. Volba typu regresní kivky a výpoet jejich koeficient.<br />

3. Hodnocení kvality nalezeného ešení.<br />

Poznámka: V ad pípad lze vztah popsat pímkou. Nalezením koeficient této pímky se<br />

zabývá tzv. lineární regresní analýza.<br />

Zadání úkolu<br />

Korelaní analýzou bylo zjištno, že nejsilnjší závislost mezi veliinami zkoumanými na<br />

listu „Korelace“ je mezi celkovým cholesterolem a LDL. Provete regresní analýzu tchto<br />

veliin.<br />

Postup<br />

1. Sestrojte bodový graf zkoumaných veliin.<br />

Pomocí myši vyberte všechny hodnoty sloupc C (cholesterol) a D (LDL).<br />

2. Kliknte na píkaz Vložení a vyberte položku Bodový ze skupiny Grafy, vyberte první<br />

typ z nabízených typ bodových graf.<br />

14


Graf upravte do následující podoby:<br />

Volba typu závislosti a výpoet koeficient regresní kivky<br />

3. Kliknte pravým tlaítkem myši na graf mezi modré znaky a vyvolejte místní nabídku:<br />

4. Kliknte na položku Pidat spojnici trendu, oteve se Vám dialogové okno Formát<br />

spojnice trendu.<br />

5. Vyberte Lineární trend a zatrhnte možnosti Zobrazit rovnici regrese a Zobrazit<br />

hodnotu spolehlivosti.<br />

15


Pokud máte správn vyplnno, zavete dialogové okno.<br />

Do grafu se vloží regresní rovnice – v našem pípad se jedná o rovnici pímky:<br />

LDL = 0,8*Celkový cholesterol – 1,1<br />

Zobrazí se také hodnota spolehlivosti R 2 =0, 837.<br />

16


6. Hodnocení kvality nalezeného ešení.<br />

Hodnota spolehlivosti, tj. koeficient determinace R 2 , udává procento, jakým je rozptyl<br />

hodnot závisle promnné veliiny Y (LDL) vysvtlen zmnami hodnot nezávisle<br />

promnné veliiny X (Celkový cholesterol). Koeficient nabývá hodnot od 0 do 1. ím je<br />

vyšší, tím je nalezený model kvalitnjší. V pípad lineární regrese je koeficient<br />

determinace roven druhé mocnin Pearsonova korelaního koeficientu.<br />

(Ovte: 0,915 2 = 0,837225)<br />

V našem pípad je hodnota R 2 = 0,837 pomrn vysoká, lineární model byl vhodn<br />

zvolen.<br />

Zadání úkolu k samostatnému ešení<br />

Na listu „Regresní analýza“ naleznete data týkající se teploty a dynamické viskozity vody.<br />

Metodou regresní analýzy analyzujte závislost viskozity vody na teplot.<br />

Návod:<br />

1. Sestrojte bodový graf, osa X pedstavuje teplotu, osa Y dynamickou viskozitu.<br />

2. Zvolte nejvhodnjší typ regresní kivky a najdte její rovnici.<br />

3. Pomocí koeficientu determinace zhodnote kvalitu nalezeného ešení.<br />

17

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!