22. POISSON- JA LOGISTINEN REGRESSIO regressiomallit ...
22. POISSON- JA LOGISTINEN REGRESSIO regressiomallit ...
22. POISSON- JA LOGISTINEN REGRESSIO regressiomallit ...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
<strong>22.</strong> <strong>POISSON</strong>- <strong>JA</strong> <strong>LOGISTINEN</strong> <strong>REGRESSIO</strong><br />
<strong>regressiomallit</strong> aiempien osittamiseen<br />
perustuvien tarkastelujen yleistys<br />
altistus ja sekoittavat tekijät kummatkin<br />
selittäviä tekijöitä (explanatory variables)<br />
valitaan malli vastemuuttujan mukaan<br />
– tapahtumien lukumäärä (per seuranta-aika):<br />
Poisson-regressio<br />
– binäärinen (0/1) tapahtuma:<br />
– logistinen regressio<br />
– erityisesti tapaus-verrokki -asetelma<br />
mallien sovittaminen tilastollisilla ohjelmilla<br />
– perustuu uskottavuuteen<br />
– estimoidaan myös kiusaparametrit<br />
tavoitteena selittäminen (tai ennustaminen)<br />
Poisson-regressio<br />
Regressiomallin parametrisointi:<br />
Kaksi vertailtavaa luokkaa:<br />
Kolme luokkaa:<br />
¡<br />
¡<br />
¡<br />
Ositus sekoittavan tekijän mukaan:<br />
¢<br />
¤<br />
©<br />
©<br />
¡¨§<br />
<br />
¡§<br />
<br />
£<br />
§ ¡<br />
£<br />
§ ¡<br />
¢<br />
¢<br />
©<br />
©<br />
<br />
<br />
<br />
©<br />
§ ¥<br />
<br />
£<br />
<br />
£<br />
¢<br />
¦<br />
¤<br />
£<br />
£<br />
£<br />
<br />
<br />
<br />
Seuraavalla sivulla ositusmallille kolme<br />
yhtäpitävää parametrisointia, kun oletetaan<br />
suhteellisen ilmaantuvuuden malli:¥§<br />
kaikissa ositteen luokissa<br />
¡<br />
¢<br />
<br />
<br />
<br />
¢¥<br />
¡<br />
¤<br />
¢¥<br />
¡<br />
¦<br />
¡<br />
¡<br />
¢<br />
¤<br />
£<br />
£<br />
¡<br />
¢<br />
¢¥<br />
¡<br />
©<br />
<br />
£<br />
¥
Altistus<br />
Ikäluokka Ei Kyllä<br />
0 ¡§<br />
1 ¡¨§<br />
2 ¡¨§<br />
Altistus<br />
Ikäluokka Ei Kyllä<br />
0 ¡§<br />
1 ¡¨§<br />
2 ¡¨§<br />
¢<br />
¢<br />
¢<br />
¢<br />
¢<br />
¢<br />
Altistus<br />
Ikäluokka Ei Kyllä<br />
0 ¡<br />
1 ¡<br />
2 ¡<br />
¡<br />
¡<br />
¡<br />
<br />
§<br />
<br />
<br />
§<br />
§<br />
§<br />
¢<br />
¢<br />
"Ilmaantuvuus = Nurkka Altistus Ikä"<br />
¢<br />
¢<br />
¢<br />
¦<br />
¦<br />
¢<br />
¦<br />
¤<br />
¤<br />
<br />
¤<br />
<br />
<br />
¡¨§<br />
<br />
¡¨§<br />
¢<br />
¢<br />
¢<br />
<br />
¡§<br />
¥ <br />
<br />
¡¨§<br />
¥ <br />
<br />
¡¨§<br />
¥ <br />
¡¥<br />
¡<br />
¡¥<br />
¡<br />
¡¥<br />
¡<br />
¤<br />
¤<br />
¤<br />
¢<br />
¦<br />
¤<br />
¢<br />
¢<br />
¢<br />
¡§<br />
<br />
<br />
<br />
§<br />
§<br />
§<br />
§<br />
¦<br />
¤<br />
¦<br />
¤<br />
<br />
<br />
<br />
<br />
¨<br />
ikä altistuneet altistumattomat<br />
2750 kcal) 2750 (¤<br />
kcal)<br />
¥<br />
(£<br />
¦<br />
¡<br />
40-49 2 312 6.41 4 608 6.58<br />
50-59 12 878 13.7 5 1271 3.93<br />
60-69 14 668 21.0 8 889 9.00<br />
Mallinnetaan tapahtumien lukumäärää kussakin<br />
ositteessa Poisson-jakauman mukaisesti:<br />
©<br />
<br />
<br />
¡§<br />
¨<br />
odotusarvolle §§<br />
¨<br />
©<br />
<br />
<br />
§ §<br />
missä<br />
©<br />
<br />
©<br />
<br />
<br />
£<br />
¨<br />
©<br />
©<br />
<br />
<br />
£<br />
<br />
<br />
¡<br />
¡<br />
¨<br />
<br />
©<br />
©<br />
<br />
<br />
<br />
§ ¦<br />
¨<br />
©<br />
lyhyesti ilmaistuna (huom! oikea puoli!):<br />
©<br />
<br />
<br />
<br />
§<br />
<br />
(Ilmaantuvuus) = Nurkka + Ikä + Altistus<br />
seuranta-ajat ns. "offset"-termeinä<br />
¦§<br />
©<br />
<br />
©<br />
¥<br />
<br />
¨<br />
©<br />
<br />
<br />
§ ¡<br />
¦<br />
<br />
© <br />
¤<br />
<br />
<br />
©<br />
<br />
<br />
¨<br />
©<br />
¡<br />
¥ <br />
<br />
<br />
¤
Aineisto syötetään joko<br />
havaintomatriisina: rivi = yksilö, sarake = muutt.<br />
tai frekvensseinä:<br />
D logY Age1 Age2 Exposure<br />
4 6.4100 0 0 0<br />
2 5.7427 0 0 1<br />
5 7.1484 1 0 0<br />
12 6.7778 1 0 1<br />
8 6.7900 0 1 0<br />
14 6.5035 0 1 1<br />
R-komento (A = yo. aineisto tauluna):<br />
glm(D Age1 + Age2 + Exposure,<br />
family = poisson(link = "log"),<br />
data = A, offset = logY)<br />
¢£<br />
Tulos (log-skaalalla!):<br />
90¡<br />
¦¥<br />
¤<br />
¨§<br />
Vertaa:<br />
Coefficient Estimate Std. error<br />
Intercept -5.4177 0.4413<br />
Age1 0.1290 0.4747<br />
Age2 0.6921 0.4607<br />
Exposure 0.8697 0.3079<br />
:n l-väli esim. parametrille¥<br />
eli Exposure:<br />
©<br />
<br />
<br />
¨<br />
<br />
<br />
¢<br />
Ilman ikää (kirjan tehtävä 13.1):<br />
<br />
§<br />
<br />
¢£<br />
<br />
¤<br />
<br />
¨<br />
<br />
<br />
¢<br />
¥<br />
¥ <br />
<br />
Mantel-Haenszel (kirjan teht. 15.1 ja 15.3):<br />
<br />
¥ <br />
¢£<br />
<br />
¤<br />
<br />
¨<br />
<br />
<br />
¢<br />
¥<br />
¥ <br />
©<br />
¥<br />
¥ <br />
<br />
<br />
<br />
<br />
<br />
<br />
£<br />
£<br />
£<br />
£<br />
<br />
<br />
©<br />
<br />
<br />
<br />
<br />
<br />
¢<br />
<br />
<br />
©<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
<br />
¢£<br />
¨©<br />
<br />
<br />
¥<br />
<br />
<br />
<br />
<br />
<br />
¤<br />
¥<br />
<br />
<br />
¥<br />
¨
Logistinen regressio.<br />
¨<br />
©<br />
"alkuperäiset" parametrit vedonlyöntisuhteita<br />
log-muunnoksella lineaarinen malli:<br />
(Vedonlyöntisuhde) = Nurkka + Ikä + BCG<br />
Ikäluokka ¥<br />
¢<br />
Tapaus Verrokki<br />
¥<br />
0-4 1 1 7593 11719<br />
5-9 11 14 7143 10184<br />
10-14 28 22 5611 7561<br />
15-19 16 28 2208 8117<br />
20-24 20 19 2438 5588<br />
25-29 36 11 4536 1625<br />
30-34 47 6 5245 1234<br />
¤<br />
¢<br />
¤<br />
¢<br />
<br />
Tapaus/verrokki -suhteet ikäluokittain:<br />
suhteet ¥<br />
¤<br />
¡<br />
¤<br />
ja ¥<br />
prospektiivinen katsanto<br />
Altistus (= BCG-rokotus)<br />
Ikäluokka Ei (E-) Kyllä (E+)<br />
0-4 0.13 0.08<br />
5-9 1.54 1.37<br />
10-14 4.99 2.91<br />
15-19 7.25 3.45<br />
20-24 8.20 3.40<br />
25-29 8.26 6.77<br />
30-34 8.96 4.86<br />
Parametrit:<br />
£<br />
= tapahtuman vedonl-suhde, tutkimukseen<br />
£<br />
valitulle, jolloin siis ¢<br />
<br />
£<br />
£<br />
¢<br />
¡<br />
¢<br />
¢<br />
¤<br />
¡<br />
<br />
¦¥<br />
¤<br />
<br />
, missä<br />
sairastuneen tn. tulla valituksi tapaukseksi<br />
terveen tn. tulla valituksi verrokiksi
¨<br />
©<br />
¡<br />
<br />
jolloin<br />
¨<br />
©<br />
¥ <br />
<br />
¢<br />
£<br />
£<br />
¨<br />
©<br />
¨<br />
©<br />
¡<br />
<br />
¥ ¢<br />
<br />
<br />
£<br />
<br />
¨<br />
©<br />
¨<br />
©<br />
¡<br />
<br />
¡<br />
<br />
<br />
¢¡<br />
¤<br />
¥ <br />
<br />
£<br />
¨<br />
©<br />
<br />
¤<br />
£<br />
¢<br />
¤<br />
¢¡<br />
¤<br />
¥ <br />
¡<br />
¡<br />
¥ <br />
eli estimaatit (log-skaalalla) ovat kohortissa<br />
määriteltyjen log-vedonlyöntisuhteiden<br />
erotuksia (nurkkaluokka vertailukohtana).<br />
Aineisto frekvensseinä:<br />
D H BGG Age<br />
1 11719 1 0<br />
1 7593 0 0<br />
14 10184 1 1<br />
11 7143 0 1<br />
22 7561 1 2<br />
28 5611 0 2<br />
.<br />
.<br />
.<br />
.<br />
47 5245 0 6<br />
¤<br />
¤<br />
¢<br />
¡<br />
<br />
¤<br />
R-komento (A on edellinen taulukko):<br />
glm(cbind(D,N) BCG +<br />
as.factor(Age), family =<br />
binomial(link = "logit"), data = A)<br />
BCG-odds-ratio -parametrille :n 90¡<br />
luottamusväli ¢£<br />
[0.46,0.74].<br />
¥ ¤<br />
¥<br />
N.B. Yleensä nurkkaparametri (vedonl-suhde)<br />
koskee vain tutkimusjoukkoa, ei allaolevaa<br />
populaatiota. Yo. esim. poikkeus, sillä<br />
aineistona koko populaatio! Ks. myös harjoitus<br />
1/7.<br />
Harvinaisella tapahtumalle:<br />
¨<br />
©<br />
<br />
<br />
¢¦¥<br />
¢<br />
¨<br />
©<br />
<br />
<br />
£<br />
<br />
jolloin logistinen regressio antaa estimaatit<br />
log-ilmaantuvuuksien erolle (ja siis<br />
ilmaantuvuuksien suhteelle).<br />
¨<br />
©<br />
<br />
<br />
<br />
¨<br />
¨§<br />
<br />
<br />
<br />
<br />
¨<br />
¢<br />
©<br />
<br />
<br />
¡<br />
¥<br />
<br />
<br />
¢<br />
<br />
<br />
=