Hele Et første kursus i teoretisk statistik. Første udgave. - Aarhus ...
Hele Et første kursus i teoretisk statistik. Første udgave. - Aarhus ...
Hele Et første kursus i teoretisk statistik. Første udgave. - Aarhus ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
E T F Ø R S T E K U R S U S<br />
I T E O R E T I S K S T A T I S T I K<br />
J E N S L E D E T J E N S E N
© Jens Ledet Jensen 2006<br />
Institut for Matematiske Fag<br />
Det Naturvidenskabelige Fakultet<br />
<strong>Aarhus</strong> Universitet<br />
Januar 2006
Indhold<br />
1 Indledning 1<br />
2 Eksponentielle familier 5<br />
2.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5<br />
2.2 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6<br />
2.3 Minimal fremstilling og konveks støtte . . . . . . . . . . . . . . . . . . . . 7<br />
2.4 Laplace- og kumulanttransform . . . . . . . . . . . . . . . . . . . . . . . . 10<br />
2.5 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />
2.6 Marginale og betingede fordelinger . . . . . . . . . . . . . . . . . . . . . . 17<br />
2.7 Komplethed af den minimalkanoniske observator . . . . . . . . . . . . . 19<br />
2.8 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />
3 Sufficiens 25<br />
3.1 Indledning og definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />
3.2 Tilfældet med diskret udfaldsrum X . . . . . . . . . . . . . . . . . . . . . 26<br />
3.3 Det generelle tilfælde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />
3.4 Minimal sufficiente observatorer . . . . . . . . . . . . . . . . . . . . . . . 29<br />
3.5 Sufficiensprincippet og B-sufficiens . . . . . . . . . . . . . . . . . . . . . . 36<br />
3.6 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36<br />
4 Ancillaritet og Basu’s sætning 43<br />
4.1 Definitioner og diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . 43<br />
4.2 Basu’s sætning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48<br />
4.3 Birnbaum’s sætning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />
4.4 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53<br />
5 Likelihoodbegreber 57<br />
5.1 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />
6 Centrale estimatorer med minimal varians 67<br />
6.1 Centrale estimatorer med minimal varians . . . . . . . . . . . . . . . . . . 67<br />
6.2 Variansuligheder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71<br />
6.3 Pusterum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75<br />
6.4 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76<br />
i
ii INDHOLD<br />
7 Testteori 79<br />
7.1 Indledning og definitioner . . . . . . . . . . . . . . . . . . . . . . . . . . . 79<br />
7.2 Neyman-Pearson’s lemma og monotone kvotienter . . . . . . . . . . . . 81<br />
7.3 Sammensat nulhypotese – test for en delparameter . . . . . . . . . . . . . 89<br />
7.4 Lokalt stærkeste test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94<br />
7.5 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95<br />
8 Separat inferens 101<br />
8.1 L-sufficiens og L-ancillaritet . . . . . . . . . . . . . . . . . . . . . . . . . . 101<br />
8.2 S-sufficiens og S-ancillaritet . . . . . . . . . . . . . . . . . . . . . . . . . . 104<br />
8.3 G-sufficiens og G-ancillaritet . . . . . . . . . . . . . . . . . . . . . . . . . . 107<br />
8.4 Itemanalysemodellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112<br />
8.5 Afsluttende bemærkninger . . . . . . . . . . . . . . . . . . . . . . . . . . . 116<br />
8.6 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117<br />
9 Bayes <strong>statistik</strong> 121<br />
10 Referencer 129<br />
11 Notation og regneregler 135<br />
11.1 notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135<br />
11.2 Transformationssætningen . . . . . . . . . . . . . . . . . . . . . . . . . . . 135<br />
11.3 Betinget middelværdi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136<br />
11.4 Betingede tætheder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136<br />
11.5 Regnereler for tætheder og integraler . . . . . . . . . . . . . . . . . . . . . 138<br />
11.6 Entydighed af Laplacetransformen . . . . . . . . . . . . . . . . . . . . . . 139<br />
Indeks 141
Kapitel 1<br />
Indledning<br />
Med disse indledende bemærkninger vil jeg forsøge at ryste jeres statistiske grundvold,<br />
og vise at <strong>statistik</strong> (d.v.s. her <strong>teoretisk</strong> <strong>statistik</strong>) er mere end matematik. Jeg vil<br />
nævne nogle af de forskellige indgange til <strong>statistik</strong> for at afgrænse, hvad vi skal beskæftige<br />
os med i disse noter. Jeg vil her i indledningen foretage diskussionen ud fra<br />
et eksempel.<br />
En ukendt parameter θ kan antage værdier i {0, 1, 2, . . . }. En værdi k af θ vælges<br />
(måske af naturen, måske af en person), og 6 brikker placeres i en pose. Af de 6 brikker<br />
er 2 mærket med værdien k og de 4 andre med værdierne 4k + 1, . . . , 4k + 4. Eksperimentet<br />
består nu i at vælge én af brikkerne tilfældigt og observere værdien S på denne,<br />
Fordelingen af S beskrives med følgende tabel, hvori for hver række er angivet 6 gange<br />
sandsynligheden for de mulige udfald:<br />
S<br />
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24<br />
0 2 1 1 1 1<br />
1 2 1 1 1 1<br />
θ 2 2 1 1 1 1<br />
3 2 1 1 1 1<br />
4 2 1 1 1 1<br />
5 2 1 1 1 1<br />
Vores opgave er ud fra observationen s at sige noget om den ukendte parameter θ. Når<br />
s er observeret, ved vi, at θ enten er s eller for s > 0, er der også muligheden [(s − 1)/4],<br />
hvor [·] er heltalsdelen af et tal. Fra observationen s kan vi altså gætte på<br />
ˆθ = s eller ˜θ =<br />
0 hvis s = 0<br />
[(s − 1)/4] hvis s > 0,<br />
hvor ˆ θ faktisk er maksimum likelihood estimatet.<br />
Normalt vil vi vælge ˆθ som skøn over θ, idet Pˆθ (s) = 2 6 > P˜ θ (s) = 1 6 for s > 0, altså<br />
den observerede værdi s har større sandsynlighed under målet Pˆθ end under målet P˜ θ .<br />
Men hvis vi spørger om sandsynligheden for at gætte den rigtige værdi af θ, har vi<br />
Død og pine, hvad gør vi nu?<br />
P θ( ˆθ = θ) = 2 6 < P θ( ˜θ = θ) = 4 6 .<br />
1
2 KAPITEL 1. INDLEDNING<br />
Indenfor den såkaldte Bayes-<strong>statistik</strong> optræder der ingen problemer (=problemet er<br />
flyttet et andet sted hen - en særdeles velkendt problemløsningmetode). Hvis man er<br />
“bayesianer”, formuleres alt ved hjælp af sandsynligheder. I stedet for at sige at θ er<br />
ukendt, siger man, at θ er en stokastisk variabel med en prior tæthed pk = P(θ = k), og<br />
at vores viden om θ, efter at eksperimentet er udført, udtrykkes gennem den betingede<br />
tæthed<br />
⎧<br />
1 k = s = 0<br />
⎪⎨ 1<br />
3 (<br />
P(θ = k|S = s) =<br />
⎪⎩<br />
1 3 ps + 1 6 p [(s−1)/4]) −1 pk k = s, s > 0<br />
1<br />
6 ( 1 3 ps + 1 6 p [(s−1)/4]) −1 pk k = [(s − 1)/4], s > 0<br />
0 ellers<br />
Eventuelt kan vi lave et estimat ˆθB, som er den værdi af θ, som har størst sandsynlighed<br />
givet S = s.<br />
For at gennemføre dette program skal vi altså vælge en prior tæthed p k. Hvis vi<br />
tager p k = 1/2 k+1 , vil ˆ θB = ˜ θ for alle s. Det kan vises, at for en vilkårlig tæthed med<br />
p k > 0 for alle k vil ˆθB = ˜θ for uendelig mange værdier af s . Hvis p k = 0 for k ≥ 5 og<br />
p k = 1/4 for k < 5, vil<br />
ˆθB = ˆθ for s < 5 og ˆθB = ˜θ for 5 ≤ s ≤ 20.<br />
Dette sidste eksempel dækker over det generelle udsagn, at jo mere uniform vi gør den<br />
prior tæthed, desto oftere vil ˆθB = ˆθ.<br />
Det er klart, at det oprindelige problem er blevet ført over i, hvordan vi skal vælge<br />
prior tætheden. Hvis vi ikke har nogen viden, der kan hjælpe os i dette, må vi altså<br />
foretage et subjektivt valg, og af denne grund bryder mange <strong>statistik</strong>ere sig ikke om<br />
Bayes-<strong>statistik</strong>. Ud fra en pragmatisk synsvinkel kan det dog i visse situationer være<br />
praktisk at tænke i termer af Bayes-<strong>statistik</strong>. F.eks. i store ekspertsystemer, hvor et af<br />
problemerne er jævnligt at opdatere den akkumulerede viden om de mange parametre,<br />
kan det være praktisk at bruge Bayes-<strong>statistik</strong>. Jeg omtaler kort Bayes-<strong>statistik</strong> i kapitel<br />
9.<br />
En anden tilgang til <strong>statistik</strong> er decisionsteori. Her forestiller man sig, at der til hver<br />
observation x skal foretages en beslutning d = d(x), og for enhver beslutning d og<br />
enhver parameter θ er der givet en pris, eller et tab, w(θ, d) ≥ 0. Det forventede tab<br />
kaldes risikofunktionen (engelsk: risk function)<br />
r(θ, d) = E θw(θ, d(X)).<br />
I vort eksempel kan beslutningen være, at vi peger på enten ˆθ eller ˜θ som den sande<br />
værdi af θ. Lad os f.eks. sige at tabet er givet ved<br />
⎧<br />
⎪⎨ 0 hvis θ1 = θ<br />
w(θ, θ1) = α<br />
⎪⎩<br />
β<br />
<br />
12 α +<br />
r(θ, ˆθ) =<br />
hvis |θ1 − θ| ≤ 3<br />
hvis |θ1 − θ| > 3,<br />
1 6 β hvis θ = 0<br />
4<br />
6 β hvis θ > 0<br />
⎧<br />
⎪⎨<br />
0<br />
og r(θ, ˜θ) = 2<br />
6α ⎪⎩<br />
β<br />
hvis θ = 0<br />
hvis 1 ≤ θ ≤ 3<br />
hvis θ > 3.<br />
2<br />
6
Hvis θ > 3 vil ˜θ have en mindre risiko end ˆθ, men for 1 ≤ θ ≤ 3 vil ˆθ have en<br />
mindre risiko end ˜θ, hvis blot β < α/2.<br />
Decisionsteori giver anledning til mange nye definitioner. En beslutningsregel d<br />
kaldes inadmissible, hvis der findes en anden regel d1, så at r(θ, d) ≥ r(θ, d1) for alle θ og<br />
med skarp ulighed for mindst én værdi af θ. Hvis en regel ikke er inadmissible, kaldes<br />
den admissible, og disse er klart at foretrække. En minimax regel d er en admissible<br />
beslutningsregel, som opfylder<br />
sup<br />
θ<br />
r(θ, d1) ≥ sup r(θ, d)<br />
θ<br />
for enhver anden admissible regel d1. En minimax regel er et fornuftigt valg, hvis man<br />
er to personer, der spiller mod hinanden, og at man må forvente, at modspilleren er<br />
så ond som mulig. Ligesom at jeg ikke vil komme ind på Bayes-<strong>statistik</strong>, vil jeg ikke<br />
beskæftige mig med decisionsteori i disse noter.<br />
Hvad er så emnet for disse noter? Løst sagt skal vi så præcist som muligt opsummere<br />
den viden, som vi har fået om den ukendte parameter fra den foretagne observation<br />
og fra vores viden om den sandsynlighedsmekanisme, som ligger bagved. Dette<br />
betyder bl.a., at vi ikke skal bruge de hypotetiske gentagelser af forsøget til at konstruere<br />
et spil mod en usynlig modpart og dernæst minimere tabet, men derimod bruge<br />
gentagelserne til at belyse den faktiske observation i forhold til de andre mulige observationer.<br />
Heri ligger også, at de potentielle gentagelser skal være relevante, som for<br />
eksempel at de skal foretages med det samme måleudstyr (disse problemer tages op i<br />
kapitel 4 og kapitel 8). Den type problemstillinger, som vi ønsker at anvende teorien<br />
på, kan være spørgsmål som: Hvad er lysets hastighed? Hvor en stor procentdel af den<br />
danske befolkning går ind for en kombineret vej- og jernbanebro til Sverige?; Hvad er<br />
sandsynligheden for at blive rask med en given behandling?; etc., etc.<br />
I ovenstående eksempel, hvis vi f.eks. har observeret s = 2, kan vi sige, at de mulige<br />
værdier af θ er θ = 0 og θ = 2, og at sandsynlighederne for s = 2 er 1 6 og 2 6 under de to<br />
muligheder. Meget mere kan vi ikke sige. Normalt vil vi gerne angive et estimat og en<br />
relevant varians på estimatet eller et relevant konfidensområde, men her hvor der kun<br />
er to muligheder, kan vi kun give en rangordning. Da vi nu ved, at θ = 0 eller θ = 2 er<br />
ˆθ og ˜θ ikke relevante i hypotestiske gentagelser. For en ny observation s ∈ {0, 1, 3, 4}<br />
ved gentagelse, kan vi slutte at θ = 0, og for s ∈ {9, 10, 11, 12} kan vi slutte at θ = 2.<br />
Det er kun for s = 2, at vi ikke kan slutte hvad θ er. Hvis vi definerer<br />
<br />
<br />
ˆθ2(s)<br />
0 s ∈ {0, 1, 3, 4}<br />
=<br />
og ˇ<br />
0 s ∈ {0, 1, 2, 3, 4}<br />
θ2(s) =<br />
2 s ∈ {2, 9, 10, 11, 12}<br />
2 s ∈ {9, 10, 11, 12}<br />
har vi at<br />
og<br />
P0( ˆθ2 = 0) = 5 6 , P2( ˆθ2 = 2) = 1,<br />
P0( ˇθ2 = 0) = 1, P2( ˇθ2 = 2) = 4 6 ,<br />
og anskuet på denne vis vil vi sige, at maksimum likelihood estimatet ˆθ2 er det bedste<br />
estimat.<br />
Lad mig slutte denne indledning med en ultrakort gennemgang af de forskellige<br />
kapitler:<br />
3
4 KAPITEL 1. INDLEDNING<br />
Kapitel 2: Her opsumerer jeg de vigtigste begreber og resultater for ekponentielle familier.<br />
Eksponentielle familier er vigtige på grund af deres pæne matematiske egenskaber,<br />
på grund af deres udbredelse, og fordi der er en simpel sammenhæng mellem<br />
tætheden og de såkaldte sufficiente observatorer. Faktisk kan man vende bøtten rundt,<br />
og starte med at sige, hvad der skal være sufficiente observatorer, og man vil så hurtigt<br />
blive ledt frem til de eksponentieller familier. De eksponentieller familier vil optræde<br />
gennem hele notesættet.<br />
Kapitel 3: Her gives en udførlig matematisk teori for sufficiente observationer, d.v.s.<br />
funktioner af data som “indeholder al information” om den ukendte parameter.<br />
Kapitel 4: Handler on hvordan vi definerer relevante gentagelser ved at betinge med<br />
værdien af en såkaldt ancillær observator. Sammenhængen mellem dette og de sufficiente<br />
observatorer diskuteres.<br />
Kapitel 5: Nævner de vigtigste begreber omkring likelihoodfunktionen og den afledede.<br />
Resultater baseret på at antallet af observationer går mod uendelig bliver kort<br />
omtalt. Dette kapitel kan godt læses før de andre.<br />
Kapitel 6: Giver en teori for hvordan vi på fornuftig vis kan vælge estimatorer, d.v.s. at<br />
vi forsøger at minimere variansen uniformt i parameteren. For at dette får mening, må<br />
vi nøjes med at betragte de såkaldte unbiased estimatorer.<br />
Kapitel 7: Heri beskrives hvordan man konstruerer test med visse optimale egenskaber.<br />
Kapitel 8: Dette kapitel hænger sammen med kapitel 4, idet det undersøges, hvad der<br />
er relevante gentagelser, når vi ønsker at udtale os om en delparameter.<br />
Lad mig til sidst påpege at udgangspunktet er, at vi har valgt en model til beskrivelse<br />
af det udførte forsøg, og ønsker nu at optimere vores konklusioner idenfor modellen.<br />
Det vil bl.a. sige, at vi ikke kommer ind på kontrol af modellen. En anden vigtig<br />
ting vi ikke kommer ind på, er robusthed af vores procedurer overfor antagelser i modellen,<br />
d.v.s. spørgsmål som, om en optimal procedure under modellen vil være langt<br />
fra optimal, hvis modellen ændres ganske lidt.<br />
En henvisning til Jørgen Hoffman-Jørgensens bøger angives med “JHJ”.
Kapitel 2<br />
Eksponentielle familier<br />
2.1 Motivation<br />
Eksponentielle familier er klasser af sandsynlighedsmål med “særligt pæne egenskaber".<br />
Det smarte er, at når først vi har vist (og det er ikke svært), at noget er en eksponentiel<br />
familie, så ved vi, at en hel masse resultater er opfyldt. Lad os som et eksempel<br />
betragte n uafhængige variable X1, . . . , Xn som er normalfordelte med middelværdi µ<br />
og varians σ 2 . Hvis f(·) er en funktion fra R ind i R med den egenskab, at<br />
E µ,σ 2 f( ¯X) = 0 for alle µ ∈ R,<br />
så kan vi slutte, at f er identisk lig med nul pånær på en nulmængde. Denne egenskab<br />
kan måske nok synes lidt teknisk, men den kan hjælpe os til at vise andre egenskaber.<br />
Det sædvanlige estimat for σ 2 er s 2 = ∑i(X i − ¯X) 2 /(n − 1). Dette estimat har den rigtige<br />
middelværdi: Es 2 = σ 2 , og vi siger, at s 2 er middelværdiret. Man kan nu vise, at s 2<br />
er det estimat, der har mindst mulig varians, blandt alle estimater der er middelværdirette.<br />
For eksponentielle familier kan vi vise at for visse hypoteser er der særligt attraktive<br />
tests. I eksemplet ovenfor kan vi betragte et test for hypotesen µ = 0 mod alternativet<br />
µ > 0. Det sædvanlige t-test forkaster hypotesen hvis t = ¯X/ √ s 2 /n er stor, og vi kan<br />
vise at dette i en vis forstand er det bedste vi kan gøre.<br />
De ovenstående eksempler viser, at der er god grund til at beskæftige sig med eksponentielle<br />
familier. <strong>Et</strong> andet argument er, at nogle af de vigtigste klasser af fordelinger<br />
faktisk er eksponentielle familier: Binomialfordelingerne, Poissonfordelingerne,<br />
normalfordelingerne og Gammafordelingerne. Ydermere er disse fordelinger byggestene<br />
for det der hedder Generaliserede Lineære Modeller som er et vigtigt redskab i<br />
en <strong>statistik</strong>ers værktøjskasse.<br />
Definitionen på en eksponentiel familie vedrører hvordan data og parameter spiller<br />
sammen. Lad som et eksempel Pλ være poissonfordelingen med parameter λ og lad µ<br />
være tællemålet. Så kan vi skrive tætheden som<br />
dPλ λx<br />
(x) =<br />
dµ x! e−λ = e −λ · 1<br />
x!<br />
· exp{log(λ)x}.<br />
Hvad jeg har fremhævet her, er at tætheden kan skrives som en funktion af parameteren,<br />
ganget med en funktion af data, ganget med en eksponentialfunktion, hvor<br />
5
6 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />
argumentet er en funktion af parameteren ganget med en funktion af data. Det er denne<br />
struktur der nedenfor vil blive brugt i den generelle definition. Bemærk at den <strong>første</strong><br />
funktion af parameteren, lad os kalde den a(λ), er en normeringskonstant: eftersom vi<br />
betragter en tæthed, vil denne integrere til 1, og dermed har vi<br />
a(λ) ∑ x<br />
2.2 Definition<br />
<br />
1<br />
exp{log(λ)x} = 1 ⇒ a(λ) =<br />
x! ∑<br />
x<br />
1<br />
x! exp{log(λ)x}<br />
−1 .<br />
Jeg vil betragte en klasse P = {Pθ|θ ∈ Θ} af sandsynlighedsmål på målrummet<br />
(X , A, µ), hvor µ er et σ-endeligt mål. Familien P er parametriseret ved θ ∈ Θ, hvor<br />
Θ ⊆ Rp , d.v.s at hvis θ1 = θ2 så vil Pθ1 = Pθ2 . Antag, at µ dominerer alle målene i<br />
P, Pθ ≪ µ ∀θ ∈ Θ, og at der eksisterer en funktion φ = (φ1, . . . , φk) : Θ → Rk , en<br />
målelig funktion t = (t1, . . . , tk) : X → Rk , og en målelig funktion b : X → R således<br />
at<br />
dPθ<br />
dµ (x) = a(θ)b(x)eφ(θ)·t(x) , ∀θ ∈ Θ. (2.1)<br />
Hvis (2.1) er opfyldt, kaldes P en eksponentiel familie med kanonisk observator T = t(X)<br />
og kanonisk parameter φ(θ). Bemærk, at i (2.1) er a(·) bestemt ved<br />
<br />
a(θ) = b(x)e φ(θ)·t(x) −1 µ(dx)<br />
og er derfor kun en funktion af θ gennem φ(θ). Det mindste k for hvilket en repræsentation<br />
på formen (2.1) er mulig kaldes ordenen af familien. Hvis repræsentationen er<br />
minimal, d.v.s. at k er ordenen af familien, kaldes T en minimal kanonisk observator og<br />
ϕ en minimal kanonisk parameter.<br />
Eksempel 2.1.<br />
Jeg opskriver her nogle af de fordelinger I kender i forvejen på eksponentiel familieform.<br />
Binomialfordelingen. Lad X være binomialfordelt med antalsparamter n og sandsynlighedsparameter<br />
θ med 0 < θ < 1. Så er tætheden med hensyn til tællemålet µ<br />
givet ved<br />
dPθ (x) =<br />
dµ<br />
for x ∈ {0, . . . , n}.<br />
n<br />
x<br />
<br />
θ x (1 − θ) n−x = (1 − θ) n<br />
n<br />
x<br />
<br />
<br />
θ<br />
exp log x ,<br />
1 − θ<br />
Normalfordelingen. Lad X være normalfordelt med middelværdi µ og varians σ 2<br />
med (µ, σ 2 ) ∈ R × R+. Så er tætheden med hensyn til lebesguemålet m givet ved<br />
dP (µ,σ 2 )<br />
dm<br />
(x) = exp{− 1<br />
2σ 2(x − µ) 2 }<br />
√ 2πσ 2<br />
= exp{− µ2<br />
2σ 2 }<br />
√ 2πσ 2<br />
<br />
µ<br />
exp<br />
σ<br />
2σ<br />
1<br />
x − x2<br />
2 2<br />
for x ∈ R. Bemærk at i dette eksempel er b(x) = 1. <br />
<br />
,
2.3. MINIMAL FREMSTILLING OG KONVEKS STØTTE 7<br />
2.3 Minimal fremstilling og konveks støtte<br />
Jeg skal i dette afsnit angive en metode til at afgøre, om en fremstilling er minimal, og<br />
skal i denne forbindelse udtrykke mig “næsten sikkert” mht. et mål. Jeg starter derfor<br />
med følgende observation.<br />
Observation 2.2 Lad ν være målet på X givet ved<br />
dν<br />
(x) = b(x), (2.2)<br />
dµ<br />
hvor b(x) er fra (2.1). Der gælder at alle målene i P er indbyrdes ækvivalente, og at de<br />
er ækvivalente med ν , d.v.s. at alle disse mål har de samme nulmængder. <br />
Bevis. Da<br />
<br />
Pθ(A) =<br />
a(θ)e<br />
A<br />
φ(θ)·t(x) <br />
b(x)µ(dx) =<br />
A<br />
a(θ)e φ(θ)·t(x) ν(dx),<br />
har vi, at<br />
dPθ dν (x) = a(θ)eφ(θ)·t(x) . (2.3)<br />
Vi har derfor, at hvis N er en nulmængde for ν er N også en nulmængde for Pθ for alle<br />
θ ∈ Θ. Da (2.3) er strengt positiv, gælder der at ν(B) > 0 ⇒ Pθ(B) > 0. Hvis derfor N<br />
er en nulmængde for Pθ, følger det, at ν(N) = 0. <br />
Jeg vil skrive “næsten sikkert mht. P” som n.s.−P, og på grund af Observation 2.2<br />
skrive n.s.−P hvormed menes, at den angivne relation er korrekt på nær en af de fælles<br />
nulmængder for P θ og ν. Bemærk at Observation 2.2 viser, at hvis målene i en familie<br />
P ikke har samme støtte, så kan P ikke være en eksponentiel familie. <strong>Et</strong> eksempel på<br />
dette er familien af uniforme fordelinger på intervallet [0, θ], θ > 0.<br />
Lemma 2.3 Fremstillingen (2.1) er minimal hvis og kun hvis (i) og (ii) nedenfor er opfyldt:<br />
(i) funktionerne 1,φ1, . . . , φ k på Θ er lineært uafhængige, d.v.s.<br />
c0 + c1φ1(θ) + · · · + c kφ k(θ) = 0 ∀θ ∈ Θ ⇒ c0 = c1 = · · · = c k = 0, (2.4)<br />
(ii) funktionerne 1,t1, . . . , t k på X er lineært uafhængige næsten sikker mht. P, d.v.s<br />
c0 + c1t1(x) + · · · + c kt k(x) = 0 n.s. − P ⇒ c0 = c1 = · · · = c k = 0. (2.5)<br />
Bevis. Jeg viser først, at hvis (i) eller (ii) ikke er opfyldt, så er repræsentationen ikke<br />
minimal. Antag at (i) ikke er opfyldt. Der eksisterer altså en vektor c = 0, så at c0 + c ·<br />
φ(θ) = 0 ∀θ ∈ θ. Lad os sige at ck = 0, så har vi, at φk(θ) = −1<br />
c<br />
{c0 + c1φ1(θ) + · · · +<br />
k<br />
ck−1φk−1(θ)}, og vi kan skrive (2.1) som<br />
dP θ<br />
dµ (x) = a(θ)b(x)e−c0 t k(x)/c k exp<br />
<br />
k−1<br />
∑<br />
1<br />
φ i(θ)[t i(x) − c it k(x)/c k]<br />
<br />
.
8 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />
D.v.s. at vi har konstrueret en repræsentation af dimension k−1, og (2.1) er derfor ikke<br />
minimal. På helt tilsvarende måde vises, at hvis (ii) ikke er opfyldt, så er (2.1) ikke<br />
minimal.<br />
Vi antager nu, at (i) og (ii) er opfyldt, og skal vise at fremstillingen (2.1) er minimal.<br />
Vi bemærker først, at hvis θ0 ∈ Θ, så har vi fra (2.1) og Observation 2.2, at (se JHJ 3.19)<br />
dPθ dPθ0 = a(θ)<br />
a(θ0) exp[{φ(θ) − φ(θ0)} · t(x)]. (2.6)<br />
Vi betragter nu endvidere en minimal repræsentation af dimension m , med kanonisk<br />
parameter β(θ) og kanonisk observator u(x) . Vi har altså<br />
dPθ dPθ0 = ã(θ)<br />
ã(θ0) exp[{β(θ) − β(θ0)} · u(x)], (2.7)<br />
og skal vise at k = m. Fra (i) har vi, at vi kan vælge θ1, . . . , θk, så at k × k matricen<br />
⎛<br />
⎞∗<br />
φ(θ1) − φ(θ0)<br />
⎜<br />
⎟<br />
A = ⎝ . ⎠<br />
φ(θk) − φ(θ0)<br />
har fuld rang. Da (2.6) og (2.7) er tæthed for det samme mål, er de identiske n.s.−P, og<br />
vi har for i = 1, . . . , k,<br />
{φ(θ i) − φ(θ0)} · {t(x) − t(x0)} = {β(θ i) − β(θ0)} · {u(x) − u(x0)} n.s. − P.<br />
Skrevet på matriks form gælder der, at<br />
hvor B er m × k matricen<br />
{t(x) − t(x0)}A = {u(x) − u(x0)}B n.s. − P, (2.8)<br />
B =<br />
⎛<br />
⎜<br />
⎝<br />
β(θ1) − β(θ0)<br />
.<br />
β(θ k) − β(θ0)<br />
Da (2.7) er antaget minimal, har vi at m ≤ k. Antag nu at m < k, så eksisterer der<br />
d ∈ R k , d = 0, så at Bd ∗ = 0. Da A har fuld rang, er c ∗ = Ad ∗ = 0, og (2.8) giver<br />
⎞<br />
⎟<br />
⎠<br />
{t(x) − t(x0)}c ∗ = {u(x) − u(x0)}Bd ∗ = 0 n.s. − P,<br />
hvilket er i modstrid med (ii). Altså er m = k, og (2.1) er en minimal fremstilling. <br />
Betingelsen (2.4) er ækvivalent med at mængden<br />
Λ0 = {ϕ(θ)|θ ∈ Θ}<br />
ikke tilhører et affint underrum af R k .<br />
Jeg vil nu diskutere betingelsen (2.5). Støtten for en stokastisk variabel T, der lever<br />
i et metrisk rum, defineres som<br />
{t|P(kugle med centrum t og radius ǫ) > 0, ∀ǫ > 0}.<br />
∗
2.3. MINIMAL FREMSTILLING OG KONVEKS STØTTE 9<br />
Specielt hvis T kun kan antage endelig mange værdier, så er støtten de punkter, hvor<br />
der er positiv sandsynlighed. Hvis T ∈ R k siger vi, at koordinaterne i T er affint uafhængige<br />
n.s. hvis støtten for T ikke er indeholdt i et affint underrum af R k . Dette er<br />
ækvivalent med at sige, at der ikke findes c ∈ R k , c = 0, så at c · T er lig med en konstant<br />
n.s. Men dette er netop betingelsen (2.5). Betingelsen er også ækvivalent med at sige,<br />
at variansen af T, Var(T), er positiv definit. Lad os lige eftervise det sidste udsagn:<br />
cVar(T)c ∗ = 0 ⇐⇒ Var(c · T) = 0<br />
⇐⇒ c · T = konstant n.s. ⇔ c = 0,<br />
hvor den sidste ækvivalens er betingelsen (2.5). Bemærk, at for en eksponentiel familie<br />
P giver Observation 2.2 at støtten for T er den samme uanset hvilket sandsynlighedsmål<br />
Pθ ∈ P vi betragter. Tilsvarende, hvis variansen for T er positiv definit under<br />
P θ1 ∈ P så er variansen positiv definit under alle P θ ∈ P.<br />
Den lukkede konvekse støtte Ct for den eksponentielle familie P defineres som den<br />
mindste lukkede konvekse mængde K ⊂ R k med P θ(t(X) ∈ K) = 1 for alle θ ∈ Θ,<br />
eller ækvivalent hermed {x|t(x) /∈ K} er en P-nulmængde. I symboler kan vi skrive<br />
Ct = <br />
K∈K<br />
K, (2.9)<br />
hvor K er mængden af lukkede og konvekse mængder K med ν({x|t(x) /∈ K}) = 0.<br />
Det indre af Ct betegnes intCt. Hvis støtten for T er indeholdt i et affint underrum af R k ,<br />
vil vi i definitionen af Ct tage snit over mængder, der er indeholdt i et affint underrum,<br />
og vi vil derfor have at intCt = ∅. Med andre ord vil intCt = ∅ medføre, at støtten<br />
for T ikke er indeholdt i et affint underrum af R k , og dermed at betingelsen (2.5) er<br />
opfyldt. Omvendt, hvis støtten for T ikke er indeholdt i et affint underrum af R k kan<br />
vi finde k støttepunkter der udspænder R k og dermed vil intCt = ∅.<br />
Vi kan samle vores diskussion ovenfor i:<br />
Observation 2.4 Følgende betingelser er ækvivalente:<br />
• Betingelsen (2.5);<br />
• Støtten for T er ikke indeholdt i et affint underrum af R k ;<br />
• intCt = ∅;<br />
• Variansen Var(T) er positiv definit. <br />
Eksempel 2.5 (Binomialfordelingen).<br />
Lad X være binomialfordelt med antalsparamter n og sandsynlighedsparameter θ med<br />
0 < θ < 1. Så er tætheden med hensyn til tællemålet µ givet ved<br />
<br />
dPθ n<br />
(x) = (1 − θ)n<br />
dµ x<br />
<br />
θ<br />
exp log x .<br />
1 − θ
10 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />
Dette er en eksponentiel familie med t(x) = x og ϕ(θ) = log(θ/(1 − θ)). Repræsentationen<br />
er af dimension 1, og vi vil nu vise at den er minimal. Støtten for T er<br />
{0, 1, . . . , n} og denne tilhører ikke et affint underrum af R, det vil sige at (2.5) er op-<br />
fyldt. Hvis<br />
<br />
θ<br />
c0 + c1 log = 0 ∀0 < θ < 1,<br />
1 − θ<br />
kan vi tage θ = 1/2 hvoraf følger at c0 = 0, og dernæst kan vi tage θ = 1/4 hvoraf<br />
følger at c1 = 0. Det vil sige at (2.4) er opfyldt, og vi har vist at repræsentationen er<br />
minimal. Dette eksempel er meget simpelt: hvis vi har en eksponentiel familie med en<br />
repræsentation af dimension 1, vil repræsentationen altid være minimal så længe at<br />
der er mindst to sandsynlighedsmål i familien (hvis ordenen af familien er nul vil der<br />
kun være et sandsynlighedsmål i familien). <br />
2.4 Laplace- og kumulanttransform<br />
Laplacetransformen for T = t(X) under målet ν er<br />
<br />
<br />
c(ξ) = exp(ξ · t(x))ν(dx) =<br />
Rk exp(ξ · t)νT(dt) (2.10)<br />
X<br />
for ξ ∈ R k . Domænet for c(·) er Λ = {ξ ∈ R k |c(ξ) < ∞}. Lad os definere et sandsynlighedsmål<br />
˜P ξ på X , for ξ ∈ Λ, ved<br />
d ˜P ξ<br />
dν (x) = c(ξ)−1 exp(ξ · t(x)). (2.11)<br />
Så svarer P θ i (2.1) til ˜P φ(θ) her og a(θ) = c(φ(θ)) −1 . Klassen P er givet ved<br />
P = { ˜P ξ|ξ ∈ Λ0}, Λ0 = {φ(θ)|θ ∈ Θ}.<br />
Vi har altid at Λ0 ⊆ Λ. Hvis Λ0 = Λ kaldes familien P fuld, og hvis P er fuld og Λ er<br />
åben, kaldes familien regulær. Laplacetranformen for t(X) under ˜P ξ0 er<br />
<br />
X<br />
<br />
exp(ξ · t(x)) ˜P ξ0 (dx) =<br />
X<br />
exp((ξ + ξ0) · t(x))<br />
ν(dx) =<br />
c(ξ0)<br />
Kumulanttransformen for t(X) under målet ν er defineret som<br />
κ(ξ) = ln c(ξ).<br />
Fra (2.12) har vi at kumulanttransformen af t(X) under ˜P ξ0 er<br />
κ ξ0 (ξ) = κ(ξ + ξ0) − κ(ξ0).<br />
c(ξ + ξ0)<br />
. (2.12)<br />
c(ξ0)<br />
Hvis κP er kumulanttransformen for t(X) under et sandsynlighedsmål P, kaldes de<br />
afledede af κP taget i nul for t(X)’s kumulanter. Bemærk at for kumulanttransformen af<br />
t(X) under ˜P ξ0 har vi<br />
∂kκξ0 ∂<br />
(0) =<br />
kκ (ξ0)<br />
∂ξ i1 · · · ∂ξ ik<br />
∂ξ i1 · · · ∂ξ ik
2.4. LAPLACE- OG KUMULANTTRANSFORM 11<br />
Den <strong>første</strong> og anden kumulant er henholdsvis middelværdi og varians af t(X) under<br />
P, se (2.17) og (2.18) nedenfor. For en en-dimensional variable t(X) kaldes<br />
for henholdsvis skævheden og kurtosis.<br />
κ (3)<br />
P (0)<br />
(κ ′′ ,<br />
P<br />
(0))3/2<br />
κ (4)<br />
P (0)<br />
(κ ′′<br />
P<br />
(0))2 ,<br />
Fremover vil jeg skrive P ξ for ˜P ξ, selvom dette kan give forvirring i forhold til det<br />
tidligere P θ. Vi lader E ξ betegne middelværdi mht. sandsynlighedsmålet P ξ. Desuden<br />
vil Λ blive omtalt som det fulde parameterområde for den eksponentielle familie.<br />
Sætning 2.6. Antag at t(·) opfylder (2.5). Det fulde parameterområde Λ = {ξ|c(ξ) <<br />
∞} er konvekst, og κ er strengt konveks på Λ, d.v.s. at κ(αξ1 + (1 − α)ξ2) < ακ(ξ1) +<br />
(1 − α)κ(ξ2) for alle ξ1, ξ2 ∈ Λ, ξ1 = ξ2, og alle 0 < α < 1. <br />
Bevis. Lad ξ1, ξ2 ∈ Λ. Hölders ulighed (JHJ 3.11) giver<br />
<br />
e (αξ <br />
1+(1−α)ξ2)·t(x)<br />
ν(dx) = {e ξ1·t(x) α ξ2·t(x) 1−α } {e } ν(dx)<br />
<br />
e ξ α <br />
1·t(x)<br />
ν(dx)<br />
≤<br />
e ξ2·t(x) ν(dx)<br />
1−α<br />
= c(ξ1) α c(ξ2) 1−α < ∞, (2.13)<br />
så at αξ1 + (1 − α)ξ2 ∈ Λ, d.v.s. Λ er konvekst. Tager vi logaritmen i ovenstående<br />
ulighed, fås at κ(ξ) er en konveks funktion. Der gæder lighedstegn i Hölders ulighed,<br />
hvis og kun hvis<br />
e ξ 1·t(x) = Ke ξ2·t(x) n.s. − ν,<br />
for en konstant K, og dette er ensbetydende med at ξ1 = ξ2 ifølge (2.5). <br />
Sætning 2.7. Lad ξ ∈ Λ og antag at ξ ± h ∈ Λ. Så gælder<br />
E ξ|h · t(X)| n < ∞ ∀ n ∈ N.<br />
Specielt gælder, at hvis ξ ∈ intΛ, så eksisterer alle momenter af t(X) under P ξ. <br />
Bevis. Da |y| n /n! ≤ e y + e −y for alle y ∈ R, har vi<br />
<br />
|h · t(x)| n e ξ·t(x) <br />
ν(dx) ≤ n!<br />
e (ξ+h)·t(x) <br />
ν(dx) +<br />
e (ξ−h)·t(x) <br />
ν(dx) < ∞.<br />
Hvis ξ ∈ intΛ, vil ξ ± h ∈ Λ for alle små h. Derfor har vi, at E ξ|t j(X)| n < ∞ for alle<br />
j = 1, . . . , k og alle n. Hölders ulighed giver så, at<br />
E ξ|t1(X) n 1 · · · tk(X) n k| < ∞ for alle n1, . . . , n k. (2.14)
12 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />
Sætning 2.8. Hvis ξ ∈ intΛ gælder der at<br />
∂ n c(ξ1, . . . , ξ k)<br />
∂ξ a 1<br />
1 . . . ∂ξa k<br />
k<br />
= c(ξ)E ξ {t1(X) a 1 · · · tk(X) a k}, (2.15)<br />
hvor a1 + · · · + a k = n. <br />
Bevis. Ifølge (2.14) eksisterer momenterne i (2.15). Påstanden i (2.15) kan vises ved<br />
induktion i n : Lad kuglen med centrum i ξ og radius ǫ0 være indeholdt i Λ. Antag at<br />
påstanden holder for alle a1, . . . , a k med a1 + · · · + a k = n og betragt situationen hvor<br />
vil ændre a j til a j + 1. Vi vil benytte at<br />
Så fås<br />
|e ǫt <br />
<br />
j − 1| = <br />
<br />
ǫ<br />
0<br />
∂ n+1 c(ξ1, . . . , ξ k)<br />
∂ξ a1 1 . . . ∂ξa j+1<br />
j<br />
tje ut <br />
<br />
jdu ≤ ǫ|tj|(e ǫ0tj −ǫ0t<br />
+ e j) ∀ |ǫ| < ǫ0. (2.16)<br />
. . . ∂ξ ak k<br />
= lim 1<br />
<br />
∂nc(ξ1, . . . , ξj + ǫ, . . . , ξk) −<br />
ǫ<br />
∂n <br />
c(ξ1, . . . , ξk) <br />
= lim<br />
<br />
= lim =<br />
∂ξ a 1<br />
1 . . . ∂ξa k<br />
k<br />
∂ξ a1 1 . . . ∂ξa k<br />
k<br />
t1(x) a1 · · · tk(x) ak ξ·t(x)<br />
e eǫtj(x) − 1<br />
ν(dx)<br />
<br />
ǫ<br />
t1(x) a 1 · · · tj(x) a j+1 · · · tk(x) a ke ξ·t(x) ν(dx)<br />
= c(ξ)E ξ{t1(X) a 1 · · · tj(X) a j+1 · · · tk(X) a k },<br />
hvor det andet lighedstegn er induktionsantagelsen, og det tredje lighedstegn følger af<br />
(2.16) og sætningen om domineret konvergens. <br />
Bemærkning 2.9 Bemærk at Sætning 2.8 er et eksempel på, at vi må differentiere ind<br />
under integraltegnet. <br />
Benyttes Sætning 2.8 får vi følgende vigtige relationer for ξ ∈ intΛ,<br />
τ(ξ) := Eξt(X) = ∂κ<br />
(ξ)<br />
∂ξ<br />
(2.17)<br />
V(ξ) := Varξ(t(X)) = ∂2κ ∂τ<br />
(ξ) =<br />
∂ξ∂ξ ∗ ∂ξ∗(ξ) (2.18)<br />
Desuden har vi fra Observation 2.4 at hvis t(·) opfylder (2.5) så er<br />
Var ξ(t(X)) positiv definit for ξ ∈ intΛ. (2.19)<br />
Observation 2.10 Antag at t(·) opfylder (2.5). Hvis ξ1, ξ2 ∈ intΛ og ξ1 = ξ2, så er<br />
τ(ξ1) = τ(ξ2).
2.4. LAPLACE- OG KUMULANTTRANSFORM 13<br />
Bevis.<br />
(ξ2 − ξ1) · {τ(ξ2) − τ(ξ1)} = (ξ2 − ξ1) ·<br />
=<br />
1<br />
0<br />
1<br />
0<br />
dτ(ξ1 + s(ξ2 − ξ1))<br />
ds<br />
ds<br />
(ξ2 − ξ1)V(ξ1 + s(ξ2 − ξ1))(ξ2 − ξ1) ∗ ds > 0<br />
ifølge (2.19). <br />
Eksempel 2.11 (Normalfordelingen).<br />
Lad X være normalfordelt med middelværdi µ og varians σ 2 med (µ, σ 2 ) ∈ R × R+.<br />
Så er tætheden med hensyn til lebesguemålet m givet ved<br />
dP (µ,σ2 )<br />
(x) ==<br />
dm<br />
1<br />
√ 2πσ 2<br />
µ2<br />
exp{− } exp<br />
2σ2 µ<br />
σ<br />
2σ<br />
1<br />
x − x2<br />
2 2<br />
for x ∈ R. Dette er en eksponentiel familie med t(x) = (x, x2 ) og ϕ(µ, σ2 ) = ( µ<br />
I dette tilfælde er<br />
Λ0 = R × R−,<br />
og da området har ikke tomt indre er (2.4) opfyldt. Støtten for T er<br />
{(x, x 2 )|x ∈ R},<br />
<br />
,<br />
σ2 , − 1<br />
2σ2). eftersom enhver kugle omkring (z, z 2 ) vil indeholde et interval af x-værdier, og dermed<br />
have positiv sandsynlighed. Da støtten ikke er indeholdt i et affint underrum af<br />
R 2 , er (2.5) opfyldt, og vi har vist at repræsentationen er minimal. Vi vil nu undersøge<br />
om familien er fuld. Vi skal da undersøge hvornår integralet<br />
<br />
R<br />
exp ξ1x + ξ2x 2 dx<br />
er endeligt. Hvis ξ2 ≥ 0 vil integranten gå mod uendelig for x gående mod enten +∞<br />
eller −∞ og integralet er ikke endeligt. Tilbage er området Λ0 og vi har derfor vist at<br />
Λ = Λ0, det vil sige at familien er fuld. Da Λ også er åben er familien regulær.<br />
Laplacetransformen for T under lebesguemålet er<br />
<br />
c(ξ) = exp{ξ1x + ξ2x 2 }dx<br />
R<br />
<br />
= exp<br />
=<br />
− 1<br />
4 ξ2 1 /ξ2<br />
<br />
R<br />
<br />
π/(−ξ2) exp{− 1<br />
4 ξ2 1 /ξ2}.<br />
<br />
exp ξ2 x − 1<br />
2 ξ1/(−ξ2)<br />
2 dx<br />
Kumulanttransformen er derfor κ(ξ) = − 1 4 ξ2 1 /ξ2 − 1 2 log(−ξ2/π). Fra (2.17) får vi<br />
EξX = −ξ1<br />
, EξX 2ξ2<br />
2 = ξ2 1<br />
4ξ2 −<br />
2<br />
1<br />
.<br />
2ξ2<br />
Med ξ = (ξ1, ξ2) = (µ/σ 2 , −1/(2σ 2 )) bliver formlerne<br />
E (µ,σ 2 ) X = − µ(−2σ2 )<br />
2σ 2 = µ, E (µ,σ 2 ) X2 = µ2 (4σ 4 )<br />
4σ 4<br />
−2σ2<br />
−<br />
2 = µ2 + σ 2 .
14 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />
Det er sommetider muligt at vise at en familie er fuld ved hjælp af følgende resultat.<br />
Observation 2.12 Lad Λ0 være et åbent område i R k . Hvis der for ethvert punkt ξ1 på<br />
randen af Λ0 gælder, at der eksisterer ξ0 ∈ Λ0, så at<br />
c(ξ) → ∞,<br />
for ξ → ξ1 langs liniestykket fra ξ0 til ξ1, så vil Λ0 = Λ. <br />
Bevis. Vi vil vise at c(ξ1) = ∞ for alle punkter ξ1 på randen af Λ0. Så følger det fra<br />
sætning 2.6 at Λ ikke kan være større end Λ0 (hvis ˜ξ ∈ Λ \ Λ0 så vil der, da Λ er<br />
konvekst, findes ξ1 ∈ Λ med ξ1 på randen af Λ0, men dette er en modstrid med c(ξ1) =<br />
∞). Vi laver et modstridsbevis. Antag at c(ξ1) < ∞. Så fra (2.13) har vi med ξ = αξ1 +<br />
(1 − α)ξ0, 0 < α < 1,<br />
c(ξ) ≤ c(ξ1) α c(ξ0) 1−α ≤ max{c(ξ1), c(ξ0)},<br />
hvilket er en modstrid med at c(ξ) → ∞. Altså er c(ξ1) = ∞. <br />
Observation 2.12 bruges på den måde at for ξ ∈ Λ0 har vi at ξ = ϕ(θ) for et θ ∈ Θ og<br />
dermed<br />
c(ξ) = a(θ) −1 .<br />
Hvis derfor a(θ) går mod nul for θ gående mod randen af Θ og Λ0 er åbent i R k vil<br />
familien være fuld.<br />
Det næste lemma viser at Observation 2.12 har en invers: hvis c(ξ) → ∞ for ξ<br />
gående mod randen af Λ0, så vil familien ikke være fuld.<br />
Lemma 2.13 Lad ξ /∈ Λ og lad ξn ∈ Λ med ξn → ξ for n → ∞. Så vil c(ξn) → ∞. <br />
Bevis. Da exp{ξn · t(x)} ≥ 0 siger Fatou’s lemma (JHJ 3.5) at<br />
<br />
∞ = c(ξ) = lim inf exp{ξn · t(x)}ν(dx)<br />
n<br />
<br />
≤ lim inf exp{ξn · t(x)}ν(dx)<br />
n<br />
= lim inf c(ξn),<br />
n<br />
hvilket viser resultatet. <br />
2.5 Estimation<br />
Jeg betragter i dette afsnit den fulde eksponentielle familie (2.11) med ξ ∈ Λ = {ξ|<br />
c(ξ) < ∞}, og antager at fremstillingen er minimal. For den observerede værdi t =<br />
t(x) er log likelihood funktionen<br />
l(ξ) = l(ξ; t) = ξ · t − κ(ξ), ξ ∈ Λ. (2.20)
2.5. ESTIMATION 15<br />
Sætning 2.14. Antag at den eksponentielle familie er regulær og på minimal form.<br />
Da eksisterer der ˆξ = ˆξ(t) ∈ Λ, så at log likelihood funktionen (2.20) antager sin<br />
maksimumsværdi i ˆξ, hvis og kun hvis t ∈ intCt. Da fra Sætning 2.6 l(ξ) er strengt<br />
konkav, vil for t ∈ intCt estimatet ˆξ være entydigt bestemt og være løsning til ligningen<br />
∂l(ξ)<br />
∂ξ<br />
= t − ∂κ(ξ)<br />
∂ξ<br />
= t − τ(ξ) = 0, (2.21)<br />
d.v.s. ˆξ = τ −1 (t). <br />
Bevis. Vi viser først, at t ∈ intCt medfører, at l(ξ) antager sit maksimum på Λ. Vi<br />
bruger et modstrids bevis. Antag at l(ξn) er voksende, hvor ξn ∈ Λ og ξn går mod<br />
randen af Λ. Hvis følgen ξn er begrænset, kan vi tage en delfølge {nk}, så at ξn → k<br />
˜ξ /∈ Λ. Det følger af Lemma 2.13, at c(ξn ) → ∞ da c( k ˜ ξ) = ∞, og dermed fra (2.20),<br />
at l(ξn ) → −∞, hvilket er en modstrid. Hvis i stedet følgen ξn er ubegrænset, kan vi<br />
k<br />
tage en delfølge på formen ξn = u k kek, hvor ek er en enhedsvektor i Rk med ek → e, og<br />
uk → ∞. Så giver Fatou’s lemma<br />
lim inf e<br />
k<br />
−l(ξn<br />
<br />
)<br />
k = lim inf e<br />
k<br />
ukek·(t(x)−t) ν(dx)<br />
<br />
≥ lim inf e<br />
k<br />
ukek·(t(x)−t) ν(dx)<br />
≥ ∞ · ν({x : e · (t(x) − t) > 0} = ∞,<br />
hvor det sidste lighedstegn følger af, at t ∈ intCt. Altså har vi igen at l(ξn k ) → −∞, og<br />
dermed en modstrid.<br />
Vi skal nu vise, at hvis t /∈ intCt, så antager l(ξ) ikke sit maksimum på Λ. Vi vil<br />
vise, at for ethvert ξ0 ∈ Λ findes der en retning e , så at når vi forlader ξ0 i e’s retning<br />
vokser l(ξ). Da t /∈ intCt findes der en enhedsvektor e, så at<br />
Derfor vil<br />
ν({x|e · (t(x) − t)) > 0} = 0.<br />
e −l(ξ0+λe)<br />
<br />
=<br />
e λe·(t(x)−t) e ξ0·(t(x)−t) ν(dx) (2.22)<br />
være aftagende i λ > 0. Den strenge konkavitet af l(ξ) giver, at (2.22) er strengt aftagende,<br />
og l(ξ) har derfor ikke maksimum i ξ0. <br />
Bemærkning 2.15 Bemærk at Sætning 2.14 viser, at i en regulær familie på minimal<br />
form, er<br />
τ(Λ) = intCt, (2.23)<br />
eftersom τ(ξ) = t medfører at l(·; t) har maksimum i ξ. Fra Observation 2.10 har vi<br />
altså, at τ(·) er en en-til-en afbildning af Λ på intCt. Da τ fra Sætning 2.8 er uendelig<br />
ofte differentiabel, gælder det samme for ˆξ(·) = τ −1 (·) : intCt → Λ. <br />
Den næste sætning angiver jeg uden bevis.<br />
Sætning 2.16. For en fuld eksponentiel familie med minimal repræsentation (2.11)<br />
gælder at
16 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />
(i) t ∈ intCt ⇒ l(ξ; t) har entydigt bestemt maksimumspunkt ˆξ(t),<br />
(ii) t /∈ intCt ⇒ l(ξ; t) antager ikke sit supremum for ξ ∈ Λ ,<br />
(iii) t ∈ τ(intΛ) ⊆ intCt ⇒ ˆξ(t) er den entydigt bestemte løsning til ligningen τ(ξ) =<br />
t, med ξ ∈ intΛ. <br />
Bemærk at hvis t ∈ intCt\τ(intΛ), så skal det entydigt bestemte ˆξ(t) findes på randen<br />
af Λ. <strong>Et</strong> eksempel til belysning af situationen i Sætning 2.16 er tætheden<br />
1<br />
exp(−|x| + θx − κ(θ)),<br />
1 + x4 hvor Ct er hele R og τ(int Λ) er et endeligt interval.<br />
Jeg slutter dette afsnit med at se på situationen med n uafhængige og identisk fordelte<br />
variable X1, . . . , Xn, hvor fordelingen tilhører den eksponentielle familie (2.11).<br />
Den simultane tæthed er<br />
dPn ξ<br />
dνn (x1, . . . , xn) = c(ξ) −n <br />
exp ξ · t(xi) ,<br />
d.v.s. at vi har igen en eksponentiel familie af orden k idet :<br />
Observation 2.17 Hvis 1, t1(x), . . . , t k(x) er lineært uafhængige n.s.−ν, så er også 1,<br />
∑ n 1 t1(x i), . . . , ∑ n 1 t k(x i) lineært uafhængige n.s.−ν n . <br />
Bevis.<br />
⇓<br />
⇓<br />
n<br />
c0 + c1 ∑<br />
1<br />
t1(x i) + · · · + c k<br />
n<br />
∑<br />
1<br />
n<br />
∑<br />
1<br />
t k(x i) = 0 n.s. − ν n<br />
∃ x2, . . . , xn så at der n.s-ν mht. x1 gælder:<br />
n<br />
n <br />
c0 + c1 t1(xi) + · · · + ck tk(xi) + c1t1(x1) + · · · + cktk(x1) = 0<br />
∑ 2<br />
∑ 2<br />
c k = · · · = c1 = c0 = 0. <br />
Log likelihood funktionen er<br />
ln(ξ) = ξ ·<br />
n<br />
∑<br />
1<br />
t(x i) − nκ(ξ) = nl(ξ; ¯t)<br />
med ¯t = ∑ t(x i)/n, og hvor l(ξ; t) er givet i (2.19). Estimation baseret på x1, . . . , xn er<br />
derfor som før med t erstattet af ¯t, og resultaterne fra Sætningerne 2.14 og 2.16 kan<br />
bruges.
2.6. MARGINALE OG BETINGEDE FORDELINGER 17<br />
Eksempel 2.18 (Normalfordelingen).<br />
I eksempel 2.11 så vi at normalfordelingerne med middelværdi µ og varians σ 2 med<br />
(µ, σ 2 ) ∈ R × R+ udgør en regulær eksponentiel familie. Den kanoniske observator er<br />
t(x) = (x, x 2 ) og støtten for T er<br />
Den konvekse støtte for T er derfor<br />
{(x, y) ∈ R 2 |y = x 2 }.<br />
Ct = {(x, y) ∈ R 2 |y ≥ x 2 }.<br />
Da ethvert punkt (x, x 2 ) er på randen af Ct vil maksimum likelihood estimaterne for<br />
(µ, σ 2 ) eller ξ = (µ/σ 2 , −1/(2σ 2 ) ikke eksistere når vi blot har én observation. Når vi<br />
istedet har n > 1 observationer x1, . . . , xn eksisterer maksimum likelihood estimaterne<br />
med sandsynlighed 1. Dette er fordi<br />
1<br />
n<br />
n<br />
∑<br />
i=1<br />
(x i, x 2 i<br />
1<br />
) =<br />
n (x1, x 2 1<br />
1 ) + · · · +<br />
n (xn, x 2 n) ∈ int Ct<br />
hvis der blot er to observationer der er forskellige. Udsagnet følger af at x → x 2 er en<br />
strengt konveks kurve og derfor vil en konveks kombination af forskellige punkter på<br />
denne kurve ikke ligge på kurven. <br />
2.6 Marginale og betingede fordelinger<br />
Vi betragter igen en fuld eksponentiel familie med minimal repræsentation (2.11). Lad<br />
ξ = (ξ (1) , ξ (2) ) og t(x) = (t (1) (x), t (2) (x)) være en opsplitning i de <strong>første</strong> m og de sidste<br />
(k − m) koordinater med 1 ≤ m < k. Hvad kan vi sige om de marginale fordelinger<br />
for t (2) (X) og de betingede fordelinger af t (1) (X) givet t (2) (X)?<br />
Observation 2.19 Der gælder generelt følgende formel for marginale tætheder<br />
<br />
dQU<br />
dQ<br />
(u) = EP (X) | U = u .<br />
dPU<br />
dP<br />
Bevis. Se afsnit 11.4. <br />
Benyttes denne for den marginale tæthed for t (2) (X) fås<br />
dP ξT (2)<br />
dP ξ0T (2)<br />
(v) = E ξ0<br />
= c(ξ0)<br />
c(ξ) E ξ0<br />
dPξ<br />
dP ξ0<br />
<br />
exp<br />
(X) | t (2) <br />
(X) = v<br />
<br />
(ξ (1) − ξ (1)<br />
0 ) · t(1) (X)<br />
<br />
| t (2) <br />
(X) = v exp<br />
(ξ (2) − ξ (2)<br />
0<br />
<br />
(2.24)<br />
<br />
) · v .<br />
Hvis vi ser på delklassen P0 = {P ξ|ξ ∈ Λ0} med Λ0 = {(ξ (1) , ξ (2) )|ξ (1) = ξ (1)<br />
0 }, er<br />
(2.24) på formen (2.1), og de marginale fordelinger af t (2) (X) udgør en ekponentiel<br />
familie P 0T (2).
18 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />
Hvis P er fuld, er P 0T (2) også fuld, idet<br />
<br />
exp[α · v]P ξ0T (2)(dv) = Eξ0 exp[α · t(2) (X)] = Eξ0 exp[0 · t(1) (X) + α · t (2) (X)]<br />
som er endelig, hvis og kun hvis (0, α) = ξ − ξ0 for et eller andet ξ ∈ Λ, d.v.s. α = ξ (2) −<br />
ξ0 (2) for ξ ∈ Λ, og vi får netop klassen P 0T (2). Hvis Λ er åben, er {α|ξ0 + (0, α) ∈ Λ} en<br />
åben mængde i R k−m , d.v.s. hvis P er regulær, er P 0T (2) også regulær.<br />
Vi vender os nu mod de betingede fordelinger.<br />
Observation 2.20 Lad P og Q være to sandsynlighedsmål på (X , A) med Q ≪ P. Lad<br />
(Y, B) være et andet målrum og lad t : X → Y være en målelig afbildning. Definer<br />
f(x) = dQ<br />
<br />
(x), g(t) =<br />
dP<br />
Så gælder der at Q T (·|t) ≪ P T (·|t) og<br />
dQ(·|t)<br />
(x) =<br />
dP(·|t)<br />
f(x)P T (dx|t), D = {t|0 < g(t) < ∞}.<br />
⎧<br />
⎨<br />
f(x)<br />
g(t)<br />
t ∈ D<br />
⎩<br />
1 t /∈ D.<br />
Bemærk at PT({t|g(t) = ∞}) = 0 og dermed også QT({t|g(t) = ∞}) = 0. Desuden<br />
har vi fra Observation 2.19 også at QT({t|g(t) = 0}) = 0. Vi har altså at QT(D c ) = 0. <br />
Bevis. Se afsnit 11.4. <br />
Eksempel 2.21.<br />
Lad Q være fordelingen for (X1, . . . , Xn), hvor X-erne er uafhængige og<br />
Q(X i = 1) = 1 − Q(X i = 0) = θ,<br />
og lad P være den tilsvarende fordeling med θ = 1/2. Med U + X1 + · · · + Xn er<br />
og<br />
Fra Observation 2.20 får vi<br />
dQ(·|U = u)<br />
(x) =<br />
dP(·|U = u)<br />
dP<br />
d♯n(x) =<br />
<br />
1<br />
n ,<br />
2<br />
dQ<br />
d♯ n(x) = θu (1 − θ) n−u ,<br />
dQ<br />
dP (x) = 2n θ u (1 − θ) n−u .<br />
2 n θ u (1 − θ) n−u<br />
EP(2 n θ u (1 − θ) n−u |U = u) =<br />
2 n θ u (1 − θ) n−u<br />
2 n θ u (1 − θ) n−u EP(1|U = u)<br />
hvilket viser at den betingede fordeling af (X1, . . . , Xn) givet U = u er den samme<br />
uanset værdien af θ. <br />
= 1,
2.7. KOMPLETHED AF DEN MINIMALKANONISKE OBSERVATOR 19<br />
For den betingede fordeling af X givet t (2) (X) = u får vi<br />
dP ξ(·|t (2) (X) = u)<br />
dP ξ0 (·|t(2) (X) = u) =<br />
=<br />
e (ξ−ξ0)·t(x)<br />
E ξ0 (e(ξ−ξ0)·t(X) |t (2) (X) = u)<br />
e (ξ(1) −ξ (1)<br />
0 )·t(1) (x)<br />
E ξ0 (e(ξ(1) −ξ (1)<br />
0 )·t(1) (x) |t (2) (X) = u)<br />
For en fast værdi af u udgør de betingede fordelinger således en eksponentiel familie.<br />
Denne betingede familie er ikke nødvendigvis fuld, selvom P er fuld.<br />
Ovenfor betragtede vi de <strong>første</strong> m og sidste k − m koordinater i ξ og t(x). Generelt<br />
kan vi lade A2 være en k × (k − m) matrix af fuld rang k − m. Denne supplerer vi med<br />
A1 : k × m så at<br />
A = (A1, A2)<br />
er en invertibel k × k matriks. Da<br />
ξ · t(x) = ξt(x) ∗ = [ξA ∗−1 ][t(x)A] ∗ ,<br />
kan vi opskrive P som en eksponentiel familie med minimal kanonisk observator<br />
˜t(x) = t(x)A og minimal kanonisk parameter ˜ξ = ξA ∗−1 . Vi har derfor:<br />
Sætning 2.22. Lad P være en regulær familie og lad A være som ovenfor. Så udgør<br />
de marginale fordelinger for ˜t (2) (X) = t(X)A2 i delmodellen med ˜ξ (2) fast en regulær<br />
eksponentiel familie. <br />
Bemærkning 2.23 Hvis vi betragter en delmodel givet ved {P ξ|ξ ∈ ˜Λ}, hvor ˜Λ ⊂ Λ<br />
er åben, vil det kanoniske parameterområde for de marginale fordelinger af t(X)A2<br />
under ˜ξ (2) fast også være åben. Når det kanoniske parameterområde er åbent taler vi<br />
om en åben eksponentiel familie. <br />
2.7 Komplethed af den minimalkanoniske observator<br />
For en general klasse P af sandsynlighedsmål på målrummet (X , A), og en generel<br />
observator t : (X , A) → (Y, B) med værdier i målrummet (Y, B), skal jeg nu definere<br />
komplethed. Intuitivt skal vi formalisere, at klassen P er stor nok til, at en funktion er<br />
entydigt fastlagt ud fra dens middelværdier under P, P ∈ P.<br />
Observatoren T = t(X) siges at være komplet under P (henholdsvis begrænset komplet)<br />
hvis der for enhver funktion f : (Y, B) → (R, B(R)) (henholdsvis enhver begrænset<br />
funktion) med<br />
<br />
EP f(T) = f(t(x))P(dx) = 0 ∀ P ∈ P,<br />
gælder at<br />
f(t(x)) = 0 n.s. − P for alle P ∈ P.<br />
Observation 2.24 Hvis T er komplet så er T også begrænset komplet. <br />
Observation 2.25 Hvis T er komplet så er også ˜T = g(T) komplet, hvor g er en målelig<br />
afbildning fra Y til ˜Y.
20 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />
Bevis. Antag at EP f( ˜T) = EP f(g(T)) = 0 for alle P ∈ P. Heraf følger at f(g(t(x))) =<br />
f(˜t(x)) = 0 n.s.-P for alle P ∈ P. <br />
Sætning 2.26. Lad P = {P ξ|ξ ∈ Λ0} være en eksponentiel familie på minimal form<br />
dPξ<br />
dµ (x) = a(ξ)b(x)eξ·t(x) , x ∈ X , ξ ∈ Λ0 ⊆ R k .<br />
Vi antager ikke her, at Λ0 er det fulde parameter område. Hvis intΛ0 = ∅, er T = t(X)<br />
komplet under P = {P ξ|ξ ∈ Λ0}. <br />
Bevis. Lad ξ0 ∈ Λ0 og lad f : Rk → R opfylde<br />
<br />
0 = a(ξ)b(x)e ξ·t(x) f(t(x))µ(dx) = a(ξ)<br />
<br />
a(ξ0)<br />
e (ξ−ξ0)·t(x) f(t(x))Pξ0 (dx), (2.25)<br />
for alle ξ ∈ Λ0. Lad f + (t) = f(t)1( f(t) > 0) og f − (t) = − f(t)1( f(t) < 0), og definer<br />
de to mål ν + og ν − på (R k , B(R k )) ved<br />
dν +<br />
dP ξ0T<br />
(t) = f + (t) og dν−<br />
(t) = f<br />
dPξ0T − (t).<br />
Disse to mål er endelige, idet f er Pξ-integrabel for alle ξ ∈ Λ0. Så viser (2.25), at<br />
<br />
e (ξ−ξ0)·t<br />
<br />
+<br />
ν (dt) = e (ξ−ξ0)·t −<br />
ν (dt) ∀ ξ ∈ Λ0.<br />
Denne ligning siger, at Laplacetransformerne for de to mål ν + og ν − stemmer overens<br />
på Λ0 − ξ0. Da int(Λ0 − ξ0) = ∅ følger det af JHJ, afsnit 4.19, at ν + = ν − . Dette giver<br />
til gengæld, at<br />
f + (t) = f − (t) n.s. − P ξ0T,<br />
og dermed fra definitionen af f + og f − , at<br />
Observationen 2.2 giver så, at<br />
f(t) = 0 n.s. − P ξ0T.<br />
f(t(x)) = 0 n.s. − P ξ for alle ξ ∈ Λ0. <br />
Eksempel 2.27.<br />
Lad X være binomialfordelt med antalsparameter n og sandsynlighedsparameter θ. Så<br />
siger sætningen ovenfor at hvis<br />
E θ f(X) = 0 ∀ 0 < θ < 1,<br />
så vil der gælde at f(0) = f(1) = · = f(n) = 0. Lad os vise dette direkte. Vi har altså<br />
at<br />
<br />
θ x (1 − θ) n−x = 0<br />
n <br />
n<br />
∑ f(x)<br />
x<br />
x=0<br />
for alle θ. Lader vi nu θ → 0 forsvinder alle led i summen pånær det <strong>første</strong>, som bliver<br />
f(0). Vi kan altså slutte at f(0) = 0. Vi dividerer nu ligningen ovenfor med θ og lader<br />
igen θ → 0. Dette giver os at f(1) = 0, og sådan fortsætter vi indtil vi har vist at f er<br />
identisk nul.
2.8. OPGAVER 21<br />
2.8 Opgaver<br />
Opgave 2.1<br />
Opskriv hver af familierne nedenfor på eksponentiel familieform. Angiv støtten for<br />
den kanoniske observator T, den konvekse støtte Ct, samt variationsområdet Λ0 for<br />
den kanoniske parameter og det fulde parameterområde Λ. Udregn desuden middelværdi<br />
og varians for den kanoniske observator.<br />
a) Binomialfordelingerne med antalsparameter n fast og sandsynlighedsparameter<br />
0 < θ < 1.<br />
b) Poissonfordelingerne med parameter λ > 0. Find i dette tilfælde også skævhed<br />
og kurtosis af en poissonfordelt variabel.<br />
c) Normalfordelingerne med middelværdi µ og varians σ 2 med (µ, σ 2 ) ∈ R × R+.<br />
d) Gammafordelingerne med formparameter λ og invers skalaparameter β med<br />
(λ, β) ∈ R 2 + .<br />
Opgave 2.2<br />
Find det fulde parameterområde Λ for den eksponentielle familie med tætheder<br />
i tilfældene<br />
Her er m Lebesguemålet på R.<br />
dP ξ<br />
dm (x) = a(ξ)b(x)eξx , x ∈ R,<br />
(i) b(x) = e −|x| og (ii) b(x) = e−|x|<br />
.<br />
1 + x2 Opgave 2.3<br />
Betragt en eksponentiel familie på formen (2.1) med t(x) ∈ R k . Vis, at hvis støtten for<br />
T er begrænset, og familien er ikke tom, så er det fulde parameterområde Λ lig med<br />
R k .<br />
Opgave 2.4<br />
Denne opgave er en hjælp til jer, når I skal vise affin uafhængighed næsten sikkert.<br />
Lad (X , A, µ) være et metrisk målrum, hvor målet µ giver strengt positivt mål til<br />
enhver åben kugle. Lad desuden t1, . . . , t k være kontinuerte funktioner fra X ind i R.<br />
Vis, at hvis t1(·), . . . , t k(·) er affint uafhængige som funktioner på X , så er de også<br />
affint uafhængige næsten sikkert med hensyn til µ.<br />
Vink: Lad (α0, . . . , α k) = 0. Så findes x0 ∈ X , så at α0 + α1t1(x0) + · · · + α kt k(x0) = 0.<br />
Overvej, at<br />
{x ∈ X |α0 + α1t1(x) + · · · + α kt k(x) = 0}<br />
er en åben og ikke-tom mængde, og dermed har positivt µ-mål.
22 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />
Opgave 2.5<br />
Denne opgave viser, at den minimal kanoniske observator kan være komplet, selv om<br />
det indre af det kanoniske paramterområde er tomt.<br />
Lad X og Y være uafhængige og Poissonfordelte med EX = θ −1 og EY = exp(−θ),<br />
hvor parameteren θ varierer i R+. Vis, at dette er en eksponentiel familie af orden 2<br />
med kanonisk observator t(x, y) = (x, y) og kanonisk parameter (− ln θ, −θ). Vis, ved<br />
direkte undersøgelser, at (X, Y) er komplet.<br />
Vink: Hvis E θ f(X, Y) = 0 for alle θ, vis da først at f(0, 0) = 0 ved at lade θ → ∞,<br />
dernæst f(k, 0) = 0 for alle k > 0, og endelig at f(k, l) = 0 for alle k > 0 og l > 0.<br />
Opgave 2.6<br />
Betragt en eksponentiel familie på minimal form<br />
dP θ<br />
dµ (x) = a(θ)b(x)eϕ(θ)·t(x) ,<br />
hvor ϕ : Θ → R k og Θ er et åbent område i R k . Vis at<br />
og<br />
E θt(X) = τ(ϕ(θ)) =<br />
V θt(X) =<br />
∂(− ln a(θ))<br />
∂θ<br />
∂ϕ ∗<br />
<br />
∂ϕ<br />
∂θ∗ −1 ∂Eθt(X)<br />
∂θ∗ .<br />
Opgave 2.7<br />
Lad (X1, Y1), (X2, Y2), . . . , (Xn, Yn) være n uafhængige observationer fra den todimensionale<br />
normalfordeling med middelværdivektor (0, 0) og variansmatrix<br />
<br />
1 ρ<br />
ρ 1<br />
∂θ<br />
−1<br />
hvor korrelationskoefficienten ρ har intervallet (−1, 1) som variationsområde.<br />
1) Vis at den således fastlagte familie af fordelinger for samplet (X1, Y1), . . . , (Xn, Yn)<br />
er eksponentiel, bestem ordenen af denne eksponentielle familie, og angiv en<br />
minimal kanonisk observator og en minimal kanonisk parameter. Er familien<br />
fuld?<br />
2) Opstil likelihoodligningen for ρ.<br />
Opgave 2.8<br />
Antag, at X−1 og X1 er uafhængige og Poissonfordelte med middelværdi<br />
λ i = 1 2 eα+iβ , i = −1 og 1.<br />
Lad P = {P (α,β) : (α, β) ∈ R 2 } betegne klassen af fordelinger for X = (X−1, X1).
2.8. OPGAVER 23<br />
1) Vis, at P er en regulær eksponentiel familie af orden 2.<br />
2) Angiv definitionsområdet D for maximum likelihood estimatoren (ˆα, ˆ β) og vis,<br />
at hvis x ∈ D, så er<br />
<br />
ˆα(x) = ln 2 <br />
X−1X1<br />
og<br />
ˆβ(x) = ln<br />
<br />
X1<br />
X−1<br />
3) Vis, at informationsfunktionen svarende til observationen (x−1, x1) er<br />
4) Lad<br />
j(α, β) =<br />
<br />
e α cosh(β) e α sinh(β)<br />
e α sinh(β) e α cosh(β)<br />
.<br />
<br />
.<br />
τ = e α cosh(β) (= E (α,β)(X−1 + X1)).<br />
Vis, at P kan parametriseres ved (τ, β) samt at variationsområdet for (τ, β) er<br />
(0, ∞) × (−∞, ∞).<br />
Opgave 2.9(Den logaritmiske fordeling)<br />
Definer sandsynlighedsmålet P θ, 0 < θ < 1, på X = {1, 2, . . .} ved<br />
dPθ θx<br />
(x) = (− log(1 − θ))−1<br />
d♯ x ,<br />
hvor ♯ er tællemålet. Opskriv familien på eksponentiel familieform. Angiv støtten for<br />
den kanoniske observator T, den konvekse støtte Ct, samt variationsområdet Λ0 for<br />
den kanoniske parameter og det fulde parameterområde Λ. Udregn desuden middelværdi<br />
og varians for den kanoniske observator.<br />
Opgave 2.10(Den negative binomialfordeling)<br />
Definer sandsynlighedsmålet Pθ, 0 < θ < 1, på X = {0, 1, 2, . . .} ved<br />
<br />
dPθ κ + x − 1<br />
(x) =<br />
θ<br />
d♯ x<br />
x (1 − θ) κ ,<br />
hvor ♯ er tællemålet og κ > 0 er en fast parameter. Opskriv familien på eksponentiel familieform.<br />
Angiv støtten for den kanoniske observator T, den konvekse støtte Ct, samt<br />
variationsområdet Λ0 for den kanoniske parameter og det fulde parameterområde Λ.<br />
Udregn desuden middelværdi og varians for den kanoniske observator.<br />
Opgave 2.11(Den inverse gauss fordeling)<br />
Definer sandsynlighedsmålet P (χ,ψ), (χ, ψ) ∈ R 2 + , på X = R+ ved<br />
dP (χ, ψ)<br />
(x) =<br />
dm<br />
√ χ exp( √ χψ)<br />
√ 2πx 3<br />
<br />
exp − χ<br />
2x<br />
<br />
ψx<br />
− ,<br />
2
24 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />
hvor m er lebesguemålet. Opskriv familien på eksponentiel familieform. Angiv støtten<br />
for den kanoniske observator T, den konvekse støtte Ct, samt variationsområdet<br />
Λ0 for den kanoniske parameter og det fulde parameterområde Λ. Udregn desuden<br />
middelværdi og varians for den kanoniske observator.
Kapitel 3<br />
Sufficiens<br />
3.1 Indledning og definition<br />
Når data i et forsøg er indsamlet, vil man naturligt stille sig spørgsmål som “Hvad<br />
er de væsentlige træk i data?” og “Hvor er informationen om de ukendte aspekter i<br />
de forhold, der undersøges?” Med andre ord vil vi gerne reducere et stort og uoverskueligt<br />
datamateriale til nogle få interpretérbare størrelser. Som nævnt i indledningen<br />
betragter vi i dette notesæt udelukkende parametriske modeller. Vores udgangspunkt<br />
er altså, at vi har valgt en parametrisk model til at beskrive forsøget, og vi ønsker nu<br />
at undersøge hvilke reduktioner i data, vi kan udføre uden at miste information om<br />
den ukendte parameter. Hvis data er x , og T = t(x) er en reduktion af data, vil vi formalisere<br />
at T er sufficient for parameteren ved at forlange, at den betingede fordeling<br />
af X givet t(X) = t ikke afhænger af den ukendte parameter. Ideen er, at vi altid kan<br />
betragte forsøget som bestående af to trin: i <strong>første</strong> trin observeres T = t og dernæst<br />
observeres x fra den betingede fordeling af X givet T = t. Det sidste trin giver ingen<br />
information om parameteren, eftersom sandsynlighederne for de forskellige udfald er<br />
de samme for alle parameterværdierne. Man kan sige, at denne begrundelse bygger på<br />
et ikke nærmere specificeret selvvalgt princip for inferens, og lad mig derfor påpege, at<br />
de forskellige optimalitetsegenskaber, vi skal betragte, medfører, at vi kan nøjes med<br />
at betragte en sufficient reduktion af data. Som et simpelt eksempel kan jeg nævne, at<br />
maksimum likelihood estimatet kun afhænger af data gennem en sufficient observator.<br />
Når først begrebet “en sufficient observator” er indført, melder der sig to oplagte<br />
spørgsmål. Det ene er, hvordan vi afgør, at en given observator er sufficient? Vi skal<br />
afklare dette spørgsmål gennem den såkaldte faktoriseringssætning. Denne siger, at hvis<br />
tætheden for x er et produkt af to led, hvor det ene ikke afhænger af parameteren<br />
og det andet kun afhænger af x gennem t(x), så er T sufficient. Det andet spørgsmål<br />
går på, om vi kan finde en minimal sufficient observator? Altså forsøge at finde den<br />
størst mulige reduktion af data. Svaret her er - løst sagt - at likelihoodfunktionen er en<br />
minimal sufficient observator.<br />
Jeg giver nu den matematiske definition på en sufficient observator. Det basale udfaldsrum<br />
er målrummet (X , A). Den statistiske model består af en klasse P af sandsynlighedsmål<br />
på (X , A). Lad (Y, B) være et andet målrum og lad t : X → Y være en<br />
målelig afbildning.<br />
25
26 KAPITEL 3. SUFFICIENS<br />
Definition 3.1 Antag at der for ethvert P ∈ P eksisterer en regulær betinget sandsynlighed<br />
PT (A|t), A ∈ A , t ∈ Y, af P givet T. Lad P0 være et vilkårligt element i P.<br />
Observatoren T kaldes sufficient for P hvis PT 0 (·|·) er en regulær betinget sandsynlighed<br />
af P givet T for ethvert P ∈ P, d.v.s.<br />
<br />
B<br />
P T 0 (A|t)PT(dt) = P(A ∩ t −1 (B)), ∀ A ∈ A, ∀ B ∈ B, ∀ P ∈ P. (3.1)<br />
Regulære betingede sandsynligheder er betingede sandsynligheder P T (·|·) af P givet<br />
T, som opfylder<br />
(i) P T (·|t) er et sandsynlighedsmål på X for alle t ∈ Y,<br />
(ii) P T (A|·) er målelig for alle A ∈ A,<br />
(iii) <br />
B PT (A|t)PT(dt) = P(A ∩ t −1 (B)) ∀ A ∈ A, ∀ B ∈ B.<br />
Formuleret sprogligt siger definition 3.1, at alle de regulære sandsynligheder P T (·|·),<br />
P ∈ P, er identiske. For at gøre notationen mere overskuelig vil jeg ofte betegne<br />
den fælles betingede sandsynlighed med π(A|t), hvor så ifølge (i) og (ii) π(·|·) er en<br />
Markovkerne. Jeg vil også ofte skrive P(A|T = t) i stedet for P T (A|t).<br />
Jeg antager i hele dette kapitel, at regulære betingede sandsynligheder eksisterer,<br />
og nævner det derfor ikke eksplicit i det følgende. Det er vist for nylig, at regulære<br />
betingede sandsynligheder eksisterer i næsten alle situationer, og jeg vil derfor ikke<br />
her komme ind på de nødvendige regularitetsbetingelser. I opgave 3.2 og 3.3 er det<br />
beskrevet hvordan den generelle definition på en regulær betinget sandsynlighed passer<br />
sammen med mere velkendte definitioner i specialtilfælde. Intuitivt forventer vi<br />
generelt at P T (T = t|t) = 0. I JHJ 10.3 er det imidlertid vist at dette ikke altid holder.<br />
Vi må forlange at grafen {(x, t(x)|x ∈ X } tilhører produkt sigma-algebraen A × B.<br />
Ifølge JHJ opgave 1.83, 1.84, og 1.89 vil dette være opfyldt hvis Y er et metrisk rum<br />
med en tællelig tæt mængde og B er Borel sigma-algebraen. Specielt er vores intuitive<br />
fornemmelse at P T (T = t|t) = 0 altså korrekt, hvis t afbilder ind i R k .<br />
Jeg har i afsnit 11.3, 11.4 og 11.5 skrevet nogle vigtige resultater ned for betingede<br />
middelværdier og betingede sandsynligheder.<br />
3.2 Tilfældet med diskret udfaldsrum X<br />
Når udfaldsrummet X er diskret, er det nemt at angive de betingede sandsynligheder:<br />
⎧<br />
⎪⎨<br />
P(X=x)<br />
P(T=t)<br />
P(X = x|T = t) =<br />
⎪⎩<br />
0<br />
hvis P(T = t) > 0 og t(x) = t<br />
hvis t(x) = t<br />
hvis P(T = t) = 0 og t(x) = t<br />
(3.2)<br />
qt<br />
hvor qt er en vilkårlig sandsynlighed med ∑x qt(x) = 1. Det er derfor nemt at angive<br />
om en observator T er sufficient eller ej.
3.3. DET GENERELLE TILFÆLDE 27<br />
Sætning 3.2. (Faktoriseringssætningen i det diskrete tilfælde)<br />
Observatoren T er sufficient for P, hvis og kun hvis der eksisterer en funktion h : X →<br />
R og for ethvert P ∈ P eksisterer en funktion gP : Y → R, så at<br />
Bevis. Hvis (3.3) er opfyldt, vil<br />
og<br />
P(X = x) = gP(t(x))h(x) ∀ x ∈ X . (3.3)<br />
<br />
P(T = t) = gP(t)H(t), hvor H(t) = ∑<br />
z:t(z)=t<br />
h(z),<br />
⎧<br />
⎨ h(x)/H(t) hvis t(x) = t og H(t) > 0<br />
P(X = x|T = t) = 0<br />
⎩<br />
qt(x)<br />
hvis t(x) = t<br />
hvis H(t) = 0, og t(x) = t<br />
som ikke afhænger af P, og T er derfor sufficient.<br />
Omvendt, hvis den betingede sandsynlighed i (3.2) ikke afhænger af P, og lad os<br />
betegne den med π(x|t), så fås<br />
P(X = x) = P(T = t(x))π(x|t(x)),<br />
som er på formen (3.3). <br />
3.3 Det generelle tilfælde<br />
Jeg vil nu betragte et generelt målrum (X , A) og en klasse P af sandsynlighedsmål,<br />
som er domineret af et σ-endeligt mål µ , d.v.s. P ≪ µ for alle P ∈ P. Lad os først<br />
registrere at µ er ækvivalent med et sandsynlighedsmål.<br />
Lemma 3.3 Der eksisterer en målelig funktion ϕ fra X ind i R med ϕ(x) > 0 og<br />
d ˜µ<br />
ϕ(x)µ(dx) = 1. Målet ˜µ defineret ved dµ (x) = φ(x) er således et sandsynlighedsmål<br />
ækvivalent med µ. <br />
Bevis. Da µ er σ-endeligt eksisterer der en følge An ∈ A, n = 1, . . ., (eventuelt endelig)<br />
der vokser op mod X med µ(An) < ∞. Vi kan antage at An ⊂ An+1 og µ(Cn) > 0 med<br />
Cn = An\An−1 og C1 = A1. Vi definerer da<br />
ϕ(x) =<br />
∞<br />
∑ anµ(Cn)<br />
1<br />
−1 1Cn (x),<br />
hvor an er positive tal med ∑ ∞ 1 an = 1. Denne funktion har de ønskede egenskaber. <br />
Sætning 3.4. (Faktoriseringssætningen generelt)<br />
Lad P være domineret af det σ -endelige mål µ. Så er T sufficient, hvis og kun hvis der<br />
eksisterer en målelig funktion k : X → R og for ethvert P ∈ P en målelig funktion<br />
gP : Y → R, så at<br />
dP<br />
dµ (x) = gP(t(x))k(x). (3.4)
28 KAPITEL 3. SUFFICIENS<br />
Bevis. Vi viser først at (3.4) medfører at T er sufficient. Lad ˜µ være sandsynlighedsmålet<br />
fra Lemma 3.3. Så siger antagelsen (3.4) at<br />
dP<br />
d ˜µ (x) = gP(t(x)) ˜ k(x), k(x) ˜<br />
k(x)<br />
= . (3.5)<br />
φ(x)<br />
Vi vil vise at T er sufficient ved at konstruere en markovkerne og vise at denne kan<br />
bruges som betinget sandsynlighed givet T under P for ethvert P ∈ P.<br />
Definer<br />
<br />
h(t) = ˜k(x) ˜µ T (dx|t), D = {t|0 < h(t) < ∞}.<br />
Fra Observation 2.17 og (3.5) har vi<br />
<br />
dPT<br />
(t) = gP(t(x))<br />
d ˜µT<br />
˜ k(x) ˜µ T (dx|t) = gP(t)h(t),<br />
og<br />
PT(D c <br />
) =<br />
Dc gP(t)h(t) ˜µT(dt) = 0,<br />
da integralet vil være enten 0 eller uendelig, men sandsynligheden skal være mindre<br />
end eller lig med 1. Definer nu<br />
f(x|t) =<br />
<br />
˜k(x)<br />
h(t)<br />
t ∈ D<br />
1 t /∈ D,<br />
<br />
F(A|t) =<br />
A<br />
f(x|t) ˜µ T (dx|t).<br />
Så er F en markovkerne og denne vil være vores kandidat til den fælles betingede<br />
sandsynlighed for P ∈ P. Da<br />
<br />
F(A|t)PT(dt) =<br />
B<br />
<br />
(11.1) =<br />
<br />
=<br />
B∩D<br />
<br />
<br />
A<br />
˜k(x)<br />
h(t) ˜µT <br />
(dx|t) gP(t)h(t) ˜µT(dt)<br />
1B∩D(t(x))1A(x)gP(t(x)) ˜ k(x) ˜µ(dx)<br />
1B∩D(t(x))1 A(x)P(dx)<br />
= P(A ∩ t −1 (B))<br />
ses at F er betinget sandsynlighed givet T under P og T er derfor sufficient.<br />
For at vise den omvendte implikation antager vi nu at T er sufficient og skal vise<br />
(3.4). Lad π(·|·) være den fælles betingede sandsynlighed for P ∈ P, og lad sandsynlighedsmålet<br />
˜µ være som ovenfor. Da P har tæthed m.h.t. ˜µ definerer vi<br />
Idet<br />
gP(t) = dPT<br />
(t) og<br />
d ˜µT<br />
˜ k(x) = k1(x, t(x)) med k1(x, t) = dπ(·|t)<br />
d ˜µ T (·|t) (x).<br />
<br />
<br />
P(A) = π(A|t)PT(dt) = 1A(x)π(dx|t) PT(dt)<br />
<br />
= 1A(x)k1(x, t) ˜µ T <br />
(dx|t) gP(t) ˜µT(dt)<br />
<br />
= 1A(x)gP(t(x)) ˜ k(x) ˜µ(dx)
3.4. MINIMAL SUFFICIENTE OBSERVATORER 29<br />
ses det at P har tæthed gP(t(x)) ˜ k(x) m.h.t. ˜µ. Dermed har vi<br />
dP dP ˜µ<br />
(x) = (x)d<br />
dµ d ˜µ dµ (x) = gP(t(x)) ˜ d ˜µ<br />
k(x) (x) = gP(t(x))k(x),<br />
dµ<br />
hvor k(x) er produktet af de to sidste tætheder. Hermed har vi vist (3.4). <br />
3.4 Minimal sufficiente observatorer<br />
Det er klart, at X selv er sufficient for P, men dette er ikke et særligt interessant udsagn.<br />
Vi ønsker i stedet at finde en sufficient observator T med “så få værdier som muligt”.<br />
Vi definerer derfor:<br />
Definition 3.5 En observator T0 = t0(X), t0 : (X , A) → (Y0, B0), siges at være minimal<br />
sufficient for P såfremt<br />
(i) T0 er sufficent ,<br />
(ii) hvis T = t(X), t : X → Y, er en sufficient observator, så eksisterer der en funktion<br />
f : (Y, B) → (Y0, B0), så at<br />
t0(x) = f(t(x)) n.s. − P ∀ P ∈ P. (3.6)<br />
Jeg vil starte med to lemmaer, der kan hjælpe m.h.t. om der eksisterer en funktion<br />
f , så at (3.6) er opfyldt. Vi antager som før, at P er domineret af et σ -endeligt mål µ.<br />
Det <strong>første</strong> lemma er en hjælp til at klare “n.s.-P ∀ P ∈ P". Vi vil konstruere et sandsynlighedsmål<br />
λ så at nulmængderne for λ er de samme som de fælles nulmængder for<br />
familien P.<br />
Lemma 3.6 Hvis P er domineret af et σ-endeligt mål, eksisterer der en tællelig delmængde<br />
{Pn} ∞ n=1 af P, så at der for A ∈ A gælder<br />
Pn(A) = 0 ∀ n ⇒ P(A) = 0 ∀ P ∈ P.<br />
Definer λ = ∑ ∞ n=1 1<br />
2 n Pn. Så er λ et sandsynlighedsmål der opfylder<br />
P(A) = 0 ∀ P ∈ P ⇔ λ(A) = 0 for A ∈ A. (3.7)<br />
Bevis. Lad sandsynlighedsmålet ˜µ være defineret som i Lemma 3.3. Lad for P ∈ P<br />
<br />
AP = x | dP<br />
<br />
(x) > 0 . (3.8)<br />
dµ<br />
Ideen er nu, at vi gerne vil vælge P1, P2, . . . så at ˜µ(∪ ∞ 1<br />
APn ) = 1. Ækvivalent hermed<br />
skal vi forsøge at finde B1, B2, . . . med Bn ⊆ APn , så at ˜µ(∪∞ 1 Bn) = 1. Dette valg laver<br />
vi nu implicit ved at definere<br />
s = sup{ ˜µ(C)|C = ∪ ∞ 1 Bn hvor Bn ∈ A, ˜µ(Bn) > 0, og ∀ n ∃ P ∈ P : Bn ⊆ AP}. (3.9)
30 KAPITEL 3. SUFFICIENS<br />
Da s er et supremum, kan vi finde en følge C1, C2, . . . , så at s = lim ˜µ(Cn). Sættes<br />
C = ∪∞ 1 Cn vil ˜µ(C) = s. Da alle Cn, n ≥ 1, er en forening af B mængder, har vi, at<br />
C = ∪∞ 1 Bn, hvor ˜µ(Bn) > 0, og for ethvert n eksisterer der Pn ∈ P, så at Bn ⊆ APn . De<br />
således valgte {Pn} ∞ n=1 er kandidaterne til at opfylde betingelsen i lemmaet.<br />
Lad A ∈ A med Pn(A) = 0 for alle n og lad P ∈ P. Vi skal vise at P(A) = 0. Da<br />
P ≪ ˜µ er det nok at vise at ˜µ(A ∩ C c ) = 0 og ˜µ(A ∩ C) = 0.<br />
Vi kan antage at A ⊆ AP, idet P(A) = P(A ∩ AP). Fra definitionen (3.9) af s har vi<br />
s = ˜µ(A ∪ C) = ˜µ(C) + ˜µ(A ∩ C c ) = s + ˜µ(A ∩ C c ),<br />
og dermed ˜µ(A ∩ C c ) = 0.<br />
Da Pn(A) = 0 og dPn<br />
d ˜µ (x) > 0 på A ∩ Bn må ˜µ(A ∩ Bn) = 0. Dermed fås<br />
˜µ(A ∩ C) = ˜µ(A ∩ [∪∞ 1 Bn])<br />
∞<br />
≤ ∑<br />
1<br />
˜µ(A ∩ Bn) = 0.<br />
Med λ defineret som i lemmaet er det klart at λ(A) = 0 er ækvivalent med Pn(A) = 0<br />
for alle n og dermed ækvivalent med P(A) = 0 for alle P ∈ P. <br />
Lad os bemærke at hvis alle målene i P er indbyrdes ækvivalente, P1 ≪ P2 ∀ P1, P2 ∈<br />
P, så kan vi tage λ = P0 for et vilkårligt P0 ∈ P. <strong>Et</strong> andet eksempel paa konstruktionen<br />
af λ er hvis vi kan finde {P i}, så at ∪ iAP i = X , med AP i fra (3.8),<br />
Lad i det følgende N være nulmængderne for λ:<br />
N = {A ∈ A|λ(A) = 0}.<br />
Da den betingede middelværdi E(q(X)|T) er σ(t)-målelig kan vi skrive den som en<br />
målelig funktion af t(X). I lemmaet nedenfor benytter vi betegnelsen E(q(X)|T) =<br />
φq(t(X)).<br />
Lemma 3.7 Lad t : (X , A) → (Y, B) og lad q : (X , A) → (R, B(R)). Hvis σ(q) ⊆<br />
σ(σ(t), N) så er<br />
q(x) = φq(t(x)) n.s. − λ. <br />
Bevis. Vi kan antage at q ≥ 0, idet vi ellers kan vise resultatet seperat for den positive<br />
og den negative del af q. Når q ≥ 0 kan vi vælge en følge qn, der opfylder<br />
qn(x) =<br />
n<br />
∑ c<br />
i=1<br />
n i 1An i (x), An i ∈ σ(t, N) og qn ≤ q, lim qn = q.<br />
n<br />
Fra egenskaberne ved qn har vi at φq(t) = limn φqn (t).<br />
Hvis qn(x) = φqn (t(x)) n.s.-λ kan vi skrive<br />
qn(x) = 1 N c n (x)φqn (t(x)) + 1Nn (x)qn(x) med λ(Nn) = 0. (3.10)<br />
Lad M = ∪∞ i=1Ni som også er en λ-nulmængde. Så er (3.10) også opfyldt med Nn<br />
erstattet af M. Da q = limn qn har vi<br />
<br />
q(x) = lim qn(x) = lim 1Mc(x)φqn (t(x)) + 1M(x)qn(x)<br />
n n<br />
= 1M c(x)φq(t(x)) + 1M(x)q(x),
3.4. MINIMAL SUFFICIENTE OBSERVATORER 31<br />
det vil sige<br />
q(x) = φq(t(x)) n.s. − λ.<br />
Vi mangler derfor at vise, at qn(x) = φqn (t(x) n.s.-λ, men da qn er en sum af indikatorfunktioner,<br />
er det nok at vise<br />
Lader vi<br />
1A(x) = φ1 A (t(x)) n.s. − λ for A ∈ σ(t, N). (3.11)<br />
D = {A ∈ A | 1 A(x) = φ1 A (t(x)) n.s. − λ}<br />
ser vi fra additivitets- og konvergensegenskaber ved betingede middelværdier, at D<br />
en σ -algebra. Hvis A ∈ σ(t) er φ1 A (t(x)) = 1 A(x), det vil sige σ(t) ⊆ D. Hvis A ∈ N<br />
er φ1 A (t(x)) = 0 = 1A(x) n.s.-λ og N ⊆ D. Da D er en σ-algebra, har vi derfor, at<br />
σ(t, N) ⊆ D, og dermed er (3.11) vist. <br />
Lemma 3.7 udtaler sig om reelle stokastiske variable q(X) . For at kunne benytte resultatet<br />
generelt, skal jeg så at sige for en vilkårlig stokastisk variabel “konstruere en<br />
ækvivalent” reel variabel. Til dette skal jeg bruge separabilitet af en σ-algebra, d.v.s.<br />
σ-algebraen er frembragt af en tællelig klasse af mængder.<br />
Lemma 3.8 Lad C ⊆ A være en del σ-algebra. Så er C separabel, hvis og kun hvis der<br />
eksisterer en funktion f : (X , A) → (R, B(R)), så at C = σ( f). <br />
Bevis. Hvis C er separabel lad C = σ(A1, A2, . . . ) og definer<br />
f(x) =<br />
∞<br />
∑ 10<br />
n=1<br />
−n 1An (x).<br />
Det er da klart, at σ( f) = C idet σ( f) ⊆ C , og det er muligt at vælge Bn ∈ B(R), så at<br />
f −1 (Bn) = An. For eksempel har vi at<br />
A1 = f −1 ([0.1, 0.2]), og A2 = f −1 ([0.01, 0.02] ∪ [0.11, 0.12]).<br />
Omvendt hvis C = σ( f), kan vi tage B1, B2, . . . i B(R), så at B(R) = σ(B1, B2, . . . ),<br />
og dermed<br />
C = σ( f −1 (B1), f −1 (B2), . . . ),<br />
d.v.s. C er separabel. <br />
Endelig skal vi for at kunne benytte Lemma 3.8 vise, at hvis A er separabel, og C er en<br />
vilkårlig del σ-algebra, så findes der en separabel del σ -algebra C0, som ligger tæt på<br />
C.<br />
Lemma 3.9 Lad A være separabel, og lad C ⊆ A være en del σ-algebra. Så findes der<br />
en separabel del σ-algebra C0 ⊆ A, så at<br />
C0 ⊆ C ⊆ σ(C0, N).
32 KAPITEL 3. SUFFICIENS<br />
Bevis. Lad A = σ(A1, A2, . . . ) og definer<br />
C0 = σ(Eλ(1 An |C), n = 1, 2, . . .). (3.12)<br />
Da Eλ(1An |C) er en reel stokastisk variabel, er σ(Eλ(1 An |C)) separabel, og dermed er<br />
C0 separabel. Per definition er C0 ⊆ C, og vi skal derfor vise, at C ⊆ σ(C0, N).<br />
Definer<br />
A1 = {A ∈ A | E λ(1A|C) = E λ{E λ(1A|C)|C0} n.s. − λ}.<br />
Så er A1 en σ-algebra og An ∈ A1, hvor {An} er følgen i (3.12). Derfor har vi, at<br />
A = σ(A1, A2, . . . ) ⊆ A1, altså at A = A1 . Specielt for A ∈ C har vi<br />
1A = E λ(1A|C) = E λ{E λ(1A|C)|C0} = E λ(1A|C0) n.s. − λ,<br />
hvor vi har benyttet at 1A = E λ(1A|C) n.s. medfører at E λ(1A|C0) = E λ{E λ(1A|C)|C0}<br />
n.s. Vi har dermed<br />
A = {x|E λ(1 A|C0) = 1}\[A c ∩ {x|E λ(1 A|C0) = 1}] ∪ [A ∩ {x|E λ(1 A|C0) = 1}]<br />
= C\N1 ∪ N2,<br />
hvor C ∈ C0 og N1, N2 ∈ N , d.v.s. A ∈ σ(C0, N). Beviset er hermed tilendebragt. <br />
Vi kan nu vende os mod hovedsætningen i dette afsnit. Vi antager, at A er separabel.<br />
Definer<br />
<br />
dP<br />
C = σ , P ∈ P<br />
dλ<br />
(3.13)<br />
for en vilkårlig version af dP<br />
dλ , hvor λ er et mål på formen angivet i Lemma 3.6. Vi vælger<br />
nu, ifølge Lemma 3.9, en separabel σ-algebra C0, så at<br />
C0 ⊆ C ⊆ σ(C0, N), (3.14)<br />
hvor N er nulmængderne for λ. Vælg dernæst en afbildning t0 : (X , A) → (R, B(R))<br />
så at<br />
C0 = σ(t0), (3.15)<br />
hvilket kan gøres ifølge Lemma 3.8.<br />
Sætning 3.10. T0 = t0(X) er minimal sufficient. <br />
Bevis. Vi viser først, at T0 er sufficient. Per definition af C i (3.13) og definition af t0 i<br />
(3.15 følger det at<br />
σ( dP<br />
dλ ) ⊆ C ⊆ σ(C0, N) = σ(t0, N).<br />
Demed eksisterer der ifølge Lemma 3.7 en funktion gP, så at<br />
dP<br />
dλ (x) = gP(t0(x)) n.s.-λ.
3.4. MINIMAL SUFFICIENTE OBSERVATORER 33<br />
Det vil sige at gP(t0(x)) er en tæthed for P m.h.t. λ og dermed er<br />
dλ<br />
dµ (x)gP(t0(x))<br />
en tæthed for P m.h.t. µ og T0 er sufficient ifølge Faktoriseringsætningen 3.4.<br />
Vi skal nu vise at for enhver sufficient observator T findes der en afbildning f så at<br />
t0(x) = f(t(x)) n.s.-λ. Hvis T = t(x) er en sufficient observator, har vi ifølge Faktoriseringsætningen<br />
3.4, at<br />
dP<br />
(x) = k(x)gP(t(x)),<br />
dµ<br />
og dermed<br />
dλ<br />
(x) = k(x)<br />
dµ<br />
∞<br />
∑<br />
n=1<br />
hvor h(t) er den uendelige sum. Definer<br />
1<br />
gPn (t(x)) = k(x)h(t(x),<br />
2n D = {t|0 < h(t) < ∞}.<br />
Lad os først indse at PT(D c ) = 0. Da λ(T ∈ Dc ) = 1Dc(t(x)k(x)h(t(x)µ(dx) enten er<br />
0 eller uendelig, men λ er et sandsynlighedmål følger det at λ(T ∈ Dc )) = 0. Da P har<br />
tæthed m.h.t. λ følger det at PT(D c ) = 0. Tætheden for P m.h.t. λ er<br />
idet<br />
<br />
A<br />
gP(t(x)<br />
h(t(x)) 1D(t(x)λ(dx)<br />
<br />
=<br />
<br />
=<br />
Med denne form af tætheden ser vi at σ( dP<br />
dλ<br />
dP gP(t(x)<br />
(x) =<br />
dλ h(t(x)) 1D(t(x) (3.16)<br />
A<br />
<br />
dP<br />
σ(t0) ⊆ σ(C) = σ<br />
dλ<br />
gP(t(x)<br />
h(t(x)) 1D(t(x)k(x)h(t(x)µ(dx)<br />
A∩t −1 (D)<br />
gP(t(x))k(x)µ(dx)<br />
= P(A ∩ t −1 (D)) = P(A).<br />
) ⊆ σ(t, N) og derfor<br />
Lemma 3.7 giver nu eksistensen af en funktion f , så at<br />
<br />
: P ∈ P ⊆ σ(t, N).<br />
t0(x) = f(t(x)) n.s.-λ. <br />
Bemærk at definiton 3.5 giver automatisk at en minimal sufficient observator er “entydigt<br />
bestemt n.s.−λ” . Hvis nemlig t0 og t1 er to minimal sufficiente afbildninger,<br />
eksisterer der f0, f1, så at<br />
t0(x) = f0(t1(x)) n.s. − λ<br />
og<br />
t1(x) = f1(t0(x)) n.s. − λ.<br />
Bemærk også at σ(t0) næsten er lig med C. Man siger derfor ofte at likelihoodfunktionen<br />
er minimal sufficient. Se i denne forbindelse opgave 3.8 og Sætning 3.15.
34 KAPITEL 3. SUFFICIENS<br />
Korollar 3.11. En sufficient observator T = t(X), t : (X , A) → (R k , B(R k )), A separabel,<br />
er minimal sufficient hvis<br />
σ(t) ⊆ σ(C, N) <br />
Bevis. Da C ⊆ σ(C0, N) er σ(t) ⊆ σ(C0, N) = σ(t0, N), og fra Lemma 3.7 (vi kan<br />
bruge Lemma 3.7 koordinatvis) har vi eksistensen af f1, så at<br />
t(x) = f1(t0(x)) n.s. − λ.<br />
Da t0(X) er minimal sufficient, er derfor også t(X) minimal sufficient ifølge Definition<br />
3.5(ii). <br />
Den følgende sætning er ofte brugbar for at finde en minimal sufficient observator. Jeg<br />
minder om, at komplethed af en observator er defineret i afsnit 2.7.<br />
Sætning 3.12. Lad A være separabel og lad P være domineret af det σ-endelige mål<br />
µ. Lad desuden T = t(X), t : X → R k , være en sufficient og komplet observator under<br />
P. Så er T minimal sufficient. <br />
Bevis. Lad π(·|t) være den fælles betingede fordeling af P givet T0, hvor T0 = t0(X) er<br />
den kendte minimal sufficiente fra Sætning 3.10. Da T0 er minimal sufficient, eksisterer<br />
der en funktion g så at<br />
t0(x) = g(t(x)) n.s. − λ. (3.17)<br />
Definer<br />
<br />
f1(x) = t(x) − t( ˜x)π(d ˜x|t0(x)),<br />
<br />
f(t) = t − t( ˜x)π(d ˜x|g(t)),<br />
hvor f(t(x)) = f1(x) n.s.−λ ifølge (3.17). Vi har at<br />
Vi har dermed også at<br />
og da T er komplet følger det at<br />
Det vil sige at<br />
EP f1(X) = EPT − EPEP(T|T0)<br />
= EPT − EPT<br />
= 0, ∀ P ∈ P.<br />
EP f(T) = 0, ∀ P ∈ P,<br />
f1(x) = f(t(x)) = 0 n.s. − λ.<br />
<br />
t(x) =<br />
t( ˜x)π(d ˜x|t0(x)) n.s. − λ,<br />
eller sagt på anden vis: der eksistere en funktion g1 så at<br />
t(x) = g1(t0(x)) n.s. − λ.<br />
Da T0 er en funktion af en vilkårlig sufficient observator, følger det nu, at også T er en<br />
funktion af en vilkårlig sufficient observator, og dermed er T minimal sufficient.
3.4. MINIMAL SUFFICIENTE OBSERVATORER 35<br />
Korollar 3.13. For en eksponentiel familie P = {P ξ|ξ ∈ Λ0} på (X , A), hvor A er<br />
separabel, med minimal repræsentation<br />
dP ξ<br />
dµ (x) = c(ξ)−1 b(x)e ξ·t(x)<br />
gælder, at T = t(X) er minimal sufficient. <br />
Bevis. Da repræsentationen er minimal kan vi finde ξ0, ξ1, . . . , ξk så at matricen A med<br />
i’te række ξi − ξ0 er invertibel. Vi kan så skrive<br />
<br />
log dPξ 1<br />
(x), . . . , log<br />
dPξ0 dP <br />
ξk (x) = tA<br />
dPξ0 ∗ − (κ(ξ1) − κ(ξ0), . . . , κ(ξk) − κ(ξ0),<br />
hvoraf ses at t er en funktion af k tætheder. Korollar 3.11 siger så at T = t(x) er minimal<br />
sufficient. <br />
Korollar 3.11 er vores stærkeste værktøj til at afgøre om en observator er minimal<br />
sufficient. I praksis er det dog en lille smule besværligt at bruge korollaret, da der<br />
indgår tætheder med hensyn til λ i definitionen af C. Jeg vil nu lave et korollar der er<br />
nemmere at bruge og på en direkte måde siger at “likelihoodfunktionen er minimal<br />
sufficient". Jeg antager at vores familie er på formen P = {Pθ : θ ∈ Θ} og at t er en<br />
sufficient observator så at<br />
dPθ (x) = k(x)g(t(x); θ), (3.18)<br />
dµ<br />
ifølge Faktoriseringssætningen 3.4.<br />
Jeg skal bruge følgende resultat (Hoffmann-Jørgensen: The Theory of Analytic Spaces,<br />
1970, p. 145).<br />
Lemma 3.14 Lad X , Y og G være borel-delmængder af fuldstændige separable metriske<br />
rum. Lad t være en målelig afbildning fra X ind i Y og lad g være en målelig<br />
afbildning fra X ind i G så at<br />
g(x1) = g(x2) ⇒ t(x1) = t(x2), x1, x2 ∈ X .<br />
Så eksisterer der en målelig afbildning K fra G ind i Y med t(x) = K(g(x)), x ∈ X . <br />
Fuldstændig betyder at enhver cauchyfølge er konvergent, og separabelt rum betyder<br />
at der er en tællelig tæt delmængde. Det euklidiske rum R m er et fuldstændigt separabelt<br />
metrisk rum. Jeg vil bruge Lemma 3.14 med G = R N . Hvis vi udstyrer dette rum<br />
med metrikken d(x, y) = (∑ ∞ n=1 (xi − yi) 2 ) 1/2 er G et fuldstændigt separabelt metrisk<br />
rum og borel-σ-algebraen er identisk med produkt-σ-algebraen.<br />
Sætning 3.15. Antag at X er en borel-delmængde af R n , at t er en afbildning fra X ind<br />
i Y, hvor Y er en borel-delmængde af R k , og at T = t(X) er sufficient. Specielt har vi<br />
opskrivningen i (3.18). Antag at der eksisterer en tællelig delmængde {θ i : i ∈ N} så at<br />
( ∃ c(t1, t2) : g(t1; θ i) = c(t1, t2)g(t2; θ i) ∀ i ∈ N ) ⇒ t1 = t2. (3.19)<br />
Så er T minimal sufficient.
36 KAPITEL 3. SUFFICIENS<br />
Bevis. Idet vi definerer p(x, θ) = dP θ<br />
dλ (x) og 0 a = 0, a ∞<br />
p(x, θ) =<br />
g(t(x); θ)<br />
.<br />
h(t(x)<br />
Definer nu funktionen g fra X ind i G = R N ved<br />
g(x) = {p(x; θ i) : i ∈ N}.<br />
= 0, kan vi skrive 3.16 på formen<br />
Da x → p(x, θ i) er målelig er g målelig m.h.t. produkt-σ-algebraen. Fra antagelsen i<br />
sætningen har vi<br />
⇓<br />
⇓<br />
⇓<br />
g(x1) = g(x2)<br />
p(x1, θ i) = p(x2, θ i) ∀ i ∈ N<br />
g(t(x1); θ i) = h(t(x1))<br />
h(t(x2)) g(t(x2); θ i) ∀ i ∈ N<br />
t(x1) = t(x2).<br />
Fra Lemma 3.14 har vi at t(x) = K(g(x)) for en målelig funktion K og det følger at<br />
dPθi<br />
σ(t) ⊆ σ(g) ⊆ σ<br />
dλ<br />
<br />
: i ∈ N, N ⊆ σ(C, N).<br />
Fra Korollar 3.11 har vi nu at T er minimal sufficient. <br />
3.5 Sufficiensprincippet og B-sufficiens<br />
I indledningen til dette kapitel tog jeg udgangspunkt i ønsket om at reducere data til<br />
nogle væsentlige og overskuelige størrelser. I mere principielle diskussioner omkring<br />
“korrekte måder” at uddrage information fra data er dette blevet til:<br />
Sufficiensprincippet: Hvis T er sufficiens for P, bør inferens om P ∈ P udføres i den marginale<br />
fordeling af T.<br />
Så længe vi holder os til sufficiens som defineret i Definition 3.1, er der bred enighed<br />
om sufficiensprincippet. Vi skal senere i notesættet støde på andre sufficiensbegreber i<br />
forbindelse med inferens om delparametre, og her er enigheden om sufficensprincippet<br />
mindre. For at skelne de forskellige sufficiensprincipper kaldes sufficens, som givet<br />
i Definition 3.1, somme tider for B-sufficiens. Bogstavet B står her for personerne Basu<br />
og Bahadur.<br />
3.6 Opgaver<br />
Opgave 3.1. Læs dette!<br />
I JHJ’s 1985 version af sine sandsynlighedsnoter findes følgende sætning: “Lad (Ω, F, P)
3.6. OPGAVER 37<br />
være et sandsynlighedsfelt og T en målelig funktion fra (Ω, F) ind i et Borel rum<br />
(M, B). Hvis P har en semi-kompakt approximerende brolægning K ⊆ F, da findes<br />
en funktion P T (F|t) for F ∈ F, t ∈ M, så at<br />
(i) P T (·|t) er et sandsynlighedsmål ∀t ∈ M<br />
(ii) P T (F|·) er målelig ∀F<br />
(iii) <br />
B PT (F|t)PT(dt) = P(F ∩ T −1 (B)) ∀F ∈ F ∀B ∈ B.”<br />
De <strong>første</strong> to betingelser (i) og (ii) siger, at P T (·|·) er en Markovkerne, og en Markovkerne<br />
som opfylder (iii) kaldes en regulær betinget sandsynlighed af P givet T. Hvis<br />
M = Ω, B = F0 ⊆ F og T(ω) = ω taler vi om en regulær betinget sandsynlighed af P<br />
givet F0, og denne betegnes med P F0(F|ω).<br />
Betingelsen om den semikompakte approximerende brolægning K er ikke alene<br />
tilstrækkelig, men også nødvendig. Betingelsen er opfyldt i langt de fleste tilfælde,<br />
specielt hvis Ω = R T , F = B T og P er et sandsynlighedsmål på (Ω, F), hvor T er en<br />
vilkårlig indexmængde, da er<br />
KT =<br />
<br />
<br />
∏ Ct | Ct er kompakt eller Ct = R ∀t<br />
t∈T<br />
en semikompakt approximerende brolægning for P. Hvis PT er en regulær betinget<br />
sandsynlighed at P givet T, og X : (Ω, F) → (R, B(R)) er en stokastisk variabel med<br />
middelværdi, så vil<br />
<br />
E(X|T)(ω) =<br />
X(ω<br />
Ω<br />
′ )P T (dω ′ |T(ω)). (∗)<br />
Vis dette ved hjælp af standardbeviset, startende med situationen hvor X er en<br />
indikatorvariabel. I skal altså vise, at højresiden i (*) opfylder betingelserne for at være<br />
den betingede middelværdi af X givet T.<br />
Indse også at hvis T er sufficient for en klasse P af sandsynlighedsmål, så viser (*),<br />
at den betingede middelværdi af X givet T ikke afhænger af P ∈ P.<br />
Opgave 3.2<br />
Lad X være et diskret udfaldsrum og t en målelig afbildning fra X ind i Y. Lad T =<br />
t(X). Vis, at hvis π(A|t) er en Markovkerne, der opfylder<br />
<br />
π(A|t)PT(dt) = P(A ∩ t −1 (B))<br />
for alle A ⊆ X og alle B⊆ Y, så er<br />
B<br />
π(x|t) = P(X = x)/P(T = t), hvor t(x) = t.<br />
Opgave 3.3<br />
Lad X = S × T og antag at P har tæthed f(s, t) m.h.t. produktmålet µ × ν. Lad fT(t)<br />
være den marginale tæthed af T m.h.t. ν,<br />
<br />
fT(t) = f(s, t)µ(ds).<br />
S
38 KAPITEL 3. SUFFICIENS<br />
Definer nu<br />
og<br />
F T S<br />
⎧<br />
⎨ f(s,t)<br />
fT(t)<br />
g(s|t) =<br />
⎩ fS(s)<br />
<br />
hvis fT(t) > 0<br />
hvis fT(t) = 0,<br />
(A|t) = g(s|t)µ(ds), t ∈ T, A ∈ AS,<br />
<br />
F(C|t) =<br />
A<br />
s:(s,t)∈C<br />
g(s|t)µ(ds), C ∈ AS × AT ,<br />
hvor fS er den marginale tæthed af S og AS er σ-algebraen på S. Bemærk at F(·|t) er<br />
defineret til at være et mål på S × T koncentreret på S × {t}.<br />
Så er F(·|t) en regulær betinget sandsynlighed af P givet T, og FT S er den tilsvarende<br />
marginale fordeling i den betingede fordeling, altså den betingede sandsynlighed af S<br />
givet T.<br />
Vis dette.<br />
Opgave 3.4<br />
Lad f , g være to målelige funktioner på (X , A) og P et sandsynlighedsmål. Antag af<br />
f = g n.s.−P. Vis at<br />
σ( f) ⊆ σ(g, NP),<br />
hvor NP er nulmængderne for målet P.<br />
Overvej, at dette resultat kan bruges til at ændre udsagnet i Korollar 3.11 til “hvis<br />
og kun hvis”.<br />
Opgave 3.5<br />
Lad f > 0 være en tæthed på R+ med hensyn til Lebesguemålet. Lad p θ(x) være<br />
tætheden på intervallet (0, θ) givet ved p θ(x) = c(θ) f(x), 0 < x < θ, og p θ(x) =<br />
0 ellers. Parameteren θ varierer i R+ . Lad X1, . . . , Xn være uafhængige og identisk<br />
fordelte med tæthed P θ. Vis, at<br />
er sufficient.<br />
X (n) = max{X1, . . . , Xn}<br />
Opgave 3.6<br />
Lad X1, . . . , Xn være uafhængige og uniformt fordelte på intervallet (0, θ), hvor parameteren<br />
θ varierer i R+. Vis, på to måder at<br />
X (n) = max{X1, . . . , Xn}<br />
er en minimal sufficient observator. De to måder fremkommer ved at bruge henholdsvis<br />
Korollar 3.11 og Sætning 3.12,
3.6. OPGAVER 39<br />
Opgave 3.7<br />
Lad (X1, Y1), . . . , (Xn, Yn) være uafhængige og identisk fordelte med tæthed<br />
<br />
exp −θx − 1<br />
θ y<br />
<br />
, (x, y) ∈ R 2 + ,<br />
hvor parameteren θ varierer i R+. D.v.s. X og Y er uafhængige, X er exponentialfordelt<br />
med middelværdi 1 θ og Y er exponentialfordelt med middelværdi θ. Find en minimal<br />
sufficient observator ved hjælp af Korollar 3.11.<br />
Opgave 3.8<br />
Lad familien P have k elementer med tæthederne pi(x) = dPi dµ (x), i = 1, . . . , k. Definer<br />
n<br />
<br />
g(x) = ∑ pi(x), λ(A) = g(x)µ(dx),<br />
i=1<br />
A<br />
og<br />
<br />
p1(x) p2(x)<br />
t(X) = ,<br />
g(x) g(x) , . . . , p <br />
k(x)<br />
.<br />
g(x)<br />
Vis, at t(X) er minimal sufficient.<br />
Lad L(i, x) = p i(x) og vis at<br />
t(x1) = t(x2) ⇔ ∃c(x1, x2) : L(i, x1) = c(x1, x2)L(i, x2) ∀i.<br />
Opgave 3.9<br />
Lad X1, . . . , Xm, Y1, . . . , Yn være uafhængige med X i ∼ N(ξ, σ 2 ) og Y j ∼ N(η, τ 2 ). Find<br />
en minimal sufficient observator i tilfældene<br />
(i) (ξ, η, σ 2 , τ 2 ) ∈ R 2 × R 2 + ;<br />
(ii) (ξ, η, σ 2 ) ∈ R 2 × R+ og τ 2 = σ 2 ;<br />
(iii) (ξ, σ 2 , τ 2 ) ∈ R × R 2 +<br />
og η = ξ.<br />
Opgave 3.10<br />
Lad X = {−1, 0, 1, 2, . . . } og A alle delmængder af X . Klassen P = {P θ|0 < θ < 1} er<br />
givet ved<br />
P θ({−1}) = θ og P θ({x}) = (1 − θ) 2 θ x , x = 0, 1, 2, . . . .<br />
Vis, at t(X) = X er minimal sufficient. Vis dernæst, at T = t(X) er begrænset komplet<br />
for P, men ikke komplet.<br />
Opgave 3.11<br />
Denne opgave er beregnet på at få en forståelse af en minimal sufficient observator i<br />
en betinget fordeling. Lad udfaldsrummet være X = X1 ∪ X2. Lad P være en klasse as<br />
sandsynlighedsmål på X1 og definer for P ∈ P sandsynlighedsmålet ˜P til at være lig<br />
med P på X1 og som giver masse 0 til X2. For en funktion ˜t(x) på X definerer vi t på<br />
X1 og s på X2 til at være ˜t’s restriktion til X1, henholdsvis X2.
40 KAPITEL 3. SUFFICIENS<br />
(i) vis, ved hjælp af faktoriseringssætningen, at t(X) er sufficient for familien P på<br />
X1 hvis og kun hvis at ˜t(X) er sufficient for familien ˜P = { ˜P|P ∈ P} på X .<br />
Vi vil nu betragte det tilsvarende spørgsmål med sufficient erstattet af minimal sufficient.<br />
Antag at t(X) er minimal sufficient for familien P. Lad ¯t være en sufficient observator<br />
for ˜P. Fra (i) har vi at ¯t er sufficient for P. Dermed eksisterer der en funktion f så at<br />
t(x) = f(¯t(x)), x ∈ X1, n.s. − P.<br />
(ii) Vis, at der eksisterer en funktion g så at<br />
Slut at ˜t er minimal sufficient.<br />
˜t(x) = g(¯t(x)), x ∈ X , n.s. − ˜P.<br />
Formuleret i ord, så har vi set at det kun er observators værdier på X1 der afgør om<br />
den er minimal sufficient.
3.6. OPGAVER 41<br />
Ronald Aylmer Fisher 17/2 1890 (London) - 29/7 1962 (Adelaide).<br />
I sin <strong>første</strong> artikel fra 1912 introducerede Fisher maximum likelihood estimationsmetoden.<br />
Fra 1919 var Fisher ansat ved Rothamsted Experimental Station hvor han udviklede<br />
variansanalysen, se bøgerne: Statistical Methods for Research workers og The design of Experiments.<br />
I 1922 introducerede Fisher sufficiens og i 1925 ancillaritet. Se også hans bog<br />
Statistical Methods and Scientific Inference.
Kapitel 4<br />
Ancillaritet og Basu’s sætning<br />
4.1 Definitioner og diskussion<br />
I kapitel 3 argumenterede jeg for at man kan nøjes med at betragte en sufficient observator<br />
T for inferens om P ∈ P, idet observationen x kan tænkes fremkommet ved at<br />
først observeres t og dernæst observeres x fra den betingede fordeling af X givet T = t.<br />
Dette blev formuleret som sufficiensprincippet i afsnit 3.5. Antag nu istedet, at U er en<br />
observator som er fordelingskonstant, d.v.s. fordelingen af U er den samme for alle<br />
P ∈ P. Så kan jeg igen tænke på x som fremkommet ved, at først observeres U = u og<br />
dernæst observeres x fra den betingede fordeling af X givet U = u. Da udfaldet u har<br />
samme sandsynlighed for alle P ∈ P, er der ingen information om, hvilket P ∈ P som<br />
er det sande P i observationen U = u, og vi kan nøjes med at betragte den betingede<br />
fordeling af X givet U = u.<br />
Præcist definerer vi:<br />
Definition 4.1 En observator U = u(X), u : (X , A) → (U, D) siges at være ancillær for<br />
P hvis<br />
P(U ∈ D) = P0(U ∈ D) ∀P0, P ∈ P, ∀D ∈ D,<br />
altså: fordelingen af U er den samme for alle P ∈ P. <br />
Og svarende til sufficiensprincippet har vi:<br />
Betingningsprincippet: Hvis U er ancillær for P, bør inferens om P ∈ P udføres i den<br />
betingede fordeling af X givet U.<br />
Ordet ancillær stammer fra det engelske “ancillary”, som betyder hjælpestørrelse. I<br />
sammenhængen her skal det forstås som, at oplysningen U = u er en hjælp, der fortæller<br />
os hvilken betinget fordeling, vi bør betragte. Dette vil blive demonstreret i eksemplerne.<br />
Eksempel 4.2.<br />
Lad et forsøg bestå i, at først observeres I ∈ {1, 2} med<br />
P(I = 1) = P(I = 2) = 1 2 ,<br />
43
44 KAPITEL 4. ANCILLARITET OG BASU’S SÆTNING<br />
og dernæst observeres X fra en N(µ, σ2 I )-fordeling med σ2 1 = 1 og σ2 2 = 10. Vi kan<br />
her tænke på I som en variabel, der angiver hvilket måleinstrument der anvendes, og<br />
σ2 1 , σ2 2 angiver hvor gode de to måleinstrumenter er. Likelihoodfunktionen er<br />
L(µ) = 1(i = 1) 1 1<br />
√ e<br />
2 2π − 1 2 (x−µ)2<br />
+ 1(i = 2) 1 1<br />
√ e<br />
2 20π<br />
<br />
1(i = 1)e<br />
=<br />
− 1 2 x2<br />
2 √ +<br />
2π<br />
1(i = 2)e− f rac120x2<br />
2 √ <br />
20π<br />
− 1<br />
20 (x−µ)2<br />
e µx[1(i=1)+1(i=2)/10]−µ2 [1(i=1)/2+1(i=2)/20] ,<br />
så at T = (I, X) er minimal sufficient (se eksempel 4.5 nednefor). Maximum likelihood<br />
estimatet for µ er<br />
ˆµ = X.<br />
Variansen på dette estimat er V( ˆµ) = 1 2 · 1 + 1 2 · 10 = 5.5. Er dette en relevant måde at<br />
angive, hvor tæt estimatet ˆµ er på den sande værdi µ ? Hvis vi har observeret I = 1,<br />
synes det relevant at bruge den viden, at vi har brugt måleinstrumentet med den lave<br />
varians σ2 1 = 1. Med andre ord vil vi gerne sige, at variansen på ˆµ er σ2 1 = 1. Dette<br />
svarer netop til, at vi laver inferensen i den betingede fordeling givet I = 1, og er hvad<br />
betingningsprincippet siger, at vi skal gøre. <br />
I den <strong>teoretisk</strong>e diskussion nedenfor vil jeg se på forbindelsen over til sufficiens.<br />
Liegesom for sufficiens skal vi senere støde på andre ancillaritetsbegreber, og for at<br />
skelne disse kaldes ancillaritet som defineret her for B-ancillaritet, hvor B igen henviser<br />
til Basu og Bahadur.<br />
Lad os starte med den observation at der ikke findes nogen naturlig “maximal ancillær”<br />
observator. Hvis man skulle forsøge at definere dette begreb, vil et <strong>første</strong> forsøg<br />
være at sige, at U0 er maximal ancillær, hvis enhver anden ancillær U er en funktion<br />
af U0. En sådan U0 eksisterer ikke, idet to ancillære observatorer U1, U2 tilsammen kan<br />
udgøre X, og dermed ikke kan være funktioner af en ancillær observator U0. Følgende<br />
eksempel viser dette:<br />
Eksempel 4.3.<br />
Lad (Xi, Yi) i = 1, . . . , n, være uafhængige og identisk fordelte med<br />
(X i, Y i) ∼ N2<br />
<br />
1 ρ<br />
(0, 0),<br />
ρ 1<br />
Så er U1 = (X1, . . . , Xn ) og U2 = (Y1, . . . , Yn) begge ancillære, mens fordelingen af<br />
(U1, U2) afhænger af ρ og altså er (U1, U2) ikke ancillær. <br />
Når vi nu har to principper – sufficiensprincippet og betingningsprincippet – vil<br />
det være naturligt at spørge om principperne er i overensstemmelse med hinanden,<br />
eller om de kan føre til en konflikt. Jeg starter med:<br />
Observation 4.4 Lad U være en ancillær observator for P, hvor P er domineret af det<br />
σ-endelige mål µ, og A er separabel. Lad T0 være en minimal sufficient observator for<br />
P. Så er T0 også en minimal sufficient observator for klassen P u = {P(·|U = u) : P ∈<br />
P} af betingede fordelinger givet U = u.
4.1. DEFINITIONER OG DISKUSSION 45<br />
Bevis. Lad t0 : X → Y være en minimal sufficient observator. For at undgå for mange<br />
tekniske detaljer vil jeg antage at σ(t0) = C, jævnfør Korollar 3.11.<br />
Fra faktoriseringssætningen har vi<br />
Lad ˜µ være et sandsynlighedsmål med<br />
dP<br />
(x) = gP(t0(x))k(x).<br />
dµ<br />
d ˜µ<br />
dµ = φ(x) > 0 og lad ˜ k(x) = k(x)/φ(x) så at<br />
dP<br />
1<br />
(x) = gP(t0(x))k(x)<br />
d ˜µ φ(x) = gP(t0(x)) ˜ k(x).<br />
Lad målet λ være som i lemma 3.6. Så er dλ/d ˜µ(x) = h(t0(x)) ˜ k(x), hvor<br />
Vi har således<br />
h(t) = ∑ 1<br />
gPm (t).<br />
2m dP gP(t0(x))<br />
(x) =<br />
dλ h(t0(x)) ,<br />
og da U er ancillær er λU = ∑ PmU/2 m = PU for et vilkårligt P ∈ P, og dermed<br />
Hvis vi lader dλU<br />
d ˜µU<br />
dPU<br />
dλU<br />
(x) = dPU<br />
(x) = 1.<br />
dPU<br />
dPU (u) = d (u) = q(u) er det kun relevant at betragte den betingede<br />
˜µU<br />
fordeling givet U = u for u med q(u) > 0. Fra Obervation 2.18 har vi<br />
dP(·|U = u)<br />
(x) =<br />
dλ(·|U = u)<br />
dP<br />
dλ (x)<br />
dPU<br />
dλU<br />
dP<br />
=<br />
(x) dλ<br />
(x) = gP(t0(x))<br />
h(t0(x)) .<br />
Det følger af den sidste formel og faktoriseringssætningen at t0(X) er sufficient i den<br />
betingede fordeling. Vi vil bruge Korollar 3.11 til at vise at t0(X) er minimal sufficient<br />
i de tilfælde hvor q(u) > 0. Ideen er at bruge λ(·|U = u) i definitionen af C i Korollar<br />
3.11 for de betingede fordelinger. Hertil skal vi vise at<br />
λ(A|U = u) = 0 ⇔ P(A|U = u) = 0 ∀P.<br />
Implicationen ⇒ følger umiddelbart af at P(·|U = u) har tæthed mht. λ(·|U = u). Den<br />
anden implication ⇐ følger af at λ(A|U = u) = ∑ Pm(A|U = u)/2 m = 0. Bruger vi<br />
λ(·|U = u) i definitionen af Cu = σ(dP(·|U = u)/dλ(·|U = u) : P ∈ P) og bruger vi<br />
antagelsen σ(t0) = C får vi<br />
<br />
dP<br />
σ(t0) = C = σ<br />
dλ<br />
<br />
dP(·|U = u)<br />
: P ∈ P = σ<br />
dλ(·|U = u)<br />
<br />
: P ∈ P = Cu,<br />
og Korollar 3.11 siger så at t0(X) er minimal sufficient i den betingede fordeling.
46 KAPITEL 4. ANCILLARITET OG BASU’S SÆTNING<br />
Eksempel 4.5.<br />
Lad I og X være som i eksempel 4.2, d.v.s. I kan antage værdierne 1 og 2 med sandsynlighed<br />
1 2 , og givet værdien af I er X ∼ N(µ, σ2 I ). Desuden er σ2 1 = 1 og σ2 2 = 10.<br />
Tætheden med hensyn til produktet af tællemålet og Lebesguemålet er<br />
f(i, x; µ) =<br />
1(i = 1)<br />
<br />
2<br />
2πσ 2 1<br />
<br />
exp − 1<br />
2σ2(x − µ)<br />
1<br />
2 + 1(i = 2)<br />
<br />
2<br />
2πσ 2 2<br />
<br />
exp − 1<br />
2σ2(x − µ)<br />
2<br />
2<br />
.<br />
Vi kan indse at T0 = (I, X) er minimal sufficient ved følgende overvejelser: Ifølge faktoriseringssætningen<br />
er T0 sufficient. Målet λ der indgå i korollar 3.11 kan vi her tage<br />
til at være P0, altså målet med µ = 0. Dette kan vi gøre fordi alle målene er indbyrdes<br />
ækvivalente. Tætheden for Pµ med hensyn til P0 er<br />
Lad nu<br />
Så gælder der<br />
e µx[1(i=1)+1(i=2)/10]−µ2 [1(i=1)/2+1(i=2)/20] .<br />
g1(i, x) = log( dP1<br />
) og g2(i, x) = log(<br />
dP0<br />
dP−1<br />
).<br />
dP0<br />
i =<br />
og når først i er bestemt har vi<br />
1 hvis g1 + g2 = −1<br />
2 hvis g1 + g2 = − 1<br />
10 ,<br />
x = 1<br />
2 (g1 − g2)/[1(i = 1) + 1(i = 2)/10].<br />
Med andre ord er (i, x) en funktion af (g1, g2) og dermed er σ-algebraen frembragt af<br />
T0 indeholdt i σ-algebraen frembragt af g1 og g2 og dermed indeholdt i C. Korollar 3.11<br />
giver så at T0 er minimal sufficient.<br />
Når vi betinger med I = i reducerer T0 til X og dette er netop den minimal sufficiente<br />
i klassen af normalfordelinger med ukendt middelværdi. <br />
Observation 4.4 siger, at uanset om vi starter med at betinge med en ancillær størrelse,<br />
så bliver vi ledt frem til den samme minimal sufficiente observator T0. Der er dog<br />
stadig den forskel, at fra sufficiensprincippet vil vi betragte den marginale fordeling<br />
af T0, hvorimod fra betingningsprincippet vil vi betragte den betingede fordeling af T0<br />
givet U . Basu’s sætning nedenfor siger imidlertid, at hvis T0 er komplet, så vil T0 og U<br />
være uafhængige. Vi har derfor:<br />
Observation 4.6 Hvis T0 er minimal sufficient og komplet for P og U er ancillær for<br />
P, så vil både sufficiensprincippet og betingningsprincippet føre til, at vi skal betragte<br />
den marginale fordeling af T0 for inferens om P ∈ P. <br />
Hvis den minimal sufficiente T0 ikke er komplet, kan der eksistere ancillære observatorer,<br />
som er funktioner af T0, og dermed ikke er uafhængige af T0 som ovenfor.<br />
Dette illustreres ved:
4.1. DEFINITIONER OG DISKUSSION 47<br />
Eksempel 4.7.<br />
Lad (X i, Y i), i = 1, . . . , n være uafhængige og identisk fordelte med tæthed<br />
e −θx− 1 θ y , x > 0, y > 0,<br />
hvor θ > 0 er en parameter. Log likelihoodfunktionen er<br />
og T0 = ( ¯X, ¯Y) er minimal sufficient. Lad<br />
så er W ancillær idet<br />
<br />
l(θ) = n −θ ¯x − 1<br />
θ ¯y<br />
<br />
,<br />
W = ¯X ¯Y,<br />
<br />
W = (θ ¯X)<br />
1<br />
θ ¯Y<br />
<br />
1<br />
=<br />
n<br />
n<br />
∑<br />
1<br />
θX i<br />
1<br />
n<br />
n<br />
∑<br />
1<br />
1<br />
θ Y <br />
i ,<br />
og fordelingen af (θX i, 1 θ Y i) afhænger ikke af parameteren θ. Da W er en funktion af<br />
T0, er W og T0 ikke uafhængige. <br />
Umiddelbart kan vi derfor sige, at der er en konflikt mellem sufficiens- og betingningsprincippet.<br />
Den rigtige tilgangsvinkel til dette synes at være, at vi skal bruge<br />
begge principperne, når vi drager inferens. Spørgsmålet er så om rækkefølgen er ligegyldig,<br />
når T0 ikke er komplet? Vi kan derfor formulere følgende<br />
Ønske 4.8. Hvis T0 er minimal sufficient og U er ancillær, så ville det være ønskværdigt<br />
om der eksisterede en observator W, som både kan opfattes som en funktion af U<br />
(og dermed ancillær!) og som en funktion af T0, så at<br />
T0|U = u ∼ T0|W = w,<br />
altså at de to betingede fordelinger er de samme. D.v.s. at vi får det samme om vi<br />
først betinger med den ancilllære U og dernæst finder T0, eller om vi først finder T0 og<br />
dernæst betinger med den ancillære W, som er en funktion af T0. <br />
Ønske 4.7 er generelt ikke opfyldt, altså der eksisterer situationer, hvor rækkefølgen<br />
af brugen af sufficiens- og betingningsprincippet har betydning: se eksempel 4.11.<br />
Det kan derfor ikke forbavse, at denne mangel på entydighed kan føre til meget andet:<br />
se afsnit 4.3. Ønske 4.7 er opfyldt i den vigtige klasse af eksponentielle tranformationsmodeller,<br />
hvor U er den såkaldte konfiguration af (X1, . . . , Xn ) og W er den såkaldte<br />
maximal invariante efter minimal sufficient reduktion. Jeg vil ikke definere alle disse<br />
begreber her, men blot intuitivt nævne at en transformationsmodel P er på formen<br />
P = {Pg|g ∈ G} hvor G er en gruppe af transformationer på udfaldsrummet X (se også<br />
afsnit 8.3). Lad mig illustrere disse ting med:
48 KAPITEL 4. ANCILLARITET OG BASU’S SÆTNING<br />
Eksempel 4.9.<br />
Lad situationen være som i eksempel 4.6 og betegn sandsynlighedsmålet for (X1, Y1)<br />
med Pθ. Udfaldsrummet for den enkelte observation er R2 + , og her kan vi for ethvert<br />
g > 0 definere transformationen<br />
Hvis (X, Y) ∼ P1 så vil<br />
g : (x, y) →<br />
<br />
gx, 1<br />
g y<br />
<br />
.<br />
g(X, Y) ∼ (P1)g = P g −1,<br />
og klassen {P θ|θ > 0} = {(P1)g|g > 0} er derfor en transformationsmodel. Konfigurationen<br />
U bliver i denne situation<br />
og desuden er<br />
U =<br />
<br />
ˆθ(X1, . . . , Xn), 1<br />
ˆθ (Y1,<br />
<br />
. . . , Yn) hvor ˆ <br />
¯Y ¯X<br />
θ =<br />
,<br />
W =<br />
<br />
1<br />
n<br />
n<br />
∑<br />
1<br />
den maximal invariante efter minimal sufficient reduktion, som er en funktion af U.<br />
Det kan nu vises at<br />
( ˆθ, W)|U = u ∼ ( ˆθ, W)|W = w. <br />
I praksis beskæftiger man sig ikke med ovenstående potentielle konflikt. I typiske<br />
situationer vil der være nogle “oplagte” ancillære, som der betinges med først. Disse<br />
kan vedrøre forhold omkring den eksperimentelle situation og hvordan data indsamles.<br />
Dernæst bestemmes den minimal sufficiente observator T0, og hvis denne indeholder<br />
ancillære komponenter, betinges der med disse.<br />
4.2 Basu’s sætning<br />
ˆθX i<br />
Jeg kommer nu til det vigtigste resultat i dette kapitel:<br />
Sætning 4.10 (Basu’s sætning). Lad T = t(X), t : (X , A) → (Y, B), og U = u(X),<br />
u : (X , A) → (U, D), være to observatorer og antag at T er sufficient for P. Så gælder<br />
(i) Hvis T og U er uafhængige under ethvert mål i P, og hvis intet par af mål i P er<br />
indbyrdes singulære, så er U ancillær.<br />
(ii) Hvis T og U er uafhængige under ét mål i P, og hvis målene i P er indbyrdes<br />
ækvivalente, så er U ancillær.<br />
(iii) Hvis U er ancillær, og T er begrænset komplet under P, så er T og U uafhængige<br />
under ethvert mål i P <br />
2
4.2. BASU’S SÆTNING 49<br />
Bevis. (i) Lad π(A|t) være den fælles betingede sandsynlighed givet T og lad D ∈ D.<br />
Vi skal vise at P1(U ∈ D) = P2(U ∈ D) ∀P1, P2 ∈ P. Vi har for B ∈ B<br />
<br />
B<br />
P(U ∈ D)PT(dt) = P(U ∈ D)P(T ∈ B) = P(U ∈ D, T ∈ B)<br />
<br />
= π(u −1 D)|t)PT(dt), (4.1)<br />
B<br />
hvor det andet lighedstegn skyldes at T og U er uafhængige. Hvis vi definerer målet<br />
νP på (Y, B) ved<br />
νP(B) = P(U ∈ D, T ∈ B),<br />
så siger (4.1), at både P(U ∈ D) og π(u−1 (D)|t) er en version af dνP . Da tætheder<br />
dPT<br />
er entydigt bestemt på nær på en nulmængde, har vi, at der eksisterer NP ∈ B med<br />
P(T ∈ NP) = 0, og så at<br />
For to sandsynlighedsmål P1 og P2 har vi derfor<br />
P(U ∈ D) = π(u −1 (D)|t) for t /∈ NP. (4.2)<br />
P1(U ∈ D) = P2(U ∈ D) for t /∈ NP 1 ∪ NP2 .<br />
Vi skal nu blot vise, at NP 1 ∪ NP2 = Y, men dette følger af, at målene P1 og P2 ikke er<br />
indbyrdes singulære.<br />
(ii) Lad T og U være uafhængige under P0 ∈ P. Fra (4.2) har vi<br />
P0(U ∈ D) = π(u −1 (D)|t) t /∈ N0,<br />
hvor P0(T ∈ N0) = 0. Da målene er indbyrdes ækvivalente, er P(T ∈ N0) = 0 ∀P ∈ P,<br />
og vi får<br />
<br />
P0(U ∈ D) =<br />
<br />
P0(U ∈ D)PT(dt) =<br />
π(u −1 (D)|t)PT(dt) = P(U ∈ D).<br />
D.v.s. at U er ancillær.<br />
(iii) Vi skal vise, at T og U er uafhængige. Vi skal derfor vise, at den marginale<br />
sandsynlighed P(U ∈ D) = P0(U ∈ D) er lig med den betingede sandsynlighed<br />
P(U ∈ D|T = t) = π(u −1 (D)|t) for næsten alle t. Lad f : Y → R være<br />
Så er <br />
f(t) = P0(U ∈ D) − π(u −1 (D)|t).<br />
f(t)PT(dt) = P0(U ∈ D) − P(U ∈ D) = 0,<br />
og antagelsen om begrænset komplethed giver derfor, at f(t) = 0 for næsten alle t. <br />
Punkt (iii) i Basu’s sætning anvendes ofte, idet det giver en bekvem måde at etablere<br />
fordelingsresultater på.
50 KAPITEL 4. ANCILLARITET OG BASU’S SÆTNING<br />
Eksempel 4.11.<br />
Lad X1, . . . , Xn være uafhængige og N(ξ, σ 2 )-fordelte. Hvis vi betragter familien P σ 2<br />
med σ 2 fast og ξ ∈ R, er dette en eksponentiel familie med minimal kanonisk observator<br />
T = ∑ X i og kanonisk parameter ξ/σ 2 ∈ R. Fra Sætning 2.26 har vi at T er komplet,<br />
og fra Korollar 3.13 at T er minimal sufficient. Lad<br />
U = (X1 − ¯X, . . . , Xn − ¯X) = (Z1 − ¯Z, . . . , Zn − ¯Z)<br />
hvor Z i = X i − ξ. Da fordelingen af Z i ikke afhænger af ξ er U ancillær. Basu’s sætning<br />
giver så, at ¯X og U er uafhængige. Specielt er<br />
¯X og SSD =<br />
n<br />
∑(Xi − ¯X)<br />
1<br />
2 n<br />
= ∑ U<br />
1<br />
2 i<br />
uafhængige. <br />
4.3 Birnbaum’s sætning<br />
Dette afsnit har jeg udelukkende taget med for jeres fornøjelses skyld! Jeg starter med:<br />
Eksempel 4.12.<br />
Udfaldsrummet er X = {0, 1} × N, og den stokastiske variabel betegnes (A, X). Familien<br />
af sandsynlighedsmål er P = {P θ|0 < θ < 1}, hvor<br />
Pθ(A = 1) = 1 − Pθ(A = 0) = 1 2<br />
Pθ(X = k|A = 0) = (1 − θ) k θ for k = 0, 1, . . .<br />
<br />
5<br />
Pθ(X = k|A = 1) = (1 − θ)<br />
k<br />
k θ 5−k<br />
for k = 0, 1, . . . , 5.<br />
Altså svarer vores forsøg til, at vi først kaster en mønt for at bestemme værdien af A,<br />
og dernæst hvis A = 0, observerer vi X fra en geometrisk fordeling, og hvis A = 1, observerer<br />
vi X fra en binomialfordeling med antalparameter 5 . For at kunne bestemme<br />
den minimal sufficiente observator, bemærker vi at<br />
dP θ<br />
dP1 2<br />
(a, k) = (1 − a)θ(1 − θ)k + a( 5<br />
k )(1 − θ)kθ 5−k<br />
(1 − a)( 1 2 )k+1 + a( 5<br />
k )( 1 2 )5<br />
⎧<br />
⎨2<br />
=<br />
⎩<br />
k+1θ(1 − θ) k a = 0<br />
2 5 (1 − θ) k θ 5−k a = 1.<br />
Dette medfører at den minimal sufficiente observator er<br />
t0(a, k) = (a1(k = 4), k),<br />
d.v.s. T0 er næsten identisk med (A, X), bortset fra at de to udfald (0,4) og (1,4) er slået<br />
sammen til et udfald (0,4) .
4.3. BIRNBAUM’S SÆTNING 51<br />
Hvis vi føst bruger betingningsprincippet og betinger med A og dernæst bruger<br />
sufficiensprincippet, ender vi ud med at betragte<br />
X|A = a. (4.3)<br />
Hvis vi derimod starter med sufficensprincippet og dernæst betingningsprincippet,<br />
skal vi spørge, om der findes en ancillær observator der er funktion af T0. Dette synes<br />
ikke at være tilfældet (Ã = A1(X = 4) er således ikke ancillær), og vi ender ud med<br />
at betragte<br />
T0 = (A1(X = 4), X). (4.4)<br />
Vi har derfor fået de to forskellige resultater (4.3) og (4.4). <br />
Eksempel 4.11 viser således, at Ønske 4.7 ikke altid er opfyldt.<br />
Hvis vi nu insisterer på, at “først betingningsprincip så sufficiensprincip” og “først<br />
sufficensprincip så betingningsprincip” altid skal føre til de samme konklusioner, er<br />
det klart, at vi må lave restriktioner på hvordan vi laver konklusioner. Hvad den nødvendige<br />
restriktion bliver, er netop resultatet af Birnbaum’s sætning.<br />
For at formulere sætningen skal jeg bruge noget notation. Resultatet af en statistisk<br />
analyse vil jeg betegne med R. Hvis modellen (X , A, P) betegnes med E og observationen<br />
med x , vil R(E, x) være resultatet fra at have observeret x fra modellen E. Den<br />
type resultater, I er vant til at få frem i en statistisk analyse, er for eksempel et estimat<br />
sammen med dettes middelværdi og varians, eller for eksempel et estimat sammen<br />
med et konfidensinterval. Hvis T er sufficient, og ET betegner modellen svarende til at<br />
kun T = t(X) observeres, formulerer Birnbaum sufficiensprincippet som<br />
(S) R(E, x) = R(ET, t(x)).<br />
Hvis U er ancillær, betegner vi den betingede model af X givet U = u med Eu, og<br />
Birnbaum giver betingningsprincippet som<br />
(B) R(E, x) = R(E u(x) , x).<br />
Endelig skal vi have indført likelihoodprincippet. Dette siger, at resultatet af en statistisk<br />
analyse skal kun afhænge af (E, x) gennem likelihoodfunktionen<br />
l(θ) = dP θ<br />
dµ (x).<br />
D.v.s. at hvis to modeller E 0 og E 1 med det samme parameterrrum Θ og med tilhørende<br />
observationer x 0 og x 1 giver anledning til de samme likelihoodfunktioner<br />
l 0 (θ) = dP0 θ<br />
dµ (x0 ) = c dP1 θ<br />
dµ 1 (x1 ) = cl 1 (θ) for alle θ ∈ Θ, (4.5)<br />
hvor c = c(x 0 , x 1 ) ikke afhænger af θ, så skal<br />
R(E 0 , x 0 ) = R(E 1 , x 1 )<br />
Jeg kan nu formulere Birnbaum’s sætning som:<br />
“Hvis (S) og (B) kan bruges i flæng, så gælder likelihoodprincippet”
52 KAPITEL 4. ANCILLARITET OG BASU’S SÆTNING<br />
Bevis. Lad som ovenfor (E 0 , x 0 ) og (E 1 , x 1 ) være to modeller med tilhørende observationer<br />
x 0 og x 1 så at for netop disse to observationer er l 0 (θ) og l 1 (θ) ens, se (4.5). Vi<br />
konstruerer nu en større model E ∗ , der består i, at først bestemmes værdien af A, hvor<br />
P θ(A = 0) = P θ(A = 1) = 1 2 , og dernæst hvis A = 0 observeres der fra E0 og hvis<br />
A = 1 observeres der fra E 1 . Eksempel 4.11 ovenfor er et specialeksempel på dette.<br />
Udfaldsrummet for E ∗ er<br />
X ∗ = {(a, y) | a = 0 og y ∈ X 0 eller a = 1 og y ∈ X 1 }<br />
= ({0} × X 0 ) ∪ ({1} × X 1 ).<br />
Lad målet µ ∗ på X ∗ bestå af µ 0 på {0} × X 0 og µ 1 på {1} × X 1 . Så er<br />
og<br />
dP∗ θ 1<br />
(a, y) =<br />
dµ ∗ 2 {(1 − a)dP0 θ<br />
dµ 0 (y) + adP1 θ<br />
dµ<br />
dP ∗ θ<br />
dP ∗ θ0<br />
(a, y) =<br />
⎡<br />
⎢<br />
⎣<br />
dP 0 θ<br />
dP 0 θ 0<br />
dP 1 θ<br />
dP 1 θ 0<br />
(y) hvis a = 0<br />
(y) hvis a = 1.<br />
1 (y)},<br />
(4.6)<br />
Hvis x 0 og x 1 opfylder (4.5), viser (4.6), at (0, x 0 ) og (1, x 1 ) giver den samme værdi for<br />
den minimal sufficiente T ∗ 0 under E∗ , altså t ∗ 0 (0, x0 ) = t ∗ 0 (1, x1 ). Derfor giver (S), at<br />
R(E ∗ , (0, x 0 )) = R(E ∗ T0 , t∗ 0 (0, x0 )) = R(E ∗ T0 , t∗ 0 (1, x1 )) = R(E ∗ , (1, x 1 )). (4.7)<br />
Da A er ancillær, giver (B) , at<br />
R(E ∗ , (0, x 0 )) = R(E 0 , x 0 ) og R(E ∗ , (1, x 1 )) = R(E 1 , x 1 ). (4.8)<br />
Kombinerer vi (4.7) og (4.8), har vi, at<br />
R(E 0 , x 0 ) = R(E 1 , x 1 ), (4.9)<br />
d.v.s. at vi har vist, at hvis de to likelihoodfunktioner er ens (4.5), så får vi det samme<br />
resultat (4.9) ud af den statistiske analyse. <br />
Da Birnbaum publicerede sit resultat i 1962, kom det som en stor overraskelse. Grunden<br />
er, at de fleste <strong>statistik</strong>ere akcepterer sufficiensprincippet og betingningsprincippet<br />
som rimelige, men de vil ikke akceptere likelihoodprincippet. Det sidste skyldes,<br />
at hvis man holder sig til likelihoodprincippet, så har man ikke mulighed for at lave<br />
sandsynlighedsudtalelser i sin konklusion, f.eks. kan man ikke angive middelværdi og<br />
varians af et estimat. Som det fremgår af beviset for Birnbaum’s sætning, opstår problemet,<br />
fordi han forlanger at forskellige rækkefølger af brugen af sufficensprincippet<br />
og betingningsprincippet skal føre til samme resultat R for analysen.<br />
En <strong>statistik</strong>er af “<strong>Aarhus</strong>-skolen”, og dermed en <strong>statistik</strong>er i Fisher’s ånd, vil sige,<br />
at Birnbaum’s resulatat er af typen, at “man smider barnet ud med badevandet”. Altså<br />
den manglende entydighed, når sufficiens- og betingningsprincippet bruges i forskellig<br />
rækkefølge, er udtryk for at inferensdragning er en ikke-entydig beskæftigelse, og<br />
nødvendiggør ikke, at vi skal underkaste os likelihoodprincippets åg.
4.4. OPGAVER 53<br />
4.4 Opgaver<br />
Opgave 4.1<br />
Lad X og Y være uafhængige stokastiske variable, så<br />
og<br />
P(X = 0) = P(X = 1) = 1 2 ,<br />
P(Y = −1) = p, p(Y = 0) = 1 2 , P(Y = 1) = 1 2 − p,<br />
hvor 0 ≤ p ≤ 1 2 . Vis, at U = X + Y2 er ancillær.<br />
Vis, dernæst at Y er sufficient og overvej om Y og U er uafhængige.<br />
Opgave 4.2<br />
Lad X1, . . . , Xn være uafhængige med fordeling givet ved<br />
⎧<br />
⎪⎩<br />
1 6 (1 − θ) k = 1<br />
⎪⎨ 1<br />
6 (1 + θ) k = 2<br />
P(Xi = k) =<br />
1 6 (2 − θ) k = 3<br />
1 6 (2 + θ) k = 4,<br />
med −1 < θ < 1. Lad endvidere N k være antallet af X i-er med værdien K. Vis, at<br />
U = (N1 + N2, N3 + N4) og V = (N1 + N4, N2 + N3) begge er ancillære.<br />
Find den forventede information i fordelingen af (N1, N2, N3, N4) givet henholdsvis<br />
U og V.<br />
Vis, at (N1, N2, N3, N4) er minimal sufficient for klassen af fordelinger for X1, . . . , Xn.<br />
Find dernæst en minimal sufficient observator i den betingede fordeling givet U.<br />
Opgave 4.3<br />
Lad X1, . . . , Xn være uafhængige Γ(λ, β)-fordelte, d.v.s. tætheden er<br />
Γ(λ) −1 β λ x λ−1 exp(−βx). Parametrene varierer i (λ, β) ∈ R 2 + .<br />
(i) Vis, at maksimum likelihood estimatet er løsningen til ligningssystemet<br />
λ<br />
β = ¯X og<br />
d<br />
dλ ln Γ(λ) − ln λ = ln ∏n 1 X1/n<br />
i<br />
(ii) Vis, ved at bruge Basu’s sætning på delfamilien med λ fast og β ∈ R+, at ¯X og ˆλ<br />
er uafhængige.<br />
Vink: (∗) viser at ˆλ er en funktion af<br />
n<br />
∏ 1<br />
X 1/n<br />
i<br />
¯X =<br />
n<br />
∏ 1<br />
(βX i) 1/n 1<br />
n<br />
n<br />
∑<br />
1<br />
¯X<br />
βX i<br />
<br />
.<br />
(∗)
54 KAPITEL 4. ANCILLARITET OG BASU’S SÆTNING<br />
Opgave 4.4<br />
Lad X1, . . . , Xn være uafhængige og identisk N(ξ, σ 2 )-fordelte med ξ ∈ R og σ 2 ∈ R+.<br />
Vis, at ( ¯X, s 2 ) er sufficient, hvor s 2 = ∑(X i − ¯X) 2 /(n − 1). Vis, at ( ¯X, s 2 ) er uafhængig<br />
af henholdsvis U1 og U2, hvor<br />
Her er<br />
U1 = ∑n−1<br />
i=1 (Xi+1 − Xi) 2<br />
∑ n i=1 (X i − ¯X) 2<br />
og U2 = X (n) − ¯X<br />
X (n) − X (1)<br />
X (1) = min{X1, . . . , Xn} og X (n) = max{X1, . . . , Xn}.<br />
Vink: Udtryk U1 og U2 ved Z i = (X i − ξ)/σ, i = 1, .., n.<br />
Opgave 4.5<br />
Lad X1, . . . , Xn være uafhængige og identisk fordelte med tæthed<br />
1<br />
β exp<br />
<br />
x − α<br />
<br />
−<br />
β<br />
Parametrene (α, β) varierer i R × R+.<br />
for x ≥ α og nul ellers.<br />
(i) Find maksimum likelihood estimatet for (α, β).<br />
(ii) Vis, at for fast β og α ∈ R er X (1) = min{X1, . . . , Xn} sufficient og begrænset<br />
komplet. (Vink: Hvis Eα f = 0 for alle α, definer da to mål ν + og ν − ved hjælp af<br />
f + og f − , og vis at disse to mål er identiske.)<br />
(iii) Vis, at ˆα og ˆβ er uafhængige.
4.4. OPGAVER 55<br />
D. Basu -
Kapitel 5<br />
Likelihoodbegreber<br />
Vi skal betragte den statistiske model (X , A, P), hvor X er udfaldsrummet, A en σalgebra,<br />
og P = {P θ|θ ∈ Θ} en parametriseret klasse af sandsynlighedsmål på X .<br />
Med en sådan model formaliserer vi, at parameteren θ ikke direkte kan måles, og at<br />
vi kun får indirekte viden gennem at data følger en fordeling specificeret ved θ. Lad µ<br />
være et mål som dominerer P θ for alle θ ∈ Θ.<br />
Definition 5.1 (Likelihoodfunktionen) L(θ) eller L(θ, x) er en funktion af θ, der for<br />
ethvert x ∈ X er givet ved<br />
L(θ) = L(θ, x) = dPθ (x), θ ∈ Θ.<br />
dµ<br />
I visse situationer vil vi betragte L(θ) som den stokastiske variabel L(θ, X). Loglikelihoodfunktionen<br />
er<br />
l(θ) = l(θ, x) = ln L(θ, x).<br />
Ultimativt ville vi gerne gennem den statistiske analyse være i stand til at pege på<br />
den værdi af θ, som har frembragt data. Dette er naturligvis ikke muligt, og istedet<br />
må vi nøjes med at pege på nogle gode kandidater. Likelihoodfunktionen er et vigtigt<br />
hjælpemiddel til at finde ud af, hvad der er gode kandidater. Hvis for eksempel<br />
L(θ2)/L(θ1) = 10 betyder dette, at under Pθ2 er der 10 gange større sandsynlighed for<br />
at få observationen x end under Pθ1 . I et sådant tilfælde vil vi have mere tiltro til, at θ2<br />
er den ukendte værdi af θ, end vi har til θ1. Hvis udfaldsrummet X er diskret, giver<br />
denne fortolkning ikke anledning til problemer. Hvis istedet X er kontinuert, støder<br />
vi på det problem, at en tæthed kun er defineret næsten sikkert. I praksis er dette som<br />
regel ikke et problem, idet der findes en version af tætheden, som er kontinuert i x, og<br />
denne version bruges så til at angive likelihoodfunktionen. Det er klart ud fra ovenstående<br />
fortolkning, at den værdi af θ, hvor funktionen L(θ) - eller l(θ) - har maksimum,<br />
er af særlig interesse.<br />
Definition 5.2 Hvis ˆθ = ˆθ(x) er sådan, at<br />
l(θ) ≤ l( ˆθ) ∀θ ∈ Θ,<br />
kaldes ˆθ(x) et maksimum likelihood estimat. Ligningen ∂l<br />
∂θ (θ) = 0 kaldes likelihoodligningen.<br />
<br />
57
58 KAPITEL 5. LIKELIHOODBEGREBER<br />
Hvis vi får at vide, at en undersøgelse har vist, at hvis man ryger, er der 10 procent risiko<br />
for, at man får lungekræft, vil vi sikkert straks spørge, hvor sikker denne konklusion<br />
er. Det er jo ikke ligegyldigt om undersøgelsen har fulgt 10 personer, og en af disse har<br />
udviklet lungekræft, eller om hele Danmarks befolkning er blevet fulgt i en årrække.<br />
Det er derfor ikke særligt informativt at afslutte en undersøgelse med at give et punkt<br />
estimat, vi må også sige noget om, hvor tæt estimatet kan formodes at være på den<br />
ukendte værdi af parameteren. Vi vil med andre ord være interesseret i fordelingen af<br />
estimatet, altså hvordan varierer estimatet, hvis vi forestiller os, at forsøget gentages,<br />
så at nye data indsamles fra P θ. Specielt kan vi se på middelværdien af estimatet, og<br />
dette giver anledning til:<br />
Definition 5.3 <strong>Et</strong> estimat ˜θ : X → Θ (ikke nødvendigvis maksimum likelihood estimatet)<br />
siges at være centralt (på engelsk unbiased) hvis<br />
E θ ˜θ(X) = θ for alle θ ∈ Θ. <br />
Hvis et estimat ikke er unbiased, siges det at være biased. I de fleste tilfælde vil Θ være<br />
en delmængde af R d , så at ˜ θ(X) ∈ R d , og vi kan tale om dens middelværdi.<br />
Eksempel 5.4.<br />
Lad X1, . . . , Xn være i.i.d. med tæthed<br />
βe −βx , x > 0,<br />
hvor parameteren β > 0. Loglikelihoodfunktionen er<br />
l(β) = n{ln β − β ¯x},<br />
og dermed ˆβ = ¯X −1 . Da ¯X er Gamma-fordelt, finder vi, at<br />
E ˆβ = n<br />
β = β,<br />
n − 1<br />
og ˆβ er altså ikke et centralt estimat. Hvis vi istedet for β betragter parameteren µ =<br />
1/β, som er middelværdien af X, får vi, at maksimum likelihood estimatet af µ er<br />
ˆµ = 1/ ˆ β = ¯X.<br />
Det giver E ˆµ = µ, og ˆµ er et centralt estimat. <br />
Udover middelværdien af et estimat vil det være naturligt at undersøge variansen.<br />
Specielt kan man blandt de estimater, der er centrale forsøge at finde det estimat, der<br />
har mindst mulig varians. Dette er emnet for kapitel 6. Lad mig nævne her, at det<br />
ikke er sikkert, at centrale estimater eksisterer, og hvis de eksisterer, kan kravet om,<br />
at estimatet skal være eksakt centralt betyde, at estimater med andre gode egenskaber<br />
udelukkes.<br />
I stedet for at angive variansen på ˆθ kan vi angive de værdier af θ udover ˆθ, som<br />
har en stor værdi af likelihoodfunktion.
Definition 5.5 <strong>Et</strong> likelihoodområde er en delmængde af Θ på formen<br />
{θ ∈ Θ | l(θ) − l( ˆθ) ≥ −c} (5.1)<br />
for en given konstant c > 0. <br />
I eksempel 5.4 ovenfor vil et likelihoodområde for β være et interval<br />
<br />
z1(c/n)<br />
,<br />
¯x<br />
z2(c/n)<br />
<br />
¯x<br />
hvor z1(y) < z2(y) er de to løsninger til z − 1 − ln z = y. Når n er stor, fås<br />
<br />
1 − √ 2c/n<br />
,<br />
¯x<br />
1 + √ <br />
2c/n<br />
.<br />
¯x<br />
Bemærk her afhængigheden af n. Hvis antallet af observationer 4-dobles, vil længden<br />
af likelihoodintervallet blive halveret.<br />
Likelihoodområdet er indført ovenfor ud fra synspunktet, at det er de θ værdier,<br />
som er næsten lige så trolige som ˆθ. Man kan også spørge: hvad er sandsynlighden for,<br />
at den ukendte parameterværdi θ er indeholdt i likelihoodområdet? Dette får os til at<br />
indføre:<br />
Definition 5.6 <strong>Et</strong> (1 − α)− konfidensområde er en afbildning K(x) fra X ind i mængden<br />
af delmængder af Θ, så at<br />
P θ(K(X) indeholder θ) = 1 − α for alle θ ∈ Θ. <br />
Eksempel 5.7.<br />
Lad X1, . . . , Xn være i.i.d. med fordeling N(µ, σ2 0 ), hvor σ2 0 er kendt og µ ∈ R er ukendt.<br />
Så er<br />
<br />
K(x1, . . . , xn) = ¯x − 1.96<br />
√ σ0, ¯x +<br />
n 1.96<br />
<br />
√ σ0<br />
(5.2)<br />
n<br />
et 95% konfidensinterval for µ. Dette ses ved, at<br />
<br />
Pµ µ ∈ ¯X − 1.96<br />
√ σ0, ¯X +<br />
n 1.96<br />
<br />
√ σ0 = Pµ −1.96 ≤<br />
n √ n( ¯X − µ) 1<br />
idet ¯X ∼ N(µ, σ2 0 /n).<br />
Da log-likelihoodfunktionen er<br />
<br />
l(µ) = n − 1<br />
2 ln(2πσ2 1<br />
0 ) −<br />
2σ2 1<br />
n 0<br />
∑(xi − µ) 2<br />
<br />
<br />
= n − 1<br />
2 ln(2πσ2 1<br />
0 ) −<br />
2σ2 1<br />
n 0<br />
∑(xi − ¯x) 2 − 1<br />
2σ2( ¯x − µ)<br />
0<br />
2<br />
<br />
fås at<br />
l(µ) − l( ˆµ) = − n<br />
2σ2( ¯x − µ)<br />
0<br />
2 .<br />
σ0<br />
<br />
≤ 1.96 = 0.95<br />
Konfidensintervallet (5.2) er derfor også likelihoodintervallet l(µ) − l( ˆµ) > −1.96 2 /2.<br />
59
60 KAPITEL 5. LIKELIHOODBEGREBER<br />
I eksempel 5.7 så vi et eksempel på, at et likelihoodområde også er et konfidensområde.<br />
Dette vil kun være tilfældet i specielle situationer. Til gengæld er det meget ofte korrekt<br />
approximativt:<br />
Observation 5.8 I mange modeller er området<br />
Kc(x) = {θ | l(θ) − l( ˆθ) ≥ −c}<br />
approksimativt et χ2 d (2c) konfidensområde. Her er χ2 d (w) sandsynligheden for at en<br />
χ2-fordeling med d-frihedsgrader er mindre end w, og d stammer fra at Θ ⊆ Rd . <br />
Dette er selvfølgelig meget løst formuleret, men i notesættet om asymptotik skal<br />
vi se, at det er korrekt for n → ∞, hvor n er antallet af observationer. Resultatet i<br />
Bemærkning 5.8 hænger sammen med et fordelingsresultat for ˆθ. For at forklare dette<br />
definerer jeg:<br />
Definition 5.9 Den stokastiske variabel<br />
kaldes scorefunktionen, og matricen<br />
U(θ) =<br />
∂l(θ, X)<br />
∂θ<br />
j(θ) = − ∂2 l(θ, X)<br />
∂θ∂θ ∗<br />
kaldes den observerede information. Middelværdien af j(θ)<br />
i(θ) = E θj(θ)<br />
kaldes den forventede information. <br />
Observation 5.10 Hvis vi må bytte rundt på differentiation og integration, har vi<br />
og<br />
dPθ ∂ ln( dµ<br />
EθU(θ) =<br />
(x))<br />
dPθ(x) ∂θ<br />
<br />
∂ dPθ<br />
=<br />
∂θ dµ (x)<br />
<br />
dPθ<br />
dµ (x)<br />
−1 dPθ(x) =<br />
= ∂<br />
<br />
dPθ<br />
∂<br />
(x)dµ(x) = 1 = 0,<br />
∂θ dµ ∂θ<br />
Var θ(U(θ)) = E θU(θ) ∗ U(θ)<br />
hvor vi benyttede at<br />
<br />
∂ 2<br />
∂θ∂θ ∗<br />
<br />
=<br />
<br />
=<br />
⎧<br />
⎪⎨<br />
⎪⎩<br />
dPθ<br />
dµ (x)<br />
∂<br />
∂θ ∗<br />
<br />
dPθ<br />
dµ (x)<br />
<br />
∂ dPθ<br />
∂θ dµ (x)<br />
<br />
dPθ<br />
dµ (x)<br />
2 j(θ)dP θ(x) = i(θ),<br />
<br />
dPθ<br />
dµ (x)<br />
−1<br />
<br />
−<br />
<br />
∂ dPθ<br />
∂θ dµ (x)<br />
<br />
dµ(x)<br />
∂2 ∂θ∂θ∗ <br />
dPθ<br />
dµ (x)<br />
<br />
dPθ<br />
dµ (x)<br />
<br />
⎫<br />
⎪⎬<br />
⎪⎭ dPθ(x)<br />
dPθ(x) = ∂2<br />
∂θ∂θ∗ <br />
dPθ<br />
(x)dµ(x) = 0.<br />
dµ
Observation 5.11 Hvis vi har n data punkter X1, . . . Xn og betegner scorefunktionen<br />
med Un(θ) = Un(θ, X1, . . . , Xn), så vil et bevis magen til det ovenfor for E θUn(θ) = 0<br />
give at<br />
Eθ{Un+1(θ) | X1, . . . , Xn} = Un(θ).<br />
Altså er Un(θ) en martingal. Beviset bygger på, at tætheden for X1, . . . Xn+1 er den betingede<br />
tæthed af Xn+1 givet (X1, . . . , Xn ) ganget med tætheden for X1, . . . , Xn. <br />
Jeg kom bort fra, at jeg ville sige noget om fordelingen af ˆθ :<br />
Observation 5.12 I mange modeller er<br />
( ˆθ − θ)j( ˆθ) 1/2 approksimativt N d(0, I d),<br />
hvor I d er d × d enhedsmatricen. <br />
Igen er dette et resultat, der holder for de fleste modeller, når n → ∞, hvor n er antallet<br />
af observationer. Det er også bemærkelsesværdigt, at hvis der findes en ancillær<br />
observator, vil resultaterne i Observationerne 5.8 og 5.12 typisk holde i den betingede<br />
fordeling givet værdien af den ancillære observator.<br />
Indtil nu har jeg talt om estimaternes fordeling og om forskellige områder af trolige<br />
parameterværdier. Heri ligger også kimen til forskellige måder at lave tests på. Lad os<br />
se på situationen, at vi ønsker at teste θ = θ0. En meget naturlig måde til at undersøge<br />
om θ = θ0, er at se om θ0 tilhører et likelihoodområde specificeret ved en værdi af c i<br />
(5.1). Dette svarer imidlertid til at betragte værdien af log kvotienttestoren (log likelihood<br />
ratio teststørrelsen)<br />
W = 2{l( ˆθ) − l(θ0)}, (5.3)<br />
således at θ0 tilhører likelihoodområdet hvis og kun hvis W ≤ 2c. Store værdier af W<br />
betyder, at ˆθ er en meget mere trolig værdi af den ukendte parameter end θ0, og hvis<br />
W bliver for stor, forkaster vi hypotesen θ = θ0. Hvis vi Taylorudvikler (5.3) omkring<br />
ˆθ, får vi den såkaldte Wald teststørrelse:<br />
Wald = ( ˆθ − θ0)j( ˆθ)( ˆθ − θ0) ∗ .<br />
En tredje mulighed er at forkaste hypotesen hvis<br />
U(θ0)i(θ0) −1/2<br />
bliver for stor. Dette kaldes scoretestet. Ækvivalent hermed er det store værdier af<br />
S = U(θ0)i(θ0) −1 U(θ0) ∗<br />
som forkastes.<br />
Svarende til Observationerne 5.8 og 5.12 har vi:<br />
Observation 5.13 Alle tre teststørrelser W , Wald og S er i mange modeller approksimativt<br />
χ2 d-fordelt. <br />
61
62 KAPITEL 5. LIKELIHOODBEGREBER<br />
Vi kan altså lave et approksimativt test på niveau α ved at forkaste, når teststørrelsen<br />
er større en 1 − α fraktilen i en χ 2 d -fordeling.<br />
I nogle af afsnittene nedenfor skal vi diskutere, hvordan vi vælger ét test fremfor et<br />
andet.<br />
Vi så i afsnit 3.4, at likelihoodfunktionen er en minimal sufficient observator. De<br />
ting, som jeg har sagt i dette afsnit, peger hen mod, at de vigtigste aspekter ved likelihoodfunktionen<br />
er parret ( ˆ θ, j( ˆ θ)). Dette bygger på, at hvis vi kender ˆ θ og j( ˆ θ), så<br />
kan vi lave en parabolsk approksimation til likelihoodfunktionen omkring dens maksimum.<br />
Som nævnt ovenfor forudsætter dette at antallet af observationer er stort. Hvis<br />
dette ikke er tilfældet, er det vigtigt at kigge nøjere på likelihoodfunktionen, og det er<br />
vigtigt at bruge log kvotienttestoren W fremfor Wald teststørrelsen.<br />
Jeg vender tilbage til likelihoodfunktionen i afsnit 8.1 i forbindelse med inferens<br />
om en delparameter.<br />
5.1 Opgaver<br />
Opgave 5.1<br />
Lad l(θ), θ ∈ Θ, være loglikelihoodfunktion for observationen x, og lad ˆθ = ˆθ(x) være<br />
maksimum likelihood estimatet under hypotesen θ ∈ Θ :<br />
sup l(θ) = l( ˆθ).<br />
θ∈Θ<br />
Lad Θ0 ⊆ Θ være en delhypotese. Vis, at hvis estimatet ˆθ under den fulde model<br />
tilhører Θ0, ˆ θ ∈ Θ0, da vil<br />
sup l(θ) = l( ˆθ).<br />
θ∈Θ0<br />
Lad nu θ = (ψ, η) og Θ = Ψ × Ω. Antag at l(θ) er på formen<br />
Vis, at<br />
sup<br />
θ∈Θ<br />
l(θ) = l0(ψ) + l1(η).<br />
l(θ) = sup<br />
ψ∈Ψ<br />
l0(ψ) + sup l1(η).<br />
η∈Ω<br />
Opgave 5.2<br />
Lad X1 ∼ Bin(n1, θ1) og X2 ∼ Bin(n2, θ2), hvor (θ1, θ2) ∈ Θ = (0, 1) × (0, 1), og lad X1<br />
og X2 være uafhængige. Opstil log-likelihoodfunktionen l(θ1, θ2) for (θ1, θ2).<br />
Betragt delhypotesen (θ1, θ2) = (ψ, ψ 3 ) med 0 < ψ < 1, og opstil loglikelihoodfunktionen<br />
l(ψ) for ψ.<br />
Vis, at likelihoodligningen l ′ (ψ) = 0 kan reduceres til en tredje grads ligning.<br />
Betragt tilfældet med n1 = n2 = 16, x1 = 8 og x2 = 2. Find maksimum likelihood<br />
estimatet ( ˆθ1, ˆθ2) i den fulde model og dernæst maksimum likelihood estimatet for ψ i<br />
delmodellen.<br />
Opgave 5.3. Newton-Raphson iteration<br />
Lad l(θ) være en loglikelihoodfunktion med θ liggende i et interval af R. Hvis vi ikke
5.1. OPGAVER 63<br />
kan løse likelihoodligningen<br />
l ′ (θ) = 0<br />
direkte, kan vi forsøge at lave en iterativ procedure, som konvergerer mod estimatet ˆ θ.<br />
Newton-Raphson iteration baserer sig på en 1.-ordens Taylorudvikling af l ′ (θ) :<br />
⇓<br />
l ′ (θ) = l ′ (θ1) + (θ − θ1)l ′′ (θ1) + Rest(θ, θ1)<br />
ˆθ − θ1 = −l′ (θ1) − Rest( ˆθ, θ1)<br />
l ′′ .<br />
(θ1)<br />
Vi smider nu restleddet væk og forsøger os med gættet<br />
Vi får derfor en sekvens θ2, θ3, .. på formen<br />
θ2 = θ1 − l ′ (θ1)/l ′′ (θ1).<br />
θ k+1 = θ k − l ′ (θ k)/l ′′ (θ k).<br />
Denne metode til bestemmelse af ˆθ kaldes Newton-Raphson iteration.<br />
Lav en tegning med l ′ (θ) som funktion af θ og vis hvordan θ2 konstrueres ud fra θ1.<br />
Generelt konvergerer Newton-Raphson iterationen mod ˆθ, hvis blot det <strong>første</strong> gæt<br />
θ1 ligger tiltrækkelig tæt på ˆθ. Overvej dette ud fra tegnede eksempler.<br />
Hvis θ er p-dimensional, bliver Taylorudviklingen<br />
og Newton-Raphson iterationen bliver<br />
∂l<br />
(θ) ≈<br />
∂θ<br />
∂l<br />
∂θ (θ1) + (θ − θ1)<br />
∂2l ∂θ∂θ∗ 1 × p 1 × p 1 × p p × p<br />
θk+1 = θk − ∂l<br />
∂θ (θ <br />
∂2l k)<br />
∂θ∂θ∗(θ −1<br />
k) .<br />
Opgave 5.4<br />
Betragt igen opgave 5.2 med X1 ∼ Bin(n1, ψ) og X2 ∼ Bin(n2, ψ 3 ). Vis, at likelihoodligningen<br />
reducerer til<br />
(n1 + 3n2)ψ 3 + (n1 − x1)ψ 2 + (n1 − x1)ψ − (x1 + 3x2) = 0. (∗)<br />
Overvej hvor mange løsninger denne ligning har i intervallet (0, 1).<br />
Opskriv Newton-Raphson iterationen, og overvej et godt startpunkt ψ1.<br />
Lad n1 = 10, n2 = 20 og x1 = 5, x2 = 2. Find ˆψ ved iteration. Start evt. med<br />
ψ1 = x 1<br />
n 1 + x2<br />
n2<br />
1/3 /2. Tegn l(ψ) og find likelihoodintervallet {ψ|l( ˆψ) − l(ψ) ≤ 2}.<br />
Opgave 5.5<br />
Lad X1, . . . , Xn være uafhængige N(µ, σ 2 )-fordelte. Find den observerede information<br />
j(µ, σ 2 ) og den forventede information i(µ, σ 2 ).
64 KAPITEL 5. LIKELIHOODBEGREBER<br />
Maksimum likelihood estimatet for σ 2 er ˆσ 2 = 1 n Σ(x i − ¯x) 2 . Vis, at for n → ∞ vil<br />
√ n(ˆσ 2 − σ 2 ) ˜→N(0, τ 2 )<br />
og angiv τ2 .<br />
Vink: Det sidste spørgsmål kan løses direkte, da ˆσ 2 ’s fordeling er kendt. Alternativt<br />
kan man skrive<br />
√ n(ˆσ 2 − σ 2 ) = 1<br />
√n<br />
n<br />
∑<br />
1<br />
og vise at n 1/4 ( ¯X − µ) → 0 i sandsynlighed.<br />
<br />
(Xi − µ) 2 − σ 2<br />
<br />
− n 1/4 2 ( ¯X − µ)<br />
Opgave 5.6<br />
Denne opgave skal løses numerisk ved hjælp af en lille computer.<br />
I forbindelse med estimation af fordelingen af inkubationstiden for AIDS har man<br />
forsøgt at bruge data for personer smittet ved blodtransfusion, hvor netop smittetidspunktet<br />
er kendt. Hvis for eksempel undersøgelsen af afsluttet i 1985, har vi observeret<br />
alle dem, der har fået AIDS før 1985 og som er smittet ved blodtransfusion. Lad observationerne<br />
være Y i < Z i < 1985, hvor Y i er smittetidspunktet og Z i er tidspunktet for<br />
AIDS i fuldt udbrud. Der vil være andre, der er smittede til tidspunktet Y i, men disse<br />
observeres ikke, da deres AIDS tidspunkt Z ligger senere end 1985. Det relevante vil<br />
derfor være at betragte Xi = Zi − Yi som en observation af en inkubationstid i den<br />
betingede fordeling givet X i < 1985 − Y i = U i.<br />
Vi opstiller derfor en likelihoodfunktion baseret på observationerne (x1, u1), . . . ,<br />
(xn, un) og den betingede fordeling af X givet X < u. Vi vil betragte modellen, hvor<br />
inkubationstiden er Weibullfordelt, d.v.s. fordelingsfunktionen er givet ved<br />
hvor parametrene (α, β) varierer i R 2 +<br />
X i men K i, hvor<br />
bliver likelihoodfunktionen<br />
L(α, β) =<br />
n<br />
∏ 1<br />
= ∏ k≤u<br />
P(X ≤ x) = 1 − e −βxα<br />
,<br />
. Hvis data er grupperet, så at vi ikke observerer<br />
K i = l for l − 1 < X i ≤ l,<br />
exp[−β(ki − 1) α ] − exp[−βkα i ]<br />
1 − exp(−βuα i )<br />
<br />
exp[−β(k − 1) α ] − exp[−βkα ]<br />
1 − exp(−βuα n(k,u) ,<br />
)<br />
hvor n(k, u) er antal observationer (k i, u i) med vaerdien (k, u). Datasættet nedenfor<br />
stammer fra San Francisco. For hver kombination af (k, u) angiver tabellen hvor mange<br />
observationer n(k, u) der er med denne værdi af (k, u)<br />
k 6 7 3 4 5 6 3 4 5 1 2 3 4 1 2 3 1 2<br />
u 7 7 6 6 6 6 5 5 5 4 4 4 4 3 3 3 2 2<br />
n(k, u) 2 1 2 1 5.5 4.5 8 11.5 5 1 7.5 8.5 17 3 14.5 20.5 4.5 20.5
5.1. OPGAVER 65<br />
Find maksimum likelihood estimatet (ˆα, ˆβ), og skitser på en tegning området l(ˆα, ˆβ) −<br />
l(α, β) ≥ 3, hvor l(α, β) = log L(α, β).<br />
Vink: En mulighed er at lave en lille (α, β)-tabel med værdier af l(α, β). Når det på<br />
denne måde er bestemt, hvor cirka (ˆα, ˆβ) ligger, kan man enten gøre tabellen finere og<br />
finere, eller man kan lave Newton-Raphson iteration. Likelihoodområdet findes ved<br />
for udvalgte værdier af α at finde de to værdier af β, som afgrænser området.
Kapitel 6<br />
Centrale estimatorer med minimal<br />
varians og nedre grænse på variansen<br />
6.1 Centrale estimatorer med minimal varians<br />
I dette afsnit betragter jeg igen en model (X , A, P) med P = {P θ|θ ∈ Θ}. Desuden<br />
lader jeg ψ : Θ → R være en parameterfunktion, som jeg ønsker at estimere. Hvis<br />
f.eks. P er alle normalfordelinger , P = {N(µ, σ 2 )|µ ∈ R, σ 2 > 0}, og vi ønsker at<br />
estimere middelværdien, vil ψ(µ, σ 2 ) = µ.<br />
Definition 6.1 <strong>Et</strong> estimat S = s(X), s : (X , A) → (R, B(R)), siges at være centralt (på<br />
engelsk unbiased) hvis<br />
<br />
EθS = s(x)dPθ(x) = ψ(θ) ∀θ ∈ Θ.<br />
Centrale estimatorer eksisterer ikke altid:<br />
Eksempel 6.2.<br />
Lad X være binomialfordelt med antalsparameter n og sandsynlighedsparameter 0 <<br />
θ < 1. Lad ψ(θ) = θ −1 . For at s(X) er et centralt estimat, skal<br />
n<br />
∑ s(k)<br />
k=0<br />
Lader vi θ → 0, får vi ligningen<br />
og en central estimator for 1 θ<br />
<br />
n<br />
<br />
θ<br />
k<br />
k (1 − θ) n−k = 1<br />
θ<br />
s(0) = ∞,<br />
∀ 0 < θ < 1.<br />
eksisterer ikke. <br />
Mængden af centrale estimatorer af ψ med endelig varians betegnes C(ψ) :<br />
C(ψ) = {s : X → R | EθS = ψ(θ), EθS 2 < ∞ ∀ θ ∈ Θ}.<br />
Specielt er C0 = C(0) alle funktioner med middelværdi 0 og med endelig varians for<br />
alle θ ∈ Θ. Vi vil kun betragte estimatorer i C(ψ), og jagter elementer i denne klasse<br />
med mindst mulig varians:<br />
67
68 KAPITEL 6. CENTRALE ESTIMATORER MED MINIMAL VARIANS<br />
Definition 6.3 En estimator S0 ∈ C(ψ) kaldes UMVU (uniformly minimum variance<br />
unbiased) eller central estimator med minimal varians hvis<br />
V θ(S) ≥ V θ(S0) ∀S ∈ C(ψ) ∀θ ∈ Θ. <br />
Selvom der eksisterer centrale estimatorer, C(ψ) = ∅, er det ikke sikkert, at der eksisterer<br />
en UMVU-estimator. Den eventuelt manglende eksistens skyldes, at vi i Definition<br />
6.3 forlanger minimal varians for alle θ ∈ Θ. For et givet θ0 ∈ Θ er det altid muligt at<br />
finde Sθ0 ∈ C(ψ), så at Vθ0 (S) ≥ Vθ0 (Sθ0 ) for alle S ∈ C(ψ). Dette bygger på Matematik<br />
2 teori:<br />
Observation 6.4 Lad L 2 θ0 = { f : X → R | E θ0 f(X)2 < ∞}, som er et vektorrum med<br />
det indre produkt<br />
< f , g > θ0 =<br />
<br />
f(x)g(x)dP θ0 (x).<br />
I L 2 θ0 er C0 et underrum, og der eksisterer en ortogonal projektion Proj θ0 af L2 θ0<br />
på C0.<br />
Hvis S1 er et fast valgt element i C(ψ) ⊂ L2 , vil ethvert andet element S ∈ C(ψ) kunne<br />
θ0<br />
skrives som S = S1 − S2 med S2 ∈ C0. Vi vil nu vælge S2, så at variansen under Pθ0 minimeres, d.v.s. vi skal minimere<br />
< (S1 − ψ0) − S2, (S1 − ψ0) − S2 > θ0 =< S1 − S2, S1 − S2 > θ0 −ψ2 0 ,<br />
hvor ψ0 = ψ(θ0). Løsningen til dette er<br />
som er bestemt ved<br />
S2 = Proj θ0 (S1),<br />
< S1 − Proj θ0 (S1), S2 > θ0 = 0 ∀S2 ∈ C0. (6.1)<br />
Det er altså muligt at finde Sθ0 ∈ C(ψ), som har minimal varians under Pθ0 . Dette entydigt<br />
bestemte Sθ0 kaldes en LMVU-estimator (locally minimum variance unbiased).<br />
△ <br />
Eksempel 6.5.<br />
Lad X antage værdierne −1, 0, 1, · · · med sandsynlighederne<br />
P(X = −1) = θ, P(X = k) = (1 − θ) 2 θ k , k = 0, 1, . . . ,<br />
hvor 0 < θ < 1. Lad ψ1(θ) = θ, ψ2(θ) = (1 − θ) 2 og definer<br />
S1 =<br />
1 hvis X = −1<br />
0 ellers<br />
<br />
1 hvis X = 0<br />
, S2 =<br />
0 ellers<br />
Da er S1 ∈ C(ψ1) og S2 ∈ C(ψ2). Hvis S = s(X) ∈ C0 skal<br />
s(−1)θ +<br />
∞<br />
∑<br />
k=0<br />
(1 − θ) 2 θ k s(k) = 0 ∀ 0 < θ < 1,
6.1. CENTRALE ESTIMATORER MED MINIMAL VARIANS 69<br />
og dette medfører, at<br />
C0 = {s : X → R | s(k) = ak for et a ∈ R}.<br />
Hvis vi vil minimere variansen under Pθ0 , skal vi minimere<br />
mht. a ∈ R. Løsningen hertil er<br />
â i(θ0) =<br />
Eθ0 XSi<br />
=<br />
Eθ0X2 ∑(si(k) − ak) 2 Pθ0 (X = k)<br />
<br />
−θ0/[θ0 + (1 − θ0) 2 ∑ ∞ 1 k2θk 0 ] i = 1<br />
0 i = 2<br />
Da â2(θ0) ikke afhænger af θ0 er S2 − â2X = S2 en UMVU for ψ2. Omvendt da â1(θ0)<br />
afhænger af θ0, så eksisterer der ikke en UMVU for ψ1. <br />
Formel (6.1) indeholder en karakterisation af UMVU-estimatorer. Dette vil jeg nu<br />
vise præcist:<br />
Lemma 6.6 S0 ∈ C(ψ) er en UMVU-estimator hvis og kun hvis<br />
E θ(S0S) = 0 ∀ S ∈ C0 ∀ θ ∈ Θ. <br />
Bevis. Lad E θS0S = 0, ∀ S ∈ C0. Hvis S1 ∈ C(ψ) vil S = S1 − S0 ∈ C0, og<br />
V θS1 = V θ(S1 − S0 + S0) = V θ(S) + V θ(S0) + 2Cov θ(S, S0)<br />
= V θ(S) + V θ(S0) + 2E θSS0 = V θ(S) + V θ(S0) ≥ V θ(S0).<br />
D.v.s. S0 er en UMVU-estimator.<br />
Hvis S0 er en UMVU-estimator og ρ = E θ0 S0S = 0 for et S ∈ C0 og et θ0 ∈ Θ, skal<br />
vi vise en modstrid. Lad S λ = S0 + λS ∈ C(ψ). Så er<br />
Vθ0 (Sλ) = Vθ0 (S0) + λ 2 Vθ0 (S) + 2λρ,<br />
og da ρ = 0 medfører Vθ0 (S) > 0, kan vi tage λ = −ρ/Vθ0 (S), hvilket giver<br />
V θ0 (S λ) = V θ0 (S0) − ρ2<br />
V θ0 (S) < V θ0 (S0).<br />
Dette er en modstrid med at S0 er en UMVU-estimator. <br />
Korollar 6.7 (Entydighed af UMVU-estimatorer). Hvis S1, S2 begge er UMVU-estimatorer<br />
for ψ vil<br />
S1 = S2 n.s. − P θ ∀ θ ∈ Θ. <br />
Bevis. Da S1 − S2 ∈ C0 har vi fra Lemma 6.6, at<br />
V θ(S1) = V θ(S1 − S2 + S2) = V θ(S2) + V θ(S1 − S2).<br />
Da S1 og S2 begge er UMVU, er V θ(S1 − S2) = 0, som giver resultatet.
70 KAPITEL 6. CENTRALE ESTIMATORER MED MINIMAL VARIANS<br />
I Observation 6.4 blev det antydet, at for at minimere variansen under Pθ0 , skulle vi<br />
betragte en projektion. For at få en UMVU-estimator skal denne projektion være uafhængig<br />
af θ0. Projektioner minder lidt om betingede middelværdier, og hvis disse skal<br />
være uafhængige af parameteren, nærmer vi os noget med sufficiente observatorer. At<br />
dette ikke er fuldstændig tom snak, vidner de næste to sætninger om.<br />
Sætning 6.8 (Rao-Blackwell). Lad T være sufficient for P og lad S ∈ C(ψ). Da T er<br />
sufficient, afhænger ST = Eθ(S|T) ikke af θ, og vi har, at ST ∈ C(ψ) og<br />
V θ(ST) ≤ V θ(S),<br />
med lighedstegn hvis og kun hvis S = ST n.s. − P θ. Når man erstatter S med ST siger<br />
man, at man har udført en “Rao-Blackwellisation". <br />
Bevis. Da E θST = E θS og E θS 2 T ≤ E θE θ(S 2 |T) = E θS 2 < ∞ vil ST ∈ C(ψ). Da S =<br />
S − ST + ST har vi<br />
V θ(S) = V θ(S − ST) + V θ(ST) + 2Cov θ(S − ST, ST)<br />
= V θ(S − ST) + V θ(ST), (6.2)<br />
da Cov θ(S − ST, ST) = E θ((S − ST)ST) = E θ(STE θ(S − ST|T)) = 0. Af 6.2 følger umiddelbart<br />
uligheden i sætningen. Lighed opnås hvis og kun hvis<br />
V θ(S − ST) = 0 ⇔ S = ST n.s. − p θ. <br />
I eksempel 6.5 havde vi en model, hvor der for nogle, men ikke alle, parameterfunktioner<br />
ψ(θ) eksisterede en UMVU-estimator. Hvis vi har en model med en sufficient og<br />
komplet observator T, er situationen en anden:<br />
Sætning 6.9. Hvis T er sufficient og komplet for P og ψ : Θ → R er en parameterfunktion<br />
med C(ψ) = ∅, så eksisterer der en (entydig, jvf. Korollar 6.7) UMVU-estimator<br />
for ψ og denne er en funktion af T. Hvis S ∈ C(ψ) så er UMVU-estimatoren givet ved<br />
ST = E(S|T). Specielt hvis T = t(X), t : X → Y og f : Y → R med E θ f(T) 2 < ∞ ∀ θ,<br />
så er f(t(X)) en UMVU-estimator for parameterfunktionen<br />
ψ f(θ) = E θ f(T). <br />
Bevis. Lad S ∈ C(ψ) og definer ST = E(S|T) . Vi vil vise, at ST er en UMVU-estimator<br />
for ψ. Lad ˜S ∈ C(ψ) og lad ˜ST = E( ˜S|T). Da ˜ST og ST begge er funktioner af T og da<br />
Eθ( ˜ST − ST) = ψ(θ) − ψ(θ) = 0 ∀ θ ∈ θ<br />
vil, da T er komplet, ˜ST = ST n.s.-P θ for alle θ ∈ θ. Dermed har vi ifølge sætning 6.8 at<br />
V θST = V θ ˜ST ≤ V θ ˜S.<br />
Den sidste del af sætningen følger af, at vi trivielt har, at f(T) ∈ C(ψ f), og da<br />
E( f(T)|T) = f(T) er f(T) den UMVU-estimator, som vi konstruerede ovenfor. <br />
Sætning 6.9 giver os ikke blot eksistens, men også en metode til at konstruere UMVUestimatorer<br />
på.
6.2. VARIANSULIGHEDER 71<br />
Eksempel 6.10.<br />
Lad X1, . . . , Xn være i.i.d. fra en N(θ, 1). Fra eksponentiel familie teori har vi, at ∑ X i<br />
er sufficient og komplet. Da X1 er en central estimator for θ, giver Sætning 6.9, at<br />
<br />
E X1| ∑<br />
i<br />
X i<br />
<br />
= 1<br />
n ∑ j<br />
E 1<br />
Xj| ∑ Xi =<br />
n E<br />
<br />
∑<br />
j<br />
X j| ∑ i<br />
X i<br />
<br />
= 1<br />
n ∑ i<br />
er en UMVU-estimator for θ.<br />
(<strong>Et</strong> direkte bevis for sufficiens er som følger: Tætheden for X1, . . . , Xn er (2π) −n/2 ·<br />
exp{− 1 2 ∑i(x i − ¯x) 2 } exp{− n 2 ( ¯x − θ)2 }, og når vi dividerer denne med tætheden for ¯X,<br />
forsvinder det sidste eksponentielle led, og vi får noget der ikke afhænger af θ. Hvis vi<br />
vil bevise komplethed af ¯X benytter vi, at hvis h(v) exp{−(v − θ) 2 /(2σ 2 )} = 0 for<br />
alle θ, så er ˜ h(v) exp{vµ} = 0 for alle µ, hvor ˜ h(v) = h(v) exp{−v 2 /(2σ 2 )}. Vi spitter<br />
dernæst ˜ h op i den positive og negative del og benytter entydighed af laplacetransformen.)<br />
<br />
6.2 Variansuligheder<br />
Ovenfor undersøgte jeg eksistensen af centrale estimatorer med minimal varians. Udover<br />
eksistensen vil vi også gerne vide hvad variansen er. Denne er som regel svær<br />
at beregne, men istedet kan vi angive en simpel nedre grænse. At den nedre grænse,<br />
som vi udleder, er relevant, kan ses i asymptotiske resultater. I Bemærkning 5.12 anførte<br />
jeg, at vi ofte har ( ˆθ − θ)j( ˆθ) 1/2 ˜→N d(0, I d), men da også typisk j( ˆθ)/i(θ) → 1<br />
vil ( ˆθ − θ)i(θ) 1/2 ˜→N d(0, I d). D.v.s. at den forventede information i(θ) −1 måler den asymptotiske<br />
varians af ˆθ. Nedenfor skal vi netop udlede i(θ) −1 som en nedre grænse<br />
for variansen. Dette viser, at maksimum likelihood estimatet ud over at være begrundet<br />
i fortolkningen af likelihoodfunktionen også kan begrundes i dets gode egenskaber,<br />
når antallet af observationer vokser.<br />
Lemma 6.11 Antag at alle målene i P er indbyrdes ækvivalente. Så gælder for alle<br />
θ ∈ Θ og alle S ∈ C(ψ) at<br />
(med a ∞ = 0 og 0 0<br />
V θ(S) ≥ sup<br />
η∈Θ<br />
[ψ(η) − ψ(θ)] 2<br />
.<br />
V θ( dPη<br />
dP θ )<br />
= 0). <br />
Bevis. Vi skal vise, at V θ(S) ≥ [ψ(η) − ψ(θ)] 2 /V θ( dPη<br />
dP θ ) for alle η. Hvis V θ( dPη<br />
dP θ ) = ∞<br />
er resultatet trivielt opfyldt, og tilsvarende hvis V θ( dPη<br />
dP θ ) = 0, så er ψ(η) = ψ(θ), og<br />
resultatet er trivielt. I modsat fald har vi Cauchy-Schwarz’ ulighed<br />
<br />
Covθ S, dPη<br />
<br />
dPθ 2 dPη<br />
<br />
≤ Vθ(S)V θ<br />
dPθ X i
72 KAPITEL 6. CENTRALE ESTIMATORER MED MINIMAL VARIANS<br />
Resultatet følger derfor af<br />
<br />
Covθ S, dPη<br />
<br />
dPθ<br />
<br />
dPη<br />
= EθS dPθ<br />
<br />
dPη<br />
= EθS dP θ<br />
<br />
dPη dPη<br />
− Eθ = EθS − Eη1<br />
dPθ dPθ<br />
<br />
− 1 = EηS − EθS = ψ(η) − ψ(θ) <br />
Det næste resultat får vi fra lemma 6.11 ved at lade η → θ på passende vis. Da vi skal<br />
bytte rundt på differentiation og integration, skal vi have nogle yderligere antagelser.<br />
Sætning 6.12 (Cramér-Rao’s ulighed). Antag at alle målene i P er indbyrdes ækviva-<br />
lente og lad Lθ(η, x) = dPη<br />
dP θ (x). Antag at<br />
(i) Θ er en åben delmængde af R d ,<br />
(ii) ψ er 1 gang differentiabel,<br />
(iii) ∀ θ ∈ Θ er Lθ(η, x) differentiabel som funktion af η i punktet θ n.s.−Pθ, den<br />
afledede ∂<br />
∂η Lθ(η, x)| η=θ betegnes L ′ θ (θ, x),<br />
(iv) i(θ) = EθL ′ θ (θ, X)∗ L ′ θ (θ, X) er positiv definit ,<br />
(v) ∀ θ ∈ Θ findes der ω θ > 0 og D θ : X → R så at E θD θ(X) 2 < ∞ og |L θ(η, x) − 1| ≤<br />
η − θDθ(x) for alle η − θ < ωθ n.s. − Pθ.<br />
Da gælder for alle S ∈ C(ψ) at<br />
1<br />
t 2[ψ(ηt) − ψ(θ)] 2 →<br />
Vθ(S) ≥ ∂ψ ∂ψ<br />
(θ)i(θ)−1<br />
∂θ ∂θ∗(θ). Bevis. Lad ηt = θ + t ∂ψ<br />
∂θ (θ)i(θ)−1 . Da ψ er differentiabel, er t→ ψ(ηt) differentiabel, og<br />
<br />
∂ψ ∂ψ<br />
(θ)i(θ)−1<br />
∂θ ∂θ∗(θ) 2 for t → 0. (6.3)<br />
Fra domineret konvergens får vi, idet ηt − θ = |t| dψ<br />
dθ (θ)i(θ)−1 < ωθ for t lille,<br />
1<br />
t2 V 2 Lθ(ηt, x) − 1<br />
θ(Lθ(ηt, X)) =<br />
dP<br />
t<br />
θ(x)<br />
2 ∂ψ<br />
→<br />
(θ, x)∗ dPθ(x) <br />
∂ψ<br />
=<br />
∂θ (θ)i(θ)−1 L ′ θ<br />
∂θ (θ)i(θ)−1 L ′ θ (θ, x)∗ L ′ θ<br />
<br />
= ∂ψ<br />
∂θ (θ)i(θ)−1<br />
= ∂ψ<br />
∂θ (θ)i(θ)−1 −1 ∂ψ<br />
i(θ)i(θ)<br />
∂θ∗(θ) ∂ψ<br />
(θ, x)i(θ)−1<br />
∂θ∗(θ)dP θ(x)<br />
L ′ θ (θ, x)∗ L ′ θ (θ, x)dP <br />
θ(x)<br />
−1 ∂ψ<br />
i(θ)<br />
∂θ∗(θ) = ∂ψ ∂ψ<br />
(θ)i(θ)−1<br />
∂θ ∂θ∗(θ). (6.4)<br />
Dividerer vi nu (6.3) med (6.4), fås resultatet fra Lemma 6.11.
6.2. VARIANSULIGHEDER 73<br />
Observation 6.13 Ovenfor er i(θ) udtrykt ved L ′ θ (θ, x). Hvis µ er et fast mål som dominerer<br />
P og L(θ) = L(θ, x) er likelihoodfunktionen dPθ dµ , vil<br />
∂<br />
∂η L θ(η, x)| η=θ =<br />
∂L<br />
∂θ (θ)<br />
L(θ)<br />
hvor l(θ) = logL(θ) er loglikelihoodfunktionen. D.v.s.<br />
i(θ) = E θ<br />
∂l ∂l<br />
∂θ∗(θ) ∂θ (θ),<br />
= ∂l<br />
∂θ (θ),<br />
og denne kaldes Fisher’s informationsfunktion. Definitionen af i(θ) afviger fra Definition<br />
5.9, men som det fremgår af Observation 5.10, er de to definitioner ækvivalente. <br />
Eksempel 6.14.<br />
I Eksempel 5.4 betragtede vi observationer fra en exponentialfordeling. Loglikelihoodfunktionen<br />
var<br />
l(β) = n{ln β − β ¯x},<br />
og vi fandt ˆβ = ¯X −1 . Da E ˆβ = β n<br />
n−1 har vi fra Sætning 6.9, at<br />
n − 1<br />
n<br />
ˆβ =<br />
n − 1<br />
∑ X i<br />
er en central estimator med minimal varians for β. Desuden finder vi, at<br />
<br />
n − 1<br />
V<br />
∑ Xi = (n − 1) 2<br />
Den forventede information er<br />
i(β) = E<br />
<br />
β 2<br />
(n − 1)(n − 2) −<br />
2 ∂l<br />
= n<br />
∂β<br />
2 <br />
1<br />
E<br />
β − 2 ¯X<br />
og demed bliver Cramér-Rao’s nedre grænse<br />
1<br />
n β2<br />
β2 (n − 1) 2<br />
<br />
= 1<br />
n − 2 β2 .<br />
= n<br />
,<br />
β2 som er strengt mindre end 1<br />
n−2 β2 . <br />
Eksempel 6.15.<br />
Lad P være en eksponentiel familie på minimal form<br />
dPθ (x) = b(x)eθ·t(x)−κ(θ)<br />
dµ<br />
med θ ∈ Θ ⊆ R d . Så er loglikelihoodfunktionen<br />
l(θ) = θ · t(x) − κ(θ),
74 KAPITEL 6. CENTRALE ESTIMATORER MED MINIMAL VARIANS<br />
og dermed<br />
∂l<br />
i(θ) = Eθ ∂θ∗ ∂l<br />
∂θ = Eθ[t(X) − τ(θ)] ∗ [t(X) − τ(θ)] = Vθ(t(X)) = ∂2κ .<br />
∂θ∂θ∗ Lad for et øjeblik d = 1. Så siger Sætning 6.9, at T = t(X) er en UMVU-estimator for<br />
τ(θ) = E θT. Cramér-Rao’s nedre grænse er i dette tilfælde<br />
∂τ ∂τ<br />
i(θ)−1<br />
∂θ ∂θ∗ = Vθ(T)V θ(T) −1 Vθ(T) = Vθ(T), d.v.s. at den nedre grænse er lig med den faktiske varians, når middelværdien τ(θ)<br />
estimeres med T.<br />
Hvis ψ : Θ → R er en generel parameterfunktion og denne estimeres med ˆψ =<br />
ψ( ˆθ) = ψ( ˆθ(T)), kan vi approksimere variansen ved at Taylorudvikle:<br />
ˆψ = ψ(θ) + (T − τ) ∂ ˆθ<br />
∂t ∗<br />
Hvis vi kun betragter de <strong>første</strong> to led fås<br />
V θ( ˆψ) ∼ ∂ψ<br />
∂θ V θ(T) −1 V θ(T)V θ(T)<br />
∂ψ<br />
∂θ ∗ + · · · = ψ(θ) + (T − τ)V θ(T)<br />
−1 ∂ψ ∂ψ<br />
= ∗<br />
∂θ<br />
∂θ<br />
−1 ∂ψ<br />
∂ψ<br />
i(θ)−1 ,<br />
∂θ∗ + · · ·<br />
∂θ∗ altså Cramér-Rao’s nedre grænse. Dette viser, at den simple Cramér-Rao nedre grænse<br />
typisk ikke vil være langt fra den faktiske varians. <br />
Observation 6.16 I forbindelse med Cramer-Rao’s nedre grænse gælder der, for en<br />
eksponentiel familie med tætheder på formen<br />
dPθ<br />
(x) = exp{φ(θ) · t(x) − κ(φ(θ))},<br />
dµ<br />
hvor φ(θ), t(x) er p-dimensionale og θ er k-dimensional, k ≤ p, at betingelserne (i),<br />
(iii), (iv) og (v) er opfyldt, hvis<br />
(i) Støtten for t(X) ikke er indeholdt i et affint underum af R p , og Λ = {ξ| exp[ξ ·<br />
t(x)]µ(dx) < ∞} har ikke-tomt indre.<br />
(ii) φ(θ) er kontinuert differentiabel;<br />
(iii) φ(θ) tilhører det indre af definitionsområdet Λ for κ(ξ);<br />
(iv)<br />
∂φ<br />
∂θ ∗(θ) har fuld rang.<br />
Bevis. Idet vi husker at<br />
τ(ξ) = ∂κ<br />
∂ξ (ξ) = E ξt(X) og<br />
∂ 2 κ<br />
∂ξ∂ξ ∗ (ξ) = V ξ(t(X)),
6.3. PUSTERUM 75<br />
viser en lille udregning at<br />
i(θ) = ∂φ<br />
∂θ ∗ V φ(θ)(t(X)) ∂φ∗<br />
∂θ ,<br />
som er positiv definit under antagelsen (i) og under antagelsen (iv). Desuden har vi<br />
med<br />
ηz = θ + z(η − θ), og f(z) = exp{(φ(ηz) − φ(θ)) · t(x) − κ(φ(ηz)) + κ(φ(θ))},<br />
formlen<br />
L θ(η, x) − 1 = f(1) − f(0) =<br />
1<br />
f ′ (u)du<br />
0<br />
1 ∂φ<br />
= (η − θ)<br />
0 ∂θ∗(ηu){t − τ(φ(ηu))} ∗ f(u)du.<br />
Lad nu ω være så lille, at der eksisterer δ > 0 med Kugle(φ(θ); 3δ √ p) ⊆ Λ og |η − θ| <<br />
ω medfører |φ(η) − φ(θ)| < δ. På grund af kontinuitet af de indgående funktioner kan<br />
vi se at der eksisterer konstanter c i så at<br />
|L θ(η, x) − 1| ≤ |η − θ|(c1 + c2|t|)<br />
p<br />
∏ 1<br />
{exp(δt i) + exp(−δt i)} = |η − θ|D θ(x).<br />
Når vi udregner produktet i D θ(x) og kvadrerer får vi en sum af led på formen<br />
(c1 + c2|t(x)|) 2 exp{(∆1 + ∆2) · t(x)},<br />
∆ i = δ(j i1, . . . , j ip), hvor j il enten er +1 eller −1.<br />
Med antagelsen om δ kan man nu indse at D θ(x) 2 er P θ-integrabel, idet ∆1 + ∆2 + φ(θ)<br />
ligger i det indre af Λ, og alle momenter af t(X) eksisterer for en exponentiel tæthed.<br />
6.3 Pusterum<br />
Lad os for et øjeblik standse det hæsblæsende tempo og samle tankerne. Vi startede<br />
dette notesæt med at indføre sufficiensprincippet i afsnit 3.5 og betingningsprincippet<br />
i afsnit 4.1. Hvordan passer det sammen med teorien for UMVU-estimatorer? I Sætning<br />
6.8 så vi, at vi skal lade en estimator være en funktion af den minimal sufficiente<br />
for at reducere variansen, d.v.s. at der er god overensstemmelse med sufficiensprincippet.<br />
Hvis T er sufficient og komplet, er der også overensstemmelse med betingningsprincippet,<br />
idet vi fra Basu’ sætning har, at fordelingen af T er den samme som den<br />
betingede fordeling af T givet en ancillær U.<br />
Det resterende tilfælde er hvor den minimal sufficiente observator T0 ikke er komplet,<br />
og hvor der eksisterer en ancillær observator U. Hvis vi benytter betingningsprincippet,<br />
skal vi derfor anvende teorien ovenfor på klassen af betingede fordelinger<br />
P u = {P θ(· | U = u)|θ ∈ θ} for ethvert u ∈ U. Hvis der for ethvert u eksisterer en<br />
UMVU-estimator S(u) for klassen P u , vil det være naturligt at spørge, om S(U) er en
76 KAPITEL 6. CENTRALE ESTIMATORER MED MINIMAL VARIANS<br />
UMVU-estimator for P ? Svaret er ikke helt oplagt på grund af følgende modsatrettede<br />
uligheder:<br />
⇓<br />
V(S) = V(E(S|U)) + E{V(S|U)}<br />
inf V(S) ≥ E{ inf V(S|U)} ≤ E{ inf<br />
S∈C(ψ) S∈C(ψ) S∈Cu V(S|U = u)}<br />
(ψ)<br />
= E(V(S(u)|U = u)),<br />
hvor Cu (ψ) er de centrale estimatorer for klassen P u . Svaret er imidlertid nej, som det<br />
følgende eksempel viser. Lad udfaldsrummet være {1, 2, 3, 4} med sandsynlighederne<br />
(1 + θ)/4, (1 − θ)/4, (1 + 2θ)/4 og (1 − 2θ)/4, hvor − 1 2 < θ < 1 2 . Lad U være 1 hvis X<br />
er 1 eller 2 og lad U være 2 hvis X er 3 eller 4. Så er U ancillær. Lad endelig S(U) antage<br />
værdierne 1, -1, 1 2 , − 1 2 , svarende til X = 1, 2, 3, 4. Det er let at se at S(U) er UMVU i det<br />
betingede fordelinger givet U, men ikke UMVU i de ubetingede.<br />
Med hensyn til overensstemmelse mellem UMVU-estimatorer og maksimum likelihood<br />
estimatorer har jeg vist ved eksempler, at maksimum likelihood estimatorer ikke<br />
nødvendigvis er centrale og dermed ikke er UMVU-estimatorer. Til gengæld har jeg<br />
antydet, at maksimum likelihood estimatorer approksimativt er UMVU-estimatorer<br />
med en varians givet ved Cramér-Rao’s nedre grænse. Dette er især baseret på, hvad<br />
der sker, når antallet af observationer er stort.<br />
6.4 Opgaver<br />
Opgave 6.1<br />
Lad udfaldsrummet være X = {−1, 0, 1, 2, 3}, og lad P = {P θ|0 ≤ θ ≤ 1} være givet<br />
ved<br />
P θ(X = −1) = 2θ(1 − θ) og P θ(X = k) = θ k (1 − θ) 3−k for k = 0, 1, 2, 3.<br />
Find LMVU-estimatoren i punktet θ0 for henholdsvis ψ1(θ) = θ og ψ2(θ) = θ(1 − θ)<br />
(se observation 6.4 og eksempel 6.5). Afgør i begge tilfælde om estimatoren er UMVU.<br />
Find maksimum likelihood estimatet for ψ1, og lav et plot der viser bias af maksimum<br />
likelihood estimatet samt et plot der viser variansen af maksimum likelihood<br />
estimatet og variansen af LMVU-estimatet.<br />
Lav et plot for parameteren ψ2 af variansen af LMVU-estimatet samt af Cramer-<br />
Rao’s nedre grænse for variansen.<br />
Opgave 6.2<br />
Lad S1 og S2 være UMVU estimatorer for estimation af henholdsvis ψ1(θ) og ψ2(θ).<br />
Vis, at aS1 + bS2 er en UMVU estimator for estimation af aψ1(θ) + bψ2(θ). Her er a og<br />
b to vilkårlige reelle tal.<br />
Opgave 6.3<br />
Lad X1, . . . , Xn være uafhængige og identisk fordelte med varians Var(X i) = σ 2 . Lad<br />
s 2 = 1<br />
n−1 ∑n 1 (X i − ¯X) 2 .
6.4. OPGAVER 77<br />
(i) Vis, at s 2 er en unbiased estimator af σ 2 .<br />
(ii) Antag at X i antager værdierne 1 og 0 med sandsynlighederne θ og 1 − θ, 0 <<br />
θ < 1. Vis, at s 2 er en funktion af T = ∑ n 1 X i , og at s 2 er en UMVU estimator for<br />
σ 2 = θ(1 − θ).<br />
Opgave 6.4<br />
Lad X1, . . . , Xn være uafhængige og Bin(1, θ)-fordelte. Lad S1 være givet ved<br />
S1 = 1 hvis X1 = X2 = X3 = 1 og S1 = 0 ellers .<br />
(i) Vis, at T = ∑ n 1 X i er sufficient og komplet.<br />
(ii) Vis, at S1 er et unbiased estimat af ψ(θ) = θ 3 .<br />
(iii) Find en UMVU-estimator for ψ(θ) = θ 3 .<br />
Opgave 6.5<br />
Lad X1, . . . , Xn være Poissonfordelte med middelværdi θ −1 , og lad Y1, . . . , Yn være Poissonfordelte<br />
med middelværdi e −θ og lad alle de stokastiske variable være uafhængige.<br />
Den minimal kanoniske observator er T = (∑ n 1 X i, ∑ n 1 Y i) . Som i opgave 2.4 kan<br />
det vises, at T er komplet for familien P = {P θ|θ > 0}. Lad S = ¯X + ¯Y.<br />
(i) Vis, at S er en UMVU estimator for ψ(θ) = θ −1 + e −θ .<br />
(ii) Find variansen på √ n(S − ψ(θ)) og sammenlign med Cramér-Rao’s nedre grænse<br />
for V θ(S).<br />
(iii) Sammenlign resultatet i (ii) med resultatet i eksempel 6.14.<br />
Opgave 6.6<br />
Lad X1, . . . , Xn være uafhængige N(µ, σ 2 )-fordelte, og lad SSD = ∑ n 1 (X i − ¯X) 2 . Definer<br />
S = ¯X 2 − SSD/[n(n − 1)].<br />
(i) Vis, at S er en UMVU-estimator for µ 2 .<br />
(ii) Find variansen på S.<br />
(iii) Find Cramér-Rao’s nedre grænse for Var(S) og sammenlign med (ii).<br />
Opgave 6.7 En lille omtolkning af Cramér-Rao’s nedre grænse<br />
Lad en observator S have middelværdi ψ S(θ) = E θS. Vi har da trivielt at S er en unbiased<br />
estimator for ψS. Cramér-Rao’s nedre grænse giver<br />
V θ(S) ≥ ∂ψS<br />
∂θ<br />
∂ψS<br />
(θ)i(θ)−1 (θ)<br />
∂θ∗
78 KAPITEL 6. CENTRALE ESTIMATORER MED MINIMAL VARIANS<br />
under antagleserne i Sætning 6.12, specielt under antagelsen at ψ S(θ) er differentiabel.<br />
Hvis nu vi tænker på S som en estimator af parameterfunktionen ψ(θ) er bias b(θ)<br />
givet ved<br />
b(θ) = ψ S(θ) − ψ(θ).<br />
Indsætter vi ψS(θ) = ψ(θ) + b(θ) i Cramér-Rao’s nedre grænse får vi<br />
<br />
∂ψ ∂b<br />
Vθ(S) ≥ (θ) +<br />
∂θ ∂θ (θ)<br />
<br />
i(θ) −1<br />
<br />
∂ψ ∂b<br />
∂θ∗(θ) +<br />
∂θ∗(θ) <br />
.<br />
Hermed har vi en generel formel, hvis ellers vi kan beregne bias b(θ).<br />
Antagelsen om at ψS(θ) er differentiabel (antaglese (ii) i Sætning 6.12) kan erstattes<br />
af antagelsen om at D θ i antagelse (v) opfylder<br />
E θSD θ(X) < ∞.<br />
Vis, at denne antagelse medfører at ψ S(θ) er differentiabel.
Kapitel 7<br />
Testteori<br />
7.1 Indledning og definitioner<br />
I Kapitel 5 om likelihoodinferens nævnte jeg kvotienttestet som en naturlig måde at<br />
undersøge vores tiltro til en hypotese på formen θ = θ0. I dette kapitel skal vi se på<br />
muligheden for systematisk at udvælge test udfra ønsket om at optimere visse egenskaber<br />
ved testet. Vi vil så se, at kvotienttestet dukker op gang på gang, hvilket er en<br />
konsekvens af det fundamentale Neyman-Pearson Lemma, som bevises i afsnit 7.2. I<br />
afsnit 7.3 kommer vi i direkte clinch med inferens for en delparameter, igen med udgangspunkt<br />
i en umiddelbar anvendelse af ønsket om at optimere visse egenskaber. I<br />
Kapitel 8 skal vi vende tilbage til inferens for delparametre, hvor vi vil betragte udvidede<br />
sufficiens- og betingningsprincipper.<br />
Testteorien her er baseret på, at vi for enhver mulig observation x vil træffe en afgørelse,<br />
der siger, enten at vi akcepterer hypotesen, der undersøges eller, at vi forkaster<br />
hypotesen. Dette er en formulering, som vi har brug for til at finde “gode” tests. I<br />
mange videnskabelige undersøgelser vil man ikke være interesseret i at afslutte undersøgelsen<br />
med et ja eller nej til en hypotese. Istedet vil man forsøge at angive, hvor<br />
meget data er i overensstemmelse med hypotesen, hyppigt udtrykt ved det opnåede<br />
signifikansniveau eller p-værdien. Som tidligere er vores model (X , A, P) med<br />
P = {P θ|θ ∈ Θ} og parameter området Θ ⊆ R d .<br />
Definition 7.1 En hypotese H0 er en ikke-tom delmængde Θ0 af Θ, og et udsagn om at<br />
den værdi af θ (den “sande” værdi) , der karakteriserer målet P θ, under hvilket data<br />
er indsamlet, ligger i Θ0. Den alternative hypotese H1 til H0 er delmængden Θ\Θ0. En<br />
hypotese kaldes simpel hvis den betragtede delmængde af Θ består af ét element, og<br />
ellers kaldes hypotesen sammensat. <br />
Definition 7.2 <strong>Et</strong> test for en hypotese H0 er et område A, kaldet akceptområdet, bestående<br />
af de x ∈ X for hvilke hypotesen akcepteres. Området A c hvor vi forkaster hypotesen<br />
H0, kaldes forkastelsesområdet. Ækvivalent hermed kan vi karakterisere testet ved<br />
den kritiske funktion φ, der peger på de x, som ligger i forkastelsesområdet,<br />
φ(x) =<br />
0 x ∈ A<br />
1 x ∈ A c . <br />
79
80 KAPITEL 7. TESTTEORI<br />
At vælge et test betyder altså, at vi skal vælge området A . Vi vil karakterisere et område<br />
ved to tal eller rettere ét tal og en funktion og bruge disse til at vælge et passende<br />
test.<br />
Definition 7.3 Niveauet α = α(φ) for et test φ for hypotesen H0 er<br />
α = α(φ) = sup Eθφ.<br />
Niveauet er altså den maksimale sandsynlighed under H0 for at forkaste H0. For θ ∈<br />
Θ0 kaldes E θφ også for sandsynligheden for fejl af type I. Styrken β(θ) = β(θ; φ) af testet<br />
φ under Pθ er<br />
β(θ) = β(θ; φ) = E θφ = P θ(forkaste H0).<br />
Funktionen β : Θ → R kaldes styrkefunktionen. Styrken er af interesse for θ /∈ Θ0, hvor<br />
den angiver sandsynligheden for at vi træffer den rigtige beslutning, nemlig at forkaste<br />
H0. For θ /∈ Θ0 kaldes 1 − β(θ) sandsynligheden for fejl af type II , d.v.s. sandsynlighden<br />
for at akceptere en forkert hypotese. <br />
Udfra niveauet og styrken kan vi definere et stærkeste test mod alternativet θ1 ∈ Θ\Θ0.<br />
Definition 7.4 <strong>Et</strong> test φ kaldes et stærkeste test på niveau α, d.v.s. α(φ) = α, mod et<br />
alternativ θ1 ∈ Θ\Θ0 hvis<br />
θ∈Θ0<br />
β(θ1; φ) ≥ β(θ1, ˜φ) for alle test ˜φ med α( ˜φ) ≤ α(φ).<br />
Altså φ har større styrke end alle andre test på niveau højst α. Hvis et test φ er det<br />
stærkeste test mod ethvert alternativ θ1 ∈ Θ\Θ0, kaldes φ et uniformt stærkeste test. <strong>Et</strong><br />
test φ på niveau α kaldes styrkeret, hvis<br />
og strengt styrkeret hvis<br />
β(θ; φ) ≥ α for alle θ ∈ Θ\Θ0,<br />
β(θ; φ) > α for alle θ ∈ Θ\Θ0. <br />
Grunden til at vi i Definition 7.4 betragter tests med α( ˜φ) ≤ α og ikke α( ˜φ) = α er,<br />
at med diskrete udfaldsrum er det ikke sikkert, at vi kan vælge det ønskede akceptområde<br />
på en sådan måde at α( ˜φ) = α. Styrkerette tests indføres fordi det i mange<br />
situationer er muligt at finde et uniformt stærkeste test blandt de styrkerette, hvorimod<br />
dette ikke er muligt blandt alle tests.<br />
Typisk vil man ikke blot konstruere et test φ for én fast værdi af niveauet α. Istedet<br />
vil man for ethvert 0 < α < 1 konstruere et test φα med den egenskab, at<br />
φα2 (x) ≥ φα 1 (x) for α2 > α1,<br />
d.v.s. at hvis vi forkaster ved et test på niveau α1, så forkaster vi også ved et test på<br />
niveau α2 > α1 (sandsynligheden for at forkaste under H0 stiger). For en observeret<br />
værdi x kan vi bestemme ǫ(x) ved<br />
ǫ(x) = inf<br />
α {φα(x) = 1}.
7.2. NEYMAN-PEARSON’S LEMMA OG MONOTONE KVOTIENTER 81<br />
Værdien af ǫ(x) kaldes det observerede signifikansniveau eller p-værdien. P-værdien angiver<br />
altså den grænse for niveauet, hvor vi forkaster H0 for den observerede værdi x,<br />
hvis niveauet α > ǫ(x), og vi akcepterer H0, hvis α < ǫ(x).<br />
Vi antager i hele kapitel 7, at P er domineret af det σ-endelige mål µ på X .<br />
Neyman 16/4 1894 (Bendery, Russia) - 5/8 1981 (Berkeley)<br />
Neyman udviklede i årerne 1928-1938 testteorien sammen med E. Pearson. I 1937 skrev<br />
han også en fundamental artikel om konfidensintervaller.<br />
Egon Sharpe Pearson 11/8 1895 (London) - 12/6 1980 (Sussex)<br />
Se ovenfor vedrørende samarbejdet med Neyman.<br />
7.2 Neyman-Pearson’s lemma og monotone kvotienter<br />
Vi jagter stærkeste tests, d.v.s. at vi skal maksimere styrken for et fastholdt niveau.<br />
Geometrisk betyder dette, at vi forsøger at placere A indeholdt i X , så at P θ1 (A c ) er så<br />
stor som mulig, og hvor størrelsen af A er bestemt ved niveauet α. Følgende lemma er<br />
fundamentalt:<br />
Lemma 7.5 (Neyman-Pearson) Lad f , f1, . . . , f k være givne funktioner fra X ind i R og<br />
lad c1, . . . , c k være givne konstanter. Lad endvidere φ0 være givet ved<br />
<br />
k<br />
1 hvis f(x) ≥<br />
φ0(x) =<br />
∑i=1 ai fi(x) 0 ellers,<br />
(7.1)
82 KAPITEL 7. TESTTEORI<br />
hvor a1, . . . , a k er konstanter med a i ≥ 0, og antag at<br />
<br />
φ0(x) fi(x)dµ(x) = ci i = 1, . . . , k.<br />
Så gælder at <br />
<br />
φ0(x) f(x)dµ(x) ≥<br />
h(x) f(x)dµ(x) (7.2)<br />
for enhver funktion h : X → R med 0 ≤ h(x) ≤ 1 og med<br />
<br />
h(x) f i(x)dµ(x) ≤ c i i = 1, . . . , k. (7.3)<br />
Bevis. Fra definitionen af φ0 og idet 0 ≤ h ≤ 1 ses, at<br />
Dermed fås<br />
<br />
0 ≤<br />
<br />
=<br />
<br />
[φ0(x) − h(x)] f(x) −<br />
<br />
[φ0(x) − h(x)] f(x) −<br />
<br />
φ0(x) f(x)dµ(x) −<br />
hvor ˜c i = h(x) f i(x)dµ(x) ≤ c i. Vi får da<br />
<br />
<br />
h(x) f(x)dµ(x) ≤<br />
k<br />
∑<br />
1<br />
φ0(x) f(x)dµ(x) −<br />
k<br />
∑<br />
1<br />
<br />
ai fi(x) ≥ 0.<br />
<br />
ai fi(x) dµ(x).<br />
h(x) f(x)dµ(x) −<br />
k<br />
∑<br />
1<br />
k<br />
∑<br />
1<br />
<br />
ai(ci − ˜c i) ≤<br />
k<br />
aici + ∑<br />
1<br />
ai ˜ci,<br />
φ0(x) f(x)dµ(x).<br />
For at teste H0 : θ ∈ Θ0 mod H1 : θ ∈ Θ\Θ0 definerer vi generelt kvotientteststørrelsen<br />
Q ved<br />
hvor<br />
Q(x) = sup p(x, θ)<br />
θ∈Θ0<br />
, (7.4)<br />
supθ∈Θ p(x, θ)<br />
p(x, θ) = dP θ<br />
dµ (x)<br />
er tæthedsfunktionen. Hvis Θ = {θ0, θ1} består af kun to værdier og Θ0 = {θ0} bliver<br />
Q(x) = Q(x; θ0, θ1) =<br />
p(x, θ0)<br />
max(p(x, θ0), p(x, θ1)) =<br />
<strong>Et</strong> område på formen Q(x) ≤ c, med c < 1, bliver da<br />
Dette ligner (7.1), og vi har da også:<br />
<br />
x p(x, θ1) ≥ 1<br />
<br />
p(x, θ0) .<br />
c<br />
<br />
max<br />
1<br />
1, p(x,θ 1)<br />
p(x,θ0)<br />
<br />
<br />
(7.5)
7.2. NEYMAN-PEARSON’S LEMMA OG MONOTONE KVOTIENTER 83<br />
Sætning 7.6. Lad a ≥ 0. Kvotienttestet<br />
φ0 =<br />
1 hvis p(x, θ1) ≥ ap(x, θ0)<br />
0 ellers<br />
(7.6)<br />
er et stærkeste test for θ = θ0 mod θ = θ1 på niveau α = E θ0 φ0. Ydermere er φ0 det<br />
eneste stærkeste test på niveau α n.s.– {P θ0 , P θ 1 }, og hvis 0 < α < 1 er styrken E θ1 φ0<br />
større end niveauet α. <br />
Bevis. (i) Dette svarer til Lemma 7.5 med f(x) = p(x, θ1), f1(x) = p(x, θ0) og<br />
<br />
c1 =<br />
Formlerne (7.2) og (7.3) siger specielt, at<br />
φ0(x)p(x, θ0)dµ(x) = E θ0 φ0 = α.<br />
E θ1 φ0 ≥ E θ1 φ<br />
for ethvert test φ med E θ0 φ ≤ α. D.v.s. φ0 er et stærkeste test.<br />
(ii) For at vise entydigheden lader vi φ ∗ være et andet test med samme styrke som φ0<br />
og med niveau E θ0 φ∗ = α ∗ ≤ α. Vi skal så vise, at φ0 = φ ∗ n.s.−{P θ0 , P θ 1 }. Lad<br />
og<br />
A0 = {x | φ0(x) = φ ∗ (x)},<br />
A1 = {x | φ0(x) = φ ∗ (x), p(x, θ1) = ap(x, θ0)},<br />
A2 = {x|φ0(x) = φ ∗ (x), p(x, θ1) = ap(x, θ0) > 0},<br />
A3 = {x|φ0(x) = φ ∗ (x), p(x, θ1) = ap(x, θ0) = 0}.<br />
Vi har trivielt at P θ0 (A3) = P θ1 (A3) = 0. Vi vil vise at µ(A1) = 0 og at P θ0 (A2) =<br />
P θ1 (A2) = 0. På A1 er [φ0(x) − φ ∗ (x)][p(x, θ1) − ap(x, θ0]] > 0, og hvis µ(A1) > 0 vil<br />
<br />
0 < [φ0(x) − φ<br />
A1 ∗ (x)][p(x, θ1) − ap(x, θ0)]dµ(x)<br />
<br />
= [φ0(x) − φ ∗ (x)][p(x, θ1) − ap(x, θ0)]dµ(x)<br />
= E θ1 φ0 − E θ1 φ ∗ − aE θ0 φ + aE θ0 φ∗<br />
= E θ1 φ0 − E θ1 φ ∗ − a(α − α ∗ ),<br />
hvilket er en modstrid, da φ ∗ har samme styrke som φ0. Altså er µ(A1) = 0. Endvidere<br />
fås<br />
E θ1 φ ∗ = E θ1 φ ∗ (1 A0 + 1 A 1 + 1 A2 + 1 A3 ) = E θ 1 φ ∗ (1 A0 + 1 A2 )<br />
= E θ1 φ0(1A0 + 1A2 ) + E θ 1 (φ ∗ − φ0)1A2<br />
= E θ1 φ0 − P θ1 (A2),<br />
altså er A2 en P θ1 -nulmængde og per definition af A2 derfor også en P θ0 -nulmængde.
84 KAPITEL 7. TESTTEORI<br />
(iii) Vi skal nu vise, at E θ1 φ0 > E θ0 φ0 = α hvis 0 < α < 1. Da E θ0 φ0 = α med 0 < α < 1<br />
har vi, at φ0(x)p(x, θ0)dµ(x) > 0, og fra definitionen af φ0 ses derfor, at<br />
og<br />
Eθ 1 φ0 =<br />
<br />
<br />
φ0(x)p(x, θ1)dµ(x) ≥ a<br />
φ0(x)p(x, θ0)dµ(x) = aα<br />
1 − Eθ 1 φ0 = Eθ 1 (1 − φ0) < aEθ0 (1 − φ0) = a(1 − α).<br />
Hvis a > 1 giver den <strong>første</strong> ulighed det ønskede. Hvis 0 < a ≤ 1 giver den anden<br />
ulighed, at<br />
E θ1 φ0 > 1 − a(1 − α) ≥ α. <br />
Sætning 7.6 er et simpelt og stærkt resultat. Hvis vi betragter en mere generel situation,<br />
hvor nulhypotesen stadig er simpel Θ0 = {θ0}, men modhypotesen Θ\{θ0} er<br />
sammensat, viser Sætning 7.6, at den eneste kandidat til et uniformt stærkeste test er<br />
kvotienttestet i (7.6) for et vilkårligt valgt θ1 ∈ Θ\{θ0}. Testet i (7.6) vil være uniformt<br />
stærkeste hvis og kun hvis små værdier af kvotienttestoren Q(x; θ0, θ1) svarer til små<br />
værdier af Q(x; θ0, θ2) for vilkårlige θ1, θ2 ∈ Θ\{θ0}. Vi kan formulere en klasse af<br />
modeller med Θ ⊆ R, hvor dette er tilfældet på følgende vis:<br />
Definition 7.7 Lad Θ ⊆ R og lad t : X → R. Så siges P at have strengt voksende<br />
kvotienter i t såfremt der for alle θ1, θ2 ∈ Θ, θ1 < θ2, eksisterer en strengt voksende<br />
funktion hθ1,θ2 , så at<br />
p(x, θ2)<br />
p(x, θ1) = hθ (t(x)) for alle x ∈ X .<br />
1,θ2<br />
Fra definitionen følger at Pθ2 ≪ Pθ for θ2 > θ1. Det omvendte gælder ikke. Hvis<br />
1<br />
for eksempel t(x) ∈ N0 kan vi have Pθ1 (T = 0) > 0 og Pθ2 (T = 0) = 0.<br />
Eksempel 7.8.<br />
Betragt en eksponentiel familie P af orden 1 med<br />
p(x, θ) = a(θ)b(x)e ψ(θ)t(x) ,<br />
hvor ψ : θ → R er strengt voksende. Denne familie har strengt voksende kvotienter i t,<br />
idet<br />
p(x, θ2)<br />
p(x, θ1)<br />
= a(θ2)<br />
a(θ1) e[ψ(θ2)−ψ(θ 1)]t(x) .<br />
Sætning 7.9. Lad P have strengt voksende kvotienter i t, og lad φ være testet<br />
<br />
1 hvis t(x) ≥ c<br />
φ(x) =<br />
0 ellers<br />
hvor c er en konstant. Så gælder<br />
(i) Hvis θ0 < θ1 er φ kvotienttestet for H0 : θ = θ0 mod H1 : θ = θ1 på niveau<br />
α = E θ0 φ.
7.2. NEYMAN-PEARSON’S LEMMA OG MONOTONE KVOTIENTER 85<br />
(ii) Hvis 0 < E θ0 φ < 1 så er styrkefunktionen β(θ) = E θφ strengt voksende i området<br />
{θ : β(θ) < 1}.<br />
(iii) Lad α = Eθ0φ og antag at 0 < α < 1. Så er φ det entydigt bestemte (n.s. mht.<br />
Pθ, θ ≥ θ0) uniformt stærkeste test for H0 : θ = θ0 eller H0 : θ ≤ θ0 mod H1 : θ ><br />
θ0 på niveau α. Desuden er φ strengt styrkeret. <br />
Bevis. (i) Fra Definiton 7.7 har vi, at t(x) ≥ c er ensbetydende med p(x, θ1) ≥ aθ1,θ0 p(x, θ0)<br />
for en konstant aθ1,θ0 , d.v.s. φ er et kvotienttest, se (7.6).<br />
(ii) Fra Sætning 7.6 har vi at hvis 0 < Eθ1φ < 1 så er β(θ2) = Eθ2φ > Eθ φ = β(θ1) for<br />
1<br />
θ2 > θ1. Spørgsmålet nu er så om β(θ) kan være nul. For θ > θ0 har vi β(θ) > β(θ0) > 0<br />
per antagelse. Endvidere, hvis β(θ) = 0 for θ < θ0 så vil β(θ0) = 0 da Pθ ≫ Pθ0 , men vi<br />
har netop antaget at β(θ0) > 0.<br />
(iii) Hvis H0 er θ = θ0 har vi fra (i) og Sætning 7.6 at φ er det stærkeste test for H0<br />
mod θ = θ1, hvor θ1 > θ0. Men da testet ikke afhænger at θ1, er φ det uniformt<br />
stærkeste mod H1 : θ > θ0. Hvis istedet H0 : θ ≤ θ0 viser (ii) , at niveauet for testet<br />
er sup θ≤θ0 E θφ = sup θ≤θ0 β(θ) = β(θ0) = E θ0 φ = α. Da ethvert andet test ˜φ for<br />
H0 = θ ≤ θ0 på niveau α1 ≤ α også er et test for θ = θ0 på niveau α2 ≤ α, har vi<br />
fra tilfældet med H0 : θ = θ0 at φ er stærkere end ˜φ. D.v.s. at φ er også det uniformt<br />
stærkeste for H0 : θ ≤ θ0 mod H1 : θ > θ0. Den strenge styrkerethed er en direkte<br />
konsekvens af(ii). Entydigheden af testet for nulhypotesen θ ≤ θ0 følger af lemmaet<br />
nedenfor. <br />
Lemma 7.10 Lad φ0 være det entydige staerkeste test i (7.6) for θ = θ0 mod θ = θ1 på<br />
niveau α. Lad K være en udvidelse af alternativet, θ1 ∈ K, og antag at φ0 er uniformt<br />
stærkeste for θ = θ0 mod θ ∈ K. Lad Θ0 være en udvidelse af nulhypotesen, θ0 ∈ Θ0.<br />
Hvis<br />
sup<br />
θ∈Θ0<br />
E θφ0 = α,<br />
så vil φ0 vaere det entydige (n.s. med hensyn til p θ, θ ∈ K ∪ {θ0}) uniformt stærkeste<br />
test for θ ∈ Θ0 mod θ ∈ K på niveau α. <br />
Bevis. Lad ˜φ være et alternativt test med sup ˜φ ≤ α. Så har vi E θ∈Θ0<br />
θ0 ˜φ ≤ α = Eθ0φ0 og dermed at<br />
Eθ1φ0 ≥ E ˜φ, θ1 θ ∈ K,<br />
da φ0 er et uniformt staerkeste test for θ = θ0. Dette viser at φ0 også er et uniformt<br />
staerkeste test for den udvidede nulhypotese.<br />
Entydigheden vises på helt samme måde som i beviset for sætning 7.6. <br />
Vi så ovenfor, at når vi tester θ = θ0 mod θ > θ0, fås det uniformt stærkeste test ved<br />
at forkaste for store værdier af T = t(X). Omvendt skal vi forkaste for små værdier<br />
af T, hvis vi tester mod den alternative hypotese θ < θ0. Der vil derfor normalt ikke
86 KAPITEL 7. TESTTEORI<br />
eksistere et uniformt stærkeste test for H0 : θ = θ0 mod H1 : θ = θ0 . Vi vil nu vise, at<br />
et uniformt stærkeste test blandt alle styrkerette tests eksisterer i denne situation.<br />
Vi betragter en eksponentiel familie P med<br />
hvor Θ er et åbent interval.<br />
p(x, θ) = b(x)e θt(x)−κ(θ) , θ ∈ Θ, (7.7)<br />
Lemma 7.11 Lad familien P være regulær. Kvotientteststørrelsen Q for H0 : θ = θ0<br />
mod H1 : θ = θ0, givet i (7.4), afhænger af x kun gennem t(x). Kvotienttestet, der<br />
forkaster for Q(t) ≤ c, er givet ved<br />
<br />
1 hvis t(x) ≤ a1 eller t(x) ≥ a2<br />
φ(x) =<br />
(7.8)<br />
0 ellers,<br />
hvor a1 < a2 er de to løsninger til Q(a) = c. <br />
Bevis. Fra Sætning 2.14 har vi, at, maksimum likelihood estimatet ˆθ = ˆθ(t) = τ−1 (t).<br />
Vi har da, at<br />
p(x, θ0)<br />
− log Q = − log<br />
p(x, ˆθ) = ( ˆθ − θ0)t + κ(θ0) − κ( ˆθ). (7.9)<br />
Da τ( ˆθ(t)) = t får vi<br />
Differentierer vi (7.9) mht. t fås<br />
dτ<br />
dθ ( ˆ θ) d ˆθ<br />
dt = 1 eller d ˆθ<br />
dt<br />
( ˆθ − θ0) + ˆθ ′ t − τ( ˆθ) ˆθ ′ = ˆθ − θ0,<br />
og da (7.10) viser, at ˆθ er strengt voksende i t, har vi<br />
d(− log Q)<br />
dt<br />
> 0 for t > τ(θ0)<br />
< 0 for t < τ(θ0)<br />
1<br />
=<br />
V( ˆ . (7.10)<br />
θ)<br />
Heraf ses at store værdier af − log Q (= små værdier af Q) svarer til t ≤ a1 eller t ≥ a2.<br />
Lemma 7.11 motiverer os til at betragte test på formen (7.8). Inden jeg gør dette, viser<br />
jeg:<br />
Lemma 7.12 For en åben eksponentiel familie (7.7) gælder, at hvis φ er et styrkeret test<br />
for θ = θ0 mod θ = θ0 på niveau α, så er<br />
Eθ0φT = αEθ0 T, (7.11)<br />
hvor T = t(X). <br />
Bevis. Vi har, at<br />
<br />
β(θ) = Eθφ = φ(x)b(x)e θt(x)−κ(θ) dµ(x)<br />
= e −κ(θ)<br />
<br />
e θt(x) dν(x) = e −κ(θ) c1(θ),
7.2. NEYMAN-PEARSON’S LEMMA OG MONOTONE KVOTIENTER 87<br />
hvor dν<br />
dµ (x) = φ(x)b(x). Dette viser, at c1(θ) er en Laplacetransform, og de afledede af<br />
c1 fås ved at differentiere under integraltegnet (Sætning 2.8). Vi får derfor<br />
β ′ (θ) = −κ ′ (θ)e −κ(θ) c1(θ) + e −κ(θ) c ′ 1 (θ)<br />
= −τ(θ)β(θ) + E θφT. (7.12)<br />
Da φ er styrkeret, har β(θ) minimum i θ0. D.v.s. β ′ (θ0) = 0 og fra (7.12) fås<br />
E θ0 φT = β(θ0)E θ0 T = αE θ0 T. <br />
Sætning 7.13. For en åben eksponentiel familie (7.7) og et test φ på formen<br />
<br />
1<br />
φ(x) =<br />
0<br />
t(x) ≤ a1 eller t(x) ≥ a2<br />
ellers<br />
gælder, at hvis a1 og a2 er valgt så at Eθ0φ = α og (7.11) er opfyldt, så er φ det entydigt<br />
bestemte (n.s.−P) uniformt stærkeste test for θ = θ0 mod θ = θ0 på niveau α = Eθ0φ blandt alle styrkerette test på niveau α. <br />
Bevis. Vi viser først at φ er et uniformt stærkeste styrkeret test. Lad θ = θ0. Da er<br />
p(x, θ)<br />
p(x, θ0)<br />
= e(θ−θ0)t(x)−κ(θ)+κ(θ0)<br />
en strengt konveks funktion g θ(t) af t. Lad c0(θ) + c1(θ)t være linien gennem de to<br />
punkter (a1, g θ(a1)) og (a2, g θ(a2)). Så vil g θ(t) ligge over denne linie for t < a1 og<br />
t > a2 (lav en tegning!). Med andre ord<br />
φ(x) = 1 ⇔ gθ(t(x)) ≥ c0(θ) + c1(θ)t(x). (7.13)<br />
Lad ˜φ være et vilkårligt andet styrkeret test på niveau Eθ0 ˜φ = ˜α ≤ α. Vi bemærker først<br />
at<br />
<br />
<br />
0 ≤ (1 − φ(x))p(x, θ)µ(dx) = (1 − φ(x))gθ(t(x))p(x, θ0)µ(dx)<br />
<br />
≤ (1 − φ(x))[c0 + c1t(x)]p(x, θ0)µ(dx) = [c0 + c1Eθ0 T](1 − α)<br />
⇓<br />
0 ≤ c0 + c1E θ0 T,<br />
hvor vi har brugt Lemma 7.12. Fra (7.13) har vi<br />
<br />
[φ(x) − ˜φ(x)]<br />
p(x, θ)<br />
p(x, θ0) − c0(θ)<br />
<br />
− c1(θ)t(x) ≥ 0<br />
og dermed<br />
<br />
p(x,<br />
0 ≤ [φ(x) − ˜φ(x)]<br />
θ)<br />
p(x, θ0) − c0(θ)<br />
<br />
− c1(θ)t(x) p(x, θ0)dµ(x)<br />
= Eθφ − Eθ ˜φ − [c0 + c1Eθ0 T](α − ˜α),
88 KAPITEL 7. TESTTEORI<br />
hvor vi igen har brugt Lemma 7.12. Kombinerer vi dette med det foregående resultat<br />
har vi at E θ ˜φ ≤ E θφ.<br />
Hvis vi erstatter ˜φ(x) ovenfor med α får vi istedet<br />
0 ≤ E θφ − α,<br />
det vil sige, testet φ er selv et styrkeret test.<br />
Entydigheden vises på helt tilsvarende vis som i Sætning 7.6 med A1 = {x | φ(x) =<br />
φ ∗ (x), p(x, θ)/p(x, θ0) − c0(θ) − c1(θ)t(x) = 0} og A2 = {x | φ(x) = φ ∗ (x),<br />
p(x, θ)/p(x, θ0) − c0(θ) − c1(θ)t(x) = 0, p(x, θ0) > 0}. <br />
Bemærk, at da vi indførte testet (7.8) var det ud fra kvotientteststørrelsen , og a1 og<br />
a2 blev bestemt ved, at de gav den samme værdi af Q, Q(a1) = Q(a2). I Sætning 7.13<br />
derimod skal a1 og a2 bestemmes, så at niveauet er α og så at testet er styrkeret. Typisk<br />
vil disse værdier af a1 og a2 ikke opfylde Q(a1) = Q(a2).<br />
Eksempel 7.14.<br />
Lad X være eksponentialfordelt med tæthed θe−θx . Lad os bestemme a1 og a2 i (7.8), så<br />
at Eθ0 ϕ = α og (7.11) er opfyldt. Det giver ligningerne<br />
Kvotientteststørrelsen er<br />
og dermed<br />
1 − e −θ0a 1 + e −θ0a2 = α og a2e −θ0a2 − a1e −θ0a 1 = 0.<br />
Q(x) =<br />
θ0e −θ0x<br />
1<br />
xe−1 = θ0xe −θ0x+1<br />
,<br />
Q(a1) = θ0a1e −θ0a 1+1 = θ0a2e −θ0a2+1 = Q(a2).<br />
Det samme resultat gælder for alle gammafordelinger med fast formparameter.<br />
Lad os istedet betragte klassen af tætheder<br />
e θx<br />
1 θ (e θ − 1)<br />
med 0 < x < 1. Hvis θ0 = 1 er tæthed og fordelingsfunktion<br />
Niveauet for testet bliver<br />
og<br />
Endelig har vi<br />
ET = 1<br />
f(x) = ex<br />
e − 1 og F(x) = ex − 1<br />
e − 1 .<br />
α = ea 1 − 1 + e − e a2<br />
e − 1<br />
e − 1 , EφT = 1 − (1 − a1)ea1 + (1 − a2)ea2 e − 1<br />
Q = ex (e ˆ θ − 1)<br />
(e − 1)e ˆθx ˆθ .<br />
Hvis vi nu tager a1 = 0.05, og løser αET = EφT, så bliver a2 = 0.973724 og α =<br />
0.07086524 og<br />
−2 log Q(a 1) = 4.974114 og − 2 log Q(a2) = 4.4134. <br />
.
7.3. SAMMENSAT NULHYPOTESE – TEST FOR EN DELPARAMETER 89<br />
7.3 Sammensat nulhypotese – test for en delparameter<br />
Den typiske situation, som vi skal betragte i dette afsnit, er den hvor θ står i entydig<br />
forbindelse med (ψ, η), og vi ønsker at teste H0 : ψ = ψ0. Dette er en sammensat<br />
hypotese med Θ0 = {θ(ψ, η)|ψ = ψ0}. Vi har generelt defineret niveauet af et test som<br />
sup θ∈Θ0 E θφ. En særlig ønskværdig situation vil være den, hvor E θφ ikke afhænger af<br />
θ ∈ Θ0, d.v.s. at uanset værdien af den ukendte η vil E θ(ψ0,η)φ = α.<br />
Definition 7.15 <strong>Et</strong> test φ på niveau α for den sammensatte hypotese θ ∈ Θ0 kaldes<br />
similært (eller niveaukonstant) hvis<br />
E θφ = α ∀ θ ∈ Θ0 <br />
Navnet similært stammer fra det engelske “similar” og skal forstås på den måde, at<br />
forkastelsesområdet {x|φ(x) = 1} har den egenskab tilfælles med hele udfaldsrummet<br />
X , at sandsynligheden er uafhængig af θ ∈ Θ0. <strong>Et</strong> eksempel hvor der ikke findes et<br />
similært test er beskrevet nedenfor i eksempel 7.21.<br />
Eksempel 7.16.<br />
Lad X1, . . . , Xn være uafhængige og N(µ, σ 2 )-fordelte. Vi vil teste hypotesen at µ = 0.<br />
Traditionelt benytter vi<br />
T =<br />
1<br />
n−1<br />
∑ n 1 X <br />
i/n<br />
n<br />
∑1 (Xi − ¯X) 2 /(n − 1) ,<br />
som er t-fordelt med n − 1 frihedsgrader, d.v.s. fordelingen afhænger ikke af parameteren<br />
σ2 . Testet defineret ved<br />
<br />
1 t(x) > c<br />
φ(x) =<br />
,<br />
0 ellers<br />
er derfor et similært test. <br />
At en sandsynlighed ikke afhænger af θ ∈ Θ0, minder os om egenskaber ved sufficiente<br />
observatorer. Dette er da også, hvad vi vil bruge til at konstruere similære tests:<br />
hvis T = t(X) er sufficient for P0 = {P θ|θ ∈ Θ0}, vil fordelingen af X givet T ikke<br />
afhænge af θ ∈ Θ0, og dette giver os muligheden for at lave et similært test.<br />
Lemma 7.17 Antag at T = t(X) er sufficient og komplet for P0 = {P θ|θ ∈ Θ0}, og at<br />
testet φ er similært på niveau α. Så gælder<br />
(i) T og φ(X) er uafhængige under P θ, θ ∈ Θ0<br />
(ii) For θ ∈ Θ0 er E θ(φ|T = t) = α n.s.−P0.<br />
Lad for enhver værdi t af T klassen P t = {P θ(·|T = t) | θ ∈ Θ} være de betingede<br />
fordelinger givet T = t. Antag nu yderligere at φ betragtet som et test i klassen P t er<br />
uniformt stærkeste på niveau α n.s.−P0 for test af θ ∈ Θ0 mod θ ∈ K. Så gælder
90 KAPITEL 7. TESTTEORI<br />
(iii) φ er et uniformt stærkeste test blandt alle similære test for test af θ ∈ Θ0 mod<br />
θ ∈ K. <br />
Bevis. (i) φ(X) antager kun to værdier og<br />
P θ(φ(X) = 1) = 1 − P θ(φ(X) = 0) = α ∀ θ ∈ Θ0.<br />
da φ er similært. D.v.s. at φ(X) er ancillær under P0, og resultatet følger af Basu’s<br />
sætning 4.9.<br />
(ii) Da T er sufficent, afhænger E θ(φ|T = t) ikke af θ for θ ∈ Θ0. Desuden viser (i) at<br />
E(φ|T = t) = E θ(φ) = α n.s. − P θ ∀ θ ∈ Θ0.<br />
(iii) Lad ˜φ være et andet similært test. Fra (ii) har vi for θ ∈ Θ0<br />
E θ( ˜φ|T = t) = α n.s. − P0,<br />
d.v.s. at ˜φ er et test på niveau α i den betingede klasse P t . Fra antagelsen har vi for<br />
θ ∈ Θ\Θ0<br />
E θ(φ|T = t) ≥ E θ( ˜φ|T = t)<br />
og deraf<br />
E θφ ≥ E θ ˜φ. <br />
Bemærk at punkt (ii) i Lemma 7.17 siger, at hvis vi vil konstruere et similært test, kan<br />
dette kun gøres ved at lave et test på niveau α i de betingede fordelinger givet T = t,<br />
hvis T er sufficient og komplet.<br />
Vi skal nu bruge Lemma 7.17 til at konstruere styrkerette test i eksponentielle familier.<br />
Vi betragter en eksponentiel familie P = {P θ|θ ∈ Θ} af orden k med minimal<br />
repræsentation<br />
dP θ<br />
dµ (x) = a(θ)b(x)eθ·t(x) , (7.14)<br />
og hvor Θ ⊆ R k er åbent. Vi ønsker at teste at θ ligger i et (k − 1) dimensionalt affint<br />
underrum Θ0 af Θ. <strong>Et</strong> sådant kan vi angive ved at det indre produkt mellem θ og<br />
en vektor α, som står vinkelret på det affine underrrum, har en fast værdi. Lad α =<br />
(α1, . . . , α k) være en fast vektor i R k , α = 0, og definer parameteren<br />
ψ = α · θ = α1θ1 + · · · + α kθ k.<br />
Vi ønsker at lave tests for ψ = ψ0. Antag at α1 = 0. Så kan vi skrive<br />
θ · t = 1<br />
(α1θ1 + · · · + αkθk − α2θ2 − · · · − αkθk)t1 + θ2t2 + · · · + θktk α1<br />
= ψ t1<br />
α1<br />
+ θ2(t2 − α2<br />
α1<br />
t1) + · · · + θk(tk − αk t1).<br />
α1
7.3. SAMMENSAT NULHYPOTESE – TEST FOR EN DELPARAMETER 91<br />
Hvis vi derfor sætter<br />
s(x) = t1(x)<br />
<br />
, η = (θ2, . . . , θk), og v = t2(x) −<br />
α1<br />
α2<br />
t1(x), . . . , tk(x) −<br />
α1<br />
α <br />
k<br />
t1(x)<br />
α1<br />
så kan (7.14) skrives som<br />
dPψ,η<br />
dµ (x) = ã(ψ, η)b(x)eψs(x)+η·v(x) , (7.15)<br />
med (ψ, η) i det åbne område Ω = {(α · θ, θ2, . . . , θ k) | θ ∈ Θ}.<br />
Sætning 7.18. Betragt den eksponentielle familie på minimal form (7.15). Hvis vi for<br />
enhver værdi af v = v(x) kan vælge a(v) så at<br />
da vil testet<br />
Pψ0,η(s(X) ≥ a(v) | V = v) = α, (7.16)<br />
φ(x) =<br />
1 hvis s(x) ≥ a(v(x))<br />
0 hvis s(x) < a(v(x))<br />
være det entydigt bestemte (n.s.−P) uniformt stærkeste styrkerette test på niveau α<br />
for ψ = ψ0 mod ψ > ψ0. <br />
Bevis. For ψ = ψ0 er P0 = {Pψ0,η|(ψ0, η) ∈ Ω} en åben eksponentiel familie af orden<br />
k − 1 med V = v(X) som minimal sufficient observator (se afsnit 2.6). Fra Sætning 2.26<br />
har vi derfor at V er sufficient og komplet. Uanset værdien af a(v) afhænger sandsynligheden<br />
på venstresiden af (7.16) derfor ikke af η. Det er også klart fra (7.16) at<br />
Eψ0,ηφ = α ∀ η.<br />
Hvis ˜φ er et styrkeret test på niveau α , vil Eψ,η ˜φ ≥ α for ψ > ψ0 og Eψ0,η ˜φ ≤ α. Men<br />
da styrken er en kontinuert funktion (se beviset for Lemma 7.12), kan vi lade ψ → ψ0<br />
og dermed få Eψ0,η ˜φ = α. D.v.s. at ˜φ er et similært test, og det følger så fra Lemma 7.17<br />
(iii), at φ er det stærkeste test blandt styrkerette test, hvis vi viser, at φ er det stærkeste<br />
test i klassen af betingede fordelinger givet V = v.<br />
Den betingede tæthed af S givet V = v får vi fra afsnit 2.6:<br />
dPψ,η(·|V = v)<br />
dPψ0,η0 (·|V = v)(x) = ã(ψ − ψ0, v)e (ψ−ψ0)s(x) . (7.17)<br />
Fra Sætning 7.9 og eksempel 7.8 har vi, at givet V = v er det entydigt bestemte stærkeste<br />
test på niveau α givet ved, at vi forkaster for s(x) ≥ a(v), altså testet φ i sætningen.<br />
Vi mangler derfor kun at vise, at φ selv er et styrkeret test. Men Sætning 7.9 giver<br />
også, at når 0 < α < 1 så gælder<br />
og dermed<br />
Eψ,η(φ|V = v) > α for ψ > ψ0,<br />
Eψ,η(φ) > α for ψ > ψ0.
92 KAPITEL 7. TESTTEORI<br />
Det er vigtigt at bemærke sig at V i Sætning 7.18 kan karakteriseres som den minimal<br />
sufficiente observator under hypotesen ω = α · θ = ω0.<br />
Eksempel 7.19.<br />
Lad X i = exp(Y i) hvor Y − i-erne er uafhængige og N(µ, σ 2 )-fordelte. Middelværdien<br />
af X i er exp(µ + 1 2 σ2 ). Hvis vi vil teste at middelværdien har en bestemt værdi svarer<br />
det altså til at teste at ω = µ + 1 2 σ2 har en bestemt værdi. Vi vil teste at ω = ω0 mod<br />
ω > ω0. Vi laver følgende opskrivning af tætheden<br />
(2πσ2) −n/2 n<br />
exp ∑(yi − µ)<br />
1<br />
2 /(2σ 2 <br />
)<br />
= (2πσ2) −n/2 <br />
exp<br />
− nµ2<br />
2σ 2<br />
= (2πσ2) −n/2 <br />
exp − nµ2<br />
= (2πσ2) −n/2 <br />
exp<br />
2σ<br />
<br />
exp − 1<br />
2 − 1<br />
2 ∑ y i<br />
− nµ2 1<br />
−<br />
2σ2 2 ∑ yi<br />
2σ 2 ∑ y 2 i<br />
<br />
exp<br />
− 1<br />
µ<br />
+<br />
σ2 <br />
∑ yi 2σ 2 ∑ y 2 i<br />
<br />
exp − 1 − 1 2ω0 2σ2 ∑ y 2 i<br />
+ ω<br />
σ 2 ∑ y i<br />
<br />
+ ω − ω0<br />
σ 2<br />
∑ yi<br />
Hvis vi lader ψ = (ω − ω0)/σ 2 svarer ω = ω0 mod ω > ω0 til ψ = 0 mod ψ > 0.<br />
Situationen er derfor som i Sætning 7.18 med η = − 1− 1 2 ω0<br />
2σ2 , s(x) = ∑ yi og v(x) =<br />
∑ y2 i . <br />
For at teste ψ = ψ0 mod ψ = ψ0 skal vi bruge Sætning 7.13 istedet for Sætning 7.9.<br />
Sætning 7.20. Betragt den eksponentielle familie på minimal form (7.15). Hvis vi for<br />
enhver værdi v af V kan vælge a1(v) < a2(v) så at testet<br />
<br />
1 s(x) ≤ a1(v(x)) eller s(x) ≥ a2(v(x))<br />
φ(x) =<br />
0 a1(v(x)) < s(x) < a2(v(x))<br />
opfylder<br />
Eψ0 (φ|V = v) = α og Eψ0 (φS|V = v) = αEψ0 (S|V = v),<br />
så er ϕ det entydigt bestemte (n.s.−P) uniformt stærkeste test på niveau α for ψ = ψ0<br />
blandt alle styrkerette tests. <br />
Bevis. Fra 7.17) og Sætning 7.13 har vi, at givet V = v er φ det stærkeste test blandt<br />
alle tests ˜φ som opfylder<br />
Eψ0,η( ˜φ|V = v) = α og Eψ0,η( ˜ϕS|V = v) = αEψ0,η(S|V = v). (7.18)<br />
Hvis derfor vi kan vise, at et vilkårligt styrkeret test ˜φ opfylder 7.18) for næsten alle v,<br />
vil<br />
Eψ,η(φ) = Eψ,η[Eψ,η(φ|V)] ≥ Eψ,η[Eψ,η( ˜φ|V)] = Eψ,η ˜φ,<br />
og sætningen er vist.<br />
Da styrkefunktionen er kontinuert, får vi som i beviset for Sætning 7.18, at ˜φ er et<br />
similært test, hvis ˜φ er styrkeret. Fra Lemma 7.17 (ii) får vi så <strong>første</strong> del af 7.18). Lad<br />
dernæst<br />
f(v) = Eψ0,η( ˜φS|V = v) − αEψ0,η(S|V = v),<br />
<br />
.
7.3. SAMMENSAT NULHYPOTESE – TEST FOR EN DELPARAMETER 93<br />
som faktisk ikke afhænger af η, da V er sufficient under ψ = ψ0. Vi har, at<br />
Eψ0,η f(V) = Eψ0,η( ˜φS) − αEψ0,η(S). (7.19)<br />
For fast η er ˜φ et styrkeret test for ψ = ψ0 mod ψ = ψ0, og Pη = {Pψ,η| for ψ med<br />
(ψ, η) ∈ Ω} er en åben eksponentiel familie af orden 1 og med S som kanonisk observator.<br />
Fra Lemma 7.12 har vi derfor, at 7.19) er nul for alle η med (ψ0, η) ∈ Ω. Men da<br />
omvendt V er komplet for P0, har vi, at<br />
Eψ0,η f(V) = 0 ∀ η ⇒ f(v) = 0 n.s. − P0,<br />
og (7.18) er vist. <br />
Dette afsnit har været baseret på, at den minimal sufficiente T0 under nulmodellen<br />
P0 er en ægte reduktion af den minimal suffciente T under den fulde model P. <strong>Et</strong><br />
similært test kan så konstrueres ved at betragte den betingede fordeling af T givet T0.<br />
Hvis T0 = T, altså der er ingen reduktion i den minimal sufficiente observator, vil der<br />
ikke nødvendigvis eksistere et similært test. Det mest berømte eksempel på dette er:<br />
Eksempel 7.21 (Fisher-Behrens problemet).<br />
Lad X1, . . . , Xn være i.i.d. med fordeling N(µ, σ 2 ) og Y1, . . . , Ym være i.i.d. med fordeling<br />
N(µ+δ, τ 2 ). Vi ønsker at teste H0 : δ = 0, altså at middelværdierne i de to grupper<br />
er ens. Hvis de to varianser σ 2 og τ 2 er ens, σ 2 = τ 2 , har I lært, at I skal vurdere stør-<br />
relsen<br />
t = ¯X − ¯Y<br />
<br />
1 (<br />
n+ 1 m )s2<br />
, s 2 =<br />
n<br />
1<br />
n + m − 2 ∑(Xi − ¯X)<br />
1<br />
2 +<br />
m<br />
∑<br />
1<br />
(Yi − ¯Y) 2<br />
<br />
(7.20)<br />
i en t-fordeling med (n + m − 2) frihedsgrader, og forkaste H0 hvis |t| er stor. Men<br />
hvad hvis σ 2 = τ 2 ? Likelihoodfunktionen er<br />
(2πσ 2 ) − n 2 (2πτ 2 ) − m <br />
2 exp<br />
−n µ2<br />
2σ<br />
<br />
· exp<br />
<br />
+ δ)2<br />
− m(µ<br />
2 2τ2 − 1<br />
2σ2 n<br />
∑ x<br />
1<br />
2 µ<br />
+<br />
i σ2 n<br />
∑<br />
1<br />
xi − 1<br />
2τ2 m<br />
∑<br />
1<br />
y 2 i<br />
+ µ + δ<br />
τ 2<br />
m<br />
∑ yi<br />
1<br />
og under den fulde model P = {P µ,δ,σ 2 ,τ 2 | µ, δ ∈ R og σ 2 , τ 2 ∈ R+} er T = (∑ n 1 X2 i ,<br />
∑ n 1 Xi, ∑ m 1 Y2<br />
i , ∑m 1 Yi) minimal sufficient. Under P0 = {P µ,0,σ 2 ,τ 2 | µ ∈ R og σ 2 , τ 2 ∈ R+}<br />
sker der ikke en reduktion i ordenen af den eksponentielle familie, og T er stadig minimal<br />
sufficient. En eksponentiel familie, hvor dimensionen af parameterrummet er mindre<br />
end ordenen af familien, kaldes en krum eksponentiel familie. Specielt kaldes P0 en<br />
(4,3) krum eksponentiel familie, idet ordenen er 4 og dimensionen af parameterrummet<br />
{(µ, σ 2 , τ 2 ) | µ ∈ R, σ 2 , τ 2 ∈ R+} er 3 .<br />
Det matematiske problem om eksistensen af et similært test baseret på T blev først<br />
løst af sovjetborgeren Linnik og hans kollegaer i 1966. Hvis n og m begge er lige eller<br />
begge er ulige, eksisterer der ikke et similært test. Hvis én af n og m er lige og den<br />
anden er ulige, eksisterer der ganske vist en løsning, men denne afhænger ikke på en<br />
“glat” måde af T.<br />
<br />
,
94 KAPITEL 7. TESTTEORI<br />
Selvom der ikke eksisterer tests, som er similære, eksisterer der tests, som er næsten<br />
similære. Da under H0<br />
<br />
¯X − ¯Y ∼ N 0, σ2<br />
og<br />
<br />
τ2<br />
+<br />
n m<br />
s 2 1 =<br />
1<br />
n − 1<br />
n<br />
(Xi − ¯X) 2 , s 2 1<br />
2 =<br />
m − 1<br />
m<br />
(Yi − ¯Y) 2<br />
∑ 1<br />
estimerer henholdsvis σ2 og τ2 , er det naturligt at betragte teststørrelsen (sammenlign<br />
med 7.20))<br />
¯X − ¯Y<br />
Z =<br />
.<br />
<br />
s 2 1 /n + s2 2 /m<br />
Denne er approksimativt t-fordelt med antallet af frihedsgrader<br />
ν(θ) =<br />
2 <br />
θ 1<br />
+ /<br />
n m<br />
Ved at erstatte θ med ˆθ = s 2 1 /s2 2<br />
niveau α ved at forkaste, når<br />
θ 2<br />
n 2 (n − 1) +<br />
∑ 1<br />
1<br />
m2 <br />
, θ = σ<br />
(m − 1)<br />
2 /τ 2 .<br />
får vi et approksimativt test for δ = 0 mod δ = 0 på<br />
|z| > t 1−α/2(ν( ˆ θ)),<br />
hvor tp( f) er p-fraktilen i en t-fordeling med f frihedsgrader. Dette test kaldes Welch-t<br />
test, og er meget tæt på at give et similært test.<br />
En anden mulighed, som også giver et test, der er meget tæt på at være similært, er<br />
at forkaste små værdier af kvotientteststørrelsen Q fra 7.4). <br />
7.4 Lokalt stærkeste test<br />
Hvad gør vi, hvis der ikke eksisterer et uniformt stærkeste test? <strong>Et</strong> rimeligt godt svar<br />
er: brug altid kvotientteststørrelsen Q i 7.4) og forkast for små værdier af Q. Dette er<br />
fornuftigt ud fra fortolkningen af Q > c som et likelihoodområde, og fordi testet bliver<br />
approksimativt similært, og dette sidste gælder også, hvis vi betinger med en ancillær<br />
observator.<br />
En anden mulighed - som vi skal se anvendt i forbindelse med rangtestorer i notesættet<br />
om ikke-parametrisk <strong>statistik</strong> - er at maksimere styrken lokalt. Dette er især af<br />
betydning hvis θ er endimensional, og vi ønsker at teste θ = θ0. Hvis modhypotesen<br />
er θ > θ0, ønsker vi at vælge testet φ sådan, at styrken β(θ) = E θφ vokser mest muligt,<br />
når θ bevæger sig væk fra θ0. Med andre ord ønsker vi, at maksimere β ′ (θ0 ) . Hvis vi<br />
må differentiere ind under integraltegnet, har vi<br />
Definer nu<br />
∂β<br />
∂θ (θ0) = ∂<br />
<br />
∂θ<br />
φ(x)p(x, θ)dµ(x)| θ=θ0 =<br />
<br />
φ(x) =<br />
<br />
1 hvis ∂p(x,θ0)<br />
∂θ<br />
0 ellers,<br />
φ(x)<br />
> ap(x, θ0)<br />
∂p(x, θ0)<br />
dµ(x). (7.21)<br />
∂θ<br />
(7.22)
7.5. OPGAVER 95<br />
hvor a er bestemt, så at<br />
<br />
Eθ0φ =<br />
φ(x)p(x, θ0)dµ(x) = α.<br />
Det følger så af Lemma 7.5 og (7.21), at hvis ˜φ er et andet test med E θ0 ˜φ ≤ α, så vil<br />
∂<br />
∂θ E ∂<br />
θφ| θ=θ0 ≥<br />
∂θ Eθ ˜φ| θ=θ0 .<br />
Det lokalt stærkeste test er altså givet ved 7.22). Vi kan formulere dette som at vi skal<br />
forkaste for store værdier af<br />
U(θ0) = ∂<br />
∂θ p(x, θ0)/p(x, θ0) = ∂l<br />
∂θ (θ0),<br />
hvor l(θ) er loglikelihoodfunktionen. Med andre ord, vi skal forkaste for store værdier<br />
af scorefunktionen (se definition 5.9).<br />
7.5 Opgaver<br />
Opgave 7.1<br />
Lad X1, . . . , Xn være uafhængige og N(µ, σ 2 )-fordelte.<br />
(i) Antag at σ 2 er kendt. Vis, at et uniformt stærkeste test for µ ≤ µ0 mod µ > µ0<br />
forkaster for store værdier af ∑ n 1 (X i − µ0).<br />
(ii) Antag at µ er kendt. Vis, at et uniformt stærkeste test for σ 2 ≤ σ 2 0 mod σ2 > σ 2 0<br />
forkaster for store værdier af ∑ n 1 (X i − µ0) 2 .<br />
Opgave 7.2<br />
Lad X1, . . . , Xn være uafhængige og uniformt fordelte på intervallet (0, θ).<br />
(i) Vis, at hvis A ⊂ (0, θ0) n , da gælder der for θ1 > θ0 at Pθ1 ((X1, . . . , Xn) ∈ A) =<br />
nPθ0 ((X1, . . . , Xn) ∈ A). Vis dernæst, at hvis A ⊂ (0, θ1) n , da vil<br />
θ0<br />
θ 1<br />
Pθ 1 ((X1, . . . , Xn) ∈ A) = Pθ 1 ((X (n) ≥ θ0) ∩ A) +<br />
hvor X (n) = max{X1, . . . , Xn}.<br />
n θ0<br />
Pθ0<br />
θ1<br />
(A),<br />
(ii) Vis, at et stærkeste test for θ = θ0 mod θ = θ1, hvor θ1 > θ0, på niveau α er givet<br />
ved<br />
⎧<br />
⎨ 1<br />
ϕ(x) = 1<br />
⎩<br />
0<br />
hvis X (n) ≥ θ0<br />
hvis (X1, . . . , Xn) ∈ A<br />
ellers,<br />
hvor A ⊆ (0, θ0) n er vilkårlig med Pθ0 (A) = α.<br />
(iii) Antag at A = {a ≤ x (n) < θ0} Vis, at testet ϕ fra (ii) er et uniformt stærkeste test<br />
på niveau α for hypotesen θ ≤ θ0 mod θ > θ0.
96 KAPITEL 7. TESTTEORI<br />
Opgave 7.3<br />
Lad X være Bin(n, θ)-fordelt.<br />
(i) Vis at det uniformt stærkeste test for hypotesen θ ≤ θ0 mod θ > θ0 forkaster for<br />
store værdier af X.<br />
(ii) Lad θ0 = 0.2, og lad for ethvert n konstanten kn være bestemt, så at<br />
P θ0 (Xn ≥ kn) ≥ 0.05 og P θ0 (Xn > kn) < 0.05.<br />
Definer testet ϕn ved ϕn(x) = 1(x ≥ kn). Hvor stor skal n være for at styrken af<br />
ϕn i punktet θ1 = 0.4 er mindst 0.9.<br />
Vink: Det er nok en god ide at finde en tabel med binomialsandsynligheder!<br />
Opgave 7.4<br />
Lad P have strengt voksende kvotienter i t(x). Lad den observerede værdi at T = t(X)<br />
være t obs . Find p-værdien eller det observerede signifikansniveau for testet af θ ≤ θ0<br />
mod θ > θ0.<br />
Opgave 7.5<br />
Lad X1, . . . , Xn være uafhængige stokastiske variable, hvor X i er Poisson-fordelt med<br />
middelværdi λi , λi > 0, i = 1, 2, . . . , n.<br />
(i) Lad λ 0 i<br />
> 0, i = 1, 2, . . . , n og lad d > 1 være et fast tal. Vis, at<br />
ϕ(x1, . . . , xn) =<br />
er det stærkeste test på niveau α for hypotesen<br />
mod hypotesen<br />
Her er<br />
α =<br />
1 x1 + · · · + xn ≥ k<br />
0 x1 + · · · + xn < k<br />
(λ1, . . . , λn) = (λ 0 1 , . . . , λ0 n)<br />
(λ1, . . . , λn) = (dλ 0 1 , . . . , dλ0 n).<br />
∞<br />
−a ai<br />
∑ e<br />
i!<br />
i=k<br />
og a = λ01 + · · · + λ0n. (ii) Vis, at ϕ er et test på niveau α for hypotesen H:<br />
mod hypotesen K:<br />
λ1 + · · · + λn ≤ a<br />
λ1 + · · · + λn > a.<br />
(iii) Vis, at ϕ er et uniformt stærkeste test på niveau α for hypotesen H mod hypotesen<br />
K.
7.5. OPGAVER 97<br />
Opgave 7.6<br />
Lad X1, X2, X3 være indbyrdes uafhængige eksponentialfordelte stokastiske variable<br />
med middelværdier<br />
EXi = 1<br />
, i = 1, 2, 3,<br />
µ i<br />
hvor µ i > 0, i = 1, 2, 3. Den herved definerede familie af sandsynlighedsmål på R 3 +<br />
udgør en regulær eksponentiel familie af orden 3.<br />
(i) Opskriv tætheden for (X1, X2, X3) på eksponentiel familieform med<br />
som kanonisk observator og<br />
som tilhørende kanonisk parameter.<br />
(ii) Vis, at for µ1 = µ2 + µ3 er<br />
<br />
X1<br />
P<br />
min(X2, X3)<br />
T = t(X) = (X1, X1 + X2, X1 + X3)<br />
θ = (µ2 + µ3 − µ1, −µ2, −µ3)<br />
<br />
≤ a = a<br />
, a > 0.<br />
a + 1<br />
Vink: Udnyt, at min(X2, X3) er eksponentialfordelt med middelværdi (µ2 + µ3) −1 .<br />
(iii) Vis, at for µ1 = µ2 + µ3 er<br />
uafhængige.<br />
X1<br />
min(X2, X3) og (X1 + X2, X1 + X3)<br />
(iv) Vis, at det uniformt stærkeste styrkerette test for µ1 = µ2 + µ3 mod µ1 < µ2 + µ3<br />
på niveau α er<br />
<br />
1<br />
ϕ(X1, X2, X3) =<br />
0<br />
X1 1−α ≥ min(X2,X3) α<br />
ellers.<br />
Vink: Konstruer testet i Sætning 7.18.<br />
Opgave 7.7<br />
Lad X1, . . . , Xn være uafhængige og Γ(λ, β)-fordelte, λ > 0, β > 0. Lad U = ∏ n 1 X1/n<br />
i / ¯X.<br />
(i) Vis, at fordelingen af U ikke afhænger af β, og vis, at U og ¯X er uafhængige.<br />
(ii) Vis, at det uniformt stærkeste styrkerette test på niveau α for λ = λ0 mod λ > λ0<br />
er givet ved<br />
ϕ(X1, . . . , Xn) =<br />
1 for (∏ n i=1 X i) 1/n / 1 n ∑n i=1 X i ≥ c<br />
0 ellers,
98 KAPITEL 7. TESTTEORI<br />
hvor c er bestemt ved<br />
P λ0,β<br />
⎛<br />
⎜<br />
⎝<br />
n 1/n ∏ Xi i=1<br />
1<br />
n<br />
n<br />
∑ Xi i=1<br />
⎞<br />
⎟<br />
≥ c⎟<br />
⎠ = α.<br />
Opgave 7.8<br />
Lad X1, . . . , Xn være uafhængige med tæthed<br />
<br />
1β exp −<br />
f(x) =<br />
x−δ<br />
<br />
β x ≥ δ<br />
0 ellers,<br />
hvor δ ∈ R og β > 0.<br />
Lad X (1) ,..,X (n) være ordensobservatorerne for X1, . . . , Xn .<br />
(i) Vis, at (X (1), . . . , X (n)) har tæthed f givet ved<br />
for δ ≤ z1 ≤ z2 ≤ · · · ≤ zn.<br />
f(z1, . . . , zn) = n! 1<br />
exp<br />
βn <br />
nδ<br />
exp −<br />
β<br />
1<br />
β<br />
Sæt Y1 = nX (1) og Y i = (n − i + 1)(X (i) − X (i−1) ), i = 2, . . . , n.<br />
(ii) Vis, at Y1, . . . , Yn er stokastisk uafhængige, og Y1 har tæthed<br />
<br />
1β<br />
f(y1) =<br />
e − yi β y1 ≥ nδ<br />
0 ellers,<br />
og Y i har tæthed, i = 2,. . . ,n,<br />
f(yi) =<br />
(iii) Vis, at for β fast er Y1 sufficient og komplet.<br />
(iv) Lad<br />
1β e − y i<br />
β y i ≥ 0<br />
0 ellers.<br />
<br />
1 Y2 + · · · + Yn > cα<br />
ϕ(Y1, . . . , Yn) =<br />
0 ellers,<br />
n <br />
∑ zi i=1<br />
hvor cα = β0<br />
2 χ2 1−α (2n − 2). Vis, at ϕ er et test på niveau α for β = β0 mod β > β0.<br />
(v) Vis, at styrkefunktionen for dette test er givet ved<br />
<br />
Eδ,β(ϕ) = P Z ≥ β0<br />
β χ2 <br />
1−α (2n − 2) ,<br />
hvor Z er en χ 2 (2n − 2)-fordelt stokastisk variabel. Vis ved hjælp af dette resultat,<br />
at ϕ er et styrkeret test for β = β0 mod β > β0.
7.5. OPGAVER 99<br />
(vi) Vis, at ϕ er uniformt stærkeste styrkerette test på niveau α for β = β0 mod β > β0<br />
.<br />
Opgave 7.9<br />
Lad X ij, i = 1, 2, j = 1, 2, være uafhængige eksponentialfordelte med middelværdi<br />
EX ij =<br />
hvor λ1, λ2 > 0 er ukendte parametre.<br />
1<br />
, i = 1, 2, j = 1, 2,<br />
λi + λj (i) Vis, at ovennævnte familie af sandsynlighedsmål på R 4 +<br />
ponentiel familie af orden 2, og vis, at<br />
T(X) = (X22 − X11, X11 + X12 + X21 + X22)<br />
er en kanonisk observator med tilhørende kanonisk parameter<br />
(ii) Vis, at for λ1 = λ2 er<br />
φ = (λ1 − λ2, −λ1 − λ2).<br />
X22 − X11<br />
X11 + X12 + X21 + X22<br />
ancillær og stokastisk uafhængig af X11 + X12 + X21 + X22.<br />
udgør en regulær eks-<br />
(iii) Vis, at det uniformt stærkeste styrkerette test for λ1 = λ2 mod λ1 > λ2 på niveau<br />
α er<br />
<br />
1<br />
ϕ(X11, X12, X21, X22) =<br />
0<br />
X22−X11 X ≥ cα<br />
11+X12+X21+X22 ellers,<br />
hvor cα er bestemt ved<br />
P λ1=λ2<br />
<br />
X22 − X11<br />
X11 + X12 + X21 + X22<br />
<br />
≥ cα = α.<br />
(iv) Vis, at det uniformt stærkeste styrkerette test for λ1 = λ2 mod λ1 = λ2 på niveau<br />
2α er<br />
<br />
1<br />
ϕ(X11, X12, X21, X22) =<br />
0<br />
|X22−X11| X ≥ cα<br />
11+X12+X 21+X22<br />
ellers,<br />
hvor cα er bestemt som ovenfor.<br />
Opgave 7.10<br />
Betragt en model P = {Pθ|θ ∈ Θ} på målrummet (X , A). Lad ϕ(x; θ0) være et test på<br />
niveau α for hypotesen H(θ0) : θ = θ0 . D.v.s. at vi har Eθ0 ϕ = α. Vis, at området<br />
K(x) = {θ ∈ Θ | ϕ(x; θ) = 0}
100 KAPITEL 7. TESTTEORI<br />
er et (1 − α)-konfidensområde.<br />
Lad nu θ = (ψ, η) og lad ˜ϕ(x; ψ0) være et test på niveau α for den sammensatte<br />
hypotese H(ψ0) : ψ = ψ0. Definer<br />
Vis, at<br />
˜K(x) = {ψ | ˜ϕ(x; ψ) = 0}.<br />
P θ<br />
ψ ∈ ˜K(X) ≥ 1 − α,<br />
altså at ˜K(X) indeholder den sande værdi ψ, med en sandsynlighed, der er mindst<br />
1 − α.
Kapitel 8<br />
Separat inferens<br />
8.1 L-sufficiens og L-ancillaritet<br />
Vi betragter i dette kapitel en model P = {P θ|θ ∈ Θ}, hvor θ står i én til én korrespondance<br />
med (ψ, η). Parameteren ψ - interesseparameteren - er den parameter, vi ønsker<br />
at sige noget om, hvorimod vi ikke er interesseret i η - nuisanceparameteren (engelsk:<br />
nuisance = plage) - selvom denne er nødvendig for en fuldstændig beskrivelse af modellen.<br />
I Kapitel 6 betragtede vi estimation af ψ i klassen af centrale estimater, d.v.s.<br />
Eψ,η ˜ψ = ψ for alle η for et centralt estimat ˜ψ. Tilsvarende betragtede vi i Afsnit 7.3 similære<br />
tests for den sammensatte hypotese ψ = ψ0, d.v.s. Eψ0,ηφ = α for alle η. I begge<br />
tilfælde er der tale om en egenskab, der ikke afhænger af nuisanceparameteren η . Der<br />
er to situationer, hvor denne egenskab kan opnås på en direkte måde, nemlig hvis der<br />
eksisterer en observator S = s(X), så at den marginale fordeling af S kun afhænger<br />
af ψ, eller hvis der eksisterer en observator U = u(X), så at den betingede fordeling<br />
af X givet U = u kun afhænger af ψ. Det var den sidste situation, der blev anvendt i<br />
konstruktionen af de similære tests i Afsnit 7.3. Det spørgsmål, som vi skal komme ind<br />
på her, er om det er rimeligt kun at betragte den marginale fordeling af S, henholdsvis<br />
den betingede fordeling af X givet U. Bemærk at i tilfældet, hvor der ingen nuisanceparameter<br />
er, d.v.s θ = ψ, så har vi en formulering af dette i (B-) sufficiensprincippet<br />
og (B-) betingningsprincippet.<br />
Jeg vil først med et eksempel vise, at maksimum likelihood estimation ikke er problemfrit,<br />
når der er nuisanceparametre tilstede.<br />
Eksempel 8.1.<br />
Hvis X1, . . . , Xn er uafhængige og alle N(µ, σ 2 )-fordelte, så er likelihoodfunktionen<br />
L(µ, σ 2 ) =<br />
n<br />
∏(2πσ<br />
i=1<br />
2 ) − 1 − 1<br />
2 e 2σ2 (x1−µ) 2<br />
Maksimum likelihood estimaterne er ˆµ = ¯X og σ 2 = 1 n ∑n 1 (X i − ¯X) 2 . På <strong>statistik</strong> 1 har<br />
I lært, at I ikke skal bruge ˆσ 2 som estimat for σ 2 , men istedet<br />
s 2 = 1<br />
n − 1<br />
n<br />
∑(Xi − ¯X)<br />
1<br />
2 .<br />
101
102 KAPITEL 8. SEPARAT INFERENS<br />
Argumentet for at bruge s 2 istedet for ˆσ 2 er, at<br />
Es 2 = σ 2 og Eˆσ 2 2 n − 1<br />
= σ<br />
n =<br />
<br />
1 − 1<br />
n<br />
<br />
σ 2 .<br />
Den marginale fordeling for s 2 er en σ 2 χ 2 (n − 1)/(n − 1) med tæthed<br />
<br />
n − 1<br />
2σ2 (n−1)/2<br />
Γ<br />
n − 1<br />
2<br />
−1<br />
x (n−3)/2 e −(n−1)x/(2σ2 ) ,<br />
og maksimum likelihood estimatet ˆσ 2 m fra denne tæthed er netop ˆσ 2 m = s 2 .<br />
Medmindre n er meget lille, har det i praksis ikke den store betydning, om vi bruger<br />
ˆσ 2 eller s 2 . Intuitivt er det generelt forholdet mellem antallet af observationer n og antallet<br />
af nuisanceparametre, der bestemmer, hvor godt maksimum likelihoodestimatet<br />
er. Dette kan illustreres ved modellen med<br />
X ij ∼ N(µ i, σ 2 ) j = 1, 2, i = 1, . . . , n,<br />
d.v.s., at vi har n grupper med to observationer i hver. Maksimum likelihood estimaterne<br />
er<br />
Fra store tals lov (JHJ 4.12) får vi<br />
ˆµ i = ¯X i· = 1<br />
2 (Xi1 + Xi2) og ˆσ 2 = 1<br />
2n ∑(Xij − ¯X i·)<br />
ij<br />
2 .<br />
ˆσ 2 = 1<br />
n<br />
n<br />
∑<br />
1<br />
<br />
Xi1 − X<br />
2 <br />
i2 Xi1 − Xi2 → E<br />
2<br />
2<br />
2<br />
= 1<br />
2 σ2 ,<br />
hvor konvergensen er næsten sikker for n → ∞, og vi har også Eˆσ 2 = 1 2 σ2 . Hvis vi<br />
istedet baserer estimationen af σ 2 på den marginale fordeling af<br />
får vi maksimum likelihood estimatet<br />
Y i = X i1 − X i2 ∼ N(0, 2σ 2 ) i = 1, . . . , n,<br />
ˆσ 2 m = 2 1<br />
n<br />
n<br />
∑<br />
1<br />
<br />
Xi1 −<br />
<br />
Xi2<br />
2<br />
→ σ<br />
2<br />
2 ,<br />
og Eˆσ 2 m = σ 2 . <br />
Lad nu familien P være domineret af µ og lad f(x; θ) = dPθ dµ (x). Hvis S = s(X) er<br />
en observator, lader vi<br />
f(s; θ) = dPθS (s) og f(x|s; θ) =<br />
dµS<br />
dPθ(·|S = s)<br />
dµ(·|S = s) (x),<br />
og tilsvarende for observatoren U = u(X). Hvis f(s; θ) kun afhænger af θ gennem ψ,<br />
d.v.s.<br />
f(x; θ) = f(s; ψ) f(x|s; ψ, η), (8.1)
8.1. L-SUFFICIENS OG L-ANCILLARITET 103<br />
er vi interesseret i, om vi kan basere inferensen om ψ på den marginale model f(s; ψ).<br />
Hvis vi kan argumentere for, at f(x|s; ψ, η) ikke indeholder information om ψ, vil det<br />
være rimeligt at sige, at S i en udvidet forstand er sufficient for ψ. Hvis omvendt<br />
f(x|u; θ) kun afhænger af θ gennem ψ, d.v.s<br />
f(x, θ) = f(u; ψ, η) f(x|u; ψ), (8.2)<br />
vil vi gerne kunne sige, at f(u; ψ, η) ikke indeholder information om ψ, og at U i en<br />
udvidet forstand er ancillær for ψ.<br />
Jeg vil nu give én (ud af andre mulige) definition på hvornår f(x|s; ψ, η) henholdsvis<br />
f(u; ψ, η) ikke indeholder information om ψ, og dernæst forsøge at argumentere<br />
for at dette er et rimeligt kriterium.<br />
Definition 8.2 Hvis opsplitningen (8.1) holder, og der eksisterer funktioner g(s; ψ) og<br />
h(x) så at<br />
sup f(x|s; ψ, η) = g(s; ψ)h(x), (8.3)<br />
η<br />
så siges S = s(X) at være L-sufficient for ψ (“L” for likelihood). Hvis omvendt opsplitningen<br />
(8.2) holder, og der eksisterer funktioner g(ψ) og h(u) så at<br />
sup<br />
η<br />
f(u; ψ, η) = g(ψ)h(u), (8.4)<br />
så siges U = u(X) at være L-ancillær for ψ.<br />
Hvis S er L-sufficient for ψ, bør inferens om ψ udføres i den marginale fordeling af<br />
S, og hvis U er L-ancillær for ψ, bør inferens om ψ udføres i den betingede fordeling af<br />
X givet U. <br />
Argumentation: Ved at tage tæthed mht. ˜µ, hvor d ˜µ/dµ = h, kan vi i (8.3) og (8.4)<br />
antage at h ≡ 1, hvilket hermed gøres. Profillikelihoodfunktionen ¯L(ψ) for parameteren<br />
ψ er defineret som<br />
¯L(ψ) = sup<br />
η<br />
f(x; ψ, η) = f(x; ψ, ˆηψ),<br />
hvor ˆηψ er maksimum likelihood estimatet for η for fastholdt værdi af ψ. Hvis (8.1) er<br />
opfyldt, vil<br />
¯L(ψ) = f(s; ψ) sup f(x|s; ψ, η) = f(s; ψ) f(x|s; ψ, ˆηψ). (8.5)<br />
η<br />
Profillikelihoodfunktionen ¯L(ψ) er udgangspunktet for inferens om ψ, og vi kan udtrykke<br />
(8.5) ved at ¯L(ψ) er den marginale likelihood fra S modificeret ved f(x|s; ψ, ˆηψ).<br />
Denne modifikation må være baseret på den extra viden, vi har fra observationen x<br />
givet S = s. Hvis (8.3) er opfyldt, er modifikationen g(s; ψ), altså den samme uanset<br />
hvad vi har observeret om x givet S = s. Men i så fald kan vi lige så godt sige, at vi<br />
ikke har observeret x fra X givet S = s, og tilbage er observationen S = s. Vi bør derfor<br />
nøjes med at betragte den marginale fordeling af S, og anse g(s; ψ) for et irrelevant<br />
element (som netop giver anledning til problemerne i eksempel 8.1 ovenfor).<br />
Hvis (8.2) er udgangspunktet, har vi<br />
¯L(ψ) = f(x|u; ψ) f(u; ψ, ˆηψ),
104 KAPITEL 8. SEPARAT INFERENS<br />
og f(u; ψ, ˆηψ) betragtes som en modifikation til f(x|u; ψ). Hvis (8.4) er opfyldt, fås<br />
f(u; ψ, ˆηψ) = g(ψ),<br />
og modifikationen afhænger altså ikke af hvilken værdi af u, der er observeret. Vi bør<br />
derfor nøjes med at basere inferensen på den betingede fordeling af x givet U = u. △<br />
Eksempel 8.3.<br />
Lad X i, . . . , Xn være uafhængige og N(µ, σ 2 ) fordelte. Vi vil vise at S = (X1 − ¯X, . . . , Xn −<br />
¯X) er L-sufficient for σ 2 . Da X i − ¯X = (X i − µ) − ∑ n 1 (X j − µ)/n afhænger fordelingen<br />
af S kun af σ 2 . Da X = (X1, . . . , Xn) = S + ( ¯X, . . . , ¯X) er den betingede fordeling af X<br />
givet S ækvivalent med den betingede fordeling af ¯X givet S. For fast σ 2 er ¯X sufficient<br />
og komplet og S er ancillær. Fra Basu’s sætning har vi derfor at S og ¯X er uafhængige.<br />
Den betingede fordeling af X givet S er derfor ækvivalent med den marginale<br />
fordeling af ¯X, som jo er en N(µ, σ 2 /n) fordeling. Da<br />
sup<br />
µ<br />
1<br />
√ 2πσ 2 /n exp(−( ¯x − µ) 2 /(2σ 2 /n)) =<br />
1<br />
√ 2πσ 2 /n<br />
er en funktion af σ 2 udelukkende har vi fra definitionen at S er L-sufficient for σ 2 .<br />
Estimatet for σ 2 fra den marginale fordeling af S er s 2 = ∑ n 1 (X i − ¯X)/(n − 1). <br />
I de næste to afsnit vil jeg se på specialtilfælde af L-sufficiens og L-ancillaritet.<br />
8.2 S-sufficiens og S-ancillaritet<br />
Vi har antaget ovenfor at paramteren θ står i entydig forbindelse med parameteren<br />
(ψ, η) Vi antager nu at vi kan omparametrisere til (ψ, λ), det vil sige at der er en entil-en<br />
forbindelse mellem (ψ, η) og (ψ, λ). I definitionen nedenfor er det et væsentligt<br />
element at vi forlanger at (ψ, λ) varierer i et produktområde.<br />
Definition 8.4 Hvis (ψ, λ) varierer i Ψ × Λ, og (8.1) specialiserer til<br />
f(x; θ) = f(s; ψ) f(x|s; λ)<br />
siges S = s(X) at være S-sufficient for ψ. Omvendt hvis (8.2) specialiserer til<br />
f(x; θ) = f(u; λ) f(x|u; ψ)<br />
siges U = u(X) at være S-ancillær for ψ. <br />
Observation 8.5 S-sufficiens/ancillaritet er et specialtilfælde af L-sufficiens/ancillaritet.<br />
<br />
Bevis. (i) Sufficiens:<br />
(ii) Ancillaritet:<br />
sup<br />
η<br />
sup<br />
η<br />
f(x|s; ψ, η) = sup f(x|s; λ) = h(x).<br />
λ∈Λ<br />
f(u; ψ, η) = sup f(u; λ) = h(u).<br />
λ∈Λ
8.2. S-SUFFICIENS OG S-ANCILLARITET 105<br />
Observation 8.6 Hvis S er S-sufficient henholdsvis S-ancillær, er maksimum likelihood<br />
estimatet for ψ og kvotienttestoren for ψ = ψ0 de samme, om de baseres på<br />
den fulde likelihood f(x; ψ, η) eller på den marginale likelihood f(s; ψ) henholdsvis<br />
den betingede likelihood f(x|u; ψ). Fordelingen af estimat og kvotienttestor vil dog i<br />
ancillaritetstilfældet være påvirket af, at vi betinger med U = u. <br />
Observation 8.7 S-ancillaritet ligger tæt op ad B-ancillaritet, idet hvis U er S-ancillær,<br />
så er U også B-ancillær i enhver af delmodellerne med λ fast. Hvis derfor vi synes, at<br />
det er vigtigt at betinge med U for fastholdt værdi af λ, bør vi også betinge med U, når<br />
λ er ukendt og varierer i Λ, sålænge værdien af λ ikke siger noget om variationsområdet<br />
for ψ. <br />
Eksempel 8.8.<br />
I forsikringsmatematikken betragter man ofte den model, at skaderne ankommer efter<br />
en Poissonproces i tiden og skadestørrelserne er uafhængige og identisk fordelte. Lad<br />
os derfor betragte følgende model: N er en Poissonfordeling betinget med at N > 0 ,<br />
d.v.s.<br />
P(N = k) = λk<br />
k! e−λ /(1 − e −λ ), k = 1, 2, . . . ,<br />
og X1, X2, . . . er uafhængige exponentialfordelte med middelværdi µ. Vi observerer N<br />
og X1, . . . , XN og likelihoodfunktionen bliver<br />
L(µ, ; λ) =<br />
1<br />
1 − e −λ<br />
Maksimum likelihood estimatet for µ er<br />
ˆµ = 1<br />
N<br />
λn n<br />
1<br />
e−λ<br />
n! ∏ µ<br />
i=1<br />
e−xi/µ .<br />
N<br />
∑ Xi. i=1<br />
Hvis vi skal sige noget om, hvor tæt ˆµ må forventes at være på den sande værdi µ,<br />
virker det rimeligt at tage hensyn til værdien af N : hvis N = 1, ved vi ikke meget<br />
om µ, men hvis N = 10.000 , er vi i en meget bedre position for at lave udsagn om µ.<br />
Vi ønsker altså at basere inferensen på den betingede fordeling af X1, X2, . . . , Xn givet<br />
N = n. Hvis λ er kendt, er N B-ancillær, og hvis λ er ukendt med (µ, λ) ∈ R2 + er N<br />
S-ancillær for inferens om µ. <br />
Eksempel 8.9.<br />
Lad (X, Y) være 2-dimensionalt normalfordelt med middelværdi (µ, µ) og varians<br />
1 1<br />
1 1+σ 2<br />
<br />
. Parameteren (µ, σ 2 ) varierer i R × R+. Så har vi X ∼ N(µ, 1) og Y|X =<br />
x ∼ N(x, σ 2 ). Heraf ser vi at X er S-sufficient for µ. <br />
Eksempel 8.10.<br />
Lad N være antallet af partikler fra en radioaktiv kilde, som en geigertæller registrerer<br />
i et fast tidsrum, og lad N2 være en tilsvarende tælling med en plade indskudt mellem<br />
kilden og tælleren. Vi vil betragte modellen<br />
N1 ∼ Poisson(γ) og N2 ∼ Poisson(ψγ), γ > 0, 0 < ψ ≤ 1,
106 KAPITEL 8. SEPARAT INFERENS<br />
d.v.s. γ er intensiteten fra kilden og ψ angiver den bremsende virkning af pladen. Likelihoodfunktionen<br />
er<br />
L(ψ, γ) = γn 1<br />
n1! e−γ(ψγ)n2<br />
n2! e−ψγ<br />
= [γ(1 + ψ)]n1+n2 e<br />
(n1 + n2)!<br />
−γ(1+ψ)<br />
n1 + n2<br />
n1<br />
n1 n2 1 ψ<br />
,<br />
1 + ψ 1 + ψ<br />
svarende til at (N1 + N2) ∼ Poisson (γ(1 + ψ)) og N1|(N1 + N2) = k ∼ Binomial<br />
1 (k, 1+ψ ). Hvis ψ er interesseparameteren, og λ = γ(1 + ψ) er en nuisanceparameter,<br />
har vi at (ψ, λ) ∈ (0, 1] × R+, og U = N1 + N2 er S-ancillær for ψ. Vi bør altså drage<br />
inferens om ψ i den betingede fordeling af N1 givet N1 + N2. <br />
I forbindelse med S-sufficiens og S-ancillaritet optræder ofte begrebet et “snit”. Lad<br />
P være en klasse af sandsynlighedsmål, og S en observator. Lad P S = {P S | P ∈ P}<br />
være klassen af marginale fordelinger for S og lad P S = {P(·|S = ·) | P ∈ P} være<br />
klassen af betingede fordelinger givet S. Hvis der for enhver kombination (P1, P2) ∈<br />
P S × P S eksisterer P ∈ P med P S = P1 og P(·|S = ·) = P2, så siges S at være et snit i<br />
modellen P . Hvis derfor S er S-sufficient for parameteren ψ, er S et snit, og omvendt<br />
hvis S er et snit, vil S være S-sufficient for en vilkårlig parameter, som parametriserer<br />
klassen P S af marginale fordelinger.<br />
Eksempel 8.11 (Inkubationstidsfordelingen for AIDS).<br />
Dette eksempel er lidt sværere end de øvrige, men jeg tager det med på grund af dets<br />
aktualitet.<br />
Da inkubationstiden for AIDS er meget lang, er smittetidspunktet ofte ukendt, når<br />
personer får stillet diagnosen AIDS (=AIDS i fuldt udbrud). Man har derfor forsøgt<br />
at bruge data fra personer, der er blevet smittet ved blodtransfusion, og derfor har et<br />
kendt smittetidspunkt. Lad os for eksempel sige, at vi laver en undersøgelse i 1987.<br />
Observationerne i = 1, . . . , n består derfor af par (xi, yi), hvor xi er smittetidspunktet,<br />
og y i ≤ 1987 er tidspunktet for AIDS. Der vil være flere end de n personer, der er blevet<br />
smittet ved blodtransfusion, men de resterende personer bliver ikke observeret, idet de<br />
har et AIDS-tidspunkt, der ligger senere end 1987.<br />
Lad os sige, at inkubationsfordelingen F(·; ψ) er parametriseret ved ψ,<br />
P(Y i − X i ≤ z) = F(z; ψ).<br />
Lad os endvidere antage, at personerne bliver smittet efter en inhomogen Poisson proces<br />
med intensitet λ(t). D.v.s. at antallet af personer der smittes ved blodtransfusion i<br />
tidsintervallet (t1, t2) er Poissonfordelt med middelværdi t2<br />
t 1 λ(t)dt og disjunkte tidsintervaller<br />
er uafhængige. Heraf får vi, at processen af observerede smittetidspunkter,<br />
svarende til X i-erne ovenfor, også er en inhomogen Poissonproces med intensitet<br />
φ(t) = λ(t)F(T − t; ψ), (8.6)<br />
hvor T = 1987 er tidspunktet, hvor undersøgelsen er afsluttet. Denne formel siger, at<br />
af dem, der smittes til tid t, når vi kun at se F(T − t; ψ).
8.3. G-SUFFICIENS OG G-ANCILLARITET 107<br />
Observationen bliver N = n antal par og tidspunkterne (X1, Y1), . . . , (Xn, Yn). Likelihoodfunktionen<br />
kan opskrives som den marginale tæthed af (N, X1, . . . , Xn) multipliceret<br />
med den betingede tæthed af (Y1, . . . , Yn). Givet (N, X1, . . . , XN) har vi at<br />
(Y1, . . . , Yn) er uafhængige, og Y i har tæthed f(y − x i; ψ)/F(T − x i; ψ), hvor f(z; ψ) =<br />
F ′ (z; ψ). Givet N = n har vi at X1, . . . , Xn er uafhængige, og X i har tæthed φ(x)/ T<br />
T0 φ(t)dt,<br />
hvor T0 er starttidspunktet for epidemien (dette er en egenskab ved den inhomogene<br />
Poissonproces). Endelig er N Poissonfordelt med middelværdi T<br />
φ(t)dt. Vi får da<br />
T0<br />
L(ψ; λ(·))<br />
=<br />
=<br />
n<br />
∏<br />
i=1<br />
n<br />
∏<br />
i=1<br />
<br />
f(y i − xi; ψ) 1<br />
F(T − xi; ψ) n!<br />
<br />
1<br />
n!<br />
f(y i − x i; ψ)<br />
F(T − x i; ψ)<br />
n<br />
∏<br />
i=1<br />
n<br />
∏<br />
i=1<br />
<br />
[λ(xi)F(T − xi; ψ)] exp −<br />
T <br />
φ(xi) exp − φ(t)dt<br />
T0<br />
<br />
T<br />
T0<br />
<br />
λ(t)F(T − t; ψ)dt<br />
<br />
(8.7)<br />
Hvis vores model siger, at ψ ∈ Ψ og λ(·) kan variere frit, kan vi ifølge (8.6) også<br />
formulere dette som ψ ∈ Ψ, og φ(·) kan variere frit. Vi har derfor igen et tilfælde,<br />
hvor (N, X1, . . . , Xn ) er S-ancillær for ψ, og vi baserer inferensen om ψ på det <strong>første</strong><br />
led i (8.7). I litteraturen har man også forsøgt at bruge den fulde likelihoodfunktion<br />
(8.7), idet λ(t) er blevet modelleret som exp(a + bt) med a og b parametre, i hvilket<br />
tilfælde (N, X1, . . . , XN ) ikke længere er S-ancillær.<br />
Det er værdifuldt at give en nøjere overvejelse over forskellen mellem ikke at antage<br />
noget om λ(·) og for eksempel at antage en parametrisk form. Når vi siger, at vi ikke<br />
ved noget om λ(·), baserer vi inferensen om ψ på det <strong>første</strong> led i (8.7). Hvis vore model<br />
F(·; ψ) for inkubationstiden er “rigtig”, vil dette føre til en fornuftig viden om ψ. Når<br />
vi derimod antager noget om λ(·), får det andet led i (8.7) betydning på grund af (8.6).<br />
Hvis nu vores antagelse om λ(·) ikke er korrekt, vil dette altså føre til en eller anden<br />
form for fejl i vores udtalelse om ψ. Vi kan således fortolke det, at vi baserer inferensen<br />
om ψ på det <strong>første</strong> led i (8.7) som en “sikker” procedure.<br />
Baseret på amerikanske data og den betingede likelihoodfunktion har man estimeret<br />
inkubationstidsfordelingen til at være en Weibullfordeling med fordelingsfunktionen<br />
1 − exp{−(αt) β }, α = 0.07, β = 2.5,<br />
hvor t måles i år. Denne fordeling har median 12.3, og sandsynligheden for en inkubationstid<br />
på 7 år eller derunder er kun 0.155. <br />
8.3 G-sufficiens og G-ancillaritet<br />
I dette afsnit skal jeg bruge begrebet en gruppefrembragt familie af sandsynlighedsmål,<br />
og jeg beskriver derfor først dette generelt. Vi betragter et generelt udfaldsrum X ,<br />
hvopå vi har en mængde G af målelige transformationer<br />
g : X → X for g ∈ G.<br />
Vi antager, at G er en gruppe, hvilket betyder, at hvis g, h ∈ G , så vil den sammensatte<br />
afbildning gh,<br />
gh : x → g(h(x))
108 KAPITEL 8. SEPARAT INFERENS<br />
også tilhøre G, og for ethvert g ∈ G vil den inverse afbildning g −1 tilhøre G. Hvis P er<br />
en klasse af sandsynlighedsmål, siges P at være frembragt af gruppen G, hvis der for et<br />
P0 ∈ P gælder at<br />
P = {P0g | g ∈ G}.<br />
Hvis P0 har tæthed f(x) og χg(y) er Jacobianten<br />
vil P0g have tæthed f(y; g) givet ved<br />
<br />
<br />
χg(y) = <br />
<br />
∂y (y)<br />
<br />
<br />
<br />
, (8.8)<br />
∂g −1<br />
f(y; g) = χg(y) f(g −1 (y)). (8.9)<br />
En gruppe af transformationer siges at virke transitivt på X , hvis der for alle x1, x2 ∈ X<br />
findes et g ∈ G, så at g(x1) = x2.<br />
Lemma 8.12 Hvis G virket transitivt på X og P er gruppefrembragt, eksisterer der en<br />
konstant c(P) afhængig af P og en funktion h(x) uafhængig af P (d.v.s. kun afhængig<br />
af X og G) så at<br />
sup<br />
g<br />
f(x; g) = c(P)h(x).<br />
Bevis. Fra definitionen (8.8) af χg har vi, at χ gh(x) = χ h(g −1 (x))χg(x). Lad x0 være et<br />
fast punkt i X . Da G virker transitivt på X , kan vi for ethvert x ∈ X finde d = dx ∈ G,<br />
så at x = d −1 (x0). Fra (8.9) får vi<br />
og dermed<br />
f(x; g) = f(d −1 (x0); g) = χg(d −1 (x0)) f(g −1 (d −1 (x0)))<br />
= χ dg(x0)<br />
χ d(x0) f((dg)−1 (x0))<br />
= f(x0, dg)χ d(x0) −1 ,<br />
sup<br />
g<br />
f(x; g) = [sup<br />
g<br />
= [sup<br />
˜g<br />
f(x0, dg)]χ d(x0) −1<br />
f(x0, ˜g)]χ d(x0) −1<br />
= c(P)h(x). <br />
Definition 8.13 Hvis opsplitningen (8.1) holder, og der for ethvert s eksisterer en transitiv<br />
gruppe Gs af transformationer på Xs = {x|s(x) = s}, så at familien P s ψ =<br />
{ f(·|s; ψ, η)|ηvarierer} er frembragt af Gs for alle ψ, da siges S = s(X) at være Gsufficient<br />
for ψ. Omvendt hvis (8.2) holder og der eksisterer en transitiv gruppe G af<br />
transformationer på U = u(X), så at familien PU,ψ = {P (ψ,η)U | η varierer} er frembragt<br />
af G for alle ψ, da siges U = u(X) at være G-ancillær for ψ.
8.3. G-SUFFICIENS OG G-ANCILLARITET 109<br />
Observation 8.14 G sufficiens/ancillaritet er et specialtilfælde af L-sufficiens/ ancillaritet.<br />
<br />
Bevis. (i) Sufficiens:<br />
ifølge Lemma 8.10.<br />
(ii) Ancillaritet:<br />
sup<br />
η<br />
sup<br />
η<br />
f(x|s; ψ, η) = c(s, ψ)h(x),<br />
f(u; ψ, η) = c(ψ)h(u),<br />
ifølge Lemma 8.10. <br />
Eksempel 8.15.<br />
Lad X1, . . . , Xn være uafhængige Gammafordelte med tæthed<br />
hvor (β, λ) ∈ R2 + . Likelihoodfunktionen er<br />
L(λ, β) = βnλ<br />
Γ(λ) exp<br />
<br />
λ<br />
β λ<br />
Γ(λ) xλ−1 e −βx , x > 0,<br />
n<br />
∑<br />
1<br />
ln x i − β<br />
og dermed er profil–likelihoodfunktionen for λ,<br />
Hvis<br />
¯L(λ) = sup<br />
β<br />
n n<br />
∑ xi ∏<br />
1 1<br />
L(λ, β) = λnλ<br />
Γ(λ) exp λ <br />
∑ ln x i − n ln ¯x − n n<br />
∏ 1<br />
S = 1<br />
n<br />
n<br />
∑<br />
1<br />
n<br />
ln Xi − ln ¯X<br />
∏1 X<br />
= ln<br />
1/n <br />
i<br />
¯X<br />
1<br />
x i<br />
<br />
,<br />
1<br />
xi<br />
<br />
. (8.10)<br />
har en fordeling, der kun afhænger af λ, viser (8.10), at S er L-sufficient for λ. Da<br />
S = 1<br />
n ∑ <br />
1<br />
ln(βXi) − ln<br />
n<br />
n<br />
∑<br />
1<br />
<br />
(βXi) og βX i har en fordeling, der kun afhænger af λ, vil S have en fordeling, der kun afhænger<br />
af λ. Vi vil nu vise, at S også er G-sufficient for λ.<br />
Vi laver først en minimal sufficient reduktion til T = ( 1 n ∑n 1 X i, 1 n ∑n 1 ln X i). Denne<br />
står i entydig forbindelse med ( ¯X, S), og Baus’s sætning giver (opgave 4.3), at ¯X og S<br />
er uafhængige. Tætheden for ¯X er<br />
fn(x; λ, β) = (nβ)nλ<br />
Γ(nλ) xnλ−1 e −nβx . (8.11)<br />
Lad nu G = R+ være gruppen af transformationer på R+ givet ved, at for g ∈ R+<br />
gælder<br />
g : x → gx, x ∈ R+.
110 KAPITEL 8. SEPARAT INFERENS<br />
Hvis X har tæthed fn(x; λ, β) vil g(X) have tæthed fn(x; λ, β/g). D.v.s. at for fast λ er<br />
familien (8.11) med β > 0 frembragt af gruppen G. Da (8.11) er de betingede tætheder<br />
givet S, er S altså G-sufficient for λ.<br />
Bemærk at transformationerne af ¯X svarer til transformationerne<br />
(x1, . . . , xn) → (gx1, . . . , gxn)<br />
på det oprindelige udfaldsrum R n + , og at under disse transformationer er S = s(X1, . . . , Xn)<br />
invariant<br />
s(gx1, . . . , gxn) = s(x1, . . . , xn). <br />
Eksempel 8.16 (Proportional hazards).<br />
Dette er også et svært eksempel. Modellen, vi skal betragte, er meget populær i forbindelse<br />
med studier af overlevelsesdata. Eksemplet giver også en fornemmelse af,<br />
hvordan man kan opstille en likelihoodfunktion i mere komplicerede situationer end<br />
dem, I er vant til.<br />
Vi betragter n personer og observerer, hvornår de dør. Til person i er der knyttet<br />
et sæt forklarende variable z i ∈ R k (engelsk: covariates). Disse kan for eksempel sige,<br />
hvilken medicinsk behandling personen får, om det er en kvinde eller en mand og<br />
så videre. Fordelingen af dødstidspunktet beskrives ved en hazardfunktion h(t), der<br />
siger, hvad sandsynligheden er for at dø i det næste lille tidsrum, givet at man har<br />
overlevet op til nu. Vi kan skrive dette som<br />
P( dø i (t, t + δ) | levende til tid t) = h(t)δ + o(δ), (8.12)<br />
hvor o(δ)/δ → 0 for δ → 0. En anden måde at sige dette på er<br />
s+t <br />
P(dø efter tid s + t | levende til tid s) = exp − h(u)du . (8.13)<br />
s<br />
Tænk på en inhomogen Poissonproces!<br />
Lad os betragte m personer med hazards h1(t), . . . , hm(t). Lad T være den stokastiske<br />
variabel, der angiver tidspunktet for det <strong>første</strong> dødsfald og I nummeret på den<br />
person, der dør til tid T. Da hazardfunktionen har fortolkningen (8.12), får vi<br />
og som i (8.13) finder vi, at<br />
P(I = i | T = t) = hi(t) ∑ m j=1 h , (8.14)<br />
j(t)<br />
<br />
P(T > t) = exp −<br />
og dermed er tætheden for T givet ved<br />
m <br />
∑ hj(t) exp −<br />
j=1<br />
t<br />
0<br />
t<br />
0<br />
m <br />
∑ hj(u) du ,<br />
j=1<br />
m <br />
∑ hj(u) du , (8.15)<br />
j=1
8.3. G-SUFFICIENS OG G-ANCILLARITET 111<br />
Lad os nu vende tilbage til de n personer med kovariater z1, . . . , zn. Vi vil betragte<br />
modellen, hvor hazardfunktionen h i(t) for den i’te person er på formen<br />
h i(t) = λ(t) exp{β · z i},<br />
hvor λ(t) er en underliggende fælles intensitet og β er en vektor af parametre. Dette<br />
kaldes Proportional Hazards modellen. Vi observerer de stokastiske variable D1, . . . , Dn,<br />
som er dødstidspunkterne for de n personer. Ækvivalent hermed kan vi betragte T1, . . . , Tn,<br />
som er de n dødstidspunkter ordnet efter størrelse T1 < T2 < · · · < Tn, og R1, . . . , Rn<br />
hvor R i angiver, hvilken person, der dør på tidspunktet T i. Vi kan nu opstille likelihoodfunktionen<br />
som følgende produkt af betingede tætheder<br />
L(β, λ(·)) =<br />
=<br />
n<br />
∏<br />
i=1<br />
n<br />
∏<br />
i=1<br />
p(r i, t i|(r1, t1), . . . , (r i−1, t i−1))<br />
{p(r i | t i, (r1, t1), . . . , (r i−1, t i−1))p(t i | (r1, t1), . . . , (r i−1, t i−1))}.<br />
Lad nu I i = {R i, R i+1, . . . , Rn} = {1, . . . , n}\{R1, . . . , R i−1} være de personer, der er<br />
i live efter tidspunktet T i−1 (med T0 = 0) . Givet (r1, t1), . . . , (r i−1, t i−1) er situationen<br />
som i (8.14) og (8.15) med de m personer givet ved Ii og med nulpunktet for tidsaksen<br />
ved t i−1. Derfor får vi<br />
L(β, λ(·))<br />
=<br />
n<br />
∏<br />
i=1<br />
= exp<br />
λ(t i)e β·zr i<br />
∑j∈I λ(t i i)e β·zj n<br />
∑ β · zi ∏<br />
i i=1<br />
= exp <br />
∑i β · zi <br />
∑j∈I e i β·z ·<br />
j<br />
∏ n i=1<br />
<br />
∑ λ(ti)e j∈Ii β·z ti <br />
j exp −<br />
ti−1 <br />
λ(ti) exp −<br />
n<br />
∏<br />
i=1<br />
<br />
∑<br />
j∈I i<br />
e β·z j<br />
∑<br />
j∈I i<br />
∑<br />
j∈I i<br />
e β·z ti<br />
j λ(u)du<br />
ti−1 <br />
λ(t i) exp<br />
<br />
−<br />
= p(r1, . . . , rn; β) · p(t1, . . . , tn | r1, . . . , rn; β, λ(·)).<br />
∑<br />
j∈I i<br />
λ(u)e β·z <br />
j du<br />
<br />
e β·z <br />
ti<br />
j λ(u)du<br />
ti−1 Vi vil nu argumentere for at (R1, . . . , Rn ) er G-sufficient for β. Vi skal altså vise, at<br />
klassen af betingede fordelinger for (T1, . . . , Tn) givet (R1, . . . , Rn ) for fast værdi af β<br />
er en gruppefrembragt famile. Lad G være gruppen af alle voksende transformationer<br />
af tidsaksen (0, ∞). Hvis φ ∈ G, sendes T i over i φ(T i), og R i er uændret. Ved en sådan<br />
transformation føres en proportional hazard model over i en ny proportional hazard<br />
model med den samme værdi af β, men hvor den underliggende hazard λ(·) ændres<br />
til<br />
λ(φ −1 (t))φ ′ (φ −1 (t)).<br />
Hvis vores model siger, at λ(·) ∈ Λ, hvor Λ er mængden af alle funktioner på (0, ∞)<br />
med λ(t) > 0, har vi at<br />
Λ = {λ(φ −1 (·))φ ′ (φ −1 (·)) | φ ∈ G}.<br />
Vi har dermed vist, at vi har en gruppefrembragt familie, og (R1, . . . , Rn) er G-sufficient<br />
for inferens om β.
112 KAPITEL 8. SEPARAT INFERENS<br />
Vi kan også vise at (R1, . . . , Rn ) er L-sufficient. Hvis vi skriver λ(t) = ˜λ(φ(t))φ ′ (t),<br />
hvor φ ′ (·) > 0 og φ(t i) = i, vil supremum over alle mulige λ-funktioner være ækvivalent<br />
med supremum over alle mulige ˜λ-funktioner. Endvidere har vi<br />
λ(t i) = ˜λ(i)φ ′ (t i) og<br />
Dette giver at<br />
sup<br />
λ<br />
ti<br />
t i−1<br />
L(β, λ) p(r1, . . . , rn; β) −1<br />
= <br />
∏ φ ′ (ti) sup∏<br />
˜λ i<br />
λ(u)du =<br />
<br />
∑ Ii<br />
e βz j<br />
= h(t1, . . . , tn)g(r1, . . . , rn; β),<br />
ti<br />
t i−1<br />
˜λ(φ(u))φ ′ (u)du =<br />
<br />
˜λ(i) exp − ∑<br />
Ii<br />
i<br />
i−1<br />
˜λ(z)dz.<br />
e βz <br />
i<br />
j ˜λ(u)du<br />
i−1<br />
hvoraf følger at (R1, . . . , Rn) er L-sufficient. <br />
8.4 Itemanalysemodellen<br />
Modellen, der beskrives her, har selvstændig interesse og skal blot ses som et eksempel<br />
på separat inferens. Modellen anvendes ofte i forbindelse med psykologiske forsøg, hvor<br />
n personer udsættes for m tests (items). I skal læse dette som et bidrag til jeres<br />
katalog af statistiske modeller og som et eksempel på brugen af eksponentieller familier.<br />
Lad X ij, i = 1, . . . , n, j = 1, . . . , m, være uafhængige stokastiske variable, der antager<br />
værdierne {0, 1} med sandsynlighederne<br />
p ij = P(X ij = 1) = 1 − P(X ij = 0) = (1 + e −α i−β j) −1 ,<br />
hvor (α1, . . . , αn, β1, . . . , βm) varierer frit i R n+m . Da tætheden for en Bernoulli variabel<br />
er p x (1 − p) 1−x , bliver den simultane tæthed for alle X ij-erne<br />
∏ ij<br />
xij pij<br />
(1 − pij) 1 − pij =<br />
<br />
∏ ij<br />
<br />
1 + e α <br />
−1 n<br />
i+β j exp ∑ αixi. +<br />
i=1<br />
m <br />
∑ βjx .j .<br />
j=1<br />
Da x.m = x.. − x.1 − · · · − x.m−1 = ∑i x i. − x.1 − · · · − x.m−1 kan familien parametriseres<br />
ved ˜α i = α i + βm, i = 1, . . . , n, og ˜β j = β j − βm, j = 1, . . . , m − 1, der varierer frit i<br />
R n+m−1 . Man kan da indse, at vi har en regulær eksponentiel familie af orden m +<br />
n − 1.<br />
Denne model blev indført af G. Rasch, som gav den navnet itemanalysemodellen. I<br />
G. Rasch (1960): “Probabilistic models for some intelligence and attainment tests” og<br />
D.R. Cox (1970): “Analysis of binary data” er denne (og andre) model(ler) indgående<br />
beskrevet.<br />
Rasch indførte itemanalysemodellen til beskrivelse af de intelligenttests, som foretages<br />
ved sessionsbehandlingen. De foreliggende data kan repræsenteres på følgende
8.4. ITEMANALYSEMODELLEN 113<br />
måde:<br />
spørgsmål<br />
1 · · · j · · · m<br />
1 X11 · · · X 1j · · · X1m<br />
. . . .<br />
person i Xi1 · · · Xij · · · Xim . . . .<br />
n Xn1 · · · Xnj · · · Xnm<br />
I den (i, j)’te rubrik i dette skema registreres tallet 1, hvis den i’te person har besvaret<br />
intelligenstestets j’te spørgsmål korrekt og 0, hvis besvarelsen er forkert. Vi kan da<br />
antage, at<br />
X ij ∼ Bin(1, p ij).<br />
Lad δ i angive et mål for den i’te persons evne til at løse opgaver af den stillede type,<br />
således at en stor værdi af δi antyder, at personen er god til at løse disse opgaver. Lad<br />
ǫ j være en parameter, der angiver den j’te opgaves sværhedsgrad, således at en stor<br />
værdi af ǫ j angiver, at opgaven er vanskelig. Det er da rimeligt at antage, at sandsynligheden<br />
for at den i’te person besvarer det j’te spørgsmål korrekt, p ij, afhænger af δ i<br />
og ǫ j, altså er<br />
p ij = π(δ i, ǫ j).<br />
Hvis vi regner ‘evne’ og ‘sværhedsgrad’ på en skala fra 0 til ∞, og disse mål skal tolkes<br />
på den måde, at en fordobling af sværhedsgraden modsvares af en fordobling af evnen,<br />
får vi, at π kun afhænger af δ og ǫ gennem δ/ǫ<br />
π(δ, ǫ) = π(δ/ǫ).<br />
Desuden må det om π være rimeligt at antage, at<br />
<br />
1 v → ∞<br />
π(v) →<br />
0 v → 0<br />
Funktionen π, defineret ved<br />
π(v) = v<br />
1 + v<br />
opfylder dette. Rasch valgte med held at sætte<br />
Altså<br />
p ij = π(δ i/ǫ j) = δ i/ǫ j<br />
1 + δ i/ǫ j<br />
pij = (1 + ǫj/δi) −1 =<br />
.<br />
v ∈ R+,<br />
δ i > 0, ǫ j > 0.<br />
<br />
1 + e − ln δ −1 i+ln ǫj .<br />
Lad os nu betragte tilfældet med m = 2 og lad ˜β = β1 − β2 og ˜α i = αi + β2. Vi har<br />
da<br />
1<br />
P(Xi1 = 1) =<br />
1 + exp(−˜αi − ˜ β) og P(X 1<br />
i2 = 1) =<br />
1 + exp(−˜α i) .
114 KAPITEL 8. SEPARAT INFERENS<br />
Vi ser da, at ˜β karakteriserer forskellen mellem de to spørgsmål. Likelihoodligningerne<br />
bliver<br />
<br />
1 + e −˜α i− ˜β −1 + 1 + e −˜α i −1 i = 1, . . . , n<br />
og<br />
x i. =<br />
x.1 = ∑ i<br />
<br />
1 + e −˜α i− ˜β −1<br />
.<br />
Da x i. kun kan antage værdierne 0, 1 og 2, får vi<br />
og dermed ligningen<br />
⎧<br />
⎨<br />
ˆ˜αi =<br />
⎩<br />
−∞ hvis x i. = 0<br />
− 1 2 ˜β hvis x i. = 1<br />
∞ hvis x i. = 2,<br />
x.1 = n0 · 0 + n1(1 + e − 1 2 ˜β ) −1 + n2 · 1,<br />
hvor n1 er antallet af xi., der er lig med 1. Den sidste ligning giver<br />
− 1 ˆ˜β = ln<br />
2<br />
n1 − x.1 − n2<br />
x.1 − n2<br />
Da x.1 − n2 er antal observationspar (x i1, x i2) på formen (1,0) og n1 − x.1 − n2 er antal<br />
par på formen (0,1) , får vi fra store tals lov, at<br />
og dermed at<br />
x.1 − n2<br />
n<br />
n1 − x.1 − n2<br />
n<br />
1<br />
→<br />
n ∑ i<br />
→ 1<br />
n ∑ i<br />
− 1<br />
<br />
ˆ˜β → ln<br />
2<br />
e −˜α i<br />
<br />
.<br />
(1 + e −˜α i− ˜β )(1 + e −˜α i)<br />
e −˜α i− ˜β<br />
(1 + e −˜α i− ˜β )(1 + e −˜α i) ,<br />
e − ˜ β<br />
1<br />
<br />
= − ˜β.<br />
Estimatet ˆ˜β konvergerer altså mod den forkerte værdi som i eksempel 8.1.<br />
Hvis vi nu istedet betragter den betingede fordeling af Xi1 givet Xi. = Xi1 + Xi2 =<br />
xi., får vi tætheden ⎧⎪<br />
1(Xi1 = 0) hvis xi. = 0<br />
⎨<br />
e<br />
⎪⎩<br />
˜βX i1/(1 + e ˜β ) hvis xi. = 1<br />
1(Xi1 = 1) hvis xi. = 2<br />
Likelihoodfunktionen baseret på disse betingede tætheder bliver da<br />
e ˜βn 10(1 + e ˜β ) −n 01−n 10,<br />
hvor nij er antal par (xi1, xi2) på formen (i, j). Estimatet ˆ˜β c herfra bliver<br />
ˆ˜β c = ln n10<br />
<br />
1<br />
→ ln<br />
<br />
= ˜β,<br />
n01<br />
e − ˜β
8.4. ITEMANALYSEMODELLEN 115<br />
hvor vi har brugt samme argument som ovenfor. Vi ser altså, at vi nu har fået et estimat<br />
ˆ˜β der konvergerer (i sandsynlighed) mod den rigtige værdi ˜ β.<br />
Bemærk, at X i., i = 1, . . . , n, ikke er L-ancillær i modellen her (opgave 8.5). Til gengæld<br />
ved vi, at det er nødvendigt at betinge med X i., i = 1, . . . , n hvis vi ønsker at lave<br />
et similært test for β.<br />
Erling Andersen har vist (Journal of the Royal Statistical Society B32 (1970), 283-301;<br />
bog fra 1980: Discrete Statistical Models with Social Science Applications) at i en lang<br />
række situationer, der minder om den ovenstående, vil det betingede estimat konvergere<br />
mod den rigtige værdi, og estimatet vil være asymptotisk normalfordelt.<br />
Itemanalysemodellen ovenfor er et eksempel på det, der kaldes eksponentielle agensanalysemodeller<br />
(fra latin agere: handle, gøre; her: den handlende person eller ting<br />
i en sætning, eller det virkende stof). I disse betragter man en eksponentiel familie<br />
P = {P θ|θ ∈ Θ} med tætheder på formen a(θ)b(x) exp(θx). Variablene X ij følger en<br />
P θij -fordeling, og modellen specificerer, at<br />
θ ij = α i + β j<br />
i = 1, . . . , n, j = 1, . . . , m.<br />
<strong>Et</strong> andet eksempel end itemanalysemodellen er den multiplikative Poissonmodel, hvor P<br />
er klassen af Poissonfordelinger. Variablen X ij er således Poissonfordelt med parameter<br />
λ ij, og vi får en agensanalysemodel, hvis<br />
Den simultane tæthed for X ij- erne er<br />
<br />
∏ ij<br />
e −δ iǫ j <br />
∏ ij<br />
λ ij = δ iǫ j.<br />
<br />
1<br />
exp<br />
xij! ∑<br />
i<br />
x i. ln δ i + ∑ j<br />
x .j ln ǫ j<br />
Dette er en eksponentiel familie af orden m + n − 1. Hvis vi indfører parametrene<br />
kan vi skrive den simultane tæthed som<br />
[∏i xi.!][∏j x .j!]<br />
x..!<br />
1<br />
<br />
x..<br />
<br />
∏ij x ij!<br />
˜δ i = δ i/δ., ˜ǫ j = ǫ j/ǫ. og µ = δ.ǫ.<br />
x1., . . . , xn.<br />
˜δ x1· 1 · · · ˜ δ xn.<br />
n<br />
<br />
.<br />
<br />
x..<br />
˜ǫ<br />
x.1, . . . , x.n<br />
x·1<br />
1 · · · ˜ δ x.m µ<br />
m<br />
x..<br />
x..! e−µ .<br />
Dette svarer til den betingede tæthed for X ij -erne givet (X1., . . . , Xn., X.1, . . . , X.m) ganget<br />
med den betingede tæthed af (X1., . . . , Xn. ) givet X.. ganget med den betingede<br />
tæthed af (X.1, . . . , X.m) givet X.. gange tætheden for X.. . Bemærk, at (X1., . . . , Xn.)<br />
og (X.1, . . . , X.m) er uafhængige givet X.. . Det fremgår af denne opsplitning, at (X1.,<br />
. . . , Xn.) er S-ancillær for inferens om ( ˜ǫ1, . . . , ˜ǫm), og omvendt at (X.1, . . . , X.m) er Sancillær<br />
for inferens om ( ˜δ1, . . . , ˜δn) .<br />
Den multiplikative Poisson-model er navnlig udviklet af G. Rasch i forbindelse<br />
med den statistiske analyse af talmateriale fra Danmarks Pædagogiske Institut. Talmaterialet<br />
var indsamlet med henblik på at bedømme børns læsefærdigheder. Specielt<br />
interesserede man sig for, om læsehæmmede børn gjorde fremskridt ved forskellige<br />
former for specialundervisning. Man lod børnene læse flere prøver højt og registrerede
116 KAPITEL 8. SEPARAT INFERENS<br />
antal fejllæsninger. Højtlæsningsprøverne havde en stærkt varierende sværhedsgrad,<br />
og det var nærliggende at antage, at antallet af fejllæsninger ved et barns læsning af<br />
en prøve afhænger dels af barnets dygtighed, dels af prøvens sværhedsgrad. Følgende<br />
plan for indsamling af data er fra Rasch (1960):<br />
ORF ORU ORS OR5 OR6<br />
2 +<br />
3 + +<br />
klassetrin 4 + +<br />
5 + + +<br />
6 + + +<br />
7 + +<br />
Lad δ i være en parameter, der angiver det i’te barns standpunkt, således at en lille<br />
værdi af δ i er udtryk for, at barnet er dygtigt, og ǫ j en parameter, der angiver sværhedsgraden<br />
af den j’te prøve således at en stor værdi af ǫ j er udtryk for, at prøven er<br />
vanskelig. Lad X ij betegne antal fejllæsninger, det i’te barn gjorde forelagt prøve nr. j.<br />
Hvis prøven ikke er for kort og ikke for svær, er det nærliggende at antage, at Xij er<br />
Poissonfordelt med parameter<br />
λ ij = λ(δ i, ǫ j).<br />
Det forventede antal fejllæsninger af barn nr. i ved prøve nr. j er altså λ ij. Testes et<br />
dobbelt så dygtigt barn, δ = δ i/2, med en prøve, der er dobbelt så svær som prøve nr.<br />
j, ǫ = 2ǫ j, så må vi forvente samme antal fejllæsninger, altså at<br />
λ(δ, ǫ) = λ(δ/2, 2ǫ).<br />
Vi ser, at λ kun afhænger af δ og ǫ gennem δǫ<br />
λ(δ, ǫ) = λ(δǫ).<br />
Desuden må det om λ være rimeligt at antage, at<br />
<br />
∞ v → ∞<br />
λ(v) →<br />
0 v → 0,<br />
Funktionen<br />
λ(v) = v<br />
opfylder dette, og Rasch analyserede materialet med modellen<br />
λij = δ0ǫj.<br />
8.5 Afsluttende bemærkninger<br />
Hvad gør man, hvis man ikke kan separere inferensen som i (8.1) eller (8.2)?<br />
Som eksempel 8.1 og afsnit 8.4 viser, er det nødvendigt at gøre noget i de tilfælde,<br />
hvor antallet af nuisanceparametre stiger med antallet af observationer. I nogle tilfælde<br />
kan man bruge en partiel likelihood. Herved forstås, at den fulde likelihood funktion
8.6. OPGAVER 117<br />
kan skrives som et produkt L = ∏ m 1 L i, hvor hvert led L i selv er en likelihoodfunktion<br />
fra en marginal eller en betinget fordeling, og at vi så nøjes med at betragte en del af<br />
dette produkt ˜L = ∏i∈I L i, hvor I er en delmængde af {1, . . . , m}. Tilfældet m = 2<br />
svarer til (8.1) og (8.2). De led Li, i∈ I, som medtages, bør så kun afhænge af interesseparameteren<br />
ψ. Da Li selv er en likelihoodfunktion, vil typisk E ∂lnL i<br />
∂ψ = 0, og som vi<br />
skal se i noterne om asymptotik, er dette den grundlæggende egenskab, som fører til,<br />
at estimatet er konsistent: ˆψ → ψ, når antallet af observationer vokser.<br />
I andre tilfælde bruges en pseudolikelihoodfunktion eller en generel estimationsligning<br />
(ligningen ∂lnL/∂θ = 0 kaldes likelihood estimationsligningen). Disse begreber er ikke<br />
veldefinerede og har et ad hoc præg. Ideen er, at man vælger nogle funktioner, der<br />
kombinerer aspekter af data med interesseparameteren og valgt således, at det tilsvarende<br />
estimat bliver konsistent.<br />
Pseudo likelihoodfunktioner bruges også i andre sammenhænge, nemlig hvor den<br />
eksakte likelihoodfunktion er meget vanskelig at udregne. <strong>Et</strong> simpelt eksempel er følgende:<br />
lad X1, . . . , Xn antage værdier i {−1, +1} med simultan sandsynlighed<br />
P((X1, . . . , Xn) = (x1, . . . , xn)) =<br />
exp{−β ∑ n 1 x i(x i + x i+1)}<br />
∑(y 1,...,yn)∈{−1,+1} n exp{−β ∑n 1 y i(y i−1 + y i+1)}<br />
hvor x0 = xn+1 = 0. Nævneren her er svær at udregne (summen har 2 n led), og i stedet<br />
kan vi lave en pseudo likelihoodfunktion på formen<br />
n<br />
∏<br />
i=1<br />
P(X i = x i|x i−1, x i+1) =<br />
n<br />
e<br />
∏<br />
i=1<br />
−2βxi(x i−1+xi+1) e−2β(xi−1+x i+1) + e2β(xi−1+x i+1) .<br />
Hvis antallet af nuisance parametre er fast, har vi den generelle asymptotiske teori,<br />
der giver os approksimativt unbiased estimater og approksimative similære tests.<br />
En del af forskningen indenfor dette område i de senere år har gået på at forbedre 1.ordens<br />
resultaterne til højere orden, således at resultaterne typisk kan anvendes, selv<br />
om antallet af observationer ikke er særlig stort. Disse ting er især baseret på kvotientteststørrelsen<br />
og modifikationer af denne.<br />
8.6 Opgaver<br />
Opgave 8.1<br />
Lad X og Y være uafhængige stokastiske variable, så<br />
og<br />
hvor (a, p) varierer i<br />
Interesseparameteren er p.<br />
P(X = 0) = q, P(X = 1) = p, p + q = 1<br />
P(Y = −1) = a, p(Y = 0) = q, P(Y = 1) = p − a,<br />
Θ = {(a, p) | 0 ≤ a ≤ p, 1<br />
2<br />
≤ p ≤ 2<br />
3 }.
118 KAPITEL 8. SEPARAT INFERENS<br />
Vis, at X + Y 2 er S-sufficient med hensyn til p.<br />
Opgave 8.2<br />
Lad f være funktionen defineret på R2 ved<br />
⎧<br />
⎨ u<br />
f(u1, u2) =<br />
⎩<br />
λ1−1 1 u −λ2−λ1 −1<br />
2<br />
Γ(λ1)Γ(λ2)β λ1 1 βλ <br />
−1 β2<br />
exp (<br />
2 β2u2 β<br />
u1 + 1) u1 > 0, u2 > 0<br />
1<br />
2<br />
0 ellers,<br />
hvor (λ1, λ2, β1, β2) ∈ R 4 + .<br />
(i) Vis, at f er en tæthedsfunktion og vis, at familien af fordelinger med tæthedsfunktion<br />
f og (λ1, λ2, β1, β2) ∈ R4 + er en eksponentiel familie, og angiv ordenen af<br />
denne familie.<br />
(ii) Vis, at U1/U2 er S-sufficient for (λ1, β1) og U2 (eller U −1<br />
2 ) er S-sufficient for (λ2, β2).<br />
Opgave 8.3<br />
Lad X1, . . . , Xn være uafhængige og Np(ξ − Σ)-fordelte, hvor ξ ∈ R p og Σ er positiv<br />
definit p × p matrix.<br />
(i) Vis ved hjælp af Basu’s sætning, at maximum likelihood estimatet ¯X for ξ og<br />
maximum likelihood estimatet 1 n ∑n i=1 (X i − ¯X) ∗ (X i − ¯X) for Σ er stokastisk uafhængige.<br />
(ii) Vis, at ¯X ikke er S-ancillær for Σ.<br />
Opgave 8.4<br />
Lad (U, V) for α ∈ R, λ, σ 2 ∈ R+ have tæthed<br />
f(u, v) = vλ−1 − v<br />
e u2 u2λΓ(λ) 1<br />
√<br />
2πσ2 exp<br />
<br />
− 1<br />
2σ2(u − α)2<br />
<br />
, u ∈ R, v ∈ R+.<br />
(i) Vis, at U er N(α, σ 2 )-fordelt, og at den betingede fordeling for V givet U = u er<br />
en Γ(λ, 1/u 2 )-fordeling.<br />
(ii) Vis, at fordelingen af (U, V) er en exponentiel familie af orden 3.<br />
Lad (U1, V1), . . . , (Un, Vn) være uafhængige og identisk fordelte med tæthed f .<br />
(iii) Vis, at (U1, . . . , Un) er S-sufficient for (α, σ 2 ) og S-ancillær for λ.<br />
(iv) Vis, at n<br />
∑<br />
i=1<br />
er stokastisk uafhængige.<br />
U i,<br />
n<br />
∑ U<br />
i=1<br />
2 i<br />
<br />
og<br />
n<br />
∑ ln<br />
i=1<br />
Vi U2 i
8.6. OPGAVER 119<br />
(v) Vis, at maximum likelihood estimaterne ˆα, ˆσ 2 og ˆλ er stokastisk uafhængige.<br />
Opgave 8.5<br />
Læs afsnit 8.4. Betragt itemanalysemodellen med m = 2 og parametriseret ved ˜α i og<br />
˜β i.<br />
1) Vis, at vi har en regulær eksponentiel familie af orden n + 1.<br />
2) Godtgør formlen for ˆ˜α i på side 112.<br />
3) Vis præcist, ved at bruge den relevante <strong>udgave</strong> af store tals lov, at ˆ˜β → 2 ˜β.<br />
4) Vis, at X i·, i = 1, . . . , n, ikke er L-ancillær for β.<br />
Opgave 8.6<br />
Lad K være binomialfordelt med antalsparameter n og sandsynlighedsparameter p.<br />
Givet K = k lad X være binomialfordelt med antalsparameter n − k og sandsynlighedsparameter<br />
θ. Parametrene varierer i (p, θ) ∈ (0, 1) × (0, 1).<br />
1) Vis, at (X, K, n − K − X) er multinomialfordelt med antalsparameter n og sandsynlighedsparameter<br />
((1 − p)θ, p, (1 − p)(1 − θ)).<br />
2) Vis, at K er S-ancilær for inferens om θ.<br />
Denne opgave er en kommentar til Wilcoxons fortegnstest. I Wilcoxons fortegnstest<br />
vil vi teste for asymmetri i en fordeling. I beregningen af testet ser vi bort<br />
fra de observationer, der har værdien nul. I ovenstående kan vi tænke på p som<br />
sandsynligheden for at få nul og på θ som en parameter der måler assymmetrien<br />
i fordelingen. Vores interesseparameter er altså θ, og p er en nuisance parameter.
Kapitel 9<br />
Bayes <strong>statistik</strong><br />
Ved en statistisk analyse ønsker vi at udtale os om en ukendt parameter ud fra indsamlede<br />
data. Forbindelsen mellem de to dele, parameter og data, er gennem modellen,<br />
der beskriver, hvordan fordelingen af data er for en given værdi af parameteren.<br />
I den frekventielle <strong>statistik</strong>, som beskrevet i de tidligere kapitler, udtaler man sig om<br />
den ukendte parameter ud fra hvor godt modellen, med et givet valg af parameteren,<br />
beskriver data. Vi kan da lave et estimat af parameteren, eller et konfidensinterval, eller<br />
vi kan teste en hypotese om parameteren. De eneste sandsynligheder vi bruger, er<br />
dem, vi får fra modellen for et givet valg af parameteren. I Bayes <strong>statistik</strong> introducerer<br />
man et ekstra sæt sandsynligheder, idet man udstyrer parameteren med en fordeling<br />
uafhængig af data. Denne fordeling på parameteren kaldes prior fordelingen, og er altså<br />
til rådighed før data indsamles. Prior fordelingen kan vi tænke på som den information,<br />
vi har til rådighed om parameteren, før vi indsamler data. Når data er indsamlet,<br />
kan vi udtrykke den information, vi har om parameteren, ved den betingede fordeling<br />
af parameteren givet data.<br />
Frekventiel Bayes<br />
før data θ ukendt parameter θ har tæthed π(θ)<br />
efter data konfidensinterval for p(θ|data) ∝<br />
θ<br />
π(θ)L(θ)<br />
Observation 9.1 (Bayes formel) Lad prior fordelingen for θ have tæthed π(θ) med<br />
hensyn til et mål ξ på parameterrummet Θ, og lad, for en given parameterværdi θ,<br />
data X have tæthed p(x, θ) med hensyn til målet µ på X . Så vil fordelingen af θ givet<br />
X = x (kaldet posterior fordelingen) have tæthed<br />
p(θ|x) =<br />
<br />
π(θ)p(x, θ)<br />
Θ π( ˜θ)p(x, ˜θ)ξ(d ˜θ)<br />
med hensyn til ξ. <br />
Bevis. Da den simultane tæthed for (θ, X) er π(θ)p(x, θ) med hensyn til produktionsmålet<br />
ξ × µ er resultatet oplagt. <br />
Korollar 9.2.<br />
Inferens baseret på den betingede fordeling af θ givet X = x opfylder likelihoodprincippet.<br />
<br />
121
122 KAPITEL 9. BAYES STATISTIK<br />
Bevis. Antag at vi har to forskellige eksperimenter givet ved tæthederne p1(x, θ) og<br />
p2(y, θ). Hvis der for et givet x og y findes en konstant c, så at<br />
så har vi<br />
p1(x, θ) = cp2(y, θ) for alle θ ∈ Θ,<br />
π(θ)p1(x, θ)<br />
p1(θ|x) = <br />
Θ π( ˜ θ)p1(x, ˜ θ)ξ(d ˜ θ) =<br />
cπ(θ)p2(y, θ)<br />
c <br />
Θ π( ˜ θ)p2(y, ˜ θ)ξ(d ˜ = p2(θ|y).<br />
θ)<br />
Eksempel 9.3 (Binomialfordeling – non-informativ prior).<br />
Lad parameterrummet Θ = (0, 1), og for en given parameterværdi θ lad X være binomialfordelt,<br />
X ∼ Bin(n, θ). Som prior fordeling for θ vælger vi en betafordeling med<br />
tæthed<br />
π(θ) = 1<br />
B(a, b) θa−1 (1 − θ) b−1 .<br />
Posterior tætheden for θ givet X = x bliver da<br />
p(θ|x) = 1 θ<br />
c(x)<br />
a−1 (1 − θ) b−1 <br />
n<br />
B(a, b) x<br />
=<br />
<br />
θ x (1 − θ) n−x<br />
1<br />
B(a + x, b + n − x) θa+x−1 (1 − θ) b+n−x−1 ,<br />
som igen er en betatæthed.<br />
Hvis vi skulle lave et estimat for θ ud fra p(θ|x), kunne vi enten bruge middelværdien<br />
eller den værdi (MAP) af θ, hvor p(θ|x) er størst. Det giver<br />
og<br />
E(θ|x) =<br />
MAP =<br />
a + x<br />
a + b + n<br />
a − 1 + x<br />
a + b − 2 + n ,<br />
hvor specielt MAP = x n = ˆθ hvis a = b = 1. <br />
Eksempel 9.4 (Normalfordeling – non-informativ prior).<br />
Lad X1, · · · , Xn være uafhængige og identiske N(µ, 1) fordelte. Som prior fordeling<br />
for µ tager vi en N(µ0, σ 2 0 ) fordeling. Posterior tætheden for µ givet X = (X1, · · · , Xn)<br />
bliver da<br />
p(µ|x) = 1 exp(−(µ − µ0)<br />
c(x)<br />
2 /(2σ2 0 ))<br />
<br />
=<br />
<br />
n + 1<br />
σ 2 0<br />
2πσ 2 0<br />
exp(− ∑ n i=1 (X i − µ) 2 /2)<br />
√ 2π n<br />
2π exp<br />
⎛<br />
⎜<br />
⎝− n<br />
<br />
1 +<br />
2<br />
1<br />
nσ2 <br />
0<br />
⎛<br />
¯x +<br />
⎝µ −<br />
µ0<br />
nσ2 0<br />
1 + 1<br />
nσ2 ⎞<br />
⎠<br />
0<br />
2 ⎞<br />
⎟<br />
⎠ ,
det vil sige<br />
I dette tilfælde er<br />
hvor specielt MAP = ¯x hvis σ 2 0<br />
⎛<br />
µ|x ∼ N ⎝<br />
µ0 ¯x +<br />
nσ2 0<br />
1 + 1<br />
nσ2 0<br />
E(θ|x) = MAP =<br />
,<br />
1<br />
n 1 + 1<br />
nσ 2 0<br />
¯x + µ0<br />
nσ2 0<br />
1 + 1<br />
nσ2 ,<br />
0<br />
⎞<br />
⎠<br />
.<br />
123<br />
= ∞. <br />
Lad os nu ganske kort diskutere valget af prior fordeling. I visse situationer vil det<br />
være rimeligt at betragte θ som en stokastisk variabel. I en produktionssammenhæng<br />
kan θ for eksempel repræsentere den fraktion af de producerede enheder, der er defekte.<br />
Denne fraktion behøves ikke at være konstant, og det vil være rimeligt at betragte<br />
den som stokastisk. I denne situation kan vi bruge baggrundsviden til at vælge en realistisk<br />
prior fordeling. Denne situation rummer egentligt ikke noget nyt: vi har blot<br />
udvidet vores model med en realistisk beskrivelse af, hvordan θ fremkommer.<br />
De interessante situationer er, når θ repræsenterer en “konstant", for det eksperiment<br />
der foretages. Som et eksempel kan vi tænke på θ som lyshastigheden. Her må<br />
man betragte prior fordelingen som en måde, at angive en formodning om hvor θ ligger.<br />
En klassisk beskæftigelse indenfor Bayes <strong>statistik</strong> går ud på at finde prior fordelinger,<br />
der kan siges at repræsentere situationen, hvor vi ingen viden har om parameteren<br />
(“non informative prior"på engelsk). I eksempel 9.3 hvor Θ = (0, 1) og X er binomialfordelt,<br />
virker det rimeligt at sige, at den uniforme fordeling på Θ repræsenterer, at<br />
vi ingen viden har om Θ. Dette giver imidlertid anledning til en inkonsistent metode:<br />
hvis vi betragter ψ = θ2 istedet for θ, vil prior tætheden for ψ være π(ψ) = 1<br />
2 √ , og<br />
ψ<br />
ψ er således ikke uniformt fordelt. Vi skal altså vælge en skala, på hvilken vi siger, at<br />
parameteren er uniformt fordelt. <strong>Et</strong> foreslag er at transformere θ til en ny parameter<br />
ψ med den egenskab, at den forventede information i(ψ) er konstant. I eksempel 9.3<br />
med binomialfordelingen kommer det til at svare til, at vi bruger betafordelingen med<br />
a = b = 1 2 som prior fordeling for θ. I eksempel 9.4 med Θ = R er der ikke umiddelbart<br />
en “uniform"fordeling. Det nærmeste man kan komme er at erstatte prior fordelingen<br />
med et prior mål, som tages til at være lebesguemålet. Lebesguemålet giver lige stor<br />
masse til lige store intervaller og kan derfor siges at repræsentere situationen med ingen<br />
viden om parameteren. I eksemplet 9.4 vil det svare til at vi lader σ2 0 → ∞. Bemærk<br />
at selvom vi erstatter prior fordelingen med et generelt mål, er posterior fordelingen<br />
p(θ|x) stadig givet ved Bayes formel i Observation 9.1. Når prior fordelingen ikke er et<br />
sandsynlighedsmål, taler man i den engelsksprogede litteratur om en “improper prior<br />
distribution”.<br />
Jeg vil nu vise, at selvom det ovenstående kan se “uskyldigt ud”, kan det give<br />
anledning til problemer i det flerdimensionale tilfælde.<br />
Eksempel 9.5 (Normalfordelinger – non-informativ prior).<br />
Lad X1, · · · , Xn være uafhængige med X i ∼ N(µ i, 1). Som prior fordeling siger vi, at<br />
µ i-erne er uafhængige og bruger lebesguemålet til beskrivelse af vores prior viden om
124 KAPITEL 9. BAYES STATISTIK<br />
µ i. I posterior fordelingen er µ i-erne stadig uafhængige, og ifølge eksempel 9.4 har vi<br />
µ i|x i ∼ N(x i, 1). Vores interesseparameter er δ 2 = µ 2 1 + · · · + µ2 u. Vi har således, at<br />
og<br />
E(δ 2 n<br />
|x) = ∑<br />
i=1<br />
V(δ 2 n<br />
|x) = ∑<br />
i=1<br />
δ 2 |x ∼<br />
n<br />
∑ N(xi, 1)<br />
i=1<br />
2 ,<br />
(x 2 i + 1) = d2 + n, d 2 = x 2 1 + · · · + x2 n<br />
(4x 2 i + 2) = 4d2 + 2n.<br />
Hvis d 2 er af samme størrelsesorden eller mindre end n, vil spredningen være af størrelsesorden<br />
√ n. Hvis istedet vi betragter problemet fra en ikke-Bayes synsvinkel, kan<br />
vi benytte, at D 2 = X 2 1 + · · · + X2 n har middelværdi δ 2 + n og varians 4δ 2 + 2n. Vi<br />
vil derfor lave et konfidensinterval for δ 2 , der er centreret omkring d 2 − n og med en<br />
længde, der er af størrelsesorden √ n. Vi har således fået to helt forskellige resultater:<br />
henholdsvis et konfidensinterval centreret omkring d 2 − n med en længde af størrelsesorden<br />
√ n og en posterior fordeling centreret omkring d 2 + n med det meste af<br />
sandsynlighedsmassen i et interval af størrelsesorden √ n. <br />
Eksempel 9.6 (Normalfordelingen – informativ prior).<br />
Lad X1, . . . , Xn være uafhængige med Xi ∼ N(µi, 1). Maximum likelihood estimatet<br />
for vektoren µ = (µ1, . . . , µn) er ˆµ = (X1, . . . , Xn). Vi vil måle kvaliteten af dette estimat<br />
ved mean squared error (MSE) (forklaring for dette kvalitetsmål følger nedenfor),<br />
MSE( ˆµ) = E<br />
n<br />
∑<br />
i=1<br />
( ˆµ i − µ i) 2 = n.<br />
Vi har en formodning om, at µ i som funktion af i er langsomt varierende, det vil sige<br />
at µ i+1 − µ i er lille. Vi vil repræsentere denne formodning gennem en prior fordeling<br />
for vektoren µ. Vi kan gøre dette ved følgende beskrivelse<br />
µ1 ∼ N(0, σ 2 0 ), µ i+1 = µ i + ǫ i+1, ǫ i+1 ∼ N(0, δ 2 ),<br />
hvor µ1, ǫ2, . . . , ǫn er uafhængige. En lille værdi af δ 2 svarer til, at µ i+1 − µ i er lille. Lad<br />
Σ være n × n matriksen<br />
så at<br />
Σ ij = σ0 + (i − 1)δ 2 , j ≥ i + 1, Σ ji = Σ ij, j ≥ i,<br />
= 1<br />
c(x) exp<br />
µ ∼ Nn(0, Σ).<br />
Kombinerer vi X|µ ∼ Nn(µ, I) med µ ∼ Nn(0, Σ), finder vi posterior fordelingen<br />
p(µ|x) = 1<br />
c(x) exp<br />
<br />
− 1<br />
2 (x − µ)(x − µ)T − 1<br />
2 µΣ−1 µ T<br />
<br />
<br />
,<br />
<br />
− 1<br />
2 µ(I + Σ−1 )µ T + xµ T − 1<br />
2 xxT
hvoraf det følger, at<br />
Specielt har vi, at<br />
µ|x ∼ Nn<br />
<br />
x(I + Σ −1 ) −1 , (I + Σ −1 ) −1<br />
.<br />
E(µ|x) = x(I + Σ −1 ) −1 ,<br />
og vi definerer et nyt estimat (bayes estimat) ved<br />
ˆµ b = X(I + Σ −1 ) −1 .<br />
Lad os udregne mean squared error for dette estimat:<br />
MSE( ˆµ b) = E<br />
n<br />
∑<br />
i=1<br />
( ˆµ bi − µ i) 2 = E( ˆµ b − µ)( ˆµ b − µ) T<br />
= E([(X − µ)(I + Σ −1 ) −1 + µ((I + Σ −1 ) −1 − I)] ∗∗ )<br />
= E([(X − µ)(I + Σ −1 ) −1 ] ∗∗ ) + [µ((I + Σ −1 ) −1 − I)] ∗∗<br />
= Tr((I + Σ −1 ) −1 (I + Σ −1 ) −1 ) + [µ((I + Σ −1 ) −1 − I)] ∗∗ ,<br />
hvor v∗∗ = vvT . I figuren nedenfor har jeg lavet et plot af MSE( ˆµ b) som funktion af δ2 og med n = 20, σ2 0 = 1, og med<br />
⎧<br />
⎨ −1 i ≤ 5<br />
µ i = −1 + 0.2(i − 5) 6 ≤ i ≤ 15<br />
⎩<br />
1 i > 15.<br />
(9.1)<br />
Desuden har jeg lavet et plot af MSE( ˆµ b) som funktion af γ, hvor δ 2 = 0.1, σ 2 0<br />
125<br />
= 1,<br />
og µ er som i (9.1) multipliceret med γ. Værdierne i figuren skal sammenlignes med<br />
MSE( ˆµ) = n = 20. Som det ses af figuren, kan vi få en væsentlig mindre mean squared<br />
error ved at bruge estimatet ˆµ b fremfor maksimum likelihood estimatet ˆµ.<br />
Hvorfor er mean squared error et relevant mål? Lad os betragte en regressionsmodel<br />
Y i ∼ N(z iµ T , σ 2 ).<br />
Vi ønsker at estimere µ, og i modellen ovenfor svarer X til maksimum likelihood estimatet<br />
af µ (vi har ovenfor sagt at Var(X) = I, men vi kunne lave de samme regnerier<br />
med en generel varians). Når vi har fundet et estimat µ est , ønsker vi at bruge estimatet<br />
til fremtidig prediktion af y-værdier fra nye z-værdier. Prediktionsfejlen er<br />
fejl = znyµ T<br />
est − znyµ T = zny(µ est − µ) T .<br />
Vi kan skalere z-værdierne, så at en typisk z-værdi har længde 1. Den største fejl får vi,<br />
når z er proportional med µ est − µ. Det vil sige, at den typiske største fejl er |µ est − µ|<br />
og<br />
E(typisk fejl) 2 = E|µ est − µ| 2 = E<br />
som er mean squared error af µ est .<br />
n<br />
∑((µ<br />
est )i − µi)<br />
i=1<br />
2 ,
126 KAPITEL 9. BAYES STATISTIK<br />
MSE<br />
5 10 15<br />
MSE<br />
0 10 20 30 40 50<br />
-6 -4 -2 0 2 4<br />
2*log(delta)<br />
0 2 4 6<br />
gamma<br />
I dette eksempel kan vi tænke på prior fordelingen µ ∼ Nn(0, Σ) som en bekvem<br />
måde at indføre “glathedsegenskaber"ved µ. Med glathed mener vi, at µ i varierer langsomt<br />
som funktion af i. Man taler i denne sammenhæng om ˆµ b som en “regulariseret"løsning.<br />
Bemærk også at når vi erstatter ˆµ med ˆµ b, så lægger vi mindre vægt på<br />
unbiasedness og lægger istedet vægt på et mål som mean squared error. <br />
Eksempel 9.7 (Kausal viden repræsenteret ved sandsynligheder i et netværk).<br />
I dette eksempel er de “ukendte parametre"tilstande, som enten er 1 eller 0 (eksempel:<br />
1: man har lungekræft; 0: man har ikke lungekræft). Vi repræsenterer vores viden<br />
ved hjælp af sandsynligheder, som er meget bekvemt, når vi skal opdatere vores viden<br />
på basis af nye data. Følgende eksempel er taget fra Lauritzen og Spiegelhalter<br />
(J.R.Statist.Soc.B, 50, 157-224, 1988). I eksemplet har vi følgende variable:<br />
A: besøg i Asien R: Ryger<br />
T: Tuberkulose L: Lungekræft<br />
B: Bronkitis E: Enten tuberkulose eller lungekræft<br />
G: positiv røntGenbillede S: Stakåndet
Forbindelsen mellem variablene kan angives grafisk:<br />
A R<br />
T L B<br />
E S<br />
G<br />
En person ankommer til hospitalet med stakåndethed (S = 1), og vi ønsker at stille en<br />
diagnose, det vil sige, at vi vil gerne angive værdien af de ukendte variable (T, L, B).<br />
Det er oplyst, at patienten har været i Asien fornylig. Figuren ovenfor skal angive, at<br />
vi beskriver den simultane prior sandsynlighed af alle variable ved<br />
p(a, r, t, l, b, e, s, g) =p(a) p(r) p(t|a) p(l|r) p(b|r) p(e|t, l) p(s|b, e) p(g|e).<br />
For det aktuelle eksempel vælger vi<br />
P(A = 1) = 0.01 P(R = 1) = 0.50<br />
P(T = 1|A = 0) = 0.01 P(L = 1|R = 0) = 0.01<br />
P(T = 1|A = 1) = 0.05 P(L = 1|R = 1) = 0.10<br />
P(B = 1|R = 0) = 0.30<br />
P(B = 1|R = 1) = 0.60<br />
P(E = 1|T = 0, L = 0) = 0 P(S = 1|E = 0, B = 0) = 0.10<br />
P(E = 1|T = 0, L = 1) = 1 P(S = 1|E = 0, B = 1) = 0.80<br />
P(E = 1|T = 1, L = 0) = 1 P(S = 1|E = 1, B = 0) = 0.70<br />
P(E = 1|T = 1, L = 1) = 1 P(S = 1|E = 1, B = 1) = 0.90<br />
P(G = 1|E = 0) = 0.05<br />
P(G = 1|E = 1) = 0.98<br />
En beregning viser, at med disse angivelser er<br />
P(T = 1) = 0.0104,<br />
P(L = 1) = 0.055,<br />
P(B = 1) = 0.45.<br />
Vores data er S = 1 og A = 1. Vi ønsker derfor de betingede sandsynligheder givet S<br />
og A. Disse fås fra (9.7) ved at indsætte a = 1 og s = 1 og normalisere, så at sandsynlighederne<br />
summer sammen til 1. Med andre ord<br />
P(T = 1|A = 1, S = 1) = ∑r,l,b,e,g p(1, r, 1, l, b, e, 1, g)<br />
∑t,r,l,b,e,g p(1, r, t, l, b, e, 1, g) .<br />
127
128 KAPITEL 9. BAYES STATISTIK<br />
Vi får efter en udregning<br />
P(T = 1|A = 1, S = 1) = 0.088,<br />
P(L = 1|A = 1, S = 1) = 0.100, (9.2)<br />
P(B = 1|A = 1, S = 1) = 0.811.<br />
Hvis vi nu laver en røntgenundersøgelse vil vores sandsynligheder blive opdateret<br />
som følger: hvis resultatet af røntgenundersøgelsen er G = 0<br />
og hvis resultatet er G = 1<br />
P(T = 1|A = 1, S = 1, G = 0) = 0.002,<br />
P(L = 1|A = 1, S = 1, G = 0) = 0.003,<br />
P(B = 1|A = 1, S = 1, G = 0) = 0.863,<br />
P(T = 1|A = 1, S = 1, G = 1) = 0.392,<br />
P(L = 1|A = 1, S = 1, G = 1) = 0.444,<br />
P(B = 1|A = 1, S = 1, G = 1) = 0.629.<br />
Sammenligner vi med (9.2), ser vi, at vores viden ændrer sig kraftigt, når vi får resultatet<br />
af røntgenundersøgelsen. Lad os som et eksempel sige at resultatet af røntgenundersøgelsen<br />
er G = 0 , og at vi også får oplyst, at patienten er ikke-ryger (R = 0). I<br />
dette tilfælde ender vi ud med sandsynlighederne<br />
P(T = 1|A = 1, S = 1, G = 0, R = 0) = 0.003,<br />
P(L = 1|A = 1, S = 1, G = 0, R = 0) = 0.0005,<br />
P(B = 1|A = 1, S = 1, G = 0, R = 0) = 0.773.
Kapitel 10<br />
Referencer<br />
Exponentielle familier af orden 1 blev introduceret af Fisher (1934) som de eneste familier<br />
(under regularitetsbetingelser), for hvilke der eksisterer en 1-dimensinal sufficient<br />
observator. Resultaterne blev generaliseret til mere end én dimension af Darmois<br />
(1935), Koopman (1936) og Pitman (1936). En generel gennemgang af teorien for eksponentielle<br />
familier kan findes i Barndorff-Nielsen (1978). Komplethed af en observator<br />
blev introduceret af Lehmann og Scheffé (1950).<br />
Sufficiente observatorer går tilbage til Fisher (1920), hvori også findes faktoriseringssætningen.<br />
Neyman (1935) genopdagede denne sætning, og Halmos og Savage<br />
(1949) udvidede sætningen til generelle dominerede familier. Teorien for minimal sufficiente<br />
observatorer blev startet af Lehmann og Scheffé (1950) og Dynkin (1951). Yderligere<br />
generalisationer blev opnået af Bahadur (1954).<br />
Ancillære observatorer går også tilbage til Fisher (1934, 1935). Basu’s sætning findes<br />
i Basu (1955, 1958).<br />
Fisher (1920, 1922, 1925) introducerede likelihoodfunktionen og studerede maksimum<br />
likelihood estimation. En gennemgang af Fisher’s ideer kan findes i hans 3 bøger<br />
Fisher (1925, 1935, 1956).<br />
Begrebet en unbiased estimator går helt tilbage til Gauss (1821) i forbindelse med<br />
arbejdet omkring “mindste kvadraters metode” (engelsk: least squares). Aitken and<br />
Silverstone (1942) var de <strong>første</strong>, som fandt en UMVU-estimator. Forbindelsen mellem<br />
UMVU-estimatorer og sufficiente observatorer blev studeret i specialtilfælde af Halmos<br />
(1946) og Kolmogorov (1950), og generelt i Rao (1947). Forbindelsen til komplette<br />
observatorer går tilbage til Lehmann og Scheffé (1950, 1955, 1956).<br />
Den <strong>første</strong> variansulighed synes at være Fréchet (1943). Udvidelser er givet i Darmois<br />
(1945), Rao (1945) og Cramér (1946).<br />
Tilløb til hypotesetestning findes helt tilbage i Arbuthnot (1710), Bernoulli (1734),<br />
Laplace (1773), Gavarret (1840), Lexis (1875, 1877) og Edgeworth (1885). Systematisk<br />
brug af hypotesetestning skyldes Karl Pearson, se bl.a. Pearson (1900). Neyman og<br />
Pearson (1928) indførte fejl af <strong>første</strong> og anden art og foreslog kvotienttestet som en generel<br />
testmetode. Teorien for uniformt stærkeste tests blev givet i Neyman og Pearson<br />
(1933).<br />
Konfidensintervaller (men dog ikke forklaret som sådanne) optræder i Laplace<br />
(1812), Gauss (1816), Fourier (1826) og Lexis (1875). En korrekt interpretation synes<br />
først givet i Wilson (1927).<br />
129
130 KAPITEL 10. REFERENCER<br />
L-sufficiens er defineret i Rémon (1984), hvor det vises, at S-sufficiens og G-sufficiens<br />
medfører L-sufficiens. S-sufficiens og S-ancillaritet er studeret i Fraser (1956), Sverdrup<br />
(1965) og Sandved (1967), og G-sufficiens er studeret i Barnard (1963). S- og Gsufficiens,<br />
henholdsvis ancillaritet, dækker ikke alle de situationer, hvor separat inferens<br />
anvendes. <strong>Et</strong> klassisk eksempel er Fisher’s eksakte test i en 2×2 tabel. For en<br />
generel diskussion af disse ting se Barndorff-Nielsen (1978). Som allerede nævnt er<br />
visse betingede test studeret i Andersen (1970).<br />
En generel reference til den teori, som er gennemgået i disse noter, er Lehman (1983,<br />
1986). Bogen af Cox og Hinkley (1983) er en mindre matematisk <strong>udgave</strong> af det samme<br />
teorikompleks.<br />
Aitken, A.C. and Silverstone, H. (1942). On the estimation of statistical parameters.<br />
Proc. Roy. Soc. Edinb. (A) 61, 186-194.<br />
Andersen, E.B. (1970). Sufficiency and exponential family for discrete sample spaces. J.<br />
Am. Stat. Assoc. 65, 1248-1255.<br />
Arbuthnot, J. (1710). An argument for Divine Providence, taken from the constant regularityobserved<br />
in the births of both sexes. Phil. Trans. 27, 1986-190.<br />
Bahadur, R.R. (1954). Sufficiency and statistical decision functions. Ann. Math. Statist.<br />
25, 423-462.<br />
Barnard, G.A. (1963). Some logical aspects of the fiducial argument. J. Roy. Statist. Soc.<br />
B 25, 111-114.<br />
Barndorff-Nielsen, O.E. (1978). Information end Exponential Families in Statistical theory.<br />
Wiley, New York.<br />
Basu, D. (1955). On statistics independent of a complete sufficient statistic. Sankhya 15,<br />
377-380.<br />
Basu, D. (1958). On statistics independent of sufficient statistics. Sankhya 20, 223-226.<br />
Bernoulli, D. (1734). Quelle est la cause physique de l’inclination des planètes . . . Recueil<br />
des Pièces qui ont Remporté le Prix de l’Académie Royale des Sciences 3, 95-122.<br />
Birnbaum, A. (1962). On the foundations of statistical inference. (With discussion). J.<br />
Amer. Statist. Ass. 57, 269-326.<br />
Cox, D.R. and Hinkley, D.V. (1974). Theoretical Statistics. Chapman and Hall, London.<br />
Cramér, H. (1946). A contribution to the theory of statistical estimation. Skand. Akt.<br />
Tidskr. 29, 85.94.<br />
Darmois, G. (1935). Sur les lois de probabilité à estimation exhaustive. C. R. Acad. Sci.<br />
Paris 260, 1265-1266.<br />
Darmois, G. (1945). Sur les lois limites de la dispersion de certaines estimations. Rev.<br />
Inst. Int. Statist. 13, 9-15.
Dynkin, E.B. (1951). Necessary and sufficent statistics for a family of probability distributions.<br />
English translation in Select. Transl. Math. Statist. Prob. 1, 23-41.<br />
Edgeworth, F.Y. (1885). Methods of Statistics. Jubilee volume of the Statist. Soc., E. Stanford,<br />
London.<br />
Fisher, R.A. (1920). A mathematical examination of the methods of determining the accuracy<br />
of an observation by the mean error and by the mean square error. Montly<br />
Notices Roy. Astron. Soc. 80, 758-770.<br />
Fisher, R.A. (1922). On the mathematical foundations of theoretical statistics. Phil. Trans.<br />
Roy. Soc. Ser A 222, 309-368.<br />
Fisher, R. A. (1925a). Theory of statistical estimation. Proc. Cambridge. Phil. Soc. 22, 700-<br />
725.<br />
Fisher, R.A. (1925b). Statistical Methods for Research Workers, 1st ed. (14th. ed. 1970). Oliver<br />
and Boyd, Edinburgh.<br />
Fisher, R.A. (1934). Two new properties of mathematical likelihood. Proc. R., Soc. A 114,<br />
285-307.<br />
Fisher, R.A. (1935). The Design of Experiments, 1st ed. (8th ed., 1966). Oliver and Boyd,<br />
Edinburgh.<br />
Fisher, R.A. (1956). Statistical Methods and Scientific Inference. Oliver and Boyd, Edinburgh<br />
(3rd ed., Hafner, New York, 1973).<br />
Fourier, J.B.J. (1826). Recherches Statistiques sur la Ville de Paris et le Département de<br />
la Seine, Vol. 3.<br />
Fraser, D.A.S. (1956). Sufficient statistics with nuisance parameters. Ann. Math. Statist.<br />
27, 848-842.<br />
Fréchet, M. (1943). Sur l’extension de certaines evaluations statistiques de petits echantillons.<br />
Rev. Int. Statist. 11 , 182-205.<br />
Gauss, C.F. (1816). Bestimmung der Genauigkeit der Beobachtungen. Z. Astron. und<br />
Verw. Wiss 1. (Reprinted in Gauss’ collected works, Vol 4. pp. 109-119).<br />
Gauss, W.F. (1821). In Gauss’ Work (1803-1826) on the Theory of least Squares. Trans.<br />
H.F. Trotter. Statist. Techniques Res. Group. Tech. Rep. No. 5. Princeton University.<br />
Princeton. (Published Translations of these papers are available in French<br />
and German).<br />
Gavarret, J. (1840). Principles Génèraux de Statistique Médicale. Paris.<br />
Halmos, P.R. (1946). The theory of unbiased estimation. Ann. Math. Statist. 17, 34-43.<br />
Halmos, P.R. and Savage, L.J. (1949). Application of the Radon-Nikodym theorem to<br />
the theory of sufficient statistics. Ann. Math. Statist. 20, 225-241.<br />
131
132 KAPITEL 10. REFERENCER<br />
Kolmogorov, A.N. (1950). Unbiased estimates. Izvestia Akad. Nauk SSSR, Ser. Math. 14,<br />
303-326. (Amer. Math. Soc. Transl. No. 98).<br />
Koopman. B.O. (1936). On distributions admitting a sufficient statistic. Trans. Amer.<br />
Math. Soc. 39, 399-409.<br />
Laplace, P.S. (1773). Mémoire sur l’inclinaison moyenne des orbites de comètes. Mem.<br />
Acad. Roy. Sci. Paris 7 (1776), 503-524.<br />
Laplace, P.S. (1812). Théorie Analytique des Probabilités, Paris. (The 3rd edition of 1820 is<br />
reprinted as Vol. 7 of Laplace’s collected works).<br />
Lehmann, E.L. (1983). Theory of Point Estimation. John Wiley & Sons, New York.<br />
Lehmann, E.L. (1986). Testing Statistical Hypotheses. John Wiley & Sons, New York.<br />
Lehmann, E.L. and Scheffé, H. (1950, 1955, 1956). Completeness, similar regions and<br />
unbiased estimation. Sankhya 10 , 305-340; 15, 219-236. (Correction 17, 250).<br />
Lexis, W. (1875). Einleitung in die Theorie der Bevölkerungs<strong>statistik</strong>. Strassburg.<br />
Lexis, W. (1877). Zur Theorie der Massenerscheinungen in der Menschlichen Gesellschaft.<br />
Freiburg.<br />
Neymann, J. (1935). Sur un teorema concernente le cosidette statistiche sufficienti. Giorn.<br />
Ist. Ital. Att. 6 , 320-334.<br />
Neyman, J. and Pearson, E.S. (1928). On the use and interpretation of certain test<br />
criteria. Biometrika 20A, 175-240, 263-294.<br />
Neyman, J. and Pearson, E.S. (1933). On the problem of the most efficient tests of statistical<br />
hypotheses. Phil. Trans. Roy. Ser. A 231, 289-337.<br />
Pearson, K. (1900). On the criterion that a given system of diviations from the probable<br />
in the case of a correlated system of variables is such that it can be reasonably<br />
supposed to have arisen from random sampling. Phil. Mag. 5:50, 157-172.<br />
Pitman, E.J.G. (1936). Sufficient statistics and intrinsic accuracy. Proc. Camb. Phil. Soc.<br />
32, 567-579.<br />
Rao, C.R. (1945). Information and accuracy attainable in the estimation of statistical<br />
parameters. Bull. Calc. Math. Soc. 37 , 81-91.<br />
Rao, C.R. (1947). Minimum variance and the estimation of several parameters. Proc.<br />
Camb. Phil Soc. 43, 280-283.<br />
Rémon, M. (1984). On a concept of partial sufficiency: L-sufficiency. Internat. Statist.<br />
Rev. 52, 127-136.<br />
Sandved, E. (1967). A principle for conditioning on an ancillary statistic. Skand. Aktuar.<br />
50, 29-47.
Sverdrup, E. (1966). The present state of the decision theory and the Neyman-Pearson<br />
theory. Rev. Int. Stat. Inst. 34 , 309-333.<br />
Wilson, E.B. (1927). Probable inference, the law of succession, and statistical inference.<br />
J. Amer. Statist. Asssoc. 22, 209-212.<br />
133
Kapitel 11<br />
Notation og regneregler<br />
Dette kapitel er tænkt som et opslagssted, for det meste med resultater i kender fra<br />
tidligere kurser. I kan selv fylde på når i undervejs støder på nyttige formler.<br />
11.1 notation<br />
Det basale udfaldsrum hedder ofte X , og X er den stokastiske variabel svarende til<br />
identitetsafbildningen på X .<br />
Alle vektorer er rækkevektorer, og den transponerede vektor x ∗ er derfor en søjlevektor.<br />
Hvis f er en afbildning fra R m ind i R k er<br />
og<br />
∂ f<br />
∂x∗(x) =<br />
∂ f ∗<br />
(x) =<br />
∂x<br />
⎛<br />
⎜<br />
⎝<br />
⎛<br />
⎜<br />
⎝<br />
∂ f 1<br />
∂x 1 (x) · · ·<br />
∂ f 1<br />
∂xm<br />
.<br />
(x) · · ·<br />
∂ f 1<br />
∂x 1 (x) · · ·<br />
.<br />
∂ f k<br />
∂x 1 (x) · · ·<br />
11.2 Transformationssætningen<br />
∂ f k<br />
∂x 1 (x)<br />
.<br />
∂ f k<br />
∂xm (x)<br />
∂ f 1<br />
∂xm (x)<br />
.<br />
∂ f k<br />
∂xm (x)<br />
Lad X være en stokastisk variabel i Rk med tæthed f(·) m.h.t. Lebesguemålet, og lad<br />
h(·) være en afbildning fra Rk ind i Rk . Vi definere Y = h(X) og ønsker at finde tætheden<br />
g(·) for Y. Lad<br />
<br />
<br />
J(x) = <br />
∂h<br />
<br />
∗<br />
∂x (x)<br />
<br />
<br />
<br />
,<br />
hvor | · | er absolutværdien af determinanten. Antag at der eksisterer åbne disjunkte<br />
mængder B1, . . . , Bm så at h er en entydig afbildning med J(x) > 0 på hver af B i,<br />
135<br />
⎞<br />
⎟<br />
⎠ ,<br />
⎞<br />
⎟<br />
⎠ .
136 KAPITEL 11. NOTATION OG REGNEREGLER<br />
i = 1, . . . , m, og at P(X ∈ ∪ iB i) = 1. Så gælder der<br />
g(y) = ∑<br />
x:h(x)=y<br />
f(x)J(x) −1 .<br />
Hvis h er en entydig afbildning på Rk , så at m = 1, får vi den mere velkendte formel<br />
g(y) = f(x)J(x) −1 <br />
= f h −1 <br />
(y) J h −1 −1 (y) .<br />
11.3 Betinget middelværdi<br />
Lad det basale udfaldsrum være X med sigma-algebra A. Lad (Y, B) være et andet<br />
målrum, og lad T = t(X) med t : X → Y en målelig afbildning. Den betingede<br />
middelværdi E( f(X)|T), hvor f : X → R er en målelig afbildning, er en stokastisk<br />
variabel, altså en funktion på X , E(X|Y) = E(X|Y)(x), som er σ(T)-målelig og som<br />
opfylder at E(1B(T)E( f(X)|T)) = E(1B(t(X)) f(X)) for alle B ∈ B. Da E( f(X)|T) er<br />
σ(T)-målelig eksisterer der ifølge JHJ 6.4 en funktion ϕ : Y → R så at<br />
E( f(X)|T)(x) = ϕ(t(x))).<br />
Vi betegner ϕ(t) med E( f(X)|t = t). Bemærk at E( f(X)|T = t) kun er bestemt op til<br />
en PT nulmængde.<br />
Hvis PT (·, ·) er en regulær betinget sandsynlighed givet T, så gælder der (se (11.1))<br />
<br />
f(x)P T (dx|t)<br />
X<br />
er en betinget middelværdi givet T. Med andre ord: en <strong>udgave</strong> af E( f(X)|t = t) er<br />
givet ved<br />
<br />
E( f(X)|t = t) = f(x)P T (dx|t).<br />
Dette læses som at den betingede middelværdi er middelværdien i den betingede fordeling.<br />
Jeg minder om at vi har regnereglen<br />
E( f(X, T)|T = t) = E( f(X, t)|T = t),<br />
hvilket læses på den måde at højresiden er en version af venstresiden. Bemærk at vi<br />
fra diskussionen tilsidst i afsnit 3.1 har at<br />
<br />
f(x, t(x))P T <br />
(dx|t) = f(x, t)P T (dx|t)<br />
hvis Y er et metrisk rum med en tællelig taet delmængde og B er Borel sigma-algebraen.<br />
11.4 Betingede tætheder<br />
Vi gennemgår her et specialtilfæde af opgave 3.3. Lad (X, Y) have simultan tæthed<br />
f(x, y) på R k+l og lad Y have marginal tæthed g(y), begge med hensyn til Lebesguemålet.<br />
Så er den betingede tæthed af X givet Y = y<br />
f(x|y) =<br />
X<br />
f(x, y)<br />
g(y) .
11.4. BETINGEDE TÆTHEDER 137<br />
Den regulære betingede sandsynlighed af (X, Y) givet Y i Definition 3.1 bliver i dette<br />
tilfælde<br />
P Y <br />
(A|y) = f(x|y)dx.<br />
x:(x,y)∈A<br />
Bevis. Vi skal eftervise (iii) i Definition 3.1. Lad B være en Borelmængde i Rl og A en<br />
Borelmængde i Rk+l . Så gælder der<br />
<br />
<br />
<br />
f(x|y)dx g(y)dy<br />
P<br />
B<br />
Y (A|y)PY(dy) =<br />
B<br />
<br />
=<br />
=<br />
B<br />
<br />
x:(x,y)∈A<br />
x:(x,y)∈A<br />
A∩R k ×B<br />
f(x, y)dxdy<br />
f(x, y)dxdy = P(A ∩ {Y ∈ B}). <br />
Følgende regneregel (JHJ 10.3) for betingede sandsynligheder er meget brugbar. For<br />
en regulær betinget sandsynlighed PT (A|t) og vilkårlige målelige funktioner f : X →<br />
R, g : Y →R har vi ligheden<br />
<br />
g(t) f(x)P T <br />
(dx|t) dPT(t) = g(t(x)) f(x)P(dx) = E{g(t(X)) f(X)}. (11.1)<br />
Dette er en special<strong>udgave</strong> af hvad JHJ kalder “useful rules". Andre <strong>udgave</strong>r er<br />
<br />
ψ(x, t(x))P T <br />
(dx|t) = ψ(x, t)P T (dx|t), (11.2)<br />
og<br />
<br />
E(ψ(X, T) =<br />
Endvidere gælder der følgende rimelige resultat<br />
ψ(x, t)P T (dx|t)PT(dt). (11.3)<br />
P T (T = t|t) = 1 n.s. PT,<br />
såfremt at mængden {(x, t(x)|x ∈ X } tilhører produkt σ-algebraen A ⊗ B.<br />
Nu følger bevis for Observationerne 2.19 og 2.20.<br />
Bevis (for Obsevation 2.19 (JHJ 10.11)). Lad u være en afbildning fra det basale udfaldsrum<br />
(X , A) ind i (Y, B). Definer<br />
g(u) = EP( dQ<br />
<br />
dQ<br />
(X)|U = u) =<br />
dP dP (x)PU (dx|u).<br />
Vi skal vise at g(u) er tætheden for QU mht PU. Lad B ∈ B. Så får vi<br />
<br />
<br />
dQ<br />
g(u)dPU(u) = 1B(u)<br />
B<br />
dP (x)PU <br />
(dx|u) dPU(u)<br />
<br />
= EP 1B(u(X)) dQ<br />
dP (X)<br />
<br />
<br />
= 1B(u(x)) dQ<br />
<br />
(x)dP(x) = 1B(u(x))dQ(x)<br />
dP<br />
= QU(B).
138 KAPITEL 11. NOTATION OG REGNEREGLER<br />
I det andet lighedstegn har vi brugt regneregelen (11.1) ovenfor, og i det næstsidste<br />
lighedstegn har vi brugt en regneregel i afsnit 11.5. <br />
Bevis (for Observation 2.20). Definer<br />
f(x|t) =<br />
f(x)<br />
g(t)<br />
t ∈ D<br />
1 t /∈ D, og F(A|t) = <br />
A f(x|t)PT (dx|t).<br />
Vi vil vise at F(A|t) er en regulær betinget sandsynlighed for Q givet T. Undervejs<br />
bruger vi at QT(D c ) = 0.<br />
<br />
B<br />
<br />
F(A|t)QT(dt) =<br />
=<br />
=<br />
F(A|t) dQT<br />
(t)PT(dt)<br />
dPT<br />
f(x|t)P<br />
A<br />
T <br />
(dx|t)<br />
<br />
g(t)PT(dt)<br />
1B∩D(t) f(x)P T <br />
(dx|t) PT(dt)<br />
B∩D<br />
<br />
B∩D<br />
<br />
A<br />
= EP {1B∩D(t(X))1 A(X) f(X)}<br />
<br />
= 1B∩D(t(x))1 A(x) dQ<br />
<br />
(x)P(dx) = 1B∩D(t(x))1 A(x)Q(dx)<br />
dP<br />
= Q(A ∩ u −1 (B ∩ D)) = Q(A ∩ u −1 (B)),<br />
som netop er definitionen på at F(A|t) er en regulær betinget sandsynlighed for Q<br />
givet T. Jeg har brugt regneregelen (11.1) ovenfor i 4. lighedstegn og regneregel fra<br />
afsnit 11.5 i næstsidste lighedstegn. <br />
11.5 Regnereler for tætheder og integraler<br />
1) µ ≪ ν ⇒ f(x)dµ(x) = f(x) dµ<br />
dν (x)dν(x). (JHJ 3.17)<br />
2) µ ≪ ν
11.6. ENTYDIGHED AF LAPLACETRANSFORMEN 139<br />
Vi tager nu A = 1( f − g > 0). Så fås<br />
<br />
<br />
<br />
1<br />
( f − g)dµ = 0 ⇒ ( f − g)dµ = 0 ⇒ dµ = 0,<br />
A<br />
A ( f − g) A<br />
dvs A er en µ-nulmængde. På tilsvarende vis ses at mængden hvor f − g < 0 er<br />
en µ-nulmængde.<br />
11.6 Entydighed af Laplacetransformen<br />
Lad µ1 og µ2 være sandsynlighedsmål på R k med laplacetransformer<br />
<br />
ϕ1(θ) =<br />
<br />
exp(θ · x)µ1(dx) og ϕ2(θ) =<br />
exp(θ · x)µ2(dx).<br />
Hvis der eksisterer en åben mængde D ⊂ R k således at ϕ1 og ϕ2 begge er endelige på<br />
D og<br />
ϕ1(θ) = ϕ2(θ), θ ∈ D,<br />
så er de to mål ens, µ1 = µ2.<br />
Beviset baserer sig på at antagelsen medfører at<br />
<br />
<br />
exp((θ + iv) · x)µ1(dx) =<br />
exp((θ + iv) · x)µ2(dx), θ ∈ D, v ∈ R k .<br />
For fast θ er dette karakteristiske funktioner i v, og vi kan derfor bruge entydighedssætningen<br />
for karakteristiske funktioner.
Indeks<br />
141