06.08.2013 Views

Hele Et første kursus i teoretisk statistik. Anden udgave. Version 9.2 ...

Hele Et første kursus i teoretisk statistik. Anden udgave. Version 9.2 ...

Hele Et første kursus i teoretisk statistik. Anden udgave. Version 9.2 ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

E T F Ø R S T E K U R S U S<br />

I T E O R E T I S K S T A T I S T I K<br />

J E N S L E D E T J E N S E N


© Jens Ledet Jensen 2006<br />

Institut for Matematiske Fag<br />

Det Naturvidenskabelige Fakultet<br />

Aarhus Universitet<br />

Februar 2006


Indhold<br />

1 Indledning 1<br />

2 Eksponentielle familier 5<br />

2.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5<br />

2.2 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6<br />

2.3 Minimal fremstilling og konveks støtte . . . . . . . . . . . . . . . . . . . . 7<br />

2.4 Laplace- og kumulanttransform . . . . . . . . . . . . . . . . . . . . . . . . 10<br />

2.5 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

2.6 Marginale og betingede fordelinger . . . . . . . . . . . . . . . . . . . . . . 17<br />

2.7 Komplethed af den minimalkanoniske observator . . . . . . . . . . . . . 19<br />

2.8 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />

3 Sufficiens 25<br />

3.1 Indledning og definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />

3.2 Tilfældet med diskret udfaldsrum X . . . . . . . . . . . . . . . . . . . . . 26<br />

3.3 Det generelle tilfælde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />

3.4 Minimal sufficiente observatorer . . . . . . . . . . . . . . . . . . . . . . . 29<br />

3.5 Sufficiensprincippet og B-sufficiens . . . . . . . . . . . . . . . . . . . . . . 36<br />

3.6 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36<br />

4 Ancillaritet og Basu’s sætning 43<br />

4.1 Definitioner og diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . 43<br />

4.2 Basu’s sætning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48<br />

4.3 Birnbaum’s sætning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />

4.4 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53<br />

5 Likelihoodbegreber 57<br />

5.1 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />

6 Centrale estimatorer med minimal varians 67<br />

6.1 Centrale estimatorer med minimal varians . . . . . . . . . . . . . . . . . . 67<br />

6.2 Variansuligheder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71<br />

6.3 Pusterum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75<br />

6.4 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76<br />

i


ii INDHOLD<br />

7 Testteori 79<br />

7.1 Indledning og definitioner . . . . . . . . . . . . . . . . . . . . . . . . . . . 79<br />

7.2 Neyman-Pearson’s lemma og monotone kvotienter . . . . . . . . . . . . 81<br />

7.3 Sammensat nulhypotese – test for en delparameter . . . . . . . . . . . . . 89<br />

7.4 Lokalt stærkeste test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94<br />

7.5 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95<br />

8 Separat inferens 101<br />

8.1 L-sufficiens og L-ancillaritet . . . . . . . . . . . . . . . . . . . . . . . . . . 101<br />

8.2 S-sufficiens og S-ancillaritet . . . . . . . . . . . . . . . . . . . . . . . . . . 104<br />

8.3 G-sufficiens og G-ancillaritet . . . . . . . . . . . . . . . . . . . . . . . . . . 107<br />

8.4 Itemanalysemodellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112<br />

8.5 Afsluttende bemærkninger . . . . . . . . . . . . . . . . . . . . . . . . . . . 116<br />

8.6 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117<br />

9 Bayes <strong>statistik</strong> 121<br />

10 Referencer 129<br />

11 Notation og regneregler 135<br />

11.1 notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135<br />

11.2 Transformationssætningen . . . . . . . . . . . . . . . . . . . . . . . . . . . 135<br />

11.3 Betinget middelværdi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136<br />

11.4 Betingede tætheder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136<br />

11.5 Regnereler for tætheder og integraler . . . . . . . . . . . . . . . . . . . . . 138<br />

11.6 Entydighed af Laplacetransformen . . . . . . . . . . . . . . . . . . . . . . 139<br />

Indeks 141


Kapitel 1<br />

Indledning<br />

Med disse indledende bemærkninger vil jeg forsøge at ryste jeres statistiske grundvold,<br />

og vise at <strong>statistik</strong> (d.v.s. her <strong>teoretisk</strong> <strong>statistik</strong>) er mere end matematik. Jeg vil<br />

nævne nogle af de forskellige indgange til <strong>statistik</strong> for at afgrænse, hvad vi skal beskæftige<br />

os med i disse noter. Jeg vil her i indledningen foretage diskussionen ud fra<br />

et eksempel.<br />

En ukendt parameter θ kan antage værdier i {0, 1, 2, . . . }. En værdi k af θ vælges<br />

(måske af naturen, måske af en person), og 6 brikker placeres i en pose. Af de 6 brikker<br />

er 2 mærket med værdien k og de 4 andre med værdierne 4k + 1, . . . , 4k + 4. Eksperimentet<br />

består nu i at vælge én af brikkerne tilfældigt og observere værdien S på denne,<br />

Fordelingen af S beskrives med følgende tabel, hvori for hver række er angivet 6 gange<br />

sandsynligheden for de mulige udfald:<br />

S<br />

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24<br />

0 2 1 1 1 1<br />

1 2 1 1 1 1<br />

θ 2 2 1 1 1 1<br />

3 2 1 1 1 1<br />

4 2 1 1 1 1<br />

5 2 1 1 1 1<br />

Vores opgave er ud fra observationen s at sige noget om den ukendte parameter θ. Når<br />

s er observeret, ved vi, at θ enten er s eller for s > 0, er der også muligheden [(s − 1)/4],<br />

hvor [·] er heltalsdelen af et tal. Fra observationen s kan vi altså gætte på<br />

ˆθ = s eller ˜θ =<br />

0 hvis s = 0<br />

[(s − 1)/4] hvis s > 0,<br />

hvor ˆθ faktisk er maksimum likelihood estimatet.<br />

Normalt vil vi vælge ˆθ som skøn over θ, idet Pˆθ (s) = 2 6 > P˜θ (s) = 1 6 for s > 0, altså<br />

den observerede værdi s har større sandsynlighed under målet Pˆθ end under målet P˜θ .<br />

Men hvis vi spørger om sandsynligheden for at gætte den rigtige værdi af θ, har vi<br />

Død og pine, hvad gør vi nu?<br />

P θ( ˆθ = θ) = 2 6 < P θ( ˜θ = θ) = 4 6 .<br />

1


2 KAPITEL 1. INDLEDNING<br />

Indenfor den såkaldte Bayes-<strong>statistik</strong> optræder der ingen problemer (=problemet er<br />

flyttet et andet sted hen - en særdeles velkendt problemløsningmetode). Hvis man er<br />

„bayesianer“, formuleres alt ved hjælp af sandsynligheder. I stedet for at sige at θ er<br />

ukendt, siger man, at θ er en stokastisk variabel med en prior tæthed pk = P(θ = k), og<br />

at vores viden om θ, efter at eksperimentet er udført, udtrykkes gennem den betingede<br />

tæthed<br />

⎧<br />

1 k = s = 0<br />

⎪⎨ 1<br />

3 (<br />

P(θ = k|S = s) =<br />

⎪⎩<br />

1 3 ps + 1 6 p [(s−1)/4]) −1 pk k = s, s > 0<br />

1<br />

6 ( 1 3 ps + 1 6 p [(s−1)/4]) −1 pk k = [(s − 1)/4], s > 0<br />

0 ellers<br />

Eventuelt kan vi lave et estimat ˆθB, som er den værdi af θ, som har størst sandsynlighed<br />

givet S = s.<br />

For at gennemføre dette program skal vi altså vælge en prior tæthed p k. Hvis vi<br />

tager p k = 1/2 k+1 , vil ˆθB = ˜θ for alle s. Det kan vises, at for en vilkårlig tæthed med<br />

p k > 0 for alle k vil ˆθB = ˜θ for uendelig mange værdier af s . Hvis p k = 0 for k ≥ 5 og<br />

p k = 1/4 for k < 5, vil<br />

ˆθB = ˆθ for s < 5 og ˆθB = ˜θ for 5 ≤ s ≤ 20.<br />

Dette sidste eksempel dækker over det generelle udsagn, at jo mere uniform vi gør den<br />

prior tæthed, desto oftere vil ˆθB = ˆθ.<br />

Det er klart, at det oprindelige problem er blevet ført over i, hvordan vi skal vælge<br />

prior tætheden. Hvis vi ikke har nogen viden, der kan hjælpe os i dette, må vi altså<br />

foretage et subjektivt valg, og af denne grund bryder mange <strong>statistik</strong>ere sig ikke om<br />

Bayes-<strong>statistik</strong>. Ud fra en pragmatisk synsvinkel kan det dog i visse situationer være<br />

praktisk at tænke i termer af Bayes-<strong>statistik</strong>. F.eks. i store ekspertsystemer, hvor et af<br />

problemerne er jævnligt at opdatere den akkumulerede viden om de mange parametre,<br />

kan det være praktisk at bruge Bayes-<strong>statistik</strong>. Jeg omtaler kort Bayes-<strong>statistik</strong> i kapitel<br />

9.<br />

En anden tilgang til <strong>statistik</strong> er decisionsteori. Her forestiller man sig, at der til hver<br />

observation x skal foretages en beslutning d = d(x), og for enhver beslutning d og<br />

enhver parameter θ er der givet en pris, eller et tab, w(θ, d) ≥ 0. Det forventede tab<br />

kaldes risikofunktionen (engelsk: risk function)<br />

r(θ, d) = E θw(θ, d(X)).<br />

I vort eksempel kan beslutningen være, at vi peger på enten ˆθ eller ˜θ som den sande<br />

værdi af θ. Lad os f.eks. sige at tabet er givet ved<br />

⎧<br />

⎪⎨ 0 hvis θ1 = θ<br />

w(θ, θ1) = α<br />

⎪⎩<br />

β<br />

<br />

12 α +<br />

r(θ, ˆθ) =<br />

hvis |θ1 − θ| ≤ 3<br />

hvis |θ1 − θ| > 3,<br />

1 6 β hvis θ = 0<br />

4<br />

6 β hvis θ > 0<br />

⎧<br />

⎪⎨<br />

0<br />

og r(θ, ˜θ) = 2<br />

6α ⎪⎩<br />

β<br />

hvis θ = 0<br />

hvis 1 ≤ θ ≤ 3<br />

hvis θ > 3.<br />

2<br />

6


Hvis θ > 3 vil ˜θ have en mindre risiko end ˆθ, men for 1 ≤ θ ≤ 3 vil ˆθ have en<br />

mindre risiko end ˜θ, hvis blot β < α/2.<br />

Decisionsteori giver anledning til mange nye definitioner. En beslutningsregel d<br />

kaldes inadmissible, hvis der findes en anden regel d1, så at r(θ, d) ≥ r(θ, d1) for alle θ og<br />

med skarp ulighed for mindst én værdi af θ. Hvis en regel ikke er inadmissible, kaldes<br />

den admissible, og disse er klart at foretrække. En minimax regel d er en admissible<br />

beslutningsregel, som opfylder<br />

sup<br />

θ<br />

r(θ, d1) ≥ sup r(θ, d)<br />

θ<br />

for enhver anden admissible regel d1. En minimax regel er et fornuftigt valg, hvis man<br />

er to personer, der spiller mod hinanden, og at man må forvente, at modspilleren er<br />

så ond som mulig. Ligesom at jeg ikke vil komme ind på Bayes-<strong>statistik</strong>, vil jeg ikke<br />

beskæftige mig med decisionsteori i disse noter.<br />

Hvad er så emnet for disse noter? Løst sagt skal vi så præcist som muligt opsummere<br />

den viden, som vi har fået om den ukendte parameter fra den foretagne observation<br />

og fra vores viden om den sandsynlighedsmekanisme, som ligger bagved. Dette<br />

betyder bl.a., at vi ikke skal bruge de hypotetiske gentagelser af forsøget til at konstruere<br />

et spil mod en usynlig modpart og dernæst minimere tabet, men derimod bruge<br />

gentagelserne til at belyse den faktiske observation i forhold til de andre mulige observationer.<br />

Heri ligger også, at de potentielle gentagelser skal være relevante, som for<br />

eksempel at de skal foretages med det samme måleudstyr (disse problemer tages op i<br />

kapitel 4 og kapitel 8). Den type problemstillinger, som vi ønsker at anvende teorien<br />

på, kan være spørgsmål som: Hvad er lysets hastighed? Hvor en stor procentdel af den<br />

danske befolkning går ind for en kombineret vej- og jernbanebro til Sverige?; Hvad er<br />

sandsynligheden for at blive rask med en given behandling?; etc., etc.<br />

I ovenstående eksempel, hvis vi f.eks. har observeret s = 2, kan vi sige, at de mulige<br />

værdier af θ er θ = 0 og θ = 2, og at sandsynlighederne for s = 2 er 1 6 og 2 6 under de to<br />

muligheder. Meget mere kan vi ikke sige. Normalt vil vi gerne angive et estimat og en<br />

relevant varians på estimatet eller et relevant konfidensområde, men her hvor der kun<br />

er to muligheder, kan vi kun give en rangordning. Da vi nu ved, at θ = 0 eller θ = 2 er<br />

ˆθ og ˜θ ikke relevante i hypotestiske gentagelser. For en ny observation s ∈ {0, 1, 3, 4}<br />

ved gentagelse, kan vi slutte at θ = 0, og for s ∈ {9, 10, 11, 12} kan vi slutte at θ = 2.<br />

Det er kun for s = 2, at vi ikke kan slutte hvad θ er. Hvis vi definerer<br />

<br />

<br />

ˆθ2(s)<br />

0 s ∈ {0, 1, 3, 4}<br />

=<br />

og ˇθ2(s)<br />

0 s ∈ {0, 1, 2, 3, 4}<br />

=<br />

2 s ∈ {2, 9, 10, 11, 12}<br />

2 s ∈ {9, 10, 11, 12}<br />

har vi at<br />

og<br />

P0( ˆθ2 = 0) = 5 6 , P2( ˆθ2 = 2) = 1,<br />

P0( ˇθ2 = 0) = 1, P2( ˇθ2 = 2) = 4 6 ,<br />

og anskuet på denne vis vil vi sige, at maksimum likelihood estimatet ˆθ2 er det bedste<br />

estimat.<br />

Lad mig slutte denne indledning med en ultrakort gennemgang af de forskellige<br />

kapitler:<br />

3


4 KAPITEL 1. INDLEDNING<br />

Kapitel 2: Her opsumerer jeg de vigtigste begreber og resultater for ekponentielle familier.<br />

Eksponentielle familier er vigtige på grund af deres pæne matematiske egenskaber,<br />

på grund af deres udbredelse, og fordi der er en simpel sammenhæng mellem<br />

tætheden og de såkaldte sufficiente observatorer. Faktisk kan man vende bøtten rundt,<br />

og starte med at sige, hvad der skal være sufficiente observatorer, og man vil så hurtigt<br />

blive ledt frem til de eksponentieller familier. De eksponentieller familier vil optræde<br />

gennem hele notesættet.<br />

Kapitel 3: Her gives en udførlig matematisk teori for sufficiente observationer, d.v.s.<br />

funktioner af data som „indeholder al information“ om den ukendte parameter.<br />

Kapitel 4: Handler on hvordan vi definerer relevante gentagelser ved at betinge med<br />

værdien af en såkaldt ancillær observator. Sammenhængen mellem dette og de sufficiente<br />

observatorer diskuteres.<br />

Kapitel 5: Nævner de vigtigste begreber omkring likelihoodfunktionen og den afledede.<br />

Resultater baseret på at antallet af observationer går mod uendelig bliver kort<br />

omtalt. Dette kapitel kan godt læses før de andre.<br />

Kapitel 6: Giver en teori for hvordan vi på fornuftig vis kan vælge estimatorer, d.v.s. at<br />

vi forsøger at minimere variansen uniformt i parameteren. For at dette får mening, må<br />

vi nøjes med at betragte de såkaldte unbiased estimatorer.<br />

Kapitel 7: Heri beskrives hvordan man konstruerer test med visse optimale egenskaber.<br />

Kapitel 8: Dette kapitel hænger sammen med kapitel 4, idet det undersøges, hvad der<br />

er relevante gentagelser, når vi ønsker at udtale os om en delparameter.<br />

Lad mig til sidst påpege at udgangspunktet er, at vi har valgt en model til beskrivelse<br />

af det udførte forsøg, og ønsker nu at optimere vores konklusioner idenfor modellen.<br />

Det vil bl.a. sige, at vi ikke kommer ind på kontrol af modellen. En anden vigtig<br />

ting vi ikke kommer ind på, er robusthed af vores procedurer overfor antagelser i modellen,<br />

d.v.s. spørgsmål som, om en optimal procedure under modellen vil være langt<br />

fra optimal, hvis modellen ændres ganske lidt.<br />

En henvisning til Jørgen Hoffman-Jørgensens bøger angives med „JHJ“.


Kapitel 2<br />

Eksponentielle familier<br />

2.1 Motivation<br />

Eksponentielle familier er klasser af sandsynlighedsmål med „særligt pæne egenskaber“.<br />

Det smarte er, at når først vi har vist (og det er ikke svært), at noget er en eksponentiel<br />

familie, så ved vi, at en hel masse resultater er opfyldt. Lad os som et eksempel<br />

betragte n uafhængige variable X1, . . . , Xn som er normalfordelte med middelværdi µ<br />

og varians σ 2 . Hvis f (·) er en funktion fra R ind i R med den egenskab, at<br />

E µ,σ 2 f ( ¯X) = 0 for alle µ ∈ R,<br />

så kan vi slutte, at f er identisk lig med nul pånær på en nulmængde. Denne egenskab<br />

kan måske nok synes lidt teknisk, men den kan hjælpe os til at vise andre egenskaber.<br />

Det sædvanlige estimat for σ 2 er s 2 = ∑i(X i − ¯X) 2 /(n − 1). Dette estimat har den rigtige<br />

middelværdi: Es 2 = σ 2 , og vi siger, at s 2 er middelværdiret. Man kan nu vise, at s 2<br />

er det estimat, der har mindst mulig varians, blandt alle estimater der er middelværdirette.<br />

For eksponentielle familier kan vi vise, at for visse hypoteser er der særligt attraktive<br />

tests. I eksemplet ovenfor kan vi betragte et test for hypotesen µ = 0 mod alternativet<br />

µ > 0. Det sædvanlige t-test forkaster hypotesen hvis t = ¯X/ √ s 2 /n er stor, og vi<br />

kan vise at dette i en vis forstand er det bedste vi kan gøre.<br />

De ovenstående eksempler viser, at der er god grund til at beskæftige sig med eksponentielle<br />

familier. <strong>Et</strong> andet argument er, at nogle af de vigtigste klasser af fordelinger<br />

faktisk er eksponentielle familier: Binomialfordelingerne, Poissonfordelingerne,<br />

normalfordelingerne og Gammafordelingerne. Ydermere er disse fordelinger byggestene<br />

for det der hedder Generaliserede Lineære Modeller som er et vigtigt redskab i<br />

en <strong>statistik</strong>ers værktøjskasse.<br />

Definitionen på en eksponentiel familie vedrører hvordan data og parameter spiller<br />

sammen. Lad som et eksempel P λ være poissonfordelingen med parameter λ og lad µ<br />

være tællemålet. Så kan vi skrive tætheden som<br />

dPλ λx<br />

(x) =<br />

dµ x! e−λ = e −λ · 1<br />

x!<br />

· exp{log(λ)x}.<br />

Hvad jeg har fremhævet her, er at tætheden kan skrives som en funktion af parameteren,<br />

ganget med en funktion af data, ganget med en eksponentialfunktion, hvor<br />

5


6 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />

argumentet er en funktion af parameteren ganget med en funktion af data. Det er denne<br />

struktur der nedenfor vil blive brugt i den generelle definition. Bemærk at den <strong>første</strong><br />

funktion af parameteren, lad os kalde den a(λ), er en normeringskonstant: eftersom vi<br />

betragter en tæthed, vil denne integrere til 1, og dermed har vi<br />

a(λ) ∑ x<br />

2.2 Definition<br />

<br />

1<br />

exp{log(λ)x} = 1 ⇒ a(λ) =<br />

x! ∑<br />

x<br />

1<br />

x! exp{log(λ)x}<br />

−1 .<br />

Jeg vil betragte en klasse P = {Pθ|θ ∈ Θ} af sandsynlighedsmål på målrummet<br />

(X , A, µ), hvor µ er et σ-endeligt mål. Familien P er parametriseret ved θ ∈ Θ, hvor<br />

Θ ⊆ Rp , d.v.s at hvis θ1 = θ2 så vil Pθ1 = Pθ2 . Antag, at µ dominerer alle målene i<br />

P, Pθ ≪ µ ∀θ ∈ Θ, og at der eksisterer en funktion φ = (φ1, . . . , φk) : Θ → Rk , en<br />

målelig funktion t = (t1, . . . , tk) : X → Rk , og en målelig funktion b : X → R således<br />

at<br />

dPθ dµ (x) = a(θ)b(x)eφ(θ)·t(x) , ∀θ ∈ Θ. (2.1)<br />

Hvis (2.1) er opfyldt, kaldes P en eksponentiel familie med kanonisk observator T = t(X)<br />

og kanonisk parameter φ(θ). Bemærk, at i (2.1) er a(·) bestemt ved<br />

<br />

a(θ) = b(x)e φ(θ)·t(x) −1 µ(dx)<br />

og er derfor kun en funktion af θ gennem φ(θ). Det mindste k for hvilket en repræsentation<br />

på formen (2.1) er mulig kaldes ordenen af familien. Hvis repræsentationen er<br />

minimal, d.v.s. at k er ordenen af familien, kaldes T en minimal kanonisk observator og<br />

ϕ en minimal kanonisk parameter.<br />

Eksempel 2.1.<br />

Jeg opskriver her to af de fordelinger I kender i forvejen på eksponentiel familieform.<br />

Binomialfordelingen. Lad X være binomialfordelt med antalsparamter n og sandsynlighedsparameter<br />

θ med 0 < θ < 1. Så er tætheden med hensyn til tællemålet µ<br />

givet ved<br />

dPθ (x) =<br />

dµ<br />

for x ∈ {0, . . . , n}.<br />

n<br />

x<br />

<br />

θ x (1 − θ) n−x = (1 − θ) n<br />

n<br />

x<br />

<br />

<br />

θ<br />

exp log x ,<br />

1 − θ<br />

Normalfordelingen. Lad X være normalfordelt med middelværdi µ og varians σ 2<br />

med (µ, σ 2 ) ∈ R × R+. Så er tætheden med hensyn til lebesguemålet m givet ved<br />

dP (µ,σ 2 )<br />

dm<br />

(x) = exp{− 1<br />

2σ 2 (x − µ) 2 }<br />

√ 2πσ 2<br />

= exp{− µ2<br />

2σ 2 }<br />

√ 2πσ 2<br />

<br />

µ<br />

exp<br />

σ<br />

2σ<br />

1<br />

x − x2<br />

2 2<br />

for x ∈ R. Bemærk, at i dette eksempel er b(x) = 1. <br />

<br />

,


2.3. MINIMAL FREMSTILLING OG KONVEKS STØTTE 7<br />

2.3 Minimal fremstilling og konveks støtte<br />

Jeg skal i dette afsnit angive en metode til at afgøre, om en fremstilling er minimal, og<br />

skal i denne forbindelse udtrykke mig „næsten sikkert“ mht. et mål. Jeg starter derfor<br />

med følgende observation.<br />

Observation 2.2 Lad ν være målet på X givet ved<br />

dν<br />

(x) = b(x), (2.2)<br />

dµ<br />

hvor b(x) er fra (2.1). Der gælder at alle målene i P er indbyrdes ækvivalente, og at de<br />

er ækvivalente med ν, d.v.s. at alle disse mål har de samme nulmængder. <br />

Bevis. Da<br />

har vi, at<br />

<br />

Pθ(A) =<br />

a(θ)e<br />

A<br />

φ(θ)·t(x) <br />

b(x)µ(dx) =<br />

A<br />

a(θ)e φ(θ)·t(x) ν(dx),<br />

dP θ<br />

dν (x) = a(θ)eφ(θ)·t(x) . (2.3)<br />

Vi har derfor, at hvis N er en nulmængde for ν er N også en nulmængde for P θ for alle<br />

θ ∈ Θ. Da (2.3) er strengt positiv, gælder der at ν(B) > 0 ⇒ P θ(B) > 0. Hvis derfor N<br />

er en nulmængde for P θ, følger det, at ν(N) = 0. <br />

Jeg vil skrive „næsten sikkert mht. P“ som n.s.−P, og på grund af Observation 2.2<br />

skrive n.s.−P hvormed menes, at den angivne relation er korrekt på nær en af de<br />

fælles nulmængder for P θ og ν.<br />

Bemærkning 2.3 Observation 2.2 viser, at hvis målene i en familie P ikke er ækvivalente,<br />

så kan P ikke være en eksponentiel familie. <strong>Et</strong> eksempel på dette er familien af<br />

uniforme fordelinger på intervallet [0, θ], θ > 0. <br />

Lemma 2.4 Fremstillingen (2.1) er minimal, hvis og kun hvis (i) og (ii) nedenfor er<br />

opfyldt:<br />

(i) funktionerne 1, φ1, . . . , φ k på Θ er lineært uafhængige, d.v.s.<br />

c0 + c1φ1(θ) + · · · + c kφ k(θ) = 0 ∀θ ∈ Θ ⇒ c0 = c1 = · · · = c k = 0, (2.4)<br />

(ii) funktionerne 1, t1, . . . , t k på X er lineært uafhængige næsten sikker mht. P, d.v.s<br />

c0 + c1t1(x) + · · · + c kt k(x) = 0 n.s. − P ⇒ c0 = c1 = · · · = c k = 0. (2.5)<br />

Inden beviset kommenterer vi betingelserne (2.4) og (2.5).


8 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />

Bemærkning 2.5 Betingelsen (2.4) er ækvivalent med, at mængden<br />

Λ0 = {ϕ(θ)|θ ∈ Θ}<br />

ikke tilhører et affint underrum af R k .<br />

Vi siger derfor, når (2.5) er opfyldt, at funktionerne φ1, . . . , φ k på Θ er affint uafhængige.<br />

Tilsvarende for (2.5) men med tilføjelse af „næsten sikkert mht. P“. <br />

Bevis. Jeg viser først, at hvis (i) eller (ii) ikke er opfyldt, så er repræsentationen ikke<br />

minimal. Antag at (i) ikke er opfyldt. Der eksisterer altså en vektor c = 0, så at c0 + c ·<br />

φ(θ) = 0 ∀θ ∈ θ. Lad os sige at ck = 0, så har vi, at φk(θ) = −1<br />

c<br />

{c0 + c1φ1(θ) + · · · +<br />

k<br />

ck−1φk−1(θ)}, og vi kan skrive (2.1) som<br />

dP θ<br />

dµ (x) = a(θ)b(x)e−c0t k(x)/c k exp<br />

<br />

k−1<br />

∑<br />

1<br />

φ i(θ)[t i(x) − c it k(x)/c k]<br />

D.v.s. at vi har konstrueret en repræsentation af dimension k−1, og (2.1) er derfor ikke<br />

minimal. På helt tilsvarende måde vises, at hvis (ii) ikke er opfyldt, så er (2.1) ikke<br />

minimal.<br />

Vi antager nu, at (i) og (ii) er opfyldt, og skal vise at fremstillingen (2.1) er minimal.<br />

Vi bemærker først, at hvis θ0 ∈ Θ, så har vi fra (2.1) og Observation 2.2, at (se JHJ 3.19)<br />

dPθ dPθ0 = a(θ)<br />

a(θ0) exp[{φ(θ) − φ(θ0)} · t(x)]. (2.6)<br />

Vi betragter nu endvidere en minimal repræsentation af dimension m, med kanonisk<br />

parameter β(θ) og kanonisk observator u(x). Vi har altså<br />

dPθ dPθ0 = ã(θ)<br />

ã(θ0) exp[{β(θ) − β(θ0)} · u(x)], (2.7)<br />

og skal vise at k = m. Fra (i) har vi, at vi kan vælge θ1, . . . , θk, så at k × k matricen<br />

⎛<br />

⎞∗<br />

φ(θ1) − φ(θ0)<br />

⎜<br />

⎟<br />

A = ⎝ . ⎠<br />

φ(θk) − φ(θ0)<br />

har fuld rang. Da (2.6) og (2.7) er tæthed for det samme mål, er de identiske n.s.−P, og<br />

vi har for i = 1, . . . , k,<br />

{φ(θ i) − φ(θ0)} · {t(x) − t(x0)} = {β(θ i) − β(θ0)} · {u(x) − u(x0)} n.s. − P.<br />

Skrevet på matriksform gælder der, at<br />

hvor B er m × k matricen<br />

{t(x) − t(x0)}A = {u(x) − u(x0)}B n.s. − P, (2.8)<br />

B =<br />

⎛<br />

⎜<br />

⎝<br />

β(θ1) − β(θ0)<br />

.<br />

β(θ k) − β(θ0)<br />

⎞<br />

⎟<br />

⎠<br />

∗<br />

<br />

.


2.3. MINIMAL FREMSTILLING OG KONVEKS STØTTE 9<br />

Da (2.7) er antaget minimal, har vi, at m ≤ k. Antag nu, at m < k, så eksisterer der<br />

d ∈ R k , d = 0, så at Bd ∗ = 0. Da A har fuld rang, er c ∗ = Ad ∗ = 0, og (2.8) giver<br />

{t(x) − t(x0)}c ∗ = {u(x) − u(x0)}Bd ∗ = 0 n.s. − P,<br />

hvilket er i modstrid med (ii). Altså er m = k, og (2.1) er en minimal fremstilling. <br />

Jeg vil nu diskutere betingelsen (2.5).<br />

Definition 2.6 Støtten for en stokastisk variabel T, der lever i et metrisk rum, er<br />

{t|P(kugle med centrum t og radius ɛ) > 0, ∀ɛ > 0}. <br />

Specielt hvis T kun kan antage endelig mange værdier, så er støtten de punkter,<br />

hvor der er positiv sandsynlighed. Hvis T ∈ R k siger vi, at koordinaterne i T er affint<br />

uafhængige n.s. hvis støtten for T ikke er indeholdt i et affint underrum af R k . Dette<br />

er ækvivalent med at sige, at der ikke findes c ∈ R k , c = 0, så at c · T er lig med en<br />

konstant n.s. Men dette er netop betingelsen (2.5). Betingelsen er også ækvivalent med<br />

at sige, at variansen af T, Var(T), er positiv definit. Lad os lige eftervise det sidste<br />

udsagn:<br />

c Var(T)c ∗ = 0 ⇐⇒ Var(c · T) = 0<br />

⇐⇒ c · T = konstant n.s. ⇔ c = 0,<br />

hvor den sidste ækvivalens er betingelsen (2.5). Bemærk, at for en eksponentiel familie<br />

P giver Observation 2.2, at støtten for T er den samme uanset hvilket sandsynlighedsmål<br />

P θ ∈ P vi betragter. Tilsvarende, hvis variansen for T er positiv definit under<br />

P θ1 ∈ P, så er variansen positiv definit under alle P θ ∈ P.<br />

Den lukkede konvekse støtte Ct for den eksponentielle familie P defineres som den<br />

mindste lukkede konvekse mængde K ⊂ R k med P θ(t(X) ∈ K) = 1 for alle θ ∈ Θ,<br />

eller ækvivalent hermed {x|t(x) /∈ K} er en P-nulmængde. I symboler kan vi skrive<br />

Ct = <br />

K∈K<br />

K, (2.9)<br />

hvor K er mængden af lukkede og konvekse mængder K med ν({x|t(x) /∈ K}) = 0.<br />

Det indre af Ct betegnes int Ct. Hvis støtten for T er indeholdt i et affint underrum<br />

af R k , vil vi i definitionen af Ct tage snit over mængder, der er indeholdt i et affint<br />

underrum, og vi vil derfor have at int Ct = ∅. Med andre ord vil int Ct = ∅ medføre,<br />

at støtten for T ikke er indeholdt i et affint underrum af R k , og dermed at betingelsen<br />

(2.5) er opfyldt. Omvendt, hvis støtten for T ikke er indeholdt i et affint underrum af<br />

R k kan vi finde k støttepunkter der udspænder R k , og dermed vil int Ct = ∅.<br />

Vi kan samle vores diskussion ovenfor i:<br />

Observation 2.7 Følgende betingelser er ækvivalente:<br />

• Betingelsen (2.5);


10 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />

• Støtten for T er ikke indeholdt i et affint underrum af R k ;<br />

• int Ct = ∅;<br />

• Variansen Var(T) er positiv definit. <br />

Eksempel 2.8 (Binomialfordelingen).<br />

Lad X være binomialfordelt med antalsparamter n og sandsynlighedsparameter θ med<br />

0 < θ < 1. Så er tætheden med hensyn til tællemålet µ givet ved<br />

dPθ (x) = (1 − θ)n<br />

dµ<br />

n<br />

x<br />

<br />

exp<br />

<br />

log<br />

θ<br />

1 − θ<br />

Dette er en eksponentiel familie med t(x) = x og ϕ(θ) = log(θ/(1 − θ)). Repræsentationen<br />

er af dimension 1, og vi vil nu vise at den er minimal. Støtten for T er<br />

{0, 1, . . . , n} og denne tilhører ikke et affint underrum af R, det vil sige at (2.5) er op-<br />

fyldt. Hvis<br />

<br />

θ<br />

c0 + c1 log = 0 ∀0 < θ < 1,<br />

1 − θ<br />

kan vi tage θ = 1/2 hvoraf følger at c0 = 0, og dernæst kan vi tage θ = 1/4 hvoraf<br />

følger at c1 = 0. Det vil sige at (2.4) er opfyldt, og vi har vist at repræsentationen er<br />

minimal. Dette eksempel er meget simpelt: hvis vi har en eksponentiel familie med en<br />

repræsentation af dimension 1, vil repræsentationen altid være minimal så længe at<br />

der er mindst to sandsynlighedsmål i familien (hvis ordenen af familien er nul vil der<br />

kun være et sandsynlighedsmål i familien). <br />

2.4 Laplace- og kumulanttransform<br />

Laplacetransformen for T = t(X) under målet ν er<br />

<br />

<br />

c(ξ) = exp(ξ · t(x))ν(dx) =<br />

Rk exp(ξ · t)νT(dt) (2.10)<br />

X<br />

for ξ ∈ R k . Domænet for c(·) er Λ = {ξ ∈ R k |c(ξ) < ∞}. Lad os definere et sandsynlighedsmål<br />

˜P ξ på X , for ξ ∈ Λ, ved<br />

<br />

x<br />

<br />

.<br />

d ˜P ξ<br />

dν (x) = c(ξ)−1 exp(ξ · t(x)). (2.11)<br />

Så svarer P θ i (2.1) til ˜P φ(θ) her og a(θ) = c(φ(θ)) −1 . Klassen P er givet ved<br />

P = { ˜P ξ|ξ ∈ Λ0}, Λ0 = {φ(θ)|θ ∈ Θ}.<br />

Vi har altid at Λ0 ⊆ Λ. Hvis Λ0 = Λ kaldes familien P fuld, og hvis P er fuld og Λ er<br />

åben, kaldes familien regulær.<br />

Laplacetranformen for t(X) under ˜P ξ0 er<br />

<br />

X<br />

<br />

exp(ξ · t(x)) ˜P ξ0 (dx) =<br />

X<br />

exp((ξ + ξ0) · t(x))<br />

ν(dx) =<br />

c(ξ0)<br />

c(ξ + ξ0)<br />

. (2.12)<br />

c(ξ0)


2.4. LAPLACE- OG KUMULANTTRANSFORM 11<br />

Kumulanttransformen for t(X) under målet ν er defineret som<br />

κ(ξ) = ln c(ξ).<br />

Fra (2.12) har vi at kumulanttransformen af t(X) under ˜P ξ0 er<br />

κ ξ0 (ξ) = κ(ξ + ξ0) − κ(ξ0).<br />

Hvis κP er kumulanttransformen for t(X) under et sandsynlighedsmål P, kaldes de<br />

afledede af κP taget i nul for t(X)s kumulanter. Bemærk, at for kumulanttransformen af<br />

t(X) under ˜P ξ0 har vi<br />

∂kκξ0 ∂<br />

(0) =<br />

kκ (ξ0)<br />

∂ξ i1 · · · ∂ξ ik<br />

∂ξ i1 · · · ∂ξ ik<br />

Den <strong>første</strong> og anden kumulant er henholdsvis middelværdi og varians af t(X) under<br />

P, se (2.17) og (2.18) nedenfor. For en en-dimensional variabel t(X) kaldes<br />

κ (3)<br />

P (0)<br />

(κ ′′ ,<br />

P<br />

(0))3/2<br />

for henholdsvis skævheden 1 og kurtosis 2<br />

κ (4)<br />

P (0)<br />

(κ ′′<br />

P<br />

(0))2 ,<br />

Fremover vil jeg skrive P ξ for ˜P ξ, selvom dette kan give forvirring i forhold til det<br />

tidligere P θ. Vi lader E ξ betegne middelværdi med hensyn til sandsynlighedsmålet P ξ.<br />

Desuden vil Λ blive omtalt som det fulde parameterområde for den eksponentielle<br />

familie.<br />

Sætning 2.9. Antag at t(·) opfylder (2.5). Det fulde parameterområde Λ = {ξ|c(ξ) <<br />

∞} er konvekst, og κ er strengt konveks på Λ, d.v.s. at κ(αξ1 + (1 − α)ξ2) < ακ(ξ1) +<br />

(1 − α)κ(ξ2) for alle ξ1, ξ2 ∈ Λ, ξ1 = ξ2, og alle 0 < α < 1. <br />

Bevis. Lad ξ1, ξ2 ∈ Λ. Hölders ulighed (JHJ 3.11) giver<br />

<br />

<br />

e (αξ1+(1−α)ξ2)·t(x) ν(dx) = {e ξ1·t(x) α ξ2·t(x) 1−α } {e } ν(dx)<br />

<br />

e ξ α <br />

1·t(x)<br />

ν(dx)<br />

≤<br />

e ξ2·t(x) ν(dx)<br />

1−α<br />

= c(ξ1) α c(ξ2) 1−α < ∞, (2.13)<br />

så at αξ1 + (1 − α)ξ2 ∈ Λ, d.v.s. Λ er konvekst. Tager vi logaritmen i ovenstående<br />

ulighed, fås at κ(ξ) er en konveks funktion. Der gælder lighedstegn i Hölders ulighed,<br />

hvis og kun hvis<br />

e ξ 1·t(x) = Ke ξ2·t(x) n.s. − ν,<br />

for en konstant K, og dette er ensbetydende med, at ξ1 = ξ2 ifølge (2.5). <br />

1 Skævheden er det tredje centrale moment divideret med variansen i 3/2. Med betegnelsen µi for<br />

det tte centrale moment altså µ3/µ 3/2<br />

2 .<br />

2 Kurtosis en µ4/µ 2 2 − 3. Der er også en anden version af definitionen af kurtosis, nemlig µ4/µ 2 2 . Det<br />

er den førstnævnte, der passer med udsagnet ovenfor om den fjerdeafledede af kumulantransformen.<br />

Det er ligeledes den førstnævnte version, der er 0 for normalfordelingen.


12 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />

Sætning 2.10. Lad ξ ∈ Λ og antag, at ξ ± h ∈ Λ. Så gælder<br />

E ξ|h · t(X)| n < ∞ ∀ n ∈ N.<br />

Specielt gælder, at hvis ξ ∈ intΛ, så eksisterer alle momenter af t(X) under P ξ. <br />

Bevis. Da |y| n /n! ≤ ey + e−y for alle y ∈ R, har vi<br />

<br />

|h · t(x)| n e ξ·t(x) <br />

ν(dx) ≤ n! e (ξ+h)·t(x) <br />

ν(dx) +<br />

e (ξ−h)·t(x) <br />

ν(dx) < ∞.<br />

Hvis ξ ∈ intΛ, vil ξ ± h ∈ Λ for alle små h. Derfor har vi, at E ξ|t j(X)| n < ∞ for alle<br />

j = 1, . . . , k og alle n. Hölders ulighed giver så, at<br />

E ξ |t1(X) n 1 · · · tk(X) n k| < ∞ for alle n1, . . . , n k. (2.14)<br />

<br />

Sætning 2.11. Hvis ξ ∈ int Λ gælder der, at<br />

∂ n c(ξ1, . . . , ξ k)<br />

∂ξ a 1<br />

1 . . . ∂ξa k<br />

k<br />

= c(ξ) E ξ{t1(X) a 1 · · · tk(X) a k}, (2.15)<br />

hvor a1 + · · · + a k = n. <br />

Bevis. Ifølge (2.14) eksisterer momenterne i (2.15). Påstanden i (2.15) kan vises ved<br />

induktion i n: Lad kuglen med centrum i ξog radius ɛ0 være indeholdt i Λ. Antag, at<br />

påstanden holder for alle a1, . . . , ak med a1 + · · · + ak = n og betragt situationen, hvor<br />

vi vil ændre aj til aj + 1. Vi vil benytte, at<br />

|e ɛt <br />

<br />

ɛ<br />

j − 1| = <br />

tje ut <br />

<br />

jdu ≤ ɛ|tj|(e ɛ0tj −ɛ0t<br />

+ e j) ∀ |ɛ| < ɛ0. (2.16)<br />

Så fås<br />

0<br />

∂ n+1 c(ξ1, . . . , ξ k)<br />

∂ξ a1 1 . . . ∂ξa j+1<br />

j<br />

. . . ∂ξ ak k<br />

= lim 1<br />

<br />

∂nc(ξ1, . . . , ξj + ɛ, . . . , ξk) −<br />

ɛ<br />

∂n <br />

c(ξ1, . . . , ξk) <br />

= lim<br />

<br />

= lim<br />

<br />

=<br />

∂ξ a 1<br />

1 . . . ∂ξa k<br />

k<br />

∂ξ a 1<br />

1 . . . ∂ξa k<br />

k<br />

t1(x) a1 · · · tk(x) ake ξ·t(x) eɛtj(x) − 1<br />

ν(dx)<br />

ɛ<br />

t1(x) a 1 · · · tj(x) a j+1 · · · tk(x) a k eξ·t(x)<br />

c(ξ) ν(dx)c(ξ)<br />

= c(ξ) E ξ{t1(X) a 1 · · · tj(X) a j+1 · · · tk(X) a k},<br />

hvor det andet lighedstegn er induktionsantagelsen, og det tredje lighedstegn følger af<br />

(2.16) og sætningen om domineret konvergens.


2.4. LAPLACE- OG KUMULANTTRANSFORM 13<br />

Bemærkning 2.12 Bemærk, at Sætning 2.11 er et eksempel på, at vi må differentiere<br />

ind under integraltegnet. <br />

Benyttes Sætning 2.11 får vi følgende vigtige relationer for ξ ∈ intΛ,<br />

τ(ξ) := Eξt(X) = ∂κ<br />

(ξ)<br />

∂ξ<br />

(2.17)<br />

V(ξ) := Varξ(t(X)) = ∂2κ ∂τ<br />

(ξ) = (ξ)<br />

∂ξ∂ξ ∗ ∂ξ∗ (2.18)<br />

Desuden har vi fra Observation 2.7, at hvis t(·) opfylder (2.5), så er<br />

Var ξ(t(X)) positiv definit for ξ ∈ intΛ. (2.19)<br />

Observation 2.13 Antag at t(·) opfylder (2.5). Hvis ξ1, ξ2 ∈ intΛ og ξ1 = ξ2, så er<br />

τ(ξ1) = τ(ξ2). <br />

Bevis.<br />

(ξ2 − ξ1) · {τ(ξ2) − τ(ξ1)} = (ξ2 − ξ1) ·<br />

=<br />

1<br />

0<br />

1<br />

0<br />

dτ(ξ1 + s(ξ2 − ξ1))<br />

ds<br />

ds<br />

(ξ2 − ξ1)V(ξ1 + s(ξ2 − ξ1))(ξ2 − ξ1) ∗ ds > 0<br />

ifølge (2.19). <br />

Eksempel 2.14 (Normalfordelingen).<br />

Lad X være normalfordelt med middelværdi µ og varians σ 2 med (µ, σ 2 ) ∈ R × R+.<br />

Så er tætheden med hensyn til lebesguemålet m givet ved<br />

dP (µ,σ2 )<br />

(x) =<br />

dm<br />

1<br />

√ 2πσ 2<br />

<br />

µ2 µ<br />

exp{− } exp<br />

2σ2 σ<br />

2σ<br />

1<br />

x − x2<br />

2 2<br />

for x ∈ R. Dette er en eksponentiel familie med t(x) = (x, x2 ) og ϕ(µ, σ2 ) = ( µ<br />

σ2 , − 1<br />

2σ2 ).<br />

I dette tilfælde er<br />

Λ0 = R × R−,<br />

og da området har ikke tomt indre er (2.4) opfyldt. Støtten for T er<br />

{(x, x 2 )|x ∈ R},<br />

eftersom enhver kugle omkring (z, z 2 ) vil indeholde et interval af x-værdier, og dermed<br />

have positiv sandsynlighed. Da støtten ikke er indeholdt i et affint underrum af<br />

R 2 , er (2.5) opfyldt, og vi har vist, at repræsentationen er minimal. Vi vil nu undersøge,<br />

om familien er fuld. Vi skal da undersøge, hvornår integralet<br />

<br />

R<br />

exp ξ1x + ξ2x 2 dx<br />

er endeligt. Hvis ξ2 ≥ 0 vil integranten gå mod uendelig for x gående mod enten +∞<br />

eller −∞ og integralet er ikke endeligt. Tilbage er området Λ0 og vi har derfor vist at<br />

Λ = Λ0, det vil sige at familien er fuld. Da Λ også er åben er familien regulær.<br />

<br />

,


14 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />

Laplacetransformen for T under lebesguemålet er<br />

<br />

c(ξ) = exp{ξ1x + ξ2x<br />

R<br />

2 }dx<br />

<br />

= exp − 1<br />

4 ξ2 1 /ξ2<br />

<br />

exp ξ2 x − 1<br />

2 ξ1/(−ξ2)<br />

2 dx<br />

=<br />

R<br />

<br />

π/(−ξ2) exp{− 1<br />

4 ξ2 1 /ξ2}.<br />

Kumulanttransformen er derfor κ(ξ) = − 1 4 ξ2 1 /ξ2 − 1 2 log(−ξ2/π). Fra (2.17) får vi<br />

EξX = −ξ1<br />

, EξX 2ξ2<br />

2 = ξ2 1<br />

4ξ2 −<br />

2<br />

1<br />

.<br />

2ξ2<br />

Med ξ = (ξ1, ξ2) = (µ/σ 2 , −1/(2σ 2 )) bliver formlerne<br />

−2σ2<br />

−<br />

2 = µ2 + σ 2 .<br />

<br />

Det er sommetider muligt at vise, at en familie er fuld ved hjælp af følgende resultat.<br />

E (µ,σ 2 ) X = − µ(−2σ2 )<br />

2σ 2 = µ, E (µ,σ 2 ) X2 = µ2 (4σ 4 )<br />

4σ 4<br />

Observation 2.15 Lad Λ0 være et åbent område i R k . Hvis der for ethvert punkt ξ1 på<br />

randen af Λ0 gælder, at der eksisterer ξ0 ∈ Λ0, så at<br />

c(ξ) → ∞,<br />

for ξ → ξ1 langs liniestykket fra ξ0 til ξ1, så vil Λ0 = Λ. <br />

Bevis. Vi vil vise, at c(ξ1) = ∞ for alle punkter ξ1 på randen af Λ0. Så følger det<br />

fra sætning 2.9 at Λ ikke kan være større end Λ0 (hvis ˜ξ ∈ Λ \ Λ0 så vil der, da Λ<br />

er konvekst, findes ξ1 ∈ Λ med ξ1 på randen af Λ0, men dette er en modstrid med<br />

c(ξ1) = ∞). Vi laver et modstridsbevis. Antag at c(ξ1) < ∞. Så fra (2.13) har vi med<br />

ξ = αξ1 + (1 − α)ξ0, 0 < α < 1,<br />

c(ξ) ≤ c(ξ1) α c(ξ0) 1−α ≤ max{c(ξ1), c(ξ0)},<br />

hvilket er en modstrid med, at c(ξ) → ∞. Altså er c(ξ1) = ∞. <br />

Bemærkning 2.16 Observation 2.15 bruges på den måde, at for ξ ∈ Λ0 har vi, at ξ =<br />

ϕ(θ) for et θ ∈ Θ og dermed<br />

c(ξ) = a(θ) −1 .<br />

Hvis derfor a(θ) går mod nul for θ gående mod randen af Θ, og Λ0 er åbent i R k , vil<br />

familien være fuld. <br />

Det næste lemma viser, at Observation 2.15 har en invers: hvis c(ξ) → ∞ for ξ<br />

gående mod randen af Λ0, så vil familien ikke være fuld.<br />

Lemma 2.17 Lad ξ /∈ Λ og lad ξn ∈ Λ med ξn → ξ for n → ∞. Så vil c(ξn) → ∞. <br />

Bevis. Da exp{ξn · t(x)} ≥ 0, siger Fatou’s lemma (JHJ 3.5), at<br />

<br />

∞ = c(ξ) = lim inf exp{ξn · t(x)}ν(dx)<br />

n<br />

<br />

≤ lim inf exp{ξn · t(x)}ν(dx)<br />

n<br />

= lim inf c(ξn),<br />

n<br />

hvilket viser resultatet.


2.5. ESTIMATION 15<br />

2.5 Estimation<br />

Jeg betragter i dette afsnit den fulde eksponentielle familie (2.11) med ξ ∈ Λ = {ξ|<br />

c(ξ) < ∞}, og antager at fremstillingen er minimal. For den observerede værdi t =<br />

t(x) er log likelihood funktionen<br />

l(ξ) = l(ξ; t) = ξ · t − κ(ξ), ξ ∈ Λ. (2.20)<br />

Sætning 2.18. Antag at den eksponentielle familie er regulær og på minimal form.<br />

Da eksisterer der ˆξ = ˆξ(t) ∈ Λ, så at log likelihood funktionen (2.20) antager sin<br />

maksimumsværdi i ˆξ, hvis og kun hvis t ∈ intCt. Da fra Sætning 2.9 l(ξ) er strengt<br />

konkav, vil for t ∈ intCt estimatet ˆξ være entydigt bestemt og være løsning til ligningen<br />

∂l(ξ)<br />

∂ξ<br />

= t − ∂κ(ξ)<br />

∂ξ<br />

= t − τ(ξ) = 0, (2.21)<br />

d.v.s. ˆξ = τ −1 (t). <br />

Bevis. Vi viser først, at t ∈ intCt medfører, at l(ξ) antager sit maksimum på Λ. Vi<br />

bruger et modstrids bevis. Antag at l(ξn) er voksende, hvor ξn ∈ Λ og ξn går mod<br />

randen af Λ. Hvis følgen ξn er begrænset, kan vi tage en delfølge {nk}, så at ξn → k<br />

˜ξ /∈ Λ. Det følger af Lemma 2.17, at c(ξn ) → ∞ da c( ˜ξ) = ∞, og dermed fra (2.20),<br />

k<br />

at l(ξn ) → −∞, hvilket er en modstrid. Hvis i stedet følgen ξn er ubegrænset, kan vi<br />

k<br />

tage en delfølge på formen ξn = u k kek, hvor ek er en enhedsvektor i Rk med ek → e, og<br />

uk → ∞. Så giver Fatou’s lemma<br />

lim inf<br />

k<br />

e −l(ξn<br />

<br />

)<br />

k = lim inf e<br />

k<br />

ukek·(t(x)−t) ν(dx)<br />

<br />

≥ lim inf e<br />

k<br />

ukek·(t(x)−t) ν(dx)<br />

≥ ∞ · ν({x : e · (t(x) − t) > 0} = ∞,<br />

hvor det sidste lighedstegn følger af, at t ∈ intCt. Altså har vi igen at l(ξn k ) → −∞, og<br />

dermed en modstrid.<br />

Vi skal nu vise, at hvis t /∈ intCt, så antager l(ξ) ikke sit maksimum på Λ. Vi vil<br />

vise, at for ethvert ξ0 ∈ Λ findes der en retning e , så at når vi forlader ξ0 i e’s retning<br />

vokser l(ξ). Da t /∈ intCt findes der en enhedsvektor e, så at<br />

Derfor vil<br />

ν({x|e · (t(x) − t)) > 0} = 0.<br />

e −l(ξ0+λe)<br />

<br />

=<br />

e λe·(t(x)−t) e ξ0·(t(x)−t) ν(dx) (2.22)<br />

være aftagende i λ > 0. Den strenge konkavitet af l(ξ) giver, at (2.22) er strengt aftagende,<br />

og l(ξ) har derfor ikke maksimum i ξ0. <br />

Bemærkning 2.19 Bemærk at Sætning 2.18 viser, at i en regulær familie på minimal<br />

form, er<br />

τ(Λ) = intCt, (2.23)<br />

eftersom τ(ξ) = t medfører at l(·; t) har maksimum i ξ. Fra Observation 2.13 har vi<br />

altså, at τ(·) er en en-til-en afbildning af Λ på intCt. Da τ fra Sætning 2.11 er uendelig<br />

ofte differentiabel, gælder det samme for ˆξ(·) = τ −1 (·) : intCt → Λ.


16 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />

Den næste sætning angiver jeg uden bevis.<br />

Sætning 2.20. For en fuld eksponentiel familie med minimal repræsentation (2.11)<br />

gælder, at<br />

(i) t ∈ intCt ⇒ l(ξ; t) har entydigt bestemt maksimumspunkt ˆξ(t),<br />

(ii) t /∈ intCt ⇒ l(ξ; t) antager ikke sit supremum for ξ ∈ Λ ,<br />

(iii) t ∈ τ(intΛ) ⊆ intCt ⇒ ˆξ(t) er den entydigt bestemte løsning til ligningen τ(ξ) =<br />

t, med ξ ∈ intΛ. <br />

Bemærkning 2.21 Hvis t ∈ intCt\τ(intΛ), så skal det entydigt bestemte ˆξ(t) findes på<br />

randen af Λ. <strong>Et</strong> eksempel til belysning af situationen i Sætning 2.20 er tætheden<br />

1<br />

exp(−|x| + θx − κ(θ)),<br />

1 + x4 hvor Ct er hele R og τ(int Λ) er et endeligt interval. <br />

Jeg slutter dette afsnit med at se på situationen med n uafhængige og identisk fordelte<br />

variable X1, . . . , Xn, hvor fordelingen tilhører den eksponentielle familie (2.11).<br />

Den simultane tæthed er<br />

dPn ξ<br />

dνn (x1, . . . , xn) = c(ξ) −n <br />

exp ξ ·<br />

d.v.s. at vi har igen en eksponentiel familie af orden k idet :<br />

n<br />

∑<br />

1<br />

<br />

t(xi) ,<br />

Observation 2.22 Hvis 1, t1(x), . . . , t k(x) er lineært uafhængige n.s.−ν, så er også 1,<br />

∑ n 1 t1(x i), . . . , ∑ n 1 t k(x i) lineært uafhængige n.s.−ν n . <br />

Bevis.<br />

⇓<br />

⇓<br />

n<br />

c0 + c1 ∑<br />

1<br />

t1(x i) + · · · + c k<br />

n<br />

∑<br />

1<br />

t k(x i) = 0 n.s. − ν n<br />

∃ x2, . . . , xn så at der n.s-ν mht. x1 gælder:<br />

n<br />

n <br />

c0 + c1 t1(xi) + · · · + ck tk(xi) + c1t1(x1) + · · · + cktk(x1) = 0<br />

∑ 2<br />

∑ 2<br />

c k = · · · = c1 = c0 = 0. <br />

Log likelihood funktionen er<br />

ln(ξ) = ξ ·<br />

n<br />

∑<br />

1<br />

t(x i) − nκ(ξ) = nl(ξ; ¯t)<br />

med ¯t = ∑ t(x i)/n, og hvor l(ξ; t) er givet i (2.19). Estimation baseret på x1, . . . , xn er<br />

derfor som før med t erstattet af ¯t, og resultaterne fra Sætningerne 2.18 og 2.20 kan<br />

bruges.


2.6. MARGINALE OG BETINGEDE FORDELINGER 17<br />

Eksempel 2.23 (Normalfordelingen).<br />

I eksempel 2.14 så vi at normalfordelingerne med middelværdi µ og varians σ 2 med<br />

(µ, σ 2 ) ∈ R × R+ udgør en regulær eksponentiel familie. Den kanoniske observator er<br />

t(x) = (x, x 2 ) og støtten for T er<br />

Den konvekse støtte for T er derfor<br />

{(x, y) ∈ R 2 |y = x 2 }.<br />

Ct = {(x, y) ∈ R 2 |y ≥ x 2 }.<br />

Da ethvert punkt (x, x 2 ) er på randen af Ct vil maksimum likelihood estimaterne for<br />

(µ, σ 2 ) eller ξ = (µ/σ 2 , −1/(2σ 2 ) ikke eksistere når vi blot har én observation. Når vi<br />

istedet har n > 1 observationer x1, . . . , xn eksisterer maksimum likelihood estimaterne<br />

med sandsynlighed 1. Dette er fordi<br />

1<br />

n<br />

n<br />

∑<br />

i=1<br />

(x i, x 2 i<br />

1<br />

) =<br />

n (x1, x 2 1<br />

1 ) + · · · +<br />

n (xn, x 2 n) ∈ int Ct<br />

hvis der blot er to observationer der er forskellige. Udsagnet følger af at x → x 2 er en<br />

strengt konveks kurve og derfor vil en konveks kombination af forskellige punkter på<br />

denne kurve ikke ligge på kurven. <br />

2.6 Marginale og betingede fordelinger<br />

Vi betragter igen en fuld eksponentiel familie med minimal repræsentation (2.11). Lad<br />

ξ = (ξ (1) , ξ (2) ) og t(x) = (t (1) (x), t (2) (x)) være en opsplitning i de <strong>første</strong> m og de sidste<br />

(k − m) koordinater med 1 ≤ m < k. Hvad kan vi sige om de marginale fordelinger<br />

for t (2) (X) og de betingede fordelinger af t (1) (X) givet t (2) (X)?<br />

Observation 2.24 Der gælder generelt følgende formel for marginale tætheder<br />

<br />

dQU<br />

dQ<br />

(u) = EP (X) | U = u .<br />

dPU<br />

dP<br />

Bevis. Se afsnit 11.4. <br />

Benyttes denne for den marginale tæthed for t (2) (X) fås<br />

dP ξT (2)<br />

dP ξ0T (2)<br />

(v) = E ξ0<br />

= c(ξ0)<br />

c(ξ) E ξ0<br />

dPξ<br />

dP ξ0<br />

<br />

exp<br />

(X) | t (2) <br />

(X) = v<br />

<br />

(ξ (1) − ξ (1)<br />

0 ) · t(1) (X)<br />

<br />

| t (2) <br />

(X) = v exp<br />

(ξ (2) − ξ (2)<br />

0<br />

<br />

(2.24)<br />

<br />

) · v .<br />

Hvis vi ser på delklassen P0 = {P ξ|ξ ∈ Λ0} med Λ0 = {(ξ (1) , ξ (2) )|ξ (1) = ξ (1)<br />

0 }, er<br />

(2.24) på formen (2.1), og de marginale fordelinger af t (2) (X) udgør en ekponentiel<br />

familie P 0T (2).


18 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />

Hvis P er fuld, er P 0T (2) også fuld, idet<br />

<br />

exp[α · v]P ξ0T (2)(dv) = E ξ0 exp[α · t(2) (X)] = E ξ0 exp[0 · t(1) (X) + α · t (2) (X)]<br />

som er endelig, hvis og kun hvis (0, α) = ξ − ξ0 for et eller andet ξ ∈ Λ, d.v.s. α = ξ (2) −<br />

ξ0 (2) for ξ ∈ Λ, og vi får netop klassen P 0T (2). Hvis Λ er åben, er {α|ξ0 + (0, α) ∈ Λ} en<br />

åben mængde i R k−m , d.v.s. hvis P er regulær, er P 0T (2) også regulær.<br />

Vi vender os nu mod de betingede fordelinger.<br />

Observation 2.25 Lad P og Q være to sandsynlighedsmål på (X , A) med Q ≪ P. Lad<br />

(Y, B) være et andet målrum og lad t : X → Y være en målelig afbildning. Definer<br />

f (x) = dQ<br />

<br />

(x), g(t) =<br />

dP<br />

Så gælder der at Q(·|t) ≪ P(·|t) og<br />

dQ(·|t)<br />

(x) =<br />

dP(·|t)<br />

f (x)P(dx|t), D = {t|0 < g(t) < ∞}.<br />

⎧<br />

⎨<br />

f (x)<br />

g(t)<br />

t ∈ D<br />

⎩<br />

1 t /∈ D.<br />

Bemærk at PT({t|g(t) = ∞}) = 0 og dermed også QT({t|g(t) = ∞}) = 0. Desuden<br />

har vi fra Observation 2.24 også at QT({t|g(t) = 0}) = 0. Vi har altså at QT(D c ) = 0. <br />

Bevis. Se afsnit 11.4. <br />

Eksempel 2.26.<br />

Lad Q være fordelingen for (X1, . . . , Xn), hvor X-erne er uafhængige og<br />

Q(X i = 1) = 1 − Q(X i = 0) = θ,<br />

og lad P være den tilsvarende fordeling med θ = 1/2. Med U = X1 + · · · + Xn er<br />

og<br />

Fra Observation 2.25 får vi<br />

dQ(·|U = u)<br />

(x) =<br />

dP(·|U = u)<br />

dP<br />

(x) =<br />

d♯n <br />

1<br />

n ,<br />

2<br />

dQ<br />

d♯ n (x) = θu (1 − θ) n−u ,<br />

dQ<br />

dP (x) = 2n θ u (1 − θ) n−u .<br />

2 n θ u (1 − θ) n−u<br />

EP(2 n θ u (1 − θ) n−u |U = u) =<br />

2 n θ u (1 − θ) n−u<br />

2 n θ u (1 − θ) n−u EP(1|U = u)<br />

hvilket viser at den betingede fordeling af (X1, . . . , Xn) givet U = u er den samme<br />

uanset værdien af θ. <br />

= 1,


2.7. KOMPLETHED AF DEN MINIMALKANONISKE OBSERVATOR 19<br />

For den betingede fordeling af X givet t (2) (X) = u får vi<br />

dP ξ(·|t (2) (X) = u)<br />

dP ξ0 (·|t(2) (X) = u) =<br />

=<br />

e (ξ−ξ0)·t(x)<br />

E ξ0 (e(ξ−ξ0)·t(X) |t (2) (X) = u)<br />

e (ξ(1) −ξ (1)<br />

0 )·t(1) (x)<br />

E ξ0 (e(ξ(1) −ξ (1)<br />

0 )·t(1) (x) |t (2) (X) = u)<br />

For en fast værdi af u udgør de betingede fordelinger således en eksponentiel familie.<br />

Denne betingede familie er ikke nødvendigvis fuld, selvom P er fuld.<br />

Ovenfor betragtede vi de <strong>første</strong> m og sidste k − m koordinater i ξ og t(x). Generelt<br />

kan vi lade A2 være en k × (k − m) matrix af fuld rang k − m. Denne supplerer vi med<br />

A1: k × m så at<br />

A = (A1, A2)<br />

er en invertibel k × k matriks. Da<br />

ξ · t(x) = ξt(x) ∗ = [ξ A ∗−1 ][t(x)A] ∗ ,<br />

kan vi opskrive P som en eksponentiel familie med minimal kanonisk observator<br />

˜t(x) = t(x)A og minimal kanonisk parameter ˜ξ = ξA ∗−1 . Vi har derfor:<br />

Sætning 2.27. Lad P være en regulær familie og lad A være som ovenfor. Så udgør<br />

de marginale fordelinger for ˜t (2) (X) = t(X)A2 i delmodellen med ˜ξ (2) fast en regulær<br />

eksponentiel familie. <br />

Bemærkning 2.28 Hvis vi betragter en delmodel givet ved {P ξ|ξ ∈ ˜Λ}, hvor ˜Λ ⊂ Λ<br />

er åben, vil det kanoniske parameterområde for de marginale fordelinger af t(X)A2<br />

under ˜ξ (2) fast også være åben. Når det kanoniske parameterområde er åbent, taler vi<br />

om en åben eksponentiel familie.<br />

2.7 Komplethed af den minimalkanoniske observator<br />

For en general klasse P af sandsynlighedsmål på målrummet (X , A), og en generel<br />

observator t : (X , A) → (Y, B) med værdier i målrummet (Y, B), skal jeg nu definere<br />

komplethed. Intuitivt skal vi formalisere, at klassen P er stor nok til, at en funktion er<br />

entydigt fastlagt ud fra dens middelværdier under P, P ∈ P.<br />

Definition 2.29 Observatoren T = t(X) siges at være komplet under P (henholdsvis<br />

begrænset komplet) hvis der for enhver funktion f : (Y, B) → (R, B(R)) (henholdsvis<br />

enhver begrænset funktion) med<br />

<br />

EP f (T) = f (t(x))P(dx) = 0 ∀ P ∈ P,<br />

gælder at<br />

f (t(x)) = 0 n.s. − P for alle P ∈ P.


20 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />

Observation 2.30 Hvis T er komplet, så er T også begrænset komplet. <br />

Observation 2.31 Hvis T er komplet, så er også ˜T = g(T) komplet, hvor g er en målelig<br />

afbildning fra Y til ˜Y. <br />

Bevis. Antag, at EP f ( ˜T) = EP f (g(T)) = 0 for alle P ∈ P. Heraf følger, at f (g(t(x))) =<br />

f (˜t(x)) = 0 n.s.-P for alle P ∈ P. <br />

Sætning 2.32. Lad P = {P ξ|ξ ∈ Λ0} være en eksponentiel familie på minimal form<br />

dP ξ<br />

dµ (x) = a(ξ)b(x)eξ·t(x) , x ∈ X , ξ ∈ Λ0 ⊆ R k .<br />

Vi antager ikke her, at Λ0 er det fulde parameter område. Hvis intΛ0 = ∅, er T = t(X)<br />

komplet under P = {P ξ|ξ ∈ Λ0}. <br />

Bevis. Lad ξ0 ∈ Λ0 og lad f : R k → R opfylde<br />

<br />

0 =<br />

a(ξ)b(x)e ξ·t(x) f (t(x))µ(dx) = a(ξ)<br />

<br />

a(ξ0)<br />

e (ξ−ξ0)·t(x)<br />

f (t(x))Pξ0 (dx), (2.25)<br />

for alle ξ ∈ Λ0. Lad f + (t) = f (t)1( f (t) > 0) og f − (t) = − f (t)1( f (t) < 0), og definer<br />

de to mål ν + og ν − på (R k , B(R k )) ved<br />

dν +<br />

dP ξ0T<br />

(t) = f + (t) og dν−<br />

(t) = f<br />

dPξ0T − (t).<br />

Disse to mål er endelige, idet f er P ξ-integrabel for alle ξ ∈ Λ0. Så viser (2.25), at<br />

<br />

e (ξ−ξ0)·t<br />

<br />

+<br />

ν (dt) =<br />

e (ξ−ξ0)·t ν − (dt) ∀ ξ ∈ Λ0.<br />

Denne ligning siger, at Laplacetransformerne for de to mål ν + og ν − stemmer overens<br />

på Λ0 − ξ0. Da int(Λ0 − ξ0) = ∅ følger det af JHJ, afsnit 4.19, at ν + = ν − . Dette giver<br />

til gengæld, at<br />

f + (t) = f − (t) n.s. − P ξ0T,<br />

og dermed fra definitionen af f + og f − , at<br />

Observationen 2.2 giver så, at<br />

f (t) = 0 n.s. − P ξ0T.<br />

f (t(x)) = 0 n.s. − P ξ for alle ξ ∈ Λ0. <br />

Eksempel 2.33.<br />

Lad X være binomialfordelt med antalsparameter n og sandsynlighedsparameter θ. Så<br />

siger sætningen ovenfor, at hvis<br />

E θ f (X) = 0 ∀ 0 < θ < 1,


2.8. OPGAVER 21<br />

så vil der gælde, at f (0) = f (1) = · · · = f (n) = 0. Lad os vise dette direkte. Vi har<br />

altså, at<br />

<br />

θ x (1 − θ) n−x = 0<br />

n <br />

n<br />

∑ f (x)<br />

x<br />

x=0<br />

for alle θ. Lader vi nu θ → 0, forsvinder alle led i summen pånær det <strong>første</strong>, som bliver<br />

f (0). Vi kan altså slutte, at f (0) = 0. Vi dividerer nu ligningen ovenfor med θ og lader<br />

igen θ → 0. Dette giver os, at f (1) = 0, og sådan fortsætter vi, indtil vi har vist, at f er<br />

identisk nul. <br />

2.8 Opgaver<br />

Opgave 2.1 Opskriv hver af familierne nedenfor på eksponentiel familieform. Angiv<br />

støtten for den kanoniske observator T, den konvekse støtte Ct, samt variationsområdet<br />

Λ0 for den kanoniske parameter og det fulde parameterområde Λ. Udregn desuden<br />

middelværdi og varians for den kanoniske observator.<br />

a) Binomialfordelingerne med antalsparameter n fast og sandsynlighedsparameter<br />

0 < θ < 1.<br />

b) Poissonfordelingerne med parameter λ > 0. Find i dette tilfælde også skævhed<br />

og kurtosis af en poissonfordelt variabel.<br />

c) Normalfordelingerne med middelværdi µ og varians σ 2 med (µ, σ 2 ) ∈ R × R+.<br />

d) Gammafordelingerne med formparameter λ og invers skalaparameter β med<br />

(λ, β) ∈ R 2 + .<br />

Opgave 2.2 Find det fulde parameterområde Λ for den eksponentielle familie med<br />

tætheder<br />

dPξ dm (x) = a(ξ)b(x)eξx i tilfældene<br />

, x ∈ R,<br />

(i) b(x) = e −|x| og (ii) b(x) = e−|x|<br />

.<br />

1 + x2 Her er m Lebesguemålet på R.<br />

Opgave 2.3 Betragt en eksponentiel familie på formen (2.1) med t(x) ∈ R k . Vis, at hvis<br />

støtten for T er begrænset, og familien er ikke tom, så er det fulde parameterområde Λ<br />

lig med R k .<br />

Opgave 2.4 Denne opgave er en hjælp til jer, når I skal vise affin uafhængighed næsten<br />

sikkert.<br />

Lad (X , A, µ) være et metrisk målrum, hvor målet µ giver strengt positivt mål til<br />

enhver åben kugle. Lad desuden t1, . . . , t k være kontinuerte funktioner fra X ind i R.<br />

Vis, at hvis t1(·), . . . , t k(·) er affint uafhængige som funktioner på X , så er de også<br />

affint uafhængige næsten sikkert med hensyn til µ.


22 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />

Vink: Lad (α0, . . . , α k) = 0. Så findes x0 ∈ X , så at α0 + α1t1(x0) + · · · + α kt k(x0) = 0.<br />

Overvej, at<br />

{x ∈ X |α0 + α1t1(x) + · · · + α kt k(x) = 0}<br />

er en åben og ikke-tom mængde, og dermed har positivt µ-mål.<br />

Opgave 2.5 Denne opgave viser, at den minimal kanoniske observator kan være komplet,<br />

selv om det indre af det kanoniske paramterområde er tomt.<br />

Lad X og Y være uafhængige og Poissonfordelte med EX = θ −1 og EY = exp(−θ),<br />

hvor parameteren θ varierer i R+. Vis, at dette er en eksponentiel familie af orden 2<br />

med kanonisk observator t(x, y) = (x, y) og kanonisk parameter (− ln θ, −θ). Vis, ved<br />

direkte undersøgelser, at (X, Y) er komplet.<br />

Vink: Hvis E θ f (X, Y) = 0 for alle θ, vis da først at f (0, 0) = 0 ved at lade θ → ∞,<br />

dernæst f (k, 0) = 0 for alle k > 0, og endelig at f (k, l) = 0 for alle k > 0 og l > 0.<br />

Opgave 2.6 Betragt en eksponentiel familie på minimal form<br />

dP θ<br />

dµ (x) = a(θ)b(x)eϕ(θ)·t(x) ,<br />

hvor ϕ : Θ → R k og Θ er et åbent område i R k . Vis at<br />

og<br />

E θt(X) = τ(ϕ(θ)) =<br />

V θt(X) =<br />

∂(− ln a(θ))<br />

∂θ<br />

∂ϕ ∗<br />

<br />

∂ϕ<br />

∂θ∗ −1 ∂Eθt(X)<br />

∂θ∗ .<br />

Opgave 2.7 Lad (X1, Y1), (X2, Y2), . . . , (Xn, Yn) være n uafhængige observationer fra<br />

den todimensionale normalfordeling med middelværdivektor (0, 0) og variansmatrix<br />

<br />

1 ρ<br />

ρ 1<br />

∂θ<br />

−1<br />

hvor korrelationskoefficienten ρ har intervallet (−1, 1) som variationsområde.<br />

1) Vis at den således fastlagte familie af fordelinger for samplet (X1, Y1), . . . , (Xn, Yn)<br />

er eksponentiel, bestem ordenen af denne eksponentielle familie, og angiv en<br />

minimal kanonisk observator og en minimal kanonisk parameter. Er familien<br />

fuld?<br />

2) Opstil likelihoodligningen for ρ.<br />

Lad nu (X1, Y1), (X2, Y2), . . . , (Xn, Yn) være n uafhængige observationer fra den todimensionale<br />

normalfordeling med middelværdivektor (0, 0) og variansmatrix<br />

<br />

σ2 ρσ2 <br />

ρσ 2 σ 2<br />

hvor korrelationskoefficienten ρ har intervallet (−1, 1) som variationsområde og σ 2 ><br />

0.


2.8. OPGAVER 23<br />

3) Vis, at dette er en fuld eksponentiel familie.<br />

Opgave 2.8 Antag, at X−1 og X1 er uafhængige og Poissonfordelte med middelværdi<br />

λ i = 1 2 eα+iβ , i = −1 og 1.<br />

Lad P = {P (α,β) : (α, β) ∈ R 2 } betegne klassen af fordelinger for X = (X−1, X1).<br />

1) Vis, at P er en regulær eksponentiel familie af orden 2.<br />

2) Angiv definitionsområdet D for maximum likelihood estimatoren (ˆα, ˆβ) og vis,<br />

at hvis x ∈ D, så er<br />

<br />

ˆα(x) = ln 2 <br />

X−1X1<br />

og<br />

ˆβ(x) = ln<br />

<br />

X1<br />

X−1<br />

3) Vis, at informationsfunktionen svarende til observationen (x−1, x1) er<br />

4) Lad<br />

j(α, β) =<br />

<br />

e α cosh(β) e α sinh(β)<br />

e α sinh(β) e α cosh(β)<br />

.<br />

<br />

.<br />

τ = e α cosh(β) (= E (α,β)(X−1 + X1)).<br />

Vis, at P kan parametriseres ved (τ, β) samt at variationsområdet for (τ, β) er<br />

(0, ∞) × (−∞, ∞).<br />

Opgave 2.9 (Den logaritmiske fordeling) Definer sandsynlighedsmålet Pθ, 0 < θ < 1, på<br />

X = {1, 2, . . .} ved<br />

dPθ θx<br />

(x) = (− log(1 − θ))−1<br />

d♯ x ,<br />

hvor ♯ er tællemålet. Opskriv familien på eksponentiel familieform. Angiv støtten for<br />

den kanoniske observator T, den konvekse støtte Ct, samt variationsområdet Λ0 for<br />

den kanoniske parameter og det fulde parameterområde Λ. Udregn desuden middelværdi<br />

og varians for den kanoniske observator.<br />

Opgave 2.10 (Den negative binomialfordeling) Definer sandsynlighedsmålet P θ, 0 < θ <<br />

1, på X = {0, 1, 2, . . .} ved<br />

<br />

dPθ κ + x − 1<br />

(x) =<br />

d♯ x<br />

<br />

θ x (1 − θ) κ ,<br />

hvor ♯ er tællemålet og κ > 0 er en fast parameter. Opskriv familien på eksponentiel familieform.<br />

Angiv støtten for den kanoniske observator T, den konvekse støtte Ct, samt<br />

variationsområdet Λ0 for den kanoniske parameter og det fulde parameterområde Λ.<br />

Udregn desuden middelværdi og varians for den kanoniske observator.


24 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />

Opgave 2.11 (Den inverse gauss fordeling) Definer sandsynlighedsmålet P (χ,ψ), (χ, ψ) ∈<br />

R 2 + , på X = R+ ved<br />

dP (χ, ψ)<br />

(x) =<br />

dm<br />

√ χ exp( √ χψ)<br />

√ 2πx 3<br />

<br />

exp − χ<br />

2x<br />

<br />

ψx<br />

− ,<br />

2<br />

hvor m er lebesguemålet. Opskriv familien på eksponentiel familieform. Angiv støtten<br />

for den kanoniske observator T, den konvekse støtte Ct, samt variationsområdet<br />

Λ0 for den kanoniske parameter og det fulde parameterområde Λ. Udregn desuden<br />

middelværdi og varians for den kanoniske observator.


Kapitel 3<br />

Sufficiens<br />

3.1 Indledning og definition<br />

Når data i et forsøg er indsamlet, vil man naturligt stille sig spørgsmål som „Hvad<br />

er de væsentlige træk i data?“ og „Hvor er informationen om de ukendte aspekter i<br />

de forhold, der undersøges?“ Med andre ord vil vi gerne reducere et stort og uoverskueligt<br />

datamateriale til nogle få interpretérbare størrelser. Som nævnt i indledningen<br />

betragter vi i dette notesæt udelukkende parametriske modeller. Vores udgangspunkt<br />

er altså, at vi har valgt en parametrisk model til at beskrive forsøget, og vi ønsker nu<br />

at undersøge hvilke reduktioner i data, vi kan udføre uden at miste information om<br />

den ukendte parameter. Hvis data er x , og T = t(x) er en reduktion af data, vil vi formalisere<br />

at T er sufficient for parameteren ved at forlange, at den betingede fordeling<br />

af X givet t(X) = t ikke afhænger af den ukendte parameter. Ideen er, at vi altid kan<br />

betragte forsøget som bestående af to trin: i <strong>første</strong> trin observeres T = t og dernæst<br />

observeres x fra den betingede fordeling af X givet T = t. Det sidste trin giver ingen<br />

information om parameteren, eftersom sandsynlighederne for de forskellige udfald er<br />

de samme for alle parameterværdierne. Man kan sige, at denne begrundelse bygger på<br />

et ikke nærmere specificeret selvvalgt princip for inferens, og lad mig derfor påpege, at<br />

de forskellige optimalitetsegenskaber, vi skal betragte, medfører, at vi kan nøjes med<br />

at betragte en sufficient reduktion af data. Som et simpelt eksempel kan jeg nævne, at<br />

maksimum likelihood estimatet kun afhænger af data gennem en sufficient observator.<br />

Når først begrebet „en sufficient observator“ er indført, melder der sig to oplagte<br />

spørgsmål. Det ene er, hvordan vi afgør, at en given observator er sufficient? Vi skal<br />

afklare dette spørgsmål gennem den såkaldte faktoriseringssætning. Denne siger, at hvis<br />

tætheden for x er et produkt af to led, hvor det ene ikke afhænger af parameteren<br />

og det andet kun afhænger af x gennem t(x), så er T sufficient. Det andet spørgsmål<br />

går på, om vi kan finde en minimal sufficient observator? Altså forsøge at finde den<br />

størst mulige reduktion af data. Svaret her er - løst sagt - at likelihoodfunktionen er en<br />

minimal sufficient observator.<br />

Jeg giver nu den matematiske definition på en sufficient observator. Det basale udfaldsrum<br />

er målrummet (X , A). Den statistiske model består af en klasse P af sandsynlighedsmål<br />

på (X , A). Lad (Y, B) være et andet målrum og lad t : X → Y være en<br />

målelig afbildning.<br />

25


26 KAPITEL 3. SUFFICIENS<br />

Definition 3.1 Antag at der for ethvert P ∈ P eksisterer en regulær betinget sandsynlighed<br />

PT (A|t), A ∈ A , t ∈ Y, af P givet T. Lad P0 være et vilkårligt element i P.<br />

Observatoren T kaldes sufficient for P hvis PT 0 (·|·) er en regulær betinget sandsynlighed<br />

af P givet T for ethvert P ∈ P, d.v.s.<br />

<br />

B<br />

P T 0 (A|t)PT(dt) = P(A ∩ t −1 (B)), ∀ A ∈ A, ∀ B ∈ B, ∀ P ∈ P. (3.1)<br />

Regulære betingede sandsynligheder er betingede sandsynligheder P T (·|·) af P givet<br />

T, som opfylder<br />

(i) P T (·|t) er et sandsynlighedsmål på X for alle t ∈ Y,<br />

(ii) P T (A|·) er målelig for alle A ∈ A,<br />

(iii) <br />

B PT (A|t)PT(dt) = P(A ∩ t −1 (B)) ∀ A ∈ A, ∀ B ∈ B.<br />

Formuleret sprogligt siger definition 3.1, at alle de regulære sandsynligheder P T (·|·),<br />

P ∈ P, er identiske. For at gøre notationen mere overskuelig vil jeg ofte betegne<br />

den fælles betingede sandsynlighed med π(A|t), hvor så ifølge (i) og (ii) π(·|·) er en<br />

Markovkerne. Jeg vil også ofte skrive P(A|T = t) i stedet for P T (A|t).<br />

Jeg antager i hele dette kapitel, at regulære betingede sandsynligheder eksisterer,<br />

og nævner det derfor ikke eksplicit i det følgende. Det er vist for nylig, at regulære<br />

betingede sandsynligheder eksisterer i næsten alle situationer, og jeg vil derfor ikke<br />

her komme ind på de nødvendige regularitetsbetingelser. I opgave 3.2 og 3.3 er det<br />

beskrevet hvordan den generelle definition på en regulær betinget sandsynlighed passer<br />

sammen med mere velkendte definitioner i specialtilfælde. Intuitivt forventer vi<br />

generelt at P T (T = t|t) = 0. I JHJ 10.3 er det imidlertid vist at dette ikke altid holder.<br />

Vi må forlange at grafen {(x, t(x)|x ∈ X } tilhører produkt sigma-algebraen A × B.<br />

Ifølge JHJ opgave 1.83, 1.84, og 1.89 vil dette være opfyldt hvis Y er et metrisk rum<br />

med en tællelig tæt mængde og B er Borel sigma-algebraen. Specielt er vores intuitive<br />

fornemmelse at P T (T = t|t) = 0 altså korrekt, hvis t afbilder ind i R k .<br />

Jeg har i afsnit 11.3, 11.4 og 11.5 skrevet nogle vigtige resultater ned for betingede<br />

middelværdier og betingede sandsynligheder.<br />

3.2 Tilfældet med diskret udfaldsrum X<br />

Når udfaldsrummet X er diskret, er det nemt at angive de betingede sandsynligheder:<br />

⎧<br />

⎪⎨<br />

P(X=x)<br />

P(T=t)<br />

P(X = x|T = t) =<br />

⎪⎩<br />

0<br />

hvis P(T = t) > 0 og t(x) = t<br />

hvis t(x) = t<br />

hvis P(T = t) = 0 og t(x) = t<br />

(3.2)<br />

qt<br />

hvor qt er en vilkårlig sandsynlighed med ∑x qt(x) = 1. Det er derfor nemt at angive<br />

om en observator T er sufficient eller ej.


3.3. DET GENERELLE TILFÆLDE 27<br />

Sætning 3.2. (Faktoriseringssætningen i det diskrete tilfælde)<br />

Observatoren T er sufficient for P, hvis og kun hvis der eksisterer en funktion h : X →<br />

R og for ethvert P ∈ P eksisterer en funktion gP : Y → R, så at<br />

Bevis. Hvis (3.3) er opfyldt, vil<br />

og<br />

P(X = x) = gP(t(x))h(x) ∀ x ∈ X . (3.3)<br />

<br />

P(T = t) = gP(t)H(t), hvor H(t) = ∑<br />

z:t(z)=t<br />

h(z),<br />

⎧<br />

⎨ h(x)/H(t) hvis t(x) = t og H(t) > 0<br />

P(X = x|T = t) = 0<br />

⎩<br />

qt(x)<br />

hvis t(x) = t<br />

hvis H(t) = 0, og t(x) = t<br />

som ikke afhænger af P, og T er derfor sufficient.<br />

Omvendt, hvis den betingede sandsynlighed i (3.2) ikke afhænger af P, og lad os<br />

betegne den med π(x|t), så fås<br />

P(X = x) = P(T = t(x))π(x|t(x)),<br />

som er på formen (3.3). <br />

3.3 Det generelle tilfælde<br />

Jeg vil nu betragte et generelt målrum (X , A) og en klasse P af sandsynlighedsmål,<br />

som er domineret af et σ-endeligt mål µ , d.v.s. P ≪ µ for alle P ∈ P. Lad os først<br />

registrere at µ er ækvivalent med et sandsynlighedsmål.<br />

Lemma 3.3 Der eksisterer en målelig funktion ϕ fra X ind i R med ϕ(x) > 0 og<br />

d ˜µ<br />

ϕ(x)µ(dx) = 1. Målet ˜µ defineret ved dµ (x) = φ(x) er således et sandsynlighedsmål<br />

ækvivalent med µ. <br />

Bevis. Da µ er σ-endeligt eksisterer der en følge An ∈ A, n = 1, . . ., (eventuelt endelig)<br />

der vokser op mod X med µ(An) < ∞. Vi kan antage at An ⊂ An+1 og µ(Cn) > 0 med<br />

Cn = An\An−1 og C1 = A1. Vi definerer da<br />

ϕ(x) =<br />

∞<br />

∑ anµ(Cn)<br />

1<br />

−1 1Cn (x),<br />

hvor an er positive tal med ∑ ∞ 1 an = 1. Denne funktion har de ønskede egenskaber. <br />

Sætning 3.4. (Faktoriseringssætningen generelt)<br />

Lad P være domineret af det σ -endelige mål µ. Så er T sufficient, hvis og kun hvis der<br />

eksisterer en målelig funktion k : X → R og for ethvert P ∈ P en målelig funktion<br />

gP : Y → R, så at<br />

dP<br />

dµ (x) = gP(t(x))k(x). (3.4)


28 KAPITEL 3. SUFFICIENS<br />

Bevis. Vi viser først at (3.4) medfører at T er sufficient. Lad ˜µ være sandsynlighedsmålet<br />

fra Lemma 3.3. Så siger antagelsen (3.4) at<br />

dP<br />

d ˜µ (x) = gP(t(x)) ˜ k(x), k(x) ˜<br />

k(x)<br />

= . (3.5)<br />

φ(x)<br />

Vi vil vise at T er sufficient ved at konstruere en markovkerne og vise at denne kan<br />

bruges som betinget sandsynlighed givet T under P for ethvert P ∈ P.<br />

Definer<br />

<br />

h(t) = ˜k(x) ˜µ T (dx|t), D = {t|0 < h(t) < ∞}.<br />

Fra Observation 2.17 og (3.5) har vi<br />

<br />

dPT<br />

(t) = gP(t(x))<br />

d ˜µT<br />

˜ k(x) ˜µ T (dx|t) = gP(t)h(t),<br />

og<br />

PT(D c <br />

) =<br />

Dc gP(t)h(t) ˜µT(dt) = 0,<br />

da integralet vil være enten 0 eller uendelig, men sandsynligheden skal være mindre<br />

end eller lig med 1. Definer nu<br />

f (x|t) =<br />

<br />

˜k(x)<br />

h(t)<br />

t ∈ D<br />

1 t /∈ D,<br />

<br />

F(A|t) =<br />

A<br />

f (x|t) ˜µ T (dx|t).<br />

Så er F en markovkerne og denne vil være vores kandidat til den fælles betingede<br />

sandsynlighed for P ∈ P. Da<br />

<br />

F(A|t)PT(dt) =<br />

B<br />

<br />

(11.1) =<br />

<br />

=<br />

B∩D<br />

<br />

<br />

A<br />

˜k(x)<br />

h(t) ˜µT <br />

(dx|t) gP(t)h(t) ˜µT(dt)<br />

1B∩D(t(x))1A(x)gP(t(x)) ˜ k(x) ˜µ(dx)<br />

1B∩D(t(x))1A(x)P(dx)<br />

= P(A ∩ t −1 (B))<br />

ses at F er betinget sandsynlighed givet T under P og T er derfor sufficient.<br />

For at vise den omvendte implikation antager vi nu at T er sufficient og skal vise<br />

(3.4). Lad π(·|·) være den fælles betingede sandsynlighed for P ∈ P, og lad sandsynlighedsmålet<br />

˜µ være som ovenfor. Da P har tæthed m.h.t. ˜µ definerer vi<br />

Idet<br />

gP(t) = dPT<br />

(t) og<br />

d ˜µT<br />

˜ k(x) = k1(x, t(x)) med k1(x, t) = dπ(·|t)<br />

d ˜µ T (·|t) (x).<br />

<br />

<br />

<br />

P(A) = π(A|t)PT(dt) = 1A(x)π(dx|t) PT(dt)<br />

<br />

= 1A(x)k1(x, t) ˜µ T <br />

(dx|t) gP(t) ˜µT(dt)<br />

<br />

= 1A(x)gP(t(x)) ˜ k(x) ˜µ(dx)


3.4. MINIMAL SUFFICIENTE OBSERVATORER 29<br />

ses det at P har tæthed gP(t(x)) ˜ k(x) m.h.t. ˜µ. Dermed har vi<br />

dP dP ˜µ<br />

(x) = (x)d<br />

dµ d ˜µ dµ (x) = gP(t(x)) ˜ d ˜µ<br />

k(x) (x) = gP(t(x))k(x),<br />

dµ<br />

hvor k(x) er produktet af de to sidste tætheder. Hermed har vi vist (3.4). <br />

3.4 Minimal sufficiente observatorer<br />

Det er klart, at X selv er sufficient for P, men dette er ikke et særligt interessant udsagn.<br />

Vi ønsker i stedet at finde en sufficient observator T med „så få værdier som muligt“.<br />

Vi definerer derfor:<br />

Definition 3.5 En observator T0 = t0(X), t0 : (X , A) → (Y0, B0), siges at være minimal<br />

sufficient for P såfremt<br />

(i) T0 er sufficent ,<br />

(ii) hvis T = t(X), t : X → Y, er en sufficient observator, så eksisterer der en funktion<br />

f : (Y, B) → (Y0, B0), så at<br />

t0(x) = f (t(x)) n.s. − P ∀ P ∈ P. (3.6)<br />

Jeg vil starte med to lemmaer, der kan hjælpe m.h.t. om der eksisterer en funktion<br />

f , så at (3.6) er opfyldt. Vi antager som før, at P er domineret af et σ -endeligt mål µ.<br />

Det <strong>første</strong> lemma er en hjælp til at klare „n.s.-P ∀ P ∈ P“. Vi vil konstruere et sandsynlighedsmål<br />

λ så at nulmængderne for λ er de samme som de fælles nulmængder for<br />

familien P.<br />

Lemma 3.6 Hvis P er domineret af et σ-endeligt mål, eksisterer der en tællelig delmængde<br />

{Pn} ∞ n=1 af P, så at der for A ∈ A gælder<br />

Pn(A) = 0 ∀ n ⇒ P(A) = 0 ∀ P ∈ P.<br />

Definer λ = ∑ ∞ n=1 1<br />

2 n Pn. Så er λ et sandsynlighedsmål der opfylder<br />

P(A) = 0 ∀ P ∈ P ⇔ λ(A) = 0 for A ∈ A. (3.7)<br />

Bevis. Lad sandsynlighedsmålet ˜µ være defineret som i Lemma 3.3. Lad for P ∈ P<br />

<br />

AP = x | dP<br />

<br />

(x) > 0 . (3.8)<br />

dµ<br />

Ideen er nu, at vi gerne vil vælge P1, P2, . . . så at ˜µ(∪ ∞APn 1 ) = 1. Ækvivalent hermed<br />

skal vi forsøge at finde B1, B2, . . . med Bn ⊆ APn , så at ˜µ(∪∞ 1 Bn) = 1. Dette valg laver<br />

vi nu implicit ved at definere<br />

s = sup{ ˜µ(C)|C = ∪ ∞ 1 Bn hvor Bn ∈ A, ˜µ(Bn) > 0, og ∀ n ∃ P ∈ P : Bn ⊆ AP}. (3.9)


30 KAPITEL 3. SUFFICIENS<br />

Da s er et supremum, kan vi finde en følge C1, C2, . . . , så at s = lim ˜µ(Cn). Sættes<br />

C = ∪∞ 1 Cn vil ˜µ(C) = s. Da alle Cn, n ≥ 1, er en forening af B mængder, har vi, at<br />

C = ∪∞ 1 Bn, hvor ˜µ(Bn) > 0, og for ethvert n eksisterer der Pn ∈ P, så at Bn ⊆ APn . De<br />

således valgte {Pn} ∞ n=1 er kandidaterne til at opfylde betingelsen i lemmaet.<br />

Lad A ∈ A med Pn(A) = 0 for alle n og lad P ∈ P. Vi skal vise at P(A) = 0. Da<br />

P ≪ ˜µ er det nok at vise at ˜µ(A ∩ C c ) = 0 og ˜µ(A ∩ C) = 0.<br />

Vi kan antage at A ⊆ AP, idet P(A) = P(A ∩ AP). Fra definitionen (3.9) af s har vi<br />

s = ˜µ(A ∪ C) = ˜µ(C) + ˜µ(A ∩ C c ) = s + ˜µ(A ∩ C c ),<br />

og dermed ˜µ(A ∩ C c ) = 0.<br />

Da Pn(A) = 0 og dPn<br />

d ˜µ (x) > 0 på A ∩ Bn må ˜µ(A ∩ Bn) = 0. Dermed fås<br />

˜µ(A ∩ C) = ˜µ(A ∩ [∪∞ 1 Bn])<br />

∞<br />

≤ ∑<br />

1<br />

˜µ(A ∩ Bn) = 0.<br />

Med λ defineret som i lemmaet er det klart at λ(A) = 0 er ækvivalent med Pn(A) = 0<br />

for alle n og dermed ækvivalent med P(A) = 0 for alle P ∈ P. <br />

Lad os bemærke at hvis alle målene i P er indbyrdes ækvivalente, P1 ≪ P2 ∀ P1, P2 ∈<br />

P, så kan vi tage λ = P0 for et vilkårligt P0 ∈ P. <strong>Et</strong> andet eksempel paa konstruktionen<br />

af λ er hvis vi kan finde {P i}, så at ∪ iAP i = X , med AP i fra (3.8),<br />

Lad i det følgende N være nulmængderne for λ:<br />

N = {A ∈ A|λ(A) = 0}.<br />

Da den betingede middelværdi E(q(X)|T) er σ(t)-målelig kan vi skrive den som en<br />

målelig funktion af t(X). I lemmaet nedenfor benytter vi betegnelsen E(q(X)|T) =<br />

φq(t(X)).<br />

Lemma 3.7 Lad t : (X , A) → (Y, B) og lad q : (X , A) → (R, B(R)). Hvis σ(q) ⊆<br />

σ(σ(t), N ) så er<br />

q(x) = φq(t(x)) n.s. − λ. <br />

Bevis. Vi kan antage at q ≥ 0, idet vi ellers kan vise resultatet seperat for den positive<br />

og den negative del af q. Når q ≥ 0 kan vi vælge en følge qn, der opfylder<br />

qn(x) =<br />

n<br />

∑ c<br />

i=1<br />

n i 1An i (x), An i ∈ σ(t, N ) og qn ≤ q, lim qn = q.<br />

n<br />

Fra egenskaberne ved qn har vi at φq(t) = limn φqn (t).<br />

Hvis qn(x) = φqn (t(x)) n.s.-λ kan vi skrive<br />

qn(x) = 1 N c n (x)φqn (t(x)) + 1Nn (x)qn(x) med λ(Nn) = 0. (3.10)<br />

Lad M = ∪∞ i=1Ni som også er en λ-nulmængde. Så er (3.10) også opfyldt med Nn<br />

erstattet af M. Da q = limn qn har vi<br />

<br />

q(x) = lim qn(x) = lim 1Mc(x)φqn (t(x)) + 1M(x)qn(x)<br />

n n<br />

= 1M c(x)φq(t(x)) + 1M(x)q(x),


3.4. MINIMAL SUFFICIENTE OBSERVATORER 31<br />

det vil sige<br />

q(x) = φq(t(x)) n.s. − λ.<br />

Vi mangler derfor at vise, at qn(x) = φqn (t(x) n.s.-λ, men da qn er en sum af indikatorfunktioner,<br />

er det nok at vise<br />

Lader vi<br />

1A(x) = φ1 A (t(x)) n.s. − λ for A ∈ σ(t, N ). (3.11)<br />

D = {A ∈ A | 1A(x) = φ1 A (t(x)) n.s. − λ}<br />

ser vi fra additivitets- og konvergensegenskaber ved betingede middelværdier, at D<br />

en σ -algebra. Hvis A ∈ σ(t) er φ1 A (t(x)) = 1A(x), det vil sige σ(t) ⊆ D. Hvis A ∈ N<br />

er φ1 A (t(x)) = 0 = 1A(x) n.s.-λ og N ⊆ D. Da D er en σ-algebra, har vi derfor, at<br />

σ(t, N ) ⊆ D, og dermed er (3.11) vist. <br />

Lemma 3.7 udtaler sig om reelle stokastiske variable q(X) . For at kunne benytte resultatet<br />

generelt, skal jeg så at sige for en vilkårlig stokastisk variabel „konstruere en<br />

ækvivalent“ reel variabel. Til dette skal jeg bruge separabilitet af en σ-algebra, d.v.s.<br />

σ-algebraen er frembragt af en tællelig klasse af mængder.<br />

Lemma 3.8 Lad C ⊆ A være en del σ-algebra. Så er C separabel, hvis og kun hvis der<br />

eksisterer en funktion f : (X , A) → (R, B(R)), så at C = σ( f ). <br />

Bevis. Hvis C er separabel lad C = σ(A1, A2, . . . ) og definer<br />

f (x) =<br />

∞<br />

∑ 10<br />

n=1<br />

−n 1An (x).<br />

Det er da klart, at σ( f ) = C idet σ( f ) ⊆ C , og det er muligt at vælge Bn ∈ B(R), så at<br />

f −1 (Bn) = An. For eksempel har vi at<br />

A1 = f −1 ([0.1, 0.2]), og A2 = f −1 ([0.01, 0.02] ∪ [0.11, 0.12]).<br />

Omvendt hvis C = σ( f ), kan vi tage B1, B2, . . . i B(R), så at B(R) = σ(B1, B2, . . . ),<br />

og dermed<br />

C = σ( f −1 (B1), f −1 (B2), . . . ),<br />

d.v.s. C er separabel. <br />

Endelig skal vi for at kunne benytte Lemma 3.8 vise, at hvis A er separabel, og C er en<br />

vilkårlig del σ-algebra, så findes der en separabel del σ -algebra C0, som ligger tæt på<br />

C.<br />

Lemma 3.9 Lad A være separabel, og lad C ⊆ A være en del σ-algebra. Så findes der<br />

en separabel del σ-algebra C0 ⊆ A, så at<br />

C0 ⊆ C ⊆ σ(C0, N ).


32 KAPITEL 3. SUFFICIENS<br />

Bevis. Lad A = σ(A1, A2, . . . ) og definer<br />

C0 = σ(Eλ(1An |C), n = 1, 2, . . . ). (3.12)<br />

Da Eλ(1An |C) er en reel stokastisk variabel, er σ(Eλ(1An |C)) separabel, og dermed er<br />

C0 separabel. Per definition er C0 ⊆ C, og vi skal derfor vise, at C ⊆ σ(C0, N ).<br />

Definer<br />

A1 = {A ∈ A | E λ(1A|C) = E λ{E λ(1A|C)|C0} n.s. − λ}.<br />

Så er A1 en σ-algebra og An ∈ A1, hvor {An} er følgen i (3.12). Derfor har vi, at<br />

A = σ(A1, A2, . . . ) ⊆ A1, altså at A = A1 . Specielt for A ∈ C har vi<br />

1A = E λ(1A|C) = E λ{E λ(1A|C)|C0} = E λ(1A|C0) n.s. − λ,<br />

hvor vi har benyttet at 1A = E λ(1A|C) n.s. medfører at E λ(1A|C0) = E λ{E λ(1A|C)|C0}<br />

n.s. Vi har dermed<br />

A = {x|E λ(1A|C0) = 1}\[A c ∩ {x|E λ(1A|C0) = 1}] ∪ [A ∩ {x|E λ(1A|C0) = 1}]<br />

= C\N1 ∪ N2,<br />

hvor C ∈ C0 og N1, N2 ∈ N , d.v.s. A ∈ σ(C0, N ). Beviset er hermed tilendebragt. <br />

Vi kan nu vende os mod hovedsætningen i dette afsnit. Vi antager, at A er separabel.<br />

Definer<br />

<br />

dP<br />

C = σ , P ∈ P<br />

dλ<br />

(3.13)<br />

for en vilkårlig version af dP<br />

dλ , hvor λ er et mål på formen angivet i Lemma 3.6. Vi vælger<br />

nu, ifølge Lemma 3.9, en separabel σ-algebra C0, så at<br />

C0 ⊆ C ⊆ σ(C0, N ), (3.14)<br />

hvor N er nulmængderne for λ. Vælg dernæst en afbildning t0 : (X , A) → (R, B(R))<br />

så at<br />

C0 = σ(t0), (3.15)<br />

hvilket kan gøres ifølge Lemma 3.8.<br />

Sætning 3.10. T0 = t0(X) er minimal sufficient. <br />

Bevis. Vi viser først, at T0 er sufficient. Per definition af C i (3.13) og definition af t0 i<br />

(3.15 følger det at<br />

σ( dP<br />

dλ ) ⊆ C ⊆ σ(C0, N ) = σ(t0, N ).<br />

Demed eksisterer der ifølge Lemma 3.7 en funktion gP, så at<br />

dP<br />

dλ (x) = gP(t0(x)) n.s.-λ.


3.4. MINIMAL SUFFICIENTE OBSERVATORER 33<br />

Det vil sige at gP(t0(x)) er en tæthed for P m.h.t. λ og dermed er<br />

dλ<br />

dµ (x)gP(t0(x))<br />

en tæthed for P m.h.t. µ og T0 er sufficient ifølge Faktoriseringsætningen 3.4.<br />

Vi skal nu vise at for enhver sufficient observator T findes der en afbildning f så at<br />

t0(x) = f (t(x)) n.s.-λ. Hvis T = t(x) er en sufficient observator, har vi ifølge Faktoriseringsætningen<br />

3.4, at<br />

dP<br />

(x) = k(x)gP(t(x)),<br />

dµ<br />

og dermed<br />

dλ<br />

dµ<br />

(x) = k(x)<br />

∞<br />

∑<br />

n=1<br />

hvor h(t) er den uendelige sum. Definer<br />

1<br />

gPn (t(x)) = k(x)h(t(x),<br />

2n D = {t|0 < h(t) < ∞}.<br />

Lad os først indse at PT(D c ) = 0. Da λ(T ∈ Dc ) = 1Dc(t(x)k(x)h(t(x)µ(dx) enten er<br />

0 eller uendelig, men λ er et sandsynlighedmål følger det at λ(T ∈ Dc )) = 0. Da P har<br />

tæthed m.h.t. λ følger det at PT(D c ) = 0. Tætheden for P m.h.t. λ er<br />

idet<br />

<br />

A<br />

gP(t(x)<br />

h(t(x)) 1D(t(x)λ(dx)<br />

<br />

=<br />

<br />

=<br />

Med denne form af tætheden ser vi at σ( dP<br />

dλ<br />

dP gP(t(x)<br />

(x) =<br />

dλ h(t(x)) 1D(t(x) (3.16)<br />

A<br />

<br />

dP<br />

σ(t0) ⊆ σ(C) = σ<br />

dλ<br />

gP(t(x)<br />

h(t(x)) 1D(t(x)k(x)h(t(x)µ(dx)<br />

A∩t −1 (D)<br />

gP(t(x))k(x)µ(dx)<br />

= P(A ∩ t −1 (D)) = P(A).<br />

) ⊆ σ(t, N ) og derfor<br />

Lemma 3.7 giver nu eksistensen af en funktion f , så at<br />

<br />

: P ∈ P ⊆ σ(t, N ).<br />

t0(x) = f (t(x)) n.s.-λ. <br />

Bemærk at definiton 3.5 giver automatisk at en minimal sufficient observator er „entydigt<br />

bestemt n.s.−λ“ . Hvis nemlig t0 og t1 er to minimal sufficiente afbildninger,<br />

eksisterer der f0, f1, så at<br />

t0(x) = f0(t1(x)) n.s. − λ<br />

og<br />

t1(x) = f1(t0(x)) n.s. − λ.<br />

Bemærk også at σ(t0) næsten er lig med C. Man siger derfor ofte at likelihoodfunktionen<br />

er minimal sufficient. Se i denne forbindelse opgave 3.8 og Sætning 3.15.


34 KAPITEL 3. SUFFICIENS<br />

Korollar 3.11. En sufficient observator T = t(X), t : (X , A) → (R k , B(R k )), A separabel,<br />

er minimal sufficient hvis<br />

σ(t) ⊆ σ(C, N ) <br />

Bevis. Da C ⊆ σ(C0, N ) er σ(t) ⊆ σ(C0, N ) = σ(t0, N ), og fra Lemma 3.7 (vi kan<br />

bruge Lemma 3.7 koordinatvis) har vi eksistensen af f1, så at<br />

t(x) = f1(t0(x)) n.s. − λ.<br />

Da t0(X) er minimal sufficient, er derfor også t(X) minimal sufficient ifølge Definition<br />

3.5(ii). <br />

Den følgende sætning er ofte brugbar for at finde en minimal sufficient observator. Jeg<br />

minder om, at komplethed af en observator er defineret i afsnit 2.7.<br />

Sætning 3.12. Lad A være separabel og lad P være domineret af det σ-endelige mål<br />

µ. Lad desuden T = t(X), t : X → R k , være en sufficient og komplet observator under<br />

P. Så er T minimal sufficient. <br />

Bevis. Lad π(·|t) være den fælles betingede fordeling af P givet T0, hvor T0 = t0(X) er<br />

den kendte minimal sufficiente fra Sætning 3.10. Da T0 er minimal sufficient, eksisterer<br />

der en funktion g så at<br />

t0(x) = g(t(x)) n.s. − λ. (3.17)<br />

Definer<br />

<br />

f1(x) = t(x) − t( ˜x)π(d ˜x|t0(x)),<br />

<br />

f (t) = t − t( ˜x)π(d ˜x|g(t)),<br />

hvor f (t(x)) = f1(x) n.s.−λ ifølge (3.17). Vi har at<br />

Vi har dermed også at<br />

og da T er komplet følger det at<br />

Det vil sige at<br />

EP f1(X) = EPT − EPEP(T|T0)<br />

= EPT − EPT<br />

= 0, ∀ P ∈ P.<br />

EP f (T) = 0, ∀ P ∈ P,<br />

f1(x) = f (t(x)) = 0 n.s. − λ.<br />

<br />

t(x) =<br />

t( ˜x)π(d ˜x|t0(x)) n.s. − λ,<br />

eller sagt på anden vis: der eksistere en funktion g1 så at<br />

t(x) = g1(t0(x)) n.s. − λ.<br />

Da T0 er en funktion af en vilkårlig sufficient observator, følger det nu, at også T er en<br />

funktion af en vilkårlig sufficient observator, og dermed er T minimal sufficient.


3.4. MINIMAL SUFFICIENTE OBSERVATORER 35<br />

Korollar 3.13. For en eksponentiel familie P = {P ξ|ξ ∈ Λ0} på (X , A), hvor A er<br />

separabel, med minimal repræsentation<br />

dP ξ<br />

dµ (x) = c(ξ)−1 b(x)e ξ·t(x)<br />

gælder, at T = t(X) er minimal sufficient. <br />

Bevis. Da repræsentationen er minimal kan vi finde ξ0, ξ1, . . . , ξk så at matricen A med<br />

i’te række ξi − ξ0 er invertibel. Vi kan så skrive<br />

<br />

log dPξ 1<br />

(x), . . . , log<br />

dPξ0 dP <br />

ξk (x) = tA<br />

dPξ0 ∗ − (κ(ξ1) − κ(ξ0), . . . , κ(ξk) − κ(ξ0),<br />

hvoraf ses at t er en funktion af k tætheder. Korollar 3.11 siger så at T = t(x) er minimal<br />

sufficient. <br />

Korollar 3.11 er vores stærkeste værktøj til at afgøre om en observator er minimal<br />

sufficient. I praksis er det dog en lille smule besværligt at bruge korollaret, da der<br />

indgår tætheder med hensyn til λ i definitionen af C. Jeg vil nu lave et korollar der er<br />

nemmere at bruge og på en direkte måde siger at „likelihoodfunktionen er minimal<br />

sufficient“. Jeg antager, at vores familie er på formen P = {Pθ : θ ∈ Θ}, og at t er en<br />

sufficient observator så at<br />

dPθ (x) = k(x)g(t(x); θ), (3.18)<br />

dµ<br />

ifølge Faktoriseringssætningen 3.4.<br />

Jeg skal bruge følgende resultat (Hoffmann-Jørgensen: The Theory of Analytic Spaces,<br />

1970, p. 145).<br />

Lemma 3.14 Lad X , Y og G være borel-delmængder af fuldstændige separable metriske<br />

rum. Lad t være en målelig afbildning fra X ind i Y og lad g være en målelig<br />

afbildning fra X ind i G så at<br />

g(x1) = g(x2) ⇒ t(x1) = t(x2), x1, x2 ∈ X .<br />

Så eksisterer der en målelig afbildning K fra G ind i Y med t(x) = K(g(x)), x ∈ X . <br />

Fuldstændig betyder at enhver cauchyfølge er konvergent, og separabelt rum betyder<br />

at der er en tællelig tæt delmængde. Det euklidiske rum R m er et fuldstændigt separabelt<br />

metrisk rum. Jeg vil bruge Lemma 3.14 med G = R N . Hvis vi udstyrer dette rum<br />

med metrikken d(x, y) = (∑ ∞ n=1 (x i − y i) 2 ) 1/2 er G et fuldstændigt separabelt metrisk<br />

rum og borel-σ-algebraen er identisk med produkt-σ-algebraen.<br />

Sætning 3.15. Antag at X er en borel-delmængde af R n , at t er en afbildning fra X ind<br />

i Y, hvor Y er en borel-delmængde af R k , og at T = t(X) er sufficient. Specielt har vi<br />

opskrivningen i (3.18). Antag at der eksisterer en tællelig delmængde {θ i : i ∈ N} så at<br />

( ∃ c(t1, t2) : g(t1; θ i) = c(t1, t2)g(t2; θ i) ∀ i ∈ N ) ⇒ t1 = t2. (3.19)<br />

Så er T minimal sufficient.


36 KAPITEL 3. SUFFICIENS<br />

Bevis. Idet vi definerer p(x, θ) = dP θ<br />

dλ (x) og 0 a = 0, a ∞<br />

p(x, θ) =<br />

g(t(x); θ)<br />

h(t(x) .<br />

Definer nu funktionen g fra X ind i G = R N ved<br />

g(x) = {p(x; θ i) : i ∈ N}.<br />

= 0, kan vi skrive 3.16 på formen<br />

Da x → p(x, θ i) er målelig er g målelig m.h.t. produkt-σ-algebraen. Fra antagelsen i<br />

sætningen har vi<br />

⇓<br />

⇓<br />

⇓<br />

g(x1) = g(x2)<br />

p(x1, θ i) = p(x2, θ i) ∀ i ∈ N<br />

g(t(x1); θ i) = h(t(x1))<br />

h(t(x2)) g(t(x2); θ i) ∀ i ∈ N<br />

t(x1) = t(x2).<br />

Fra Lemma 3.14 har vi at t(x) = K(g(x)) for en målelig funktion K og det følger at<br />

dPθi<br />

σ(t) ⊆ σ(g) ⊆ σ<br />

dλ<br />

<br />

: i ∈ N, N ⊆ σ(C, N ).<br />

Fra Korollar 3.11 har vi nu at T er minimal sufficient. <br />

3.5 Sufficiensprincippet og B-sufficiens<br />

I indledningen til dette kapitel tog jeg udgangspunkt i ønsket om at reducere data til<br />

nogle væsentlige og overskuelige størrelser. I mere principielle diskussioner omkring<br />

“korrekte måder” at uddrage information fra data er dette blevet til:<br />

Sufficiensprincippet: Hvis T er sufficiens for P, bør inferens om P ∈ P udføres i den marginale<br />

fordeling af T.<br />

Så længe vi holder os til sufficiens som defineret i Definition 3.1, er der bred enighed<br />

om sufficiensprincippet. Vi skal senere i notesættet støde på andre sufficiensbegreber i<br />

forbindelse med inferens om delparametre, og her er enigheden om sufficensprincippet<br />

mindre. For at skelne de forskellige sufficiensprincipper kaldes sufficens, som givet<br />

i Definition 3.1, somme tider for B-sufficiens. Bogstavet B står her for personerne Basu<br />

og Bahadur.<br />

3.6 Opgaver<br />

Opgave 3.1. Læs dette!<br />

I JHJ’s 1985 version af sine sandsynlighedsnoter findes følgende sætning: „Lad (Ω, F, P)


3.6. OPGAVER 37<br />

være et sandsynlighedsfelt og T en målelig funktion fra (Ω, F) ind i et Borel rum<br />

(M, B). Hvis P har en semi-kompakt approximerende brolægning K ⊆ F, da findes<br />

en funktion P T (F|t) for F ∈ F, t ∈ M, så at<br />

(i) P T (·|t) er et sandsynlighedsmål ∀t ∈ M<br />

(ii) P T (F|·) er målelig ∀F<br />

(iii) <br />

B PT (F|t)PT(dt) = P(F ∩ T −1 (B)) ∀F ∈ F ∀B ∈ B.“<br />

De <strong>første</strong> to betingelser (i) og (ii) siger, at P T (·|·) er en Markovkerne, og en Markovkerne<br />

som opfylder (iii) kaldes en regulær betinget sandsynlighed af P givet T. Hvis<br />

M = Ω, B = F0 ⊆ F og T(ω) = ω taler vi om en regulær betinget sandsynlighed af P<br />

givet F0, og denne betegnes med P F0(F|ω).<br />

Betingelsen om den semikompakte approximerende brolægning K er ikke alene<br />

tilstrækkelig, men også nødvendig. Betingelsen er opfyldt i langt de fleste tilfælde,<br />

specielt hvis Ω = R T , F = B T og P er et sandsynlighedsmål på (Ω, F), hvor T er en<br />

vilkårlig indexmængde, da er<br />

KT =<br />

<br />

<br />

∏ Ct | Ct er kompakt eller Ct = R ∀t<br />

t∈T<br />

en semikompakt approximerende brolægning for P. Hvis PT er en regulær betinget<br />

sandsynlighed at P givet T, og X : (Ω, F) → (R, B(R)) er en stokastisk variabel med<br />

middelværdi, så vil<br />

<br />

E(X|T)(ω) = X(ω ′ )P T (dω ′ |T(ω)). (∗)<br />

Ω<br />

Vis dette ved hjælp af standardbeviset, startende med situationen hvor X er en<br />

indikatorvariabel. I skal altså vise, at højresiden i (*) opfylder betingelserne for at være<br />

den betingede middelværdi af X givet T.<br />

Indse også at hvis T er sufficient for en klasse P af sandsynlighedsmål, så viser (*),<br />

at den betingede middelværdi af X givet T ikke afhænger af P ∈ P.<br />

Opgave 3.2<br />

Lad X være et diskret udfaldsrum og t en målelig afbildning fra X ind i Y. Lad T =<br />

t(X). Vis, at hvis π(A|t) er en Markovkerne, der opfylder<br />

<br />

π(A|t)PT(dt) = P(A ∩ t −1 (B))<br />

for alle A ⊆ X og alle B⊆ Y, så er<br />

B<br />

π(x|t) = P(X = x)/P(T = t), hvor t(x) = t.<br />

Opgave 3.3<br />

Lad X = S × T og antag at P har tæthed f (s, t) m.h.t. produktmålet µ × ν. Lad fT(t)<br />

være den marginale tæthed af T m.h.t. ν,<br />

<br />

fT(t) = f (s, t)µ(ds).<br />

S


38 KAPITEL 3. SUFFICIENS<br />

Definer nu<br />

og<br />

F T S<br />

⎧<br />

⎨ f (s,t)<br />

fT(t)<br />

g(s|t) =<br />

⎩ fS(s)<br />

<br />

hvis fT(t) > 0<br />

hvis fT(t) = 0,<br />

(A|t) = g(s|t)µ(ds), t ∈ T, A ∈ AS,<br />

<br />

F(C|t) =<br />

A<br />

s:(s,t)∈C<br />

g(s|t)µ(ds), C ∈ AS × AT ,<br />

hvor fS er den marginale tæthed af S og AS er σ-algebraen på S. Bemærk at F(·|t) er<br />

defineret til at være et mål på S × T koncentreret på S × {t}.<br />

Så er F(·|t) en regulær betinget sandsynlighed af P givet T, og FT S er den tilsvarende<br />

marginale fordeling i den betingede fordeling, altså den betingede sandsynlighed af S<br />

givet T.<br />

Vis dette.<br />

Opgave 3.4<br />

Lad f , g være to målelige funktioner på (X , A) og P et sandsynlighedsmål. Antag af<br />

f = g n.s.−P. Vis at<br />

σ( f ) ⊆ σ(g, NP),<br />

hvor NP er nulmængderne for målet P.<br />

Overvej, at dette resultat kan bruges til at ændre udsagnet i Korollar 3.11 til “hvis<br />

og kun hvis”.<br />

Opgave 3.5<br />

Lad f > 0 være en tæthed på R+ med hensyn til Lebesguemålet. Lad p θ(x) være<br />

tætheden på intervallet (0, θ) givet ved p θ(x) = c(θ) f (x), 0 < x < θ, og p θ(x) =<br />

0 ellers. Parameteren θ varierer i R+ . Lad X1, . . . , Xn være uafhængige og identisk<br />

fordelte med tæthed P θ. Vis, at<br />

er sufficient.<br />

X (n) = max{X1, . . . , Xn}<br />

Opgave 3.6<br />

Lad X1, . . . , Xn være uafhængige og uniformt fordelte på intervallet (0, θ), hvor parameteren<br />

θ varierer i R+. Vis, på to måder at<br />

X (n) = max{X1, . . . , Xn}<br />

er en minimal sufficient observator. De to måder fremkommer ved at bruge henholdsvis<br />

Korollar 3.11 og Sætning 3.12,


3.6. OPGAVER 39<br />

Opgave 3.7<br />

Lad (X1, Y1), . . . , (Xn, Yn) være uafhængige og identisk fordelte med tæthed<br />

<br />

exp −θx − 1<br />

θ y<br />

<br />

, (x, y) ∈ R 2 +,<br />

hvor parameteren θ varierer i R+. D.v.s. X og Y er uafhængige, X er exponentialfordelt<br />

med middelværdi 1 θ og Y er exponentialfordelt med middelværdi θ. Find en minimal<br />

sufficient observator ved hjælp af Korollar 3.11.<br />

Opgave 3.8<br />

Lad familien P have k elementer med tæthederne pi(x) = dPi dµ (x), i = 1, . . . , k. Definer<br />

n<br />

<br />

g(x) = ∑ pi(x), λ(A) = g(x)µ(dx),<br />

i=1<br />

A<br />

og<br />

<br />

p1(x) p2(x)<br />

t(X) = ,<br />

g(x) g(x) , . . . , p <br />

k(x)<br />

.<br />

g(x)<br />

Vis, at t(X) er minimal sufficient.<br />

Lad L(i, x) = p i(x) og vis at<br />

t(x1) = t(x2) ⇔ ∃c(x1, x2) : L(i, x1) = c(x1, x2)L(i, x2) ∀i.<br />

Opgave 3.9<br />

Lad X1, . . . , Xm, Y1, . . . , Yn være uafhængige med X i ∼ N(ξ, σ 2 ) og Y j ∼ N(η, τ 2 ). Find<br />

en minimal sufficient observator i tilfældene<br />

(i) (ξ, η, σ 2 , τ 2 ) ∈ R 2 × R 2 + ;<br />

(ii) (ξ, η, σ 2 ) ∈ R 2 × R+ og τ 2 = σ 2 ;<br />

(iii) (ξ, σ 2 , τ 2 ) ∈ R × R 2 +<br />

og η = ξ.<br />

Opgave 3.10<br />

Lad X = {−1, 0, 1, 2, . . . } og A alle delmængder af X . Klassen P = {P θ|0 < θ < 1} er<br />

givet ved<br />

P θ({−1}) = θ og P θ({x}) = (1 − θ) 2 θ x , x = 0, 1, 2, . . . .<br />

Vis, at t(X) = X er minimal sufficient. Vis dernæst, at T = t(X) er begrænset komplet<br />

for P, men ikke komplet.<br />

Opgave 3.11<br />

Denne opgave er beregnet på at få en forståelse af en minimal sufficient observator i<br />

en betinget fordeling. Lad udfaldsrummet være X = X1 ∪ X2. Lad P være en klasse as<br />

sandsynlighedsmål på X1 og definer for P ∈ P sandsynlighedsmålet ˜P til at være lig<br />

med P på X1 og som giver masse 0 til X2. For en funktion ˜t(x) på X definerer vi t på<br />

X1 og s på X2 til at være ˜t’s restriktion til X1, henholdsvis X2.


40 KAPITEL 3. SUFFICIENS<br />

(i) vis, ved hjælp af faktoriseringssætningen, at t(X) er sufficient for familien P på<br />

X1 hvis og kun hvis at ˜t(X) er sufficient for familien ˜P = { ˜P|P ∈ P} på X .<br />

Vi vil nu betragte det tilsvarende spørgsmål med sufficient erstattet af minimal sufficient.<br />

Antag at t(X) er minimal sufficient for familien P. Lad ¯t være en sufficient observator<br />

for ˜P. Fra (i) har vi at ¯t er sufficient for P. Dermed eksisterer der en funktion f så at<br />

t(x) = f (¯t(x)), x ∈ X1, n.s. − P.<br />

(ii) Vis, at der eksisterer en funktion g så at<br />

Slut at ˜t er minimal sufficient.<br />

˜t(x) = g(¯t(x)), x ∈ X , n.s. − ˜P.<br />

Formuleret i ord, så har vi set at det kun er observators værdier på X1 der afgør om<br />

den er minimal sufficient.


3.6. OPGAVER 41<br />

Ronald Aylmer Fisher 17/2 1890 (London) - 29/7 1962 (Adelaide).<br />

I sin <strong>første</strong> artikel fra 1912 introducerede Fisher maximum likelihood estimationsmetoden.<br />

Fra 1919 var Fisher ansat ved Rothamsted Experimental Station hvor han udviklede<br />

variansanalysen, se bøgerne: Statistical Methods for Research workers og The design of Experiments.<br />

I 1922 introducerede Fisher sufficiens og i 1925 ancillaritet. Se også hans bog<br />

Statistical Methods and Scientific Inference.


Kapitel 4<br />

Ancillaritet og Basu’s sætning<br />

4.1 Definitioner og diskussion<br />

I kapitel 3 argumenterede jeg for at man kan nøjes med at betragte en sufficient observator<br />

T for inferens om P ∈ P, idet observationen x kan tænkes fremkommet ved at<br />

først observeres t og dernæst observeres x fra den betingede fordeling af X givet T = t.<br />

Dette blev formuleret som sufficiensprincippet i afsnit 3.5. Antag nu istedet, at U er en<br />

observator som er fordelingskonstant, d.v.s. fordelingen af U er den samme for alle<br />

P ∈ P. Så kan jeg igen tænke på x som fremkommet ved, at først observeres U = u og<br />

dernæst observeres x fra den betingede fordeling af X givet U = u. Da udfaldet u har<br />

samme sandsynlighed for alle P ∈ P, er der ingen information om, hvilket P ∈ P som<br />

er det sande P i observationen U = u, og vi kan nøjes med at betragte den betingede<br />

fordeling af X givet U = u.<br />

Præcist definerer vi:<br />

Definition 4.1 En observator U = u(X), u : (X , A) → (U, D) siges at være ancillær for<br />

P hvis<br />

P(U ∈ D) = P0(U ∈ D) ∀P0, P ∈ P, ∀D ∈ D,<br />

altså: fordelingen af U er den samme for alle P ∈ P. <br />

Og svarende til sufficiensprincippet har vi:<br />

Betingningsprincippet: Hvis U er ancillær for P, bør inferens om P ∈ P udføres i den<br />

betingede fordeling af X givet U.<br />

Ordet ancillær stammer fra det engelske „ancillary“, som betyder hjælpestørrelse. I<br />

sammenhængen her skal det forstås som, at oplysningen U = u er en hjælp, der fortæller<br />

os hvilken betinget fordeling, vi bør betragte. Dette vil blive demonstreret i eksemplerne.<br />

Eksempel 4.2.<br />

Lad et forsøg bestå i, at først observeres I ∈ {1, 2} med<br />

P(I = 1) = P(I = 2) = 1 2 ,<br />

43


44 KAPITEL 4. ANCILLARITET OG BASU’S SÆTNING<br />

og dernæst observeres X fra en N(µ, σ2 I )-fordeling med σ2 1 = 1 og σ2 2 = 10. Vi kan<br />

her tænke på I som en variabel, der angiver hvilket måleinstrument der anvendes, og<br />

σ2 1 , σ2 2 angiver hvor gode de to måleinstrumenter er. Likelihoodfunktionen er<br />

L(µ) = 1(i = 1) 1 1<br />

√ e<br />

2 2π − 1 2 (x−µ)2 + 1(i = 2) 1 1<br />

√ e<br />

2 20π<br />

<br />

1(i = 1)e<br />

=<br />

− 1 2 x2<br />

2 √ +<br />

2π<br />

1(i = 2)e− f rac120x2<br />

2 √ <br />

20π<br />

1 − 20 (x−µ)2<br />

e µx[1(i=1)+1(i=2)/10]−µ2 [1(i=1)/2+1(i=2)/20] ,<br />

så at T = (I, X) er minimal sufficient (se eksempel 4.5 nednefor). Maximum likelihood<br />

estimatet for µ er<br />

ˆµ = X.<br />

Variansen på dette estimat er V( ˆµ) = 1 2 · 1 + 1 2 · 10 = 5.5. Er dette en relevant måde at<br />

angive, hvor tæt estimatet ˆµ er på den sande værdi µ ? Hvis vi har observeret I = 1,<br />

synes det relevant at bruge den viden, at vi har brugt måleinstrumentet med den lave<br />

varians σ2 1 = 1. Med andre ord vil vi gerne sige, at variansen på ˆµ er σ2 1 = 1. Dette<br />

svarer netop til, at vi laver inferensen i den betingede fordeling givet I = 1, og er hvad<br />

betingningsprincippet siger, at vi skal gøre. <br />

I den <strong>teoretisk</strong>e diskussion nedenfor vil jeg se på forbindelsen over til sufficiens.<br />

Liegesom for sufficiens skal vi senere støde på andre ancillaritetsbegreber, og for at<br />

skelne disse kaldes ancillaritet som defineret her for B-ancillaritet, hvor B igen henviser<br />

til Basu og Bahadur.<br />

Lad os starte med den observation at der ikke findes nogen naturlig “maximal ancillær”<br />

observator. Hvis man skulle forsøge at definere dette begreb, vil et <strong>første</strong> forsøg<br />

være at sige, at U0 er maximal ancillær, hvis enhver anden ancillær U er en funktion<br />

af U0. En sådan U0 eksisterer ikke, idet to ancillære observatorer U1, U2 tilsammen kan<br />

udgøre X, og dermed ikke kan være funktioner af en ancillær observator U0. Følgende<br />

eksempel viser dette:<br />

Eksempel 4.3.<br />

Lad (X i, Y i) i = 1, . . . , n, være uafhængige og identisk fordelte med<br />

(X i, Y i) ∼ N2<br />

<br />

1 ρ<br />

(0, 0),<br />

ρ 1<br />

Så er U1 = (X1, . . . , Xn ) og U2 = (Y1, . . . , Yn) begge ancillære, mens fordelingen af<br />

(U1, U2) afhænger af ρ og altså er (U1, U2) ikke ancillær. <br />

Når vi nu har to principper – sufficiensprincippet og betingningsprincippet – vil<br />

det være naturligt at spørge om principperne er i overensstemmelse med hinanden,<br />

eller om de kan føre til en konflikt. Jeg starter med:<br />

Observation 4.4 Lad U være en ancillær observator for P, hvor P er domineret af det<br />

σ-endelige mål µ, og A er separabel. Lad T0 være en minimal sufficient observator for<br />

P. Så er T0 også en minimal sufficient observator for klassen P u = {P(·|U = u) : P ∈<br />

P} af betingede fordelinger givet U = u.


4.1. DEFINITIONER OG DISKUSSION 45<br />

Bevis. Lad t0 : X → Y være en minimal sufficient observator. For at undgå for mange<br />

tekniske detaljer vil jeg antage at σ(t0) = C, jævnfør Korollar 3.11.<br />

Fra faktoriseringssætningen har vi<br />

Lad ˜µ være et sandsynlighedsmål med<br />

dP<br />

(x) = gP(t0(x))k(x).<br />

dµ<br />

d ˜µ<br />

dµ = φ(x) > 0 og lad ˜ k(x) = k(x)/φ(x) så at<br />

dP<br />

1<br />

(x) = gP(t0(x))k(x)<br />

d ˜µ φ(x) = gP(t0(x)) ˜ k(x).<br />

Lad målet λ være som i lemma 3.6. Så er dλ/d ˜µ(x) = h(t0(x)) ˜ k(x), hvor<br />

Vi har således<br />

h(t) = ∑ 1<br />

gPm (t).<br />

2m dP gP(t0(x))<br />

(x) =<br />

dλ h(t0(x)) ,<br />

og da U er ancillær er λU = ∑ PmU/2 m = PU for et vilkårligt P ∈ P, og dermed<br />

Hvis vi lader dλU<br />

d ˜µU<br />

dPU<br />

dλU<br />

(x) = dPU<br />

(x) = 1.<br />

dPU<br />

dPU (u) = d (u) = q(u) er det kun relevant at betragte den betingede<br />

˜µU<br />

fordeling givet U = u for u med q(u) > 0. Fra Obervation 2.18 har vi<br />

dP(·|U = u)<br />

(x) =<br />

dλ(·|U = u)<br />

dP<br />

dλ (x)<br />

dPU<br />

dλU<br />

dP<br />

=<br />

(x) dλ<br />

(x) = gP(t0(x))<br />

h(t0(x)) .<br />

Det følger af den sidste formel og faktoriseringssætningen at t0(X) er sufficient i den<br />

betingede fordeling. Vi vil bruge Korollar 3.11 til at vise at t0(X) er minimal sufficient<br />

i de tilfælde hvor q(u) > 0. Ideen er at bruge λ(·|U = u) i definitionen af C i Korollar<br />

3.11 for de betingede fordelinger. Hertil skal vi vise at<br />

λ(A|U = u) = 0 ⇔ P(A|U = u) = 0 ∀P.<br />

Implicationen ⇒ følger umiddelbart af at P(·|U = u) har tæthed mht. λ(·|U = u). Den<br />

anden implication ⇐ følger af at λ(A|U = u) = ∑ Pm(A|U = u)/2 m = 0. Bruger vi<br />

λ(·|U = u) i definitionen af Cu = σ(dP(·|U = u)/dλ(·|U = u) : P ∈ P) og bruger vi<br />

antagelsen σ(t0) = C får vi<br />

<br />

dP<br />

σ(t0) = C = σ<br />

dλ<br />

<br />

dP(·|U = u)<br />

: P ∈ P = σ<br />

dλ(·|U = u)<br />

<br />

: P ∈ P = Cu,<br />

og Korollar 3.11 siger så at t0(X) er minimal sufficient i den betingede fordeling.


46 KAPITEL 4. ANCILLARITET OG BASU’S SÆTNING<br />

Eksempel 4.5.<br />

Lad I og X være som i eksempel 4.2, d.v.s. I kan antage værdierne 1 og 2 med sandsynlighed<br />

1 2 , og givet værdien af I er X ∼ N(µ, σ2 I ). Desuden er σ2 1 = 1 og σ2 2 = 10.<br />

Tætheden med hensyn til produktet af tællemålet og Lebesguemålet er<br />

f (i, x; µ) =<br />

1(i = 1)<br />

<br />

2<br />

2πσ 2 1<br />

<br />

exp − 1<br />

2σ2 (x − µ)<br />

1<br />

2 + 1(i = 2)<br />

<br />

2<br />

2πσ 2 2<br />

<br />

exp − 1<br />

2σ2 (x − µ)<br />

2<br />

2<br />

.<br />

Vi kan indse at T0 = (I, X) er minimal sufficient ved følgende overvejelser: Ifølge faktoriseringssætningen<br />

er T0 sufficient. Målet λ der indgå i korollar 3.11 kan vi her tage<br />

til at være P0, altså målet med µ = 0. Dette kan vi gøre fordi alle målene er indbyrdes<br />

ækvivalente. Tætheden for Pµ med hensyn til P0 er<br />

Lad nu<br />

Så gælder der<br />

e µx[1(i=1)+1(i=2)/10]−µ2 [1(i=1)/2+1(i=2)/20] .<br />

g1(i, x) = log( dP1<br />

) og g2(i, x) = log(<br />

dP0<br />

dP−1<br />

).<br />

dP0<br />

i =<br />

og når først i er bestemt har vi<br />

1 hvis g1 + g2 = −1<br />

2 hvis g1 + g2 = − 1<br />

10 ,<br />

x = 1<br />

2 (g1 − g2)/[1(i = 1) + 1(i = 2)/10].<br />

Med andre ord er (i, x) en funktion af (g1, g2) og dermed er σ-algebraen frembragt af<br />

T0 indeholdt i σ-algebraen frembragt af g1 og g2 og dermed indeholdt i C. Korollar 3.11<br />

giver så at T0 er minimal sufficient.<br />

Når vi betinger med I = i reducerer T0 til X og dette er netop den minimal sufficiente<br />

i klassen af normalfordelinger med ukendt middelværdi. <br />

Observation 4.4 siger, at uanset om vi starter med at betinge med en ancillær størrelse,<br />

så bliver vi ledt frem til den samme minimal sufficiente observator T0. Der er dog<br />

stadig den forskel, at fra sufficiensprincippet vil vi betragte den marginale fordeling<br />

af T0, hvorimod fra betingningsprincippet vil vi betragte den betingede fordeling af T0<br />

givet U . Basu’s sætning nedenfor siger imidlertid, at hvis T0 er komplet, så vil T0 og U<br />

være uafhængige. Vi har derfor:<br />

Observation 4.6 Hvis T0 er minimal sufficient og komplet for P og U er ancillær for<br />

P, så vil både sufficiensprincippet og betingningsprincippet føre til, at vi skal betragte<br />

den marginale fordeling af T0 for inferens om P ∈ P. <br />

Hvis den minimal sufficiente T0 ikke er komplet, kan der eksistere ancillære observatorer,<br />

som er funktioner af T0, og dermed ikke er uafhængige af T0 som ovenfor.<br />

Dette illustreres ved:


4.1. DEFINITIONER OG DISKUSSION 47<br />

Eksempel 4.7.<br />

Lad (X i, Y i), i = 1, . . . , n være uafhængige og identisk fordelte med tæthed<br />

e −θx− 1 θ y , x > 0, y > 0,<br />

hvor θ > 0 er en parameter. Log likelihoodfunktionen er<br />

og T0 = ( ¯X, ¯Y) er minimal sufficient. Lad<br />

så er W ancillær idet<br />

<br />

l(θ) = n −θ ¯x − 1<br />

θ ¯y<br />

<br />

,<br />

W = ¯X ¯Y,<br />

<br />

W = (θ ¯X)<br />

1<br />

θ ¯Y<br />

<br />

1<br />

=<br />

n<br />

n<br />

∑<br />

1<br />

θX i<br />

1<br />

n<br />

n<br />

∑<br />

1<br />

1<br />

θ Y <br />

i ,<br />

og fordelingen af (θX i, 1 θ Y i) afhænger ikke af parameteren θ. Da W er en funktion af<br />

T0, er W og T0 ikke uafhængige. <br />

Umiddelbart kan vi derfor sige, at der er en konflikt mellem sufficiens- og betingningsprincippet.<br />

Den rigtige tilgangsvinkel til dette synes at være, at vi skal bruge<br />

begge principperne, når vi drager inferens. Spørgsmålet er så om rækkefølgen er ligegyldig,<br />

når T0 ikke er komplet? Vi kan derfor formulere følgende<br />

Ønske 4.8. Hvis T0 er minimal sufficient og U er ancillær, så ville det være ønskværdigt<br />

om der eksisterede en observator W, som både kan opfattes som en funktion af U<br />

(og dermed ancillær!) og som en funktion af T0, så at<br />

T0|U = u ∼ T0|W = w,<br />

altså at de to betingede fordelinger er de samme. D.v.s. at vi får det samme om vi<br />

først betinger med den ancilllære U og dernæst finder T0, eller om vi først finder T0 og<br />

dernæst betinger med den ancillære W, som er en funktion af T0. <br />

Ønske 4.7 er generelt ikke opfyldt, altså der eksisterer situationer, hvor rækkefølgen<br />

af brugen af sufficiens- og betingningsprincippet har betydning: se eksempel 4.11.<br />

Det kan derfor ikke forbavse, at denne mangel på entydighed kan føre til meget andet:<br />

se afsnit 4.3. Ønske 4.7 er opfyldt i den vigtige klasse af eksponentielle tranformationsmodeller,<br />

hvor U er den såkaldte konfiguration af (X1, . . . , Xn ) og W er den såkaldte<br />

maximal invariante efter minimal sufficient reduktion. Jeg vil ikke definere alle disse<br />

begreber her, men blot intuitivt nævne at en transformationsmodel P er på formen<br />

P = {Pg|g ∈ G} hvor G er en gruppe af transformationer på udfaldsrummet X (se også<br />

afsnit 8.3). Lad mig illustrere disse ting med:


48 KAPITEL 4. ANCILLARITET OG BASU’S SÆTNING<br />

Eksempel 4.9.<br />

Lad situationen være som i eksempel 4.6 og betegn sandsynlighedsmålet for (X1, Y1)<br />

med Pθ. Udfaldsrummet for den enkelte observation er R2 + , og her kan vi for ethvert<br />

g > 0 definere transformationen<br />

Hvis (X, Y) ∼ P1 så vil<br />

g : (x, y) →<br />

<br />

gx, 1<br />

g y<br />

<br />

.<br />

g(X, Y) ∼ (P1)g = P g −1,<br />

og klassen {P θ|θ > 0} = {(P1)g|g > 0} er derfor en transformationsmodel. Konfigurationen<br />

U bliver i denne situation<br />

og desuden er<br />

U =<br />

<br />

ˆθ(X1, . . . , Xn), 1<br />

ˆθ (Y1,<br />

<br />

<br />

¯Y ¯X<br />

. . . , Yn) hvor ˆθ =<br />

,<br />

W =<br />

<br />

1<br />

n<br />

n<br />

∑<br />

1<br />

den maximal invariante efter minimal sufficient reduktion, som er en funktion af U.<br />

Det kan nu vises at<br />

( ˆθ, W)|U = u ∼ ( ˆθ, W)|W = w. <br />

I praksis beskæftiger man sig ikke med ovenstående potentielle konflikt. I typiske<br />

situationer vil der være nogle „oplagte“ ancillære, som der betinges med først. Disse<br />

kan vedrøre forhold omkring den eksperimentelle situation og hvordan data indsamles.<br />

Dernæst bestemmes den minimal sufficiente observator T0, og hvis denne indeholder<br />

ancillære komponenter, betinges der med disse.<br />

4.2 Basu’s sætning<br />

ˆθX i<br />

Jeg kommer nu til det vigtigste resultat i dette kapitel:<br />

Sætning 4.10 (Basu’s sætning). Lad T = t(X), t : (X , A) → (Y, B), og U = u(X),<br />

u : (X , A) → (U, D), være to observatorer og antag at T er sufficient for P. Så gælder<br />

(i) Hvis T og U er uafhængige under ethvert mål i P, og hvis intet par af mål i P er<br />

indbyrdes singulære, så er U ancillær.<br />

(ii) Hvis T og U er uafhængige under ét mål i P, og hvis målene i P er indbyrdes<br />

ækvivalente, så er U ancillær.<br />

(iii) Hvis U er ancillær, og T er begrænset komplet under P, så er T og U uafhængige<br />

under ethvert mål i P <br />

2


4.2. BASU’S SÆTNING 49<br />

Bevis. (i) Lad π(A|t) være den fælles betingede sandsynlighed givet T og lad D ∈ D.<br />

Vi skal vise at P1(U ∈ D) = P2(U ∈ D) ∀P1, P2 ∈ P. Vi har for B ∈ B<br />

<br />

B<br />

P(U ∈ D)PT(dt) = P(U ∈ D)P(T ∈ B) = P(U ∈ D, T ∈ B)<br />

<br />

= π(u −1 D)|t)PT(dt), (4.1)<br />

B<br />

hvor det andet lighedstegn skyldes at T og U er uafhængige. Hvis vi definerer målet<br />

νP på (Y, B) ved<br />

νP(B) = P(U ∈ D, T ∈ B),<br />

så siger (4.1), at både P(U ∈ D) og π(u−1 (D)|t) er en version af dνP . Da tætheder<br />

dPT<br />

er entydigt bestemt på nær på en nulmængde, har vi, at der eksisterer NP ∈ B med<br />

P(T ∈ NP) = 0, og så at<br />

For to sandsynlighedsmål P1 og P2 har vi derfor<br />

P(U ∈ D) = π(u −1 (D)|t) for t /∈ NP. (4.2)<br />

P1(U ∈ D) = P2(U ∈ D) for t /∈ NP 1 ∪ NP2 .<br />

Vi skal nu blot vise, at NP 1 ∪ NP2 = Y, men dette følger af, at målene P1 og P2 ikke er<br />

indbyrdes singulære.<br />

(ii) Lad T og U være uafhængige under P0 ∈ P. Fra (4.2) har vi<br />

P0(U ∈ D) = π(u −1 (D)|t) t /∈ N0,<br />

hvor P0(T ∈ N0) = 0. Da målene er indbyrdes ækvivalente, er P(T ∈ N0) = 0 ∀P ∈ P,<br />

og vi får<br />

<br />

P0(U ∈ D) =<br />

<br />

P0(U ∈ D)PT(dt) =<br />

π(u −1 (D)|t)PT(dt) = P(U ∈ D).<br />

D.v.s. at U er ancillær.<br />

(iii) Vi skal vise, at T og U er uafhængige. Vi skal derfor vise, at den marginale<br />

sandsynlighed P(U ∈ D) = P0(U ∈ D) er lig med den betingede sandsynlighed<br />

P(U ∈ D|T = t) = π(u −1 (D)|t) for næsten alle t. Lad f : Y → R være<br />

Så er <br />

f (t) = P0(U ∈ D) − π(u −1 (D)|t).<br />

f (t)PT(dt) = P0(U ∈ D) − P(U ∈ D) = 0,<br />

og antagelsen om begrænset komplethed giver derfor, at f (t) = 0 for næsten alle t. <br />

Punkt (iii) i Basu’s sætning anvendes ofte, idet det giver en bekvem måde at etablere<br />

fordelingsresultater på.


50 KAPITEL 4. ANCILLARITET OG BASU’S SÆTNING<br />

Eksempel 4.11.<br />

Lad X1, . . . , Xn være uafhængige og N(ξ, σ 2 )-fordelte. Hvis vi betragter familien P σ 2<br />

med σ 2 fast og ξ ∈ R, er dette en eksponentiel familie med minimal kanonisk observator<br />

T = ∑ X i og kanonisk parameter ξ/σ 2 ∈ R. Fra Sætning 2.32 har vi at T er komplet,<br />

og fra Korollar 3.13 at T er minimal sufficient. Lad<br />

U = (X1 − ¯X, . . . , Xn − ¯X) = (Z1 − ¯Z, . . . , Zn − ¯Z)<br />

hvor Z i = X i − ξ. Da fordelingen af Z i ikke afhænger af ξ er U ancillær. Basu’s sætning<br />

giver så, at ¯X og U er uafhængige. Specielt er<br />

¯X og SSD =<br />

n<br />

∑(Xi − ¯X)<br />

1<br />

2 n<br />

= ∑ U<br />

1<br />

2 i<br />

uafhængige. <br />

4.3 Birnbaum’s sætning<br />

Dette afsnit har jeg udelukkende taget med for jeres fornøjelses skyld! Jeg starter med:<br />

Eksempel 4.12.<br />

Udfaldsrummet er X = {0, 1} × N, og den stokastiske variabel betegnes (A, X). Familien<br />

af sandsynlighedsmål er P = {P θ|0 < θ < 1}, hvor<br />

Pθ(A = 1) = 1 − Pθ(A = 0) = 1 2<br />

Pθ(X = k|A = 0) = (1 − θ) k θ for k = 0, 1, . . .<br />

<br />

5<br />

Pθ(X = k|A = 1) = (1 − θ)<br />

k<br />

k θ 5−k<br />

for k = 0, 1, . . . , 5.<br />

Altså svarer vores forsøg til, at vi først kaster en mønt for at bestemme værdien af A,<br />

og dernæst hvis A = 0, observerer vi X fra en geometrisk fordeling, og hvis A = 1, observerer<br />

vi X fra en binomialfordeling med antalparameter 5 . For at kunne bestemme<br />

den minimal sufficiente observator, bemærker vi at<br />

dP θ<br />

dP1 2<br />

(a, k) = (1 − a)θ(1 − θ)k + a( 5<br />

k )(1 − θ)kθ 5−k<br />

(1 − a)( 1 2 )k+1 + a( 5<br />

k )( 1 2 )5<br />

⎧<br />

⎨2<br />

=<br />

⎩<br />

k+1θ(1 − θ) k a = 0<br />

2 5 (1 − θ) k θ 5−k a = 1.<br />

Dette medfører at den minimal sufficiente observator er<br />

t0(a, k) = (a1(k = 4), k),<br />

d.v.s. T0 er næsten identisk med (A, X), bortset fra at de to udfald (0,4) og (1,4) er slået<br />

sammen til et udfald (0,4) .


4.3. BIRNBAUM’S SÆTNING 51<br />

Hvis vi føst bruger betingningsprincippet og betinger med A og dernæst bruger<br />

sufficiensprincippet, ender vi ud med at betragte<br />

X|A = a. (4.3)<br />

Hvis vi derimod starter med sufficensprincippet og dernæst betingningsprincippet,<br />

skal vi spørge, om der findes en ancillær observator der er funktion af T0. Dette synes<br />

ikke at være tilfældet (Ã = A1(X = 4) er således ikke ancillær), og vi ender ud med<br />

at betragte<br />

T0 = (A1(X = 4), X). (4.4)<br />

Vi har derfor fået de to forskellige resultater (4.3) og (4.4). <br />

Eksempel 4.11 viser således, at Ønske 4.7 ikke altid er opfyldt.<br />

Hvis vi nu insisterer på, at “først betingningsprincip så sufficiensprincip” og “først<br />

sufficensprincip så betingningsprincip” altid skal føre til de samme konklusioner, er<br />

det klart, at vi må lave restriktioner på hvordan vi laver konklusioner. Hvad den nødvendige<br />

restriktion bliver, er netop resultatet af Birnbaum’s sætning.<br />

For at formulere sætningen skal jeg bruge noget notation. Resultatet af en statistisk<br />

analyse vil jeg betegne med R. Hvis modellen (X , A, P) betegnes med E og observationen<br />

med x , vil R(E, x) være resultatet fra at have observeret x fra modellen E. Den<br />

type resultater, I er vant til at få frem i en statistisk analyse, er for eksempel et estimat<br />

sammen med dettes middelværdi og varians, eller for eksempel et estimat sammen<br />

med et konfidensinterval. Hvis T er sufficient, og ET betegner modellen svarende til at<br />

kun T = t(X) observeres, formulerer Birnbaum sufficiensprincippet som<br />

(S) R(E, x) = R(ET, t(x)).<br />

Hvis U er ancillær, betegner vi den betingede model af X givet U = u med Eu, og<br />

Birnbaum giver betingningsprincippet som<br />

(B) R(E, x) = R(E u(x), x).<br />

Endelig skal vi have indført likelihoodprincippet. Dette siger, at resultatet af en statistisk<br />

analyse skal kun afhænge af (E, x) gennem likelihoodfunktionen<br />

l(θ) = dP θ<br />

dµ (x).<br />

D.v.s. at hvis to modeller E 0 og E 1 med det samme parameterrrum Θ og med tilhørende<br />

observationer x 0 og x 1 giver anledning til de samme likelihoodfunktioner<br />

l 0 (θ) = dP0 θ<br />

dµ (x0 ) = c dP1 θ<br />

dµ 1 (x1 ) = cl 1 (θ) for alle θ ∈ Θ, (4.5)<br />

hvor c = c(x 0 , x 1 ) ikke afhænger af θ, så skal<br />

R(E 0 , x 0 ) = R(E 1 , x 1 )<br />

Jeg kan nu formulere Birnbaum’s sætning som:<br />

“Hvis (S) og (B) kan bruges i flæng, så gælder likelihoodprincippet”


52 KAPITEL 4. ANCILLARITET OG BASU’S SÆTNING<br />

Bevis. Lad som ovenfor (E 0 , x 0 ) og (E 1 , x 1 ) være to modeller med tilhørende observationer<br />

x 0 og x 1 så at for netop disse to observationer er l 0 (θ) og l 1 (θ) ens, se (4.5). Vi<br />

konstruerer nu en større model E ∗ , der består i, at først bestemmes værdien af A, hvor<br />

P θ(A = 0) = P θ(A = 1) = 1 2 , og dernæst hvis A = 0 observeres der fra E0 og hvis<br />

A = 1 observeres der fra E 1 . Eksempel 4.11 ovenfor er et specialeksempel på dette.<br />

Udfaldsrummet for E ∗ er<br />

X ∗ = {(a, y) | a = 0 og y ∈ X 0 eller a = 1 og y ∈ X 1 }<br />

= ({0} × X 0 ) ∪ ({1} × X 1 ).<br />

Lad målet µ ∗ på X ∗ bestå af µ 0 på {0} × X 0 og µ 1 på {1} × X 1 . Så er<br />

og<br />

dP∗ θ 1<br />

(a, y) =<br />

dµ ∗ 2 {(1 − a)dP0 θ<br />

dµ 0 (y) + a dP1 θ<br />

dµ<br />

dP ∗ θ<br />

dP ∗ θ0<br />

(a, y) =<br />

⎡<br />

⎢<br />

⎣<br />

dP 0 θ<br />

dP 0 θ 0<br />

dP 1 θ<br />

dP 1 θ 0<br />

(y) hvis a = 0<br />

(y) hvis a = 1.<br />

1 (y)},<br />

(4.6)<br />

Hvis x 0 og x 1 opfylder (4.5), viser (4.6), at (0, x 0 ) og (1, x 1 ) giver den samme værdi for<br />

den minimal sufficiente T ∗ 0 under E∗ , altså t ∗ 0 (0, x0 ) = t ∗ 0 (1, x1 ). Derfor giver (S), at<br />

R(E ∗ , (0, x 0 )) = R(E ∗ T0 , t∗ 0(0, x 0 )) = R(E ∗ T0 , t∗ 0(1, x 1 )) = R(E ∗ , (1, x 1 )). (4.7)<br />

Da A er ancillær, giver (B) , at<br />

R(E ∗ , (0, x 0 )) = R(E 0 , x 0 ) og R(E ∗ , (1, x 1 )) = R(E 1 , x 1 ). (4.8)<br />

Kombinerer vi (4.7) og (4.8), har vi, at<br />

R(E 0 , x 0 ) = R(E 1 , x 1 ), (4.9)<br />

d.v.s. at vi har vist, at hvis de to likelihoodfunktioner er ens (4.5), så får vi det samme<br />

resultat (4.9) ud af den statistiske analyse. <br />

Da Birnbaum publicerede sit resultat i 1962, kom det som en stor overraskelse. Grunden<br />

er, at de fleste <strong>statistik</strong>ere akcepterer sufficiensprincippet og betingningsprincippet<br />

som rimelige, men de vil ikke akceptere likelihoodprincippet. Det sidste skyldes,<br />

at hvis man holder sig til likelihoodprincippet, så har man ikke mulighed for at lave<br />

sandsynlighedsudtalelser i sin konklusion, f.eks. kan man ikke angive middelværdi og<br />

varians af et estimat. Som det fremgår af beviset for Birnbaum’s sætning, opstår problemet,<br />

fordi han forlanger at forskellige rækkefølger af brugen af sufficensprincippet<br />

og betingningsprincippet skal føre til samme resultat R for analysen.<br />

En <strong>statistik</strong>er af “Aarhus-skolen”, og dermed en <strong>statistik</strong>er i Fisher’s ånd, vil sige,<br />

at Birnbaum’s resulatat er af typen, at “man smider barnet ud med badevandet”. Altså<br />

den manglende entydighed, når sufficiens- og betingningsprincippet bruges i forskellig<br />

rækkefølge, er udtryk for at inferensdragning er en ikke-entydig beskæftigelse, og<br />

nødvendiggør ikke, at vi skal underkaste os likelihoodprincippets åg.


4.4. OPGAVER 53<br />

4.4 Opgaver<br />

Opgave 4.1<br />

Lad X og Y være uafhængige stokastiske variable, så<br />

og<br />

P(X = 0) = P(X = 1) = 1 2 ,<br />

P(Y = −1) = p, p(Y = 0) = 1 2 , P(Y = 1) = 1 2 − p,<br />

hvor 0 ≤ p ≤ 1 2 . Vis, at U = X + Y2 er ancillær.<br />

Vis, dernæst at Y er sufficient og overvej om Y og U er uafhængige.<br />

Opgave 4.2<br />

Lad X1, . . . , Xn være uafhængige med fordeling givet ved<br />

⎧<br />

⎪⎨<br />

P(Xi = k) =<br />

⎪⎩<br />

1 6 (1 − θ) k = 1<br />

1<br />

6<br />

1<br />

6<br />

1<br />

6<br />

(1 + θ) k = 2<br />

(2 − θ) k = 3<br />

(2 + θ) k = 4,<br />

med −1 < θ < 1. Lad endvidere N k være antallet af X i-er med værdien K. Vis, at<br />

U = (N1 + N2, N3 + N4) og V = (N1 + N4, N2 + N3) begge er ancillære.<br />

Find den forventede information i fordelingen af (N1, N2, N3, N4) givet henholdsvis<br />

U og V.<br />

Vis, at (N1, N2, N3, N4) er minimal sufficient for klassen af fordelinger for X1, . . . , Xn.<br />

Find dernæst en minimal sufficient observator i den betingede fordeling givet U.<br />

Opgave 4.3<br />

Lad X1, . . . , Xn være uafhængige Γ(λ, β)-fordelte, d.v.s. tætheden er<br />

Γ(λ) −1 β λ x λ−1 exp(−βx). Parametrene varierer i (λ, β) ∈ R 2 + .<br />

(i) Vis, at maksimum likelihood estimatet er løsningen til ligningssystemet<br />

λ<br />

β = ¯X og<br />

d<br />

dλ ln Γ(λ) − ln λ = ln ∏n 1 X1/n<br />

i<br />

(ii) Vis, ved at bruge Basu’s sætning på delfamilien med λ fast og β ∈ R+, at ¯X og ˆλ<br />

er uafhængige.<br />

Vink: (∗) viser at ˆλ er en funktion af<br />

n<br />

∏ 1<br />

X 1/n<br />

i<br />

¯X =<br />

n<br />

∏ 1<br />

(βX i) 1/n 1<br />

n<br />

n<br />

∑<br />

1<br />

¯X<br />

βX i<br />

<br />

.<br />

(∗)


54 KAPITEL 4. ANCILLARITET OG BASU’S SÆTNING<br />

Opgave 4.4<br />

Lad X1, . . . , Xn være uafhængige og identisk N(ξ, σ 2 )-fordelte med ξ ∈ R og σ 2 ∈ R+.<br />

Vis, at ( ¯X, s 2 ) er sufficient, hvor s 2 = ∑(X i − ¯X) 2 /(n − 1). Vis, at ( ¯X, s 2 ) er uafhængig<br />

af henholdsvis U1 og U2, hvor<br />

Her er<br />

U1 = ∑n−1<br />

i=1 (X i+1 − X i) 2<br />

∑ n i=1 (X i − ¯X) 2<br />

og U2 = X (n) − ¯X<br />

X (n) − X (1)<br />

X (1) = min{X1, . . . , Xn} og X (n) = max{X1, . . . , Xn}.<br />

Vink: Udtryk U1 og U2 ved Z i = (X i − ξ)/σ, i = 1, .., n.<br />

Opgave 4.5<br />

Lad X1, . . . , Xn være uafhængige og identisk fordelte med tæthed<br />

1<br />

β exp<br />

<br />

x − α<br />

<br />

−<br />

β<br />

Parametrene (α, β) varierer i R × R+.<br />

for x ≥ α og nul ellers.<br />

(i) Find maksimum likelihood estimatet for (α, β).<br />

(ii) Vis, at for fast β og α ∈ R er X (1) = min{X1, . . . , Xn} sufficient og begrænset<br />

komplet. (Vink: Hvis Eα f = 0 for alle α, definer da to mål ν + og ν − ved hjælp af<br />

f + og f − , og vis at disse to mål er identiske.)<br />

(iii) Vis, at ˆα og ˆβ er uafhængige.


4.4. OPGAVER 55<br />

D. Basu -


Kapitel 5<br />

Likelihoodbegreber<br />

Vi skal betragte den statistiske model (X , A, P), hvor X er udfaldsrummet, A en σalgebra,<br />

og P = {P θ|θ ∈ Θ} en parametriseret klasse af sandsynlighedsmål på X .<br />

Med en sådan model formaliserer vi, at parameteren θ ikke direkte kan måles, og at<br />

vi kun får indirekte viden gennem at data følger en fordeling specificeret ved θ. Lad µ<br />

være et mål som dominerer P θ for alle θ ∈ Θ.<br />

Definition 5.1 (Likelihoodfunktionen) L(θ) eller L(θ, x) er en funktion af θ, der for<br />

ethvert x ∈ X er givet ved<br />

L(θ) = L(θ, x) = dPθ (x), θ ∈ Θ.<br />

dµ<br />

I visse situationer vil vi betragte L(θ) som den stokastiske variabel L(θ, X). Loglikelihoodfunktionen<br />

er<br />

l(θ) = l(θ, x) = ln L(θ, x).<br />

Ultimativt ville vi gerne gennem den statistiske analyse være i stand til at pege på<br />

den værdi af θ, som har frembragt data. Dette er naturligvis ikke muligt, og istedet<br />

må vi nøjes med at pege på nogle gode kandidater. Likelihoodfunktionen er et vigtigt<br />

hjælpemiddel til at finde ud af, hvad der er gode kandidater. Hvis for eksempel<br />

L(θ2)/L(θ1) = 10 betyder dette, at under Pθ2 er der 10 gange større sandsynlighed for<br />

at få observationen x end under Pθ1 . I et sådant tilfælde vil vi have mere tiltro til, at θ2<br />

er den ukendte værdi af θ, end vi har til θ1. Hvis udfaldsrummet X er diskret, giver<br />

denne fortolkning ikke anledning til problemer. Hvis istedet X er kontinuert, støder<br />

vi på det problem, at en tæthed kun er defineret næsten sikkert. I praksis er dette som<br />

regel ikke et problem, idet der findes en version af tætheden, som er kontinuert i x, og<br />

denne version bruges så til at angive likelihoodfunktionen. Det er klart ud fra ovenstående<br />

fortolkning, at den værdi af θ, hvor funktionen L(θ) - eller l(θ) - har maksimum,<br />

er af særlig interesse.<br />

Definition 5.2 Hvis ˆθ = ˆθ(x) er sådan, at<br />

l(θ) ≤ l( ˆθ) ∀θ ∈ Θ,<br />

kaldes ˆθ(x) et maksimum likelihood estimat. Ligningen ∂l<br />

∂θ (θ) = 0 kaldes likelihoodligningen.<br />

<br />

57


58 KAPITEL 5. LIKELIHOODBEGREBER<br />

Hvis vi får at vide, at en undersøgelse har vist, at hvis man ryger, er der 10 procent risiko<br />

for, at man får lungekræft, vil vi sikkert straks spørge, hvor sikker denne konklusion<br />

er. Det er jo ikke ligegyldigt om undersøgelsen har fulgt 10 personer, og en af disse har<br />

udviklet lungekræft, eller om hele Danmarks befolkning er blevet fulgt i en årrække.<br />

Det er derfor ikke særligt informativt at afslutte en undersøgelse med at give et punkt<br />

estimat, vi må også sige noget om, hvor tæt estimatet kan formodes at være på den<br />

ukendte værdi af parameteren. Vi vil med andre ord være interesseret i fordelingen af<br />

estimatet, altså hvordan varierer estimatet, hvis vi forestiller os, at forsøget gentages,<br />

så at nye data indsamles fra P θ. Specielt kan vi se på middelværdien af estimatet, og<br />

dette giver anledning til:<br />

Definition 5.3 <strong>Et</strong> estimat ˜θ : X → Θ (ikke nødvendigvis maksimum likelihood estimatet)<br />

siges at være centralt (på engelsk unbiased) hvis<br />

E θ ˜θ(X) = θ for alle θ ∈ Θ. <br />

Hvis et estimat ikke er unbiased, siges det at være biased. I de fleste tilfælde vil Θ være<br />

en delmængde af R d , så at ˜θ(X) ∈ R d , og vi kan tale om dens middelværdi.<br />

Eksempel 5.4.<br />

Lad X1, . . . , Xn være i.i.d. med tæthed<br />

βe −βx , x > 0,<br />

hvor parameteren β > 0. Loglikelihoodfunktionen er<br />

l(β) = n{ln β − β ¯x},<br />

og dermed ˆβ = ¯X −1 . Da ¯X er Gamma-fordelt, finder vi, at<br />

E ˆβ = n<br />

β = β,<br />

n − 1<br />

og ˆβ er altså ikke et centralt estimat. Hvis vi istedet for β betragter parameteren µ =<br />

1/β, som er middelværdien af X, får vi, at maksimum likelihood estimatet af µ er<br />

ˆµ = 1/ ˆβ = ¯X.<br />

Det giver E ˆµ = µ, og ˆµ er et centralt estimat. <br />

Udover middelværdien af et estimat vil det være naturligt at undersøge variansen.<br />

Specielt kan man blandt de estimater, der er centrale forsøge at finde det estimat, der<br />

har mindst mulig varians. Dette er emnet for kapitel 6. Lad mig nævne her, at det<br />

ikke er sikkert, at centrale estimater eksisterer, og hvis de eksisterer, kan kravet om,<br />

at estimatet skal være eksakt centralt betyde, at estimater med andre gode egenskaber<br />

udelukkes.<br />

I stedet for at angive variansen på ˆθ kan vi angive de værdier af θ udover ˆθ, som<br />

har en stor værdi af likelihoodfunktion.


Definition 5.5 <strong>Et</strong> likelihoodområde er en delmængde af Θ på formen<br />

{θ ∈ Θ | l(θ) − l( ˆθ) ≥ −c} (5.1)<br />

for en given konstant c > 0. <br />

I eksempel 5.4 ovenfor vil et likelihoodområde for β være et interval<br />

<br />

z1(c/n)<br />

,<br />

¯x<br />

z2(c/n)<br />

<br />

¯x<br />

hvor z1(y) < z2(y) er de to løsninger til z − 1 − ln z = y. Når n er stor, fås<br />

<br />

1 − √ 2c/n<br />

,<br />

¯x<br />

1 + √ <br />

2c/n<br />

.<br />

¯x<br />

Bemærk her afhængigheden af n. Hvis antallet af observationer 4-dobles, vil længden<br />

af likelihoodintervallet blive halveret.<br />

Likelihoodområdet er indført ovenfor ud fra synspunktet, at det er de θ værdier,<br />

som er næsten lige så trolige som ˆθ. Man kan også spørge: hvad er sandsynlighden for,<br />

at den ukendte parameterværdi θ er indeholdt i likelihoodområdet? Dette får os til at<br />

indføre:<br />

Definition 5.6 <strong>Et</strong> (1 − α)− konfidensområde er en afbildning K(x) fra X ind i mængden<br />

af delmængder af Θ, så at<br />

P θ(K(X) indeholder θ) = 1 − α for alle θ ∈ Θ. <br />

Eksempel 5.7.<br />

Lad X1, . . . , Xn være i.i.d. med fordeling N(µ, σ2 0 ), hvor σ2 0 er kendt og µ ∈ R er ukendt.<br />

Så er<br />

<br />

K(x1, . . . , xn) = ¯x − 1.96<br />

√ σ0, ¯x +<br />

n 1.96<br />

<br />

√ σ0<br />

(5.2)<br />

n<br />

et 95% konfidensinterval for µ. Dette ses ved, at<br />

<br />

Pµ µ ∈ ¯X − 1.96<br />

√ σ0, ¯X +<br />

n 1.96<br />

<br />

√ σ0 = Pµ −1.96 ≤<br />

n √ n( ¯X − µ) 1<br />

idet ¯X ∼ N(µ, σ2 0 /n).<br />

Da log-likelihoodfunktionen er<br />

<br />

l(µ) = n − 1<br />

2 ln(2πσ2 1<br />

0 ) −<br />

2σ2 1<br />

n 0<br />

∑(xi − µ) 2<br />

<br />

<br />

= n − 1<br />

2 ln(2πσ2 1<br />

0 ) −<br />

2σ2 1<br />

n 0<br />

∑(xi − ¯x) 2 − 1<br />

2σ2 ( ¯x − µ)<br />

0<br />

2<br />

<br />

fås at<br />

l(µ) − l( ˆµ) = − n<br />

2σ2 ( ¯x − µ)<br />

0<br />

2 .<br />

σ0<br />

<br />

≤ 1.96 = 0.95<br />

Konfidensintervallet (5.2) er derfor også likelihoodintervallet l(µ) − l( ˆµ) > −1.96 2 /2.<br />

59


60 KAPITEL 5. LIKELIHOODBEGREBER<br />

I eksempel 5.7 så vi et eksempel på, at et likelihoodområde også er et konfidensområde.<br />

Dette vil kun være tilfældet i specielle situationer. Til gengæld er det meget ofte korrekt<br />

approximativt:<br />

Observation 5.8 I mange modeller er området<br />

Kc(x) = {θ | l(θ) − l( ˆθ) ≥ −c}<br />

approksimativt et χ2 d (2c) konfidensområde. Her er χ2 d (w) sandsynligheden for at en<br />

χ2-fordeling med d-frihedsgrader er mindre end w, og d stammer fra at Θ ⊆ Rd . <br />

Dette er selvfølgelig meget løst formuleret, men i notesættet om asymptotik skal<br />

vi se, at det er korrekt for n → ∞, hvor n er antallet af observationer. Resultatet i<br />

Bemærkning 5.8 hænger sammen med et fordelingsresultat for ˆθ. For at forklare dette<br />

definerer jeg:<br />

Definition 5.9 Den stokastiske variabel<br />

kaldes scorefunktionen, og matricen<br />

U(θ) =<br />

∂l(θ, X)<br />

∂θ<br />

j(θ) = − ∂2 l(θ, X)<br />

∂θ∂θ ∗<br />

kaldes den observerede information. Middelværdien af j(θ)<br />

kaldes den forventede information.<br />

i(θ) = E θj(θ) <br />

Observation 5.10 Hvis vi må bytte rundt på differentiation og integration, har vi<br />

og<br />

dPθ ∂ ln( dµ<br />

EθU(θ) =<br />

(x))<br />

dP<br />

∂θ<br />

θ(x)<br />

<br />

∂ dPθ<br />

=<br />

∂θ dµ (x)<br />

<br />

dPθ<br />

dµ (x)<br />

−1 dPθ(x) =<br />

= ∂<br />

<br />

dPθ<br />

∂<br />

(x)dµ(x) = 1 = 0,<br />

∂θ dµ ∂θ<br />

Var θ(U(θ)) = E θU(θ) ∗ U(θ)<br />

hvor vi benyttede at<br />

<br />

∂ 2<br />

∂θ∂θ ∗<br />

<br />

=<br />

<br />

=<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

dPθ<br />

dµ (x)<br />

∂<br />

∂θ ∗<br />

<br />

dPθ<br />

dµ (x)<br />

<br />

∂ dPθ<br />

∂θ dµ (x)<br />

<br />

dPθ<br />

dµ (x)<br />

2 j(θ)dP θ(x) = i(θ),<br />

<br />

dPθ<br />

dµ (x)<br />

−1<br />

<br />

−<br />

<br />

∂ dPθ<br />

∂θ dµ (x)<br />

<br />

dµ(x)<br />

∂2 ∂θ∂θ ∗<br />

<br />

dPθ<br />

dµ (x)<br />

<br />

dPθ<br />

dµ (x)<br />

<br />

⎫<br />

⎪⎬<br />

⎪⎭ dP θ(x)<br />

dPθ(x) = ∂2<br />

∂θ∂θ ∗<br />

<br />

dPθ<br />

(x)dµ(x) = 0.<br />


Observation 5.11 Hvis vi har n data punkter X1, . . . Xn og betegner scorefunktionen<br />

med Un(θ) = Un(θ, X1, . . . , Xn), så vil et bevis magen til det ovenfor for E θUn(θ) = 0<br />

give at<br />

E θ{Un+1(θ) | X1, . . . , Xn} = Un(θ).<br />

Altså er Un(θ) en martingal. Beviset bygger på, at tætheden for X1, . . . Xn+1 er den betingede<br />

tæthed af Xn+1 givet (X1, . . . , Xn ) ganget med tætheden for X1, . . . , Xn. <br />

Jeg kom bort fra, at jeg ville sige noget om fordelingen af ˆθ :<br />

Observation 5.12 I mange modeller er<br />

( ˆθ − θ)j( ˆθ) 1/2 approksimativt N d(0, I d),<br />

hvor I d er d × d enhedsmatricen. <br />

Igen er dette et resultat, der holder for de fleste modeller, når n → ∞, hvor n er antallet<br />

af observationer. Det er også bemærkelsesværdigt, at hvis der findes en ancillær<br />

observator, vil resultaterne i Observationerne 5.8 og 5.12 typisk holde i den betingede<br />

fordeling givet værdien af den ancillære observator.<br />

Indtil nu har jeg talt om estimaternes fordeling og om forskellige områder af trolige<br />

parameterværdier. Heri ligger også kimen til forskellige måder at lave tests på. Lad os<br />

se på situationen, at vi ønsker at teste θ = θ0. En meget naturlig måde til at undersøge<br />

om θ = θ0, er at se om θ0 tilhører et likelihoodområde specificeret ved en værdi af c i<br />

(5.1). Dette svarer imidlertid til at betragte værdien af log kvotienttestoren (log likelihood<br />

ratio teststørrelsen)<br />

W = 2{l( ˆθ) − l(θ0)}, (5.3)<br />

således at θ0 tilhører likelihoodområdet hvis og kun hvis W ≤ 2c. Store værdier af W<br />

betyder, at ˆθ er en meget mere trolig værdi af den ukendte parameter end θ0, og hvis<br />

W bliver for stor, forkaster vi hypotesen θ = θ0. Hvis vi Taylorudvikler (5.3) omkring<br />

ˆθ, får vi den såkaldte Wald teststørrelse:<br />

Wald = ( ˆθ − θ0)j( ˆθ)( ˆθ − θ0) ∗ .<br />

En tredje mulighed er at forkaste hypotesen hvis<br />

U(θ0)i(θ0) −1/2<br />

bliver for stor. Dette kaldes scoretestet. Ækvivalent hermed er det store værdier af<br />

S = U(θ0)i(θ0) −1 U(θ0) ∗<br />

som forkastes.<br />

Svarende til Observationerne 5.8 og 5.12 har vi:<br />

Observation 5.13 Alle tre teststørrelser W , Wald og S er i mange modeller approksimativt<br />

χ2 d-fordelt. <br />

61


62 KAPITEL 5. LIKELIHOODBEGREBER<br />

Vi kan altså lave et approksimativt test på niveau α ved at forkaste, når teststørrelsen<br />

er større en 1 − α fraktilen i en χ 2 d -fordeling.<br />

I nogle af afsnittene nedenfor skal vi diskutere, hvordan vi vælger ét test fremfor et<br />

andet.<br />

Vi så i afsnit 3.4, at likelihoodfunktionen er en minimal sufficient observator. De<br />

ting, som jeg har sagt i dette afsnit, peger hen mod, at de vigtigste aspekter ved likelihoodfunktionen<br />

er parret ( ˆθ, j( ˆθ)). Dette bygger på, at hvis vi kender ˆθ og j( ˆθ), så<br />

kan vi lave en parabolsk approksimation til likelihoodfunktionen omkring dens maksimum.<br />

Som nævnt ovenfor forudsætter dette at antallet af observationer er stort. Hvis<br />

dette ikke er tilfældet, er det vigtigt at kigge nøjere på likelihoodfunktionen, og det er<br />

vigtigt at bruge log kvotienttestoren W fremfor Wald teststørrelsen.<br />

Jeg vender tilbage til likelihoodfunktionen i afsnit 8.1 i forbindelse med inferens<br />

om en delparameter.<br />

5.1 Opgaver<br />

Opgave 5.1<br />

Lad l(θ), θ ∈ Θ, være loglikelihoodfunktion for observationen x, og lad ˆθ = ˆθ(x) være<br />

maksimum likelihood estimatet under hypotesen θ ∈ Θ :<br />

sup l(θ) = l( ˆθ).<br />

θ∈Θ<br />

Lad Θ0 ⊆ Θ være en delhypotese. Vis, at hvis estimatet ˆθ under den fulde model<br />

tilhører Θ0, ˆθ ∈ Θ0, da vil<br />

sup l(θ) = l( ˆθ).<br />

θ∈Θ0<br />

Lad nu θ = (ψ, η) og Θ = Ψ × Ω. Antag at l(θ) er på formen<br />

Vis, at<br />

sup<br />

θ∈Θ<br />

l(θ) = l0(ψ) + l1(η).<br />

l(θ) = sup<br />

ψ∈Ψ<br />

l0(ψ) + sup l1(η).<br />

η∈Ω<br />

Opgave 5.2<br />

Lad X1 ∼ Bin(n1, θ1) og X2 ∼ Bin(n2, θ2), hvor (θ1, θ2) ∈ Θ = (0, 1) × (0, 1), og lad X1<br />

og X2 være uafhængige. Opstil log-likelihoodfunktionen l(θ1, θ2) for (θ1, θ2).<br />

Betragt delhypotesen (θ1, θ2) = (ψ, ψ 3 ) med 0 < ψ < 1, og opstil loglikelihoodfunktionen<br />

l(ψ) for ψ.<br />

Vis, at likelihoodligningen l ′ (ψ) = 0 kan reduceres til en tredje grads ligning.<br />

Betragt tilfældet med n1 = n2 = 16, x1 = 8 og x2 = 2. Find maksimum likelihood<br />

estimatet ( ˆθ1, ˆθ2) i den fulde model og dernæst maksimum likelihood estimatet for ψ i<br />

delmodellen.<br />

Opgave 5.3. Newton-Raphson iteration<br />

Lad l(θ) være en loglikelihoodfunktion med θ liggende i et interval af R. Hvis vi ikke


5.1. OPGAVER 63<br />

kan løse likelihoodligningen<br />

l ′ (θ) = 0<br />

direkte, kan vi forsøge at lave en iterativ procedure, som konvergerer mod estimatet ˆθ.<br />

Newton-Raphson iteration baserer sig på en 1.-ordens Taylorudvikling af l ′ (θ) :<br />

⇓<br />

l ′ (θ) = l ′ (θ1) + (θ − θ1)l ′′ (θ1) + Rest(θ, θ1)<br />

ˆθ − θ1 = −l′ (θ1) − Rest( ˆθ, θ1)<br />

l ′′ .<br />

(θ1)<br />

Vi smider nu restleddet væk og forsøger os med gættet<br />

Vi får derfor en sekvens θ2, θ3, .. på formen<br />

θ2 = θ1 − l ′ (θ1)/l ′′ (θ1).<br />

θ k+1 = θ k − l ′ (θ k)/l ′′ (θ k).<br />

Denne metode til bestemmelse af ˆθ kaldes Newton-Raphson iteration.<br />

Lav en tegning med l ′ (θ) som funktion af θ og vis hvordan θ2 konstrueres ud fra θ1.<br />

Generelt konvergerer Newton-Raphson iterationen mod ˆθ, hvis blot det <strong>første</strong> gæt<br />

θ1 ligger tiltrækkelig tæt på ˆθ. Overvej dette ud fra tegnede eksempler.<br />

Hvis θ er p-dimensional, bliver Taylorudviklingen<br />

og Newton-Raphson iterationen bliver<br />

∂l<br />

(θ)<br />

∂θ<br />

≈<br />

∂l<br />

∂θ (θ1) + (θ − θ1)<br />

∂2l ∂θ∂θ ∗<br />

1 × p 1 × p 1 × p p × p<br />

θk+1 = θk − ∂l<br />

∂θ (θ <br />

∂2l k)<br />

∂θ∂θ ∗ (θ −1<br />

k) .<br />

Opgave 5.4<br />

Betragt igen opgave 5.2 med X1 ∼ Bin(n1, ψ) og X2 ∼ Bin(n2, ψ 3 ). Vis, at likelihoodligningen<br />

reducerer til<br />

(n1 + 3n2)ψ 3 + (n1 − x1)ψ 2 + (n1 − x1)ψ − (x1 + 3x2) = 0. (∗)<br />

Overvej hvor mange løsninger denne ligning har i intervallet (0, 1).<br />

Opskriv Newton-Raphson iterationen, og overvej et godt startpunkt ψ1.<br />

Lad n1 = 10, n2 = 20 og x1 = 5, x2 = 2. Find ˆψ ved iteration. Start evt. med<br />

ψ1 = x 1<br />

n 1 + x2<br />

n2<br />

1/3 /2. Tegn l(ψ) og find likelihoodintervallet {ψ|l( ˆψ) − l(ψ) ≤ 2}.<br />

Opgave 5.5<br />

Lad X1, . . . , Xn være uafhængige N(µ, σ 2 )-fordelte. Find den observerede information<br />

j(µ, σ 2 ) og den forventede information i(µ, σ 2 ).


64 KAPITEL 5. LIKELIHOODBEGREBER<br />

Maksimum likelihood estimatet for σ 2 er ˆσ 2 = 1 n Σ(x i − ¯x) 2 . Vis, at for n → ∞ vil<br />

√ n(ˆσ 2 − σ 2 ) ˜→N(0, τ 2 )<br />

og angiv τ2 .<br />

Vink: Det sidste spørgsmål kan løses direkte, da ˆσ 2 ’s fordeling er kendt. Alternativt<br />

kan man skrive<br />

√ n(ˆσ 2 − σ 2 ) = 1<br />

√n<br />

n<br />

∑<br />

1<br />

og vise at n 1/4 ( ¯X − µ) → 0 i sandsynlighed.<br />

<br />

(Xi − µ) 2 − σ 2<br />

<br />

− n 1/4 2 ( ¯X − µ)<br />

Opgave 5.6<br />

Denne opgave skal løses numerisk ved hjælp af en lille computer.<br />

I forbindelse med estimation af fordelingen af inkubationstiden for AIDS har man<br />

forsøgt at bruge data for personer smittet ved blodtransfusion, hvor netop smittetidspunktet<br />

er kendt. Hvis for eksempel undersøgelsen af afsluttet i 1985, har vi observeret<br />

alle dem, der har fået AIDS før 1985 og som er smittet ved blodtransfusion. Lad observationerne<br />

være Y i < Z i < 1985, hvor Y i er smittetidspunktet og Z i er tidspunktet for<br />

AIDS i fuldt udbrud. Der vil være andre, der er smittede til tidspunktet Y i, men disse<br />

observeres ikke, da deres AIDS tidspunkt Z ligger senere end 1985. Det relevante vil<br />

derfor være at betragte X i = Z i − Y i som en observation af en inkubationstid i den<br />

betingede fordeling givet X i < 1985 − Y i = U i.<br />

Vi opstiller derfor en likelihoodfunktion baseret på observationerne (x1, u1), . . . ,<br />

(xn, un) og den betingede fordeling af X givet X < u. Vi vil betragte modellen, hvor<br />

inkubationstiden er Weibullfordelt, d.v.s. fordelingsfunktionen er givet ved<br />

P(X ≤ x) = 1 − e −βxα<br />

,<br />

hvor parametrene (α, β) varierer i R2 + . Hvis data er grupperet, så at vi ikke observerer<br />

Xi men Ki, hvor<br />

Ki = l for l − 1 < Xi ≤ l,<br />

bliver likelihoodfunktionen<br />

L(α, β) =<br />

n<br />

∏ 1<br />

= ∏ k≤u<br />

exp[−β(k i − 1) α ] − exp[−βkα i ]<br />

1 − exp(−βuα i )<br />

<br />

exp[−β(k − 1) α ] − exp[−βkα ]<br />

1 − exp(−βu α )<br />

n(k,u)<br />

hvor n(k, u) er antal observationer (k i, u i) med vaerdien (k, u). Datasættet nedenfor<br />

stammer fra San Francisco. For hver kombination af (k, u) angiver tabellen hvor mange<br />

observationer n(k, u) der er med denne værdi af (k, u)<br />

k 6 7 3 4 5 6 3 4 5 1 2 3 4 1 2 3 1 2<br />

u 7 7 6 6 6 6 5 5 5 4 4 4 4 3 3 3 2 2<br />

n(k, u) 2 1 2 1 5.5 4.5 8 11.5 5 1 7.5 8.5 17 3 14.5 20.5 4.5 20.5<br />

,


5.1. OPGAVER 65<br />

Find maksimum likelihood estimatet (ˆα, ˆβ), og skitser på en tegning området l(ˆα, ˆβ) −<br />

l(α, β) ≥ 3, hvor l(α, β) = log L(α, β).<br />

Vink: En mulighed er at lave en lille (α, β)-tabel med værdier af l(α, β). Når det på<br />

denne måde er bestemt, hvor cirka (ˆα, ˆβ) ligger, kan man enten gøre tabellen finere og<br />

finere, eller man kan lave Newton-Raphson iteration. Likelihoodområdet findes ved<br />

for udvalgte værdier af α at finde de to værdier af β, som afgrænser området.


Kapitel 6<br />

Centrale estimatorer med minimal<br />

varians og nedre grænse på variansen<br />

6.1 Centrale estimatorer med minimal varians<br />

I dette afsnit betragter jeg igen en model (X , A, P) med P = {P θ|θ ∈ Θ}. Desuden<br />

lader jeg ψ : Θ → R være en parameterfunktion, som jeg ønsker at estimere. Hvis<br />

f.eks. P er alle normalfordelinger, P = {N(µ, σ 2 )|µ ∈ R, σ 2 > 0}, og vi ønsker at<br />

estimere middelværdien, vil ψ(µ, σ 2 ) = µ.<br />

Definition 6.1 <strong>Et</strong> estimat S = s(X), s : (X , A) → (R, B(R)), siges at være centralt (på<br />

engelsk unbiased) hvis<br />

<br />

EθS = s(x)dPθ(x) = ψ(θ) ∀θ ∈ Θ.<br />

Centrale estimatorer eksisterer ikke altid:<br />

Eksempel 6.2.<br />

Lad X være binomialfordelt med antalsparameter n og sandsynlighedsparameter 0 <<br />

θ < 1. Lad ψ(θ) = θ −1 . For at s(X) er et centralt estimat, skal<br />

n<br />

∑ s(k)<br />

k=0<br />

Lader vi θ → 0, får vi ligningen<br />

og en central estimator for 1 θ<br />

<br />

n<br />

<br />

θ<br />

k<br />

k (1 − θ) n−k = 1<br />

θ<br />

s(0) = ∞,<br />

∀ 0 < θ < 1.<br />

eksisterer ikke. <br />

Mængden af centrale estimatorer af ψ med endelig varians betegnes C(ψ) :<br />

C(ψ) = {s : X → R | E θS = ψ(θ), E θS 2 < ∞ ∀ θ ∈ Θ}.<br />

Specielt er C0 = C(0) alle funktioner med middelværdi 0 og med endelig varians for<br />

alle θ ∈ Θ. Vi vil kun betragte estimatorer i C(ψ), og jagter elementer i denne klasse<br />

med mindst mulig varians:<br />

67


68 KAPITEL 6. CENTRALE ESTIMATORER MED MINIMAL VARIANS<br />

Definition 6.3 En estimator S0 ∈ C(ψ) kaldes UMVU (uniformly minimum variance<br />

unbiased) eller central estimator med minimal varians hvis<br />

V θ(S) ≥ V θ(S0) ∀S ∈ C(ψ) ∀θ ∈ Θ. <br />

Selvom der eksisterer centrale estimatorer, C(ψ) = ∅, er det ikke sikkert, at der eksisterer<br />

en UMVU-estimator. Den eventuelt manglende eksistens skyldes, at vi i Definition<br />

6.3 forlanger minimal varians for alle θ ∈ Θ. For et givet θ0 ∈ Θ er det altid muligt at<br />

finde Sθ0 ∈ C(ψ), så at Vθ0 (S) ≥ Vθ0 (Sθ0 ) for alle S ∈ C(ψ). Dette bygger på Matematik<br />

2 teori:<br />

Observation 6.4 Lad L2 θ0 = { f : X → R | Eθ0 f (X)2 < ∞}, som er et vektorrum med<br />

det indre produkt<br />

< f , g > θ0 =<br />

<br />

f (x)g(x)dP θ0 (x).<br />

I L 2 θ0 er C0 et underrum, og der eksisterer en ortogonal projektion Proj θ0 af L2 θ0<br />

på C0.<br />

Hvis S1 er et fast valgt element i C(ψ) ⊂ L2 , vil ethvert andet element S ∈ C(ψ) kunne<br />

θ0<br />

skrives som S = S1 − S2 med S2 ∈ C0. Vi vil nu vælge S2, så at variansen under Pθ0 minimeres, d.v.s. vi skal minimere<br />

< (S1 − ψ0) − S2, (S1 − ψ0) − S2 > θ0 =< S1 − S2, S1 − S2 > θ0 −ψ2 0 ,<br />

hvor ψ0 = ψ(θ0). Løsningen til dette er<br />

som er bestemt ved<br />

S2 = Proj θ0 (S1),<br />

< S1 − Proj θ0 (S1), S2 > θ0 = 0 ∀S2 ∈ C0. (6.1)<br />

Det er altså muligt at finde Sθ0 ∈ C(ψ), som har minimal varians under Pθ0 . Dette entydigt<br />

bestemte Sθ0 kaldes en LMVU-estimator (locally minimum variance unbiased).<br />

△ <br />

Eksempel 6.5.<br />

Lad X antage værdierne −1, 0, 1, · · · med sandsynlighederne<br />

P(X = −1) = θ, P(X = k) = (1 − θ) 2 θ k , k = 0, 1, . . . ,<br />

hvor 0 < θ < 1. Lad ψ1(θ) = θ, ψ2(θ) = (1 − θ) 2 og definer<br />

S1 =<br />

1 hvis X = −1<br />

0 ellers<br />

<br />

1 hvis X = 0<br />

, S2 =<br />

0 ellers<br />

Da er S1 ∈ C(ψ1) og S2 ∈ C(ψ2). Hvis S = s(X) ∈ C0 skal<br />

s(−1)θ +<br />

∞<br />

∑<br />

k=0<br />

(1 − θ) 2 θ k s(k) = 0 ∀ 0 < θ < 1,


6.1. CENTRALE ESTIMATORER MED MINIMAL VARIANS 69<br />

og dette medfører, at<br />

C0 = {s : X → R | s(k) = ak for et a ∈ R}.<br />

Hvis vi vil minimere variansen under Pθ0 , skal vi minimere<br />

mht. a ∈ R. Løsningen hertil er<br />

âi(θ0) = Eθ0XSi =<br />

Eθ0X2 ∑(si(k) − ak) 2 Pθ0 (X = k)<br />

<br />

−θ0/[θ0 + (1 − θ0) 2 ∑ ∞ 1 k2θk 0 ] i = 1<br />

0 i = 2<br />

Da â2(θ0) ikke afhænger af θ0 er S2 − â2X = S2 en UMVU for ψ2. Omvendt da â1(θ0)<br />

afhænger af θ0, så eksisterer der ikke en UMVU for ψ1. <br />

Formel (6.1) indeholder en karakterisation af UMVU-estimatorer. Dette vil jeg nu<br />

vise præcist:<br />

Lemma 6.6 S0 ∈ C(ψ) er en UMVU-estimator hvis og kun hvis<br />

E θ(S0S) = 0 ∀ S ∈ C0 ∀ θ ∈ Θ. <br />

Bevis. Lad E θS0S = 0, ∀ S ∈ C0. Hvis S1 ∈ C(ψ) vil S = S1 − S0 ∈ C0, og<br />

V θS1 = V θ(S1 − S0 + S0) = V θ(S) + V θ(S0) + 2Cov θ(S, S0)<br />

= V θ(S) + V θ(S0) + 2E θSS0 = V θ(S) + V θ(S0) ≥ V θ(S0).<br />

D.v.s. S0 er en UMVU-estimator.<br />

Hvis S0 er en UMVU-estimator og ρ = E θ0 S0S = 0 for et S ∈ C0 og et θ0 ∈ Θ, skal<br />

vi vise en modstrid. Lad S λ = S0 + λS ∈ C(ψ). Så er<br />

Vθ0 (Sλ) = Vθ0 (S0) + λ 2 Vθ0 (S) + 2λρ,<br />

og da ρ = 0 medfører Vθ0 (S) > 0, kan vi tage λ = −ρ/Vθ0 (S), hvilket giver<br />

V θ0 (S λ) = V θ0 (S0) − ρ2<br />

V θ0 (S) < V θ0 (S0).<br />

Dette er en modstrid med at S0 er en UMVU-estimator. <br />

Korollar 6.7 (Entydighed af UMVU-estimatorer). Hvis S1, S2 begge er UMVU-estimatorer<br />

for ψ vil<br />

S1 = S2 n.s. − P θ ∀ θ ∈ Θ. <br />

Bevis. Da S1 − S2 ∈ C0 har vi fra Lemma 6.6, at<br />

V θ(S1) = V θ(S1 − S2 + S2) = V θ(S2) + V θ(S1 − S2).<br />

Da S1 og S2 begge er UMVU, er V θ(S1 − S2) = 0, som giver resultatet.


70 KAPITEL 6. CENTRALE ESTIMATORER MED MINIMAL VARIANS<br />

I Observation 6.4 blev det antydet, at for at minimere variansen under Pθ0 , skulle vi<br />

betragte en projektion. For at få en UMVU-estimator skal denne projektion være uafhængig<br />

af θ0. Projektioner minder lidt om betingede middelværdier, og hvis disse skal<br />

være uafhængige af parameteren, nærmer vi os noget med sufficiente observatorer. At<br />

dette ikke er fuldstændig tom snak, vidner de næste to sætninger om.<br />

Sætning 6.8 (Rao-Blackwell). Lad T være sufficient for P og lad S ∈ C(ψ). Da T er<br />

sufficient, afhænger ST = E θ(S|T) ikke af θ, og vi har, at ST ∈ C(ψ) og<br />

V θ(ST) ≤ V θ(S),<br />

med lighedstegn hvis og kun hvis S = ST n.s. − P θ. Når man erstatter S med ST siger<br />

man, at man har udført en “Rao-Blackwellisation". <br />

Bevis. Da E θST = E θS og E θS 2 T ≤ E θE θ(S 2 |T) = E θS 2 < ∞ vil ST ∈ C(ψ). Da S =<br />

S − ST + ST har vi<br />

V θ(S) = V θ(S − ST) + V θ(ST) + 2Cov θ(S − ST, ST)<br />

= V θ(S − ST) + V θ(ST), (6.2)<br />

da Cov θ(S − ST, ST) = E θ((S − ST)ST) = E θ(STE θ(S − ST|T)) = 0. Af 6.2 følger umiddelbart<br />

uligheden i sætningen. Lighed opnås hvis og kun hvis<br />

V θ(S − ST) = 0 ⇔ S = ST n.s. − p θ. <br />

I eksempel 6.5 havde vi en model, hvor der for nogle, men ikke alle, parameterfunktioner<br />

ψ(θ) eksisterede en UMVU-estimator. Hvis vi har en model med en sufficient og<br />

komplet observator T, er situationen en anden:<br />

Sætning 6.9. Hvis T er sufficient og komplet for P og ψ : Θ → R er en parameterfunktion<br />

med C(ψ) = ∅, så eksisterer der en (entydig, jvf. Korollar 6.7) UMVU-estimator<br />

for ψ og denne er en funktion af T. Hvis S ∈ C(ψ) så er UMVU-estimatoren givet ved<br />

ST = E(S|T). Specielt hvis T = t(X), t : X → Y og f : Y → R med E θ f (T) 2 < ∞ ∀ θ,<br />

så er f (t(X)) en UMVU-estimator for parameterfunktionen<br />

ψ f (θ) = E θ f (T). <br />

Bevis. Lad S ∈ C(ψ) og definer ST = E(S|T) . Vi vil vise, at ST er en UMVU-estimator<br />

for ψ. Lad ˜S ∈ C(ψ) og lad ˜ST = E( ˜S|T). Da ˜ST og ST begge er funktioner af T og da<br />

E θ( ˜ST − ST) = ψ(θ) − ψ(θ) = 0 ∀ θ ∈ θ<br />

vil, da T er komplet, ˜ST = ST n.s.-P θ for alle θ ∈ θ. Dermed har vi ifølge sætning 6.8 at<br />

V θST = V θ ˜ST ≤ V θ ˜S.<br />

Den sidste del af sætningen følger af, at vi trivielt har, at f (T) ∈ C(ψ f ), og da<br />

E( f (T)|T) = f (T) er f (T) den UMVU-estimator, som vi konstruerede ovenfor. <br />

Sætning 6.9 giver os ikke blot eksistens, men også en metode til at konstruere UMVUestimatorer<br />

på.


6.2. VARIANSULIGHEDER 71<br />

Eksempel 6.10.<br />

Lad X1, . . . , Xn være i.i.d. fra en N(θ, 1). Fra eksponentiel familie teori har vi, at ∑ X i<br />

er sufficient og komplet. Da X1 er en central estimator for θ, giver Sætning 6.9, at<br />

<br />

E X1| ∑<br />

i<br />

X i<br />

<br />

= 1<br />

n ∑ j<br />

E 1<br />

Xj| ∑ Xi =<br />

n E<br />

<br />

∑<br />

j<br />

X j| ∑ i<br />

X i<br />

<br />

= 1<br />

n ∑ i<br />

er en UMVU-estimator for θ.<br />

(<strong>Et</strong> direkte bevis for sufficiens er som følger: Tætheden for X1, . . . , Xn er (2π) −n/2 ·<br />

exp{− 1 2 ∑i(x i − ¯x) 2 } exp{− n 2 ( ¯x − θ)2 }, og når vi dividerer denne med tætheden for ¯X,<br />

forsvinder det sidste eksponentielle led, og vi får noget der ikke afhænger af θ. Hvis vi<br />

vil bevise komplethed af ¯X benytter vi, at hvis h(v) exp{−(v − θ) 2 /(2σ 2 )} = 0 for<br />

alle θ, så er ˜ h(v) exp{vµ} = 0 for alle µ, hvor ˜ h(v) = h(v) exp{−v 2 /(2σ 2 )}. Vi spitter<br />

dernæst ˜ h op i den positive og negative del og benytter entydighed af laplacetransformen.)<br />

<br />

6.2 Variansuligheder<br />

Ovenfor undersøgte jeg eksistensen af centrale estimatorer med minimal varians. Udover<br />

eksistensen vil vi også gerne vide hvad variansen er. Denne er som regel svær<br />

at beregne, men istedet kan vi angive en simpel nedre grænse. At den nedre grænse,<br />

som vi udleder, er relevant, kan ses i asymptotiske resultater. I Bemærkning 5.12 anførte<br />

jeg, at vi ofte har ( ˆθ − θ)j( ˆθ) 1/2 ˜→N d(0, I d), men da også typisk j( ˆθ)/i(θ) → 1<br />

vil ( ˆθ − θ)i(θ) 1/2 ˜→N d(0, I d). D.v.s. at den forventede information i(θ) −1 måler den asymptotiske<br />

varians af ˆθ. Nedenfor skal vi netop udlede i(θ) −1 som en nedre grænse<br />

for variansen. Dette viser, at maksimum likelihood estimatet ud over at være begrundet<br />

i fortolkningen af likelihoodfunktionen også kan begrundes i dets gode egenskaber,<br />

når antallet af observationer vokser.<br />

Lemma 6.11 Antag at alle målene i P er indbyrdes ækvivalente. Så gælder for alle<br />

θ ∈ Θ og alle S ∈ C(ψ) at<br />

(med a ∞ = 0 og 0 0<br />

V θ(S) ≥ sup<br />

η∈Θ<br />

[ψ(η) − ψ(θ)] 2<br />

.<br />

V θ( dPη<br />

dP θ )<br />

= 0). <br />

Bevis. Vi skal vise, at V θ(S) ≥ [ψ(η) − ψ(θ)] 2 /V θ( dPη<br />

dP θ ) for alle η. Hvis V θ( dPη<br />

dP θ ) = ∞<br />

er resultatet trivielt opfyldt, og tilsvarende hvis V θ( dPη<br />

dP θ ) = 0, så er ψ(η) = ψ(θ), og<br />

resultatet er trivielt. I modsat fald har vi Cauchy-Schwarz’ ulighed<br />

<br />

Covθ S, dPη<br />

<br />

dPθ 2 dPη<br />

<br />

≤ Vθ(S)V θ<br />

dPθ X i


72 KAPITEL 6. CENTRALE ESTIMATORER MED MINIMAL VARIANS<br />

Resultatet følger derfor af<br />

<br />

Covθ S, dPη<br />

<br />

dPθ <br />

dPη<br />

= EθS dPθ <br />

dPη<br />

= EθS dP θ<br />

<br />

dPη dPη<br />

− Eθ = E<br />

dP<br />

θS − Eη1<br />

θ dPθ <br />

− 1 = EηS − EθS = ψ(η) − ψ(θ) <br />

Det næste resultat får vi fra lemma 6.11 ved at lade η → θ på passende vis. Da vi skal<br />

bytte rundt på differentiation og integration, skal vi have nogle yderligere antagelser.<br />

Sætning 6.12 (Cramér-Rao’s ulighed). Antag at alle målene i P er indbyrdes ækviva-<br />

lente og lad L θ(η, x) = dPη<br />

dP θ (x). Antag at<br />

(i) Θ er en åben delmængde af R d ,<br />

(ii) ψ er 1 gang differentiabel,<br />

(iii) ∀ θ ∈ Θ er Lθ(η, x) differentiabel som funktion af η i punktet θ n.s.−Pθ, den<br />

afledede ∂<br />

∂η Lθ(η, x)| η=θ betegnes L ′ θ (θ, x),<br />

(iv) i(θ) = EθL ′ θ (θ, X)∗ L ′ θ (θ, X) er positiv definit ,<br />

(v) ∀ θ ∈ Θ findes der ω θ > 0 og D θ : X → R så at E θD θ(X) 2 < ∞ og |L θ(η, x) − 1| ≤<br />

η − θD θ(x) for alle η − θ < ω θ n.s. − P θ.<br />

Da gælder for alle S ∈ C(ψ) at<br />

V θ(S) ≥ ∂ψ<br />

∂θ<br />

∂ψ<br />

(θ)i(θ)−1 (θ).<br />

∂θ∗ Bevis. Lad ηt = θ + t ∂ψ<br />

∂θ (θ)i(θ)−1 . Da ψ er differentiabel, er t→ ψ(ηt) differentiabel, og<br />

1<br />

t 2 [ψ(ηt) − ψ(θ)] 2 →<br />

∂ψ<br />

∂θ<br />

∂ψ<br />

(θ)i(θ)−1 (θ)<br />

∂θ∗ 2<br />

<br />

for t → 0. (6.3)<br />

Fra domineret konvergens får vi, idet ηt − θ = |t| dψ<br />

dθ (θ)i(θ)−1 < ωθ for t lille,<br />

1<br />

t2 V 2 Lθ(ηt, x) − 1<br />

θ(Lθ(ηt, X)) =<br />

dP<br />

t<br />

θ(x)<br />

2 ∂ψ<br />

→<br />

(θ, x)∗ dPθ(x) <br />

∂ψ<br />

=<br />

∂θ (θ)i(θ)−1 L ′ θ<br />

∂θ (θ)i(θ)−1 L ′ θ (θ, x)∗L ′ θ<br />

<br />

= ∂ψ<br />

∂θ (θ)i(θ)−1<br />

∂ψ<br />

(θ, x)i(θ)−1<br />

L ′ θ (θ, x)∗L ′ θ (θ, x)dP <br />

θ(x) i(θ)<br />

∂θ ∗ (θ)dP θ(x)<br />

−1 ∂ψ<br />

(θ) ∗<br />

= ∂ψ<br />

∂θ (θ)i(θ)−1 −1 ∂ψ<br />

i(θ)i(θ) (θ)<br />

∂θ∗ = ∂ψ ∂ψ<br />

(θ)i(θ)−1 (θ).<br />

∂θ ∂θ∗ (6.4)<br />

Dividerer vi nu (6.3) med (6.4), fås resultatet fra Lemma 6.11. <br />

∂θ


6.2. VARIANSULIGHEDER 73<br />

Observation 6.13 Ovenfor er i(θ) udtrykt ved L ′ θ (θ, x). Hvis µ er et fast mål som dominerer<br />

P og L(θ) = L(θ, x) er likelihoodfunktionen dPθ dµ , vil<br />

∂<br />

∂η L θ(η, x)| η=θ =<br />

∂L<br />

∂θ (θ)<br />

L(θ)<br />

hvor l(θ) = logL(θ) er loglikelihoodfunktionen. D.v.s.<br />

i(θ) = E θ<br />

∂l<br />

∂θ<br />

∗ (θ) ∂l<br />

= ∂l<br />

∂θ (θ),<br />

∂θ (θ),<br />

og denne kaldes Fisher’s informationsfunktion. Definitionen af i(θ) afviger fra Definition<br />

5.9, men som det fremgår af Observation 5.10, er de to definitioner ækvivalente. <br />

Eksempel 6.14.<br />

I Eksempel 5.4 betragtede vi observationer fra en exponentialfordeling. Loglikelihoodfunktionen<br />

var<br />

l(β) = n{ln β − β ¯x},<br />

og vi fandt ˆβ = ¯X −1 . Da E ˆβ = β n<br />

n−1 har vi fra Sætning 6.9, at<br />

n − 1<br />

n<br />

ˆβ =<br />

n − 1<br />

∑ X i<br />

er en central estimator med minimal varians for β. Desuden finder vi, at<br />

<br />

n − 1<br />

V<br />

∑ Xi = (n − 1) 2<br />

Den forventede information er<br />

i(β) = E<br />

<br />

β 2<br />

(n − 1)(n − 2) −<br />

2 ∂l<br />

= n<br />

∂β<br />

2 <br />

1<br />

E<br />

β − 2 ¯X<br />

og demed bliver Cramér-Rao’s nedre grænse<br />

1<br />

n β2<br />

β2 (n − 1) 2<br />

<br />

= 1<br />

n − 2 β2 .<br />

= n<br />

,<br />

β2 som er strengt mindre end 1<br />

n−2 β2 . <br />

Eksempel 6.15.<br />

Lad P være en eksponentiel familie på minimal form<br />

dPθ (x) = b(x)eθ·t(x)−κ(θ)<br />

dµ<br />

med θ ∈ Θ ⊆ R d . Så er loglikelihoodfunktionen<br />

l(θ) = θ · t(x) − κ(θ),


74 KAPITEL 6. CENTRALE ESTIMATORER MED MINIMAL VARIANS<br />

og dermed<br />

∂l<br />

i(θ) = Eθ ∂θ∗ ∂l<br />

∂θ = Eθ[t(X) − τ(θ)] ∗ [t(X) − τ(θ)] = Vθ(t(X)) = ∂2κ .<br />

∂θ∂θ ∗<br />

Lad for et øjeblik d = 1. Så siger Sætning 6.9, at T = t(X) er en UMVU-estimator for<br />

τ(θ) = E θT. Cramér-Rao’s nedre grænse er i dette tilfælde<br />

∂τ ∂τ<br />

i(θ)−1<br />

∂θ ∂θ∗ = Vθ(T)V θ(T) −1 Vθ(T) = Vθ(T), d.v.s. at den nedre grænse er lig med den faktiske varians, når middelværdien τ(θ)<br />

estimeres med T.<br />

Hvis ψ : Θ → R er en generel parameterfunktion og denne estimeres med ˆψ =<br />

ψ( ˆθ) = ψ( ˆθ(T)), kan vi approksimere variansen ved at Taylorudvikle:<br />

ˆψ = ψ(θ) + (T − τ) ∂ ˆθ<br />

∂t ∗<br />

Hvis vi kun betragter de <strong>første</strong> to led fås<br />

V θ( ˆψ) ∼ ∂ψ<br />

∂θ V θ(T) −1 V θ(T)V θ(T)<br />

∂ψ<br />

∂θ ∗ + · · · = ψ(θ) + (T − τ)V θ(T)<br />

−1 ∂ψ ∂ψ<br />

= ∗<br />

∂θ<br />

∂θ<br />

−1 ∂ψ<br />

∂ψ<br />

i(θ)−1 ,<br />

∂θ∗ + · · ·<br />

∂θ∗ altså Cramér-Rao’s nedre grænse. Dette viser, at den simple Cramér-Rao nedre grænse<br />

typisk ikke vil være langt fra den faktiske varians. <br />

Observation 6.16 I forbindelse med Cramer-Rao’s nedre grænse gælder der, for en<br />

eksponentiel familie med tætheder på formen<br />

dPθ (x) = exp{φ(θ) · t(x) − κ(φ(θ))},<br />

dµ<br />

hvor φ(θ), t(x) er p-dimensionale og θ er k-dimensional, k ≤ p, at betingelserne (i),<br />

(iii), (iv) og (v) er opfyldt, hvis<br />

(i) Støtten for t(X) ikke er indeholdt i et affint underum af R p , og Λ = {ξ| exp[ξ ·<br />

t(x)]µ(dx) < ∞} har ikke-tomt indre.<br />

(ii) φ(θ) er kontinuert differentiabel;<br />

(iii) φ(θ) tilhører det indre af definitionsområdet Λ for κ(ξ);<br />

(iv)<br />

∂φ<br />

∂θ ∗ (θ) har fuld rang.<br />

Bevis. Idet vi husker at<br />

τ(ξ) = ∂κ<br />

∂ξ (ξ) = E ξt(X) og<br />

∂ 2 κ<br />

∂ξ∂ξ ∗ (ξ) = V ξ(t(X)),


6.3. PUSTERUM 75<br />

viser en lille udregning at<br />

i(θ) = ∂φ<br />

∂θ ∗ V φ(θ)(t(X)) ∂φ∗<br />

∂θ ,<br />

som er positiv definit under antagelsen (i) og under antagelsen (iv). Desuden har vi<br />

med<br />

ηz = θ + z(η − θ), og f (z) = exp{(φ(ηz) − φ(θ)) · t(x) − κ(φ(ηz)) + κ(φ(θ))},<br />

formlen<br />

L θ(η, x) − 1 = f (1) − f (0) =<br />

1<br />

f ′ (u)du<br />

0<br />

1 ∂φ<br />

= (η − θ)<br />

0 ∂θ∗ (ηu){t − τ(φ(ηu))} ∗ f (u)du.<br />

Lad nu ω være så lille, at der eksisterer δ > 0 med Kugle(φ(θ); 3δ √ p) ⊆ Λ og |η − θ| <<br />

ω medfører |φ(η) − φ(θ)| < δ. På grund af kontinuitet af de indgående funktioner kan<br />

vi se at der eksisterer konstanter c i så at<br />

|L θ(η, x) − 1| ≤ |η − θ|(c1 + c2|t|)<br />

p<br />

∏ 1<br />

{exp(δt i) + exp(−δt i)} = |η − θ|D θ(x).<br />

Når vi udregner produktet i D θ(x) og kvadrerer får vi en sum af led på formen<br />

(c1 + c2|t(x)|) 2 exp{(∆1 + ∆2) · t(x)},<br />

∆ i = δ(j i1, . . . , j ip), hvor j il enten er +1 eller −1.<br />

Med antagelsen om δ kan man nu indse at D θ(x) 2 er P θ-integrabel, idet ∆1 + ∆2 + φ(θ)<br />

ligger i det indre af Λ, og alle momenter af t(X) eksisterer for en exponentiel tæthed.<br />

6.3 Pusterum<br />

Lad os for et øjeblik standse det hæsblæsende tempo og samle tankerne. Vi startede<br />

dette notesæt med at indføre sufficiensprincippet i afsnit 3.5 og betingningsprincippet<br />

i afsnit 4.1. Hvordan passer det sammen med teorien for UMVU-estimatorer? I Sætning<br />

6.8 så vi, at vi skal lade en estimator være en funktion af den minimal sufficiente<br />

for at reducere variansen, d.v.s. at der er god overensstemmelse med sufficiensprincippet.<br />

Hvis T er sufficient og komplet, er der også overensstemmelse med betingningsprincippet,<br />

idet vi fra Basu’ sætning har, at fordelingen af T er den samme som den<br />

betingede fordeling af T givet en ancillær U.<br />

Det resterende tilfælde er hvor den minimal sufficiente observator T0 ikke er komplet,<br />

og hvor der eksisterer en ancillær observator U. Hvis vi benytter betingningsprincippet,<br />

skal vi derfor anvende teorien ovenfor på klassen af betingede fordelinger<br />

P u = {P θ(· | U = u)|θ ∈ θ} for ethvert u ∈ U. Hvis der for ethvert u eksisterer en<br />

UMVU-estimator S(u) for klassen P u , vil det være naturligt at spørge, om S(U) er en


76 KAPITEL 6. CENTRALE ESTIMATORER MED MINIMAL VARIANS<br />

UMVU-estimator for P ? Svaret er ikke helt oplagt på grund af følgende modsatrettede<br />

uligheder:<br />

⇓<br />

V(S) = V(E(S|U)) + E{V(S|U)}<br />

inf V(S) ≥ E{ inf V(S|U)} ≤ E{ inf<br />

S∈C(ψ) S∈C(ψ) S∈Cu V(S|U = u)}<br />

(ψ)<br />

= E(V(S(u)|U = u)),<br />

hvor Cu (ψ) er de centrale estimatorer for klassen P u . Svaret er imidlertid nej, som det<br />

følgende eksempel viser. Lad udfaldsrummet være {1, 2, 3, 4} med sandsynlighederne<br />

(1 + θ)/4, (1 − θ)/4, (1 + 2θ)/4 og (1 − 2θ)/4, hvor − 1 2 < θ < 1 2 . Lad U være 1 hvis X<br />

er 1 eller 2 og lad U være 2 hvis X er 3 eller 4. Så er U ancillær. Lad endelig S(U) antage<br />

værdierne 1, -1, 1 2 , − 1 2 , svarende til X = 1, 2, 3, 4. Det er let at se at S(U) er UMVU i det<br />

betingede fordelinger givet U, men ikke UMVU i de ubetingede.<br />

Med hensyn til overensstemmelse mellem UMVU-estimatorer og maksimum likelihood<br />

estimatorer har jeg vist ved eksempler, at maksimum likelihood estimatorer ikke<br />

nødvendigvis er centrale og dermed ikke er UMVU-estimatorer. Til gengæld har jeg<br />

antydet, at maksimum likelihood estimatorer approksimativt er UMVU-estimatorer<br />

med en varians givet ved Cramér-Rao’s nedre grænse. Dette er især baseret på, hvad<br />

der sker, når antallet af observationer er stort.<br />

6.4 Opgaver<br />

Opgave 6.1<br />

Lad udfaldsrummet være X = {−1, 0, 1, 2, 3}, og lad P = {P θ|0 ≤ θ ≤ 1} være givet<br />

ved<br />

P θ(X = −1) = 2θ(1 − θ) og P θ(X = k) = θ k (1 − θ) 3−k for k = 0, 1, 2, 3.<br />

Find LMVU-estimatoren i punktet θ0 for henholdsvis ψ1(θ) = θ og ψ2(θ) = θ(1 − θ)<br />

(se observation 6.4 og eksempel 6.5). Afgør i begge tilfælde om estimatoren er UMVU.<br />

Find maksimum likelihood estimatet for ψ1, og lav et plot der viser bias af maksimum<br />

likelihood estimatet samt et plot der viser variansen af maksimum likelihood<br />

estimatet og variansen af LMVU-estimatet.<br />

Lav et plot for parameteren ψ2 af variansen af LMVU-estimatet samt af Cramer-<br />

Rao’s nedre grænse for variansen.<br />

Opgave 6.2<br />

Lad S1 og S2 være UMVU estimatorer for estimation af henholdsvis ψ1(θ) og ψ2(θ).<br />

Vis, at aS1 + bS2 er en UMVU estimator for estimation af aψ1(θ) + bψ2(θ). Her er a og<br />

b to vilkårlige reelle tal.<br />

Opgave 6.3<br />

Lad X1, . . . , Xn være uafhængige og identisk fordelte med varians Var(X i) = σ 2 . Lad<br />

s 2 = 1<br />

n−1 ∑n 1 (X i − ¯X) 2 .


6.4. OPGAVER 77<br />

(i) Vis, at s 2 er en unbiased estimator af σ 2 .<br />

(ii) Antag at X i antager værdierne 1 og 0 med sandsynlighederne θ og 1 − θ, 0 <<br />

θ < 1. Vis, at s 2 er en funktion af T = ∑ n 1 X i , og at s 2 er en UMVU estimator for<br />

σ 2 = θ(1 − θ).<br />

Opgave 6.4<br />

Lad X1, . . . , Xn være uafhængige og Bin(1, θ)-fordelte. Lad S1 være givet ved<br />

S1 = 1 hvis X1 = X2 = X3 = 1 og S1 = 0 ellers .<br />

(i) Vis, at T = ∑ n 1 X i er sufficient og komplet.<br />

(ii) Vis, at S1 er et unbiased estimat af ψ(θ) = θ 3 .<br />

(iii) Find en UMVU-estimator for ψ(θ) = θ 3 .<br />

Opgave 6.5<br />

Lad X1, . . . , Xn være Poissonfordelte med middelværdi θ −1 , og lad Y1, . . . , Yn være Poissonfordelte<br />

med middelværdi e −θ og lad alle de stokastiske variable være uafhængige.<br />

Den minimal kanoniske observator er T = (∑ n 1 X i, ∑ n 1 Y i). Som i opgave 2.4 kan<br />

det vises, at T er komplet for familien P = {P θ|θ > 0}. Lad S = ¯X + ¯Y.<br />

(i) Vis, at S er en UMVU estimator for ψ(θ) = θ −1 + e −θ .<br />

(ii) Find variansen på √ n(S − ψ(θ)) og sammenlign med Cramér-Rao’s nedre grænse<br />

for V θ(S).<br />

(iii) Sammenlign resultatet i (ii) med resultatet i eksempel 6.14.<br />

Opgave 6.6<br />

Lad X1, . . . , Xn være uafhængige N(µ, σ 2 )-fordelte, og lad SSD = ∑ n 1 (X i − ¯X) 2 . Definer<br />

S = ¯X 2 − SSD/[n(n − 1)].<br />

(i) Vis, at S er en UMVU-estimator for µ 2 .<br />

(ii) Find variansen på S.<br />

(iii) Find Cramér-Rao’s nedre grænse for Var(S) og sammenlign med (ii).<br />

Opgave 6.7 En lille omtolkning af Cramér-Rao’s nedre grænse<br />

Lad en observator S have middelværdi ψS(θ) = E θS. Vi har da trivielt at S er en unbiased<br />

estimator for ψS. Cramér-Rao’s nedre grænse giver<br />

V θ(S) ≥ ∂ψS<br />

∂θ<br />

∂ψS<br />

(θ)i(θ)−1 (θ)<br />

∂θ∗


78 KAPITEL 6. CENTRALE ESTIMATORER MED MINIMAL VARIANS<br />

under antagleserne i Sætning 6.12, specielt under antagelsen at ψS(θ) er differentiabel.<br />

Hvis nu vi tænker på S som en estimator af parameterfunktionen ψ(θ) er bias b(θ)<br />

givet ved<br />

b(θ) = ψS(θ) − ψ(θ).<br />

Indsætter vi ψS(θ) = ψ(θ) + b(θ) i Cramér-Rao’s nedre grænse får vi<br />

<br />

∂ψ ∂b<br />

Vθ(S) ≥ (θ) +<br />

∂θ ∂θ (θ)<br />

<br />

i(θ) −1<br />

<br />

∂ψ ∂b<br />

(θ) + (θ) .<br />

∂θ∗ ∂θ∗ Hermed har vi en generel formel, hvis ellers vi kan beregne bias b(θ).<br />

Antagelsen om at ψS(θ) er differentiabel (antaglese (ii) i Sætning 6.12) kan erstattes<br />

af antagelsen om at D θ i antagelse (v) opfylder<br />

E θSD θ(X) < ∞.<br />

Vis, at denne antagelse medfører at ψS(θ) er differentiabel.


Kapitel 7<br />

Testteori<br />

7.1 Indledning og definitioner<br />

I Kapitel 5 om likelihoodinferens nævnte jeg kvotienttestet som en naturlig måde at<br />

undersøge vores tiltro til en hypotese på formen θ = θ0. I dette kapitel skal vi se på<br />

muligheden for systematisk at udvælge test udfra ønsket om at optimere visse egenskaber<br />

ved testet. Vi vil så se, at kvotienttestet dukker op gang på gang, hvilket er en<br />

konsekvens af det fundamentale Neyman-Pearson Lemma, som bevises i afsnit 7.2. I<br />

afsnit 7.3 kommer vi i direkte clinch med inferens for en delparameter, igen med udgangspunkt<br />

i en umiddelbar anvendelse af ønsket om at optimere visse egenskaber. I<br />

Kapitel 8 skal vi vende tilbage til inferens for delparametre, hvor vi vil betragte udvidede<br />

sufficiens- og betingningsprincipper.<br />

Testteorien her er baseret på, at vi for enhver mulig observation x vil træffe en afgørelse,<br />

der siger, enten at vi akcepterer hypotesen, der undersøges eller, at vi forkaster<br />

hypotesen. Dette er en formulering, som vi har brug for til at finde “gode” tests. I<br />

mange videnskabelige undersøgelser vil man ikke være interesseret i at afslutte undersøgelsen<br />

med et ja eller nej til en hypotese. Istedet vil man forsøge at angive, hvor<br />

meget data er i overensstemmelse med hypotesen, hyppigt udtrykt ved det opnåede<br />

signifikansniveau eller p-værdien. Som tidligere er vores model (X , A, P) med<br />

P = {P θ|θ ∈ Θ} og parameter området Θ ⊆ R d .<br />

Definition 7.1 En hypotese H0 er en ikke-tom delmængde Θ0 af Θ, og et udsagn om at<br />

den værdi af θ (den “sande” værdi) , der karakteriserer målet P θ, under hvilket data<br />

er indsamlet, ligger i Θ0. Den alternative hypotese H1 til H0 er delmængden Θ\Θ0. En<br />

hypotese kaldes simpel hvis den betragtede delmængde af Θ består af ét element, og<br />

ellers kaldes hypotesen sammensat. <br />

Definition 7.2 <strong>Et</strong> test for en hypotese H0 er et område A, kaldet akceptområdet, bestående<br />

af de x ∈ X for hvilke hypotesen akcepteres. Området A c hvor vi forkaster hypotesen<br />

H0, kaldes forkastelsesområdet. Ækvivalent hermed kan vi karakterisere testet ved<br />

den kritiske funktion φ, der peger på de x, som ligger i forkastelsesområdet,<br />

φ(x) =<br />

0 x ∈ A<br />

1 x ∈ A c . <br />

79


80 KAPITEL 7. TESTTEORI<br />

At vælge et test betyder altså, at vi skal vælge området A . Vi vil karakterisere et område<br />

ved to tal eller rettere ét tal og en funktion og bruge disse til at vælge et passende<br />

test.<br />

Definition 7.3 Niveauet α = α(φ) for et test φ for hypotesen H0 er<br />

α = α(φ) = sup Eθφ. Niveauet er altså den maksimale sandsynlighed under H0 for at forkaste H0. For θ ∈<br />

Θ0 kaldes E θφ også for sandsynligheden for fejl af type I. Styrken β(θ) = β(θ; φ) af testet<br />

φ under P θ er<br />

β(θ) = β(θ; φ) = E θφ = P θ(forkaste H0).<br />

Funktionen β : Θ → R kaldes styrkefunktionen. Styrken er af interesse for θ /∈ Θ0,<br />

hvor den angiver sandsynligheden for at vi træffer den rigtige beslutning, nemlig at<br />

forkaste H0. For θ /∈ Θ0 kaldes 1 − β(θ) sandsynligheden for fejl af type II , d.v.s. sandsynlighden<br />

for at akceptere en forkert hypotese. <br />

Udfra niveauet og styrken kan vi definere et stærkeste test mod alternativet θ1 ∈ Θ\Θ0.<br />

Definition 7.4 <strong>Et</strong> test φ kaldes et stærkeste test på niveau α, d.v.s. α(φ) = α, mod et<br />

alternativ θ1 ∈ Θ\Θ0 hvis<br />

θ∈Θ0<br />

β(θ1; φ) ≥ β(θ1, ˜φ) for alle test ˜φ med α( ˜φ) ≤ α(φ).<br />

Altså φ har større styrke end alle andre test på niveau højst α. Hvis et test φ er det<br />

stærkeste test mod ethvert alternativ θ1 ∈ Θ\Θ0, kaldes φ et uniformt stærkeste test. <strong>Et</strong><br />

test φ på niveau α kaldes styrkeret, hvis<br />

og strengt styrkeret hvis<br />

β(θ; φ) ≥ α for alle θ ∈ Θ\Θ0,<br />

β(θ; φ) > α for alle θ ∈ Θ\Θ0. <br />

Grunden til at vi i Definition 7.4 betragter tests med α( ˜φ) ≤ α og ikke α( ˜φ) = α er,<br />

at med diskrete udfaldsrum er det ikke sikkert, at vi kan vælge det ønskede akceptområde<br />

på en sådan måde at α( ˜φ) = α. Styrkerette tests indføres fordi det i mange<br />

situationer er muligt at finde et uniformt stærkeste test blandt de styrkerette, hvorimod<br />

dette ikke er muligt blandt alle tests.<br />

Typisk vil man ikke blot konstruere et test φ for én fast værdi af niveauet α. Istedet<br />

vil man for ethvert 0 < α < 1 konstruere et test φα med den egenskab, at<br />

φα2 (x) ≥ φα 1 (x) for α2 > α1,<br />

d.v.s. at hvis vi forkaster ved et test på niveau α1, så forkaster vi også ved et test på<br />

niveau α2 > α1 (sandsynligheden for at forkaste under H0 stiger). For en observeret<br />

værdi x kan vi bestemme ɛ(x) ved<br />

ɛ(x) = inf<br />

α {φα(x) = 1}.


7.2. NEYMAN-PEARSON’S LEMMA OG MONOTONE KVOTIENTER 81<br />

Værdien af ɛ(x) kaldes det observerede signifikansniveau eller p-værdien. P-værdien angiver<br />

altså den grænse for niveauet, hvor vi forkaster H0 for den observerede værdi x,<br />

hvis niveauet α > ɛ(x), og vi akcepterer H0, hvis α < ɛ(x).<br />

Vi antager i hele kapitel 7, at P er domineret af det σ-endelige mål µ på X .<br />

Neyman 16/4 1894 (Bendery, Russia) - 5/8 1981 (Berkeley)<br />

Neyman udviklede i årerne 1928-1938 testteorien sammen med E. Pearson. I 1937 skrev<br />

han også en fundamental artikel om konfidensintervaller.<br />

Egon Sharpe Pearson 11/8 1895 (London) - 12/6 1980 (Sussex)<br />

Se ovenfor vedrørende samarbejdet med Neyman.<br />

7.2 Neyman-Pearson’s lemma og monotone kvotienter<br />

Vi jagter stærkeste tests, d.v.s. at vi skal maksimere styrken for et fastholdt niveau.<br />

Geometrisk betyder dette, at vi forsøger at placere A indeholdt i X , så at P θ1 (A c ) er så<br />

stor som mulig, og hvor størrelsen af A er bestemt ved niveauet α. Følgende lemma er<br />

fundamentalt:<br />

Lemma 7.5 (Neyman-Pearson) Lad f , f1, . . . , f k være givne funktioner fra X ind i R<br />

og lad c1, . . . , c k være givne konstanter. Lad endvidere φ0 være givet ved<br />

<br />

k<br />

1 hvis f (x) ≥<br />

φ0(x) =<br />

∑i=1 ai fi(x) 0 ellers,<br />

(7.1)


82 KAPITEL 7. TESTTEORI<br />

hvor a1, . . . , a k er konstanter med a i ≥ 0, og antag at<br />

<br />

φ0(x) f i(x)dµ(x) = c i i = 1, . . . , k.<br />

Så gælder at <br />

<br />

φ0(x) f (x)dµ(x) ≥<br />

h(x) f (x)dµ(x) (7.2)<br />

for enhver funktion h : X → R med 0 ≤ h(x) ≤ 1 og med<br />

<br />

h(x) f i(x)dµ(x) ≤ c i i = 1, . . . , k. (7.3)<br />

Bevis. Fra definitionen af φ0 og idet 0 ≤ h ≤ 1 ses, at<br />

Dermed fås<br />

<br />

0 ≤<br />

<br />

=<br />

<br />

[φ0(x) − h(x)] f (x) −<br />

<br />

[φ0(x) − h(x)] f (x) −<br />

<br />

φ0(x) f (x)dµ(x) −<br />

hvor ˜c i = h(x) f i(x)dµ(x) ≤ c i. Vi får da<br />

<br />

<br />

h(x) f (x)dµ(x) ≤<br />

k<br />

∑<br />

1<br />

φ0(x) f (x)dµ(x) −<br />

k<br />

∑<br />

1<br />

<br />

ai fi(x) ≥ 0.<br />

<br />

ai fi(x) dµ(x).<br />

h(x) f (x)dµ(x) −<br />

k<br />

∑<br />

1<br />

k<br />

∑<br />

1<br />

<br />

ai(ci − ˜c i) ≤<br />

k<br />

aici + ∑<br />

1<br />

a i ˜c i,<br />

<br />

φ0(x) f (x)dµ(x). <br />

For at teste H0 : θ ∈ Θ0 mod H1 : θ ∈ Θ\Θ0 definerer vi generelt kvotientteststørrelsen<br />

Q ved<br />

hvor<br />

Q(x) = sup p(x, θ)<br />

θ∈Θ0 , (7.4)<br />

supθ∈Θ p(x, θ)<br />

p(x, θ) = dP θ<br />

dµ (x)<br />

er tæthedsfunktionen. Hvis Θ = {θ0, θ1} består af kun to værdier og Θ0 = {θ0} bliver<br />

Q(x) = Q(x; θ0, θ1) =<br />

p(x, θ0)<br />

max(p(x, θ0), p(x, θ1)) =<br />

<strong>Et</strong> område på formen Q(x) ≤ c, med c < 1, bliver da<br />

Dette ligner (7.1), og vi har da også:<br />

<br />

x p(x, θ1) ≥ 1<br />

c<br />

<br />

p(x, θ0) .<br />

<br />

max<br />

1<br />

1, p(x,θ 1)<br />

p(x,θ0)<br />

(7.5)


7.2. NEYMAN-PEARSON’S LEMMA OG MONOTONE KVOTIENTER 83<br />

Sætning 7.6. Lad a ≥ 0. Kvotienttestet<br />

φ0 =<br />

1 hvis p(x, θ1) ≥ ap(x, θ0)<br />

0 ellers<br />

(7.6)<br />

er et stærkeste test for θ = θ0 mod θ = θ1 på niveau α = E θ0 φ0. Ydermere er φ0 det<br />

eneste stærkeste test på niveau α n.s.– {P θ0 , P θ 1 }, og hvis 0 < α < 1 er styrken E θ1 φ0<br />

større end niveauet α. <br />

Bevis. (i) Dette svarer til Lemma 7.5 med f (x) = p(x, θ1), f1(x) = p(x, θ0) og<br />

<br />

c1 =<br />

Formlerne (7.2) og (7.3) siger specielt, at<br />

φ0(x)p(x, θ0)dµ(x) = E θ0 φ0 = α.<br />

E θ1 φ0 ≥ E θ1 φ<br />

for ethvert test φ med E θ0 φ ≤ α. D.v.s. φ0 er et stærkeste test.<br />

(ii) For at vise entydigheden lader vi φ ∗ være et andet test med samme styrke som φ0<br />

og med niveau E θ0 φ∗ = α ∗ ≤ α. Vi skal så vise, at φ0 = φ ∗ n.s.−{P θ0 , P θ 1 }. Lad<br />

og<br />

A0 = {x | φ0(x) = φ ∗ (x)},<br />

A1 = {x | φ0(x) = φ ∗ (x), p(x, θ1) = ap(x, θ0)},<br />

A2 = {x|φ0(x) = φ ∗ (x), p(x, θ1) = ap(x, θ0) > 0},<br />

A3 = {x|φ0(x) = φ ∗ (x), p(x, θ1) = ap(x, θ0) = 0}.<br />

Vi har trivielt at P θ0 (A3) = P θ1 (A3) = 0. Vi vil vise at µ(A1) = 0 og at P θ0 (A2) =<br />

P θ1 (A2) = 0. På A1 er [φ0(x) − φ ∗ (x)][p(x, θ1) − ap(x, θ0]] > 0, og hvis µ(A1) > 0 vil<br />

<br />

0 < [φ0(x) − φ<br />

A1 ∗ (x)][p(x, θ1) − ap(x, θ0)]dµ(x)<br />

<br />

= [φ0(x) − φ ∗ (x)][p(x, θ1) − ap(x, θ0)]dµ(x)<br />

= E θ1 φ0 − E θ1 φ ∗ − aE θ0 φ + aE θ0 φ∗<br />

= E θ1 φ0 − E θ1 φ ∗ − a(α − α ∗ ),<br />

hvilket er en modstrid, da φ ∗ har samme styrke som φ0. Altså er µ(A1) = 0. Endvidere<br />

fås<br />

Eθ1φ ∗ = Eθ1φ ∗ (1A0 + 1A + 1A2 1 + 1A3 ) = Eθ φ 1 ∗ (1A0 + 1A2 )<br />

= E θ1 φ0(1A0 + 1A2 ) + E θ 1 (φ ∗ − φ0)1A2<br />

= E θ1 φ0 − P θ1 (A2),<br />

altså er A2 en P θ1 -nulmængde og per definition af A2 derfor også en P θ0 -nulmængde.


84 KAPITEL 7. TESTTEORI<br />

(iii) Vi skal nu vise, at E θ1 φ0 > E θ0 φ0 = α hvis 0 < α < 1. Da E θ0 φ0 = α med 0 < α < 1<br />

har vi, at φ0(x)p(x, θ0)dµ(x) > 0, og fra definitionen af φ0 ses derfor, at<br />

og<br />

E θ1 φ0 =<br />

<br />

<br />

φ0(x)p(x, θ1)dµ(x) ≥ a<br />

φ0(x)p(x, θ0)dµ(x) = aα<br />

1 − E θ1 φ0 = E θ1 (1 − φ0) < aE θ0 (1 − φ0) = a(1 − α).<br />

Hvis a > 1 giver den <strong>første</strong> ulighed det ønskede. Hvis 0 < a ≤ 1 giver den anden<br />

ulighed, at<br />

E θ1 φ0 > 1 − a(1 − α) ≥ α. <br />

Sætning 7.6 er et simpelt og stærkt resultat. Hvis vi betragter en mere generel situation,<br />

hvor nulhypotesen stadig er simpel Θ0 = {θ0}, men modhypotesen Θ\{θ0} er<br />

sammensat, viser Sætning 7.6, at den eneste kandidat til et uniformt stærkeste test er<br />

kvotienttestet i (7.6) for et vilkårligt valgt θ1 ∈ Θ\{θ0}. Testet i (7.6) vil være uniformt<br />

stærkeste hvis og kun hvis små værdier af kvotienttestoren Q(x; θ0, θ1) svarer til små<br />

værdier af Q(x; θ0, θ2) for vilkårlige θ1, θ2 ∈ Θ\{θ0}. Vi kan formulere en klasse af<br />

modeller med Θ ⊆ R, hvor dette er tilfældet på følgende vis:<br />

Definition 7.7 Lad Θ ⊆ R og lad t : X → R. Så siges P at have strengt voksende<br />

kvotienter i t såfremt der for alle θ1, θ2 ∈ Θ, θ1 < θ2, eksisterer en strengt voksende<br />

funktion hθ1,θ2 , så at<br />

p(x, θ2)<br />

p(x, θ1) = hθ (t(x)) for alle x ∈ X .<br />

1,θ2<br />

Fra definitionen følger at Pθ2 ≪ Pθ for θ2 > θ1. Det omvendte gælder ikke. Hvis<br />

1<br />

for eksempel t(x) ∈ N0 kan vi have Pθ1 (T = 0) > 0 og Pθ2 (T = 0) = 0.<br />

Eksempel 7.8.<br />

Betragt en eksponentiel familie P af orden 1 med<br />

p(x, θ) = a(θ)b(x)e ψ(θ)t(x) ,<br />

hvor ψ : θ → R er strengt voksende. Denne familie har strengt voksende kvotienter i<br />

t, idet<br />

p(x, θ2)<br />

p(x, θ1)<br />

= a(θ2)<br />

a(θ1) e[ψ(θ2)−ψ(θ 1)]t(x) .<br />

Sætning 7.9. Lad P have strengt voksende kvotienter i t, og lad φ være testet<br />

<br />

1 hvis t(x) ≥ c<br />

φ(x) =<br />

0 ellers<br />

hvor c er en konstant. Så gælder<br />

(i) Hvis θ0 < θ1 er φ kvotienttestet for H0 : θ = θ0 mod H1 : θ = θ1 på niveau<br />

α = E θ0 φ.


7.2. NEYMAN-PEARSON’S LEMMA OG MONOTONE KVOTIENTER 85<br />

(ii) Hvis 0 < E θ0 φ < 1 så er styrkefunktionen β(θ) = E θφ strengt voksende i området<br />

{θ : β(θ) < 1}.<br />

(iii) Lad α = Eθ0φ og antag at 0 < α < 1. Så er φ det entydigt bestemte (n.s. mht.<br />

Pθ, θ ≥ θ0) uniformt stærkeste test for H0 : θ = θ0 eller H0 : θ ≤ θ0 mod H1 : θ ><br />

θ0 på niveau α. Desuden er φ strengt styrkeret. <br />

Bevis. (i) Fra Definiton 7.7 har vi, at t(x) ≥ c er ensbetydende med p(x, θ1) ≥ aθ1,θ0 p(x, θ0)<br />

for en konstant aθ1,θ0 , d.v.s. φ er et kvotienttest, se (7.6).<br />

(ii) Fra Sætning 7.6 har vi at hvis 0 < Eθ1φ < 1 så er β(θ2) = Eθ2φ > Eθ φ = β(θ1) for<br />

1<br />

θ2 > θ1. Spørgsmålet nu er så om β(θ) kan være nul. For θ > θ0 har vi β(θ) > β(θ0) > 0<br />

per antagelse. Endvidere, hvis β(θ) = 0 for θ < θ0 så vil β(θ0) = 0 da Pθ ≫ Pθ0 , men vi<br />

har netop antaget at β(θ0) > 0.<br />

(iii) Hvis H0 er θ = θ0 har vi fra (i) og Sætning 7.6 at φ er det stærkeste test for H0<br />

mod θ = θ1, hvor θ1 > θ0. Men da testet ikke afhænger at θ1, er φ det uniformt<br />

stærkeste mod H1 : θ > θ0. Hvis istedet H0 : θ ≤ θ0 viser (ii) , at niveauet for testet<br />

er sup θ≤θ0 E θφ = sup θ≤θ0 β(θ) = β(θ0) = E θ0 φ = α. Da ethvert andet test ˜φ for<br />

H0 = θ ≤ θ0 på niveau α1 ≤ α også er et test for θ = θ0 på niveau α2 ≤ α, har vi<br />

fra tilfældet med H0 : θ = θ0 at φ er stærkere end ˜φ. D.v.s. at φ er også det uniformt<br />

stærkeste for H0 : θ ≤ θ0 mod H1 : θ > θ0. Den strenge styrkerethed er en direkte<br />

konsekvens af(ii). Entydigheden af testet for nulhypotesen θ ≤ θ0 følger af lemmaet<br />

nedenfor. <br />

Lemma 7.10 Lad φ0 være det entydige staerkeste test i (7.6) for θ = θ0 mod θ = θ1 på<br />

niveau α. Lad K være en udvidelse af alternativet, θ1 ∈ K, og antag at φ0 er uniformt<br />

stærkeste for θ = θ0 mod θ ∈ K. Lad Θ0 være en udvidelse af nulhypotesen, θ0 ∈ Θ0.<br />

Hvis<br />

sup Eθφ0 = α,<br />

θ∈Θ0<br />

så vil φ0 vaere det entydige (n.s. med hensyn til p θ, θ ∈ K ∪ {θ0}) uniformt stærkeste<br />

test for θ ∈ Θ0 mod θ ∈ K på niveau α. <br />

Bevis. Lad ˜φ være et alternativt test med sup ˜φ ≤ α. Så har vi E θ∈Θ0<br />

θ0 ˜φ ≤ α = Eθ0φ0 og dermed at<br />

Eθ1φ0 ≥ E ˜φ, θ1 θ ∈ K,<br />

da φ0 er et uniformt staerkeste test for θ = θ0. Dette viser at φ0 også er et uniformt<br />

staerkeste test for den udvidede nulhypotese.<br />

Entydigheden vises på helt samme måde som i beviset for sætning 7.6. <br />

Vi så ovenfor, at når vi tester θ = θ0 mod θ > θ0, fås det uniformt stærkeste test ved<br />

at forkaste for store værdier af T = t(X). Omvendt skal vi forkaste for små værdier<br />

af T, hvis vi tester mod den alternative hypotese θ < θ0. Der vil derfor normalt ikke


86 KAPITEL 7. TESTTEORI<br />

eksistere et uniformt stærkeste test for H0 : θ = θ0 mod H1 : θ = θ0 . Vi vil nu vise, at<br />

et uniformt stærkeste test blandt alle styrkerette tests eksisterer i denne situation.<br />

Vi betragter en eksponentiel familie P med<br />

hvor Θ er et åbent interval.<br />

p(x, θ) = b(x)e θt(x)−κ(θ) , θ ∈ Θ, (7.7)<br />

Lemma 7.11 Lad familien P være regulær. Kvotientteststørrelsen Q for H0 : θ = θ0<br />

mod H1 : θ = θ0, givet i (7.4), afhænger af x kun gennem t(x). Kvotienttestet, der<br />

forkaster for Q(t) ≤ c, er givet ved<br />

<br />

1 hvis t(x) ≤ a1 eller t(x) ≥ a2<br />

φ(x) =<br />

0 ellers,<br />

(7.8)<br />

hvor a1 < a2 er de to løsninger til Q(a) = c. <br />

Bevis. Fra Sætning 2.14 har vi, at, maksimum likelihood estimatet ˆθ = ˆθ(t) = τ −1 (t).<br />

Vi har da, at<br />

Da τ( ˆθ(t)) = t får vi<br />

− log Q = − log<br />

Differentierer vi (7.9) mht. t fås<br />

p(x, θ0)<br />

p(x, ˆθ) = ( ˆθ − θ0)t + κ(θ0) − κ( ˆθ). (7.9)<br />

dτ<br />

dθ ( ˆθ) d ˆθ<br />

dt = 1 eller d ˆθ<br />

dt<br />

( ˆθ − θ0) + ˆθ ′ t − τ( ˆθ) ˆθ ′ = ˆθ − θ0,<br />

og da (7.10) viser, at ˆθ er strengt voksende i t, har vi<br />

d(− log Q)<br />

dt<br />

> 0 for t > τ(θ0)<br />

< 0 for t < τ(θ0)<br />

1<br />

= . (7.10)<br />

V( ˆθ)<br />

Heraf ses at store værdier af − log Q (= små værdier af Q) svarer til t ≤ a1 eller t ≥ a2.<br />

Lemma 7.11 motiverer os til at betragte test på formen (7.8). Inden jeg gør dette, viser<br />

jeg:<br />

Lemma 7.12 For en åben eksponentiel familie (7.7) gælder, at hvis φ er et styrkeret test<br />

for θ = θ0 mod θ = θ0 på niveau α, så er<br />

Eθ0φT = αEθ0 T, (7.11)<br />

hvor T = t(X).


7.2. NEYMAN-PEARSON’S LEMMA OG MONOTONE KVOTIENTER 87<br />

Bevis. Vi har, at<br />

<br />

β(θ) = Eθφ = φ(x)b(x)e θt(x)−κ(θ) dµ(x)<br />

= e −κ(θ)<br />

<br />

e θt(x) dν(x) = e −κ(θ) c1(θ),<br />

hvor dν<br />

dµ (x) = φ(x)b(x). Dette viser, at c1(θ) er en Laplacetransform, og de afledede af<br />

c1 fås ved at differentiere under integraltegnet (Sætning 2.11). Vi får derfor<br />

β ′ (θ) = −κ ′ (θ)e −κ(θ) c1(θ) + e −κ(θ) c ′ 1 (θ)<br />

= −τ(θ)β(θ) + E θφT. (7.12)<br />

Da φ er styrkeret, har β(θ) minimum i θ0. D.v.s. β ′ (θ0) = 0 og fra (7.12) fås<br />

E θ0 φT = β(θ0)E θ0 T = αE θ0 T. <br />

Sætning 7.13. For en åben eksponentiel familie (7.7) og et test φ på formen<br />

<br />

1<br />

φ(x) =<br />

0<br />

t(x) ≤ a1 eller t(x) ≥ a2<br />

ellers<br />

gælder, at hvis a1 og a2 er valgt så at Eθ0φ = α og (7.11) er opfyldt, så er φ det entydigt<br />

bestemte (n.s.−P) uniformt stærkeste test for θ = θ0 mod θ = θ0 på niveau α = Eθ0φ blandt alle styrkerette test på niveau α. <br />

Bevis. Vi viser først at φ er et uniformt stærkeste styrkeret test. Lad θ = θ0. Da er<br />

p(x, θ)<br />

p(x, θ0)<br />

= e(θ−θ0)t(x)−κ(θ)+κ(θ0)<br />

en strengt konveks funktion g θ(t) af t. Lad c0(θ) + c1(θ)t være linien gennem de to<br />

punkter (a1, g θ(a1)) og (a2, g θ(a2)). Så vil g θ(t) ligge over denne linie for t < a1 og<br />

t > a2 (lav en tegning!). Med andre ord<br />

φ(x) = 1 ⇔ g θ(t(x)) ≥ c0(θ) + c1(θ)t(x). (7.13)<br />

Lad ˜φ være et vilkårligt andet styrkeret test på niveau Eθ0 ˜φ = ˜α ≤ α. Vi bemærker først<br />

at<br />

<br />

<br />

0 ≤ (1 − φ(x))p(x, θ)µ(dx) = (1 − φ(x))g θ(t(x))p(x, θ0)µ(dx)<br />

<br />

≤ (1 − φ(x))[c0 + c1t(x)]p(x, θ0)µ(dx) = [c0 + c1Eθ0 T](1 − α)<br />

⇓<br />

0 ≤ c0 + c1E θ0 T,<br />

hvor vi har brugt Lemma 7.12. Fra (7.13) har vi<br />

<br />

p(x,<br />

[φ(x) − ˜φ(x)]<br />

θ)<br />

p(x, θ0) − c0(θ)<br />

<br />

− c1(θ)t(x) ≥ 0


88 KAPITEL 7. TESTTEORI<br />

og dermed<br />

<br />

<br />

p(x,<br />

0 ≤ [φ(x) − ˜φ(x)]<br />

θ)<br />

p(x, θ0) − c0(θ)<br />

<br />

− c1(θ)t(x) p(x, θ0)dµ(x)<br />

= Eθφ − Eθ ˜φ − [c0 + c1Eθ0 T](α − ˜α),<br />

hvor vi igen har brugt Lemma 7.12. Kombinerer vi dette med det foregående resultat<br />

har vi at E θ ˜φ ≤ E θφ.<br />

Hvis vi erstatter ˜φ(x) ovenfor med α får vi istedet<br />

0 ≤ E θφ − α,<br />

det vil sige, testet φ er selv et styrkeret test.<br />

Entydigheden vises på helt tilsvarende vis som i Sætning 7.6 med A1 = {x | φ(x) =<br />

φ ∗ (x), p(x, θ)/p(x, θ0) − c0(θ) − c1(θ)t(x) = 0} og A2 = {x | φ(x) = φ ∗ (x),<br />

p(x, θ)/p(x, θ0) − c0(θ) − c1(θ)t(x) = 0, p(x, θ0) > 0}. <br />

Bemærk, at da vi indførte testet (7.8) var det ud fra kvotientteststørrelsen , og a1 og<br />

a2 blev bestemt ved, at de gav den samme værdi af Q, Q(a1) = Q(a2). I Sætning 7.13<br />

derimod skal a1 og a2 bestemmes, så at niveauet er α og så at testet er styrkeret. Typisk<br />

vil disse værdier af a1 og a2 ikke opfylde Q(a1) = Q(a2).<br />

Eksempel 7.14.<br />

Lad X være eksponentialfordelt med tæthed θe−θx . Lad os bestemme a1 og a2 i (7.8), så<br />

at Eθ0 ϕ = α og (7.11) er opfyldt. Det giver ligningerne<br />

Kvotientteststørrelsen er<br />

og dermed<br />

1 − e −θ0a 1 + e −θ0a2 = α og a2e −θ0a2 − a1e −θ0a 1 = 0.<br />

Q(x) =<br />

θ0e −θ0x<br />

1 x e −1 = θ0xe −θ0x+1 ,<br />

Q(a1) = θ0a1e −θ0a 1+1 = θ0a2e −θ0a2+1 = Q(a2).<br />

Det samme resultat gælder for alle gammafordelinger med fast formparameter.<br />

Lad os istedet betragte klassen af tætheder<br />

e θx<br />

1 θ (e θ − 1)<br />

med 0 < x < 1. Hvis θ0 = 1 er tæthed og fordelingsfunktion<br />

Niveauet for testet bliver<br />

f (x) = ex<br />

e − 1 og F(x) = ex − 1<br />

e − 1 .<br />

α = ea 1 − 1 + e − e a2<br />

e − 1


7.3. SAMMENSAT NULHYPOTESE – TEST FOR EN DELPARAMETER 89<br />

og<br />

Endelig har vi<br />

ET = 1<br />

e − 1 , EφT = 1 − (1 − a1)ea1 + (1 − a2)ea2 e − 1<br />

Q = ex (e ˆθ − 1)<br />

(e − 1)e ˆθx ˆθ .<br />

Hvis vi nu tager a1 = 0.05, og løser αET = EφT, så bliver a2 = 0.973724 og α =<br />

0.07086524 og<br />

−2 log Q(a1) = 4.974114 og − 2 log Q(a2) = 4.4134. <br />

7.3 Sammensat nulhypotese – test for en delparameter<br />

Den typiske situation, som vi skal betragte i dette afsnit, er den hvor θ står i entydig<br />

forbindelse med (ψ, η), og vi ønsker at teste H0 : ψ = ψ0. Dette er en sammensat<br />

hypotese med Θ0 = {θ(ψ, η)|ψ = ψ0}. Vi har generelt defineret niveauet af et test som<br />

sup θ∈Θ0 E θφ. En særlig ønskværdig situation vil være den, hvor E θφ ikke afhænger af<br />

θ ∈ Θ0, d.v.s. at uanset værdien af den ukendte η vil E θ(ψ0,η)φ = α.<br />

Definition 7.15 <strong>Et</strong> test φ på niveau α for den sammensatte hypotese θ ∈ Θ0 kaldes<br />

similært (eller niveaukonstant) hvis<br />

E θφ = α ∀ θ ∈ Θ0 <br />

Navnet similært stammer fra det engelske “similar” og skal forstås på den måde, at<br />

forkastelsesområdet {x|φ(x) = 1} har den egenskab tilfælles med hele udfaldsrummet<br />

X , at sandsynligheden er uafhængig af θ ∈ Θ0. <strong>Et</strong> eksempel hvor der ikke findes et<br />

similært test er beskrevet nedenfor i eksempel 7.21.<br />

Eksempel 7.16.<br />

Lad X1, . . . , Xn være uafhængige og N(µ, σ 2 )-fordelte. Vi vil teste hypotesen at µ = 0.<br />

Traditionelt benytter vi<br />

T =<br />

1<br />

n−1<br />

∑ n 1 X <br />

i/n<br />

n<br />

∑1 (Xi − ¯X) 2 /(n − 1) ,<br />

som er t-fordelt med n − 1 frihedsgrader, d.v.s. fordelingen afhænger ikke af parameteren<br />

σ2 . Testet defineret ved<br />

<br />

1 t(x) > c<br />

φ(x) =<br />

,<br />

0 ellers<br />

er derfor et similært test. <br />

.


90 KAPITEL 7. TESTTEORI<br />

At en sandsynlighed ikke afhænger af θ ∈ Θ0, minder os om egenskaber ved sufficiente<br />

observatorer. Dette er da også, hvad vi vil bruge til at konstruere similære tests:<br />

hvis T = t(X) er sufficient for P0 = {P θ|θ ∈ Θ0}, vil fordelingen af X givet T ikke<br />

afhænge af θ ∈ Θ0, og dette giver os muligheden for at lave et similært test.<br />

Lemma 7.17 Antag at T = t(X) er sufficient og komplet for P0 = {P θ|θ ∈ Θ0}, og at<br />

testet φ er similært på niveau α. Så gælder<br />

(i) T og φ(X) er uafhængige under P θ, θ ∈ Θ0<br />

(ii) For θ ∈ Θ0 er E θ(φ|T = t) = α n.s.−P0.<br />

Lad for enhver værdi t af T klassen P t = {P θ(·|T = t) | θ ∈ Θ} være de betingede<br />

fordelinger givet T = t. Antag nu yderligere at φ betragtet som et test i klassen P t er<br />

uniformt stærkeste på niveau α n.s.−P0 for test af θ ∈ Θ0 mod θ ∈ K. Så gælder<br />

(iii) φ er et uniformt stærkeste test blandt alle similære test for test af θ ∈ Θ0 mod<br />

θ ∈ K. <br />

Bevis. (i) φ(X) antager kun to værdier og<br />

P θ(φ(X) = 1) = 1 − P θ(φ(X) = 0) = α ∀ θ ∈ Θ0.<br />

da φ er similært. D.v.s. at φ(X) er ancillær under P0, og resultatet følger af Basu’s<br />

sætning 4.9.<br />

(ii) Da T er sufficent, afhænger E θ(φ|T = t) ikke af θ for θ ∈ Θ0. Desuden viser (i) at<br />

E(φ|T = t) = E θ(φ) = α n.s. − P θ ∀ θ ∈ Θ0.<br />

(iii) Lad ˜φ være et andet similært test. Fra (ii) har vi for θ ∈ Θ0<br />

E θ( ˜φ|T = t) = α n.s. − P0,<br />

d.v.s. at ˜φ er et test på niveau α i den betingede klasse P t . Fra antagelsen har vi for<br />

θ ∈ Θ\Θ0<br />

E θ(φ|T = t) ≥ E θ( ˜φ|T = t)<br />

og deraf<br />

E θφ ≥ E θ ˜φ. <br />

Bemærk at punkt (ii) i Lemma 7.17 siger, at hvis vi vil konstruere et similært test, kan<br />

dette kun gøres ved at lave et test på niveau α i de betingede fordelinger givet T = t,<br />

hvis T er sufficient og komplet.<br />

Vi skal nu bruge Lemma 7.17 til at konstruere styrkerette test i eksponentielle familier.<br />

Vi betragter en eksponentiel familie P = {P θ|θ ∈ Θ} af orden k med minimal<br />

repræsentation<br />

dP θ<br />

dµ (x) = a(θ)b(x)eθ·t(x) , (7.14)


7.3. SAMMENSAT NULHYPOTESE – TEST FOR EN DELPARAMETER 91<br />

og hvor Θ ⊆ R k er åbent. Vi ønsker at teste at θ ligger i et (k − 1) dimensionalt affint<br />

underrum Θ0 af Θ. <strong>Et</strong> sådant kan vi angive ved at det indre produkt mellem θ og<br />

en vektor α, som står vinkelret på det affine underrrum, har en fast værdi. Lad α =<br />

(α1, . . . , α k) være en fast vektor i R k , α = 0, og definer parameteren<br />

ψ = α · θ = α1θ1 + · · · + α kθ k.<br />

Vi ønsker at lave tests for ψ = ψ0. Antag at α1 = 0. Så kan vi skrive<br />

θ · t = 1<br />

(α1θ1 + · · · + αkθk − α2θ2 − · · · − αkθk)t1 + θ2t2 + · · · + θktk α1<br />

= ψ t1<br />

α1<br />

Hvis vi derfor sætter<br />

+ θ2(t2 − α2<br />

α1<br />

t1) + · · · + θk(tk − αk t1).<br />

s(x) = t1(x)<br />

<br />

, η = (θ2, . . . , θk), og v = t2(x) −<br />

α1<br />

α2<br />

t1(x), . . . , tk(x) −<br />

α1<br />

α <br />

k<br />

t1(x)<br />

α1<br />

så kan (7.14) skrives som<br />

α1<br />

dPψ,η<br />

dµ (x) = ã(ψ, η)b(x)eψs(x)+η·v(x) , (7.15)<br />

med (ψ, η) i det åbne område Ω = {(α · θ, θ2, . . . , θ k) | θ ∈ Θ}.<br />

Sætning 7.18. Betragt den eksponentielle familie på minimal form (7.15). Hvis vi for<br />

enhver værdi af v = v(x) kan vælge a(v) så at<br />

da vil testet<br />

Pψ0,η(s(X) ≥ a(v) | V = v) = α, (7.16)<br />

φ(x) =<br />

1 hvis s(x) ≥ a(v(x))<br />

0 hvis s(x) < a(v(x))<br />

være det entydigt bestemte (n.s.−P) uniformt stærkeste styrkerette test på niveau α<br />

for ψ = ψ0 mod ψ > ψ0. <br />

Bevis. For ψ = ψ0 er P0 = {Pψ0,η|(ψ0, η) ∈ Ω} en åben eksponentiel familie af orden<br />

k − 1 med V = v(X) som minimal sufficient observator (se afsnit 2.6). Fra Sætning 2.32<br />

har vi derfor at V er sufficient og komplet. Uanset værdien af a(v) afhænger sandsynligheden<br />

på venstresiden af (7.16) derfor ikke af η. Det er også klart fra (7.16) at<br />

Eψ0,ηφ = α ∀ η.<br />

Hvis ˜φ er et styrkeret test på niveau α , vil Eψ,η ˜φ ≥ α for ψ > ψ0 og Eψ0,η ˜φ ≤ α. Men<br />

da styrken er en kontinuert funktion (se beviset for Lemma 7.12), kan vi lade ψ → ψ0<br />

og dermed få Eψ0,η ˜φ = α. D.v.s. at ˜φ er et similært test, og det følger så fra Lemma 7.17<br />

(iii), at φ er det stærkeste test blandt styrkerette test, hvis vi viser, at φ er det stærkeste<br />

test i klassen af betingede fordelinger givet V = v.


92 KAPITEL 7. TESTTEORI<br />

Den betingede tæthed af S givet V = v får vi fra afsnit 2.6:<br />

dPψ,η(·|V = v)<br />

dPψ0,η0 (·|V = v)(x) = ã(ψ − ψ0, v)e (ψ−ψ0)s(x) . (7.17)<br />

Fra Sætning 7.9 og eksempel 7.8 har vi, at givet V = v er det entydigt bestemte stærkeste<br />

test på niveau α givet ved, at vi forkaster for s(x) ≥ a(v), altså testet φ i sætningen.<br />

Vi mangler derfor kun at vise, at φ selv er et styrkeret test. Men Sætning 7.9 giver<br />

også, at når 0 < α < 1 så gælder<br />

og dermed<br />

Eψ,η(φ|V = v) > α for ψ > ψ0,<br />

Eψ,η(φ) > α for ψ > ψ0. <br />

Det er vigtigt at bemærke sig at V i Sætning 7.18 kan karakteriseres som den minimal<br />

sufficiente observator under hypotesen ω = α · θ = ω0.<br />

Eksempel 7.19.<br />

Lad X i = exp(Y i) hvor Y − i-erne er uafhængige og N(µ, σ 2 )-fordelte. Middelværdien<br />

af X i er exp(µ + 1 2 σ2 ). Hvis vi vil teste at middelværdien har en bestemt værdi svarer<br />

det altså til at teste at ω = µ + 1 2 σ2 har en bestemt værdi. Vi vil teste at ω = ω0 mod<br />

ω > ω0. Vi laver følgende opskrivning af tætheden<br />

(2πσ2) −n/2 n<br />

exp ∑(yi − µ)<br />

1<br />

2 /(2σ 2 <br />

)<br />

= (2πσ2) −n/2 <br />

exp<br />

− nµ2<br />

2σ 2<br />

= (2πσ2) −n/2 <br />

exp − nµ2<br />

= (2πσ2) −n/2 <br />

exp<br />

2σ<br />

<br />

exp − 1<br />

2 − 1<br />

2 ∑ y i<br />

− nµ2 1<br />

−<br />

2σ2 2 ∑ yi 2σ 2 ∑ y 2 i<br />

<br />

exp<br />

µ<br />

+<br />

σ2 <br />

∑ yi − 1<br />

2σ 2 ∑ y 2 i<br />

<br />

exp − 1 − 1 2ω0 2σ2 ∑ y 2 i<br />

+ ω<br />

σ 2 ∑ y i<br />

<br />

+ ω − ω0<br />

σ 2<br />

∑ y i<br />

Hvis vi lader ψ = (ω − ω0)/σ 2 svarer ω = ω0 mod ω > ω0 til ψ = 0 mod ψ > 0.<br />

Situationen er derfor som i Sætning 7.18 med η = − 1− 1 2 ω0<br />

2σ2 , s(x) = ∑ yi og v(x) =<br />

∑ y2 i . <br />

For at teste ψ = ψ0 mod ψ = ψ0 skal vi bruge Sætning 7.13 istedet for Sætning 7.9.<br />

Sætning 7.20. Betragt den eksponentielle familie på minimal form (7.15). Hvis vi for<br />

enhver værdi v af V kan vælge a1(v) < a2(v) så at testet<br />

<br />

1 s(x) ≤ a1(v(x)) eller s(x) ≥ a2(v(x))<br />

φ(x) =<br />

0 a1(v(x)) < s(x) < a2(v(x))<br />

opfylder<br />

Eψ0 (φ|V = v) = α og Eψ0 (φS|V = v) = αEψ0 (S|V = v),<br />

så er ϕ det entydigt bestemte (n.s.−P) uniformt stærkeste test på niveau α for ψ = ψ0<br />

blandt alle styrkerette tests. <br />

<br />

.


7.3. SAMMENSAT NULHYPOTESE – TEST FOR EN DELPARAMETER 93<br />

Bevis. Fra 7.17) og Sætning 7.13 har vi, at givet V = v er φ det stærkeste test blandt<br />

alle tests ˜φ som opfylder<br />

Eψ0,η( ˜φ|V = v) = α og Eψ0,η( ˜ϕS|V = v) = αEψ0,η(S|V = v). (7.18)<br />

Hvis derfor vi kan vise, at et vilkårligt styrkeret test ˜φ opfylder 7.18) for næsten alle v,<br />

vil<br />

Eψ,η(φ) = Eψ,η[Eψ,η(φ|V)] ≥ Eψ,η[Eψ,η( ˜φ|V)] = Eψ,η ˜φ,<br />

og sætningen er vist.<br />

Da styrkefunktionen er kontinuert, får vi som i beviset for Sætning 7.18, at ˜φ er et<br />

similært test, hvis ˜φ er styrkeret. Fra Lemma 7.17 (ii) får vi så <strong>første</strong> del af 7.18). Lad<br />

dernæst<br />

f (v) = Eψ0,η( ˜φS|V = v) − αEψ0,η(S|V = v),<br />

som faktisk ikke afhænger af η, da V er sufficient under ψ = ψ0. Vi har, at<br />

Eψ0,η f (V) = Eψ0,η( ˜φS) − αEψ0,η(S). (7.19)<br />

For fast η er ˜φ et styrkeret test for ψ = ψ0 mod ψ = ψ0, og Pη = {Pψ,η| for ψ med<br />

(ψ, η) ∈ Ω} er en åben eksponentiel familie af orden 1 og med S som kanonisk observator.<br />

Fra Lemma 7.12 har vi derfor, at 7.19) er nul for alle η med (ψ0, η) ∈ Ω. Men da<br />

omvendt V er komplet for P0, har vi, at<br />

Eψ0,η f (V) = 0 ∀ η ⇒ f (v) = 0 n.s. − P0,<br />

og (7.18) er vist. <br />

Dette afsnit har været baseret på, at den minimal sufficiente T0 under nulmodellen<br />

P0 er en ægte reduktion af den minimal suffciente T under den fulde model P. <strong>Et</strong><br />

similært test kan så konstrueres ved at betragte den betingede fordeling af T givet T0.<br />

Hvis T0 = T, altså der er ingen reduktion i den minimal sufficiente observator, vil der<br />

ikke nødvendigvis eksistere et similært test. Det mest berømte eksempel på dette er:<br />

Eksempel 7.21 (Fisher-Behrens problemet).<br />

Lad X1, . . . , Xn være i.i.d. med fordeling N(µ, σ 2 ) og Y1, . . . , Ym være i.i.d. med fordeling<br />

N(µ + δ, τ 2 ). Vi ønsker at teste H0 : δ = 0, altså at middelværdierne i de to grupper<br />

er ens. Hvis de to varianser σ 2 og τ 2 er ens, σ 2 = τ 2 , har I lært, at I skal vurdere stør-<br />

relsen<br />

t = ¯X − ¯Y<br />

<br />

1 (<br />

n+ 1 m )s2<br />

, s 2 =<br />

n<br />

1<br />

n + m − 2 ∑(Xi − ¯X)<br />

1<br />

2 +<br />

m<br />

∑<br />

1<br />

(Yi − ¯Y) 2<br />

<br />

(7.20)<br />

i en t-fordeling med (n + m − 2) frihedsgrader, og forkaste H0 hvis |t| er stor. Men<br />

hvad hvis σ 2 = τ 2 ? Likelihoodfunktionen er<br />

(2πσ 2 ) − n 2 (2πτ 2 ) − m <br />

2 exp<br />

−n µ2<br />

2σ<br />

<br />

· exp<br />

<br />

+ δ)2<br />

− m(µ<br />

2 2τ2 − 1<br />

2σ2 n<br />

∑ x<br />

1<br />

2 µ<br />

+<br />

i σ2 n<br />

∑<br />

1<br />

xi − 1<br />

2τ2 m<br />

∑<br />

1<br />

y 2 i<br />

+ µ + δ<br />

τ 2<br />

m<br />

∑ yi 1<br />

<br />

,


94 KAPITEL 7. TESTTEORI<br />

og under den fulde model P = {P µ,δ,σ 2 ,τ 2 | µ, δ ∈ R og σ 2 , τ 2 ∈ R+} er T = (∑ n 1 X2 i ,<br />

∑ n 1 X i, ∑ m 1 Y2 i , ∑m 1 Y i) minimal sufficient. Under P0 = {P µ,0,σ 2 ,τ 2 | µ ∈ R og σ 2 , τ 2 ∈ R+}<br />

sker der ikke en reduktion i ordenen af den eksponentielle familie, og T er stadig minimal<br />

sufficient. En eksponentiel familie, hvor dimensionen af parameterrummet er mindre<br />

end ordenen af familien, kaldes en krum eksponentiel familie. Specielt kaldes P0 en<br />

(4,3) krum eksponentiel familie, idet ordenen er 4 og dimensionen af parameterrummet<br />

{(µ, σ 2 , τ 2 ) | µ ∈ R, σ 2 , τ 2 ∈ R+} er 3 .<br />

Det matematiske problem om eksistensen af et similært test baseret på T blev først<br />

løst af sovjetborgeren Linnik og hans kollegaer i 1966. Hvis n og m begge er lige eller<br />

begge er ulige, eksisterer der ikke et similært test. Hvis én af n og m er lige og den<br />

anden er ulige, eksisterer der ganske vist en løsning, men denne afhænger ikke på en<br />

“glat” måde af T.<br />

Selvom der ikke eksisterer tests, som er similære, eksisterer der tests, som er næsten<br />

similære. Da under H0<br />

og<br />

s 2 1<br />

= 1<br />

n − 1<br />

n<br />

∑<br />

1<br />

<br />

¯X − ¯Y ∼ N 0, σ2<br />

n<br />

(X i − ¯X) 2 , s 2 2<br />

<br />

τ2<br />

+<br />

m<br />

= 1<br />

m − 1<br />

m<br />

∑(Yi − ¯Y)<br />

1<br />

2<br />

estimerer henholdsvis σ2 og τ2 , er det naturligt at betragte teststørrelsen (sammenlign<br />

med 7.20))<br />

¯X − ¯Y<br />

Z =<br />

.<br />

<br />

s 2 1 /n + s2 2 /m<br />

Denne er approksimativt t-fordelt med antallet af frihedsgrader<br />

ν(θ) =<br />

2 <br />

θ 1<br />

+ /<br />

n m<br />

Ved at erstatte θ med ˆθ = s 2 1 /s2 2<br />

niveau α ved at forkaste, når<br />

θ 2<br />

n 2 (n − 1) +<br />

1<br />

m2 <br />

, θ = σ<br />

(m − 1)<br />

2 /τ 2 .<br />

får vi et approksimativt test for δ = 0 mod δ = 0 på<br />

|z| > t 1−α/2(ν( ˆθ)),<br />

hvor tp( f ) er p-fraktilen i en t-fordeling med f frihedsgrader. Dette test kaldes Welch-t<br />

test, og er meget tæt på at give et similært test.<br />

En anden mulighed, som også giver et test, der er meget tæt på at være similært, er<br />

at forkaste små værdier af kvotientteststørrelsen Q fra 7.4). <br />

7.4 Lokalt stærkeste test<br />

Hvad gør vi, hvis der ikke eksisterer et uniformt stærkeste test? <strong>Et</strong> rimeligt godt svar<br />

er: brug altid kvotientteststørrelsen Q i 7.4) og forkast for små værdier af Q. Dette er<br />

fornuftigt ud fra fortolkningen af Q > c som et likelihoodområde, og fordi testet bliver<br />

approksimativt similært, og dette sidste gælder også, hvis vi betinger med en ancillær<br />

observator.


7.5. OPGAVER 95<br />

En anden mulighed - som vi skal se anvendt i forbindelse med rangtestorer i notesættet<br />

om ikke-parametrisk <strong>statistik</strong> - er at maksimere styrken lokalt. Dette er især af<br />

betydning hvis θ er endimensional, og vi ønsker at teste θ = θ0. Hvis modhypotesen<br />

er θ > θ0, ønsker vi at vælge testet φ sådan, at styrken β(θ) = E θφ vokser mest muligt,<br />

når θ bevæger sig væk fra θ0. Med andre ord ønsker vi, at maksimere β ′ (θ0 ) . Hvis vi<br />

må differentiere ind under integraltegnet, har vi<br />

Definer nu<br />

∂β<br />

∂θ (θ0) = ∂<br />

<br />

∂θ<br />

hvor a er bestemt, så at<br />

φ(x)p(x, θ)dµ(x)| θ=θ0 =<br />

<br />

φ(x) =<br />

<br />

<br />

Eθ0φ =<br />

1 hvis ∂p(x,θ0)<br />

∂θ<br />

0 ellers,<br />

φ(x)<br />

> ap(x, θ0)<br />

φ(x)p(x, θ0)dµ(x) = α.<br />

∂p(x, θ0)<br />

dµ(x). (7.21)<br />

∂θ<br />

Det følger så af Lemma 7.5 og (7.21), at hvis ˜φ er et andet test med E θ0 ˜φ ≤ α, så vil<br />

∂<br />

∂θ E ∂<br />

θφ| θ=θ0 ≥<br />

∂θ Eθ ˜φ| θ=θ0 .<br />

(7.22)<br />

Det lokalt stærkeste test er altså givet ved 7.22). Vi kan formulere dette som at vi skal<br />

forkaste for store værdier af<br />

U(θ0) = ∂<br />

∂θ p(x, θ0)/p(x, θ0) = ∂l<br />

∂θ (θ0),<br />

hvor l(θ) er loglikelihoodfunktionen. Med andre ord, vi skal forkaste for store værdier<br />

af scorefunktionen (se definition 5.9).<br />

7.5 Opgaver<br />

Opgave 7.1<br />

Lad X1, . . . , Xn være uafhængige og N(µ, σ 2 )-fordelte.<br />

(i) Antag at σ 2 er kendt. Vis, at et uniformt stærkeste test for µ ≤ µ0 mod µ > µ0<br />

forkaster for store værdier af ∑ n 1 (X i − µ0).<br />

(ii) Antag at µ er kendt. Vis, at et uniformt stærkeste test for σ 2 ≤ σ 2 0 mod σ2 > σ 2 0<br />

forkaster for store værdier af ∑ n 1 (X i − µ0) 2 .<br />

Opgave 7.2<br />

Lad X1, . . . , Xn være uafhængige og uniformt fordelte på intervallet (0, θ).


96 KAPITEL 7. TESTTEORI<br />

(i) Vis, at hvis A ⊂ (0, θ0) n , da gælder der for θ1 > θ0 at Pθ1 ((X1, . . . , Xn) ∈ A) =<br />

nPθ0 ((X1, . . . , Xn) ∈ A). Vis dernæst, at hvis A ⊂ (0, θ1) n , da vil<br />

θ0<br />

θ 1<br />

P θ1 ((X1, . . . , Xn) ∈ A) = P θ1 ((X (n) ≥ θ0) ∩ A) +<br />

hvor X (n) = max{X1, . . . , Xn}.<br />

n θ0<br />

θ1<br />

P θ0 (A),<br />

(ii) Vis, at et stærkeste test for θ = θ0 mod θ = θ1, hvor θ1 > θ0, på niveau α er givet<br />

ved<br />

⎧<br />

⎨ 1<br />

ϕ(x) = 1<br />

⎩<br />

0<br />

hvis X (n) ≥ θ0<br />

hvis (X1, . . . , Xn) ∈ A<br />

ellers,<br />

hvor A ⊆ (0, θ0) n er vilkårlig med Pθ0 (A) = α.<br />

(iii) Antag at A = {a ≤ x (n) < θ0} Vis, at testet ϕ fra (ii) er et uniformt stærkeste test<br />

på niveau α for hypotesen θ ≤ θ0 mod θ > θ0.<br />

Opgave 7.3<br />

Lad X være Bin(n, θ)-fordelt.<br />

(i) Vis at det uniformt stærkeste test for hypotesen θ ≤ θ0 mod θ > θ0 forkaster for<br />

store værdier af X.<br />

(ii) Lad θ0 = 0.2, og lad for ethvert n konstanten kn være bestemt, så at<br />

P θ0 (Xn ≥ kn) ≥ 0.05 og P θ0 (Xn > kn) < 0.05.<br />

Definer testet ϕn ved ϕn(x) = 1(x ≥ kn). Hvor stor skal n være for at styrken af<br />

ϕn i punktet θ1 = 0.4 er mindst 0.9.<br />

Vink: Det er nok en god ide at finde en tabel med binomialsandsynligheder!<br />

Opgave 7.4<br />

Lad P have strengt voksende kvotienter i t(x). Lad den observerede værdi at T = t(X)<br />

være t obs . Find p-værdien eller det observerede signifikansniveau for testet af θ ≤ θ0<br />

mod θ > θ0.<br />

Opgave 7.5<br />

Lad X1, . . . , Xn være uafhængige stokastiske variable, hvor X i er Poisson-fordelt med<br />

middelværdi λ i , λ i > 0, i = 1, 2, . . . , n.<br />

(i) Lad λ 0 i<br />

> 0, i = 1, 2, . . . , n og lad d > 1 være et fast tal. Vis, at<br />

ϕ(x1, . . . , xn) =<br />

1 x1 + · · · + xn ≥ k<br />

0 x1 + · · · + xn < k


7.5. OPGAVER 97<br />

er det stærkeste test på niveau α for hypotesen<br />

mod hypotesen<br />

Her er<br />

α =<br />

(λ1, . . . , λn) = (λ 0 1 , . . . , λ0 n)<br />

(λ1, . . . , λn) = (dλ 0 1 , . . . , dλ0 n).<br />

∞<br />

−a ai<br />

∑ e<br />

i!<br />

i=k<br />

og a = λ01 + · · · + λ0n. (ii) Vis, at ϕ er et test på niveau α for hypotesen H:<br />

mod hypotesen K:<br />

λ1 + · · · + λn ≤ a<br />

λ1 + · · · + λn > a.<br />

(iii) Vis, at ϕ er et uniformt stærkeste test på niveau α for hypotesen H mod hypotesen<br />

K.<br />

Opgave 7.6<br />

Lad X1, X2, X3 være indbyrdes uafhængige eksponentialfordelte stokastiske variable<br />

med middelværdier<br />

EXi = 1<br />

, i = 1, 2, 3,<br />

µ i<br />

hvor µ i > 0, i = 1, 2, 3. Den herved definerede familie af sandsynlighedsmål på R 3 +<br />

udgør en regulær eksponentiel familie af orden 3.<br />

(i) Opskriv tætheden for (X1, X2, X3) på eksponentiel familieform med<br />

som kanonisk observator og<br />

som tilhørende kanonisk parameter.<br />

(ii) Vis, at for µ1 = µ2 + µ3 er<br />

<br />

X1<br />

P<br />

min(X2, X3)<br />

T = t(X) = (X1, X1 + X2, X1 + X3)<br />

θ = (µ2 + µ3 − µ1, −µ2, −µ3)<br />

<br />

≤ a = a<br />

, a > 0.<br />

a + 1<br />

Vink: Udnyt, at min(X2, X3) er eksponentialfordelt med middelværdi (µ2 + µ3) −1 .<br />

(iii) Vis, at for µ1 = µ2 + µ3 er<br />

uafhængige.<br />

X1<br />

min(X2, X3) og (X1 + X2, X1 + X3)


98 KAPITEL 7. TESTTEORI<br />

(iv) Vis, at det uniformt stærkeste styrkerette test for µ1 = µ2 + µ3 mod µ1 < µ2 + µ3<br />

på niveau α er<br />

<br />

1<br />

ϕ(X1, X2, X3) =<br />

0<br />

X1 1−α ≥ min(X2,X3) α<br />

ellers.<br />

Vink: Konstruer testet i Sætning 7.18.<br />

Opgave 7.7<br />

Lad X1, . . . , Xn være uafhængige og Γ(λ, β)-fordelte, λ > 0, β > 0. Lad U = ∏ n 1 X1/n<br />

i / ¯X.<br />

(i) Vis, at fordelingen af U ikke afhænger af β, og vis, at U og ¯X er uafhængige.<br />

(ii) Vis, at det uniformt stærkeste styrkerette test på niveau α for λ = λ0 mod λ > λ0<br />

er givet ved<br />

ϕ(X1, . . . , Xn) =<br />

hvor c er bestemt ved<br />

P λ0,β<br />

1 for (∏ n i=1 X i) 1/n / 1 n ∑n i=1 X i ≥ c<br />

⎛<br />

⎜<br />

⎝<br />

0 ellers,<br />

n 1/n ∏ Xi i=1<br />

1<br />

n<br />

n<br />

∑ Xi i=1<br />

⎞<br />

⎟<br />

≥ c⎟<br />

⎠ = α.<br />

Opgave 7.8<br />

Lad X1, . . . , Xn være uafhængige med tæthed<br />

<br />

1β exp −<br />

f (x) =<br />

x−δ<br />

<br />

β x ≥ δ<br />

0 ellers,<br />

hvor δ ∈ R og β > 0.<br />

Lad X (1),..,X (n) være ordensobservatorerne for X1, . . . , Xn .<br />

(i) Vis, at (X (1), . . . , X (n)) har tæthed f givet ved<br />

for δ ≤ z1 ≤ z2 ≤ · · · ≤ zn.<br />

f (z1, . . . , zn) = n! 1<br />

exp<br />

βn <br />

nδ<br />

exp −<br />

β<br />

1<br />

β<br />

Sæt Y1 = nX (1) og Y i = (n − i + 1)(X (i) − X (i−1) ), i = 2, . . . , n.<br />

(ii) Vis, at Y1, . . . , Yn er stokastisk uafhængige, og Y1 har tæthed<br />

<br />

1β<br />

f (y1) =<br />

e − yi β y1 ≥ nδ<br />

0 ellers,<br />

n <br />

∑ zi i=1


7.5. OPGAVER 99<br />

og Y i har tæthed, i = 2,. . . ,n,<br />

f (y i) =<br />

(iii) Vis, at for β fast er Y1 sufficient og komplet.<br />

(iv) Lad<br />

1β e − y i<br />

β y i ≥ 0<br />

0 ellers.<br />

<br />

1 Y2 + · · · + Yn > cα<br />

ϕ(Y1, . . . , Yn) =<br />

0 ellers,<br />

hvor cα = β0<br />

2 χ2 1−α (2n − 2). Vis, at ϕ er et test på niveau α for β = β0 mod β > β0.<br />

(v) Vis, at styrkefunktionen for dette test er givet ved<br />

<br />

Eδ,β(ϕ) = P Z ≥ β0<br />

β χ2 <br />

1−α (2n − 2) ,<br />

hvor Z er en χ 2 (2n − 2)-fordelt stokastisk variabel. Vis ved hjælp af dette resultat,<br />

at ϕ er et styrkeret test for β = β0 mod β > β0.<br />

(vi) Vis, at ϕ er uniformt stærkeste styrkerette test på niveau α for β = β0 mod β > β0<br />

.<br />

Opgave 7.9<br />

Lad X ij, i = 1, 2, j = 1, 2, være uafhængige eksponentialfordelte med middelværdi<br />

EX ij =<br />

hvor λ1, λ2 > 0 er ukendte parametre.<br />

1<br />

, i = 1, 2, j = 1, 2,<br />

λi + λj (i) Vis, at ovennævnte familie af sandsynlighedsmål på R 4 +<br />

ponentiel familie af orden 2, og vis, at<br />

T(X) = (X22 − X11, X11 + X12 + X21 + X22)<br />

er en kanonisk observator med tilhørende kanonisk parameter<br />

(ii) Vis, at for λ1 = λ2 er<br />

φ = (λ1 − λ2, −λ1 − λ2).<br />

X22 − X11<br />

X11 + X12 + X21 + X22<br />

ancillær og stokastisk uafhængig af X11 + X12 + X21 + X22.<br />

udgør en regulær eks


100 KAPITEL 7. TESTTEORI<br />

(iii) Vis, at det uniformt stærkeste styrkerette test for λ1 = λ2 mod λ1 > λ2 på niveau<br />

α er<br />

<br />

1<br />

ϕ(X11, X12, X21, X22) =<br />

0<br />

X22−X11 X ≥ cα<br />

11+X12+X21+X22 ellers,<br />

hvor cα er bestemt ved<br />

P λ1=λ2<br />

<br />

X22 − X11<br />

X11 + X12 + X21 + X22<br />

<br />

≥ cα = α.<br />

(iv) Vis, at det uniformt stærkeste styrkerette test for λ1 = λ2 mod λ1 = λ2 på niveau<br />

2α er<br />

<br />

1<br />

ϕ(X11, X12, X21, X22) =<br />

0<br />

|X22−X11| X ≥ cα<br />

11+X12+X21+X22 ellers,<br />

hvor cα er bestemt som ovenfor.<br />

Opgave 7.10<br />

Betragt en model P = {Pθ|θ ∈ Θ} på målrummet (X , A). Lad ϕ(x; θ0) være et test på<br />

niveau α for hypotesen H(θ0) : θ = θ0 . D.v.s. at vi har Eθ0 ϕ = α. Vis, at området<br />

K(x) = {θ ∈ Θ | ϕ(x; θ) = 0}<br />

er et (1 − α)-konfidensområde.<br />

Lad nu θ = (ψ, η) og lad ˜ϕ(x; ψ0) være et test på niveau α for den sammensatte<br />

hypotese H(ψ0) : ψ = ψ0. Definer<br />

Vis, at<br />

˜K(x) = {ψ | ˜ϕ(x; ψ) = 0}.<br />

P θ<br />

ψ ∈ ˜K(X) ≥ 1 − α,<br />

altså at ˜K(X) indeholder den sande værdi ψ, med en sandsynlighed, der er mindst<br />

1 − α.


Kapitel 8<br />

Separat inferens<br />

8.1 L-sufficiens og L-ancillaritet<br />

Vi betragter i dette kapitel en model P = {P θ|θ ∈ Θ}, hvor θ står i én til én korrespondance<br />

med (ψ, η). Parameteren ψ - interesseparameteren - er den parameter, vi ønsker<br />

at sige noget om, hvorimod vi ikke er interesseret i η - nuisanceparameteren (engelsk:<br />

nuisance = plage) - selvom denne er nødvendig for en fuldstændig beskrivelse af modellen.<br />

I Kapitel 6 betragtede vi estimation af ψ i klassen af centrale estimater, d.v.s.<br />

Eψ,η ˜ψ = ψ for alle η for et centralt estimat ˜ψ. Tilsvarende betragtede vi i Afsnit 7.3 similære<br />

tests for den sammensatte hypotese ψ = ψ0, d.v.s. Eψ0,ηφ = α for alle η. I begge<br />

tilfælde er der tale om en egenskab, der ikke afhænger af nuisanceparameteren η . Der<br />

er to situationer, hvor denne egenskab kan opnås på en direkte måde, nemlig hvis der<br />

eksisterer en observator S = s(X), så at den marginale fordeling af S kun afhænger<br />

af ψ, eller hvis der eksisterer en observator U = u(X), så at den betingede fordeling<br />

af X givet U = u kun afhænger af ψ. Det var den sidste situation, der blev anvendt i<br />

konstruktionen af de similære tests i Afsnit 7.3. Det spørgsmål, som vi skal komme ind<br />

på her, er om det er rimeligt kun at betragte den marginale fordeling af S, henholdsvis<br />

den betingede fordeling af X givet U. Bemærk at i tilfældet, hvor der ingen nuisanceparameter<br />

er, d.v.s θ = ψ, så har vi en formulering af dette i (B-) sufficiensprincippet<br />

og (B-) betingningsprincippet.<br />

Jeg vil først med et eksempel vise, at maksimum likelihood estimation ikke er problemfrit,<br />

når der er nuisanceparametre tilstede.<br />

Eksempel 8.1.<br />

Hvis X1, . . . , Xn er uafhængige og alle N(µ, σ 2 )-fordelte, så er likelihoodfunktionen<br />

L(µ, σ 2 ) =<br />

n<br />

∏(2πσ i=1<br />

2 ) − 1 1 −<br />

2 e 2σ2 (x1−µ) 2<br />

Maksimum likelihood estimaterne er ˆµ = ¯X og σ 2 = 1 n ∑n 1 (X i − ¯X) 2 . På <strong>statistik</strong> 1 har<br />

I lært, at I ikke skal bruge ˆσ 2 som estimat for σ 2 , men istedet<br />

s 2 = 1<br />

n − 1<br />

n<br />

∑(Xi − ¯X)<br />

1<br />

2 .<br />

101


102 KAPITEL 8. SEPARAT INFERENS<br />

Argumentet for at bruge s 2 istedet for ˆσ 2 er, at<br />

Es 2 = σ 2 og Eˆσ 2 2 n − 1<br />

= σ<br />

n =<br />

<br />

1 − 1<br />

n<br />

<br />

σ 2 .<br />

Den marginale fordeling for s 2 er en σ 2 χ 2 (n − 1)/(n − 1) med tæthed<br />

<br />

n − 1<br />

2σ2 (n−1)/2<br />

Γ<br />

n − 1<br />

2<br />

−1<br />

x (n−3)/2 e −(n−1)x/(2σ2 ) ,<br />

og maksimum likelihood estimatet ˆσ 2 m fra denne tæthed er netop ˆσ 2 m = s 2 .<br />

Medmindre n er meget lille, har det i praksis ikke den store betydning, om vi bruger<br />

ˆσ 2 eller s 2 . Intuitivt er det generelt forholdet mellem antallet af observationer n og antallet<br />

af nuisanceparametre, der bestemmer, hvor godt maksimum likelihoodestimatet<br />

er. Dette kan illustreres ved modellen med<br />

X ij ∼ N(µ i, σ 2 ) j = 1, 2, i = 1, . . . , n,<br />

d.v.s., at vi har n grupper med to observationer i hver. Maksimum likelihood estimaterne<br />

er<br />

Fra store tals lov (JHJ 4.12) får vi<br />

ˆµ i = ¯X i· = 1<br />

2 (Xi1 + Xi2) og ˆσ 2 = 1<br />

2n ∑(Xij − ¯X i·)<br />

ij<br />

2 .<br />

ˆσ 2 = 1<br />

n<br />

n<br />

∑<br />

1<br />

<br />

Xi1 − X<br />

2 <br />

i2 Xi1 − Xi2 → E<br />

2<br />

2<br />

2<br />

= 1<br />

2 σ2 ,<br />

hvor konvergensen er næsten sikker for n → ∞, og vi har også Eˆσ 2 = 1 2 σ2 . Hvis vi<br />

istedet baserer estimationen af σ 2 på den marginale fordeling af<br />

får vi maksimum likelihood estimatet<br />

Y i = X i1 − X i2 ∼ N(0, 2σ 2 ) i = 1, . . . , n,<br />

ˆσ 2 m = 2 1<br />

n<br />

n<br />

∑<br />

1<br />

<br />

Xi1 − X<br />

2 i2<br />

→ σ<br />

2<br />

2 ,<br />

og Eˆσ 2 m = σ 2 . <br />

Lad nu familien P være domineret af µ og lad f (x; θ) = dPθ dµ (x). Hvis S = s(X) er<br />

en observator, lader vi<br />

f (s; θ) = dPθS (s) og f (x|s; θ) =<br />

dµS<br />

dPθ(·|S = s)<br />

dµ(·|S = s) (x),<br />

og tilsvarende for observatoren U = u(X). Hvis f (s; θ) kun afhænger af θ gennem ψ,<br />

d.v.s.<br />

f (x; θ) = f (s; ψ) f (x|s; ψ, η), (8.1)


8.1. L-SUFFICIENS OG L-ANCILLARITET 103<br />

er vi interesseret i, om vi kan basere inferensen om ψ på den marginale model f (s; ψ).<br />

Hvis vi kan argumentere for, at f (x|s; ψ, η) ikke indeholder information om ψ, vil det<br />

være rimeligt at sige, at S i en udvidet forstand er sufficient for ψ. Hvis omvendt<br />

f (x|u; θ) kun afhænger af θ gennem ψ, d.v.s<br />

f (x, θ) = f (u; ψ, η) f (x|u; ψ), (8.2)<br />

vil vi gerne kunne sige, at f (u; ψ, η) ikke indeholder information om ψ, og at U i en<br />

udvidet forstand er ancillær for ψ.<br />

Jeg vil nu give én (ud af andre mulige) definition på hvornår f (x|s; ψ, η) henholdsvis<br />

f (u; ψ, η) ikke indeholder information om ψ, og dernæst forsøge at argumentere<br />

for at dette er et rimeligt kriterium.<br />

Definition 8.2 Hvis opsplitningen (8.1) holder, og der eksisterer funktioner g(s; ψ) og<br />

h(x) så at<br />

sup f (x|s; ψ, η) = g(s; ψ)h(x), (8.3)<br />

η<br />

så siges S = s(X) at være L-sufficient for ψ (“L” for likelihood). Hvis omvendt opsplitningen<br />

(8.2) holder, og der eksisterer funktioner g(ψ) og h(u) så at<br />

sup<br />

η<br />

f (u; ψ, η) = g(ψ)h(u), (8.4)<br />

så siges U = u(X) at være L-ancillær for ψ.<br />

Hvis S er L-sufficient for ψ, bør inferens om ψ udføres i den marginale fordeling af<br />

S, og hvis U er L-ancillær for ψ, bør inferens om ψ udføres i den betingede fordeling af<br />

X givet U. <br />

Argumentation: Ved at tage tæthed mht. ˜µ, hvor d ˜µ/dµ = h, kan vi i (8.3) og (8.4)<br />

antage at h ≡ 1, hvilket hermed gøres. Profillikelihoodfunktionen ¯L(ψ) for parameteren<br />

ψ er defineret som<br />

¯L(ψ) = sup<br />

η<br />

f (x; ψ, η) = f (x; ψ, ˆηψ),<br />

hvor ˆηψ er maksimum likelihood estimatet for η for fastholdt værdi af ψ. Hvis (8.1) er<br />

opfyldt, vil<br />

¯L(ψ) = f (s; ψ) sup f (x|s; ψ, η) = f (s; ψ) f (x|s; ψ, ˆηψ). (8.5)<br />

η<br />

Profillikelihoodfunktionen ¯L(ψ) er udgangspunktet for inferens om ψ, og vi kan udtrykke<br />

(8.5) ved at ¯L(ψ) er den marginale likelihood fra S modificeret ved f (x|s; ψ, ˆηψ).<br />

Denne modifikation må være baseret på den extra viden, vi har fra observationen x<br />

givet S = s. Hvis (8.3) er opfyldt, er modifikationen g(s; ψ), altså den samme uanset<br />

hvad vi har observeret om x givet S = s. Men i så fald kan vi lige så godt sige, at vi<br />

ikke har observeret x fra X givet S = s, og tilbage er observationen S = s. Vi bør derfor<br />

nøjes med at betragte den marginale fordeling af S, og anse g(s; ψ) for et irrelevant<br />

element (som netop giver anledning til problemerne i eksempel 8.1 ovenfor).<br />

Hvis (8.2) er udgangspunktet, har vi<br />

¯L(ψ) = f (x|u; ψ) f (u; ψ, ˆηψ),


104 KAPITEL 8. SEPARAT INFERENS<br />

og f (u; ψ, ˆηψ) betragtes som en modifikation til f (x|u; ψ). Hvis (8.4) er opfyldt, fås<br />

f (u; ψ, ˆηψ) = g(ψ),<br />

og modifikationen afhænger altså ikke af hvilken værdi af u, der er observeret. Vi bør<br />

derfor nøjes med at basere inferensen på den betingede fordeling af x givet U = u. △<br />

Eksempel 8.3.<br />

Lad X i, . . . , Xn være uafhængige og N(µ, σ 2 ) fordelte. Vi vil vise at S = (X1 − ¯X, . . . , Xn −<br />

¯X) er L-sufficient for σ 2 . Da X i − ¯X = (X i − µ) − ∑ n 1 (X j − µ)/n afhænger fordelingen<br />

af S kun af σ 2 . Da X = (X1, . . . , Xn) = S + ( ¯X, . . . , ¯X) er den betingede fordeling af X<br />

givet S ækvivalent med den betingede fordeling af ¯X givet S. For fast σ 2 er ¯X sufficient<br />

og komplet og S er ancillær. Fra Basu’s sætning har vi derfor at S og ¯X er uafhængige.<br />

Den betingede fordeling af X givet S er derfor ækvivalent med den marginale<br />

fordeling af ¯X, som jo er en N(µ, σ 2 /n) fordeling. Da<br />

sup<br />

µ<br />

1<br />

√ 2πσ 2 /n exp(−( ¯x − µ) 2 /(2σ 2 /n)) =<br />

1<br />

√ 2πσ 2 /n<br />

er en funktion af σ 2 udelukkende har vi fra definitionen at S er L-sufficient for σ 2 .<br />

Estimatet for σ 2 fra den marginale fordeling af S er s 2 = ∑ n 1 (X i − ¯X)/(n − 1). <br />

I de næste to afsnit vil jeg se på specialtilfælde af L-sufficiens og L-ancillaritet.<br />

8.2 S-sufficiens og S-ancillaritet<br />

Vi har antaget ovenfor at paramteren θ står i entydig forbindelse med parameteren<br />

(ψ, η) Vi antager nu at vi kan omparametrisere til (ψ, λ), det vil sige at der er en entil-en<br />

forbindelse mellem (ψ, η) og (ψ, λ). I definitionen nedenfor er det et væsentligt<br />

element at vi forlanger at (ψ, λ) varierer i et produktområde.<br />

Definition 8.4 Hvis (ψ, λ) varierer i Ψ × Λ, og (8.1) specialiserer til<br />

f (x; θ) = f (s; ψ) f (x|s; λ)<br />

siges S = s(X) at være S-sufficient for ψ. Omvendt hvis (8.2) specialiserer til<br />

f (x; θ) = f (u; λ) f (x|u; ψ)<br />

siges U = u(X) at være S-ancillær for ψ. <br />

Observation 8.5 S-sufficiens/ancillaritet er et specialtilfælde af L-sufficiens/ancillaritet.<br />

<br />

Bevis. (i) Sufficiens:<br />

(ii) Ancillaritet:<br />

sup<br />

η<br />

sup<br />

η<br />

f (x|s; ψ, η) = sup f (x|s; λ) = h(x).<br />

λ∈Λ<br />

f (u; ψ, η) = sup f (u; λ) = h(u).<br />

λ∈Λ


8.2. S-SUFFICIENS OG S-ANCILLARITET 105<br />

Observation 8.6 Hvis S er S-sufficient henholdsvis S-ancillær, er maksimum likelihood<br />

estimatet for ψ og kvotienttestoren for ψ = ψ0 de samme, om de baseres på<br />

den fulde likelihood f (x; ψ, η) eller på den marginale likelihood f (s; ψ) henholdsvis<br />

den betingede likelihood f (x|u; ψ). Fordelingen af estimat og kvotienttestor vil dog i<br />

ancillaritetstilfældet være påvirket af, at vi betinger med U = u. <br />

Observation 8.7 S-ancillaritet ligger tæt op ad B-ancillaritet, idet hvis U er S-ancillær,<br />

så er U også B-ancillær i enhver af delmodellerne med λ fast. Hvis derfor vi synes, at<br />

det er vigtigt at betinge med U for fastholdt værdi af λ, bør vi også betinge med U, når<br />

λ er ukendt og varierer i Λ, sålænge værdien af λ ikke siger noget om variationsområdet<br />

for ψ. <br />

Eksempel 8.8.<br />

I forsikringsmatematikken betragter man ofte den model, at skaderne ankommer efter<br />

en Poissonproces i tiden og skadestørrelserne er uafhængige og identisk fordelte. Lad<br />

os derfor betragte følgende model: N er en Poissonfordeling betinget med at N > 0 ,<br />

d.v.s.<br />

P(N = k) = λk<br />

k! e−λ /(1 − e −λ ), k = 1, 2, . . . ,<br />

og X1, X2, . . . er uafhængige exponentialfordelte med middelværdi µ. Vi observerer N<br />

og X1, . . . , XN og likelihoodfunktionen bliver<br />

L(µ, ; λ) =<br />

1<br />

1 − e −λ<br />

Maksimum likelihood estimatet for µ er<br />

ˆµ = 1<br />

N<br />

λn n<br />

1<br />

e−λ<br />

n! ∏ µ i=1<br />

e−xi/µ .<br />

N<br />

∑ Xi. i=1<br />

Hvis vi skal sige noget om, hvor tæt ˆµ må forventes at være på den sande værdi µ,<br />

virker det rimeligt at tage hensyn til værdien af N : hvis N = 1, ved vi ikke meget<br />

om µ, men hvis N = 10.000 , er vi i en meget bedre position for at lave udsagn om µ.<br />

Vi ønsker altså at basere inferensen på den betingede fordeling af X1, X2, . . . , Xn givet<br />

N = n. Hvis λ er kendt, er N B-ancillær, og hvis λ er ukendt med (µ, λ) ∈ R2 + er N<br />

S-ancillær for inferens om µ. <br />

Eksempel 8.9.<br />

Lad (X,<br />

<br />

Y) være 2-dimensionalt normalfordelt med middelværdi (µ, µ) og varians<br />

. Parameteren (µ, σ2 ) varierer i R × R+. Så har vi X ∼ N(µ, 1) og Y|X =<br />

1 1<br />

1 1+σ 2<br />

x ∼ N(x, σ 2 ). Heraf ser vi at X er S-sufficient for µ. <br />

Eksempel 8.10.<br />

Lad N være antallet af partikler fra en radioaktiv kilde, som en geigertæller registrerer<br />

i et fast tidsrum, og lad N2 være en tilsvarende tælling med en plade indskudt mellem<br />

kilden og tælleren. Vi vil betragte modellen<br />

N1 ∼ Poisson(γ) og N2 ∼ Poisson(ψγ), γ > 0, 0 < ψ ≤ 1,


106 KAPITEL 8. SEPARAT INFERENS<br />

d.v.s. γ er intensiteten fra kilden og ψ angiver den bremsende virkning af pladen. Likelihoodfunktionen<br />

er<br />

L(ψ, γ) = γn1 (ψγ)n2<br />

e−γ<br />

n1! n2! e−ψγ<br />

= [γ(1 + ψ)]n1+n2 e<br />

(n1 + n2)!<br />

−γ(1+ψ)<br />

n1 + n2<br />

n1<br />

n1 n2 1 ψ<br />

,<br />

1 + ψ 1 + ψ<br />

svarende til at (N1 + N2) ∼ Poisson (γ(1 + ψ)) og N1|(N1 + N2) = k ∼ Binomial<br />

1 (k, 1+ψ ). Hvis ψ er interesseparameteren, og λ = γ(1 + ψ) er en nuisanceparameter,<br />

har vi at (ψ, λ) ∈ (0, 1] × R+, og U = N1 + N2 er S-ancillær for ψ. Vi bør altså drage<br />

inferens om ψ i den betingede fordeling af N1 givet N1 + N2. <br />

I forbindelse med S-sufficiens og S-ancillaritet optræder ofte begrebet et „snit“. Lad<br />

P være en klasse af sandsynlighedsmål, og S en observator. Lad PS = {PS | P ∈ P}<br />

være klassen af marginale fordelinger for S og lad P S = {P(·|S = ·) | P ∈ P} være<br />

klassen af betingede fordelinger givet S. Hvis der for enhver kombination (P1, P2) ∈<br />

PS × P S eksisterer P ∈ P med PS = P1 og P(·|S = ·) = P2, så siges S at være et snit i<br />

modellen P . Hvis derfor S er S-sufficient for parameteren ψ, er S et snit, og omvendt<br />

hvis S er et snit, vil S være S-sufficient for en vilkårlig parameter, som parametriserer<br />

klassen PS af marginale fordelinger.<br />

Eksempel 8.11 (Inkubationstidsfordelingen for AIDS).<br />

Dette eksempel er lidt sværere end de øvrige, men jeg tager det med på grund af dets<br />

aktualitet.<br />

Da inkubationstiden for AIDS er meget lang, er smittetidspunktet ofte ukendt, når<br />

personer får stillet diagnosen AIDS (=AIDS i fuldt udbrud). Man har derfor forsøgt<br />

at bruge data fra personer, der er blevet smittet ved blodtransfusion, og derfor har et<br />

kendt smittetidspunkt. Lad os for eksempel sige, at vi laver en undersøgelse i 1987.<br />

Observationerne i = 1, . . . , n består derfor af par (x i, y i), hvor x i er smittetidspunktet,<br />

og y i ≤ 1987 er tidspunktet for AIDS. Der vil være flere end de n personer, der er blevet<br />

smittet ved blodtransfusion, men de resterende personer bliver ikke observeret, idet de<br />

har et AIDS-tidspunkt, der ligger senere end 1987.<br />

Lad os sige, at inkubationsfordelingen F(·; ψ) er parametriseret ved ψ,<br />

P(Y i − X i ≤ z) = F(z; ψ).<br />

Lad os endvidere antage, at personerne bliver smittet efter en inhomogen Poisson proces<br />

med intensitet λ(t). D.v.s. at antallet af personer der smittes ved blodtransfusion i<br />

tidsintervallet (t1, t2) er Poissonfordelt med middelværdi t2<br />

t 1 λ(t)dt og disjunkte tidsintervaller<br />

er uafhængige. Heraf får vi, at processen af observerede smittetidspunkter,<br />

svarende til X i-erne ovenfor, også er en inhomogen Poissonproces med intensitet<br />

φ(t) = λ(t)F(T − t; ψ), (8.6)<br />

hvor T = 1987 er tidspunktet, hvor undersøgelsen er afsluttet. Denne formel siger, at<br />

af dem, der smittes til tid t, når vi kun at se F(T − t; ψ).


8.3. G-SUFFICIENS OG G-ANCILLARITET 107<br />

Observationen bliver N = n antal par og tidspunkterne (X1, Y1), . . . , (Xn, Yn). Likelihoodfunktionen<br />

kan opskrives som den marginale tæthed af (N, X1, . . . , Xn) multipliceret<br />

med den betingede tæthed af (Y1, . . . , Yn). Givet (N, X1, . . . , XN) har vi at<br />

(Y1, . . . , Yn) er uafhængige, og Y i har tæthed f (y − x i; ψ)/F(T − x i; ψ), hvor f (z; ψ) =<br />

F ′ (z; ψ). Givet N = n har vi at X1, . . . , Xn er uafhængige, og X i har tæthed φ(x)/ T<br />

T0 φ(t)dt,<br />

hvor T0 er starttidspunktet for epidemien (dette er en egenskab ved den inhomogene<br />

Poissonproces). Endelig er N Poissonfordelt med middelværdi T<br />

φ(t)dt. Vi får da<br />

T0<br />

L(ψ; λ(·))<br />

=<br />

=<br />

n<br />

∏<br />

i=1<br />

n<br />

∏<br />

i=1<br />

<br />

f (yi − xi; ψ) 1<br />

F(T − xi; ψ) n!<br />

<br />

1<br />

n!<br />

f (y i − x i; ψ)<br />

F(T − x i; ψ)<br />

n<br />

∏<br />

i=1<br />

n<br />

∏<br />

i=1<br />

<br />

[λ(xi)F(T − xi; ψ)] exp −<br />

T <br />

φ(xi) exp − φ(t)dt<br />

T0<br />

<br />

T<br />

T0<br />

<br />

λ(t)F(T − t; ψ)dt<br />

<br />

(8.7)<br />

Hvis vores model siger, at ψ ∈ Ψ og λ(·) kan variere frit, kan vi ifølge (8.6) også<br />

formulere dette som ψ ∈ Ψ, og φ(·) kan variere frit. Vi har derfor igen et tilfælde,<br />

hvor (N, X1, . . . , Xn ) er S-ancillær for ψ, og vi baserer inferensen om ψ på det <strong>første</strong><br />

led i (8.7). I litteraturen har man også forsøgt at bruge den fulde likelihoodfunktion<br />

(8.7), idet λ(t) er blevet modelleret som exp(a + bt) med a og b parametre, i hvilket<br />

tilfælde (N, X1, . . . , XN ) ikke længere er S-ancillær.<br />

Det er værdifuldt at give en nøjere overvejelse over forskellen mellem ikke at antage<br />

noget om λ(·) og for eksempel at antage en parametrisk form. Når vi siger, at vi ikke<br />

ved noget om λ(·), baserer vi inferensen om ψ på det <strong>første</strong> led i (8.7). Hvis vore model<br />

F(·; ψ) for inkubationstiden er “rigtig”, vil dette føre til en fornuftig viden om ψ. Når<br />

vi derimod antager noget om λ(·), får det andet led i (8.7) betydning på grund af (8.6).<br />

Hvis nu vores antagelse om λ(·) ikke er korrekt, vil dette altså føre til en eller anden<br />

form for fejl i vores udtalelse om ψ. Vi kan således fortolke det, at vi baserer inferensen<br />

om ψ på det <strong>første</strong> led i (8.7) som en “sikker” procedure.<br />

Baseret på amerikanske data og den betingede likelihoodfunktion har man estimeret<br />

inkubationstidsfordelingen til at være en Weibullfordeling med fordelingsfunktionen<br />

1 − exp{−(αt) β }, α = 0.07, β = 2.5,<br />

hvor t måles i år. Denne fordeling har median 12.3, og sandsynligheden for en inkubationstid<br />

på 7 år eller derunder er kun 0.155. <br />

8.3 G-sufficiens og G-ancillaritet<br />

I dette afsnit skal jeg bruge begrebet en gruppefrembragt familie af sandsynlighedsmål,<br />

og jeg beskriver derfor først dette generelt. Vi betragter et generelt udfaldsrum X ,<br />

hvopå vi har en mængde G af målelige transformationer<br />

g : X → X for g ∈ G.<br />

Vi antager, at G er en gruppe, hvilket betyder, at hvis g, h ∈ G , så vil den sammensatte<br />

afbildning gh,<br />

gh : x → g(h(x))


108 KAPITEL 8. SEPARAT INFERENS<br />

også tilhøre G, og for ethvert g ∈ G vil den inverse afbildning g −1 tilhøre G. Hvis P er<br />

en klasse af sandsynlighedsmål, siges P at være frembragt af gruppen G, hvis der for et<br />

P0 ∈ P gælder at<br />

P = {P0g | g ∈ G}.<br />

Hvis P0 har tæthed f (x) og χg(y) er Jacobianten<br />

vil P0g have tæthed f (y; g) givet ved<br />

<br />

<br />

χg(y) = <br />

<br />

∂y (y)<br />

<br />

<br />

<br />

, (8.8)<br />

∂g −1<br />

f (y; g) = χg(y) f (g −1 (y)). (8.9)<br />

En gruppe af transformationer siges at virke transitivt på X , hvis der for alle x1, x2 ∈ X<br />

findes et g ∈ G, så at g(x1) = x2.<br />

Lemma 8.12 Hvis G virket transitivt på X og P er gruppefrembragt, eksisterer der en<br />

konstant c(P) afhængig af P og en funktion h(x) uafhængig af P (d.v.s. kun afhængig<br />

af X og G) så at<br />

sup<br />

g<br />

f (x; g) = c(P)h(x).<br />

Bevis. Fra definitionen (8.8) af χg har vi, at χ gh(x) = χ h(g −1 (x))χg(x). Lad x0 være et<br />

fast punkt i X . Da G virker transitivt på X , kan vi for ethvert x ∈ X finde d = dx ∈ G,<br />

så at x = d −1 (x0). Fra (8.9) får vi<br />

og dermed<br />

f (x; g) = f (d −1 (x0); g) = χg(d −1 (x0)) f (g −1 (d −1 (x0)))<br />

= χ dg(x0)<br />

χ d(x0) f ((dg)−1 (x0))<br />

= f (x0, dg)χ d(x0) −1 ,<br />

sup<br />

g<br />

f (x; g) = [sup<br />

g<br />

= [sup<br />

˜g<br />

f (x0, dg)]χ d(x0) −1<br />

f (x0, ˜g)]χ d(x0) −1<br />

= c(P)h(x). <br />

Definition 8.13 Hvis opsplitningen (8.1) holder, og der for ethvert s eksisterer en transitiv<br />

gruppe Gs af transformationer på Xs = {x|s(x) = s}, så at familien P s ψ =<br />

{ f (·|s; ψ, η)|ηvarierer} er frembragt af Gs for alle ψ, da siges S = s(X) at være Gsufficient<br />

for ψ. Omvendt hvis (8.2) holder og der eksisterer en transitiv gruppe G af<br />

transformationer på U = u(X ), så at familien PU,ψ = {P (ψ,η)U | η varierer} er frembragt<br />

af G for alle ψ, da siges U = u(X) at være G-ancillær for ψ.


8.3. G-SUFFICIENS OG G-ANCILLARITET 109<br />

Observation 8.14 G sufficiens/ancillaritet er et specialtilfælde af L-sufficiens/ ancillaritet.<br />

<br />

Bevis. (i) Sufficiens:<br />

ifølge Lemma 8.10.<br />

(ii) Ancillaritet:<br />

sup<br />

η<br />

sup<br />

η<br />

f (x|s; ψ, η) = c(s, ψ)h(x),<br />

f (u; ψ, η) = c(ψ)h(u),<br />

ifølge Lemma 8.10. <br />

Eksempel 8.15.<br />

Lad X1, . . . , Xn være uafhængige Gammafordelte med tæthed<br />

β λ<br />

Γ(λ) xλ−1 e −βx , x > 0,<br />

hvor (β, λ) ∈ R2 + . Likelihoodfunktionen er<br />

L(λ, β) = βnλ<br />

Γ(λ) exp<br />

<br />

λ<br />

n<br />

ln xi − β<br />

og dermed er profil–likelihoodfunktionen for λ,<br />

Hvis<br />

¯L(λ) = sup<br />

β<br />

∑ 1<br />

n n<br />

∑ xi ∏<br />

1 1<br />

1<br />

x i<br />

<br />

,<br />

L(λ, β) = λnλ<br />

Γ(λ) exp λ <br />

∑ ln x i − n ln ¯x − n n<br />

∏ 1<br />

S = 1<br />

n<br />

n<br />

∑<br />

1<br />

n<br />

ln Xi − ln ¯X<br />

∏1 X<br />

= ln<br />

1/n <br />

i<br />

¯X<br />

1<br />

x i<br />

<br />

. (8.10)<br />

har en fordeling, der kun afhænger af λ, viser (8.10), at S er L-sufficient for λ. Da<br />

S = 1<br />

n ∑ <br />

1<br />

ln(βXi) − ln<br />

n<br />

n<br />

∑<br />

1<br />

<br />

(βXi) og βX i har en fordeling, der kun afhænger af λ, vil S have en fordeling, der kun afhænger<br />

af λ. Vi vil nu vise, at S også er G-sufficient for λ.<br />

Vi laver først en minimal sufficient reduktion til T = ( 1 n ∑n 1 X i, 1 n ∑n 1 ln X i). Denne<br />

står i entydig forbindelse med ( ¯X, S), og Baus’s sætning giver (opgave 4.3), at ¯X og S<br />

er uafhængige. Tætheden for ¯X er<br />

fn(x; λ, β) = (nβ)nλ<br />

Γ(nλ) xnλ−1 e −nβx . (8.11)<br />

Lad nu G = R+ være gruppen af transformationer på R+ givet ved, at for g ∈ R+<br />

gælder<br />

g : x → gx, x ∈ R+.


110 KAPITEL 8. SEPARAT INFERENS<br />

Hvis X har tæthed fn(x; λ, β) vil g(X) have tæthed fn(x; λ, β/g). D.v.s. at for fast λ er<br />

familien (8.11) med β > 0 frembragt af gruppen G. Da (8.11) er de betingede tætheder<br />

givet S, er S altså G-sufficient for λ.<br />

Bemærk at transformationerne af ¯X svarer til transformationerne<br />

(x1, . . . , xn) → (gx1, . . . , gxn)<br />

på det oprindelige udfaldsrum R n + , og at under disse transformationer er S = s(X1, . . . , Xn)<br />

invariant<br />

s(gx1, . . . , gxn) = s(x1, . . . , xn). <br />

Eksempel 8.16 (Proportional hazards).<br />

Dette er også et svært eksempel. Modellen, vi skal betragte, er meget populær i forbindelse<br />

med studier af overlevelsesdata. Eksemplet giver også en fornemmelse af,<br />

hvordan man kan opstille en likelihoodfunktion i mere komplicerede situationer end<br />

dem, I er vant til.<br />

Vi betragter n personer og observerer, hvornår de dør. Til person i er der knyttet<br />

et sæt forklarende variable z i ∈ R k (engelsk: covariates). Disse kan for eksempel sige,<br />

hvilken medicinsk behandling personen får, om det er en kvinde eller en mand og<br />

så videre. Fordelingen af dødstidspunktet beskrives ved en hazardfunktion h(t), der<br />

siger, hvad sandsynligheden er for at dø i det næste lille tidsrum, givet at man har<br />

overlevet op til nu. Vi kan skrive dette som<br />

P( dø i (t, t + δ) | levende til tid t) = h(t)δ + o(δ), (8.12)<br />

hvor o(δ)/δ → 0 for δ → 0. En anden måde at sige dette på er<br />

s+t <br />

P(dø efter tid s + t | levende til tid s) = exp − h(u)du . (8.13)<br />

s<br />

Tænk på en inhomogen Poissonproces!<br />

Lad os betragte m personer med hazards h1(t), . . . , hm(t). Lad T være den stokastiske<br />

variabel, der angiver tidspunktet for det <strong>første</strong> dødsfald og I nummeret på den<br />

person, der dør til tid T. Da hazardfunktionen har fortolkningen (8.12), får vi<br />

og som i (8.13) finder vi, at<br />

P(I = i | T = t) = hi(t) ∑ m j=1 h , (8.14)<br />

j(t)<br />

<br />

P(T > t) = exp −<br />

og dermed er tætheden for T givet ved<br />

m <br />

∑ hj(t) exp −<br />

j=1<br />

t<br />

0<br />

t<br />

0<br />

m <br />

∑ hj(u) du ,<br />

j=1<br />

m <br />

∑ hj(u) du , (8.15)<br />

j=1


8.3. G-SUFFICIENS OG G-ANCILLARITET 111<br />

Lad os nu vende tilbage til de n personer med kovariater z1, . . . , zn. Vi vil betragte<br />

modellen, hvor hazardfunktionen h i(t) for den i’te person er på formen<br />

h i(t) = λ(t) exp{β · z i},<br />

hvor λ(t) er en underliggende fælles intensitet og β er en vektor af parametre. Dette<br />

kaldes Proportional Hazards modellen. Vi observerer de stokastiske variable D1, . . . , Dn,<br />

som er dødstidspunkterne for de n personer. Ækvivalent hermed kan vi betragte T1, . . . , Tn,<br />

som er de n dødstidspunkter ordnet efter størrelse T1 < T2 < · · · < Tn, og R1, . . . , Rn<br />

hvor R i angiver, hvilken person, der dør på tidspunktet T i. Vi kan nu opstille likelihoodfunktionen<br />

som følgende produkt af betingede tætheder<br />

L(β, λ(·)) =<br />

=<br />

n<br />

∏<br />

i=1<br />

n<br />

∏<br />

i=1<br />

p(r i, t i|(r1, t1), . . . , (r i−1, t i−1))<br />

{p(r i | t i, (r1, t1), . . . , (r i−1, t i−1))p(t i | (r1, t1), . . . , (r i−1, t i−1))}.<br />

Lad nu I i = {R i, R i+1, . . . , Rn} = {1, . . . , n}\{R1, . . . , R i−1} være de personer, der er<br />

i live efter tidspunktet T i−1 (med T0 = 0) . Givet (r1, t1), . . . , (r i−1, t i−1) er situationen<br />

som i (8.14) og (8.15) med de m personer givet ved I i og med nulpunktet for tidsaksen<br />

ved t i−1. Derfor får vi<br />

L(β, λ(·))<br />

=<br />

n<br />

λ(ti)e ∏<br />

i=1<br />

β·zri ∑j∈I λ(t i i)e β·zj n<br />

∑ β · zi i<br />

= exp<br />

= exp <br />

∑i β · zi ∏ n <br />

i=1 ∑j∈I e i β·z ·<br />

j<br />

<br />

∑ λ(ti)e j∈Ii β·z ti <br />

j exp −<br />

ti−1 ∏ λ(ti) exp<br />

i=1<br />

n<br />

∏<br />

i=1<br />

<br />

∑<br />

j∈I i<br />

<br />

−<br />

e β·z j<br />

∑<br />

j∈I i<br />

∑<br />

j∈I i<br />

e β·z ti<br />

j λ(u)du<br />

ti−1 <br />

λ(t i) exp<br />

<br />

−<br />

= p(r1, . . . , rn; β) · p(t1, . . . , tn | r1, . . . , rn; β, λ(·)).<br />

∑<br />

j∈I i<br />

λ(u)e β·z <br />

j du<br />

<br />

e β·z <br />

ti<br />

j λ(u)du<br />

ti−1 Vi vil nu argumentere for at (R1, . . . , Rn ) er G-sufficient for β. Vi skal altså vise, at<br />

klassen af betingede fordelinger for (T1, . . . , Tn) givet (R1, . . . , Rn ) for fast værdi af β<br />

er en gruppefrembragt famile. Lad G være gruppen af alle voksende transformationer<br />

af tidsaksen (0, ∞). Hvis φ ∈ G, sendes T i over i φ(T i), og R i er uændret. Ved en sådan<br />

transformation føres en proportional hazard model over i en ny proportional hazard<br />

model med den samme værdi af β, men hvor den underliggende hazard λ(·) ændres<br />

til<br />

λ(φ −1 (t))φ ′ (φ −1 (t)).<br />

Hvis vores model siger, at λ(·) ∈ Λ, hvor Λ er mængden af alle funktioner på (0, ∞)<br />

med λ(t) > 0, har vi at<br />

Λ = {λ(φ −1 (·))φ ′ (φ −1 (·)) | φ ∈ G}.<br />

Vi har dermed vist, at vi har en gruppefrembragt familie, og (R1, . . . , Rn) er G-sufficient<br />

for inferens om β.


112 KAPITEL 8. SEPARAT INFERENS<br />

Vi kan også vise at (R1, . . . , Rn ) er L-sufficient. Hvis vi skriver λ(t) = ˜λ(φ(t))φ ′ (t),<br />

hvor φ ′ (·) > 0 og φ(t i) = i, vil supremum over alle mulige λ-funktioner være ækvivalent<br />

med supremum over alle mulige ˜λ-funktioner. Endvidere har vi<br />

λ(t i) = ˜λ(i)φ ′ (t i) og<br />

Dette giver at<br />

sup<br />

λ<br />

ti<br />

t i−1<br />

L(β, λ) p(r1, . . . , rn; β) −1<br />

= <br />

∏ φ ′ (ti) sup ∏<br />

˜λ i<br />

λ(u)du =<br />

<br />

∑ Ii<br />

e βz j<br />

= h(t1, . . . , tn)g(r1, . . . , rn; β),<br />

ti<br />

t i−1<br />

˜λ(φ(u))φ ′ (u)du =<br />

<br />

˜λ(i) exp − ∑<br />

Ii<br />

i<br />

i−1<br />

˜λ(z)dz.<br />

e βz <br />

i<br />

j ˜λ(u)du<br />

i−1<br />

hvoraf følger at (R1, . . . , Rn) er L-sufficient. <br />

8.4 Itemanalysemodellen<br />

Modellen, der beskrives her, har selvstændig interesse og skal blot ses som et eksempel<br />

på separat inferens. Modellen anvendes ofte i forbindelse med psykologiske forsøg, hvor<br />

n personer udsættes for m tests (items). I skal læse dette som et bidrag til jeres<br />

katalog af statistiske modeller og som et eksempel på brugen af eksponentieller familier.<br />

Lad X ij, i = 1, . . . , n, j = 1, . . . , m, være uafhængige stokastiske variable, der antager<br />

værdierne {0, 1} med sandsynlighederne<br />

p ij = P(X ij = 1) = 1 − P(X ij = 0) = (1 + e −α i−β j) −1 ,<br />

hvor (α1, . . . , αn, β1, . . . , βm) varierer frit i R n+m . Da tætheden for en Bernoulli variabel<br />

er p x (1 − p) 1−x , bliver den simultane tæthed for alle X ij-erne<br />

∏ ij<br />

xij pij<br />

(1 − pij) 1 − pij =<br />

<br />

∏ ij<br />

<br />

1 + e α <br />

−1 n<br />

i+β j exp ∑ αixi. +<br />

i=1<br />

m <br />

∑ βjx .j .<br />

j=1<br />

Da x.m = x.. − x.1 − · · · − x.m−1 = ∑i x i. − x.1 − · · · − x.m−1 kan familien parametriseres<br />

ved ˜α i = α i + βm, i = 1, . . . , n, og ˜β j = β j − βm, j = 1, . . . , m − 1, der varierer frit i<br />

R n+m−1 . Man kan da indse, at vi har en regulær eksponentiel familie af orden m +<br />

n − 1.<br />

Denne model blev indført af G. Rasch, som gav den navnet itemanalysemodellen. I<br />

G. Rasch (1960): “Probabilistic models for some intelligence and attainment tests” og<br />

D.R. Cox (1970): “Analysis of binary data” er denne (og andre) model(ler) indgående<br />

beskrevet.<br />

Rasch indførte itemanalysemodellen til beskrivelse af de intelligenttests, som foretages<br />

ved sessionsbehandlingen. De foreliggende data kan repræsenteres på følgende


8.4. ITEMANALYSEMODELLEN 113<br />

måde:<br />

spørgsmål<br />

1 · · · j · · · m<br />

1 X11 · · · X 1j · · · X1m<br />

. . . .<br />

person i Xi1 · · · Xij · · · Xim . . . .<br />

n Xn1 · · · Xnj · · · Xnm<br />

I den (i, j)’te rubrik i dette skema registreres tallet 1, hvis den i’te person har besvaret<br />

intelligenstestets j’te spørgsmål korrekt og 0, hvis besvarelsen er forkert. Vi kan da<br />

antage, at<br />

X ij ∼ Bin(1, p ij).<br />

Lad δ i angive et mål for den i’te persons evne til at løse opgaver af den stillede type,<br />

således at en stor værdi af δ i antyder, at personen er god til at løse disse opgaver. Lad<br />

ɛ j være en parameter, der angiver den j’te opgaves sværhedsgrad, således at en stor<br />

værdi af ɛ j angiver, at opgaven er vanskelig. Det er da rimeligt at antage, at sandsynligheden<br />

for at den i’te person besvarer det j’te spørgsmål korrekt, p ij, afhænger af δ i<br />

og ɛ j, altså er<br />

p ij = π(δ i, ɛ j).<br />

Hvis vi regner ‘evne’ og ‘sværhedsgrad’ på en skala fra 0 til ∞, og disse mål skal tolkes<br />

på den måde, at en fordobling af sværhedsgraden modsvares af en fordobling af evnen,<br />

får vi, at π kun afhænger af δ og ɛ gennem δ/ɛ<br />

π(δ, ɛ) = π(δ/ɛ).<br />

Desuden må det om π være rimeligt at antage, at<br />

<br />

1 v → ∞<br />

π(v) →<br />

0 v → 0<br />

Funktionen π, defineret ved<br />

π(v) = v<br />

1 + v<br />

opfylder dette. Rasch valgte med held at sætte<br />

Altså<br />

p ij = π(δ i/ɛ j) = δ i/ɛ j<br />

1 + δ i/ɛ j<br />

p ij = (1 + ɛ j/δ i) −1 =<br />

.<br />

v ∈ R+,<br />

δ i > 0, ɛ j > 0.<br />

<br />

1 + e − ln δ −1 i+ln ɛj .<br />

Lad os nu betragte tilfældet med m = 2 og lad ˜β = β1 − β2 og ˜α i = αi + β2. Vi har<br />

da<br />

1<br />

P(Xi1 = 1) =<br />

1 + exp(−˜α i − ˜β) og P(X 1<br />

i2 = 1) =<br />

1 + exp(−˜α i) .


114 KAPITEL 8. SEPARAT INFERENS<br />

Vi ser da, at ˜β karakteriserer forskellen mellem de to spørgsmål. Likelihoodligningerne<br />

bliver<br />

<br />

xi. = 1 + e −˜α i− ˜β −1 + 1 + e −˜α i −1 i = 1, . . . , n<br />

og<br />

x.1 = ∑ i<br />

<br />

1 + e −˜α i− ˜β −1<br />

.<br />

Da x i. kun kan antage værdierne 0, 1 og 2, får vi<br />

og dermed ligningen<br />

⎧<br />

⎨<br />

ˆ˜α i =<br />

⎩<br />

−∞ hvis x i. = 0<br />

− 1 2 ˜β hvis x i. = 1<br />

∞ hvis x i. = 2,<br />

x.1 = n0 · 0 + n1(1 + e − 1 2 ˜β ) −1 + n2 · 1,<br />

hvor n1 er antallet af xi., der er lig med 1. Den sidste ligning giver<br />

− 1<br />

<br />

ˆ˜β<br />

n1 − x.1 − n2<br />

= ln<br />

.<br />

2<br />

x.1 − n2<br />

Da x.1 − n2 er antal observationspar (x i1, x i2) på formen (1,0) og n1 − x.1 − n2 er antal<br />

par på formen (0,1) , får vi fra store tals lov, at<br />

og dermed at<br />

x.1 − n2<br />

n<br />

n1 − x.1 − n2<br />

n<br />

1<br />

→<br />

n ∑ i<br />

→ 1<br />

n ∑ i<br />

− 1<br />

<br />

ˆ˜β → ln<br />

2<br />

e −˜α i<br />

(1 + e −˜α i− ˜β )(1 + e −˜α i)<br />

e −˜α i− ˜β<br />

(1 + e −˜α i− ˜β )(1 + e −˜α i) ,<br />

e − ˜β<br />

1<br />

<br />

= − ˜β.<br />

Estimatet ˆ˜β konvergerer altså mod den forkerte værdi som i eksempel 8.1.<br />

Hvis vi nu istedet betragter den betingede fordeling af Xi1 givet Xi. = Xi1 + Xi2 =<br />

xi., får vi tætheden ⎧⎪<br />

1(Xi1 = 0) hvis xi. = 0<br />

⎨<br />

e<br />

⎪⎩<br />

˜βX i1/(1 + e ˜β ) hvis xi. = 1<br />

1(Xi1 = 1) hvis xi. = 2<br />

Likelihoodfunktionen baseret på disse betingede tætheder bliver da<br />

e ˜βn 10(1 + e ˜β ) −n 01−n 10,<br />

hvor nij er antal par (xi1, xi2) på formen (i, j). Estimatet ˆ˜β c herfra bliver<br />

ˆ˜β c = ln n10<br />

<br />

1<br />

→ ln<br />

<br />

= ˜β,<br />

n01<br />

e − ˜β


8.4. ITEMANALYSEMODELLEN 115<br />

hvor vi har brugt samme argument som ovenfor. Vi ser altså, at vi nu har fået et estimat<br />

ˆ˜β der konvergerer (i sandsynlighed) mod den rigtige værdi ˜β.<br />

Bemærk, at X i., i = 1, . . . , n, ikke er L-ancillær i modellen her (opgave 8.5). Til gengæld<br />

ved vi, at det er nødvendigt at betinge med X i., i = 1, . . . , n hvis vi ønsker at lave<br />

et similært test for β.<br />

Erling Andersen har vist (Journal of the Royal Statistical Society B32 (1970), 283-301;<br />

bog fra 1980: Discrete Statistical Models with Social Science Applications) at i en lang<br />

række situationer, der minder om den ovenstående, vil det betingede estimat konvergere<br />

mod den rigtige værdi, og estimatet vil være asymptotisk normalfordelt.<br />

Itemanalysemodellen ovenfor er et eksempel på det, der kaldes eksponentielle agensanalysemodeller<br />

(fra latin agere: handle, gøre; her: den handlende person eller ting<br />

i en sætning, eller det virkende stof). I disse betragter man en eksponentiel familie<br />

P = {P θ|θ ∈ Θ} med tætheder på formen a(θ)b(x) exp(θx). Variablene X ij følger en<br />

P θij -fordeling, og modellen specificerer, at<br />

θ ij = α i + β j<br />

i = 1, . . . , n, j = 1, . . . , m.<br />

<strong>Et</strong> andet eksempel end itemanalysemodellen er den multiplikative Poissonmodel, hvor P<br />

er klassen af Poissonfordelinger. Variablen X ij er således Poissonfordelt med parameter<br />

λ ij, og vi får en agensanalysemodel, hvis<br />

Den simultane tæthed for X ij- erne er<br />

<br />

∏ ij<br />

e −δ iɛ j <br />

∏ ij<br />

λ ij = δ iɛ j.<br />

<br />

1<br />

exp<br />

x ∑<br />

ij!<br />

i<br />

x i. ln δ i + ∑ j<br />

x .j ln ɛ j<br />

Dette er en eksponentiel familie af orden m + n − 1. Hvis vi indfører parametrene<br />

kan vi skrive den simultane tæthed som<br />

[∏i xi.!][∏j x .j!]<br />

x..!<br />

1<br />

<br />

x..<br />

<br />

∏ij x ij!<br />

˜δ i = δ i/δ., ˜ɛ j = ɛ j/ɛ. og µ = δ.ɛ.<br />

x1., . . . , xn.<br />

˜δ x1· 1 · · · ˜δ xn.<br />

n<br />

<br />

.<br />

<br />

x..<br />

˜ɛ<br />

x.1, . . . , x.n<br />

x·1<br />

1 · · · ˜δ x.m µ<br />

m<br />

x..<br />

x..! e−µ .<br />

Dette svarer til den betingede tæthed for X ij -erne givet (X1., . . . , Xn., X.1, . . . , X.m) ganget<br />

med den betingede tæthed af (X1., . . . , Xn. ) givet X.. ganget med den betingede<br />

tæthed af (X.1, . . . , X.m) givet X.. gange tætheden for X.. . Bemærk, at (X1., . . . , Xn.)<br />

og (X.1, . . . , X.m) er uafhængige givet X.. . Det fremgår af denne opsplitning, at (X1.,<br />

. . . , Xn.) er S-ancillær for inferens om ( ˜ɛ1, . . . , ˜ɛm), og omvendt at (X.1, . . . , X.m) er Sancillær<br />

for inferens om ( ˜δ1, . . . , ˜δn) .<br />

Den multiplikative Poisson-model er navnlig udviklet af G. Rasch i forbindelse<br />

med den statistiske analyse af talmateriale fra Danmarks Pædagogiske Institut. Talmaterialet<br />

var indsamlet med henblik på at bedømme børns læsefærdigheder. Specielt<br />

interesserede man sig for, om læsehæmmede børn gjorde fremskridt ved forskellige<br />

former for specialundervisning. Man lod børnene læse flere prøver højt og registrerede


116 KAPITEL 8. SEPARAT INFERENS<br />

antal fejllæsninger. Højtlæsningsprøverne havde en stærkt varierende sværhedsgrad,<br />

og det var nærliggende at antage, at antallet af fejllæsninger ved et barns læsning af<br />

en prøve afhænger dels af barnets dygtighed, dels af prøvens sværhedsgrad. Følgende<br />

plan for indsamling af data er fra Rasch (1960):<br />

ORF ORU ORS OR5 OR6<br />

2 +<br />

3 + +<br />

klassetrin 4 + +<br />

5 + + +<br />

6 + + +<br />

7 + +<br />

Lad δ i være en parameter, der angiver det i’te barns standpunkt, således at en lille<br />

værdi af δ i er udtryk for, at barnet er dygtigt, og ɛ j en parameter, der angiver sværhedsgraden<br />

af den j’te prøve således at en stor værdi af ɛ j er udtryk for, at prøven er<br />

vanskelig. Lad X ij betegne antal fejllæsninger, det i’te barn gjorde forelagt prøve nr. j.<br />

Hvis prøven ikke er for kort og ikke for svær, er det nærliggende at antage, at X ij er<br />

Poissonfordelt med parameter<br />

λ ij = λ(δ i, ɛ j).<br />

Det forventede antal fejllæsninger af barn nr. i ved prøve nr. j er altså λ ij. Testes et<br />

dobbelt så dygtigt barn, δ = δ i/2, med en prøve, der er dobbelt så svær som prøve nr.<br />

j, ɛ = 2ɛ j, så må vi forvente samme antal fejllæsninger, altså at<br />

λ(δ, ɛ) = λ(δ/2, 2ɛ).<br />

Vi ser, at λ kun afhænger af δ og ɛ gennem δɛ<br />

λ(δ, ɛ) = λ(δɛ).<br />

Desuden må det om λ være rimeligt at antage, at<br />

<br />

∞ v → ∞<br />

λ(v) →<br />

0 v → 0,<br />

Funktionen<br />

λ(v) = v<br />

opfylder dette, og Rasch analyserede materialet med modellen<br />

λ ij = δ0ɛ j.<br />

8.5 Afsluttende bemærkninger<br />

Hvad gør man, hvis man ikke kan separere inferensen som i (8.1) eller (8.2)?<br />

Som eksempel 8.1 og afsnit 8.4 viser, er det nødvendigt at gøre noget i de tilfælde,<br />

hvor antallet af nuisanceparametre stiger med antallet af observationer. I nogle tilfælde<br />

kan man bruge en partiel likelihood. Herved forstås, at den fulde likelihood funktion


8.6. OPGAVER 117<br />

kan skrives som et produkt L = ∏ m 1 L i, hvor hvert led L i selv er en likelihoodfunktion<br />

fra en marginal eller en betinget fordeling, og at vi så nøjes med at betragte en del af<br />

dette produkt ˜L = ∏i∈I L i, hvor I er en delmængde af {1, . . . , m}. Tilfældet m = 2<br />

svarer til (8.1) og (8.2). De led Li, i∈ I, som medtages, bør så kun afhænge af interesseparameteren<br />

ψ. Da Li selv er en likelihoodfunktion, vil typisk E ∂lnLi ∂ψ = 0, og som vi<br />

skal se i noterne om asymptotik, er dette den grundlæggende egenskab, som fører til,<br />

at estimatet er konsistent: ˆψ → ψ, når antallet af observationer vokser.<br />

I andre tilfælde bruges en pseudolikelihoodfunktion eller en generel estimationsligning<br />

(ligningen ∂lnL/∂θ = 0 kaldes likelihood estimationsligningen). Disse begreber er ikke<br />

veldefinerede og har et ad hoc præg. Ideen er, at man vælger nogle funktioner, der<br />

kombinerer aspekter af data med interesseparameteren og valgt således, at det tilsvarende<br />

estimat bliver konsistent.<br />

Pseudo likelihoodfunktioner bruges også i andre sammenhænge, nemlig hvor den<br />

eksakte likelihoodfunktion er meget vanskelig at udregne. <strong>Et</strong> simpelt eksempel er følgende:<br />

lad X1, . . . , Xn antage værdier i {−1, +1} med simultan sandsynlighed<br />

P((X1, . . . , Xn) = (x1, . . . , xn)) =<br />

exp{−β ∑ n 1 x i(x i + x i+1)}<br />

∑(y 1,...,yn)∈{−1,+1} n exp{−β ∑n 1 y i(y i−1 + y i+1)}<br />

hvor x0 = xn+1 = 0. Nævneren her er svær at udregne (summen har 2 n led), og i stedet<br />

kan vi lave en pseudo likelihoodfunktion på formen<br />

n<br />

∏<br />

i=1<br />

P(X i = x i|x i−1, x i+1) =<br />

n<br />

e<br />

∏<br />

i=1<br />

−2βxi(x i−1+xi+1) e−2β(xi−1+x i+1) + e2β(xi−1+x i+1) .<br />

Hvis antallet af nuisance parametre er fast, har vi den generelle asymptotiske teori,<br />

der giver os approksimativt unbiased estimater og approksimative similære tests.<br />

En del af forskningen indenfor dette område i de senere år har gået på at forbedre 1.ordens<br />

resultaterne til højere orden, således at resultaterne typisk kan anvendes, selv<br />

om antallet af observationer ikke er særlig stort. Disse ting er især baseret på kvotientteststørrelsen<br />

og modifikationer af denne.<br />

8.6 Opgaver<br />

Opgave 8.1<br />

Lad X og Y være uafhængige stokastiske variable, så<br />

og<br />

hvor (a, p) varierer i<br />

Interesseparameteren er p.<br />

P(X = 0) = q, P(X = 1) = p, p + q = 1<br />

P(Y = −1) = a, p(Y = 0) = q, P(Y = 1) = p − a,<br />

Θ = {(a, p) | 0 ≤ a ≤ p, 1<br />

2<br />

≤ p ≤ 2<br />

3 }.


118 KAPITEL 8. SEPARAT INFERENS<br />

Vis, at X + Y 2 er S-sufficient med hensyn til p.<br />

Opgave 8.2<br />

Lad f være funktionen defineret på R2 ved<br />

⎧<br />

⎨ u<br />

f (u1, u2) =<br />

⎩<br />

λ1−1 1 u −λ2−λ1 −1<br />

2<br />

Γ(λ1)Γ(λ2)β λ1 1 βλ <br />

−1 β2<br />

exp (<br />

2 β2u2 β<br />

u1 + 1) u1 > 0, u2 > 0<br />

1<br />

2<br />

0 ellers,<br />

hvor (λ1, λ2, β1, β2) ∈ R 4 + .<br />

(i) Vis, at f er en tæthedsfunktion og vis, at familien af fordelinger med tæthedsfunktion<br />

f og (λ1, λ2, β1, β2) ∈ R4 + er en eksponentiel familie, og angiv ordenen af<br />

denne familie.<br />

(ii) Vis, at U1/U2 er S-sufficient for (λ1, β1) og U2 (eller U −1<br />

2 ) er S-sufficient for (λ2, β2).<br />

Opgave 8.3<br />

Lad X1, . . . , Xn være uafhængige og Np(ξ − Σ)-fordelte, hvor ξ ∈ R p og Σ er positiv<br />

definit p × p matrix.<br />

(i) Vis ved hjælp af Basu’s sætning, at maximum likelihood estimatet ¯X for ξ og<br />

maximum likelihood estimatet 1 n ∑n i=1 (X i − ¯X) ∗ (X i − ¯X) for Σ er stokastisk uafhængige.<br />

(ii) Vis, at ¯X ikke er S-ancillær for Σ.<br />

Opgave 8.4<br />

Lad (U, V) for α ∈ R, λ, σ 2 ∈ R+ have tæthed<br />

f (u, v) = vλ−1 v −<br />

e u2 u2λΓ(λ) 1<br />

√<br />

2πσ2 exp<br />

<br />

− 1<br />

(u − α)2<br />

2σ2 <br />

, u ∈ R, v ∈ R+.<br />

(i) Vis, at U er N(α, σ 2 )-fordelt, og at den betingede fordeling for V givet U = u er<br />

en Γ(λ, 1/u 2 )-fordeling.<br />

(ii) Vis, at fordelingen af (U, V) er en exponentiel familie af orden 3.<br />

Lad (U1, V1), . . . , (Un, Vn) være uafhængige og identisk fordelte med tæthed f .<br />

(iii) Vis, at (U1, . . . , Un) er S-sufficient for (α, σ 2 ) og S-ancillær for λ.<br />

(iv) Vis, at n<br />

∑<br />

i=1<br />

er stokastisk uafhængige.<br />

U i,<br />

n<br />

∑ U<br />

i=1<br />

2 i<br />

<br />

og<br />

n<br />

∑ ln<br />

i=1<br />

Vi U2 i


8.6. OPGAVER 119<br />

(v) Vis, at maximum likelihood estimaterne ˆα, ˆσ 2 og ˆλ er stokastisk uafhængige.<br />

Opgave 8.5<br />

Læs afsnit 8.4. Betragt itemanalysemodellen med m = 2 og parametriseret ved ˜α i og<br />

˜β i.<br />

1) Vis, at vi har en regulær eksponentiel familie af orden n + 1.<br />

2) Godtgør formlen for ˆ˜α i på side 112.<br />

3) Vis præcist, ved at bruge den relevante <strong>udgave</strong> af store tals lov, at ˆ˜β → 2 ˜β.<br />

4) Vis, at X i·, i = 1, . . . , n, ikke er L-ancillær for β.<br />

Opgave 8.6<br />

Lad K være binomialfordelt med antalsparameter n og sandsynlighedsparameter p.<br />

Givet K = k lad X være binomialfordelt med antalsparameter n − k og sandsynlighedsparameter<br />

θ. Parametrene varierer i (p, θ) ∈ (0, 1) × (0, 1).<br />

1) Vis, at (X, K, n − K − X) er multinomialfordelt med antalsparameter n og sandsynlighedsparameter<br />

((1 − p)θ, p, (1 − p)(1 − θ)).<br />

2) Vis, at K er S-ancilær for inferens om θ.<br />

Denne opgave er en kommentar til Wilcoxons fortegnstest. I Wilcoxons fortegnstest<br />

vil vi teste for asymmetri i en fordeling. I beregningen af testet ser vi bort<br />

fra de observationer, der har værdien nul. I ovenstående kan vi tænke på p som<br />

sandsynligheden for at få nul og på θ som en parameter der måler assymmetrien<br />

i fordelingen. Vores interesseparameter er altså θ, og p er en nuisance parameter.


Kapitel 9<br />

Bayes <strong>statistik</strong><br />

Ved en statistisk analyse ønsker vi at udtale os om en ukendt parameter ud fra indsamlede<br />

data. Forbindelsen mellem de to dele, parameter og data, er gennem modellen,<br />

der beskriver, hvordan fordelingen af data er for en given værdi af parameteren.<br />

I den frekventielle <strong>statistik</strong>, som beskrevet i de tidligere kapitler, udtaler man sig om<br />

den ukendte parameter ud fra hvor godt modellen, med et givet valg af parameteren,<br />

beskriver data. Vi kan da lave et estimat af parameteren, eller et konfidensinterval, eller<br />

vi kan teste en hypotese om parameteren. De eneste sandsynligheder vi bruger, er<br />

dem, vi får fra modellen for et givet valg af parameteren. I Bayes <strong>statistik</strong> introducerer<br />

man et ekstra sæt sandsynligheder, idet man udstyrer parameteren med en fordeling<br />

uafhængig af data. Denne fordeling på parameteren kaldes prior fordelingen, og er altså<br />

til rådighed før data indsamles. Prior fordelingen kan vi tænke på som den information,<br />

vi har til rådighed om parameteren, før vi indsamler data. Når data er indsamlet,<br />

kan vi udtrykke den information, vi har om parameteren, ved den betingede fordeling<br />

af parameteren givet data.<br />

Frekventiel Bayes<br />

før data θ ukendt parameter θ har tæthed π(θ)<br />

efter data konfidensinterval for p(θ|data) ∝<br />

θ<br />

π(θ)L(θ)<br />

Observation 9.1 (Bayes formel) Lad prior fordelingen for θ have tæthed π(θ) med<br />

hensyn til et mål ξ på parameterrummet Θ, og lad, for en given parameterværdi θ,<br />

data X have tæthed p(x, θ) med hensyn til målet µ på X . Så vil fordelingen af θ givet<br />

X = x (kaldet posterior fordelingen) have tæthed<br />

p(θ|x) =<br />

<br />

π(θ)p(x, θ)<br />

Θ π( ˜θ)p(x, ˜θ)ξ(d ˜θ)<br />

med hensyn til ξ. <br />

Bevis. Da den simultane tæthed for (θ, X) er π(θ)p(x, θ) med hensyn til produktionsmålet<br />

ξ × µ er resultatet oplagt. <br />

Korollar <strong>9.2</strong>.<br />

Inferens baseret på den betingede fordeling af θ givet X = x opfylder likelihoodprincippet.<br />

<br />

121


122 KAPITEL 9. BAYES STATISTIK<br />

Bevis. Antag at vi har to forskellige eksperimenter givet ved tæthederne p1(x, θ) og<br />

p2(y, θ). Hvis der for et givet x og y findes en konstant c, så at<br />

så har vi<br />

p1(x, θ) = cp2(y, θ) for alle θ ∈ Θ,<br />

π(θ)p1(x, θ)<br />

p1(θ|x) = <br />

Θ π( ˜θ)p1(x, ˜θ)ξ(d ˜θ) =<br />

cπ(θ)p2(y, θ)<br />

c <br />

Θ π( = p2(θ|y).<br />

˜θ)p2(y, ˜θ)ξ(d ˜θ)<br />

Eksempel 9.3 (Binomialfordeling – non-informativ prior).<br />

Lad parameterrummet Θ = (0, 1), og for en given parameterværdi θ lad X være binomialfordelt,<br />

X ∼ Bin(n, θ). Som prior fordeling for θ vælger vi en betafordeling med<br />

tæthed<br />

π(θ) =<br />

Posterior tætheden for θ givet X = x bliver da<br />

1<br />

B(a, b) θa−1 (1 − θ) b−1 .<br />

p(θ|x) = 1 θ<br />

c(x)<br />

a−1 (1 − θ) b−1 <br />

n<br />

B(a, b) x<br />

=<br />

<br />

θ x (1 − θ) n−x<br />

1<br />

B(a + x, b + n − x) θa+x−1 (1 − θ) b+n−x−1 ,<br />

som igen er en betatæthed.<br />

Hvis vi skulle lave et estimat for θ ud fra p(θ|x), kunne vi enten bruge middelværdien<br />

eller den værdi (MAP) af θ, hvor p(θ|x) er størst. Det giver<br />

og<br />

E(θ|x) =<br />

MAP =<br />

a + x<br />

a + b + n<br />

a − 1 + x<br />

a + b − 2 + n ,<br />

hvor specielt MAP = x n = ˆθ hvis a = b = 1. <br />

Eksempel 9.4 (Normalfordeling – non-informativ prior).<br />

Lad X1, · · · , Xn være uafhængige og identiske N(µ, 1) fordelte. Som prior fordeling<br />

for µ tager vi en N(µ0, σ 2 0 ) fordeling. Posterior tætheden for µ givet X = (X1, · · · , Xn)<br />

bliver da<br />

p(µ|x) = 1 exp(−(µ − µ0)<br />

c(x)<br />

2 /(2σ2 0 ))<br />

<br />

=<br />

<br />

n + 1<br />

σ 2 0<br />

2πσ 2 0<br />

exp(− ∑ n i=1 (X i − µ) 2 /2)<br />

√ 2π n<br />

2π exp<br />

⎛<br />

⎜<br />

⎝− n<br />

<br />

1 +<br />

2<br />

1<br />

nσ2 <br />

0<br />

⎛<br />

¯x +<br />

⎝µ −<br />

µ0<br />

nσ2 0<br />

1 + 1<br />

nσ2 ⎞<br />

⎠<br />

0<br />

2 ⎞<br />

⎟<br />

⎠ ,


det vil sige<br />

I dette tilfælde er<br />

hvor specielt MAP = ¯x hvis σ 2 0<br />

⎛<br />

µ|x ∼ N ⎝<br />

µ0 ¯x +<br />

nσ2 0<br />

1 + 1<br />

nσ2 0<br />

E(θ|x) = MAP =<br />

,<br />

1<br />

n 1 + 1<br />

nσ 2 0<br />

¯x + µ0<br />

nσ2 0<br />

1 + 1<br />

nσ2 ,<br />

0<br />

⎞<br />

⎠ .<br />

123<br />

= ∞. <br />

Lad os nu ganske kort diskutere valget af prior fordeling. I visse situationer vil det<br />

være rimeligt at betragte θ som en stokastisk variabel. I en produktionssammenhæng<br />

kan θ for eksempel repræsentere den fraktion af de producerede enheder, der er defekte.<br />

Denne fraktion behøves ikke at være konstant, og det vil være rimeligt at betragte<br />

den som stokastisk. I denne situation kan vi bruge baggrundsviden til at vælge en realistisk<br />

prior fordeling. Denne situation rummer egentligt ikke noget nyt: vi har blot<br />

udvidet vores model med en realistisk beskrivelse af, hvordan θ fremkommer.<br />

De interessante situationer er, når θ repræsenterer en “konstant", for det eksperiment<br />

der foretages. Som et eksempel kan vi tænke på θ som lyshastigheden. Her må<br />

man betragte prior fordelingen som en måde, at angive en formodning om hvor θ ligger.<br />

En klassisk beskæftigelse indenfor Bayes <strong>statistik</strong> går ud på at finde prior fordelinger,<br />

der kan siges at repræsentere situationen, hvor vi ingen viden har om parameteren<br />

(“non informative prior"på engelsk). I eksempel 9.3 hvor Θ = (0, 1) og X er binomialfordelt,<br />

virker det rimeligt at sige, at den uniforme fordeling på Θ repræsenterer, at<br />

vi ingen viden har om Θ. Dette giver imidlertid anledning til en inkonsistent metode:<br />

hvis vi betragter ψ = θ2 istedet for θ, vil prior tætheden for ψ være π(ψ) = 1<br />

2 √ , og<br />

ψ<br />

ψ er således ikke uniformt fordelt. Vi skal altså vælge en skala, på hvilken vi siger, at<br />

parameteren er uniformt fordelt. <strong>Et</strong> foreslag er at transformere θ til en ny parameter<br />

ψ med den egenskab, at den forventede information i(ψ) er konstant. I eksempel 9.3<br />

med binomialfordelingen kommer det til at svare til, at vi bruger betafordelingen med<br />

a = b = 1 2 som prior fordeling for θ. I eksempel 9.4 med Θ = R er der ikke umiddelbart<br />

en “uniform"fordeling. Det nærmeste man kan komme er at erstatte prior fordelingen<br />

med et prior mål, som tages til at være lebesguemålet. Lebesguemålet giver lige stor<br />

masse til lige store intervaller og kan derfor siges at repræsentere situationen med ingen<br />

viden om parameteren. I eksemplet 9.4 vil det svare til at vi lader σ2 0 → ∞. Bemærk<br />

at selvom vi erstatter prior fordelingen med et generelt mål, er posterior fordelingen<br />

p(θ|x) stadig givet ved Bayes formel i Observation 9.1. Når prior fordelingen ikke er et<br />

sandsynlighedsmål, taler man i den engelsksprogede litteratur om en “improper prior<br />

distribution”.<br />

Jeg vil nu vise, at selvom det ovenstående kan se “uskyldigt ud”, kan det give<br />

anledning til problemer i det flerdimensionale tilfælde.<br />

Eksempel 9.5 (Normalfordelinger – non-informativ prior).<br />

Lad X1, · · · , Xn være uafhængige med X i ∼ N(µ i, 1). Som prior fordeling siger vi, at<br />

µ i-erne er uafhængige og bruger lebesguemålet til beskrivelse af vores prior viden om


124 KAPITEL 9. BAYES STATISTIK<br />

µ i. I posterior fordelingen er µ i-erne stadig uafhængige, og ifølge eksempel 9.4 har vi<br />

µ i|x i ∼ N(x i, 1). Vores interesseparameter er δ 2 = µ 2 1 + · · · + µ2 u. Vi har således, at<br />

og<br />

E(δ 2 n<br />

|x) = ∑<br />

i=1<br />

V(δ 2 n<br />

|x) = ∑<br />

i=1<br />

δ 2 |x ∼<br />

n<br />

∑ N(xi, 1)<br />

i=1<br />

2 ,<br />

(x 2 i + 1) = d2 + n, d 2 = x 2 1 + · · · + x2 n<br />

(4x 2 i + 2) = 4d2 + 2n.<br />

Hvis d 2 er af samme størrelsesorden eller mindre end n, vil spredningen være af størrelsesorden<br />

√ n. Hvis istedet vi betragter problemet fra en ikke-Bayes synsvinkel, kan<br />

vi benytte, at D 2 = X 2 1 + · · · + X2 n har middelværdi δ 2 + n og varians 4δ 2 + 2n. Vi<br />

vil derfor lave et konfidensinterval for δ 2 , der er centreret omkring d 2 − n og med en<br />

længde, der er af størrelsesorden √ n. Vi har således fået to helt forskellige resultater:<br />

henholdsvis et konfidensinterval centreret omkring d 2 − n med en længde af størrelsesorden<br />

√ n og en posterior fordeling centreret omkring d 2 + n med det meste af<br />

sandsynlighedsmassen i et interval af størrelsesorden √ n. <br />

Eksempel 9.6 (Normalfordelingen – informativ prior).<br />

Lad X1, . . . , Xn være uafhængige med X i ∼ N(µ i, 1). Maximum likelihood estimatet<br />

for vektoren µ = (µ1, . . . , µn) er ˆµ = (X1, . . . , Xn). Vi vil måle kvaliteten af dette estimat<br />

ved mean squared error (MSE) (forklaring for dette kvalitetsmål følger nedenfor),<br />

MSE( ˆµ) = E<br />

n<br />

∑<br />

i=1<br />

( ˆµ i − µ i) 2 = n.<br />

Vi har en formodning om, at µ i som funktion af i er langsomt varierende, det vil sige<br />

at µ i+1 − µ i er lille. Vi vil repræsentere denne formodning gennem en prior fordeling<br />

for vektoren µ. Vi kan gøre dette ved følgende beskrivelse<br />

µ1 ∼ N(0, σ 2 0 ), µ i+1 = µ i + ɛ i+1, ɛ i+1 ∼ N(0, δ 2 ),<br />

hvor µ1, ɛ2, . . . , ɛn er uafhængige. En lille værdi af δ 2 svarer til, at µ i+1 − µ i er lille. Lad<br />

Σ være n × n matriksen<br />

så at<br />

Σ ij = σ0 + (i − 1)δ 2 , j ≥ i + 1, Σ ji = Σ ij, j ≥ i,<br />

= 1<br />

c(x) exp<br />

µ ∼ Nn(0, Σ).<br />

Kombinerer vi X|µ ∼ Nn(µ, I) med µ ∼ Nn(0, Σ), finder vi posterior fordelingen<br />

p(µ|x) = 1<br />

c(x) exp<br />

<br />

− 1<br />

2 (x − µ)(x − µ)T − 1<br />

2 µΣ−1 µ T<br />

<br />

<br />

,<br />

<br />

− 1<br />

2 µ(I + Σ−1 )µ T + xµ T − 1<br />

2 xxT


hvoraf det følger, at<br />

Specielt har vi, at<br />

µ|x ∼ Nn<br />

<br />

x(I + Σ −1 ) −1 , (I + Σ −1 ) −1<br />

.<br />

E(µ|x) = x(I + Σ −1 ) −1 ,<br />

og vi definerer et nyt estimat (bayes estimat) ved<br />

ˆµ b = X(I + Σ −1 ) −1 .<br />

Lad os udregne mean squared error for dette estimat:<br />

MSE( ˆµ b) = E<br />

n<br />

∑<br />

i=1<br />

( ˆµ bi − µ i) 2 = E( ˆµ b − µ)( ˆµ b − µ) T<br />

= E([(X − µ)(I + Σ −1 ) −1 + µ((I + Σ −1 ) −1 − I)] ∗∗ )<br />

= E([(X − µ)(I + Σ −1 ) −1 ] ∗∗ ) + [µ((I + Σ −1 ) −1 − I)] ∗∗<br />

= Tr((I + Σ −1 ) −1 (I + Σ −1 ) −1 ) + [µ((I + Σ −1 ) −1 − I)] ∗∗ ,<br />

hvor v∗∗ = vvT . I figuren nedenfor har jeg lavet et plot af MSE( ˆµ b) som funktion af δ2 og med n = 20, σ2 0 = 1, og med<br />

⎧<br />

⎨ −1 i ≤ 5<br />

µ i = −1 + 0.2(i − 5)<br />

⎩<br />

1<br />

6 ≤ i ≤ 15<br />

i > 15.<br />

(9.1)<br />

Desuden har jeg lavet et plot af MSE( ˆµ b) som funktion af γ, hvor δ 2 = 0.1, σ 2 0<br />

125<br />

= 1,<br />

og µ er som i (9.1) multipliceret med γ. Værdierne i figuren skal sammenlignes med<br />

MSE( ˆµ) = n = 20. Som det ses af figuren, kan vi få en væsentlig mindre mean squared<br />

error ved at bruge estimatet ˆµ b fremfor maksimum likelihood estimatet ˆµ.<br />

Hvorfor er mean squared error et relevant mål? Lad os betragte en regressionsmodel<br />

Y i ∼ N(z iµ T , σ 2 ).<br />

Vi ønsker at estimere µ, og i modellen ovenfor svarer X til maksimum likelihood estimatet<br />

af µ (vi har ovenfor sagt at Var(X) = I, men vi kunne lave de samme regnerier<br />

med en generel varians). Når vi har fundet et estimat µ est , ønsker vi at bruge estimatet<br />

til fremtidig prediktion af y-værdier fra nye z-værdier. Prediktionsfejlen er<br />

fejl = znyµ T<br />

est − znyµ T = zny(µ est − µ) T .<br />

Vi kan skalere z-værdierne, så at en typisk z-værdi har længde 1. Den største fejl får vi,<br />

når z er proportional med µ est − µ. Det vil sige, at den typiske største fejl er |µ est − µ|<br />

og<br />

E(typisk fejl) 2 = E|µ est − µ| 2 = E<br />

som er mean squared error af µ est .<br />

n<br />

∑<br />

i=1<br />

((µ est ) i − µ i) 2 ,


126 KAPITEL 9. BAYES STATISTIK<br />

I dette eksempel kan vi tænke på prior fordelingen µ ∼ Nn(0, Σ) som en bekvem<br />

måde at indføre “glathedsegenskaber"ved µ. Med glathed mener vi, at µ i varierer langsomt<br />

som funktion af i. Man taler i denne sammenhæng om ˆµ b som en “regulariseret"løsning.<br />

Bemærk også at når vi erstatter ˆµ med ˆµ b, så lægger vi mindre vægt på<br />

unbiasedness og lægger istedet vægt på et mål som mean squared error. <br />

Eksempel 9.7 (Kausal viden repræsenteret ved sandsynligheder i et netværk).<br />

I dette eksempel er de “ukendte parametre"tilstande, som enten er 1 eller 0 (eksempel:<br />

1: man har lungekræft; 0: man har ikke lungekræft). Vi repræsenterer vores viden<br />

ved hjælp af sandsynligheder, som er meget bekvemt, når vi skal opdatere vores viden<br />

på basis af nye data. Følgende eksempel er taget fra Lauritzen og Spiegelhalter<br />

(J.R.Statist.Soc.B, 50, 157-224, 1988). I eksemplet har vi følgende variable:<br />

A: besøg i Asien R: Ryger<br />

T: Tuberkulose L: Lungekræft<br />

B: Bronkitis E: Enten tuberkulose eller lungekræft<br />

G: positiv røntGenbillede S: Stakåndet


Forbindelsen mellem variablene kan angives grafisk:<br />

A<br />

<br />

T<br />

<br />

<br />

<br />

E<br />

<br />

G<br />

<br />

L<br />

<br />

<br />

R<br />

S<br />

<br />

<br />

<br />

B<br />

<br />

En person ankommer til hospitalet med stakåndethed (S = 1), og vi ønsker at stille en<br />

diagnose, det vil sige, at vi vil gerne angive værdien af de ukendte variable (T, L, B).<br />

Det er oplyst, at patienten har været i Asien fornylig. Figuren ovenfor skal angive, at<br />

vi beskriver den simultane prior sandsynlighed af alle variable ved<br />

p(a, r, t, l, b, e, s, g) =p(a) p(r) p(t|a) p(l|r) p(b|r) p(e|t, l) p(s|b, e) p(g|e).<br />

For det aktuelle eksempel vælger vi<br />

P(A = 1) = 0.01 P(R = 1) = 0.50<br />

P(T = 1|A = 0) = 0.01 P(L = 1|R = 0) = 0.01<br />

P(T = 1|A = 1) = 0.05 P(L = 1|R = 1) = 0.10<br />

P(B = 1|R = 0) = 0.30<br />

P(B = 1|R = 1) = 0.60<br />

P(E = 1|T = 0, L = 0) = 0 P(S = 1|E = 0, B = 0) = 0.10<br />

P(E = 1|T = 0, L = 1) = 1 P(S = 1|E = 0, B = 1) = 0.80<br />

P(E = 1|T = 1, L = 0) = 1 P(S = 1|E = 1, B = 0) = 0.70<br />

P(E = 1|T = 1, L = 1) = 1 P(S = 1|E = 1, B = 1) = 0.90<br />

P(G = 1|E = 0) = 0.05<br />

P(G = 1|E = 1) = 0.98<br />

En beregning viser, at med disse angivelser er<br />

P(T = 1) = 0.0104,<br />

P(L = 1) = 0.055,<br />

P(B = 1) = 0.45.<br />

Vores data er S = 1 og A = 1. Vi ønsker derfor de betingede sandsynligheder givet S<br />

og A. Disse fås fra (9.7) ved at indsætte a = 1 og s = 1 og normalisere, så at sandsynlighederne<br />

summer sammen til 1. Med andre ord<br />

P(T = 1|A = 1, S = 1) = ∑r,l,b,e,g p(1, r, 1, l, b, e, 1, g)<br />

∑t,r,l,b,e,g p(1, r, t, l, b, e, 1, g) .<br />

127


128 KAPITEL 9. BAYES STATISTIK<br />

Vi får efter en udregning<br />

P(T = 1|A = 1, S = 1) = 0.088,<br />

P(L = 1|A = 1, S = 1) = 0.100, (<strong>9.2</strong>)<br />

P(B = 1|A = 1, S = 1) = 0.811.<br />

Hvis vi nu laver en røntgenundersøgelse vil vores sandsynligheder blive opdateret<br />

som følger: hvis resultatet af røntgenundersøgelsen er G = 0<br />

og hvis resultatet er G = 1<br />

P(T = 1|A = 1, S = 1, G = 0) = 0.002,<br />

P(L = 1|A = 1, S = 1, G = 0) = 0.003,<br />

P(B = 1|A = 1, S = 1, G = 0) = 0.863,<br />

P(T = 1|A = 1, S = 1, G = 1) = 0.392,<br />

P(L = 1|A = 1, S = 1, G = 1) = 0.444,<br />

P(B = 1|A = 1, S = 1, G = 1) = 0.629.<br />

Sammenligner vi med (<strong>9.2</strong>), ser vi, at vores viden ændrer sig kraftigt, når vi får resultatet<br />

af røntgenundersøgelsen. Lad os som et eksempel sige at resultatet af røntgenundersøgelsen<br />

er G = 0 , og at vi også får oplyst, at patienten er ikke-ryger (R = 0). I<br />

dette tilfælde ender vi ud med sandsynlighederne<br />

P(T = 1|A = 1, S = 1, G = 0, R = 0) = 0.003,<br />

P(L = 1|A = 1, S = 1, G = 0, R = 0) = 0.0005,<br />

P(B = 1|A = 1, S = 1, G = 0, R = 0) = 0.773.


Kapitel 10<br />

Referencer<br />

Exponentielle familier af orden 1 blev introduceret af Fisher (1934) som de eneste familier<br />

(under regularitetsbetingelser), for hvilke der eksisterer en 1-dimensinal sufficient<br />

observator. Resultaterne blev generaliseret til mere end én dimension af Darmois<br />

(1935), Koopman (1936) og Pitman (1936). En generel gennemgang af teorien for eksponentielle<br />

familier kan findes i Barndorff-Nielsen (1978). Komplethed af en observator<br />

blev introduceret af Lehmann og Scheffé (1950).<br />

Sufficiente observatorer går tilbage til Fisher (1920), hvori også findes faktoriseringssætningen.<br />

Neyman (1935) genopdagede denne sætning, og Halmos og Savage<br />

(1949) udvidede sætningen til generelle dominerede familier. Teorien for minimal sufficiente<br />

observatorer blev startet af Lehmann og Scheffé (1950) og Dynkin (1951). Yderligere<br />

generalisationer blev opnået af Bahadur (1954).<br />

Ancillære observatorer går også tilbage til Fisher (1934, 1935). Basu’s sætning findes<br />

i Basu (1955, 1958).<br />

Fisher (1920, 1922, 1925) introducerede likelihoodfunktionen og studerede maksimum<br />

likelihood estimation. En gennemgang af Fisher’s ideer kan findes i hans 3 bøger<br />

Fisher (1925, 1935, 1956).<br />

Begrebet en unbiased estimator går helt tilbage til Gauss (1821) i forbindelse med<br />

arbejdet omkring “mindste kvadraters metode” (engelsk: least squares). Aitken and<br />

Silverstone (1942) var de <strong>første</strong>, som fandt en UMVU-estimator. Forbindelsen mellem<br />

UMVU-estimatorer og sufficiente observatorer blev studeret i specialtilfælde af Halmos<br />

(1946) og Kolmogorov (1950), og generelt i Rao (1947). Forbindelsen til komplette<br />

observatorer går tilbage til Lehmann og Scheffé (1950, 1955, 1956).<br />

Den <strong>første</strong> variansulighed synes at være Fréchet (1943). Udvidelser er givet i Darmois<br />

(1945), Rao (1945) og Cramér (1946).<br />

Tilløb til hypotesetestning findes helt tilbage i Arbuthnot (1710), Bernoulli (1734),<br />

Laplace (1773), Gavarret (1840), Lexis (1875, 1877) og Edgeworth (1885). Systematisk<br />

brug af hypotesetestning skyldes Karl Pearson, se bl.a. Pearson (1900). Neyman og<br />

Pearson (1928) indførte fejl af <strong>første</strong> og anden art og foreslog kvotienttestet som en generel<br />

testmetode. Teorien for uniformt stærkeste tests blev givet i Neyman og Pearson<br />

(1933).<br />

Konfidensintervaller (men dog ikke forklaret som sådanne) optræder i Laplace<br />

(1812), Gauss (1816), Fourier (1826) og Lexis (1875). En korrekt interpretation synes<br />

først givet i Wilson (1927).<br />

129


130 KAPITEL 10. REFERENCER<br />

L-sufficiens er defineret i Rémon (1984), hvor det vises, at S-sufficiens og G-sufficiens<br />

medfører L-sufficiens. S-sufficiens og S-ancillaritet er studeret i Fraser (1956), Sverdrup<br />

(1965) og Sandved (1967), og G-sufficiens er studeret i Barnard (1963). S- og Gsufficiens,<br />

henholdsvis ancillaritet, dækker ikke alle de situationer, hvor separat inferens<br />

anvendes. <strong>Et</strong> klassisk eksempel er Fisher’s eksakte test i en 2×2 tabel. For en<br />

generel diskussion af disse ting se Barndorff-Nielsen (1978). Som allerede nævnt er<br />

visse betingede test studeret i Andersen (1970).<br />

En generel reference til den teori, som er gennemgået i disse noter, er Lehman (1983,<br />

1986). Bogen af Cox og Hinkley (1983) er en mindre matematisk <strong>udgave</strong> af det samme<br />

teorikompleks.<br />

Aitken, A.C. and Silverstone, H. (1942). On the estimation of statistical parameters.<br />

Proc. Roy. Soc. Edinb. (A) 61, 186-194.<br />

Andersen, E.B. (1970). Sufficiency and exponential family for discrete sample spaces. J.<br />

Am. Stat. Assoc. 65, 1248-1255.<br />

Arbuthnot, J. (1710). An argument for Divine Providence, taken from the constant regularityobserved<br />

in the births of both sexes. Phil. Trans. 27, 1986-190.<br />

Bahadur, R.R. (1954). Sufficiency and statistical decision functions. Ann. Math. Statist.<br />

25, 423-462.<br />

Barnard, G.A. (1963). Some logical aspects of the fiducial argument. J. Roy. Statist. Soc.<br />

B 25, 111-114.<br />

Barndorff-Nielsen, O.E. (1978). Information end Exponential Families in Statistical theory.<br />

Wiley, New York.<br />

Basu, D. (1955). On statistics independent of a complete sufficient statistic. Sankhya 15,<br />

377-380.<br />

Basu, D. (1958). On statistics independent of sufficient statistics. Sankhya 20, 223-226.<br />

Bernoulli, D. (1734). Quelle est la cause physique de l’inclination des planètes . . . Recueil<br />

des Pièces qui ont Remporté le Prix de l’Académie Royale des Sciences 3, 95-122.<br />

Birnbaum, A. (1962). On the foundations of statistical inference. (With discussion). J.<br />

Amer. Statist. Ass. 57, 269-326.<br />

Cox, D.R. and Hinkley, D.V. (1974). Theoretical Statistics. Chapman and Hall, London.<br />

Cramér, H. (1946). A contribution to the theory of statistical estimation. Skand. Akt.<br />

Tidskr. 29, 85.94.<br />

Darmois, G. (1935). Sur les lois de probabilité à estimation exhaustive. C. R. Acad. Sci.<br />

Paris 260, 1265-1266.<br />

Darmois, G. (1945). Sur les lois limites de la dispersion de certaines estimations. Rev.<br />

Inst. Int. Statist. 13, 9-15.


Dynkin, E.B. (1951). Necessary and sufficent statistics for a family of probability distributions.<br />

English translation in Select. Transl. Math. Statist. Prob. 1, 23-41.<br />

Edgeworth, F.Y. (1885). Methods of Statistics. Jubilee volume of the Statist. Soc., E. Stanford,<br />

London.<br />

Fisher, R.A. (1920). A mathematical examination of the methods of determining the accuracy<br />

of an observation by the mean error and by the mean square error. Montly<br />

Notices Roy. Astron. Soc. 80, 758-770.<br />

Fisher, R.A. (1922). On the mathematical foundations of theoretical statistics. Phil. Trans.<br />

Roy. Soc. Ser A 222, 309-368.<br />

Fisher, R. A. (1925a). Theory of statistical estimation. Proc. Cambridge. Phil. Soc. 22, 700-<br />

725.<br />

Fisher, R.A. (1925b). Statistical Methods for Research Workers, 1st ed. (14th. ed. 1970). Oliver<br />

and Boyd, Edinburgh.<br />

Fisher, R.A. (1934). Two new properties of mathematical likelihood. Proc. R., Soc. A 114,<br />

285-307.<br />

Fisher, R.A. (1935). The Design of Experiments, 1st ed. (8th ed., 1966). Oliver and Boyd,<br />

Edinburgh.<br />

Fisher, R.A. (1956). Statistical Methods and Scientific Inference. Oliver and Boyd, Edinburgh<br />

(3rd ed., Hafner, New York, 1973).<br />

Fourier, J.B.J. (1826). Recherches Statistiques sur la Ville de Paris et le Département de<br />

la Seine, Vol. 3.<br />

Fraser, D.A.S. (1956). Sufficient statistics with nuisance parameters. Ann. Math. Statist.<br />

27, 848-842.<br />

Fréchet, M. (1943). Sur l’extension de certaines evaluations statistiques de petits echantillons.<br />

Rev. Int. Statist. 11 , 182-205.<br />

Gauss, C.F. (1816). Bestimmung der Genauigkeit der Beobachtungen. Z. Astron. und<br />

Verw. Wiss 1. (Reprinted in Gauss’ collected works, Vol 4. pp. 109-119).<br />

Gauss, W.F. (1821). In Gauss’ Work (1803-1826) on the Theory of least Squares. Trans.<br />

H.F. Trotter. Statist. Techniques Res. Group. Tech. Rep. No. 5. Princeton University.<br />

Princeton. (Published Translations of these papers are available in French<br />

and German).<br />

Gavarret, J. (1840). Principles Génèraux de Statistique Médicale. Paris.<br />

Halmos, P.R. (1946). The theory of unbiased estimation. Ann. Math. Statist. 17, 34-43.<br />

Halmos, P.R. and Savage, L.J. (1949). Application of the Radon-Nikodym theorem to<br />

the theory of sufficient statistics. Ann. Math. Statist. 20, 225-241.<br />

131


132 KAPITEL 10. REFERENCER<br />

Kolmogorov, A.N. (1950). Unbiased estimates. Izvestia Akad. Nauk SSSR, Ser. Math. 14,<br />

303-326. (Amer. Math. Soc. Transl. No. 98).<br />

Koopman. B.O. (1936). On distributions admitting a sufficient statistic. Trans. Amer.<br />

Math. Soc. 39, 399-409.<br />

Laplace, P.S. (1773). Mémoire sur l’inclinaison moyenne des orbites de comètes. Mem.<br />

Acad. Roy. Sci. Paris 7 (1776), 503-524.<br />

Laplace, P.S. (1812). Théorie Analytique des Probabilités, Paris. (The 3rd edition of 1820 is<br />

reprinted as Vol. 7 of Laplace’s collected works).<br />

Lehmann, E.L. (1983). Theory of Point Estimation. John Wiley & Sons, New York.<br />

Lehmann, E.L. (1986). Testing Statistical Hypotheses. John Wiley & Sons, New York.<br />

Lehmann, E.L. and Scheffé, H. (1950, 1955, 1956). Completeness, similar regions and<br />

unbiased estimation. Sankhya 10 , 305-340; 15, 219-236. (Correction 17, 250).<br />

Lexis, W. (1875). Einleitung in die Theorie der Bevölkerungs<strong>statistik</strong>. Strassburg.<br />

Lexis, W. (1877). Zur Theorie der Massenerscheinungen in der Menschlichen Gesellschaft.<br />

Freiburg.<br />

Neymann, J. (1935). Sur un teorema concernente le cosidette statistiche sufficienti. Giorn.<br />

Ist. Ital. Att. 6 , 320-334.<br />

Neyman, J. and Pearson, E.S. (1928). On the use and interpretation of certain test<br />

criteria. Biometrika 20A, 175-240, 263-294.<br />

Neyman, J. and Pearson, E.S. (1933). On the problem of the most efficient tests of statistical<br />

hypotheses. Phil. Trans. Roy. Ser. A 231, 289-337.<br />

Pearson, K. (1900). On the criterion that a given system of diviations from the probable<br />

in the case of a correlated system of variables is such that it can be reasonably<br />

supposed to have arisen from random sampling. Phil. Mag. 5:50, 157-172.<br />

Pitman, E.J.G. (1936). Sufficient statistics and intrinsic accuracy. Proc. Camb. Phil. Soc.<br />

32, 567-579.<br />

Rao, C.R. (1945). Information and accuracy attainable in the estimation of statistical<br />

parameters. Bull. Calc. Math. Soc. 37 , 81-91.<br />

Rao, C.R. (1947). Minimum variance and the estimation of several parameters. Proc.<br />

Camb. Phil Soc. 43, 280-283.<br />

Rémon, M. (1984). On a concept of partial sufficiency: L-sufficiency. Internat. Statist.<br />

Rev. 52, 127-136.<br />

Sandved, E. (1967). A principle for conditioning on an ancillary statistic. Skand. Aktuar.<br />

50, 29-47.


Sverdrup, E. (1966). The present state of the decision theory and the Neyman-Pearson<br />

theory. Rev. Int. Stat. Inst. 34 , 309-333.<br />

Wilson, E.B. (1927). Probable inference, the law of succession, and statistical inference.<br />

J. Amer. Statist. Asssoc. 22, 209-212.<br />

133


Kapitel 11<br />

Notation og regneregler<br />

Dette kapitel er tænkt som et opslagssted, for det meste med resultater i kender fra<br />

tidligere kurser. I kan selv fylde på når i undervejs støder på nyttige formler.<br />

11.1 notation<br />

Det basale udfaldsrum hedder ofte X , og X er den stokastiske variabel svarende til<br />

identitetsafbildningen på X .<br />

Alle vektorer er rækkevektorer, og den transponerede vektor x ∗ er derfor en søjlevektor.<br />

Hvis f er en afbildning fra R m ind i R k er<br />

og<br />

∂ f<br />

(x) =<br />

∂x∗ ∂ f ∗<br />

(x) =<br />

∂x<br />

⎛<br />

⎜<br />

⎝<br />

⎛<br />

⎜<br />

⎝<br />

∂ f 1<br />

∂x 1 (x) · · ·<br />

∂ f 1<br />

∂xm<br />

.<br />

(x) · · ·<br />

∂ f 1<br />

∂x 1 (x) · · ·<br />

.<br />

∂ f k<br />

∂x 1 (x) · · ·<br />

11.2 Transformationssætningen<br />

∂ f k<br />

∂x 1 (x)<br />

.<br />

∂ f k<br />

∂xm (x)<br />

∂ f 1<br />

∂xm (x)<br />

.<br />

∂ f k<br />

∂xm (x)<br />

Lad X være en stokastisk variabel i Rk med tæthed f (·) m.h.t. Lebesguemålet, og lad<br />

h(·) være en afbildning fra Rk ind i Rk . Vi definere Y = h(X) og ønsker at finde tætheden<br />

g(·) for Y. Lad<br />

<br />

<br />

J(x) = <br />

∂h<br />

<br />

∗<br />

∂x (x)<br />

<br />

<br />

<br />

,<br />

hvor | · | er absolutværdien af determinanten. Antag at der eksisterer åbne disjunkte<br />

mængder B1, . . . , Bm så at h er en entydig afbildning med J(x) > 0 på hver af B i,<br />

135<br />

⎞<br />

⎟<br />

⎠ ,<br />

⎞<br />

⎟<br />

⎠ .


136 KAPITEL 11. NOTATION OG REGNEREGLER<br />

i = 1, . . . , m, og at P(X ∈ ∪ iB i) = 1. Så gælder der<br />

g(y) = ∑<br />

x:h(x)=y<br />

f (x)J(x) −1 .<br />

Hvis h er en entydig afbildning på Rk , så at m = 1, får vi den mere velkendte formel<br />

g(y) = f (x)J(x) −1 <br />

= f h −1 <br />

(y) J h −1 −1 (y) .<br />

11.3 Betinget middelværdi<br />

Lad det basale udfaldsrum være X med sigma-algebra A. Lad (Y, B) være et andet<br />

målrum, og lad T = t(X) med t : X → Y en målelig afbildning. Den betingede<br />

middelværdi E( f (X)|T), hvor f : X → R er en målelig afbildning, er en stokastisk<br />

variabel, altså en funktion på X , E(X|Y) = E(X|Y)(x), som er σ(T)-målelig og som<br />

opfylder at E(1B(T)E( f (X)|T)) = E(1B(t(X)) f (X)) for alle B ∈ B. Da E( f (X)|T) er<br />

σ(T)-målelig eksisterer der ifølge JHJ 6.4 en funktion ϕ : Y → R så at<br />

E( f (X)|T)(x) = ϕ(t(x))).<br />

Vi betegner ϕ(t) med E( f (X)|t = t). Bemærk at E( f (X)|T = t) kun er bestemt op til<br />

en PT nulmængde.<br />

Hvis PT (·, ·) er en regulær betinget sandsynlighed givet T, så gælder der (se (11.1))<br />

<br />

f (x)P T (dx|t)<br />

X<br />

er en betinget middelværdi givet T. Med andre ord: en <strong>udgave</strong> af E( f (X)|t = t) er<br />

givet ved<br />

<br />

E( f (X)|t = t) = f (x)P T (dx|t).<br />

Dette læses som at den betingede middelværdi er middelværdien i den betingede fordeling.<br />

Jeg minder om at vi har regnereglen<br />

E( f (X, T)|T = t) = E( f (X, t)|T = t),<br />

hvilket læses på den måde at højresiden er en version af venstresiden. Bemærk at vi<br />

fra diskussionen tilsidst i afsnit 3.1 har at<br />

<br />

f (x, t(x))P T <br />

(dx|t) = f (x, t)P T (dx|t)<br />

hvis Y er et metrisk rum med en tællelig taet delmængde og B er Borel sigma-algebraen.<br />

11.4 Betingede tætheder<br />

Vi gennemgår her et specialtilfæde af opgave 3.3. Lad (X, Y) have simultan tæthed<br />

f (x, y) på R k+l og lad Y have marginal tæthed g(y), begge med hensyn til Lebesguemålet.<br />

Så er den betingede tæthed af X givet Y = y<br />

f (x|y) =<br />

X<br />

f (x, y)<br />

g(y) .


11.4. BETINGEDE TÆTHEDER 137<br />

Den regulære betingede sandsynlighed af (X, Y) givet Y i Definition 3.1 bliver i dette<br />

tilfælde<br />

P Y <br />

(A|y) = f (x|y)dx.<br />

x:(x,y)∈A<br />

Bevis. Vi skal eftervise (iii) i Definition 3.1. Lad B være en Borelmængde i R l og A en<br />

Borelmængde i R k+l . Så gælder der<br />

<br />

P<br />

B<br />

Y <br />

(A|y)PY(dy) =<br />

B<br />

<br />

x:(x,y)∈A<br />

=<br />

<br />

=<br />

B<br />

x:(x,y)∈A<br />

A∩R k ×B<br />

<br />

f (x|y)dx g(y)dy<br />

f (x, y)dxdy<br />

f (x, y)dxdy = P(A ∩ {Y ∈ B}). <br />

Følgende regneregel (JHJ 10.3) for betingede sandsynligheder er meget brugbar. For<br />

en regulær betinget sandsynlighed P T (A|t) og vilkårlige målelige funktioner f : X →<br />

R, g : Y →R har vi ligheden<br />

<br />

<br />

g(t)<br />

f (x)P T <br />

(dx|t) dPT(t) =<br />

g(t(x)) f (x)P(dx) = E{g(t(X)) f (X)}. (11.1)<br />

Dette er en special<strong>udgave</strong> af hvad JHJ kalder “useful rules". Andre <strong>udgave</strong>r er<br />

og<br />

<br />

ψ(x, t(x))P T <br />

(dx|t) =<br />

<br />

E(ψ(X, T) =<br />

Endvidere gælder der følgende rimelige resultat<br />

ψ(x, t)P T (dx|t), (11.2)<br />

ψ(x, t)P T (dx|t)PT(dt). (11.3)<br />

P T (T = t|t) = 1 n.s. PT,<br />

såfremt at mængden {(x, t(x)|x ∈ X } tilhører produkt σ-algebraen A ⊗ B.<br />

Nu følger bevis for Observationerne 2.24 og 2.25.<br />

Bevis (for Obsevation 2.24 (JHJ 10.11)). Lad u være en afbildning fra det basale udfaldsrum<br />

(X , A) ind i (Y, B). Definer<br />

g(u) = EP( dQ<br />

<br />

dQ<br />

(X)|U = u) =<br />

dP dP (x)PU (dx|u).


138 KAPITEL 11. NOTATION OG REGNEREGLER<br />

Vi skal vise at g(u) er tætheden for QU mht PU. Lad B ∈ B. Så får vi<br />

<br />

<br />

dQ<br />

g(u)dPU(u) = 1B(u)<br />

B<br />

dP (x)PU <br />

(dx|u) dPU(u)<br />

<br />

= EP 1B(u(X)) dQ<br />

dP (X)<br />

<br />

<br />

= 1B(u(x)) dQ<br />

<br />

(x)dP(x) = 1B(u(x))dQ(x)<br />

dP<br />

= QU(B).<br />

I det andet lighedstegn har vi brugt regneregelen (11.1) ovenfor, og i det næstsidste<br />

lighedstegn har vi brugt en regneregel i afsnit 11.5. <br />

Bevis (for Observation 2.25). Definer<br />

f (x|t) =<br />

f (x)<br />

g(t)<br />

t ∈ D<br />

1 t /∈ D, og F(A|t) = <br />

A f (x|t)PT (dx|t).<br />

Vi vil vise at F(A|t) er en regulær betinget sandsynlighed for Q givet T. Undervejs<br />

bruger vi at QT(D c ) = 0.<br />

<br />

B<br />

<br />

F(A|t)QT(dt) =<br />

=<br />

=<br />

F(A|t) dQT<br />

(t)PT(dt)<br />

dPT<br />

f (x|t)P<br />

A<br />

T <br />

(dx|t)<br />

<br />

g(t)PT(dt)<br />

1B∩D(t) f (x)P T <br />

(dx|t) PT(dt)<br />

B∩D<br />

<br />

B∩D<br />

<br />

A<br />

= EP {1B∩D(t(X))1A(X) f (X)}<br />

<br />

= 1B∩D(t(x))1A(x) dQ<br />

<br />

(x)P(dx) = 1B∩D(t(x))1A(x)Q(dx)<br />

dP<br />

= Q(A ∩ u −1 (B ∩ D)) = Q(A ∩ u −1 (B)),<br />

som netop er definitionen på at F(A|t) er en regulær betinget sandsynlighed for Q<br />

givet T. Jeg har brugt regneregelen (11.1) ovenfor i 4. lighedstegn og regneregel fra<br />

afsnit 11.5 i næstsidste lighedstegn. <br />

11.5 Regnereler for tætheder og integraler<br />

1) µ ≪ ν ⇒ f (x)dµ(x) = f (x) dµ<br />

dν (x)dν(x). (JHJ 3.17)<br />

2) µ ≪ ν


11.6. ENTYDIGHED AF LAPLACETRANSFORMEN 139<br />

6) Entydighed n.s. af en tæthed kan I finde hos Hoffmann i 3.17.5. Her er et bevis:<br />

Lad f (·) og g(·) begge være tætheder for et mål P mht målet µ. Så har vi altså<br />

og dermed <br />

<br />

A<br />

<br />

f (x)µ(dx) =<br />

Vi tager nu A = 1( f − g > 0). Så fås<br />

<br />

A<br />

g(x)µ(dx) ∀A,<br />

( f − g)dµ = 0 ∀A.<br />

A<br />

<br />

<br />

1<br />

( f − g)dµ = 0 ⇒ ( f − g)dµ = 0 ⇒ dµ = 0,<br />

A<br />

A ( f − g) A<br />

dvs A er en µ-nulmængde. På tilsvarende vis ses at mængden hvor f − g < 0 er<br />

en µ-nulmængde.<br />

11.6 Entydighed af Laplacetransformen<br />

Lad µ1 og µ2 være sandsynlighedsmål på R k med laplacetransformer<br />

<br />

ϕ1(θ) =<br />

<br />

exp(θ · x)µ1(dx) og ϕ2(θ) =<br />

exp(θ · x)µ2(dx).<br />

Hvis der eksisterer en åben mængde D ⊂ R k således at ϕ1 og ϕ2 begge er endelige på<br />

D og<br />

ϕ1(θ) = ϕ2(θ), θ ∈ D,<br />

så er de to mål ens, µ1 = µ2.<br />

Beviset baserer sig på at antagelsen medfører at<br />

<br />

<br />

exp((θ + iv) · x)µ1(dx) =<br />

exp((θ + iv) · x)µ2(dx), θ ∈ D, v ∈ R k .<br />

For fast θ er dette karakteristiske funktioner i v, og vi kan derfor bruge entydighedssætningen<br />

for karakteristiske funktioner.


Indeks<br />

A<br />

Affin uafhængighed . . . . . . . . . . . . . . . 8<br />

Affin uafhængighed næsten sikkert . . . 21<br />

B<br />

Begrænset komplet . . . . . . . . . . . . . . . 19<br />

Binomialfordelingen<br />

som eksponentiel familie . . 6, 10, 21, 23<br />

E<br />

Eksponentiel familie<br />

betingelse for minimalfremstilling . . . 7<br />

binomialfordelingen . . . . . . . . 6, 10, 21<br />

Den inverse gauss fordeling . . . . . . . 24<br />

Den negative binomialfordeling . . . . 23<br />

det fulde parameterområde . . . . . . . 11<br />

fuld . . . . . . . . . . . . . . . . . . . . . . . . 10<br />

gammafordelingen . . . . . . . . . . . . . 21<br />

kanonisk observator . . . . . . . . . . . . . . 6<br />

kanonisk parameter . . . . . . . . . . . . . . 6<br />

kanonisk parameter observator . . . . . . 6<br />

logaritmisk fordeling . . . . . . . . . . . . 23<br />

minimal kanonisk observator . . . . . . . 6<br />

normalfordelingen . . . . . . . . . . 6, 17, 21<br />

normalfordelingen som frembragt eksponentiel<br />

familie . . . . . . . . . . . . . . . . . 13<br />

orden af . . . . . . . . . . . . . . . . . . . . . . 6<br />

poissonfordelingen . . . . . . . . . . . 5, 21<br />

regulær . . . . . . . . . . . . . . . . . . . . . . 10<br />

åben . . . . . . . . . . . . . . . . . . . . . . . . 19<br />

141<br />

F<br />

Forventet information . . . . . . . . . . . . . 60<br />

G<br />

Gammafordelingen<br />

som eksponentiel familie . . . . . . . . . 21<br />

I<br />

Inverse gauss fordeling<br />

som eksponentiel familie . . . . . . . . . 24<br />

K<br />

Komplet . . . . . . . . . . . . . . . . . . . . . . . 19<br />

eksempel med binomialfordelingen . 20<br />

Komplethed af observator under familie af<br />

sandsynlighedsmål<br />

Konveks støtte . . . . . . . . . . . . . . . . . . . 9<br />

Kumulantransformen . . . . . . . . . . . . . 11<br />

for t(X) under ν . . . . . . . . . . . . . . . . 11<br />

for t(X) under ˜Pξ . . . . . . . . . . . . . . . 11<br />

Kurtosis . . . . . . . . . . . . . . . . . . . . . . . 11<br />

L<br />

Laplacetransformen for T . . . . . . . . . . 10<br />

Logaritmisk fordeling<br />

som eksponentiel familie . . . . . . . . . 23<br />

Lukket konveks støtte . . . . . . . . . . . . . . 9


142 INDEKS<br />

N<br />

Niveaukonstant test<br />

også kaldet et similært test . . . . . . . . 89<br />

Normalfordelingen<br />

som eksponentiel familie . . . . . . 17, 21<br />

som frembragt eksponentiel familie . 13<br />

O<br />

Observeret information . . . . . . . . . . . . 60<br />

P<br />

Poissonfordelingen<br />

som eksponentiel familie . . . . . . . 5, 21<br />

S<br />

Scorefunktionen . . . . . . . . . . . . . . . . . 60<br />

Similært test<br />

det samme som niveaukonstant . . . . 89<br />

Skævhed . . . . . . . . . . . . . . . . . . . . . . 11<br />

Støtten for stokastisk variabel i metrisk<br />

rum . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!