Hele Et første kursus i teoretisk statistik. Første udgave. - Aarhus ...

E T F Ø R S T E K U R S U S 

I T E O R E T I S K S T A T I S T I K 

J E N S L E D E T J E N S E N

© Jens Ledet Jensen 2006 

Institut for Matematiske Fag 

Det Naturvidenskabelige Fakultet 

Aarhus Universitet 

Januar 2006

Indhold 

1 Indledning 1 

2 Eksponentielle familier 5 

2.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 

2.2 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 

2.3 Minimal fremstilling og konveks støtte . . . . . . . . . . . . . . . . . . . . 7 

2.4 Laplace- og kumulanttransform . . . . . . . . . . . . . . . . . . . . . . . . 10 

2.5 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 

2.6 Marginale og betingede fordelinger . . . . . . . . . . . . . . . . . . . . . . 17 

2.7 Komplethed af den minimalkanoniske observator . . . . . . . . . . . . . 19 

2.8 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 

3 Sufficiens 25 

3.1 Indledning og definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 

3.2 Tilfældet med diskret udfaldsrum X . . . . . . . . . . . . . . . . . . . . . 26 

3.3 Det generelle tilfælde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 

3.4 Minimal sufficiente observatorer . . . . . . . . . . . . . . . . . . . . . . . 29 

3.5 Sufficiensprincippet og B-sufficiens . . . . . . . . . . . . . . . . . . . . . . 36 

3.6 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 

4 Ancillaritet og Basu’s sætning 43 

4.1 Definitioner og diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 

4.2 Basu’s sætning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 

4.3 Birnbaum’s sætning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 

4.4 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 

5 Likelihoodbegreber 57 

5.1 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 

6 Centrale estimatorer med minimal varians 67 

6.1 Centrale estimatorer med minimal varians . . . . . . . . . . . . . . . . . . 67 

6.2 Variansuligheder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 

6.3 Pusterum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 

6.4 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 

i

ii INDHOLD 

7 Testteori 79 

7.1 Indledning og definitioner . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 

7.2 Neyman-Pearson’s lemma og monotone kvotienter . . . . . . . . . . . . 81 

7.3 Sammensat nulhypotese – test for en delparameter . . . . . . . . . . . . . 89 

7.4 Lokalt stærkeste test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 

7.5 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 

8 Separat inferens 101 

8.1 L-sufficiens og L-ancillaritet . . . . . . . . . . . . . . . . . . . . . . . . . . 101 

8.2 S-sufficiens og S-ancillaritet . . . . . . . . . . . . . . . . . . . . . . . . . . 104 

8.3 G-sufficiens og G-ancillaritet . . . . . . . . . . . . . . . . . . . . . . . . . . 107 

8.4 Itemanalysemodellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 

8.5 Afsluttende bemærkninger . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 

8.6 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 

9 Bayes statistik 121 

10 Referencer 129 

11 Notation og regneregler 135 

11.1 notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 

11.2 Transformationssætningen . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 

11.3 Betinget middelværdi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 

11.4 Betingede tætheder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 

11.5 Regnereler for tætheder og integraler . . . . . . . . . . . . . . . . . . . . . 138 

11.6 Entydighed af Laplacetransformen . . . . . . . . . . . . . . . . . . . . . . 139 

Indeks 141

Kapitel 1 

Indledning 

Med disse indledende bemærkninger vil jeg forsøge at ryste jeres statistiske grundvold, 

og vise at statistik (d.v.s. her teoretisk statistik) er mere end matematik. Jeg vil 

nævne nogle af de forskellige indgange til statistik for at afgrænse, hvad vi skal beskæftige 

os med i disse noter. Jeg vil her i indledningen foretage diskussionen ud fra 

et eksempel. 

En ukendt parameter θ kan antage værdier i {0, 1, 2, . . . }. En værdi k af θ vælges 

(måske af naturen, måske af en person), og 6 brikker placeres i en pose. Af de 6 brikker 

er 2 mærket med værdien k og de 4 andre med værdierne 4k + 1, . . . , 4k + 4. Eksperimentet 

består nu i at vælge én af brikkerne tilfældigt og observere værdien S på denne, 

Fordelingen af S beskrives med følgende tabel, hvori for hver række er angivet 6 gange 

sandsynligheden for de mulige udfald: 

S 

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 

0 2 1 1 1 1 

1 2 1 1 1 1 

θ 2 2 1 1 1 1 

3 2 1 1 1 1 

4 2 1 1 1 1 

5 2 1 1 1 1 

Vores opgave er ud fra observationen s at sige noget om den ukendte parameter θ. Når 

s er observeret, ved vi, at θ enten er s eller for s > 0, er der også muligheden [(s − 1)/4], 

hvor [·] er heltalsdelen af et tal. Fra observationen s kan vi altså gætte på 

ˆθ = s eller ˜θ = 

0 hvis s = 0 

[(s − 1)/4] hvis s > 0, 

hvor ˆ θ faktisk er maksimum likelihood estimatet. 

Normalt vil vi vælge ˆθ som skøn over θ, idet Pˆθ (s) = 2 6 > P˜ θ (s) = 1 6 for s > 0, altså 

den observerede værdi s har større sandsynlighed under målet Pˆθ end under målet P˜ θ . 

Men hvis vi spørger om sandsynligheden for at gætte den rigtige værdi af θ, har vi 

Død og pine, hvad gør vi nu? 

P θ( ˆθ = θ) = 2 6 

1

2 KAPITEL 1. INDLEDNING 

Indenfor den såkaldte Bayes-statistik optræder der ingen problemer (=problemet er 

flyttet et andet sted hen - en særdeles velkendt problemløsningmetode). Hvis man er 

“bayesianer”, formuleres alt ved hjælp af sandsynligheder. I stedet for at sige at θ er 

ukendt, siger man, at θ er en stokastisk variabel med en prior tæthed pk = P(θ = k), og 

at vores viden om θ, efter at eksperimentet er udført, udtrykkes gennem den betingede 

tæthed 

⎧ 

1 k = s = 0 

⎪⎨ 1 

3 ( 

P(θ = k|S = s) = 

⎪⎩ 

1 3 ps + 1 6 p [(s−1)/4]) −1 pk k = s, s > 0 

1 

6 ( 1 3 ps + 1 6 p [(s−1)/4]) −1 pk k = [(s − 1)/4], s > 0 

0 ellers 

Eventuelt kan vi lave et estimat ˆθB, som er den værdi af θ, som har størst sandsynlighed 

givet S = s. 

For at gennemføre dette program skal vi altså vælge en prior tæthed p k. Hvis vi 

tager p k = 1/2 k+1 , vil ˆ θB = ˜ θ for alle s. Det kan vises, at for en vilkårlig tæthed med 

p k > 0 for alle k vil ˆθB = ˜θ for uendelig mange værdier af s . Hvis p k = 0 for k ≥ 5 og 

p k = 1/4 for k < 5, vil 

ˆθB = ˆθ for s < 5 og ˆθB = ˜θ for 5 ≤ s ≤ 20. 

Dette sidste eksempel dækker over det generelle udsagn, at jo mere uniform vi gør den 

prior tæthed, desto oftere vil ˆθB = ˆθ. 

Det er klart, at det oprindelige problem er blevet ført over i, hvordan vi skal vælge 

prior tætheden. Hvis vi ikke har nogen viden, der kan hjælpe os i dette, må vi altså 

foretage et subjektivt valg, og af denne grund bryder mange statistikere sig ikke om 

Bayes-statistik. Ud fra en pragmatisk synsvinkel kan det dog i visse situationer være 

praktisk at tænke i termer af Bayes-statistik. F.eks. i store ekspertsystemer, hvor et af 

problemerne er jævnligt at opdatere den akkumulerede viden om de mange parametre, 

kan det være praktisk at bruge Bayes-statistik. Jeg omtaler kort Bayes-statistik i kapitel 

9. 

En anden tilgang til statistik er decisionsteori. Her forestiller man sig, at der til hver 

observation x skal foretages en beslutning d = d(x), og for enhver beslutning d og 

enhver parameter θ er der givet en pris, eller et tab, w(θ, d) ≥ 0. Det forventede tab 

kaldes risikofunktionen (engelsk: risk function) 

r(θ, d) = E θw(θ, d(X)). 

I vort eksempel kan beslutningen være, at vi peger på enten ˆθ eller ˜θ som den sande 

værdi af θ. Lad os f.eks. sige at tabet er givet ved 

⎧ 

⎪⎨ 0 hvis θ1 = θ 

w(θ, θ1) = α 

⎪⎩ 

β 

 

12 α + 

r(θ, ˆθ) = 

hvis |θ1 − θ| ≤ 3 

hvis |θ1 − θ| > 3, 

1 6 β hvis θ = 0 

4 

6 β hvis θ > 0 

⎧ 

⎪⎨ 

0 

og r(θ, ˜θ) = 2 

6α ⎪⎩ 

β 

hvis θ = 0 

hvis 1 ≤ θ ≤ 3 

hvis θ > 3. 

2 

6

Hvis θ > 3 vil ˜θ have en mindre risiko end ˆθ, men for 1 ≤ θ ≤ 3 vil ˆθ have en 

mindre risiko end ˜θ, hvis blot β < α/2. 

Decisionsteori giver anledning til mange nye definitioner. En beslutningsregel d 

kaldes inadmissible, hvis der findes en anden regel d1, så at r(θ, d) ≥ r(θ, d1) for alle θ og 

med skarp ulighed for mindst én værdi af θ. Hvis en regel ikke er inadmissible, kaldes 

den admissible, og disse er klart at foretrække. En minimax regel d er en admissible 

beslutningsregel, som opfylder 

sup 

θ 

r(θ, d1) ≥ sup r(θ, d) 

θ 

for enhver anden admissible regel d1. En minimax regel er et fornuftigt valg, hvis man 

er to personer, der spiller mod hinanden, og at man må forvente, at modspilleren er 

så ond som mulig. Ligesom at jeg ikke vil komme ind på Bayes-statistik, vil jeg ikke 

beskæftige mig med decisionsteori i disse noter. 

Hvad er så emnet for disse noter? Løst sagt skal vi så præcist som muligt opsummere 

den viden, som vi har fået om den ukendte parameter fra den foretagne observation 

og fra vores viden om den sandsynlighedsmekanisme, som ligger bagved. Dette 

betyder bl.a., at vi ikke skal bruge de hypotetiske gentagelser af forsøget til at konstruere 

et spil mod en usynlig modpart og dernæst minimere tabet, men derimod bruge 

gentagelserne til at belyse den faktiske observation i forhold til de andre mulige observationer. 

Heri ligger også, at de potentielle gentagelser skal være relevante, som for 

eksempel at de skal foretages med det samme måleudstyr (disse problemer tages op i 

kapitel 4 og kapitel 8). Den type problemstillinger, som vi ønsker at anvende teorien 

på, kan være spørgsmål som: Hvad er lysets hastighed? Hvor en stor procentdel af den 

danske befolkning går ind for en kombineret vej- og jernbanebro til Sverige?; Hvad er 

sandsynligheden for at blive rask med en given behandling?; etc., etc. 

I ovenstående eksempel, hvis vi f.eks. har observeret s = 2, kan vi sige, at de mulige 

værdier af θ er θ = 0 og θ = 2, og at sandsynlighederne for s = 2 er 1 6 og 2 6 under de to 

muligheder. Meget mere kan vi ikke sige. Normalt vil vi gerne angive et estimat og en 

relevant varians på estimatet eller et relevant konfidensområde, men her hvor der kun 

er to muligheder, kan vi kun give en rangordning. Da vi nu ved, at θ = 0 eller θ = 2 er 

ˆθ og ˜θ ikke relevante i hypotestiske gentagelser. For en ny observation s ∈ {0, 1, 3, 4} 

ved gentagelse, kan vi slutte at θ = 0, og for s ∈ {9, 10, 11, 12} kan vi slutte at θ = 2. 

Det er kun for s = 2, at vi ikke kan slutte hvad θ er. Hvis vi definerer 

 

 

ˆθ2(s) 

0 s ∈ {0, 1, 3, 4} 

= 

og ˇ 

0 s ∈ {0, 1, 2, 3, 4} 

θ2(s) = 

2 s ∈ {2, 9, 10, 11, 12} 

2 s ∈ {9, 10, 11, 12} 

har vi at 

og 

P0( ˆθ2 = 0) = 5 6 , P2( ˆθ2 = 2) = 1, 

P0( ˇθ2 = 0) = 1, P2( ˇθ2 = 2) = 4 6 , 

og anskuet på denne vis vil vi sige, at maksimum likelihood estimatet ˆθ2 er det bedste 

estimat. 

Lad mig slutte denne indledning med en ultrakort gennemgang af de forskellige 

kapitler: 

3

4 KAPITEL 1. INDLEDNING 

Kapitel 2: Her opsumerer jeg de vigtigste begreber og resultater for ekponentielle familier. 

Eksponentielle familier er vigtige på grund af deres pæne matematiske egenskaber, 

på grund af deres udbredelse, og fordi der er en simpel sammenhæng mellem 

tætheden og de såkaldte sufficiente observatorer. Faktisk kan man vende bøtten rundt, 

og starte med at sige, hvad der skal være sufficiente observatorer, og man vil så hurtigt 

blive ledt frem til de eksponentieller familier. De eksponentieller familier vil optræde 

gennem hele notesættet. 

Kapitel 3: Her gives en udførlig matematisk teori for sufficiente observationer, d.v.s. 

funktioner af data som “indeholder al information” om den ukendte parameter. 

Kapitel 4: Handler on hvordan vi definerer relevante gentagelser ved at betinge med 

værdien af en såkaldt ancillær observator. Sammenhængen mellem dette og de sufficiente 

observatorer diskuteres. 

Kapitel 5: Nævner de vigtigste begreber omkring likelihoodfunktionen og den afledede. 

Resultater baseret på at antallet af observationer går mod uendelig bliver kort 

omtalt. Dette kapitel kan godt læses før de andre. 

Kapitel 6: Giver en teori for hvordan vi på fornuftig vis kan vælge estimatorer, d.v.s. at 

vi forsøger at minimere variansen uniformt i parameteren. For at dette får mening, må 

vi nøjes med at betragte de såkaldte unbiased estimatorer. 

Kapitel 7: Heri beskrives hvordan man konstruerer test med visse optimale egenskaber. 

Kapitel 8: Dette kapitel hænger sammen med kapitel 4, idet det undersøges, hvad der 

er relevante gentagelser, når vi ønsker at udtale os om en delparameter. 

Lad mig til sidst påpege at udgangspunktet er, at vi har valgt en model til beskrivelse 

af det udførte forsøg, og ønsker nu at optimere vores konklusioner idenfor modellen. 

Det vil bl.a. sige, at vi ikke kommer ind på kontrol af modellen. En anden vigtig 

ting vi ikke kommer ind på, er robusthed af vores procedurer overfor antagelser i modellen, 

d.v.s. spørgsmål som, om en optimal procedure under modellen vil være langt 

fra optimal, hvis modellen ændres ganske lidt. 

En henvisning til Jørgen Hoffman-Jørgensens bøger angives med “JHJ”.

Kapitel 2 

Eksponentielle familier 

2.1 Motivation 

Eksponentielle familier er klasser af sandsynlighedsmål med “særligt pæne egenskaber". 

Det smarte er, at når først vi har vist (og det er ikke svært), at noget er en eksponentiel 

familie, så ved vi, at en hel masse resultater er opfyldt. Lad os som et eksempel 

betragte n uafhængige variable X1, . . . , Xn som er normalfordelte med middelværdi µ 

og varians σ 2 . Hvis f(·) er en funktion fra R ind i R med den egenskab, at 

E µ,σ 2 f( ¯X) = 0 for alle µ ∈ R, 

så kan vi slutte, at f er identisk lig med nul pånær på en nulmængde. Denne egenskab 

kan måske nok synes lidt teknisk, men den kan hjælpe os til at vise andre egenskaber. 

Det sædvanlige estimat for σ 2 er s 2 = ∑i(X i − ¯X) 2 /(n − 1). Dette estimat har den rigtige 

middelværdi: Es 2 = σ 2 , og vi siger, at s 2 er middelværdiret. Man kan nu vise, at s 2 

er det estimat, der har mindst mulig varians, blandt alle estimater der er middelværdirette. 

For eksponentielle familier kan vi vise at for visse hypoteser er der særligt attraktive 

tests. I eksemplet ovenfor kan vi betragte et test for hypotesen µ = 0 mod alternativet 

µ > 0. Det sædvanlige t-test forkaster hypotesen hvis t = ¯X/ √ s 2 /n er stor, og vi kan 

vise at dette i en vis forstand er det bedste vi kan gøre. 

De ovenstående eksempler viser, at der er god grund til at beskæftige sig med eksponentielle 

familier. Et andet argument er, at nogle af de vigtigste klasser af fordelinger 

faktisk er eksponentielle familier: Binomialfordelingerne, Poissonfordelingerne, 

normalfordelingerne og Gammafordelingerne. Ydermere er disse fordelinger byggestene 

for det der hedder Generaliserede Lineære Modeller som er et vigtigt redskab i 

en statistikers værktøjskasse. 

Definitionen på en eksponentiel familie vedrører hvordan data og parameter spiller 

sammen. Lad som et eksempel Pλ være poissonfordelingen med parameter λ og lad µ 

være tællemålet. Så kan vi skrive tætheden som 

dPλ λx 

(x) = 

dµ x! e−λ = e −λ · 1 

x! 

· exp{log(λ)x}. 

Hvad jeg har fremhævet her, er at tætheden kan skrives som en funktion af parameteren, 

ganget med en funktion af data, ganget med en eksponentialfunktion, hvor 

5

6 KAPITEL 2. EKSPONENTIELLE FAMILIER 

argumentet er en funktion af parameteren ganget med en funktion af data. Det er denne 

struktur der nedenfor vil blive brugt i den generelle definition. Bemærk at den første 

funktion af parameteren, lad os kalde den a(λ), er en normeringskonstant: eftersom vi 

betragter en tæthed, vil denne integrere til 1, og dermed har vi 

a(λ) ∑ x 

2.2 Definition 

 

1 

exp{log(λ)x} = 1 ⇒ a(λ) = 

x! ∑ 

x 

1 

x! exp{log(λ)x} 

−1 . 

Jeg vil betragte en klasse P = {Pθ|θ ∈ Θ} af sandsynlighedsmål på målrummet 

(X , A, µ), hvor µ er et σ-endeligt mål. Familien P er parametriseret ved θ ∈ Θ, hvor 

Θ ⊆ Rp , d.v.s at hvis θ1 = θ2 så vil Pθ1 = Pθ2 . Antag, at µ dominerer alle målene i 

P, Pθ ≪ µ ∀θ ∈ Θ, og at der eksisterer en funktion φ = (φ1, . . . , φk) : Θ → Rk , en 

målelig funktion t = (t1, . . . , tk) : X → Rk , og en målelig funktion b : X → R således 

at 

dPθ 

dµ (x) = a(θ)b(x)eφ(θ)·t(x) , ∀θ ∈ Θ. (2.1) 

Hvis (2.1) er opfyldt, kaldes P en eksponentiel familie med kanonisk observator T = t(X) 

og kanonisk parameter φ(θ). Bemærk, at i (2.1) er a(·) bestemt ved 

 

a(θ) = b(x)e φ(θ)·t(x) −1 µ(dx) 

og er derfor kun en funktion af θ gennem φ(θ). Det mindste k for hvilket en repræsentation 

på formen (2.1) er mulig kaldes ordenen af familien. Hvis repræsentationen er 

minimal, d.v.s. at k er ordenen af familien, kaldes T en minimal kanonisk observator og 

ϕ en minimal kanonisk parameter. 

Eksempel 2.1. 

Jeg opskriver her nogle af de fordelinger I kender i forvejen på eksponentiel familieform. 

Binomialfordelingen. Lad X være binomialfordelt med antalsparamter n og sandsynlighedsparameter 

θ med 0 < θ < 1. Så er tætheden med hensyn til tællemålet µ 

givet ved 

dPθ (x) = 

dµ 

for x ∈ {0, . . . , n}. 

n 

x 

 

θ x (1 − θ) n−x = (1 − θ) n 

n 

x 

 

 

θ 

exp log x , 

1 − θ 

Normalfordelingen. Lad X være normalfordelt med middelværdi µ og varians σ 2 

med (µ, σ 2 ) ∈ R × R+. Så er tætheden med hensyn til lebesguemålet m givet ved 

dP (µ,σ 2 ) 

dm 

(x) = exp{− 1 

2σ 2(x − µ) 2 } 

√ 2πσ 2 

= exp{− µ2 

2σ 2 } 

√ 2πσ 2 

 

µ 

exp 

σ 

2σ 

1 

x − x2 

2 2 

for x ∈ R. Bemærk at i dette eksempel er b(x) = 1. 

 

,

2.3. MINIMAL FREMSTILLING OG KONVEKS STØTTE 7 

2.3 Minimal fremstilling og konveks støtte 

Jeg skal i dette afsnit angive en metode til at afgøre, om en fremstilling er minimal, og 

skal i denne forbindelse udtrykke mig “næsten sikkert” mht. et mål. Jeg starter derfor 

med følgende observation. 

Observation 2.2 Lad ν være målet på X givet ved 

dν 

(x) = b(x), (2.2) 

dµ 

hvor b(x) er fra (2.1). Der gælder at alle målene i P er indbyrdes ækvivalente, og at de 

er ækvivalente med ν , d.v.s. at alle disse mål har de samme nulmængder. 

Bevis. Da 

 

Pθ(A) = 

a(θ)e 

A 

φ(θ)·t(x) 

b(x)µ(dx) = 

A 

a(θ)e φ(θ)·t(x) ν(dx), 

har vi, at 

dPθ dν (x) = a(θ)eφ(θ)·t(x) . (2.3) 

Vi har derfor, at hvis N er en nulmængde for ν er N også en nulmængde for Pθ for alle 

θ ∈ Θ. Da (2.3) er strengt positiv, gælder der at ν(B) > 0 ⇒ Pθ(B) > 0. Hvis derfor N 

er en nulmængde for Pθ, følger det, at ν(N) = 0. 

Jeg vil skrive “næsten sikkert mht. P” som n.s.−P, og på grund af Observation 2.2 

skrive n.s.−P hvormed menes, at den angivne relation er korrekt på nær en af de fælles 

nulmængder for P θ og ν. Bemærk at Observation 2.2 viser, at hvis målene i en familie 

P ikke har samme støtte, så kan P ikke være en eksponentiel familie. Et eksempel på 

dette er familien af uniforme fordelinger på intervallet [0, θ], θ > 0. 

Lemma 2.3 Fremstillingen (2.1) er minimal hvis og kun hvis (i) og (ii) nedenfor er opfyldt: 

(i) funktionerne 1,φ1, . . . , φ k på Θ er lineært uafhængige, d.v.s. 

c0 + c1φ1(θ) + · · · + c kφ k(θ) = 0 ∀θ ∈ Θ ⇒ c0 = c1 = · · · = c k = 0, (2.4) 

(ii) funktionerne 1,t1, . . . , t k på X er lineært uafhængige næsten sikker mht. P, d.v.s 

c0 + c1t1(x) + · · · + c kt k(x) = 0 n.s. − P ⇒ c0 = c1 = · · · = c k = 0. (2.5) 

Bevis. Jeg viser først, at hvis (i) eller (ii) ikke er opfyldt, så er repræsentationen ikke 

minimal. Antag at (i) ikke er opfyldt. Der eksisterer altså en vektor c = 0, så at c0 + c · 

φ(θ) = 0 ∀θ ∈ θ. Lad os sige at ck = 0, så har vi, at φk(θ) = −1 

c 

{c0 + c1φ1(θ) + · · · + 

k 

ck−1φk−1(θ)}, og vi kan skrive (2.1) som 

dP θ 

dµ (x) = a(θ)b(x)e−c0 t k(x)/c k exp 

 

k−1 

∑ 

1 

φ i(θ)[t i(x) − c it k(x)/c k] 

 

.


D.v.s. at vi har konstrueret en repræsentation af dimension k−1, og (2.1) er derfor ikke 

minimal. På helt tilsvarende måde vises, at hvis (ii) ikke er opfyldt, så er (2.1) ikke 

minimal. 

Vi antager nu, at (i) og (ii) er opfyldt, og skal vise at fremstillingen (2.1) er minimal. 

Vi bemærker først, at hvis θ0 ∈ Θ, så har vi fra (2.1) og Observation 2.2, at (se JHJ 3.19) 

dPθ dPθ0 = a(θ) 

a(θ0) exp[{φ(θ) − φ(θ0)} · t(x)]. (2.6) 

Vi betragter nu endvidere en minimal repræsentation af dimension m , med kanonisk 

parameter β(θ) og kanonisk observator u(x) . Vi har altså 

dPθ dPθ0 = ã(θ) 

ã(θ0) exp[{β(θ) − β(θ0)} · u(x)], (2.7) 

og skal vise at k = m. Fra (i) har vi, at vi kan vælge θ1, . . . , θk, så at k × k matricen 

⎛ 

⎞∗ 

φ(θ1) − φ(θ0) 

⎜ 

⎟ 

A = ⎝ . ⎠ 

φ(θk) − φ(θ0) 

har fuld rang. Da (2.6) og (2.7) er tæthed for det samme mål, er de identiske n.s.−P, og 

vi har for i = 1, . . . , k, 

{φ(θ i) − φ(θ0)} · {t(x) − t(x0)} = {β(θ i) − β(θ0)} · {u(x) − u(x0)} n.s. − P. 

Skrevet på matriks form gælder der, at 

hvor B er m × k matricen 

{t(x) − t(x0)}A = {u(x) − u(x0)}B n.s. − P, (2.8) 

B = 

⎛ 

⎜ 

⎝ 

β(θ1) − β(θ0) 

. 

β(θ k) − β(θ0) 

Da (2.7) er antaget minimal, har vi at m ≤ k. Antag nu at m < k, så eksisterer der 

d ∈ R k , d = 0, så at Bd ∗ = 0. Da A har fuld rang, er c ∗ = Ad ∗ = 0, og (2.8) giver 

⎞ 

⎟ 

⎠ 

{t(x) − t(x0)}c ∗ = {u(x) − u(x0)}Bd ∗ = 0 n.s. − P, 

hvilket er i modstrid med (ii). Altså er m = k, og (2.1) er en minimal fremstilling. 

Betingelsen (2.4) er ækvivalent med at mængden 

Λ0 = {ϕ(θ)|θ ∈ Θ} 

ikke tilhører et affint underrum af R k . 

Jeg vil nu diskutere betingelsen (2.5). Støtten for en stokastisk variabel T, der lever 

i et metrisk rum, defineres som 

{t|P(kugle med centrum t og radius ǫ) > 0, ∀ǫ > 0}. 

∗

2.3. MINIMAL FREMSTILLING OG KONVEKS STØTTE 9 

Specielt hvis T kun kan antage endelig mange værdier, så er støtten de punkter, hvor 

der er positiv sandsynlighed. Hvis T ∈ R k siger vi, at koordinaterne i T er affint uafhængige 

n.s. hvis støtten for T ikke er indeholdt i et affint underrum af R k . Dette er 

ækvivalent med at sige, at der ikke findes c ∈ R k , c = 0, så at c · T er lig med en konstant 

n.s. Men dette er netop betingelsen (2.5). Betingelsen er også ækvivalent med at sige, 

at variansen af T, Var(T), er positiv definit. Lad os lige eftervise det sidste udsagn: 

cVar(T)c ∗ = 0 ⇐⇒ Var(c · T) = 0 

⇐⇒ c · T = konstant n.s. ⇔ c = 0, 

hvor den sidste ækvivalens er betingelsen (2.5). Bemærk, at for en eksponentiel familie 

P giver Observation 2.2 at støtten for T er den samme uanset hvilket sandsynlighedsmål 

Pθ ∈ P vi betragter. Tilsvarende, hvis variansen for T er positiv definit under 

P θ1 ∈ P så er variansen positiv definit under alle P θ ∈ P. 

Den lukkede konvekse støtte Ct for den eksponentielle familie P defineres som den 

mindste lukkede konvekse mængde K ⊂ R k med P θ(t(X) ∈ K) = 1 for alle θ ∈ Θ, 

eller ækvivalent hermed {x|t(x) /∈ K} er en P-nulmængde. I symboler kan vi skrive 

Ct = 

K∈K 

K, (2.9) 

hvor K er mængden af lukkede og konvekse mængder K med ν({x|t(x) /∈ K}) = 0. 

Det indre af Ct betegnes intCt. Hvis støtten for T er indeholdt i et affint underrum af R k , 

vil vi i definitionen af Ct tage snit over mængder, der er indeholdt i et affint underrum, 

og vi vil derfor have at intCt = ∅. Med andre ord vil intCt = ∅ medføre, at støtten 

for T ikke er indeholdt i et affint underrum af R k , og dermed at betingelsen (2.5) er 

opfyldt. Omvendt, hvis støtten for T ikke er indeholdt i et affint underrum af R k kan 

vi finde k støttepunkter der udspænder R k og dermed vil intCt = ∅. 

Vi kan samle vores diskussion ovenfor i: 

Observation 2.4 Følgende betingelser er ækvivalente: 

• Betingelsen (2.5); 

• Støtten for T er ikke indeholdt i et affint underrum af R k ; 

• intCt = ∅; 

• Variansen Var(T) er positiv definit. 

Eksempel 2.5 (Binomialfordelingen). 

Lad X være binomialfordelt med antalsparamter n og sandsynlighedsparameter θ med 

0 < θ < 1. Så er tætheden med hensyn til tællemålet µ givet ved 

 

dPθ n 

(x) = (1 − θ)n 

dµ x 

 

θ 

exp log x . 

1 − θ


Dette er en eksponentiel familie med t(x) = x og ϕ(θ) = log(θ/(1 − θ)). Repræsentationen 

er af dimension 1, og vi vil nu vise at den er minimal. Støtten for T er 

{0, 1, . . . , n} og denne tilhører ikke et affint underrum af R, det vil sige at (2.5) er op- 

fyldt. Hvis 

 

θ 

c0 + c1 log = 0 ∀0 < θ < 1, 

1 − θ 

kan vi tage θ = 1/2 hvoraf følger at c0 = 0, og dernæst kan vi tage θ = 1/4 hvoraf 

følger at c1 = 0. Det vil sige at (2.4) er opfyldt, og vi har vist at repræsentationen er 

minimal. Dette eksempel er meget simpelt: hvis vi har en eksponentiel familie med en 

repræsentation af dimension 1, vil repræsentationen altid være minimal så længe at 

der er mindst to sandsynlighedsmål i familien (hvis ordenen af familien er nul vil der 

kun være et sandsynlighedsmål i familien). 

2.4 Laplace- og kumulanttransform 

Laplacetransformen for T = t(X) under målet ν er 

 

 

c(ξ) = exp(ξ · t(x))ν(dx) = 

Rk exp(ξ · t)νT(dt) (2.10) 

X 

for ξ ∈ R k . Domænet for c(·) er Λ = {ξ ∈ R k |c(ξ) < ∞}. Lad os definere et sandsynlighedsmål 

˜P ξ på X , for ξ ∈ Λ, ved 

d ˜P ξ 

dν (x) = c(ξ)−1 exp(ξ · t(x)). (2.11) 

Så svarer P θ i (2.1) til ˜P φ(θ) her og a(θ) = c(φ(θ)) −1 . Klassen P er givet ved 

P = { ˜P ξ|ξ ∈ Λ0}, Λ0 = {φ(θ)|θ ∈ Θ}. 

Vi har altid at Λ0 ⊆ Λ. Hvis Λ0 = Λ kaldes familien P fuld, og hvis P er fuld og Λ er 

åben, kaldes familien regulær. Laplacetranformen for t(X) under ˜P ξ0 er 

 

X 

 

exp(ξ · t(x)) ˜P ξ0 (dx) = 

X 

exp((ξ + ξ0) · t(x)) 

ν(dx) = 

c(ξ0) 

Kumulanttransformen for t(X) under målet ν er defineret som 

κ(ξ) = ln c(ξ). 

Fra (2.12) har vi at kumulanttransformen af t(X) under ˜P ξ0 er 

κ ξ0 (ξ) = κ(ξ + ξ0) − κ(ξ0). 

c(ξ + ξ0) 

. (2.12) 

c(ξ0) 

Hvis κP er kumulanttransformen for t(X) under et sandsynlighedsmål P, kaldes de 

afledede af κP taget i nul for t(X)’s kumulanter. Bemærk at for kumulanttransformen af 

t(X) under ˜P ξ0 har vi 

∂kκξ0 ∂ 

(0) = 

kκ (ξ0) 

∂ξ i1 · · · ∂ξ ik 

∂ξ i1 · · · ∂ξ ik

2.4. LAPLACE- OG KUMULANTTRANSFORM 11 

Den første og anden kumulant er henholdsvis middelværdi og varians af t(X) under 

P, se (2.17) og (2.18) nedenfor. For en en-dimensional variable t(X) kaldes 

for henholdsvis skævheden og kurtosis. 

κ (3) 

P (0) 

(κ ′′ , 

P 

(0))3/2 

κ (4) 

P (0) 

(κ ′′ 

P 

(0))2 , 

Fremover vil jeg skrive P ξ for ˜P ξ, selvom dette kan give forvirring i forhold til det 

tidligere P θ. Vi lader E ξ betegne middelværdi mht. sandsynlighedsmålet P ξ. Desuden 

vil Λ blive omtalt som det fulde parameterområde for den eksponentielle familie. 

Sætning 2.6. Antag at t(·) opfylder (2.5). Det fulde parameterområde Λ = {ξ|c(ξ) < 

∞} er konvekst, og κ er strengt konveks på Λ, d.v.s. at κ(αξ1 + (1 − α)ξ2) < ακ(ξ1) + 

(1 − α)κ(ξ2) for alle ξ1, ξ2 ∈ Λ, ξ1 = ξ2, og alle 0 < α < 1. 

Bevis. Lad ξ1, ξ2 ∈ Λ. Hölders ulighed (JHJ 3.11) giver 

 

e (αξ 

1+(1−α)ξ2)·t(x) 

ν(dx) = {e ξ1·t(x) α ξ2·t(x) 1−α } {e } ν(dx) 

 

e ξ α 

1·t(x) 

ν(dx) 

≤ 

e ξ2·t(x) ν(dx) 

1−α 

= c(ξ1) α c(ξ2) 1−α < ∞, (2.13) 

så at αξ1 + (1 − α)ξ2 ∈ Λ, d.v.s. Λ er konvekst. Tager vi logaritmen i ovenstående 

ulighed, fås at κ(ξ) er en konveks funktion. Der gæder lighedstegn i Hölders ulighed, 

hvis og kun hvis 

e ξ 1·t(x) = Ke ξ2·t(x) n.s. − ν, 

for en konstant K, og dette er ensbetydende med at ξ1 = ξ2 ifølge (2.5). 

Sætning 2.7. Lad ξ ∈ Λ og antag at ξ ± h ∈ Λ. Så gælder 

E ξ|h · t(X)| n < ∞ ∀ n ∈ N. 

Specielt gælder, at hvis ξ ∈ intΛ, så eksisterer alle momenter af t(X) under P ξ. 

Bevis. Da |y| n /n! ≤ e y + e −y for alle y ∈ R, har vi 

 

|h · t(x)| n e ξ·t(x) 

ν(dx) ≤ n! 

e (ξ+h)·t(x) 

ν(dx) + 

e (ξ−h)·t(x) 

ν(dx) < ∞. 

Hvis ξ ∈ intΛ, vil ξ ± h ∈ Λ for alle små h. Derfor har vi, at E ξ|t j(X)| n < ∞ for alle 

j = 1, . . . , k og alle n. Hölders ulighed giver så, at 

E ξ|t1(X) n 1 · · · tk(X) n k| < ∞ for alle n1, . . . , n k. (2.14)


Sætning 2.8. Hvis ξ ∈ intΛ gælder der at 

∂ n c(ξ1, . . . , ξ k) 

∂ξ a 1 

1 . . . ∂ξa k 

k 

= c(ξ)E ξ {t1(X) a 1 · · · tk(X) a k}, (2.15) 

hvor a1 + · · · + a k = n. 

Bevis. Ifølge (2.14) eksisterer momenterne i (2.15). Påstanden i (2.15) kan vises ved 

induktion i n : Lad kuglen med centrum i ξ og radius ǫ0 være indeholdt i Λ. Antag at 

påstanden holder for alle a1, . . . , a k med a1 + · · · + a k = n og betragt situationen hvor 

vil ændre a j til a j + 1. Vi vil benytte at 

Så fås 

|e ǫt 

 

j − 1| = 

 

ǫ 

0 

∂ n+1 c(ξ1, . . . , ξ k) 

∂ξ a1 1 . . . ∂ξa j+1 

j 

tje ut 

 

jdu ≤ ǫ|tj|(e ǫ0tj −ǫ0t 

+ e j) ∀ |ǫ| < ǫ0. (2.16) 

. . . ∂ξ ak k 

= lim 1 

 

∂nc(ξ1, . . . , ξj + ǫ, . . . , ξk) − 

ǫ 

∂n 

c(ξ1, . . . , ξk) 

= lim 

 

= lim = 

∂ξ a 1 

1 . . . ∂ξa k 

k 

∂ξ a1 1 . . . ∂ξa k 

k 

t1(x) a1 · · · tk(x) ak ξ·t(x) 

e eǫtj(x) − 1 

ν(dx) 

 

ǫ 

t1(x) a 1 · · · tj(x) a j+1 · · · tk(x) a ke ξ·t(x) ν(dx) 

= c(ξ)E ξ{t1(X) a 1 · · · tj(X) a j+1 · · · tk(X) a k }, 

hvor det andet lighedstegn er induktionsantagelsen, og det tredje lighedstegn følger af 

(2.16) og sætningen om domineret konvergens. 

Bemærkning 2.9 Bemærk at Sætning 2.8 er et eksempel på, at vi må differentiere ind 

under integraltegnet. 

Benyttes Sætning 2.8 får vi følgende vigtige relationer for ξ ∈ intΛ, 

τ(ξ) := Eξt(X) = ∂κ 

(ξ) 

∂ξ 

(2.17) 

V(ξ) := Varξ(t(X)) = ∂2κ ∂τ 

(ξ) = 

∂ξ∂ξ ∗ ∂ξ∗(ξ) (2.18) 

Desuden har vi fra Observation 2.4 at hvis t(·) opfylder (2.5) så er 

Var ξ(t(X)) positiv definit for ξ ∈ intΛ. (2.19) 

Observation 2.10 Antag at t(·) opfylder (2.5). Hvis ξ1, ξ2 ∈ intΛ og ξ1 = ξ2, så er 

τ(ξ1) = τ(ξ2).

2.4. LAPLACE- OG KUMULANTTRANSFORM 13 

Bevis. 

(ξ2 − ξ1) · {τ(ξ2) − τ(ξ1)} = (ξ2 − ξ1) · 

= 

1 

0 

1 

0 

dτ(ξ1 + s(ξ2 − ξ1)) 

ds 

ds 

(ξ2 − ξ1)V(ξ1 + s(ξ2 − ξ1))(ξ2 − ξ1) ∗ ds > 0 

ifølge (2.19). 

Eksempel 2.11 (Normalfordelingen). 

Lad X være normalfordelt med middelværdi µ og varians σ 2 med (µ, σ 2 ) ∈ R × R+. 

Så er tætheden med hensyn til lebesguemålet m givet ved 

dP (µ,σ2 ) 

(x) == 

dm 

1 

√ 2πσ 2 

µ2 

exp{− } exp 

2σ2 µ 

σ 

2σ 

1 

x − x2 

2 2 

for x ∈ R. Dette er en eksponentiel familie med t(x) = (x, x2 ) og ϕ(µ, σ2 ) = ( µ 

I dette tilfælde er 

Λ0 = R × R−, 

og da området har ikke tomt indre er (2.4) opfyldt. Støtten for T er 

{(x, x 2 )|x ∈ R}, 

 

, 

σ2 , − 1 

2σ2). eftersom enhver kugle omkring (z, z 2 ) vil indeholde et interval af x-værdier, og dermed 

have positiv sandsynlighed. Da støtten ikke er indeholdt i et affint underrum af 

R 2 , er (2.5) opfyldt, og vi har vist at repræsentationen er minimal. Vi vil nu undersøge 

om familien er fuld. Vi skal da undersøge hvornår integralet 

 

R 

exp ξ1x + ξ2x 2 dx 

er endeligt. Hvis ξ2 ≥ 0 vil integranten gå mod uendelig for x gående mod enten +∞ 

eller −∞ og integralet er ikke endeligt. Tilbage er området Λ0 og vi har derfor vist at 

Λ = Λ0, det vil sige at familien er fuld. Da Λ også er åben er familien regulær. 

Laplacetransformen for T under lebesguemålet er 

 

c(ξ) = exp{ξ1x + ξ2x 2 }dx 

R 

 

= exp 

= 

− 1 

4 ξ2 1 /ξ2 

 

R 

 

π/(−ξ2) exp{− 1 

4 ξ2 1 /ξ2}. 

 

exp ξ2 x − 1 

2 ξ1/(−ξ2) 

2 dx 

Kumulanttransformen er derfor κ(ξ) = − 1 4 ξ2 1 /ξ2 − 1 2 log(−ξ2/π). Fra (2.17) får vi 

EξX = −ξ1 

, EξX 2ξ2 

2 = ξ2 1 

4ξ2 − 

2 

1 

. 

2ξ2 

Med ξ = (ξ1, ξ2) = (µ/σ 2 , −1/(2σ 2 )) bliver formlerne 

E (µ,σ 2 ) X = − µ(−2σ2 ) 

2σ 2 = µ, E (µ,σ 2 ) X2 = µ2 (4σ 4 ) 

4σ 4 

−2σ2 

− 

2 = µ2 + σ 2 .


Det er sommetider muligt at vise at en familie er fuld ved hjælp af følgende resultat. 

Observation 2.12 Lad Λ0 være et åbent område i R k . Hvis der for ethvert punkt ξ1 på 

randen af Λ0 gælder, at der eksisterer ξ0 ∈ Λ0, så at 

c(ξ) → ∞, 

for ξ → ξ1 langs liniestykket fra ξ0 til ξ1, så vil Λ0 = Λ. 

Bevis. Vi vil vise at c(ξ1) = ∞ for alle punkter ξ1 på randen af Λ0. Så følger det fra 

sætning 2.6 at Λ ikke kan være større end Λ0 (hvis ˜ξ ∈ Λ \ Λ0 så vil der, da Λ er 

konvekst, findes ξ1 ∈ Λ med ξ1 på randen af Λ0, men dette er en modstrid med c(ξ1) = 

∞). Vi laver et modstridsbevis. Antag at c(ξ1) < ∞. Så fra (2.13) har vi med ξ = αξ1 + 

(1 − α)ξ0, 0 < α < 1, 

c(ξ) ≤ c(ξ1) α c(ξ0) 1−α ≤ max{c(ξ1), c(ξ0)}, 

hvilket er en modstrid med at c(ξ) → ∞. Altså er c(ξ1) = ∞. 

Observation 2.12 bruges på den måde at for ξ ∈ Λ0 har vi at ξ = ϕ(θ) for et θ ∈ Θ og 

dermed 

c(ξ) = a(θ) −1 . 

Hvis derfor a(θ) går mod nul for θ gående mod randen af Θ og Λ0 er åbent i R k vil 

familien være fuld. 

Det næste lemma viser at Observation 2.12 har en invers: hvis c(ξ) → ∞ for ξ 

gående mod randen af Λ0, så vil familien ikke være fuld. 

Lemma 2.13 Lad ξ /∈ Λ og lad ξn ∈ Λ med ξn → ξ for n → ∞. Så vil c(ξn) → ∞. 

Bevis. Da exp{ξn · t(x)} ≥ 0 siger Fatou’s lemma (JHJ 3.5) at 

 

∞ = c(ξ) = lim inf exp{ξn · t(x)}ν(dx) 

n 

 

≤ lim inf exp{ξn · t(x)}ν(dx) 

n 

= lim inf c(ξn), 

n 

hvilket viser resultatet. 

2.5 Estimation 

Jeg betragter i dette afsnit den fulde eksponentielle familie (2.11) med ξ ∈ Λ = {ξ| 

c(ξ) < ∞}, og antager at fremstillingen er minimal. For den observerede værdi t = 

t(x) er log likelihood funktionen 

l(ξ) = l(ξ; t) = ξ · t − κ(ξ), ξ ∈ Λ. (2.20)

2.5. ESTIMATION 15 

Sætning 2.14. Antag at den eksponentielle familie er regulær og på minimal form. 

Da eksisterer der ˆξ = ˆξ(t) ∈ Λ, så at log likelihood funktionen (2.20) antager sin 

maksimumsværdi i ˆξ, hvis og kun hvis t ∈ intCt. Da fra Sætning 2.6 l(ξ) er strengt 

konkav, vil for t ∈ intCt estimatet ˆξ være entydigt bestemt og være løsning til ligningen 

∂l(ξ) 

∂ξ 

= t − ∂κ(ξ) 

∂ξ 

= t − τ(ξ) = 0, (2.21) 

d.v.s. ˆξ = τ −1 (t). 

Bevis. Vi viser først, at t ∈ intCt medfører, at l(ξ) antager sit maksimum på Λ. Vi 

bruger et modstrids bevis. Antag at l(ξn) er voksende, hvor ξn ∈ Λ og ξn går mod 

randen af Λ. Hvis følgen ξn er begrænset, kan vi tage en delfølge {nk}, så at ξn → k 

˜ξ /∈ Λ. Det følger af Lemma 2.13, at c(ξn ) → ∞ da c( k ˜ ξ) = ∞, og dermed fra (2.20), 

at l(ξn ) → −∞, hvilket er en modstrid. Hvis i stedet følgen ξn er ubegrænset, kan vi 

k 

tage en delfølge på formen ξn = u k kek, hvor ek er en enhedsvektor i Rk med ek → e, og 

uk → ∞. Så giver Fatou’s lemma 

lim inf e 

k 

−l(ξn 

 

) 

k = lim inf e 

k 

ukek·(t(x)−t) ν(dx) 

 

≥ lim inf e 

k 

ukek·(t(x)−t) ν(dx) 

≥ ∞ · ν({x : e · (t(x) − t) > 0} = ∞, 

hvor det sidste lighedstegn følger af, at t ∈ intCt. Altså har vi igen at l(ξn k ) → −∞, og 

dermed en modstrid. 

Vi skal nu vise, at hvis t /∈ intCt, så antager l(ξ) ikke sit maksimum på Λ. Vi vil 

vise, at for ethvert ξ0 ∈ Λ findes der en retning e , så at når vi forlader ξ0 i e’s retning 

vokser l(ξ). Da t /∈ intCt findes der en enhedsvektor e, så at 

Derfor vil 

ν({x|e · (t(x) − t)) > 0} = 0. 

e −l(ξ0+λe) 

 

= 

e λe·(t(x)−t) e ξ0·(t(x)−t) ν(dx) (2.22) 

være aftagende i λ > 0. Den strenge konkavitet af l(ξ) giver, at (2.22) er strengt aftagende, 

og l(ξ) har derfor ikke maksimum i ξ0. 

Bemærkning 2.15 Bemærk at Sætning 2.14 viser, at i en regulær familie på minimal 

form, er 

τ(Λ) = intCt, (2.23) 

eftersom τ(ξ) = t medfører at l(·; t) har maksimum i ξ. Fra Observation 2.10 har vi 

altså, at τ(·) er en en-til-en afbildning af Λ på intCt. Da τ fra Sætning 2.8 er uendelig 

ofte differentiabel, gælder det samme for ˆξ(·) = τ −1 (·) : intCt → Λ. 

Den næste sætning angiver jeg uden bevis. 

Sætning 2.16. For en fuld eksponentiel familie med minimal repræsentation (2.11) 

gælder at


(i) t ∈ intCt ⇒ l(ξ; t) har entydigt bestemt maksimumspunkt ˆξ(t), 

(ii) t /∈ intCt ⇒ l(ξ; t) antager ikke sit supremum for ξ ∈ Λ , 

(iii) t ∈ τ(intΛ) ⊆ intCt ⇒ ˆξ(t) er den entydigt bestemte løsning til ligningen τ(ξ) = 

t, med ξ ∈ intΛ. 

Bemærk at hvis t ∈ intCt\τ(intΛ), så skal det entydigt bestemte ˆξ(t) findes på randen 

af Λ. Et eksempel til belysning af situationen i Sætning 2.16 er tætheden 

1 

exp(−|x| + θx − κ(θ)), 

1 + x4 hvor Ct er hele R og τ(int Λ) er et endeligt interval. 

Jeg slutter dette afsnit med at se på situationen med n uafhængige og identisk fordelte 

variable X1, . . . , Xn, hvor fordelingen tilhører den eksponentielle familie (2.11). 

Den simultane tæthed er 

dPn ξ 

dνn (x1, . . . , xn) = c(ξ) −n 

exp ξ · t(xi) , 

d.v.s. at vi har igen en eksponentiel familie af orden k idet : 

Observation 2.17 Hvis 1, t1(x), . . . , t k(x) er lineært uafhængige n.s.−ν, så er også 1, 

∑ n 1 t1(x i), . . . , ∑ n 1 t k(x i) lineært uafhængige n.s.−ν n . 

Bevis. 

⇓ 

⇓ 

n 

c0 + c1 ∑ 

1 

t1(x i) + · · · + c k 

n 

∑ 

1 

n 

∑ 

1 

t k(x i) = 0 n.s. − ν n 

∃ x2, . . . , xn så at der n.s-ν mht. x1 gælder: 

n 

n 

c0 + c1 t1(xi) + · · · + ck tk(xi) + c1t1(x1) + · · · + cktk(x1) = 0 

∑ 2 

∑ 2 

c k = · · · = c1 = c0 = 0. 

Log likelihood funktionen er 

ln(ξ) = ξ · 

n 

∑ 

1 

t(x i) − nκ(ξ) = nl(ξ; ¯t) 

med ¯t = ∑ t(x i)/n, og hvor l(ξ; t) er givet i (2.19). Estimation baseret på x1, . . . , xn er 

derfor som før med t erstattet af ¯t, og resultaterne fra Sætningerne 2.14 og 2.16 kan 

bruges.

2.6. MARGINALE OG BETINGEDE FORDELINGER 17 

Eksempel 2.18 (Normalfordelingen). 

I eksempel 2.11 så vi at normalfordelingerne med middelværdi µ og varians σ 2 med 

(µ, σ 2 ) ∈ R × R+ udgør en regulær eksponentiel familie. Den kanoniske observator er 

t(x) = (x, x 2 ) og støtten for T er 

Den konvekse støtte for T er derfor 

{(x, y) ∈ R 2 |y = x 2 }. 

Ct = {(x, y) ∈ R 2 |y ≥ x 2 }. 

Da ethvert punkt (x, x 2 ) er på randen af Ct vil maksimum likelihood estimaterne for 

(µ, σ 2 ) eller ξ = (µ/σ 2 , −1/(2σ 2 ) ikke eksistere når vi blot har én observation. Når vi 

istedet har n > 1 observationer x1, . . . , xn eksisterer maksimum likelihood estimaterne 

med sandsynlighed 1. Dette er fordi 

1 

n 

n 

∑ 

i=1 

(x i, x 2 i 

1 

) = 

n (x1, x 2 1 

1 ) + · · · + 

n (xn, x 2 n) ∈ int Ct 

hvis der blot er to observationer der er forskellige. Udsagnet følger af at x → x 2 er en 

strengt konveks kurve og derfor vil en konveks kombination af forskellige punkter på 

denne kurve ikke ligge på kurven. 

2.6 Marginale og betingede fordelinger 

Vi betragter igen en fuld eksponentiel familie med minimal repræsentation (2.11). Lad 

ξ = (ξ (1) , ξ (2) ) og t(x) = (t (1) (x), t (2) (x)) være en opsplitning i de første m og de sidste 

(k − m) koordinater med 1 ≤ m < k. Hvad kan vi sige om de marginale fordelinger 

for t (2) (X) og de betingede fordelinger af t (1) (X) givet t (2) (X)? 

Observation 2.19 Der gælder generelt følgende formel for marginale tætheder 

 

dQU 

dQ 

(u) = EP (X) | U = u . 

dPU 

dP 

Bevis. Se afsnit 11.4. 

Benyttes denne for den marginale tæthed for t (2) (X) fås 

dP ξT (2) 

dP ξ0T (2) 

(v) = E ξ0 

= c(ξ0) 

c(ξ) E ξ0 

dPξ 

dP ξ0 

 

exp 

(X) | t (2) 

(X) = v 

 

(ξ (1) − ξ (1) 

0 ) · t(1) (X) 

 

| t (2) 

(X) = v exp 

(ξ (2) − ξ (2) 

0 

 

(2.24) 

 

) · v . 

Hvis vi ser på delklassen P0 = {P ξ|ξ ∈ Λ0} med Λ0 = {(ξ (1) , ξ (2) )|ξ (1) = ξ (1) 

0 }, er 

(2.24) på formen (2.1), og de marginale fordelinger af t (2) (X) udgør en ekponentiel 

familie P 0T (2).


Hvis P er fuld, er P 0T (2) også fuld, idet 

 

exp[α · v]P ξ0T (2)(dv) = Eξ0 exp[α · t(2) (X)] = Eξ0 exp[0 · t(1) (X) + α · t (2) (X)] 

som er endelig, hvis og kun hvis (0, α) = ξ − ξ0 for et eller andet ξ ∈ Λ, d.v.s. α = ξ (2) − 

ξ0 (2) for ξ ∈ Λ, og vi får netop klassen P 0T (2). Hvis Λ er åben, er {α|ξ0 + (0, α) ∈ Λ} en 

åben mængde i R k−m , d.v.s. hvis P er regulær, er P 0T (2) også regulær. 

Vi vender os nu mod de betingede fordelinger. 

Observation 2.20 Lad P og Q være to sandsynlighedsmål på (X , A) med Q ≪ P. Lad 

(Y, B) være et andet målrum og lad t : X → Y være en målelig afbildning. Definer 

f(x) = dQ 

 

(x), g(t) = 

dP 

Så gælder der at Q T (·|t) ≪ P T (·|t) og 

dQ(·|t) 

(x) = 

dP(·|t) 

f(x)P T (dx|t), D = {t|0 < g(t) < ∞}. 

⎧ 

⎨ 

f(x) 

g(t) 

t ∈ D 

⎩ 

1 t /∈ D. 

Bemærk at PT({t|g(t) = ∞}) = 0 og dermed også QT({t|g(t) = ∞}) = 0. Desuden 

har vi fra Observation 2.19 også at QT({t|g(t) = 0}) = 0. Vi har altså at QT(D c ) = 0. 

Bevis. Se afsnit 11.4. 

Eksempel 2.21. 

Lad Q være fordelingen for (X1, . . . , Xn), hvor X-erne er uafhængige og 

Q(X i = 1) = 1 − Q(X i = 0) = θ, 

og lad P være den tilsvarende fordeling med θ = 1/2. Med U + X1 + · · · + Xn er 

og 

Fra Observation 2.20 får vi 

dQ(·|U = u) 

(x) = 

dP(·|U = u) 

dP 

d♯n(x) = 

 

1 

n , 

2 

dQ 

d♯ n(x) = θu (1 − θ) n−u , 

dQ 

dP (x) = 2n θ u (1 − θ) n−u . 

2 n θ u (1 − θ) n−u 

EP(2 n θ u (1 − θ) n−u |U = u) = 

2 n θ u (1 − θ) n−u 

2 n θ u (1 − θ) n−u EP(1|U = u) 

hvilket viser at den betingede fordeling af (X1, . . . , Xn) givet U = u er den samme 

uanset værdien af θ. 

= 1,

2.7. KOMPLETHED AF DEN MINIMALKANONISKE OBSERVATOR 19 

For den betingede fordeling af X givet t (2) (X) = u får vi 

dP ξ(·|t (2) (X) = u) 

dP ξ0 (·|t(2) (X) = u) = 

= 

e (ξ−ξ0)·t(x) 

E ξ0 (e(ξ−ξ0)·t(X) |t (2) (X) = u) 

e (ξ(1) −ξ (1) 

0 )·t(1) (x) 

E ξ0 (e(ξ(1) −ξ (1) 

0 )·t(1) (x) |t (2) (X) = u) 

For en fast værdi af u udgør de betingede fordelinger således en eksponentiel familie. 

Denne betingede familie er ikke nødvendigvis fuld, selvom P er fuld. 

Ovenfor betragtede vi de første m og sidste k − m koordinater i ξ og t(x). Generelt 

kan vi lade A2 være en k × (k − m) matrix af fuld rang k − m. Denne supplerer vi med 

A1 : k × m så at 

A = (A1, A2) 

er en invertibel k × k matriks. Da 

ξ · t(x) = ξt(x) ∗ = [ξA ∗−1 ][t(x)A] ∗ , 

kan vi opskrive P som en eksponentiel familie med minimal kanonisk observator 

˜t(x) = t(x)A og minimal kanonisk parameter ˜ξ = ξA ∗−1 . Vi har derfor: 

Sætning 2.22. Lad P være en regulær familie og lad A være som ovenfor. Så udgør 

de marginale fordelinger for ˜t (2) (X) = t(X)A2 i delmodellen med ˜ξ (2) fast en regulær 

eksponentiel familie. 

Bemærkning 2.23 Hvis vi betragter en delmodel givet ved {P ξ|ξ ∈ ˜Λ}, hvor ˜Λ ⊂ Λ 

er åben, vil det kanoniske parameterområde for de marginale fordelinger af t(X)A2 

under ˜ξ (2) fast også være åben. Når det kanoniske parameterområde er åbent taler vi 

om en åben eksponentiel familie. 

2.7 Komplethed af den minimalkanoniske observator 

For en general klasse P af sandsynlighedsmål på målrummet (X , A), og en generel 

observator t : (X , A) → (Y, B) med værdier i målrummet (Y, B), skal jeg nu definere 

komplethed. Intuitivt skal vi formalisere, at klassen P er stor nok til, at en funktion er 

entydigt fastlagt ud fra dens middelværdier under P, P ∈ P. 

Observatoren T = t(X) siges at være komplet under P (henholdsvis begrænset komplet) 

hvis der for enhver funktion f : (Y, B) → (R, B(R)) (henholdsvis enhver begrænset 

funktion) med 

 

EP f(T) = f(t(x))P(dx) = 0 ∀ P ∈ P, 

gælder at 

f(t(x)) = 0 n.s. − P for alle P ∈ P. 

Observation 2.24 Hvis T er komplet så er T også begrænset komplet. 

Observation 2.25 Hvis T er komplet så er også ˜T = g(T) komplet, hvor g er en målelig 

afbildning fra Y til ˜Y.


Bevis. Antag at EP f( ˜T) = EP f(g(T)) = 0 for alle P ∈ P. Heraf følger at f(g(t(x))) = 

f(˜t(x)) = 0 n.s.-P for alle P ∈ P. 

Sætning 2.26. Lad P = {P ξ|ξ ∈ Λ0} være en eksponentiel familie på minimal form 

dPξ 

dµ (x) = a(ξ)b(x)eξ·t(x) , x ∈ X , ξ ∈ Λ0 ⊆ R k . 

Vi antager ikke her, at Λ0 er det fulde parameter område. Hvis intΛ0 = ∅, er T = t(X) 

komplet under P = {P ξ|ξ ∈ Λ0}. 

Bevis. Lad ξ0 ∈ Λ0 og lad f : Rk → R opfylde 

 

0 = a(ξ)b(x)e ξ·t(x) f(t(x))µ(dx) = a(ξ) 

 

a(ξ0) 

e (ξ−ξ0)·t(x) f(t(x))Pξ0 (dx), (2.25) 

for alle ξ ∈ Λ0. Lad f + (t) = f(t)1( f(t) > 0) og f − (t) = − f(t)1( f(t) < 0), og definer 

de to mål ν + og ν − på (R k , B(R k )) ved 

dν + 

dP ξ0T 

(t) = f + (t) og dν− 

(t) = f 

dPξ0T − (t). 

Disse to mål er endelige, idet f er Pξ-integrabel for alle ξ ∈ Λ0. Så viser (2.25), at 

 

e (ξ−ξ0)·t 

 

+ 

ν (dt) = e (ξ−ξ0)·t − 

ν (dt) ∀ ξ ∈ Λ0. 

Denne ligning siger, at Laplacetransformerne for de to mål ν + og ν − stemmer overens 

på Λ0 − ξ0. Da int(Λ0 − ξ0) = ∅ følger det af JHJ, afsnit 4.19, at ν + = ν − . Dette giver 

til gengæld, at 

f + (t) = f − (t) n.s. − P ξ0T, 

og dermed fra definitionen af f + og f − , at 

Observationen 2.2 giver så, at 

f(t) = 0 n.s. − P ξ0T. 

f(t(x)) = 0 n.s. − P ξ for alle ξ ∈ Λ0. 


Lad X være binomialfordelt med antalsparameter n og sandsynlighedsparameter θ. Så 

siger sætningen ovenfor at hvis 

E θ f(X) = 0 ∀ 0 < θ < 1, 

så vil der gælde at f(0) = f(1) = · = f(n) = 0. Lad os vise dette direkte. Vi har altså 

at 

 

θ x (1 − θ) n−x = 0 

n 

n 

∑ f(x) 

x 

x=0 

for alle θ. Lader vi nu θ → 0 forsvinder alle led i summen pånær det første, som bliver 

f(0). Vi kan altså slutte at f(0) = 0. Vi dividerer nu ligningen ovenfor med θ og lader 

igen θ → 0. Dette giver os at f(1) = 0, og sådan fortsætter vi indtil vi har vist at f er 

identisk nul.

2.8. OPGAVER 21 

2.8 Opgaver 

Opgave 2.1 

Opskriv hver af familierne nedenfor på eksponentiel familieform. Angiv støtten for 

den kanoniske observator T, den konvekse støtte Ct, samt variationsområdet Λ0 for 

den kanoniske parameter og det fulde parameterområde Λ. Udregn desuden middelværdi 

og varians for den kanoniske observator. 

a) Binomialfordelingerne med antalsparameter n fast og sandsynlighedsparameter 

0 < θ < 1. 

b) Poissonfordelingerne med parameter λ > 0. Find i dette tilfælde også skævhed 

og kurtosis af en poissonfordelt variabel. 

c) Normalfordelingerne med middelværdi µ og varians σ 2 med (µ, σ 2 ) ∈ R × R+. 

d) Gammafordelingerne med formparameter λ og invers skalaparameter β med 

(λ, β) ∈ R 2 + . 

Opgave 2.2 

Find det fulde parameterområde Λ for den eksponentielle familie med tætheder 

i tilfældene 

Her er m Lebesguemålet på R. 

dP ξ 

dm (x) = a(ξ)b(x)eξx , x ∈ R, 

(i) b(x) = e −|x| og (ii) b(x) = e−|x| 

. 

1 + x2 Opgave 2.3 

Betragt en eksponentiel familie på formen (2.1) med t(x) ∈ R k . Vis, at hvis støtten for 

T er begrænset, og familien er ikke tom, så er det fulde parameterområde Λ lig med 

R k . 

Opgave 2.4 

Denne opgave er en hjælp til jer, når I skal vise affin uafhængighed næsten sikkert. 

Lad (X , A, µ) være et metrisk målrum, hvor målet µ giver strengt positivt mål til 

enhver åben kugle. Lad desuden t1, . . . , t k være kontinuerte funktioner fra X ind i R. 

Vis, at hvis t1(·), . . . , t k(·) er affint uafhængige som funktioner på X , så er de også 

affint uafhængige næsten sikkert med hensyn til µ. 

Vink: Lad (α0, . . . , α k) = 0. Så findes x0 ∈ X , så at α0 + α1t1(x0) + · · · + α kt k(x0) = 0. 

Overvej, at 

{x ∈ X |α0 + α1t1(x) + · · · + α kt k(x) = 0} 

er en åben og ikke-tom mængde, og dermed har positivt µ-mål.


Opgave 2.5 

Denne opgave viser, at den minimal kanoniske observator kan være komplet, selv om 

det indre af det kanoniske paramterområde er tomt. 

Lad X og Y være uafhængige og Poissonfordelte med EX = θ −1 og EY = exp(−θ), 

hvor parameteren θ varierer i R+. Vis, at dette er en eksponentiel familie af orden 2 

med kanonisk observator t(x, y) = (x, y) og kanonisk parameter (− ln θ, −θ). Vis, ved 

direkte undersøgelser, at (X, Y) er komplet. 

Vink: Hvis E θ f(X, Y) = 0 for alle θ, vis da først at f(0, 0) = 0 ved at lade θ → ∞, 

dernæst f(k, 0) = 0 for alle k > 0, og endelig at f(k, l) = 0 for alle k > 0 og l > 0. 

Opgave 2.6 

Betragt en eksponentiel familie på minimal form 

dP θ 

dµ (x) = a(θ)b(x)eϕ(θ)·t(x) , 

hvor ϕ : Θ → R k og Θ er et åbent område i R k . Vis at 

og 

E θt(X) = τ(ϕ(θ)) = 

V θt(X) = 

∂(− ln a(θ)) 

∂θ 

∂ϕ ∗ 

 

∂ϕ 

∂θ∗ −1 ∂Eθt(X) 

∂θ∗ . 

Opgave 2.7 

Lad (X1, Y1), (X2, Y2), . . . , (Xn, Yn) være n uafhængige observationer fra den todimensionale 

normalfordeling med middelværdivektor (0, 0) og variansmatrix 

 

1 ρ 

ρ 1 

∂θ 

−1 

hvor korrelationskoefficienten ρ har intervallet (−1, 1) som variationsområde. 

1) Vis at den således fastlagte familie af fordelinger for samplet (X1, Y1), . . . , (Xn, Yn) 

er eksponentiel, bestem ordenen af denne eksponentielle familie, og angiv en 

minimal kanonisk observator og en minimal kanonisk parameter. Er familien 

fuld? 

2) Opstil likelihoodligningen for ρ. 

Opgave 2.8 

Antag, at X−1 og X1 er uafhængige og Poissonfordelte med middelværdi 

λ i = 1 2 eα+iβ , i = −1 og 1. 

Lad P = {P (α,β) : (α, β) ∈ R 2 } betegne klassen af fordelinger for X = (X−1, X1).


1) Vis, at P er en regulær eksponentiel familie af orden 2. 

2) Angiv definitionsområdet D for maximum likelihood estimatoren (ˆα, ˆ β) og vis, 

at hvis x ∈ D, så er 

 

ˆα(x) = ln 2 

X−1X1 

og 

ˆβ(x) = ln 

 

X1 

X−1 

3) Vis, at informationsfunktionen svarende til observationen (x−1, x1) er 

4) Lad 

j(α, β) = 

 

e α cosh(β) e α sinh(β) 

e α sinh(β) e α cosh(β) 

. 

 

. 

τ = e α cosh(β) (= E (α,β)(X−1 + X1)). 

Vis, at P kan parametriseres ved (τ, β) samt at variationsområdet for (τ, β) er 

(0, ∞) × (−∞, ∞). 

Opgave 2.9(Den logaritmiske fordeling) 

Definer sandsynlighedsmålet P θ, 0 < θ < 1, på X = {1, 2, . . .} ved 

dPθ θx 

(x) = (− log(1 − θ))−1 

d♯ x , 

hvor ♯ er tællemålet. Opskriv familien på eksponentiel familieform. Angiv støtten for 

den kanoniske observator T, den konvekse støtte Ct, samt variationsområdet Λ0 for 

den kanoniske parameter og det fulde parameterområde Λ. Udregn desuden middelværdi 

og varians for den kanoniske observator. 

Opgave 2.10(Den negative binomialfordeling) 

Definer sandsynlighedsmålet Pθ, 0 < θ < 1, på X = {0, 1, 2, . . .} ved 

 

dPθ κ + x − 1 

(x) = 

θ 

d♯ x 

x (1 − θ) κ , 

hvor ♯ er tællemålet og κ > 0 er en fast parameter. Opskriv familien på eksponentiel familieform. 

Angiv støtten for den kanoniske observator T, den konvekse støtte Ct, samt 

variationsområdet Λ0 for den kanoniske parameter og det fulde parameterområde Λ. 

Udregn desuden middelværdi og varians for den kanoniske observator. 

Opgave 2.11(Den inverse gauss fordeling) 

Definer sandsynlighedsmålet P (χ,ψ), (χ, ψ) ∈ R 2 + , på X = R+ ved 

dP (χ, ψ) 

(x) = 

dm 

√ χ exp( √ χψ) 

√ 2πx 3 

 

exp − χ 

2x 

 

ψx 

− , 

2


hvor m er lebesguemålet. Opskriv familien på eksponentiel familieform. Angiv støtten 

for den kanoniske observator T, den konvekse støtte Ct, samt variationsområdet 

Λ0 for den kanoniske parameter og det fulde parameterområde Λ. Udregn desuden 

middelværdi og varians for den kanoniske observator.

Kapitel 3 

Sufficiens 

3.1 Indledning og definition 

Når data i et forsøg er indsamlet, vil man naturligt stille sig spørgsmål som “Hvad 

er de væsentlige træk i data?” og “Hvor er informationen om de ukendte aspekter i 

de forhold, der undersøges?” Med andre ord vil vi gerne reducere et stort og uoverskueligt 

datamateriale til nogle få interpretérbare størrelser. Som nævnt i indledningen 

betragter vi i dette notesæt udelukkende parametriske modeller. Vores udgangspunkt 

er altså, at vi har valgt en parametrisk model til at beskrive forsøget, og vi ønsker nu 

at undersøge hvilke reduktioner i data, vi kan udføre uden at miste information om 

den ukendte parameter. Hvis data er x , og T = t(x) er en reduktion af data, vil vi formalisere 

at T er sufficient for parameteren ved at forlange, at den betingede fordeling 

af X givet t(X) = t ikke afhænger af den ukendte parameter. Ideen er, at vi altid kan 

betragte forsøget som bestående af to trin: i første trin observeres T = t og dernæst 

observeres x fra den betingede fordeling af X givet T = t. Det sidste trin giver ingen 

information om parameteren, eftersom sandsynlighederne for de forskellige udfald er 

de samme for alle parameterværdierne. Man kan sige, at denne begrundelse bygger på 

et ikke nærmere specificeret selvvalgt princip for inferens, og lad mig derfor påpege, at 

de forskellige optimalitetsegenskaber, vi skal betragte, medfører, at vi kan nøjes med 

at betragte en sufficient reduktion af data. Som et simpelt eksempel kan jeg nævne, at 

maksimum likelihood estimatet kun afhænger af data gennem en sufficient observator. 

Når først begrebet “en sufficient observator” er indført, melder der sig to oplagte 

spørgsmål. Det ene er, hvordan vi afgør, at en given observator er sufficient? Vi skal 

afklare dette spørgsmål gennem den såkaldte faktoriseringssætning. Denne siger, at hvis 

tætheden for x er et produkt af to led, hvor det ene ikke afhænger af parameteren 

og det andet kun afhænger af x gennem t(x), så er T sufficient. Det andet spørgsmål 

går på, om vi kan finde en minimal sufficient observator? Altså forsøge at finde den 

størst mulige reduktion af data. Svaret her er - løst sagt - at likelihoodfunktionen er en 

minimal sufficient observator. 

Jeg giver nu den matematiske definition på en sufficient observator. Det basale udfaldsrum 

er målrummet (X , A). Den statistiske model består af en klasse P af sandsynlighedsmål 

på (X , A). Lad (Y, B) være et andet målrum og lad t : X → Y være en 

målelig afbildning. 

25

26 KAPITEL 3. SUFFICIENS 

Definition 3.1 Antag at der for ethvert P ∈ P eksisterer en regulær betinget sandsynlighed 

PT (A|t), A ∈ A , t ∈ Y, af P givet T. Lad P0 være et vilkårligt element i P. 

Observatoren T kaldes sufficient for P hvis PT 0 (·|·) er en regulær betinget sandsynlighed 

af P givet T for ethvert P ∈ P, d.v.s. 

 

B 

P T 0 (A|t)PT(dt) = P(A ∩ t −1 (B)), ∀ A ∈ A, ∀ B ∈ B, ∀ P ∈ P. (3.1) 

Regulære betingede sandsynligheder er betingede sandsynligheder P T (·|·) af P givet 

T, som opfylder 

(i) P T (·|t) er et sandsynlighedsmål på X for alle t ∈ Y, 

(ii) P T (A|·) er målelig for alle A ∈ A, 

(iii) 

B PT (A|t)PT(dt) = P(A ∩ t −1 (B)) ∀ A ∈ A, ∀ B ∈ B. 

Formuleret sprogligt siger definition 3.1, at alle de regulære sandsynligheder P T (·|·), 

P ∈ P, er identiske. For at gøre notationen mere overskuelig vil jeg ofte betegne 

den fælles betingede sandsynlighed med π(A|t), hvor så ifølge (i) og (ii) π(·|·) er en 

Markovkerne. Jeg vil også ofte skrive P(A|T = t) i stedet for P T (A|t). 

Jeg antager i hele dette kapitel, at regulære betingede sandsynligheder eksisterer, 

og nævner det derfor ikke eksplicit i det følgende. Det er vist for nylig, at regulære 

betingede sandsynligheder eksisterer i næsten alle situationer, og jeg vil derfor ikke 

her komme ind på de nødvendige regularitetsbetingelser. I opgave 3.2 og 3.3 er det 

beskrevet hvordan den generelle definition på en regulær betinget sandsynlighed passer 

sammen med mere velkendte definitioner i specialtilfælde. Intuitivt forventer vi 

generelt at P T (T = t|t) = 0. I JHJ 10.3 er det imidlertid vist at dette ikke altid holder. 

Vi må forlange at grafen {(x, t(x)|x ∈ X } tilhører produkt sigma-algebraen A × B. 

Ifølge JHJ opgave 1.83, 1.84, og 1.89 vil dette være opfyldt hvis Y er et metrisk rum 

med en tællelig tæt mængde og B er Borel sigma-algebraen. Specielt er vores intuitive 

fornemmelse at P T (T = t|t) = 0 altså korrekt, hvis t afbilder ind i R k . 

Jeg har i afsnit 11.3, 11.4 og 11.5 skrevet nogle vigtige resultater ned for betingede 

middelværdier og betingede sandsynligheder. 

3.2 Tilfældet med diskret udfaldsrum X 

Når udfaldsrummet X er diskret, er det nemt at angive de betingede sandsynligheder: 

⎧ 

⎪⎨ 

P(X=x) 

P(T=t) 

P(X = x|T = t) = 

⎪⎩ 

0 

hvis P(T = t) > 0 og t(x) = t 

hvis t(x) = t 

hvis P(T = t) = 0 og t(x) = t 

(3.2) 

qt 

hvor qt er en vilkårlig sandsynlighed med ∑x qt(x) = 1. Det er derfor nemt at angive 

om en observator T er sufficient eller ej.

3.3. DET GENERELLE TILFÆLDE 27 

Sætning 3.2. (Faktoriseringssætningen i det diskrete tilfælde) 

Observatoren T er sufficient for P, hvis og kun hvis der eksisterer en funktion h : X → 

R og for ethvert P ∈ P eksisterer en funktion gP : Y → R, så at 

Bevis. Hvis (3.3) er opfyldt, vil 

og 

P(X = x) = gP(t(x))h(x) ∀ x ∈ X . (3.3) 

 

P(T = t) = gP(t)H(t), hvor H(t) = ∑ 

z:t(z)=t 

h(z), 

⎧ 

⎨ h(x)/H(t) hvis t(x) = t og H(t) > 0 

P(X = x|T = t) = 0 

⎩ 

qt(x) 

hvis t(x) = t 

hvis H(t) = 0, og t(x) = t 

som ikke afhænger af P, og T er derfor sufficient. 

Omvendt, hvis den betingede sandsynlighed i (3.2) ikke afhænger af P, og lad os 

betegne den med π(x|t), så fås 

P(X = x) = P(T = t(x))π(x|t(x)), 

som er på formen (3.3). 

3.3 Det generelle tilfælde 

Jeg vil nu betragte et generelt målrum (X , A) og en klasse P af sandsynlighedsmål, 

som er domineret af et σ-endeligt mål µ , d.v.s. P ≪ µ for alle P ∈ P. Lad os først 

registrere at µ er ækvivalent med et sandsynlighedsmål. 

Lemma 3.3 Der eksisterer en målelig funktion ϕ fra X ind i R med ϕ(x) > 0 og 

d ˜µ 

ϕ(x)µ(dx) = 1. Målet ˜µ defineret ved dµ (x) = φ(x) er således et sandsynlighedsmål 

ækvivalent med µ. 

Bevis. Da µ er σ-endeligt eksisterer der en følge An ∈ A, n = 1, . . ., (eventuelt endelig) 

der vokser op mod X med µ(An) < ∞. Vi kan antage at An ⊂ An+1 og µ(Cn) > 0 med 

Cn = An\An−1 og C1 = A1. Vi definerer da 

ϕ(x) = 

∞ 

∑ anµ(Cn) 

1 

−1 1Cn (x), 

hvor an er positive tal med ∑ ∞ 1 an = 1. Denne funktion har de ønskede egenskaber. 

Sætning 3.4. (Faktoriseringssætningen generelt) 

Lad P være domineret af det σ -endelige mål µ. Så er T sufficient, hvis og kun hvis der 

eksisterer en målelig funktion k : X → R og for ethvert P ∈ P en målelig funktion 

gP : Y → R, så at 

dP 

dµ (x) = gP(t(x))k(x). (3.4)


Bevis. Vi viser først at (3.4) medfører at T er sufficient. Lad ˜µ være sandsynlighedsmålet 

fra Lemma 3.3. Så siger antagelsen (3.4) at 

dP 

d ˜µ (x) = gP(t(x)) ˜ k(x), k(x) ˜ 

k(x) 

= . (3.5) 

φ(x) 

Vi vil vise at T er sufficient ved at konstruere en markovkerne og vise at denne kan 

bruges som betinget sandsynlighed givet T under P for ethvert P ∈ P. 

Definer 

 

h(t) = ˜k(x) ˜µ T (dx|t), D = {t|0 < h(t) < ∞}. 

Fra Observation 2.17 og (3.5) har vi 

 

dPT 

(t) = gP(t(x)) 

d ˜µT 

˜ k(x) ˜µ T (dx|t) = gP(t)h(t), 

og 

PT(D c 

) = 

Dc gP(t)h(t) ˜µT(dt) = 0, 

da integralet vil være enten 0 eller uendelig, men sandsynligheden skal være mindre 

end eller lig med 1. Definer nu 

f(x|t) = 

 

˜k(x) 

h(t) 

t ∈ D 

1 t /∈ D, 

 

F(A|t) = 

A 

f(x|t) ˜µ T (dx|t). 

Så er F en markovkerne og denne vil være vores kandidat til den fælles betingede 

sandsynlighed for P ∈ P. Da 

 

F(A|t)PT(dt) = 

B 

 

(11.1) = 

 

= 

B∩D 

 

 

A 

˜k(x) 

h(t) ˜µT 

(dx|t) gP(t)h(t) ˜µT(dt) 

1B∩D(t(x))1A(x)gP(t(x)) ˜ k(x) ˜µ(dx) 

1B∩D(t(x))1 A(x)P(dx) 

= P(A ∩ t −1 (B)) 

ses at F er betinget sandsynlighed givet T under P og T er derfor sufficient. 

For at vise den omvendte implikation antager vi nu at T er sufficient og skal vise 

(3.4). Lad π(·|·) være den fælles betingede sandsynlighed for P ∈ P, og lad sandsynlighedsmålet 

˜µ være som ovenfor. Da P har tæthed m.h.t. ˜µ definerer vi 

Idet 

gP(t) = dPT 

(t) og 

d ˜µT 

˜ k(x) = k1(x, t(x)) med k1(x, t) = dπ(·|t) 

d ˜µ T (·|t) (x). 

 

 

P(A) = π(A|t)PT(dt) = 1A(x)π(dx|t) PT(dt) 

 

= 1A(x)k1(x, t) ˜µ T 

(dx|t) gP(t) ˜µT(dt) 

 

= 1A(x)gP(t(x)) ˜ k(x) ˜µ(dx)

3.4. MINIMAL SUFFICIENTE OBSERVATORER 29 

ses det at P har tæthed gP(t(x)) ˜ k(x) m.h.t. ˜µ. Dermed har vi 

dP dP ˜µ 

(x) = (x)d 

dµ d ˜µ dµ (x) = gP(t(x)) ˜ d ˜µ 

k(x) (x) = gP(t(x))k(x), 

dµ 

hvor k(x) er produktet af de to sidste tætheder. Hermed har vi vist (3.4). 

3.4 Minimal sufficiente observatorer 

Det er klart, at X selv er sufficient for P, men dette er ikke et særligt interessant udsagn. 

Vi ønsker i stedet at finde en sufficient observator T med “så få værdier som muligt”. 

Vi definerer derfor: 

Definition 3.5 En observator T0 = t0(X), t0 : (X , A) → (Y0, B0), siges at være minimal 

sufficient for P såfremt 

(i) T0 er sufficent , 

(ii) hvis T = t(X), t : X → Y, er en sufficient observator, så eksisterer der en funktion 

f : (Y, B) → (Y0, B0), så at 

t0(x) = f(t(x)) n.s. − P ∀ P ∈ P. (3.6) 

Jeg vil starte med to lemmaer, der kan hjælpe m.h.t. om der eksisterer en funktion 

f , så at (3.6) er opfyldt. Vi antager som før, at P er domineret af et σ -endeligt mål µ. 

Det første lemma er en hjælp til at klare “n.s.-P ∀ P ∈ P". Vi vil konstruere et sandsynlighedsmål 

λ så at nulmængderne for λ er de samme som de fælles nulmængder for 

familien P. 

Lemma 3.6 Hvis P er domineret af et σ-endeligt mål, eksisterer der en tællelig delmængde 

{Pn} ∞ n=1 af P, så at der for A ∈ A gælder 

Pn(A) = 0 ∀ n ⇒ P(A) = 0 ∀ P ∈ P. 

Definer λ = ∑ ∞ n=1 1 

2 n Pn. Så er λ et sandsynlighedsmål der opfylder 

P(A) = 0 ∀ P ∈ P ⇔ λ(A) = 0 for A ∈ A. (3.7) 

Bevis. Lad sandsynlighedsmålet ˜µ være defineret som i Lemma 3.3. Lad for P ∈ P 

 

AP = x | dP 

 

(x) > 0 . (3.8) 

dµ 

Ideen er nu, at vi gerne vil vælge P1, P2, . . . så at ˜µ(∪ ∞ 1 

APn ) = 1. Ækvivalent hermed 

skal vi forsøge at finde B1, B2, . . . med Bn ⊆ APn , så at ˜µ(∪∞ 1 Bn) = 1. Dette valg laver 

vi nu implicit ved at definere 

s = sup{ ˜µ(C)|C = ∪ ∞ 1 Bn hvor Bn ∈ A, ˜µ(Bn) > 0, og ∀ n ∃ P ∈ P : Bn ⊆ AP}. (3.9)


Da s er et supremum, kan vi finde en følge C1, C2, . . . , så at s = lim ˜µ(Cn). Sættes 

C = ∪∞ 1 Cn vil ˜µ(C) = s. Da alle Cn, n ≥ 1, er en forening af B mængder, har vi, at 

C = ∪∞ 1 Bn, hvor ˜µ(Bn) > 0, og for ethvert n eksisterer der Pn ∈ P, så at Bn ⊆ APn . De 

således valgte {Pn} ∞ n=1 er kandidaterne til at opfylde betingelsen i lemmaet. 

Lad A ∈ A med Pn(A) = 0 for alle n og lad P ∈ P. Vi skal vise at P(A) = 0. Da 

P ≪ ˜µ er det nok at vise at ˜µ(A ∩ C c ) = 0 og ˜µ(A ∩ C) = 0. 

Vi kan antage at A ⊆ AP, idet P(A) = P(A ∩ AP). Fra definitionen (3.9) af s har vi 

s = ˜µ(A ∪ C) = ˜µ(C) + ˜µ(A ∩ C c ) = s + ˜µ(A ∩ C c ), 

og dermed ˜µ(A ∩ C c ) = 0. 

Da Pn(A) = 0 og dPn 

d ˜µ (x) > 0 på A ∩ Bn må ˜µ(A ∩ Bn) = 0. Dermed fås 

˜µ(A ∩ C) = ˜µ(A ∩ [∪∞ 1 Bn]) 

∞ 

≤ ∑ 

1 

˜µ(A ∩ Bn) = 0. 

Med λ defineret som i lemmaet er det klart at λ(A) = 0 er ækvivalent med Pn(A) = 0 

for alle n og dermed ækvivalent med P(A) = 0 for alle P ∈ P. 

Lad os bemærke at hvis alle målene i P er indbyrdes ækvivalente, P1 ≪ P2 ∀ P1, P2 ∈ 

P, så kan vi tage λ = P0 for et vilkårligt P0 ∈ P. Et andet eksempel paa konstruktionen 

af λ er hvis vi kan finde {P i}, så at ∪ iAP i = X , med AP i fra (3.8), 

Lad i det følgende N være nulmængderne for λ: 

N = {A ∈ A|λ(A) = 0}. 

Da den betingede middelværdi E(q(X)|T) er σ(t)-målelig kan vi skrive den som en 

målelig funktion af t(X). I lemmaet nedenfor benytter vi betegnelsen E(q(X)|T) = 

φq(t(X)). 

Lemma 3.7 Lad t : (X , A) → (Y, B) og lad q : (X , A) → (R, B(R)). Hvis σ(q) ⊆ 

σ(σ(t), N) så er 

q(x) = φq(t(x)) n.s. − λ. 

Bevis. Vi kan antage at q ≥ 0, idet vi ellers kan vise resultatet seperat for den positive 

og den negative del af q. Når q ≥ 0 kan vi vælge en følge qn, der opfylder 

qn(x) = 

n 

∑ c 

i=1 

n i 1An i (x), An i ∈ σ(t, N) og qn ≤ q, lim qn = q. 

n 

Fra egenskaberne ved qn har vi at φq(t) = limn φqn (t). 

Hvis qn(x) = φqn (t(x)) n.s.-λ kan vi skrive 

qn(x) = 1 N c n (x)φqn (t(x)) + 1Nn (x)qn(x) med λ(Nn) = 0. (3.10) 

Lad M = ∪∞ i=1Ni som også er en λ-nulmængde. Så er (3.10) også opfyldt med Nn 

erstattet af M. Da q = limn qn har vi 

 

q(x) = lim qn(x) = lim 1Mc(x)φqn (t(x)) + 1M(x)qn(x) 

n n 

= 1M c(x)φq(t(x)) + 1M(x)q(x),


det vil sige 

q(x) = φq(t(x)) n.s. − λ. 

Vi mangler derfor at vise, at qn(x) = φqn (t(x) n.s.-λ, men da qn er en sum af indikatorfunktioner, 

er det nok at vise 

Lader vi 

1A(x) = φ1 A (t(x)) n.s. − λ for A ∈ σ(t, N). (3.11) 

D = {A ∈ A | 1 A(x) = φ1 A (t(x)) n.s. − λ} 

ser vi fra additivitets- og konvergensegenskaber ved betingede middelværdier, at D 

en σ -algebra. Hvis A ∈ σ(t) er φ1 A (t(x)) = 1 A(x), det vil sige σ(t) ⊆ D. Hvis A ∈ N 

er φ1 A (t(x)) = 0 = 1A(x) n.s.-λ og N ⊆ D. Da D er en σ-algebra, har vi derfor, at 

σ(t, N) ⊆ D, og dermed er (3.11) vist. 

Lemma 3.7 udtaler sig om reelle stokastiske variable q(X) . For at kunne benytte resultatet 

generelt, skal jeg så at sige for en vilkårlig stokastisk variabel “konstruere en 

ækvivalent” reel variabel. Til dette skal jeg bruge separabilitet af en σ-algebra, d.v.s. 

σ-algebraen er frembragt af en tællelig klasse af mængder. 

Lemma 3.8 Lad C ⊆ A være en del σ-algebra. Så er C separabel, hvis og kun hvis der 

eksisterer en funktion f : (X , A) → (R, B(R)), så at C = σ( f). 

Bevis. Hvis C er separabel lad C = σ(A1, A2, . . . ) og definer 

f(x) = 

∞ 

∑ 10 

n=1 

−n 1An (x). 

Det er da klart, at σ( f) = C idet σ( f) ⊆ C , og det er muligt at vælge Bn ∈ B(R), så at 

f −1 (Bn) = An. For eksempel har vi at 

A1 = f −1 ([0.1, 0.2]), og A2 = f −1 ([0.01, 0.02] ∪ [0.11, 0.12]). 

Omvendt hvis C = σ( f), kan vi tage B1, B2, . . . i B(R), så at B(R) = σ(B1, B2, . . . ), 

og dermed 

C = σ( f −1 (B1), f −1 (B2), . . . ), 

d.v.s. C er separabel. 

Endelig skal vi for at kunne benytte Lemma 3.8 vise, at hvis A er separabel, og C er en 

vilkårlig del σ-algebra, så findes der en separabel del σ -algebra C0, som ligger tæt på 

C. 

Lemma 3.9 Lad A være separabel, og lad C ⊆ A være en del σ-algebra. Så findes der 

en separabel del σ-algebra C0 ⊆ A, så at 

C0 ⊆ C ⊆ σ(C0, N).


Bevis. Lad A = σ(A1, A2, . . . ) og definer 

C0 = σ(Eλ(1 An |C), n = 1, 2, . . .). (3.12) 

Da Eλ(1An |C) er en reel stokastisk variabel, er σ(Eλ(1 An |C)) separabel, og dermed er 

C0 separabel. Per definition er C0 ⊆ C, og vi skal derfor vise, at C ⊆ σ(C0, N). 

Definer 

A1 = {A ∈ A | E λ(1A|C) = E λ{E λ(1A|C)|C0} n.s. − λ}. 

Så er A1 en σ-algebra og An ∈ A1, hvor {An} er følgen i (3.12). Derfor har vi, at 

A = σ(A1, A2, . . . ) ⊆ A1, altså at A = A1 . Specielt for A ∈ C har vi 

1A = E λ(1A|C) = E λ{E λ(1A|C)|C0} = E λ(1A|C0) n.s. − λ, 

hvor vi har benyttet at 1A = E λ(1A|C) n.s. medfører at E λ(1A|C0) = E λ{E λ(1A|C)|C0} 

n.s. Vi har dermed 

A = {x|E λ(1 A|C0) = 1}\[A c ∩ {x|E λ(1 A|C0) = 1}] ∪ [A ∩ {x|E λ(1 A|C0) = 1}] 

= C\N1 ∪ N2, 

hvor C ∈ C0 og N1, N2 ∈ N , d.v.s. A ∈ σ(C0, N). Beviset er hermed tilendebragt. 

Vi kan nu vende os mod hovedsætningen i dette afsnit. Vi antager, at A er separabel. 

Definer 

 

dP 

C = σ , P ∈ P 

dλ 

(3.13) 

for en vilkårlig version af dP 

dλ , hvor λ er et mål på formen angivet i Lemma 3.6. Vi vælger 

nu, ifølge Lemma 3.9, en separabel σ-algebra C0, så at 

C0 ⊆ C ⊆ σ(C0, N), (3.14) 

hvor N er nulmængderne for λ. Vælg dernæst en afbildning t0 : (X , A) → (R, B(R)) 

så at 

C0 = σ(t0), (3.15) 

hvilket kan gøres ifølge Lemma 3.8. 

Sætning 3.10. T0 = t0(X) er minimal sufficient. 

Bevis. Vi viser først, at T0 er sufficient. Per definition af C i (3.13) og definition af t0 i 

(3.15 følger det at 

σ( dP 

dλ ) ⊆ C ⊆ σ(C0, N) = σ(t0, N). 

Demed eksisterer der ifølge Lemma 3.7 en funktion gP, så at 

dP 

dλ (x) = gP(t0(x)) n.s.-λ.


Det vil sige at gP(t0(x)) er en tæthed for P m.h.t. λ og dermed er 

dλ 

dµ (x)gP(t0(x)) 

en tæthed for P m.h.t. µ og T0 er sufficient ifølge Faktoriseringsætningen 3.4. 

Vi skal nu vise at for enhver sufficient observator T findes der en afbildning f så at 

t0(x) = f(t(x)) n.s.-λ. Hvis T = t(x) er en sufficient observator, har vi ifølge Faktoriseringsætningen 

3.4, at 

dP 

(x) = k(x)gP(t(x)), 

dµ 

og dermed 

dλ 

(x) = k(x) 

dµ 

∞ 

∑ 

n=1 

hvor h(t) er den uendelige sum. Definer 

1 

gPn (t(x)) = k(x)h(t(x), 

2n D = {t|0 < h(t) < ∞}. 

Lad os først indse at PT(D c ) = 0. Da λ(T ∈ Dc ) = 1Dc(t(x)k(x)h(t(x)µ(dx) enten er 

0 eller uendelig, men λ er et sandsynlighedmål følger det at λ(T ∈ Dc )) = 0. Da P har 

tæthed m.h.t. λ følger det at PT(D c ) = 0. Tætheden for P m.h.t. λ er 

idet 

 

A 

gP(t(x) 

h(t(x)) 1D(t(x)λ(dx) 

 

= 

 

= 

Med denne form af tætheden ser vi at σ( dP 

dλ 

dP gP(t(x) 

(x) = 

dλ h(t(x)) 1D(t(x) (3.16) 

A 

 

dP 

σ(t0) ⊆ σ(C) = σ 

dλ 

gP(t(x) 

h(t(x)) 1D(t(x)k(x)h(t(x)µ(dx) 

A∩t −1 (D) 

gP(t(x))k(x)µ(dx) 

= P(A ∩ t −1 (D)) = P(A). 

) ⊆ σ(t, N) og derfor 

Lemma 3.7 giver nu eksistensen af en funktion f , så at 

 

: P ∈ P ⊆ σ(t, N). 

t0(x) = f(t(x)) n.s.-λ. 

Bemærk at definiton 3.5 giver automatisk at en minimal sufficient observator er “entydigt 

bestemt n.s.−λ” . Hvis nemlig t0 og t1 er to minimal sufficiente afbildninger, 

eksisterer der f0, f1, så at 

t0(x) = f0(t1(x)) n.s. − λ 

og 

t1(x) = f1(t0(x)) n.s. − λ. 

Bemærk også at σ(t0) næsten er lig med C. Man siger derfor ofte at likelihoodfunktionen 

er minimal sufficient. Se i denne forbindelse opgave 3.8 og Sætning 3.15.


Korollar 3.11. En sufficient observator T = t(X), t : (X , A) → (R k , B(R k )), A separabel, 

er minimal sufficient hvis 

σ(t) ⊆ σ(C, N) 

Bevis. Da C ⊆ σ(C0, N) er σ(t) ⊆ σ(C0, N) = σ(t0, N), og fra Lemma 3.7 (vi kan 

bruge Lemma 3.7 koordinatvis) har vi eksistensen af f1, så at 

t(x) = f1(t0(x)) n.s. − λ. 

Da t0(X) er minimal sufficient, er derfor også t(X) minimal sufficient ifølge Definition 

3.5(ii). 

Den følgende sætning er ofte brugbar for at finde en minimal sufficient observator. Jeg 

minder om, at komplethed af en observator er defineret i afsnit 2.7. 

Sætning 3.12. Lad A være separabel og lad P være domineret af det σ-endelige mål 

µ. Lad desuden T = t(X), t : X → R k , være en sufficient og komplet observator under 

P. Så er T minimal sufficient. 

Bevis. Lad π(·|t) være den fælles betingede fordeling af P givet T0, hvor T0 = t0(X) er 

den kendte minimal sufficiente fra Sætning 3.10. Da T0 er minimal sufficient, eksisterer 

der en funktion g så at 

t0(x) = g(t(x)) n.s. − λ. (3.17) 

Definer 

 

f1(x) = t(x) − t( ˜x)π(d ˜x|t0(x)), 

 

f(t) = t − t( ˜x)π(d ˜x|g(t)), 

hvor f(t(x)) = f1(x) n.s.−λ ifølge (3.17). Vi har at 

Vi har dermed også at 

og da T er komplet følger det at 

Det vil sige at 

EP f1(X) = EPT − EPEP(T|T0) 

= EPT − EPT 

= 0, ∀ P ∈ P. 

EP f(T) = 0, ∀ P ∈ P, 

f1(x) = f(t(x)) = 0 n.s. − λ. 

 

t(x) = 

t( ˜x)π(d ˜x|t0(x)) n.s. − λ, 

eller sagt på anden vis: der eksistere en funktion g1 så at 

t(x) = g1(t0(x)) n.s. − λ. 

Da T0 er en funktion af en vilkårlig sufficient observator, følger det nu, at også T er en 

funktion af en vilkårlig sufficient observator, og dermed er T minimal sufficient.


Korollar 3.13. For en eksponentiel familie P = {P ξ|ξ ∈ Λ0} på (X , A), hvor A er 

separabel, med minimal repræsentation 

dP ξ 

dµ (x) = c(ξ)−1 b(x)e ξ·t(x) 

gælder, at T = t(X) er minimal sufficient. 

Bevis. Da repræsentationen er minimal kan vi finde ξ0, ξ1, . . . , ξk så at matricen A med 

i’te række ξi − ξ0 er invertibel. Vi kan så skrive 

 

log dPξ 1 

(x), . . . , log 

dPξ0 dP 

ξk (x) = tA 

dPξ0 ∗ − (κ(ξ1) − κ(ξ0), . . . , κ(ξk) − κ(ξ0), 

hvoraf ses at t er en funktion af k tætheder. Korollar 3.11 siger så at T = t(x) er minimal 

sufficient. 

Korollar 3.11 er vores stærkeste værktøj til at afgøre om en observator er minimal 

sufficient. I praksis er det dog en lille smule besværligt at bruge korollaret, da der 

indgår tætheder med hensyn til λ i definitionen af C. Jeg vil nu lave et korollar der er 

nemmere at bruge og på en direkte måde siger at “likelihoodfunktionen er minimal 

sufficient". Jeg antager at vores familie er på formen P = {Pθ : θ ∈ Θ} og at t er en 

sufficient observator så at 

dPθ (x) = k(x)g(t(x); θ), (3.18) 

dµ 

ifølge Faktoriseringssætningen 3.4. 

Jeg skal bruge følgende resultat (Hoffmann-Jørgensen: The Theory of Analytic Spaces, 

1970, p. 145). 

Lemma 3.14 Lad X , Y og G være borel-delmængder af fuldstændige separable metriske 

rum. Lad t være en målelig afbildning fra X ind i Y og lad g være en målelig 

afbildning fra X ind i G så at 

g(x1) = g(x2) ⇒ t(x1) = t(x2), x1, x2 ∈ X . 

Så eksisterer der en målelig afbildning K fra G ind i Y med t(x) = K(g(x)), x ∈ X . 

Fuldstændig betyder at enhver cauchyfølge er konvergent, og separabelt rum betyder 

at der er en tællelig tæt delmængde. Det euklidiske rum R m er et fuldstændigt separabelt 

metrisk rum. Jeg vil bruge Lemma 3.14 med G = R N . Hvis vi udstyrer dette rum 

med metrikken d(x, y) = (∑ ∞ n=1 (xi − yi) 2 ) 1/2 er G et fuldstændigt separabelt metrisk 

rum og borel-σ-algebraen er identisk med produkt-σ-algebraen. 

Sætning 3.15. Antag at X er en borel-delmængde af R n , at t er en afbildning fra X ind 

i Y, hvor Y er en borel-delmængde af R k , og at T = t(X) er sufficient. Specielt har vi 

opskrivningen i (3.18). Antag at der eksisterer en tællelig delmængde {θ i : i ∈ N} så at 

( ∃ c(t1, t2) : g(t1; θ i) = c(t1, t2)g(t2; θ i) ∀ i ∈ N ) ⇒ t1 = t2. (3.19) 

Så er T minimal sufficient.


Bevis. Idet vi definerer p(x, θ) = dP θ 

dλ (x) og 0 a = 0, a ∞ 

p(x, θ) = 

g(t(x); θ) 

. 

h(t(x) 

Definer nu funktionen g fra X ind i G = R N ved 

g(x) = {p(x; θ i) : i ∈ N}. 

= 0, kan vi skrive 3.16 på formen 

Da x → p(x, θ i) er målelig er g målelig m.h.t. produkt-σ-algebraen. Fra antagelsen i 

sætningen har vi 

⇓ 

⇓ 

⇓ 

g(x1) = g(x2) 

p(x1, θ i) = p(x2, θ i) ∀ i ∈ N 

g(t(x1); θ i) = h(t(x1)) 

h(t(x2)) g(t(x2); θ i) ∀ i ∈ N 

t(x1) = t(x2). 

Fra Lemma 3.14 har vi at t(x) = K(g(x)) for en målelig funktion K og det følger at 

dPθi 

σ(t) ⊆ σ(g) ⊆ σ 

dλ 

 

: i ∈ N, N ⊆ σ(C, N). 

Fra Korollar 3.11 har vi nu at T er minimal sufficient. 

3.5 Sufficiensprincippet og B-sufficiens 

I indledningen til dette kapitel tog jeg udgangspunkt i ønsket om at reducere data til 

nogle væsentlige og overskuelige størrelser. I mere principielle diskussioner omkring 

“korrekte måder” at uddrage information fra data er dette blevet til: 

Sufficiensprincippet: Hvis T er sufficiens for P, bør inferens om P ∈ P udføres i den marginale 

fordeling af T. 

Så længe vi holder os til sufficiens som defineret i Definition 3.1, er der bred enighed 

om sufficiensprincippet. Vi skal senere i notesættet støde på andre sufficiensbegreber i 

forbindelse med inferens om delparametre, og her er enigheden om sufficensprincippet 

mindre. For at skelne de forskellige sufficiensprincipper kaldes sufficens, som givet 

i Definition 3.1, somme tider for B-sufficiens. Bogstavet B står her for personerne Basu 

og Bahadur. 

3.6 Opgaver 

Opgave 3.1. Læs dette! 

I JHJ’s 1985 version af sine sandsynlighedsnoter findes følgende sætning: “Lad (Ω, F, P)


være et sandsynlighedsfelt og T en målelig funktion fra (Ω, F) ind i et Borel rum 

(M, B). Hvis P har en semi-kompakt approximerende brolægning K ⊆ F, da findes 

en funktion P T (F|t) for F ∈ F, t ∈ M, så at 

(i) P T (·|t) er et sandsynlighedsmål ∀t ∈ M 

(ii) P T (F|·) er målelig ∀F 

(iii) 

B PT (F|t)PT(dt) = P(F ∩ T −1 (B)) ∀F ∈ F ∀B ∈ B.” 

De første to betingelser (i) og (ii) siger, at P T (·|·) er en Markovkerne, og en Markovkerne 

som opfylder (iii) kaldes en regulær betinget sandsynlighed af P givet T. Hvis 

M = Ω, B = F0 ⊆ F og T(ω) = ω taler vi om en regulær betinget sandsynlighed af P 

givet F0, og denne betegnes med P F0(F|ω). 

Betingelsen om den semikompakte approximerende brolægning K er ikke alene 

tilstrækkelig, men også nødvendig. Betingelsen er opfyldt i langt de fleste tilfælde, 

specielt hvis Ω = R T , F = B T og P er et sandsynlighedsmål på (Ω, F), hvor T er en 

vilkårlig indexmængde, da er 

KT = 

 

 

∏ Ct | Ct er kompakt eller Ct = R ∀t 

t∈T 

en semikompakt approximerende brolægning for P. Hvis PT er en regulær betinget 

sandsynlighed at P givet T, og X : (Ω, F) → (R, B(R)) er en stokastisk variabel med 

middelværdi, så vil 

 

E(X|T)(ω) = 

X(ω 

Ω 

′ )P T (dω ′ |T(ω)). (∗) 

Vis dette ved hjælp af standardbeviset, startende med situationen hvor X er en 

indikatorvariabel. I skal altså vise, at højresiden i (*) opfylder betingelserne for at være 

den betingede middelværdi af X givet T. 

Indse også at hvis T er sufficient for en klasse P af sandsynlighedsmål, så viser (*), 

at den betingede middelværdi af X givet T ikke afhænger af P ∈ P. 

Opgave 3.2 

Lad X være et diskret udfaldsrum og t en målelig afbildning fra X ind i Y. Lad T = 

t(X). Vis, at hvis π(A|t) er en Markovkerne, der opfylder 

 

π(A|t)PT(dt) = P(A ∩ t −1 (B)) 

for alle A ⊆ X og alle B⊆ Y, så er 

B 

π(x|t) = P(X = x)/P(T = t), hvor t(x) = t. 

Opgave 3.3 

Lad X = S × T og antag at P har tæthed f(s, t) m.h.t. produktmålet µ × ν. Lad fT(t) 

være den marginale tæthed af T m.h.t. ν, 

 

fT(t) = f(s, t)µ(ds). 

S


Definer nu 

og 

F T S 

⎧ 

⎨ f(s,t) 

fT(t) 

g(s|t) = 

⎩ fS(s) 

 

hvis fT(t) > 0 

hvis fT(t) = 0, 

(A|t) = g(s|t)µ(ds), t ∈ T, A ∈ AS, 

 

F(C|t) = 

A 

s:(s,t)∈C 

g(s|t)µ(ds), C ∈ AS × AT , 

hvor fS er den marginale tæthed af S og AS er σ-algebraen på S. Bemærk at F(·|t) er 

defineret til at være et mål på S × T koncentreret på S × {t}. 

Så er F(·|t) en regulær betinget sandsynlighed af P givet T, og FT S er den tilsvarende 

marginale fordeling i den betingede fordeling, altså den betingede sandsynlighed af S 

givet T. 

Vis dette. 

Opgave 3.4 

Lad f , g være to målelige funktioner på (X , A) og P et sandsynlighedsmål. Antag af 

f = g n.s.−P. Vis at 

σ( f) ⊆ σ(g, NP), 

hvor NP er nulmængderne for målet P. 

Overvej, at dette resultat kan bruges til at ændre udsagnet i Korollar 3.11 til “hvis 

og kun hvis”. 

Opgave 3.5 

Lad f > 0 være en tæthed på R+ med hensyn til Lebesguemålet. Lad p θ(x) være 

tætheden på intervallet (0, θ) givet ved p θ(x) = c(θ) f(x), 0 < x < θ, og p θ(x) = 

0 ellers. Parameteren θ varierer i R+ . Lad X1, . . . , Xn være uafhængige og identisk 

fordelte med tæthed P θ. Vis, at 

er sufficient. 

X (n) = max{X1, . . . , Xn} 

Opgave 3.6 

Lad X1, . . . , Xn være uafhængige og uniformt fordelte på intervallet (0, θ), hvor parameteren 

θ varierer i R+. Vis, på to måder at 

X (n) = max{X1, . . . , Xn} 

er en minimal sufficient observator. De to måder fremkommer ved at bruge henholdsvis 

Korollar 3.11 og Sætning 3.12,


Opgave 3.7 

Lad (X1, Y1), . . . , (Xn, Yn) være uafhængige og identisk fordelte med tæthed 

 

exp −θx − 1 

θ y 

 

, (x, y) ∈ R 2 + , 

hvor parameteren θ varierer i R+. D.v.s. X og Y er uafhængige, X er exponentialfordelt 

med middelværdi 1 θ og Y er exponentialfordelt med middelværdi θ. Find en minimal 

sufficient observator ved hjælp af Korollar 3.11. 

Opgave 3.8 

Lad familien P have k elementer med tæthederne pi(x) = dPi dµ (x), i = 1, . . . , k. Definer 

n 

 

g(x) = ∑ pi(x), λ(A) = g(x)µ(dx), 

i=1 

A 

og 

 

p1(x) p2(x) 

t(X) = , 

g(x) g(x) , . . . , p 

k(x) 

. 

g(x) 

Vis, at t(X) er minimal sufficient. 

Lad L(i, x) = p i(x) og vis at 

t(x1) = t(x2) ⇔ ∃c(x1, x2) : L(i, x1) = c(x1, x2)L(i, x2) ∀i. 

Opgave 3.9 

Lad X1, . . . , Xm, Y1, . . . , Yn være uafhængige med X i ∼ N(ξ, σ 2 ) og Y j ∼ N(η, τ 2 ). Find 

en minimal sufficient observator i tilfældene 

(i) (ξ, η, σ 2 , τ 2 ) ∈ R 2 × R 2 + ; 

(ii) (ξ, η, σ 2 ) ∈ R 2 × R+ og τ 2 = σ 2 ; 

(iii) (ξ, σ 2 , τ 2 ) ∈ R × R 2 + 

og η = ξ. 

Opgave 3.10 

Lad X = {−1, 0, 1, 2, . . . } og A alle delmængder af X . Klassen P = {P θ|0 < θ < 1} er 

givet ved 

P θ({−1}) = θ og P θ({x}) = (1 − θ) 2 θ x , x = 0, 1, 2, . . . . 

Vis, at t(X) = X er minimal sufficient. Vis dernæst, at T = t(X) er begrænset komplet 

for P, men ikke komplet. 

Opgave 3.11 

Denne opgave er beregnet på at få en forståelse af en minimal sufficient observator i 

en betinget fordeling. Lad udfaldsrummet være X = X1 ∪ X2. Lad P være en klasse as 

sandsynlighedsmål på X1 og definer for P ∈ P sandsynlighedsmålet ˜P til at være lig 

med P på X1 og som giver masse 0 til X2. For en funktion ˜t(x) på X definerer vi t på 

X1 og s på X2 til at være ˜t’s restriktion til X1, henholdsvis X2.


(i) vis, ved hjælp af faktoriseringssætningen, at t(X) er sufficient for familien P på 

X1 hvis og kun hvis at ˜t(X) er sufficient for familien ˜P = { ˜P|P ∈ P} på X . 

Vi vil nu betragte det tilsvarende spørgsmål med sufficient erstattet af minimal sufficient. 

Antag at t(X) er minimal sufficient for familien P. Lad ¯t være en sufficient observator 

for ˜P. Fra (i) har vi at ¯t er sufficient for P. Dermed eksisterer der en funktion f så at 

t(x) = f(¯t(x)), x ∈ X1, n.s. − P. 

(ii) Vis, at der eksisterer en funktion g så at 

Slut at ˜t er minimal sufficient. 

˜t(x) = g(¯t(x)), x ∈ X , n.s. − ˜P. 

Formuleret i ord, så har vi set at det kun er observators værdier på X1 der afgør om 

den er minimal sufficient.


Ronald Aylmer Fisher 17/2 1890 (London) - 29/7 1962 (Adelaide). 

I sin første artikel fra 1912 introducerede Fisher maximum likelihood estimationsmetoden. 

Fra 1919 var Fisher ansat ved Rothamsted Experimental Station hvor han udviklede 

variansanalysen, se bøgerne: Statistical Methods for Research workers og The design of Experiments. 

I 1922 introducerede Fisher sufficiens og i 1925 ancillaritet. Se også hans bog 

Statistical Methods and Scientific Inference.

Kapitel 4 

Ancillaritet og Basu’s sætning 

4.1 Definitioner og diskussion 

I kapitel 3 argumenterede jeg for at man kan nøjes med at betragte en sufficient observator 

T for inferens om P ∈ P, idet observationen x kan tænkes fremkommet ved at 

først observeres t og dernæst observeres x fra den betingede fordeling af X givet T = t. 

Dette blev formuleret som sufficiensprincippet i afsnit 3.5. Antag nu istedet, at U er en 

observator som er fordelingskonstant, d.v.s. fordelingen af U er den samme for alle 

P ∈ P. Så kan jeg igen tænke på x som fremkommet ved, at først observeres U = u og 

dernæst observeres x fra den betingede fordeling af X givet U = u. Da udfaldet u har 

samme sandsynlighed for alle P ∈ P, er der ingen information om, hvilket P ∈ P som 

er det sande P i observationen U = u, og vi kan nøjes med at betragte den betingede 

fordeling af X givet U = u. 

Præcist definerer vi: 

Definition 4.1 En observator U = u(X), u : (X , A) → (U, D) siges at være ancillær for 

P hvis 

P(U ∈ D) = P0(U ∈ D) ∀P0, P ∈ P, ∀D ∈ D, 

altså: fordelingen af U er den samme for alle P ∈ P. 

Og svarende til sufficiensprincippet har vi: 

Betingningsprincippet: Hvis U er ancillær for P, bør inferens om P ∈ P udføres i den 

betingede fordeling af X givet U. 

Ordet ancillær stammer fra det engelske “ancillary”, som betyder hjælpestørrelse. I 

sammenhængen her skal det forstås som, at oplysningen U = u er en hjælp, der fortæller 

os hvilken betinget fordeling, vi bør betragte. Dette vil blive demonstreret i eksemplerne. 

Eksempel 4.2. 

Lad et forsøg bestå i, at først observeres I ∈ {1, 2} med 

P(I = 1) = P(I = 2) = 1 2 , 

43

44 KAPITEL 4. ANCILLARITET OG BASU’S SÆTNING 

og dernæst observeres X fra en N(µ, σ2 I )-fordeling med σ2 1 = 1 og σ2 2 = 10. Vi kan 

her tænke på I som en variabel, der angiver hvilket måleinstrument der anvendes, og 

σ2 1 , σ2 2 angiver hvor gode de to måleinstrumenter er. Likelihoodfunktionen er 

L(µ) = 1(i = 1) 1 1 

√ e 

2 2π − 1 2 (x−µ)2 

+ 1(i = 2) 1 1 

√ e 

2 20π 

 

1(i = 1)e 

= 

− 1 2 x2 

2 √ + 

2π 

1(i = 2)e− f rac120x2 

2 √ 

20π 

− 1 

20 (x−µ)2 

e µx[1(i=1)+1(i=2)/10]−µ2 [1(i=1)/2+1(i=2)/20] , 

så at T = (I, X) er minimal sufficient (se eksempel 4.5 nednefor). Maximum likelihood 

estimatet for µ er 

ˆµ = X. 

Variansen på dette estimat er V( ˆµ) = 1 2 · 1 + 1 2 · 10 = 5.5. Er dette en relevant måde at 

angive, hvor tæt estimatet ˆµ er på den sande værdi µ ? Hvis vi har observeret I = 1, 

synes det relevant at bruge den viden, at vi har brugt måleinstrumentet med den lave 

varians σ2 1 = 1. Med andre ord vil vi gerne sige, at variansen på ˆµ er σ2 1 = 1. Dette 

svarer netop til, at vi laver inferensen i den betingede fordeling givet I = 1, og er hvad 

betingningsprincippet siger, at vi skal gøre. 

I den teoretiske diskussion nedenfor vil jeg se på forbindelsen over til sufficiens. 

Liegesom for sufficiens skal vi senere støde på andre ancillaritetsbegreber, og for at 

skelne disse kaldes ancillaritet som defineret her for B-ancillaritet, hvor B igen henviser 

til Basu og Bahadur. 

Lad os starte med den observation at der ikke findes nogen naturlig “maximal ancillær” 

observator. Hvis man skulle forsøge at definere dette begreb, vil et første forsøg 

være at sige, at U0 er maximal ancillær, hvis enhver anden ancillær U er en funktion 

af U0. En sådan U0 eksisterer ikke, idet to ancillære observatorer U1, U2 tilsammen kan 

udgøre X, og dermed ikke kan være funktioner af en ancillær observator U0. Følgende 

eksempel viser dette: 

Eksempel 4.3. 

Lad (Xi, Yi) i = 1, . . . , n, være uafhængige og identisk fordelte med 

(X i, Y i) ∼ N2 

 

1 ρ 

(0, 0), 

ρ 1 

Så er U1 = (X1, . . . , Xn ) og U2 = (Y1, . . . , Yn) begge ancillære, mens fordelingen af 

(U1, U2) afhænger af ρ og altså er (U1, U2) ikke ancillær. 

Når vi nu har to principper – sufficiensprincippet og betingningsprincippet – vil 

det være naturligt at spørge om principperne er i overensstemmelse med hinanden, 

eller om de kan føre til en konflikt. Jeg starter med: 

Observation 4.4 Lad U være en ancillær observator for P, hvor P er domineret af det 

σ-endelige mål µ, og A er separabel. Lad T0 være en minimal sufficient observator for 

P. Så er T0 også en minimal sufficient observator for klassen P u = {P(·|U = u) : P ∈ 

P} af betingede fordelinger givet U = u.

4.1. DEFINITIONER OG DISKUSSION 45 

Bevis. Lad t0 : X → Y være en minimal sufficient observator. For at undgå for mange 

tekniske detaljer vil jeg antage at σ(t0) = C, jævnfør Korollar 3.11. 

Fra faktoriseringssætningen har vi 

Lad ˜µ være et sandsynlighedsmål med 

dP 

(x) = gP(t0(x))k(x). 

dµ 

d ˜µ 

dµ = φ(x) > 0 og lad ˜ k(x) = k(x)/φ(x) så at 

dP 

1 

(x) = gP(t0(x))k(x) 

d ˜µ φ(x) = gP(t0(x)) ˜ k(x). 

Lad målet λ være som i lemma 3.6. Så er dλ/d ˜µ(x) = h(t0(x)) ˜ k(x), hvor 

Vi har således 

h(t) = ∑ 1 

gPm (t). 

2m dP gP(t0(x)) 

(x) = 

dλ h(t0(x)) , 

og da U er ancillær er λU = ∑ PmU/2 m = PU for et vilkårligt P ∈ P, og dermed 

Hvis vi lader dλU 

d ˜µU 

dPU 

dλU 

(x) = dPU 

(x) = 1. 

dPU 

dPU (u) = d (u) = q(u) er det kun relevant at betragte den betingede 

˜µU 

fordeling givet U = u for u med q(u) > 0. Fra Obervation 2.18 har vi 

dP(·|U = u) 

(x) = 

dλ(·|U = u) 

dP 

dλ (x) 

dPU 

dλU 

dP 

= 

(x) dλ 

(x) = gP(t0(x)) 

h(t0(x)) . 

Det følger af den sidste formel og faktoriseringssætningen at t0(X) er sufficient i den 

betingede fordeling. Vi vil bruge Korollar 3.11 til at vise at t0(X) er minimal sufficient 

i de tilfælde hvor q(u) > 0. Ideen er at bruge λ(·|U = u) i definitionen af C i Korollar 

3.11 for de betingede fordelinger. Hertil skal vi vise at 

λ(A|U = u) = 0 ⇔ P(A|U = u) = 0 ∀P. 

Implicationen ⇒ følger umiddelbart af at P(·|U = u) har tæthed mht. λ(·|U = u). Den 

anden implication ⇐ følger af at λ(A|U = u) = ∑ Pm(A|U = u)/2 m = 0. Bruger vi 

λ(·|U = u) i definitionen af Cu = σ(dP(·|U = u)/dλ(·|U = u) : P ∈ P) og bruger vi 

antagelsen σ(t0) = C får vi 

 

dP 

σ(t0) = C = σ 

dλ 

 

dP(·|U = u) 

: P ∈ P = σ 

dλ(·|U = u) 

 

: P ∈ P = Cu, 

og Korollar 3.11 siger så at t0(X) er minimal sufficient i den betingede fordeling.


Eksempel 4.5. 

Lad I og X være som i eksempel 4.2, d.v.s. I kan antage værdierne 1 og 2 med sandsynlighed 

1 2 , og givet værdien af I er X ∼ N(µ, σ2 I ). Desuden er σ2 1 = 1 og σ2 2 = 10. 

Tætheden med hensyn til produktet af tællemålet og Lebesguemålet er 

f(i, x; µ) = 

1(i = 1) 

 

2 

2πσ 2 1 

 

exp − 1 

2σ2(x − µ) 

1 

2 + 1(i = 2) 

 

2 

2πσ 2 2 

 

exp − 1 

2σ2(x − µ) 

2 

2 

. 

Vi kan indse at T0 = (I, X) er minimal sufficient ved følgende overvejelser: Ifølge faktoriseringssætningen 

er T0 sufficient. Målet λ der indgå i korollar 3.11 kan vi her tage 

til at være P0, altså målet med µ = 0. Dette kan vi gøre fordi alle målene er indbyrdes 

ækvivalente. Tætheden for Pµ med hensyn til P0 er 

Lad nu 

Så gælder der 

e µx[1(i=1)+1(i=2)/10]−µ2 [1(i=1)/2+1(i=2)/20] . 

g1(i, x) = log( dP1 

) og g2(i, x) = log( 

dP0 

dP−1 

). 

dP0 

i = 

og når først i er bestemt har vi 

1 hvis g1 + g2 = −1 

2 hvis g1 + g2 = − 1 

10 , 

x = 1 

2 (g1 − g2)/[1(i = 1) + 1(i = 2)/10]. 

Med andre ord er (i, x) en funktion af (g1, g2) og dermed er σ-algebraen frembragt af 

T0 indeholdt i σ-algebraen frembragt af g1 og g2 og dermed indeholdt i C. Korollar 3.11 

giver så at T0 er minimal sufficient. 

Når vi betinger med I = i reducerer T0 til X og dette er netop den minimal sufficiente 

i klassen af normalfordelinger med ukendt middelværdi. 

Observation 4.4 siger, at uanset om vi starter med at betinge med en ancillær størrelse, 

så bliver vi ledt frem til den samme minimal sufficiente observator T0. Der er dog 

stadig den forskel, at fra sufficiensprincippet vil vi betragte den marginale fordeling 

af T0, hvorimod fra betingningsprincippet vil vi betragte den betingede fordeling af T0 

givet U . Basu’s sætning nedenfor siger imidlertid, at hvis T0 er komplet, så vil T0 og U 

være uafhængige. Vi har derfor: 

Observation 4.6 Hvis T0 er minimal sufficient og komplet for P og U er ancillær for 

P, så vil både sufficiensprincippet og betingningsprincippet føre til, at vi skal betragte 

den marginale fordeling af T0 for inferens om P ∈ P. 

Hvis den minimal sufficiente T0 ikke er komplet, kan der eksistere ancillære observatorer, 

som er funktioner af T0, og dermed ikke er uafhængige af T0 som ovenfor. 

Dette illustreres ved:

4.1. DEFINITIONER OG DISKUSSION 47 

Eksempel 4.7. 

Lad (X i, Y i), i = 1, . . . , n være uafhængige og identisk fordelte med tæthed 

e −θx− 1 θ y , x > 0, y > 0, 

hvor θ > 0 er en parameter. Log likelihoodfunktionen er 

og T0 = ( ¯X, ¯Y) er minimal sufficient. Lad 

så er W ancillær idet 

 

l(θ) = n −θ ¯x − 1 

θ ¯y 

 

, 

W = ¯X ¯Y, 

 

W = (θ ¯X) 

1 

θ ¯Y 

 

1 

= 

n 

n 

∑ 

1 

θX i 

1 

n 

n 

∑ 

1 

1 

θ Y 

i , 

og fordelingen af (θX i, 1 θ Y i) afhænger ikke af parameteren θ. Da W er en funktion af 

T0, er W og T0 ikke uafhængige. 

Umiddelbart kan vi derfor sige, at der er en konflikt mellem sufficiens- og betingningsprincippet. 

Den rigtige tilgangsvinkel til dette synes at være, at vi skal bruge 

begge principperne, når vi drager inferens. Spørgsmålet er så om rækkefølgen er ligegyldig, 

når T0 ikke er komplet? Vi kan derfor formulere følgende 

Ønske 4.8. Hvis T0 er minimal sufficient og U er ancillær, så ville det være ønskværdigt 

om der eksisterede en observator W, som både kan opfattes som en funktion af U 

(og dermed ancillær!) og som en funktion af T0, så at 

T0|U = u ∼ T0|W = w, 

altså at de to betingede fordelinger er de samme. D.v.s. at vi får det samme om vi 

først betinger med den ancilllære U og dernæst finder T0, eller om vi først finder T0 og 

dernæst betinger med den ancillære W, som er en funktion af T0. 

Ønske 4.7 er generelt ikke opfyldt, altså der eksisterer situationer, hvor rækkefølgen 

af brugen af sufficiens- og betingningsprincippet har betydning: se eksempel 4.11. 

Det kan derfor ikke forbavse, at denne mangel på entydighed kan føre til meget andet: 

se afsnit 4.3. Ønske 4.7 er opfyldt i den vigtige klasse af eksponentielle tranformationsmodeller, 

hvor U er den såkaldte konfiguration af (X1, . . . , Xn ) og W er den såkaldte 

maximal invariante efter minimal sufficient reduktion. Jeg vil ikke definere alle disse 

begreber her, men blot intuitivt nævne at en transformationsmodel P er på formen 

P = {Pg|g ∈ G} hvor G er en gruppe af transformationer på udfaldsrummet X (se også 

afsnit 8.3). Lad mig illustrere disse ting med:


Eksempel 4.9. 

Lad situationen være som i eksempel 4.6 og betegn sandsynlighedsmålet for (X1, Y1) 

med Pθ. Udfaldsrummet for den enkelte observation er R2 + , og her kan vi for ethvert 

g > 0 definere transformationen 

Hvis (X, Y) ∼ P1 så vil 

g : (x, y) → 

 

gx, 1 

g y 

 

. 

g(X, Y) ∼ (P1)g = P g −1, 

og klassen {P θ|θ > 0} = {(P1)g|g > 0} er derfor en transformationsmodel. Konfigurationen 

U bliver i denne situation 

og desuden er 

U = 

 

ˆθ(X1, . . . , Xn), 1 

ˆθ (Y1, 

 

. . . , Yn) hvor ˆ 

¯Y ¯X 

θ = 

, 

W = 

 

1 

n 

n 

∑ 

1 

den maximal invariante efter minimal sufficient reduktion, som er en funktion af U. 

Det kan nu vises at 

( ˆθ, W)|U = u ∼ ( ˆθ, W)|W = w. 

I praksis beskæftiger man sig ikke med ovenstående potentielle konflikt. I typiske 

situationer vil der være nogle “oplagte” ancillære, som der betinges med først. Disse 

kan vedrøre forhold omkring den eksperimentelle situation og hvordan data indsamles. 

Dernæst bestemmes den minimal sufficiente observator T0, og hvis denne indeholder 

ancillære komponenter, betinges der med disse. 

4.2 Basu’s sætning 

ˆθX i 

Jeg kommer nu til det vigtigste resultat i dette kapitel: 

Sætning 4.10 (Basu’s sætning). Lad T = t(X), t : (X , A) → (Y, B), og U = u(X), 

u : (X , A) → (U, D), være to observatorer og antag at T er sufficient for P. Så gælder 

(i) Hvis T og U er uafhængige under ethvert mål i P, og hvis intet par af mål i P er 

indbyrdes singulære, så er U ancillær. 

(ii) Hvis T og U er uafhængige under ét mål i P, og hvis målene i P er indbyrdes 

ækvivalente, så er U ancillær. 

(iii) Hvis U er ancillær, og T er begrænset komplet under P, så er T og U uafhængige 

under ethvert mål i P 

2

4.2. BASU’S SÆTNING 49 

Bevis. (i) Lad π(A|t) være den fælles betingede sandsynlighed givet T og lad D ∈ D. 

Vi skal vise at P1(U ∈ D) = P2(U ∈ D) ∀P1, P2 ∈ P. Vi har for B ∈ B 

 

B 

P(U ∈ D)PT(dt) = P(U ∈ D)P(T ∈ B) = P(U ∈ D, T ∈ B) 

 

= π(u −1 D)|t)PT(dt), (4.1) 

B 

hvor det andet lighedstegn skyldes at T og U er uafhængige. Hvis vi definerer målet 

νP på (Y, B) ved 

νP(B) = P(U ∈ D, T ∈ B), 

så siger (4.1), at både P(U ∈ D) og π(u−1 (D)|t) er en version af dνP . Da tætheder 

dPT 

er entydigt bestemt på nær på en nulmængde, har vi, at der eksisterer NP ∈ B med 

P(T ∈ NP) = 0, og så at 

For to sandsynlighedsmål P1 og P2 har vi derfor 

P(U ∈ D) = π(u −1 (D)|t) for t /∈ NP. (4.2) 

P1(U ∈ D) = P2(U ∈ D) for t /∈ NP 1 ∪ NP2 . 

Vi skal nu blot vise, at NP 1 ∪ NP2 = Y, men dette følger af, at målene P1 og P2 ikke er 

indbyrdes singulære. 

(ii) Lad T og U være uafhængige under P0 ∈ P. Fra (4.2) har vi 

P0(U ∈ D) = π(u −1 (D)|t) t /∈ N0, 

hvor P0(T ∈ N0) = 0. Da målene er indbyrdes ækvivalente, er P(T ∈ N0) = 0 ∀P ∈ P, 

og vi får 

 

P0(U ∈ D) = 

 

P0(U ∈ D)PT(dt) = 

π(u −1 (D)|t)PT(dt) = P(U ∈ D). 

D.v.s. at U er ancillær. 

(iii) Vi skal vise, at T og U er uafhængige. Vi skal derfor vise, at den marginale 

sandsynlighed P(U ∈ D) = P0(U ∈ D) er lig med den betingede sandsynlighed 

P(U ∈ D|T = t) = π(u −1 (D)|t) for næsten alle t. Lad f : Y → R være 

Så er 

f(t) = P0(U ∈ D) − π(u −1 (D)|t). 

f(t)PT(dt) = P0(U ∈ D) − P(U ∈ D) = 0, 

og antagelsen om begrænset komplethed giver derfor, at f(t) = 0 for næsten alle t. 

Punkt (iii) i Basu’s sætning anvendes ofte, idet det giver en bekvem måde at etablere 

fordelingsresultater på.



Lad X1, . . . , Xn være uafhængige og N(ξ, σ 2 )-fordelte. Hvis vi betragter familien P σ 2 

med σ 2 fast og ξ ∈ R, er dette en eksponentiel familie med minimal kanonisk observator 

T = ∑ X i og kanonisk parameter ξ/σ 2 ∈ R. Fra Sætning 2.26 har vi at T er komplet, 

og fra Korollar 3.13 at T er minimal sufficient. Lad 

U = (X1 − ¯X, . . . , Xn − ¯X) = (Z1 − ¯Z, . . . , Zn − ¯Z) 

hvor Z i = X i − ξ. Da fordelingen af Z i ikke afhænger af ξ er U ancillær. Basu’s sætning 

giver så, at ¯X og U er uafhængige. Specielt er 

¯X og SSD = 

n 

∑(Xi − ¯X) 

1 

2 n 

= ∑ U 

1 

2 i 

uafhængige. 

4.3 Birnbaum’s sætning 

Dette afsnit har jeg udelukkende taget med for jeres fornøjelses skyld! Jeg starter med: 


Udfaldsrummet er X = {0, 1} × N, og den stokastiske variabel betegnes (A, X). Familien 

af sandsynlighedsmål er P = {P θ|0 < θ < 1}, hvor 

Pθ(A = 1) = 1 − Pθ(A = 0) = 1 2 

Pθ(X = k|A = 0) = (1 − θ) k θ for k = 0, 1, . . . 

 

5 

Pθ(X = k|A = 1) = (1 − θ) 

k 

k θ 5−k 

for k = 0, 1, . . . , 5. 

Altså svarer vores forsøg til, at vi først kaster en mønt for at bestemme værdien af A, 

og dernæst hvis A = 0, observerer vi X fra en geometrisk fordeling, og hvis A = 1, observerer 

vi X fra en binomialfordeling med antalparameter 5 . For at kunne bestemme 

den minimal sufficiente observator, bemærker vi at 

dP θ 

dP1 2 

(a, k) = (1 − a)θ(1 − θ)k + a( 5 

k )(1 − θ)kθ 5−k 

(1 − a)( 1 2 )k+1 + a( 5 

k )( 1 2 )5 

⎧ 

⎨2 

= 

⎩ 

k+1θ(1 − θ) k a = 0 

2 5 (1 − θ) k θ 5−k a = 1. 

Dette medfører at den minimal sufficiente observator er 

t0(a, k) = (a1(k = 4), k), 

d.v.s. T0 er næsten identisk med (A, X), bortset fra at de to udfald (0,4) og (1,4) er slået 

sammen til et udfald (0,4) .

4.3. BIRNBAUM’S SÆTNING 51 

Hvis vi føst bruger betingningsprincippet og betinger med A og dernæst bruger 

sufficiensprincippet, ender vi ud med at betragte 

X|A = a. (4.3) 

Hvis vi derimod starter med sufficensprincippet og dernæst betingningsprincippet, 

skal vi spørge, om der findes en ancillær observator der er funktion af T0. Dette synes 

ikke at være tilfældet (Ã = A1(X = 4) er således ikke ancillær), og vi ender ud med 

at betragte 

T0 = (A1(X = 4), X). (4.4) 

Vi har derfor fået de to forskellige resultater (4.3) og (4.4). 

Eksempel 4.11 viser således, at Ønske 4.7 ikke altid er opfyldt. 

Hvis vi nu insisterer på, at “først betingningsprincip så sufficiensprincip” og “først 

sufficensprincip så betingningsprincip” altid skal føre til de samme konklusioner, er 

det klart, at vi må lave restriktioner på hvordan vi laver konklusioner. Hvad den nødvendige 

restriktion bliver, er netop resultatet af Birnbaum’s sætning. 

For at formulere sætningen skal jeg bruge noget notation. Resultatet af en statistisk 

analyse vil jeg betegne med R. Hvis modellen (X , A, P) betegnes med E og observationen 

med x , vil R(E, x) være resultatet fra at have observeret x fra modellen E. Den 

type resultater, I er vant til at få frem i en statistisk analyse, er for eksempel et estimat 

sammen med dettes middelværdi og varians, eller for eksempel et estimat sammen 

med et konfidensinterval. Hvis T er sufficient, og ET betegner modellen svarende til at 

kun T = t(X) observeres, formulerer Birnbaum sufficiensprincippet som 

(S) R(E, x) = R(ET, t(x)). 

Hvis U er ancillær, betegner vi den betingede model af X givet U = u med Eu, og 

Birnbaum giver betingningsprincippet som 

(B) R(E, x) = R(E u(x) , x). 

Endelig skal vi have indført likelihoodprincippet. Dette siger, at resultatet af en statistisk 

analyse skal kun afhænge af (E, x) gennem likelihoodfunktionen 

l(θ) = dP θ 

dµ (x). 

D.v.s. at hvis to modeller E 0 og E 1 med det samme parameterrrum Θ og med tilhørende 

observationer x 0 og x 1 giver anledning til de samme likelihoodfunktioner 

l 0 (θ) = dP0 θ 

dµ (x0 ) = c dP1 θ 

dµ 1 (x1 ) = cl 1 (θ) for alle θ ∈ Θ, (4.5) 

hvor c = c(x 0 , x 1 ) ikke afhænger af θ, så skal 

R(E 0 , x 0 ) = R(E 1 , x 1 ) 

Jeg kan nu formulere Birnbaum’s sætning som: 

“Hvis (S) og (B) kan bruges i flæng, så gælder likelihoodprincippet”


Bevis. Lad som ovenfor (E 0 , x 0 ) og (E 1 , x 1 ) være to modeller med tilhørende observationer 

x 0 og x 1 så at for netop disse to observationer er l 0 (θ) og l 1 (θ) ens, se (4.5). Vi 

konstruerer nu en større model E ∗ , der består i, at først bestemmes værdien af A, hvor 

P θ(A = 0) = P θ(A = 1) = 1 2 , og dernæst hvis A = 0 observeres der fra E0 og hvis 

A = 1 observeres der fra E 1 . Eksempel 4.11 ovenfor er et specialeksempel på dette. 

Udfaldsrummet for E ∗ er 

X ∗ = {(a, y) | a = 0 og y ∈ X 0 eller a = 1 og y ∈ X 1 } 

= ({0} × X 0 ) ∪ ({1} × X 1 ). 

Lad målet µ ∗ på X ∗ bestå af µ 0 på {0} × X 0 og µ 1 på {1} × X 1 . Så er 

og 

dP∗ θ 1 

(a, y) = 

dµ ∗ 2 {(1 − a)dP0 θ 

dµ 0 (y) + adP1 θ 

dµ 

dP ∗ θ 

dP ∗ θ0 

(a, y) = 

⎡ 

⎢ 

⎣ 

dP 0 θ 

dP 0 θ 0 

dP 1 θ 

dP 1 θ 0 

(y) hvis a = 0 

(y) hvis a = 1. 

1 (y)}, 

(4.6) 

Hvis x 0 og x 1 opfylder (4.5), viser (4.6), at (0, x 0 ) og (1, x 1 ) giver den samme værdi for 

den minimal sufficiente T ∗ 0 under E∗ , altså t ∗ 0 (0, x0 ) = t ∗ 0 (1, x1 ). Derfor giver (S), at 

R(E ∗ , (0, x 0 )) = R(E ∗ T0 , t∗ 0 (0, x0 )) = R(E ∗ T0 , t∗ 0 (1, x1 )) = R(E ∗ , (1, x 1 )). (4.7) 

Da A er ancillær, giver (B) , at 

R(E ∗ , (0, x 0 )) = R(E 0 , x 0 ) og R(E ∗ , (1, x 1 )) = R(E 1 , x 1 ). (4.8) 

Kombinerer vi (4.7) og (4.8), har vi, at 

R(E 0 , x 0 ) = R(E 1 , x 1 ), (4.9) 

d.v.s. at vi har vist, at hvis de to likelihoodfunktioner er ens (4.5), så får vi det samme 

resultat (4.9) ud af den statistiske analyse. 

Da Birnbaum publicerede sit resultat i 1962, kom det som en stor overraskelse. Grunden 

er, at de fleste statistikere akcepterer sufficiensprincippet og betingningsprincippet 

som rimelige, men de vil ikke akceptere likelihoodprincippet. Det sidste skyldes, 

at hvis man holder sig til likelihoodprincippet, så har man ikke mulighed for at lave 

sandsynlighedsudtalelser i sin konklusion, f.eks. kan man ikke angive middelværdi og 

varians af et estimat. Som det fremgår af beviset for Birnbaum’s sætning, opstår problemet, 

fordi han forlanger at forskellige rækkefølger af brugen af sufficensprincippet 

og betingningsprincippet skal føre til samme resultat R for analysen. 

En statistiker af “Aarhus-skolen”, og dermed en statistiker i Fisher’s ånd, vil sige, 

at Birnbaum’s resulatat er af typen, at “man smider barnet ud med badevandet”. Altså 

den manglende entydighed, når sufficiens- og betingningsprincippet bruges i forskellig 

rækkefølge, er udtryk for at inferensdragning er en ikke-entydig beskæftigelse, og 

nødvendiggør ikke, at vi skal underkaste os likelihoodprincippets åg.


4.4 Opgaver 

Opgave 4.1 

Lad X og Y være uafhængige stokastiske variable, så 

og 

P(X = 0) = P(X = 1) = 1 2 , 

P(Y = −1) = p, p(Y = 0) = 1 2 , P(Y = 1) = 1 2 − p, 

hvor 0 ≤ p ≤ 1 2 . Vis, at U = X + Y2 er ancillær. 

Vis, dernæst at Y er sufficient og overvej om Y og U er uafhængige. 

Opgave 4.2 

Lad X1, . . . , Xn være uafhængige med fordeling givet ved 

⎧ 

⎪⎩ 

1 6 (1 − θ) k = 1 

⎪⎨ 1 

6 (1 + θ) k = 2 

P(Xi = k) = 

1 6 (2 − θ) k = 3 

1 6 (2 + θ) k = 4, 

med −1 < θ < 1. Lad endvidere N k være antallet af X i-er med værdien K. Vis, at 

U = (N1 + N2, N3 + N4) og V = (N1 + N4, N2 + N3) begge er ancillære. 

Find den forventede information i fordelingen af (N1, N2, N3, N4) givet henholdsvis 

U og V. 

Vis, at (N1, N2, N3, N4) er minimal sufficient for klassen af fordelinger for X1, . . . , Xn. 

Find dernæst en minimal sufficient observator i den betingede fordeling givet U. 

Opgave 4.3 

Lad X1, . . . , Xn være uafhængige Γ(λ, β)-fordelte, d.v.s. tætheden er 

Γ(λ) −1 β λ x λ−1 exp(−βx). Parametrene varierer i (λ, β) ∈ R 2 + . 

(i) Vis, at maksimum likelihood estimatet er løsningen til ligningssystemet 

λ 

β = ¯X og 

d 

dλ ln Γ(λ) − ln λ = ln ∏n 1 X1/n 

i 

(ii) Vis, ved at bruge Basu’s sætning på delfamilien med λ fast og β ∈ R+, at ¯X og ˆλ 

er uafhængige. 

Vink: (∗) viser at ˆλ er en funktion af 

n 

∏ 1 

X 1/n 

i 

¯X = 

n 

∏ 1 

(βX i) 1/n 1 

n 

n 

∑ 

1 

¯X 

βX i 

 

. 

(∗)


Opgave 4.4 

Lad X1, . . . , Xn være uafhængige og identisk N(ξ, σ 2 )-fordelte med ξ ∈ R og σ 2 ∈ R+. 

Vis, at ( ¯X, s 2 ) er sufficient, hvor s 2 = ∑(X i − ¯X) 2 /(n − 1). Vis, at ( ¯X, s 2 ) er uafhængig 

af henholdsvis U1 og U2, hvor 

Her er 

U1 = ∑n−1 

i=1 (Xi+1 − Xi) 2 

∑ n i=1 (X i − ¯X) 2 

og U2 = X (n) − ¯X 

X (n) − X (1) 

X (1) = min{X1, . . . , Xn} og X (n) = max{X1, . . . , Xn}. 

Vink: Udtryk U1 og U2 ved Z i = (X i − ξ)/σ, i = 1, .., n. 

Opgave 4.5 

Lad X1, . . . , Xn være uafhængige og identisk fordelte med tæthed 

1 

β exp 

 

x − α 

 

− 

β 

Parametrene (α, β) varierer i R × R+. 

for x ≥ α og nul ellers. 

(i) Find maksimum likelihood estimatet for (α, β). 

(ii) Vis, at for fast β og α ∈ R er X (1) = min{X1, . . . , Xn} sufficient og begrænset 

komplet. (Vink: Hvis Eα f = 0 for alle α, definer da to mål ν + og ν − ved hjælp af 

f + og f − , og vis at disse to mål er identiske.) 

(iii) Vis, at ˆα og ˆβ er uafhængige.


D. Basu -

Kapitel 5 

Likelihoodbegreber 

Vi skal betragte den statistiske model (X , A, P), hvor X er udfaldsrummet, A en σalgebra, 

og P = {P θ|θ ∈ Θ} en parametriseret klasse af sandsynlighedsmål på X . 

Med en sådan model formaliserer vi, at parameteren θ ikke direkte kan måles, og at 

vi kun får indirekte viden gennem at data følger en fordeling specificeret ved θ. Lad µ 

være et mål som dominerer P θ for alle θ ∈ Θ. 

Definition 5.1 (Likelihoodfunktionen) L(θ) eller L(θ, x) er en funktion af θ, der for 

ethvert x ∈ X er givet ved 

L(θ) = L(θ, x) = dPθ (x), θ ∈ Θ. 

dµ 

I visse situationer vil vi betragte L(θ) som den stokastiske variabel L(θ, X). Loglikelihoodfunktionen 

er 

l(θ) = l(θ, x) = ln L(θ, x). 

Ultimativt ville vi gerne gennem den statistiske analyse være i stand til at pege på 

den værdi af θ, som har frembragt data. Dette er naturligvis ikke muligt, og istedet 

må vi nøjes med at pege på nogle gode kandidater. Likelihoodfunktionen er et vigtigt 

hjælpemiddel til at finde ud af, hvad der er gode kandidater. Hvis for eksempel 

L(θ2)/L(θ1) = 10 betyder dette, at under Pθ2 er der 10 gange større sandsynlighed for 

at få observationen x end under Pθ1 . I et sådant tilfælde vil vi have mere tiltro til, at θ2 

er den ukendte værdi af θ, end vi har til θ1. Hvis udfaldsrummet X er diskret, giver 

denne fortolkning ikke anledning til problemer. Hvis istedet X er kontinuert, støder 

vi på det problem, at en tæthed kun er defineret næsten sikkert. I praksis er dette som 

regel ikke et problem, idet der findes en version af tætheden, som er kontinuert i x, og 

denne version bruges så til at angive likelihoodfunktionen. Det er klart ud fra ovenstående 

fortolkning, at den værdi af θ, hvor funktionen L(θ) - eller l(θ) - har maksimum, 

er af særlig interesse. 

Definition 5.2 Hvis ˆθ = ˆθ(x) er sådan, at 

l(θ) ≤ l( ˆθ) ∀θ ∈ Θ, 

kaldes ˆθ(x) et maksimum likelihood estimat. Ligningen ∂l 

∂θ (θ) = 0 kaldes likelihoodligningen. 

 

57

58 KAPITEL 5. LIKELIHOODBEGREBER 

Hvis vi får at vide, at en undersøgelse har vist, at hvis man ryger, er der 10 procent risiko 

for, at man får lungekræft, vil vi sikkert straks spørge, hvor sikker denne konklusion 

er. Det er jo ikke ligegyldigt om undersøgelsen har fulgt 10 personer, og en af disse har 

udviklet lungekræft, eller om hele Danmarks befolkning er blevet fulgt i en årrække. 

Det er derfor ikke særligt informativt at afslutte en undersøgelse med at give et punkt 

estimat, vi må også sige noget om, hvor tæt estimatet kan formodes at være på den 

ukendte værdi af parameteren. Vi vil med andre ord være interesseret i fordelingen af 

estimatet, altså hvordan varierer estimatet, hvis vi forestiller os, at forsøget gentages, 

så at nye data indsamles fra P θ. Specielt kan vi se på middelværdien af estimatet, og 

dette giver anledning til: 

Definition 5.3 Et estimat ˜θ : X → Θ (ikke nødvendigvis maksimum likelihood estimatet) 

siges at være centralt (på engelsk unbiased) hvis 

E θ ˜θ(X) = θ for alle θ ∈ Θ. 

Hvis et estimat ikke er unbiased, siges det at være biased. I de fleste tilfælde vil Θ være 

en delmængde af R d , så at ˜ θ(X) ∈ R d , og vi kan tale om dens middelværdi. 

Eksempel 5.4. 

Lad X1, . . . , Xn være i.i.d. med tæthed 

βe −βx , x > 0, 

hvor parameteren β > 0. Loglikelihoodfunktionen er 

l(β) = n{ln β − β ¯x}, 

og dermed ˆβ = ¯X −1 . Da ¯X er Gamma-fordelt, finder vi, at 

E ˆβ = n 

β = β, 

n − 1 

og ˆβ er altså ikke et centralt estimat. Hvis vi istedet for β betragter parameteren µ = 

1/β, som er middelværdien af X, får vi, at maksimum likelihood estimatet af µ er 

ˆµ = 1/ ˆ β = ¯X. 

Det giver E ˆµ = µ, og ˆµ er et centralt estimat. 

Udover middelværdien af et estimat vil det være naturligt at undersøge variansen. 

Specielt kan man blandt de estimater, der er centrale forsøge at finde det estimat, der 

har mindst mulig varians. Dette er emnet for kapitel 6. Lad mig nævne her, at det 

ikke er sikkert, at centrale estimater eksisterer, og hvis de eksisterer, kan kravet om, 

at estimatet skal være eksakt centralt betyde, at estimater med andre gode egenskaber 

udelukkes. 

I stedet for at angive variansen på ˆθ kan vi angive de værdier af θ udover ˆθ, som 

har en stor værdi af likelihoodfunktion.

Definition 5.5 Et likelihoodområde er en delmængde af Θ på formen 

{θ ∈ Θ | l(θ) − l( ˆθ) ≥ −c} (5.1) 

for en given konstant c > 0. 

I eksempel 5.4 ovenfor vil et likelihoodområde for β være et interval 

 

z1(c/n) 

, 

¯x 

z2(c/n) 

 

¯x 

hvor z1(y) < z2(y) er de to løsninger til z − 1 − ln z = y. Når n er stor, fås 

 

1 − √ 2c/n 

, 

¯x 

1 + √ 

2c/n 

. 

¯x 

Bemærk her afhængigheden af n. Hvis antallet af observationer 4-dobles, vil længden 

af likelihoodintervallet blive halveret. 

Likelihoodområdet er indført ovenfor ud fra synspunktet, at det er de θ værdier, 

som er næsten lige så trolige som ˆθ. Man kan også spørge: hvad er sandsynlighden for, 

at den ukendte parameterværdi θ er indeholdt i likelihoodområdet? Dette får os til at 

indføre: 

Definition 5.6 Et (1 − α)− konfidensområde er en afbildning K(x) fra X ind i mængden 

af delmængder af Θ, så at 

P θ(K(X) indeholder θ) = 1 − α for alle θ ∈ Θ. 

Eksempel 5.7. 

Lad X1, . . . , Xn være i.i.d. med fordeling N(µ, σ2 0 ), hvor σ2 0 er kendt og µ ∈ R er ukendt. 

Så er 

 

K(x1, . . . , xn) = ¯x − 1.96 

√ σ0, ¯x + 

n 1.96 

 

√ σ0 

(5.2) 

n 

et 95% konfidensinterval for µ. Dette ses ved, at 

 

Pµ µ ∈ ¯X − 1.96 

√ σ0, ¯X + 

n 1.96 

 

√ σ0 = Pµ −1.96 ≤ 

n √ n( ¯X − µ) 1 

idet ¯X ∼ N(µ, σ2 0 /n). 

Da log-likelihoodfunktionen er 

 

l(µ) = n − 1 

2 ln(2πσ2 1 

0 ) − 

2σ2 1 

n 0 

∑(xi − µ) 2 

 

 

= n − 1 

2 ln(2πσ2 1 

0 ) − 

2σ2 1 

n 0 

∑(xi − ¯x) 2 − 1 

2σ2( ¯x − µ) 

0 

2 

 

fås at 

l(µ) − l( ˆµ) = − n 

2σ2( ¯x − µ) 

0 

2 . 

σ0 

 

≤ 1.96 = 0.95 

Konfidensintervallet (5.2) er derfor også likelihoodintervallet l(µ) − l( ˆµ) > −1.96 2 /2. 

59


I eksempel 5.7 så vi et eksempel på, at et likelihoodområde også er et konfidensområde. 

Dette vil kun være tilfældet i specielle situationer. Til gengæld er det meget ofte korrekt 

approximativt: 

Observation 5.8 I mange modeller er området 

Kc(x) = {θ | l(θ) − l( ˆθ) ≥ −c} 

approksimativt et χ2 d (2c) konfidensområde. Her er χ2 d (w) sandsynligheden for at en 

χ2-fordeling med d-frihedsgrader er mindre end w, og d stammer fra at Θ ⊆ Rd . 

Dette er selvfølgelig meget løst formuleret, men i notesættet om asymptotik skal 

vi se, at det er korrekt for n → ∞, hvor n er antallet af observationer. Resultatet i 

Bemærkning 5.8 hænger sammen med et fordelingsresultat for ˆθ. For at forklare dette 

definerer jeg: 

Definition 5.9 Den stokastiske variabel 

kaldes scorefunktionen, og matricen 

U(θ) = 

∂l(θ, X) 

∂θ 

j(θ) = − ∂2 l(θ, X) 

∂θ∂θ ∗ 

kaldes den observerede information. Middelværdien af j(θ) 

i(θ) = E θj(θ) 

kaldes den forventede information. 

Observation 5.10 Hvis vi må bytte rundt på differentiation og integration, har vi 

og 

dPθ ∂ ln( dµ 

EθU(θ) = 

(x)) 

dPθ(x) ∂θ 

 

∂ dPθ 

= 

∂θ dµ (x) 

 

dPθ 

dµ (x) 

−1 dPθ(x) = 

= ∂ 

 

dPθ 

∂ 

(x)dµ(x) = 1 = 0, 

∂θ dµ ∂θ 

Var θ(U(θ)) = E θU(θ) ∗ U(θ) 

hvor vi benyttede at 

 

∂ 2 

∂θ∂θ ∗ 

 

= 

 

= 

⎧ 

⎪⎨ 

⎪⎩ 

dPθ 

dµ (x) 

∂ 

∂θ ∗ 

 

dPθ 

dµ (x) 

 

∂ dPθ 

∂θ dµ (x) 

 

dPθ 

dµ (x) 

2 j(θ)dP θ(x) = i(θ), 

 

dPθ 

dµ (x) 

−1 

 

− 

 

∂ dPθ 

∂θ dµ (x) 

 

dµ(x) 

∂2 ∂θ∂θ∗ 

dPθ 

dµ (x) 

 

dPθ 

dµ (x) 

 

⎫ 

⎪⎬ 

⎪⎭ dPθ(x) 

dPθ(x) = ∂2 

∂θ∂θ∗ 

dPθ 

(x)dµ(x) = 0. 

dµ

Observation 5.11 Hvis vi har n data punkter X1, . . . Xn og betegner scorefunktionen 

med Un(θ) = Un(θ, X1, . . . , Xn), så vil et bevis magen til det ovenfor for E θUn(θ) = 0 

give at 

Eθ{Un+1(θ) | X1, . . . , Xn} = Un(θ). 

Altså er Un(θ) en martingal. Beviset bygger på, at tætheden for X1, . . . Xn+1 er den betingede 

tæthed af Xn+1 givet (X1, . . . , Xn ) ganget med tætheden for X1, . . . , Xn. 

Jeg kom bort fra, at jeg ville sige noget om fordelingen af ˆθ : 

Observation 5.12 I mange modeller er 

( ˆθ − θ)j( ˆθ) 1/2 approksimativt N d(0, I d), 

hvor I d er d × d enhedsmatricen. 

Igen er dette et resultat, der holder for de fleste modeller, når n → ∞, hvor n er antallet 

af observationer. Det er også bemærkelsesværdigt, at hvis der findes en ancillær 

observator, vil resultaterne i Observationerne 5.8 og 5.12 typisk holde i den betingede 

fordeling givet værdien af den ancillære observator. 

Indtil nu har jeg talt om estimaternes fordeling og om forskellige områder af trolige 

parameterværdier. Heri ligger også kimen til forskellige måder at lave tests på. Lad os 

se på situationen, at vi ønsker at teste θ = θ0. En meget naturlig måde til at undersøge 

om θ = θ0, er at se om θ0 tilhører et likelihoodområde specificeret ved en værdi af c i 

(5.1). Dette svarer imidlertid til at betragte værdien af log kvotienttestoren (log likelihood 

ratio teststørrelsen) 

W = 2{l( ˆθ) − l(θ0)}, (5.3) 

således at θ0 tilhører likelihoodområdet hvis og kun hvis W ≤ 2c. Store værdier af W 

betyder, at ˆθ er en meget mere trolig værdi af den ukendte parameter end θ0, og hvis 

W bliver for stor, forkaster vi hypotesen θ = θ0. Hvis vi Taylorudvikler (5.3) omkring 

ˆθ, får vi den såkaldte Wald teststørrelse: 

Wald = ( ˆθ − θ0)j( ˆθ)( ˆθ − θ0) ∗ . 

En tredje mulighed er at forkaste hypotesen hvis 

U(θ0)i(θ0) −1/2 

bliver for stor. Dette kaldes scoretestet. Ækvivalent hermed er det store værdier af 

S = U(θ0)i(θ0) −1 U(θ0) ∗ 

som forkastes. 

Svarende til Observationerne 5.8 og 5.12 har vi: 

Observation 5.13 Alle tre teststørrelser W , Wald og S er i mange modeller approksimativt 

χ2 d-fordelt. 

61


Vi kan altså lave et approksimativt test på niveau α ved at forkaste, når teststørrelsen 

er større en 1 − α fraktilen i en χ 2 d -fordeling. 

I nogle af afsnittene nedenfor skal vi diskutere, hvordan vi vælger ét test fremfor et 

andet. 

Vi så i afsnit 3.4, at likelihoodfunktionen er en minimal sufficient observator. De 

ting, som jeg har sagt i dette afsnit, peger hen mod, at de vigtigste aspekter ved likelihoodfunktionen 

er parret ( ˆ θ, j( ˆ θ)). Dette bygger på, at hvis vi kender ˆ θ og j( ˆ θ), så 

kan vi lave en parabolsk approksimation til likelihoodfunktionen omkring dens maksimum. 

Som nævnt ovenfor forudsætter dette at antallet af observationer er stort. Hvis 

dette ikke er tilfældet, er det vigtigt at kigge nøjere på likelihoodfunktionen, og det er 

vigtigt at bruge log kvotienttestoren W fremfor Wald teststørrelsen. 

Jeg vender tilbage til likelihoodfunktionen i afsnit 8.1 i forbindelse med inferens 

om en delparameter. 

5.1 Opgaver 

Opgave 5.1 

Lad l(θ), θ ∈ Θ, være loglikelihoodfunktion for observationen x, og lad ˆθ = ˆθ(x) være 

maksimum likelihood estimatet under hypotesen θ ∈ Θ : 

sup l(θ) = l( ˆθ). 

θ∈Θ 

Lad Θ0 ⊆ Θ være en delhypotese. Vis, at hvis estimatet ˆθ under den fulde model 

tilhører Θ0, ˆ θ ∈ Θ0, da vil 

sup l(θ) = l( ˆθ). 

θ∈Θ0 

Lad nu θ = (ψ, η) og Θ = Ψ × Ω. Antag at l(θ) er på formen 

Vis, at 

sup 

θ∈Θ 

l(θ) = l0(ψ) + l1(η). 

l(θ) = sup 

ψ∈Ψ 

l0(ψ) + sup l1(η). 

η∈Ω 

Opgave 5.2 

Lad X1 ∼ Bin(n1, θ1) og X2 ∼ Bin(n2, θ2), hvor (θ1, θ2) ∈ Θ = (0, 1) × (0, 1), og lad X1 

og X2 være uafhængige. Opstil log-likelihoodfunktionen l(θ1, θ2) for (θ1, θ2). 

Betragt delhypotesen (θ1, θ2) = (ψ, ψ 3 ) med 0 < ψ < 1, og opstil loglikelihoodfunktionen 

l(ψ) for ψ. 

Vis, at likelihoodligningen l ′ (ψ) = 0 kan reduceres til en tredje grads ligning. 

Betragt tilfældet med n1 = n2 = 16, x1 = 8 og x2 = 2. Find maksimum likelihood 

estimatet ( ˆθ1, ˆθ2) i den fulde model og dernæst maksimum likelihood estimatet for ψ i 

delmodellen. 

Opgave 5.3. Newton-Raphson iteration 

Lad l(θ) være en loglikelihoodfunktion med θ liggende i et interval af R. Hvis vi ikke


kan løse likelihoodligningen 

l ′ (θ) = 0 

direkte, kan vi forsøge at lave en iterativ procedure, som konvergerer mod estimatet ˆ θ. 

Newton-Raphson iteration baserer sig på en 1.-ordens Taylorudvikling af l ′ (θ) : 

⇓ 

l ′ (θ) = l ′ (θ1) + (θ − θ1)l ′′ (θ1) + Rest(θ, θ1) 

ˆθ − θ1 = −l′ (θ1) − Rest( ˆθ, θ1) 

l ′′ . 

(θ1) 

Vi smider nu restleddet væk og forsøger os med gættet 

Vi får derfor en sekvens θ2, θ3, .. på formen 

θ2 = θ1 − l ′ (θ1)/l ′′ (θ1). 

θ k+1 = θ k − l ′ (θ k)/l ′′ (θ k). 

Denne metode til bestemmelse af ˆθ kaldes Newton-Raphson iteration. 

Lav en tegning med l ′ (θ) som funktion af θ og vis hvordan θ2 konstrueres ud fra θ1. 

Generelt konvergerer Newton-Raphson iterationen mod ˆθ, hvis blot det første gæt 

θ1 ligger tiltrækkelig tæt på ˆθ. Overvej dette ud fra tegnede eksempler. 

Hvis θ er p-dimensional, bliver Taylorudviklingen 

og Newton-Raphson iterationen bliver 

∂l 

(θ) ≈ 

∂θ 

∂l 

∂θ (θ1) + (θ − θ1) 

∂2l ∂θ∂θ∗ 1 × p 1 × p 1 × p p × p 

θk+1 = θk − ∂l 

∂θ (θ 

∂2l k) 

∂θ∂θ∗(θ −1 

k) . 

Opgave 5.4 

Betragt igen opgave 5.2 med X1 ∼ Bin(n1, ψ) og X2 ∼ Bin(n2, ψ 3 ). Vis, at likelihoodligningen 

reducerer til 

(n1 + 3n2)ψ 3 + (n1 − x1)ψ 2 + (n1 − x1)ψ − (x1 + 3x2) = 0. (∗) 

Overvej hvor mange løsninger denne ligning har i intervallet (0, 1). 

Opskriv Newton-Raphson iterationen, og overvej et godt startpunkt ψ1. 

Lad n1 = 10, n2 = 20 og x1 = 5, x2 = 2. Find ˆψ ved iteration. Start evt. med 

ψ1 = x 1 

n 1 + x2 

n2 

1/3 /2. Tegn l(ψ) og find likelihoodintervallet {ψ|l( ˆψ) − l(ψ) ≤ 2}. 

Opgave 5.5 

Lad X1, . . . , Xn være uafhængige N(µ, σ 2 )-fordelte. Find den observerede information 

j(µ, σ 2 ) og den forventede information i(µ, σ 2 ).


Maksimum likelihood estimatet for σ 2 er ˆσ 2 = 1 n Σ(x i − ¯x) 2 . Vis, at for n → ∞ vil 

√ n(ˆσ 2 − σ 2 ) ˜→N(0, τ 2 ) 

og angiv τ2 . 

Vink: Det sidste spørgsmål kan løses direkte, da ˆσ 2 ’s fordeling er kendt. Alternativt 

kan man skrive 

√ n(ˆσ 2 − σ 2 ) = 1 

√n 

n 

∑ 

1 

og vise at n 1/4 ( ¯X − µ) → 0 i sandsynlighed. 

 

(Xi − µ) 2 − σ 2 

 

− n 1/4 2 ( ¯X − µ) 

Opgave 5.6 

Denne opgave skal løses numerisk ved hjælp af en lille computer. 

I forbindelse med estimation af fordelingen af inkubationstiden for AIDS har man 

forsøgt at bruge data for personer smittet ved blodtransfusion, hvor netop smittetidspunktet 

er kendt. Hvis for eksempel undersøgelsen af afsluttet i 1985, har vi observeret 

alle dem, der har fået AIDS før 1985 og som er smittet ved blodtransfusion. Lad observationerne 

være Y i < Z i < 1985, hvor Y i er smittetidspunktet og Z i er tidspunktet for 

AIDS i fuldt udbrud. Der vil være andre, der er smittede til tidspunktet Y i, men disse 

observeres ikke, da deres AIDS tidspunkt Z ligger senere end 1985. Det relevante vil 

derfor være at betragte Xi = Zi − Yi som en observation af en inkubationstid i den 

betingede fordeling givet X i < 1985 − Y i = U i. 

Vi opstiller derfor en likelihoodfunktion baseret på observationerne (x1, u1), . . . , 

(xn, un) og den betingede fordeling af X givet X < u. Vi vil betragte modellen, hvor 

inkubationstiden er Weibullfordelt, d.v.s. fordelingsfunktionen er givet ved 

hvor parametrene (α, β) varierer i R 2 + 

X i men K i, hvor 

bliver likelihoodfunktionen 

L(α, β) = 

n 

∏ 1 

= ∏ k≤u 

P(X ≤ x) = 1 − e −βxα 

, 

. Hvis data er grupperet, så at vi ikke observerer 

K i = l for l − 1 < X i ≤ l, 

exp[−β(ki − 1) α ] − exp[−βkα i ] 

1 − exp(−βuα i ) 

 

exp[−β(k − 1) α ] − exp[−βkα ] 

1 − exp(−βuα n(k,u) , 

) 

hvor n(k, u) er antal observationer (k i, u i) med vaerdien (k, u). Datasættet nedenfor 

stammer fra San Francisco. For hver kombination af (k, u) angiver tabellen hvor mange 

observationer n(k, u) der er med denne værdi af (k, u) 

k 6 7 3 4 5 6 3 4 5 1 2 3 4 1 2 3 1 2 

u 7 7 6 6 6 6 5 5 5 4 4 4 4 3 3 3 2 2 

n(k, u) 2 1 2 1 5.5 4.5 8 11.5 5 1 7.5 8.5 17 3 14.5 20.5 4.5 20.5


Find maksimum likelihood estimatet (ˆα, ˆβ), og skitser på en tegning området l(ˆα, ˆβ) − 

l(α, β) ≥ 3, hvor l(α, β) = log L(α, β). 

Vink: En mulighed er at lave en lille (α, β)-tabel med værdier af l(α, β). Når det på 

denne måde er bestemt, hvor cirka (ˆα, ˆβ) ligger, kan man enten gøre tabellen finere og 

finere, eller man kan lave Newton-Raphson iteration. Likelihoodområdet findes ved 

for udvalgte værdier af α at finde de to værdier af β, som afgrænser området.

Kapitel 6 

Centrale estimatorer med minimal 

varians og nedre grænse på variansen 

6.1 Centrale estimatorer med minimal varians 

I dette afsnit betragter jeg igen en model (X , A, P) med P = {P θ|θ ∈ Θ}. Desuden 

lader jeg ψ : Θ → R være en parameterfunktion, som jeg ønsker at estimere. Hvis 

f.eks. P er alle normalfordelinger , P = {N(µ, σ 2 )|µ ∈ R, σ 2 > 0}, og vi ønsker at 

estimere middelværdien, vil ψ(µ, σ 2 ) = µ. 

Definition 6.1 Et estimat S = s(X), s : (X , A) → (R, B(R)), siges at være centralt (på 

engelsk unbiased) hvis 

 

EθS = s(x)dPθ(x) = ψ(θ) ∀θ ∈ Θ. 

Centrale estimatorer eksisterer ikke altid: 

Eksempel 6.2. 

Lad X være binomialfordelt med antalsparameter n og sandsynlighedsparameter 0 < 

θ < 1. Lad ψ(θ) = θ −1 . For at s(X) er et centralt estimat, skal 

n 

∑ s(k) 

k=0 

Lader vi θ → 0, får vi ligningen 

og en central estimator for 1 θ 

 

n 

 

θ 

k 

k (1 − θ) n−k = 1 

θ 

s(0) = ∞, 

∀ 0 < θ < 1. 

eksisterer ikke. 

Mængden af centrale estimatorer af ψ med endelig varians betegnes C(ψ) : 

C(ψ) = {s : X → R | EθS = ψ(θ), EθS 2 < ∞ ∀ θ ∈ Θ}. 

Specielt er C0 = C(0) alle funktioner med middelværdi 0 og med endelig varians for 

alle θ ∈ Θ. Vi vil kun betragte estimatorer i C(ψ), og jagter elementer i denne klasse 

med mindst mulig varians: 

67

68 KAPITEL 6. CENTRALE ESTIMATORER MED MINIMAL VARIANS 

Definition 6.3 En estimator S0 ∈ C(ψ) kaldes UMVU (uniformly minimum variance 

unbiased) eller central estimator med minimal varians hvis 

V θ(S) ≥ V θ(S0) ∀S ∈ C(ψ) ∀θ ∈ Θ. 

Selvom der eksisterer centrale estimatorer, C(ψ) = ∅, er det ikke sikkert, at der eksisterer 

en UMVU-estimator. Den eventuelt manglende eksistens skyldes, at vi i Definition 

6.3 forlanger minimal varians for alle θ ∈ Θ. For et givet θ0 ∈ Θ er det altid muligt at 

finde Sθ0 ∈ C(ψ), så at Vθ0 (S) ≥ Vθ0 (Sθ0 ) for alle S ∈ C(ψ). Dette bygger på Matematik 

2 teori: 

Observation 6.4 Lad L 2 θ0 = { f : X → R | E θ0 f(X)2 < ∞}, som er et vektorrum med 

det indre produkt 

< f , g > θ0 = 

 

f(x)g(x)dP θ0 (x). 

I L 2 θ0 er C0 et underrum, og der eksisterer en ortogonal projektion Proj θ0 af L2 θ0 

på C0. 

Hvis S1 er et fast valgt element i C(ψ) ⊂ L2 , vil ethvert andet element S ∈ C(ψ) kunne 

θ0 

skrives som S = S1 − S2 med S2 ∈ C0. Vi vil nu vælge S2, så at variansen under Pθ0 minimeres, d.v.s. vi skal minimere 

< (S1 − ψ0) − S2, (S1 − ψ0) − S2 > θ0 =< S1 − S2, S1 − S2 > θ0 −ψ2 0 , 

hvor ψ0 = ψ(θ0). Løsningen til dette er 

som er bestemt ved 

S2 = Proj θ0 (S1), 

< S1 − Proj θ0 (S1), S2 > θ0 = 0 ∀S2 ∈ C0. (6.1) 

Det er altså muligt at finde Sθ0 ∈ C(ψ), som har minimal varians under Pθ0 . Dette entydigt 

bestemte Sθ0 kaldes en LMVU-estimator (locally minimum variance unbiased). 

△ 

Eksempel 6.5. 

Lad X antage værdierne −1, 0, 1, · · · med sandsynlighederne 

P(X = −1) = θ, P(X = k) = (1 − θ) 2 θ k , k = 0, 1, . . . , 

hvor 0 < θ < 1. Lad ψ1(θ) = θ, ψ2(θ) = (1 − θ) 2 og definer 

S1 = 

1 hvis X = −1 

0 ellers 

 

1 hvis X = 0 

, S2 = 

0 ellers 

Da er S1 ∈ C(ψ1) og S2 ∈ C(ψ2). Hvis S = s(X) ∈ C0 skal 

s(−1)θ + 

∞ 

∑ 

k=0 

(1 − θ) 2 θ k s(k) = 0 ∀ 0 < θ < 1,

6.1. CENTRALE ESTIMATORER MED MINIMAL VARIANS 69 

og dette medfører, at 

C0 = {s : X → R | s(k) = ak for et a ∈ R}. 

Hvis vi vil minimere variansen under Pθ0 , skal vi minimere 

mht. a ∈ R. Løsningen hertil er 

â i(θ0) = 

Eθ0 XSi 

= 

Eθ0X2 ∑(si(k) − ak) 2 Pθ0 (X = k) 

 

−θ0/[θ0 + (1 − θ0) 2 ∑ ∞ 1 k2θk 0 ] i = 1 

0 i = 2 

Da â2(θ0) ikke afhænger af θ0 er S2 − â2X = S2 en UMVU for ψ2. Omvendt da â1(θ0) 

afhænger af θ0, så eksisterer der ikke en UMVU for ψ1. 

Formel (6.1) indeholder en karakterisation af UMVU-estimatorer. Dette vil jeg nu 

vise præcist: 

Lemma 6.6 S0 ∈ C(ψ) er en UMVU-estimator hvis og kun hvis 

E θ(S0S) = 0 ∀ S ∈ C0 ∀ θ ∈ Θ. 

Bevis. Lad E θS0S = 0, ∀ S ∈ C0. Hvis S1 ∈ C(ψ) vil S = S1 − S0 ∈ C0, og 

V θS1 = V θ(S1 − S0 + S0) = V θ(S) + V θ(S0) + 2Cov θ(S, S0) 

= V θ(S) + V θ(S0) + 2E θSS0 = V θ(S) + V θ(S0) ≥ V θ(S0). 

D.v.s. S0 er en UMVU-estimator. 

Hvis S0 er en UMVU-estimator og ρ = E θ0 S0S = 0 for et S ∈ C0 og et θ0 ∈ Θ, skal 

vi vise en modstrid. Lad S λ = S0 + λS ∈ C(ψ). Så er 

Vθ0 (Sλ) = Vθ0 (S0) + λ 2 Vθ0 (S) + 2λρ, 

og da ρ = 0 medfører Vθ0 (S) > 0, kan vi tage λ = −ρ/Vθ0 (S), hvilket giver 

V θ0 (S λ) = V θ0 (S0) − ρ2 

V θ0 (S) < V θ0 (S0). 

Dette er en modstrid med at S0 er en UMVU-estimator. 

Korollar 6.7 (Entydighed af UMVU-estimatorer). Hvis S1, S2 begge er UMVU-estimatorer 

for ψ vil 

S1 = S2 n.s. − P θ ∀ θ ∈ Θ. 

Bevis. Da S1 − S2 ∈ C0 har vi fra Lemma 6.6, at 

V θ(S1) = V θ(S1 − S2 + S2) = V θ(S2) + V θ(S1 − S2). 

Da S1 og S2 begge er UMVU, er V θ(S1 − S2) = 0, som giver resultatet.


I Observation 6.4 blev det antydet, at for at minimere variansen under Pθ0 , skulle vi 

betragte en projektion. For at få en UMVU-estimator skal denne projektion være uafhængig 

af θ0. Projektioner minder lidt om betingede middelværdier, og hvis disse skal 

være uafhængige af parameteren, nærmer vi os noget med sufficiente observatorer. At 

dette ikke er fuldstændig tom snak, vidner de næste to sætninger om. 

Sætning 6.8 (Rao-Blackwell). Lad T være sufficient for P og lad S ∈ C(ψ). Da T er 

sufficient, afhænger ST = Eθ(S|T) ikke af θ, og vi har, at ST ∈ C(ψ) og 

V θ(ST) ≤ V θ(S), 

med lighedstegn hvis og kun hvis S = ST n.s. − P θ. Når man erstatter S med ST siger 

man, at man har udført en “Rao-Blackwellisation". 

Bevis. Da E θST = E θS og E θS 2 T ≤ E θE θ(S 2 |T) = E θS 2 < ∞ vil ST ∈ C(ψ). Da S = 

S − ST + ST har vi 

V θ(S) = V θ(S − ST) + V θ(ST) + 2Cov θ(S − ST, ST) 

= V θ(S − ST) + V θ(ST), (6.2) 

da Cov θ(S − ST, ST) = E θ((S − ST)ST) = E θ(STE θ(S − ST|T)) = 0. Af 6.2 følger umiddelbart 

uligheden i sætningen. Lighed opnås hvis og kun hvis 

V θ(S − ST) = 0 ⇔ S = ST n.s. − p θ. 

I eksempel 6.5 havde vi en model, hvor der for nogle, men ikke alle, parameterfunktioner 

ψ(θ) eksisterede en UMVU-estimator. Hvis vi har en model med en sufficient og 

komplet observator T, er situationen en anden: 

Sætning 6.9. Hvis T er sufficient og komplet for P og ψ : Θ → R er en parameterfunktion 

med C(ψ) = ∅, så eksisterer der en (entydig, jvf. Korollar 6.7) UMVU-estimator 

for ψ og denne er en funktion af T. Hvis S ∈ C(ψ) så er UMVU-estimatoren givet ved 

ST = E(S|T). Specielt hvis T = t(X), t : X → Y og f : Y → R med E θ f(T) 2 < ∞ ∀ θ, 

så er f(t(X)) en UMVU-estimator for parameterfunktionen 

ψ f(θ) = E θ f(T). 

Bevis. Lad S ∈ C(ψ) og definer ST = E(S|T) . Vi vil vise, at ST er en UMVU-estimator 

for ψ. Lad ˜S ∈ C(ψ) og lad ˜ST = E( ˜S|T). Da ˜ST og ST begge er funktioner af T og da 

Eθ( ˜ST − ST) = ψ(θ) − ψ(θ) = 0 ∀ θ ∈ θ 

vil, da T er komplet, ˜ST = ST n.s.-P θ for alle θ ∈ θ. Dermed har vi ifølge sætning 6.8 at 

V θST = V θ ˜ST ≤ V θ ˜S. 

Den sidste del af sætningen følger af, at vi trivielt har, at f(T) ∈ C(ψ f), og da 

E( f(T)|T) = f(T) er f(T) den UMVU-estimator, som vi konstruerede ovenfor. 

Sætning 6.9 giver os ikke blot eksistens, men også en metode til at konstruere UMVUestimatorer 

på.

6.2. VARIANSULIGHEDER 71 


Lad X1, . . . , Xn være i.i.d. fra en N(θ, 1). Fra eksponentiel familie teori har vi, at ∑ X i 

er sufficient og komplet. Da X1 er en central estimator for θ, giver Sætning 6.9, at 

 

E X1| ∑ 

i 

X i 

 

= 1 

n ∑ j 

E 1 

Xj| ∑ Xi = 

n E 

 

∑ 

j 

X j| ∑ i 

X i 

 

= 1 

n ∑ i 

er en UMVU-estimator for θ. 

(Et direkte bevis for sufficiens er som følger: Tætheden for X1, . . . , Xn er (2π) −n/2 · 

exp{− 1 2 ∑i(x i − ¯x) 2 } exp{− n 2 ( ¯x − θ)2 }, og når vi dividerer denne med tætheden for ¯X, 

forsvinder det sidste eksponentielle led, og vi får noget der ikke afhænger af θ. Hvis vi 

vil bevise komplethed af ¯X benytter vi, at hvis h(v) exp{−(v − θ) 2 /(2σ 2 )} = 0 for 

alle θ, så er ˜ h(v) exp{vµ} = 0 for alle µ, hvor ˜ h(v) = h(v) exp{−v 2 /(2σ 2 )}. Vi spitter 

dernæst ˜ h op i den positive og negative del og benytter entydighed af laplacetransformen.) 

 

6.2 Variansuligheder 

Ovenfor undersøgte jeg eksistensen af centrale estimatorer med minimal varians. Udover 

eksistensen vil vi også gerne vide hvad variansen er. Denne er som regel svær 

at beregne, men istedet kan vi angive en simpel nedre grænse. At den nedre grænse, 

som vi udleder, er relevant, kan ses i asymptotiske resultater. I Bemærkning 5.12 anførte 

jeg, at vi ofte har ( ˆθ − θ)j( ˆθ) 1/2 ˜→N d(0, I d), men da også typisk j( ˆθ)/i(θ) → 1 

vil ( ˆθ − θ)i(θ) 1/2 ˜→N d(0, I d). D.v.s. at den forventede information i(θ) −1 måler den asymptotiske 

varians af ˆθ. Nedenfor skal vi netop udlede i(θ) −1 som en nedre grænse 

for variansen. Dette viser, at maksimum likelihood estimatet ud over at være begrundet 

i fortolkningen af likelihoodfunktionen også kan begrundes i dets gode egenskaber, 

når antallet af observationer vokser. 

Lemma 6.11 Antag at alle målene i P er indbyrdes ækvivalente. Så gælder for alle 

θ ∈ Θ og alle S ∈ C(ψ) at 

(med a ∞ = 0 og 0 0 

V θ(S) ≥ sup 

η∈Θ 

[ψ(η) − ψ(θ)] 2 

. 

V θ( dPη 

dP θ ) 

= 0). 

Bevis. Vi skal vise, at V θ(S) ≥ [ψ(η) − ψ(θ)] 2 /V θ( dPη 

dP θ ) for alle η. Hvis V θ( dPη 

dP θ ) = ∞ 

er resultatet trivielt opfyldt, og tilsvarende hvis V θ( dPη 

dP θ ) = 0, så er ψ(η) = ψ(θ), og 

resultatet er trivielt. I modsat fald har vi Cauchy-Schwarz’ ulighed 

 

Covθ S, dPη 

 

dPθ 2 dPη 

 

≤ Vθ(S)V θ 

dPθ X i


Resultatet følger derfor af 

 

Covθ S, dPη 

 

dPθ 

 

dPη 

= EθS dPθ 

 

dPη 

= EθS dP θ 

 

dPη dPη 

− Eθ = EθS − Eη1 

dPθ dPθ 

 

− 1 = EηS − EθS = ψ(η) − ψ(θ) 

Det næste resultat får vi fra lemma 6.11 ved at lade η → θ på passende vis. Da vi skal 

bytte rundt på differentiation og integration, skal vi have nogle yderligere antagelser. 

Sætning 6.12 (Cramér-Rao’s ulighed). Antag at alle målene i P er indbyrdes ækviva- 

lente og lad Lθ(η, x) = dPη 

dP θ (x). Antag at 

(i) Θ er en åben delmængde af R d , 

(ii) ψ er 1 gang differentiabel, 

(iii) ∀ θ ∈ Θ er Lθ(η, x) differentiabel som funktion af η i punktet θ n.s.−Pθ, den 

afledede ∂ 

∂η Lθ(η, x)| η=θ betegnes L ′ θ (θ, x), 

(iv) i(θ) = EθL ′ θ (θ, X)∗ L ′ θ (θ, X) er positiv definit , 

(v) ∀ θ ∈ Θ findes der ω θ > 0 og D θ : X → R så at E θD θ(X) 2 < ∞ og |L θ(η, x) − 1| ≤ 

η − θDθ(x) for alle η − θ < ωθ n.s. − Pθ. 

Da gælder for alle S ∈ C(ψ) at 

1 

t 2[ψ(ηt) − ψ(θ)] 2 → 

Vθ(S) ≥ ∂ψ ∂ψ 

(θ)i(θ)−1 

∂θ ∂θ∗(θ). Bevis. Lad ηt = θ + t ∂ψ 

∂θ (θ)i(θ)−1 . Da ψ er differentiabel, er t→ ψ(ηt) differentiabel, og 

 

∂ψ ∂ψ 

(θ)i(θ)−1 

∂θ ∂θ∗(θ) 2 for t → 0. (6.3) 

Fra domineret konvergens får vi, idet ηt − θ = |t| dψ 

dθ (θ)i(θ)−1 < ωθ for t lille, 

1 

t2 V 2 Lθ(ηt, x) − 1 

θ(Lθ(ηt, X)) = 

dP 

t 

θ(x) 

2 ∂ψ 

→ 

(θ, x)∗ dPθ(x) 

∂ψ 

= 

∂θ (θ)i(θ)−1 L ′ θ 

∂θ (θ)i(θ)−1 L ′ θ (θ, x)∗ L ′ θ 

 

= ∂ψ 

∂θ (θ)i(θ)−1 

= ∂ψ 

∂θ (θ)i(θ)−1 −1 ∂ψ 

i(θ)i(θ) 

∂θ∗(θ) ∂ψ 

(θ, x)i(θ)−1 

∂θ∗(θ)dP θ(x) 

L ′ θ (θ, x)∗ L ′ θ (θ, x)dP 

θ(x) 

−1 ∂ψ 

i(θ) 

∂θ∗(θ) = ∂ψ ∂ψ 

(θ)i(θ)−1 

∂θ ∂θ∗(θ). (6.4) 

Dividerer vi nu (6.3) med (6.4), fås resultatet fra Lemma 6.11.

6.2. VARIANSULIGHEDER 73 

Observation 6.13 Ovenfor er i(θ) udtrykt ved L ′ θ (θ, x). Hvis µ er et fast mål som dominerer 

P og L(θ) = L(θ, x) er likelihoodfunktionen dPθ dµ , vil 

∂ 

∂η L θ(η, x)| η=θ = 

∂L 

∂θ (θ) 

L(θ) 

hvor l(θ) = logL(θ) er loglikelihoodfunktionen. D.v.s. 

i(θ) = E θ 

∂l ∂l 

∂θ∗(θ) ∂θ (θ), 

= ∂l 

∂θ (θ), 

og denne kaldes Fisher’s informationsfunktion. Definitionen af i(θ) afviger fra Definition 

5.9, men som det fremgår af Observation 5.10, er de to definitioner ækvivalente. 


I Eksempel 5.4 betragtede vi observationer fra en exponentialfordeling. Loglikelihoodfunktionen 

var 

l(β) = n{ln β − β ¯x}, 

og vi fandt ˆβ = ¯X −1 . Da E ˆβ = β n 

n−1 har vi fra Sætning 6.9, at 

n − 1 

n 

ˆβ = 

n − 1 

∑ X i 

er en central estimator med minimal varians for β. Desuden finder vi, at 

 

n − 1 

V 

∑ Xi = (n − 1) 2 

Den forventede information er 

i(β) = E 

 

β 2 

(n − 1)(n − 2) − 

2 ∂l 

= n 

∂β 

2 

1 

E 

β − 2 ¯X 

og demed bliver Cramér-Rao’s nedre grænse 

1 

n β2 

β2 (n − 1) 2 

 

= 1 

n − 2 β2 . 

= n 

, 

β2 som er strengt mindre end 1 

n−2 β2 . 


Lad P være en eksponentiel familie på minimal form 

dPθ (x) = b(x)eθ·t(x)−κ(θ) 

dµ 

med θ ∈ Θ ⊆ R d . Så er loglikelihoodfunktionen 

l(θ) = θ · t(x) − κ(θ),


og dermed 

∂l 

i(θ) = Eθ ∂θ∗ ∂l 

∂θ = Eθ[t(X) − τ(θ)] ∗ [t(X) − τ(θ)] = Vθ(t(X)) = ∂2κ . 

∂θ∂θ∗ Lad for et øjeblik d = 1. Så siger Sætning 6.9, at T = t(X) er en UMVU-estimator for 

τ(θ) = E θT. Cramér-Rao’s nedre grænse er i dette tilfælde 

∂τ ∂τ 

i(θ)−1 

∂θ ∂θ∗ = Vθ(T)V θ(T) −1 Vθ(T) = Vθ(T), d.v.s. at den nedre grænse er lig med den faktiske varians, når middelværdien τ(θ) 

estimeres med T. 

Hvis ψ : Θ → R er en generel parameterfunktion og denne estimeres med ˆψ = 

ψ( ˆθ) = ψ( ˆθ(T)), kan vi approksimere variansen ved at Taylorudvikle: 

ˆψ = ψ(θ) + (T − τ) ∂ ˆθ 

∂t ∗ 

Hvis vi kun betragter de første to led fås 

V θ( ˆψ) ∼ ∂ψ 

∂θ V θ(T) −1 V θ(T)V θ(T) 

∂ψ 

∂θ ∗ + · · · = ψ(θ) + (T − τ)V θ(T) 

−1 ∂ψ ∂ψ 

= ∗ 

∂θ 

∂θ 

−1 ∂ψ 

∂ψ 

i(θ)−1 , 

∂θ∗ + · · · 

∂θ∗ altså Cramér-Rao’s nedre grænse. Dette viser, at den simple Cramér-Rao nedre grænse 

typisk ikke vil være langt fra den faktiske varians. 

Observation 6.16 I forbindelse med Cramer-Rao’s nedre grænse gælder der, for en 

eksponentiel familie med tætheder på formen 

dPθ 

(x) = exp{φ(θ) · t(x) − κ(φ(θ))}, 

dµ 

hvor φ(θ), t(x) er p-dimensionale og θ er k-dimensional, k ≤ p, at betingelserne (i), 

(iii), (iv) og (v) er opfyldt, hvis 

(i) Støtten for t(X) ikke er indeholdt i et affint underum af R p , og Λ = {ξ| exp[ξ · 

t(x)]µ(dx) < ∞} har ikke-tomt indre. 

(ii) φ(θ) er kontinuert differentiabel; 

(iii) φ(θ) tilhører det indre af definitionsområdet Λ for κ(ξ); 

(iv) 

∂φ 

∂θ ∗(θ) har fuld rang. 

Bevis. Idet vi husker at 

τ(ξ) = ∂κ 

∂ξ (ξ) = E ξt(X) og 

∂ 2 κ 

∂ξ∂ξ ∗ (ξ) = V ξ(t(X)),

6.3. PUSTERUM 75 

viser en lille udregning at 

i(θ) = ∂φ 

∂θ ∗ V φ(θ)(t(X)) ∂φ∗ 

∂θ , 

som er positiv definit under antagelsen (i) og under antagelsen (iv). Desuden har vi 

med 

ηz = θ + z(η − θ), og f(z) = exp{(φ(ηz) − φ(θ)) · t(x) − κ(φ(ηz)) + κ(φ(θ))}, 

formlen 

L θ(η, x) − 1 = f(1) − f(0) = 

1 

f ′ (u)du 

0 

1 ∂φ 

= (η − θ) 

0 ∂θ∗(ηu){t − τ(φ(ηu))} ∗ f(u)du. 

Lad nu ω være så lille, at der eksisterer δ > 0 med Kugle(φ(θ); 3δ √ p) ⊆ Λ og |η − θ| < 

ω medfører |φ(η) − φ(θ)| < δ. På grund af kontinuitet af de indgående funktioner kan 

vi se at der eksisterer konstanter c i så at 

|L θ(η, x) − 1| ≤ |η − θ|(c1 + c2|t|) 

p 

∏ 1 

{exp(δt i) + exp(−δt i)} = |η − θ|D θ(x). 

Når vi udregner produktet i D θ(x) og kvadrerer får vi en sum af led på formen 

(c1 + c2|t(x)|) 2 exp{(∆1 + ∆2) · t(x)}, 

∆ i = δ(j i1, . . . , j ip), hvor j il enten er +1 eller −1. 

Med antagelsen om δ kan man nu indse at D θ(x) 2 er P θ-integrabel, idet ∆1 + ∆2 + φ(θ) 

ligger i det indre af Λ, og alle momenter af t(X) eksisterer for en exponentiel tæthed. 

6.3 Pusterum 

Lad os for et øjeblik standse det hæsblæsende tempo og samle tankerne. Vi startede 

dette notesæt med at indføre sufficiensprincippet i afsnit 3.5 og betingningsprincippet 

i afsnit 4.1. Hvordan passer det sammen med teorien for UMVU-estimatorer? I Sætning 

6.8 så vi, at vi skal lade en estimator være en funktion af den minimal sufficiente 

for at reducere variansen, d.v.s. at der er god overensstemmelse med sufficiensprincippet. 

Hvis T er sufficient og komplet, er der også overensstemmelse med betingningsprincippet, 

idet vi fra Basu’ sætning har, at fordelingen af T er den samme som den 

betingede fordeling af T givet en ancillær U. 

Det resterende tilfælde er hvor den minimal sufficiente observator T0 ikke er komplet, 

og hvor der eksisterer en ancillær observator U. Hvis vi benytter betingningsprincippet, 

skal vi derfor anvende teorien ovenfor på klassen af betingede fordelinger 

P u = {P θ(· | U = u)|θ ∈ θ} for ethvert u ∈ U. Hvis der for ethvert u eksisterer en 

UMVU-estimator S(u) for klassen P u , vil det være naturligt at spørge, om S(U) er en


UMVU-estimator for P ? Svaret er ikke helt oplagt på grund af følgende modsatrettede 

uligheder: 

⇓ 

V(S) = V(E(S|U)) + E{V(S|U)} 

inf V(S) ≥ E{ inf V(S|U)} ≤ E{ inf 

S∈C(ψ) S∈C(ψ) S∈Cu V(S|U = u)} 

(ψ) 

= E(V(S(u)|U = u)), 

hvor Cu (ψ) er de centrale estimatorer for klassen P u . Svaret er imidlertid nej, som det 

følgende eksempel viser. Lad udfaldsrummet være {1, 2, 3, 4} med sandsynlighederne 

(1 + θ)/4, (1 − θ)/4, (1 + 2θ)/4 og (1 − 2θ)/4, hvor − 1 2 < θ < 1 2 . Lad U være 1 hvis X 

er 1 eller 2 og lad U være 2 hvis X er 3 eller 4. Så er U ancillær. Lad endelig S(U) antage 

værdierne 1, -1, 1 2 , − 1 2 , svarende til X = 1, 2, 3, 4. Det er let at se at S(U) er UMVU i det 

betingede fordelinger givet U, men ikke UMVU i de ubetingede. 

Med hensyn til overensstemmelse mellem UMVU-estimatorer og maksimum likelihood 

estimatorer har jeg vist ved eksempler, at maksimum likelihood estimatorer ikke 

nødvendigvis er centrale og dermed ikke er UMVU-estimatorer. Til gengæld har jeg 

antydet, at maksimum likelihood estimatorer approksimativt er UMVU-estimatorer 

med en varians givet ved Cramér-Rao’s nedre grænse. Dette er især baseret på, hvad 

der sker, når antallet af observationer er stort. 

6.4 Opgaver 

Opgave 6.1 

Lad udfaldsrummet være X = {−1, 0, 1, 2, 3}, og lad P = {P θ|0 ≤ θ ≤ 1} være givet 

ved 

P θ(X = −1) = 2θ(1 − θ) og P θ(X = k) = θ k (1 − θ) 3−k for k = 0, 1, 2, 3. 

Find LMVU-estimatoren i punktet θ0 for henholdsvis ψ1(θ) = θ og ψ2(θ) = θ(1 − θ) 

(se observation 6.4 og eksempel 6.5). Afgør i begge tilfælde om estimatoren er UMVU. 

Find maksimum likelihood estimatet for ψ1, og lav et plot der viser bias af maksimum 

likelihood estimatet samt et plot der viser variansen af maksimum likelihood 

estimatet og variansen af LMVU-estimatet. 

Lav et plot for parameteren ψ2 af variansen af LMVU-estimatet samt af Cramer- 

Rao’s nedre grænse for variansen. 

Opgave 6.2 

Lad S1 og S2 være UMVU estimatorer for estimation af henholdsvis ψ1(θ) og ψ2(θ). 

Vis, at aS1 + bS2 er en UMVU estimator for estimation af aψ1(θ) + bψ2(θ). Her er a og 

b to vilkårlige reelle tal. 

Opgave 6.3 

Lad X1, . . . , Xn være uafhængige og identisk fordelte med varians Var(X i) = σ 2 . Lad 

s 2 = 1 

n−1 ∑n 1 (X i − ¯X) 2 .


(i) Vis, at s 2 er en unbiased estimator af σ 2 . 

(ii) Antag at X i antager værdierne 1 og 0 med sandsynlighederne θ og 1 − θ, 0 < 

θ < 1. Vis, at s 2 er en funktion af T = ∑ n 1 X i , og at s 2 er en UMVU estimator for 

σ 2 = θ(1 − θ). 

Opgave 6.4 

Lad X1, . . . , Xn være uafhængige og Bin(1, θ)-fordelte. Lad S1 være givet ved 

S1 = 1 hvis X1 = X2 = X3 = 1 og S1 = 0 ellers . 

(i) Vis, at T = ∑ n 1 X i er sufficient og komplet. 

(ii) Vis, at S1 er et unbiased estimat af ψ(θ) = θ 3 . 

(iii) Find en UMVU-estimator for ψ(θ) = θ 3 . 

Opgave 6.5 

Lad X1, . . . , Xn være Poissonfordelte med middelværdi θ −1 , og lad Y1, . . . , Yn være Poissonfordelte 

med middelværdi e −θ og lad alle de stokastiske variable være uafhængige. 

Den minimal kanoniske observator er T = (∑ n 1 X i, ∑ n 1 Y i) . Som i opgave 2.4 kan 

det vises, at T er komplet for familien P = {P θ|θ > 0}. Lad S = ¯X + ¯Y. 

(i) Vis, at S er en UMVU estimator for ψ(θ) = θ −1 + e −θ . 

(ii) Find variansen på √ n(S − ψ(θ)) og sammenlign med Cramér-Rao’s nedre grænse 

for V θ(S). 

(iii) Sammenlign resultatet i (ii) med resultatet i eksempel 6.14. 

Opgave 6.6 

Lad X1, . . . , Xn være uafhængige N(µ, σ 2 )-fordelte, og lad SSD = ∑ n 1 (X i − ¯X) 2 . Definer 

S = ¯X 2 − SSD/[n(n − 1)]. 

(i) Vis, at S er en UMVU-estimator for µ 2 . 

(ii) Find variansen på S. 

(iii) Find Cramér-Rao’s nedre grænse for Var(S) og sammenlign med (ii). 

Opgave 6.7 En lille omtolkning af Cramér-Rao’s nedre grænse 

Lad en observator S have middelværdi ψ S(θ) = E θS. Vi har da trivielt at S er en unbiased 

estimator for ψS. Cramér-Rao’s nedre grænse giver 

V θ(S) ≥ ∂ψS 

∂θ 

∂ψS 

(θ)i(θ)−1 (θ) 

∂θ∗


under antagleserne i Sætning 6.12, specielt under antagelsen at ψ S(θ) er differentiabel. 

Hvis nu vi tænker på S som en estimator af parameterfunktionen ψ(θ) er bias b(θ) 

givet ved 

b(θ) = ψ S(θ) − ψ(θ). 

Indsætter vi ψS(θ) = ψ(θ) + b(θ) i Cramér-Rao’s nedre grænse får vi 

 

∂ψ ∂b 

Vθ(S) ≥ (θ) + 

∂θ ∂θ (θ) 

 

i(θ) −1 

 

∂ψ ∂b 

∂θ∗(θ) + 

∂θ∗(θ) 

. 

Hermed har vi en generel formel, hvis ellers vi kan beregne bias b(θ). 

Antagelsen om at ψS(θ) er differentiabel (antaglese (ii) i Sætning 6.12) kan erstattes 

af antagelsen om at D θ i antagelse (v) opfylder 

E θSD θ(X) < ∞. 

Vis, at denne antagelse medfører at ψ S(θ) er differentiabel.

Kapitel 7 

Testteori 

7.1 Indledning og definitioner 

I Kapitel 5 om likelihoodinferens nævnte jeg kvotienttestet som en naturlig måde at 

undersøge vores tiltro til en hypotese på formen θ = θ0. I dette kapitel skal vi se på 

muligheden for systematisk at udvælge test udfra ønsket om at optimere visse egenskaber 

ved testet. Vi vil så se, at kvotienttestet dukker op gang på gang, hvilket er en 

konsekvens af det fundamentale Neyman-Pearson Lemma, som bevises i afsnit 7.2. I 

afsnit 7.3 kommer vi i direkte clinch med inferens for en delparameter, igen med udgangspunkt 

i en umiddelbar anvendelse af ønsket om at optimere visse egenskaber. I 

Kapitel 8 skal vi vende tilbage til inferens for delparametre, hvor vi vil betragte udvidede 

sufficiens- og betingningsprincipper. 

Testteorien her er baseret på, at vi for enhver mulig observation x vil træffe en afgørelse, 

der siger, enten at vi akcepterer hypotesen, der undersøges eller, at vi forkaster 

hypotesen. Dette er en formulering, som vi har brug for til at finde “gode” tests. I 

mange videnskabelige undersøgelser vil man ikke være interesseret i at afslutte undersøgelsen 

med et ja eller nej til en hypotese. Istedet vil man forsøge at angive, hvor 

meget data er i overensstemmelse med hypotesen, hyppigt udtrykt ved det opnåede 

signifikansniveau eller p-værdien. Som tidligere er vores model (X , A, P) med 

P = {P θ|θ ∈ Θ} og parameter området Θ ⊆ R d . 

Definition 7.1 En hypotese H0 er en ikke-tom delmængde Θ0 af Θ, og et udsagn om at 

den værdi af θ (den “sande” værdi) , der karakteriserer målet P θ, under hvilket data 

er indsamlet, ligger i Θ0. Den alternative hypotese H1 til H0 er delmængden Θ\Θ0. En 

hypotese kaldes simpel hvis den betragtede delmængde af Θ består af ét element, og 

ellers kaldes hypotesen sammensat. 

Definition 7.2 Et test for en hypotese H0 er et område A, kaldet akceptområdet, bestående 

af de x ∈ X for hvilke hypotesen akcepteres. Området A c hvor vi forkaster hypotesen 

H0, kaldes forkastelsesområdet. Ækvivalent hermed kan vi karakterisere testet ved 

den kritiske funktion φ, der peger på de x, som ligger i forkastelsesområdet, 

φ(x) = 

0 x ∈ A 

1 x ∈ A c . 

79

80 KAPITEL 7. TESTTEORI 

At vælge et test betyder altså, at vi skal vælge området A . Vi vil karakterisere et område 

ved to tal eller rettere ét tal og en funktion og bruge disse til at vælge et passende 

test. 

Definition 7.3 Niveauet α = α(φ) for et test φ for hypotesen H0 er 

α = α(φ) = sup Eθφ. 

Niveauet er altså den maksimale sandsynlighed under H0 for at forkaste H0. For θ ∈ 

Θ0 kaldes E θφ også for sandsynligheden for fejl af type I. Styrken β(θ) = β(θ; φ) af testet 

φ under Pθ er 

β(θ) = β(θ; φ) = E θφ = P θ(forkaste H0). 

Funktionen β : Θ → R kaldes styrkefunktionen. Styrken er af interesse for θ /∈ Θ0, hvor 

den angiver sandsynligheden for at vi træffer den rigtige beslutning, nemlig at forkaste 

H0. For θ /∈ Θ0 kaldes 1 − β(θ) sandsynligheden for fejl af type II , d.v.s. sandsynlighden 

for at akceptere en forkert hypotese. 

Udfra niveauet og styrken kan vi definere et stærkeste test mod alternativet θ1 ∈ Θ\Θ0. 

Definition 7.4 Et test φ kaldes et stærkeste test på niveau α, d.v.s. α(φ) = α, mod et 

alternativ θ1 ∈ Θ\Θ0 hvis 

θ∈Θ0 

β(θ1; φ) ≥ β(θ1, ˜φ) for alle test ˜φ med α( ˜φ) ≤ α(φ). 

Altså φ har større styrke end alle andre test på niveau højst α. Hvis et test φ er det 

stærkeste test mod ethvert alternativ θ1 ∈ Θ\Θ0, kaldes φ et uniformt stærkeste test. Et 

test φ på niveau α kaldes styrkeret, hvis 

og strengt styrkeret hvis 

β(θ; φ) ≥ α for alle θ ∈ Θ\Θ0, 

β(θ; φ) > α for alle θ ∈ Θ\Θ0. 

Grunden til at vi i Definition 7.4 betragter tests med α( ˜φ) ≤ α og ikke α( ˜φ) = α er, 

at med diskrete udfaldsrum er det ikke sikkert, at vi kan vælge det ønskede akceptområde 

på en sådan måde at α( ˜φ) = α. Styrkerette tests indføres fordi det i mange 

situationer er muligt at finde et uniformt stærkeste test blandt de styrkerette, hvorimod 

dette ikke er muligt blandt alle tests. 

Typisk vil man ikke blot konstruere et test φ for én fast værdi af niveauet α. Istedet 

vil man for ethvert 0 < α < 1 konstruere et test φα med den egenskab, at 

φα2 (x) ≥ φα 1 (x) for α2 > α1, 

d.v.s. at hvis vi forkaster ved et test på niveau α1, så forkaster vi også ved et test på 

niveau α2 > α1 (sandsynligheden for at forkaste under H0 stiger). For en observeret 

værdi x kan vi bestemme ǫ(x) ved 

ǫ(x) = inf 

α {φα(x) = 1}.

7.2. NEYMAN-PEARSON’S LEMMA OG MONOTONE KVOTIENTER 81 

Værdien af ǫ(x) kaldes det observerede signifikansniveau eller p-værdien. P-værdien angiver 

altså den grænse for niveauet, hvor vi forkaster H0 for den observerede værdi x, 

hvis niveauet α > ǫ(x), og vi akcepterer H0, hvis α < ǫ(x). 

Vi antager i hele kapitel 7, at P er domineret af det σ-endelige mål µ på X . 

Neyman 16/4 1894 (Bendery, Russia) - 5/8 1981 (Berkeley) 

Neyman udviklede i årerne 1928-1938 testteorien sammen med E. Pearson. I 1937 skrev 

han også en fundamental artikel om konfidensintervaller. 

Egon Sharpe Pearson 11/8 1895 (London) - 12/6 1980 (Sussex) 

Se ovenfor vedrørende samarbejdet med Neyman. 

7.2 Neyman-Pearson’s lemma og monotone kvotienter 

Vi jagter stærkeste tests, d.v.s. at vi skal maksimere styrken for et fastholdt niveau. 

Geometrisk betyder dette, at vi forsøger at placere A indeholdt i X , så at P θ1 (A c ) er så 

stor som mulig, og hvor størrelsen af A er bestemt ved niveauet α. Følgende lemma er 

fundamentalt: 

Lemma 7.5 (Neyman-Pearson) Lad f , f1, . . . , f k være givne funktioner fra X ind i R og 

lad c1, . . . , c k være givne konstanter. Lad endvidere φ0 være givet ved 

 

k 

1 hvis f(x) ≥ 

φ0(x) = 

∑i=1 ai fi(x) 0 ellers, 

(7.1)


hvor a1, . . . , a k er konstanter med a i ≥ 0, og antag at 

 

φ0(x) fi(x)dµ(x) = ci i = 1, . . . , k. 

Så gælder at 

 

φ0(x) f(x)dµ(x) ≥ 

h(x) f(x)dµ(x) (7.2) 

for enhver funktion h : X → R med 0 ≤ h(x) ≤ 1 og med 

 

h(x) f i(x)dµ(x) ≤ c i i = 1, . . . , k. (7.3) 

Bevis. Fra definitionen af φ0 og idet 0 ≤ h ≤ 1 ses, at 

Dermed fås 

 

0 ≤ 

 

= 

 

[φ0(x) − h(x)] f(x) − 

 

[φ0(x) − h(x)] f(x) − 

 

φ0(x) f(x)dµ(x) − 

hvor ˜c i = h(x) f i(x)dµ(x) ≤ c i. Vi får da 

 

 

h(x) f(x)dµ(x) ≤ 

k 

∑ 

1 

φ0(x) f(x)dµ(x) − 

k 

∑ 

1 

 

ai fi(x) ≥ 0. 

 

ai fi(x) dµ(x). 

h(x) f(x)dµ(x) − 

k 

∑ 

1 

k 

∑ 

1 

 

ai(ci − ˜c i) ≤ 

k 

aici + ∑ 

1 

ai ˜ci, 

φ0(x) f(x)dµ(x). 

For at teste H0 : θ ∈ Θ0 mod H1 : θ ∈ Θ\Θ0 definerer vi generelt kvotientteststørrelsen 

Q ved 

hvor 

Q(x) = sup p(x, θ) 

θ∈Θ0 

, (7.4) 

supθ∈Θ p(x, θ) 

p(x, θ) = dP θ 

dµ (x) 

er tæthedsfunktionen. Hvis Θ = {θ0, θ1} består af kun to værdier og Θ0 = {θ0} bliver 

Q(x) = Q(x; θ0, θ1) = 

p(x, θ0) 

max(p(x, θ0), p(x, θ1)) = 

Et område på formen Q(x) ≤ c, med c < 1, bliver da 

Dette ligner (7.1), og vi har da også: 

 

x p(x, θ1) ≥ 1 

 

p(x, θ0) . 

c 

 

max 

1 

1, p(x,θ 1) 

p(x,θ0) 

 

 

(7.5)


Sætning 7.6. Lad a ≥ 0. Kvotienttestet 

φ0 = 

1 hvis p(x, θ1) ≥ ap(x, θ0) 

0 ellers 

(7.6) 

er et stærkeste test for θ = θ0 mod θ = θ1 på niveau α = E θ0 φ0. Ydermere er φ0 det 

eneste stærkeste test på niveau α n.s.– {P θ0 , P θ 1 }, og hvis 0 < α < 1 er styrken E θ1 φ0 

større end niveauet α. 

Bevis. (i) Dette svarer til Lemma 7.5 med f(x) = p(x, θ1), f1(x) = p(x, θ0) og 

 

c1 = 

Formlerne (7.2) og (7.3) siger specielt, at 

φ0(x)p(x, θ0)dµ(x) = E θ0 φ0 = α. 

E θ1 φ0 ≥ E θ1 φ 

for ethvert test φ med E θ0 φ ≤ α. D.v.s. φ0 er et stærkeste test. 

(ii) For at vise entydigheden lader vi φ ∗ være et andet test med samme styrke som φ0 

og med niveau E θ0 φ∗ = α ∗ ≤ α. Vi skal så vise, at φ0 = φ ∗ n.s.−{P θ0 , P θ 1 }. Lad 

og 

A0 = {x | φ0(x) = φ ∗ (x)}, 

A1 = {x | φ0(x) = φ ∗ (x), p(x, θ1) = ap(x, θ0)}, 

A2 = {x|φ0(x) = φ ∗ (x), p(x, θ1) = ap(x, θ0) > 0}, 

A3 = {x|φ0(x) = φ ∗ (x), p(x, θ1) = ap(x, θ0) = 0}. 

Vi har trivielt at P θ0 (A3) = P θ1 (A3) = 0. Vi vil vise at µ(A1) = 0 og at P θ0 (A2) = 

P θ1 (A2) = 0. På A1 er [φ0(x) − φ ∗ (x)][p(x, θ1) − ap(x, θ0]] > 0, og hvis µ(A1) > 0 vil 

 

0 < [φ0(x) − φ 

A1 ∗ (x)][p(x, θ1) − ap(x, θ0)]dµ(x) 

 

= [φ0(x) − φ ∗ (x)][p(x, θ1) − ap(x, θ0)]dµ(x) 

= E θ1 φ0 − E θ1 φ ∗ − aE θ0 φ + aE θ0 φ∗ 

= E θ1 φ0 − E θ1 φ ∗ − a(α − α ∗ ), 

hvilket er en modstrid, da φ ∗ har samme styrke som φ0. Altså er µ(A1) = 0. Endvidere 

fås 

E θ1 φ ∗ = E θ1 φ ∗ (1 A0 + 1 A 1 + 1 A2 + 1 A3 ) = E θ 1 φ ∗ (1 A0 + 1 A2 ) 

= E θ1 φ0(1A0 + 1A2 ) + E θ 1 (φ ∗ − φ0)1A2 

= E θ1 φ0 − P θ1 (A2), 

altså er A2 en P θ1 -nulmængde og per definition af A2 derfor også en P θ0 -nulmængde.


(iii) Vi skal nu vise, at E θ1 φ0 > E θ0 φ0 = α hvis 0 < α < 1. Da E θ0 φ0 = α med 0 < α < 1 

har vi, at φ0(x)p(x, θ0)dµ(x) > 0, og fra definitionen af φ0 ses derfor, at 

og 

Eθ 1 φ0 = 

 

 

φ0(x)p(x, θ1)dµ(x) ≥ a 

φ0(x)p(x, θ0)dµ(x) = aα 

1 − Eθ 1 φ0 = Eθ 1 (1 − φ0) < aEθ0 (1 − φ0) = a(1 − α). 

Hvis a > 1 giver den første ulighed det ønskede. Hvis 0 < a ≤ 1 giver den anden 

ulighed, at 

E θ1 φ0 > 1 − a(1 − α) ≥ α. 

Sætning 7.6 er et simpelt og stærkt resultat. Hvis vi betragter en mere generel situation, 

hvor nulhypotesen stadig er simpel Θ0 = {θ0}, men modhypotesen Θ\{θ0} er 

sammensat, viser Sætning 7.6, at den eneste kandidat til et uniformt stærkeste test er 

kvotienttestet i (7.6) for et vilkårligt valgt θ1 ∈ Θ\{θ0}. Testet i (7.6) vil være uniformt 

stærkeste hvis og kun hvis små værdier af kvotienttestoren Q(x; θ0, θ1) svarer til små 

værdier af Q(x; θ0, θ2) for vilkårlige θ1, θ2 ∈ Θ\{θ0}. Vi kan formulere en klasse af 

modeller med Θ ⊆ R, hvor dette er tilfældet på følgende vis: 

Definition 7.7 Lad Θ ⊆ R og lad t : X → R. Så siges P at have strengt voksende 

kvotienter i t såfremt der for alle θ1, θ2 ∈ Θ, θ1 < θ2, eksisterer en strengt voksende 

funktion hθ1,θ2 , så at 

p(x, θ2) 

p(x, θ1) = hθ (t(x)) for alle x ∈ X . 

1,θ2 

Fra definitionen følger at Pθ2 ≪ Pθ for θ2 > θ1. Det omvendte gælder ikke. Hvis 

1 

for eksempel t(x) ∈ N0 kan vi have Pθ1 (T = 0) > 0 og Pθ2 (T = 0) = 0. 

Eksempel 7.8. 

Betragt en eksponentiel familie P af orden 1 med 

p(x, θ) = a(θ)b(x)e ψ(θ)t(x) , 

hvor ψ : θ → R er strengt voksende. Denne familie har strengt voksende kvotienter i t, 

idet 

p(x, θ2) 

p(x, θ1) 

= a(θ2) 

a(θ1) e[ψ(θ2)−ψ(θ 1)]t(x) . 

Sætning 7.9. Lad P have strengt voksende kvotienter i t, og lad φ være testet 

 

1 hvis t(x) ≥ c 

φ(x) = 

0 ellers 

hvor c er en konstant. Så gælder 

(i) Hvis θ0 < θ1 er φ kvotienttestet for H0 : θ = θ0 mod H1 : θ = θ1 på niveau 

α = E θ0 φ.


(ii) Hvis 0 < E θ0 φ < 1 så er styrkefunktionen β(θ) = E θφ strengt voksende i området 

{θ : β(θ) < 1}. 

(iii) Lad α = Eθ0φ og antag at 0 < α < 1. Så er φ det entydigt bestemte (n.s. mht. 

Pθ, θ ≥ θ0) uniformt stærkeste test for H0 : θ = θ0 eller H0 : θ ≤ θ0 mod H1 : θ > 

θ0 på niveau α. Desuden er φ strengt styrkeret. 

Bevis. (i) Fra Definiton 7.7 har vi, at t(x) ≥ c er ensbetydende med p(x, θ1) ≥ aθ1,θ0 p(x, θ0) 

for en konstant aθ1,θ0 , d.v.s. φ er et kvotienttest, se (7.6). 

(ii) Fra Sætning 7.6 har vi at hvis 0 < Eθ1φ < 1 så er β(θ2) = Eθ2φ > Eθ φ = β(θ1) for 

1 

θ2 > θ1. Spørgsmålet nu er så om β(θ) kan være nul. For θ > θ0 har vi β(θ) > β(θ0) > 0 

per antagelse. Endvidere, hvis β(θ) = 0 for θ < θ0 så vil β(θ0) = 0 da Pθ ≫ Pθ0 , men vi 

har netop antaget at β(θ0) > 0. 

(iii) Hvis H0 er θ = θ0 har vi fra (i) og Sætning 7.6 at φ er det stærkeste test for H0 

mod θ = θ1, hvor θ1 > θ0. Men da testet ikke afhænger at θ1, er φ det uniformt 

stærkeste mod H1 : θ > θ0. Hvis istedet H0 : θ ≤ θ0 viser (ii) , at niveauet for testet 

er sup θ≤θ0 E θφ = sup θ≤θ0 β(θ) = β(θ0) = E θ0 φ = α. Da ethvert andet test ˜φ for 

H0 = θ ≤ θ0 på niveau α1 ≤ α også er et test for θ = θ0 på niveau α2 ≤ α, har vi 

fra tilfældet med H0 : θ = θ0 at φ er stærkere end ˜φ. D.v.s. at φ er også det uniformt 

stærkeste for H0 : θ ≤ θ0 mod H1 : θ > θ0. Den strenge styrkerethed er en direkte 

konsekvens af(ii). Entydigheden af testet for nulhypotesen θ ≤ θ0 følger af lemmaet 

nedenfor. 

Lemma 7.10 Lad φ0 være det entydige staerkeste test i (7.6) for θ = θ0 mod θ = θ1 på 

niveau α. Lad K være en udvidelse af alternativet, θ1 ∈ K, og antag at φ0 er uniformt 

stærkeste for θ = θ0 mod θ ∈ K. Lad Θ0 være en udvidelse af nulhypotesen, θ0 ∈ Θ0. 

Hvis 

sup 

θ∈Θ0 

E θφ0 = α, 

så vil φ0 vaere det entydige (n.s. med hensyn til p θ, θ ∈ K ∪ {θ0}) uniformt stærkeste 

test for θ ∈ Θ0 mod θ ∈ K på niveau α. 

Bevis. Lad ˜φ være et alternativt test med sup ˜φ ≤ α. Så har vi E θ∈Θ0 

θ0 ˜φ ≤ α = Eθ0φ0 og dermed at 

Eθ1φ0 ≥ E ˜φ, θ1 θ ∈ K, 

da φ0 er et uniformt staerkeste test for θ = θ0. Dette viser at φ0 også er et uniformt 

staerkeste test for den udvidede nulhypotese. 

Entydigheden vises på helt samme måde som i beviset for sætning 7.6. 

Vi så ovenfor, at når vi tester θ = θ0 mod θ > θ0, fås det uniformt stærkeste test ved 

at forkaste for store værdier af T = t(X). Omvendt skal vi forkaste for små værdier 

af T, hvis vi tester mod den alternative hypotese θ < θ0. Der vil derfor normalt ikke


eksistere et uniformt stærkeste test for H0 : θ = θ0 mod H1 : θ = θ0 . Vi vil nu vise, at 

et uniformt stærkeste test blandt alle styrkerette tests eksisterer i denne situation. 

Vi betragter en eksponentiel familie P med 

hvor Θ er et åbent interval. 

p(x, θ) = b(x)e θt(x)−κ(θ) , θ ∈ Θ, (7.7) 

Lemma 7.11 Lad familien P være regulær. Kvotientteststørrelsen Q for H0 : θ = θ0 

mod H1 : θ = θ0, givet i (7.4), afhænger af x kun gennem t(x). Kvotienttestet, der 

forkaster for Q(t) ≤ c, er givet ved 

 

1 hvis t(x) ≤ a1 eller t(x) ≥ a2 

φ(x) = 

(7.8) 

0 ellers, 

hvor a1 < a2 er de to løsninger til Q(a) = c. 

Bevis. Fra Sætning 2.14 har vi, at, maksimum likelihood estimatet ˆθ = ˆθ(t) = τ−1 (t). 

Vi har da, at 

p(x, θ0) 

− log Q = − log 

p(x, ˆθ) = ( ˆθ − θ0)t + κ(θ0) − κ( ˆθ). (7.9) 

Da τ( ˆθ(t)) = t får vi 

Differentierer vi (7.9) mht. t fås 

dτ 

dθ ( ˆ θ) d ˆθ 

dt = 1 eller d ˆθ 

dt 

( ˆθ − θ0) + ˆθ ′ t − τ( ˆθ) ˆθ ′ = ˆθ − θ0, 

og da (7.10) viser, at ˆθ er strengt voksende i t, har vi 

d(− log Q) 

dt 

> 0 for t > τ(θ0) 

< 0 for t < τ(θ0) 

1 

= 

V( ˆ . (7.10) 

θ) 

Heraf ses at store værdier af − log Q (= små værdier af Q) svarer til t ≤ a1 eller t ≥ a2. 

Lemma 7.11 motiverer os til at betragte test på formen (7.8). Inden jeg gør dette, viser 

jeg: 

Lemma 7.12 For en åben eksponentiel familie (7.7) gælder, at hvis φ er et styrkeret test 

for θ = θ0 mod θ = θ0 på niveau α, så er 

Eθ0φT = αEθ0 T, (7.11) 

hvor T = t(X). 

Bevis. Vi har, at 

 

β(θ) = Eθφ = φ(x)b(x)e θt(x)−κ(θ) dµ(x) 

= e −κ(θ) 

 

e θt(x) dν(x) = e −κ(θ) c1(θ),


hvor dν 

dµ (x) = φ(x)b(x). Dette viser, at c1(θ) er en Laplacetransform, og de afledede af 

c1 fås ved at differentiere under integraltegnet (Sætning 2.8). Vi får derfor 

β ′ (θ) = −κ ′ (θ)e −κ(θ) c1(θ) + e −κ(θ) c ′ 1 (θ) 

= −τ(θ)β(θ) + E θφT. (7.12) 

Da φ er styrkeret, har β(θ) minimum i θ0. D.v.s. β ′ (θ0) = 0 og fra (7.12) fås 

E θ0 φT = β(θ0)E θ0 T = αE θ0 T. 

Sætning 7.13. For en åben eksponentiel familie (7.7) og et test φ på formen 

 

1 

φ(x) = 

0 

t(x) ≤ a1 eller t(x) ≥ a2 

ellers 

gælder, at hvis a1 og a2 er valgt så at Eθ0φ = α og (7.11) er opfyldt, så er φ det entydigt 

bestemte (n.s.−P) uniformt stærkeste test for θ = θ0 mod θ = θ0 på niveau α = Eθ0φ blandt alle styrkerette test på niveau α. 

Bevis. Vi viser først at φ er et uniformt stærkeste styrkeret test. Lad θ = θ0. Da er 

p(x, θ) 

p(x, θ0) 

= e(θ−θ0)t(x)−κ(θ)+κ(θ0) 

en strengt konveks funktion g θ(t) af t. Lad c0(θ) + c1(θ)t være linien gennem de to 

punkter (a1, g θ(a1)) og (a2, g θ(a2)). Så vil g θ(t) ligge over denne linie for t < a1 og 

t > a2 (lav en tegning!). Med andre ord 

φ(x) = 1 ⇔ gθ(t(x)) ≥ c0(θ) + c1(θ)t(x). (7.13) 

Lad ˜φ være et vilkårligt andet styrkeret test på niveau Eθ0 ˜φ = ˜α ≤ α. Vi bemærker først 

at 

 

 

0 ≤ (1 − φ(x))p(x, θ)µ(dx) = (1 − φ(x))gθ(t(x))p(x, θ0)µ(dx) 

 

≤ (1 − φ(x))[c0 + c1t(x)]p(x, θ0)µ(dx) = [c0 + c1Eθ0 T](1 − α) 

⇓ 

0 ≤ c0 + c1E θ0 T, 

hvor vi har brugt Lemma 7.12. Fra (7.13) har vi 

 

[φ(x) − ˜φ(x)] 

p(x, θ) 

p(x, θ0) − c0(θ) 

 

− c1(θ)t(x) ≥ 0 

og dermed 

 

p(x, 

0 ≤ [φ(x) − ˜φ(x)] 

θ) 

p(x, θ0) − c0(θ) 

 

− c1(θ)t(x) p(x, θ0)dµ(x) 

= Eθφ − Eθ ˜φ − [c0 + c1Eθ0 T](α − ˜α),


hvor vi igen har brugt Lemma 7.12. Kombinerer vi dette med det foregående resultat 

har vi at E θ ˜φ ≤ E θφ. 

Hvis vi erstatter ˜φ(x) ovenfor med α får vi istedet 

0 ≤ E θφ − α, 

det vil sige, testet φ er selv et styrkeret test. 

Entydigheden vises på helt tilsvarende vis som i Sætning 7.6 med A1 = {x | φ(x) = 

φ ∗ (x), p(x, θ)/p(x, θ0) − c0(θ) − c1(θ)t(x) = 0} og A2 = {x | φ(x) = φ ∗ (x), 

p(x, θ)/p(x, θ0) − c0(θ) − c1(θ)t(x) = 0, p(x, θ0) > 0}. 

Bemærk, at da vi indførte testet (7.8) var det ud fra kvotientteststørrelsen , og a1 og 

a2 blev bestemt ved, at de gav den samme værdi af Q, Q(a1) = Q(a2). I Sætning 7.13 

derimod skal a1 og a2 bestemmes, så at niveauet er α og så at testet er styrkeret. Typisk 

vil disse værdier af a1 og a2 ikke opfylde Q(a1) = Q(a2). 


Lad X være eksponentialfordelt med tæthed θe−θx . Lad os bestemme a1 og a2 i (7.8), så 

at Eθ0 ϕ = α og (7.11) er opfyldt. Det giver ligningerne 

Kvotientteststørrelsen er 

og dermed 

1 − e −θ0a 1 + e −θ0a2 = α og a2e −θ0a2 − a1e −θ0a 1 = 0. 

Q(x) = 

θ0e −θ0x 

1 

xe−1 = θ0xe −θ0x+1 

, 

Q(a1) = θ0a1e −θ0a 1+1 = θ0a2e −θ0a2+1 = Q(a2). 

Det samme resultat gælder for alle gammafordelinger med fast formparameter. 

Lad os istedet betragte klassen af tætheder 

e θx 

1 θ (e θ − 1) 

med 0 < x < 1. Hvis θ0 = 1 er tæthed og fordelingsfunktion 

Niveauet for testet bliver 

og 

Endelig har vi 

ET = 1 

f(x) = ex 

e − 1 og F(x) = ex − 1 

e − 1 . 

α = ea 1 − 1 + e − e a2 

e − 1 

e − 1 , EφT = 1 − (1 − a1)ea1 + (1 − a2)ea2 e − 1 

Q = ex (e ˆ θ − 1) 

(e − 1)e ˆθx ˆθ . 

Hvis vi nu tager a1 = 0.05, og løser αET = EφT, så bliver a2 = 0.973724 og α = 

0.07086524 og 

−2 log Q(a 1) = 4.974114 og − 2 log Q(a2) = 4.4134. 

.

7.3. SAMMENSAT NULHYPOTESE – TEST FOR EN DELPARAMETER 89 

7.3 Sammensat nulhypotese – test for en delparameter 

Den typiske situation, som vi skal betragte i dette afsnit, er den hvor θ står i entydig 

forbindelse med (ψ, η), og vi ønsker at teste H0 : ψ = ψ0. Dette er en sammensat 

hypotese med Θ0 = {θ(ψ, η)|ψ = ψ0}. Vi har generelt defineret niveauet af et test som 

sup θ∈Θ0 E θφ. En særlig ønskværdig situation vil være den, hvor E θφ ikke afhænger af 

θ ∈ Θ0, d.v.s. at uanset værdien af den ukendte η vil E θ(ψ0,η)φ = α. 

Definition 7.15 Et test φ på niveau α for den sammensatte hypotese θ ∈ Θ0 kaldes 

similært (eller niveaukonstant) hvis 

E θφ = α ∀ θ ∈ Θ0 

Navnet similært stammer fra det engelske “similar” og skal forstås på den måde, at 

forkastelsesområdet {x|φ(x) = 1} har den egenskab tilfælles med hele udfaldsrummet 

X , at sandsynligheden er uafhængig af θ ∈ Θ0. Et eksempel hvor der ikke findes et 

similært test er beskrevet nedenfor i eksempel 7.21. 


Lad X1, . . . , Xn være uafhængige og N(µ, σ 2 )-fordelte. Vi vil teste hypotesen at µ = 0. 

Traditionelt benytter vi 

T = 

1 

n−1 

∑ n 1 X 

i/n 

n 

∑1 (Xi − ¯X) 2 /(n − 1) , 

som er t-fordelt med n − 1 frihedsgrader, d.v.s. fordelingen afhænger ikke af parameteren 

σ2 . Testet defineret ved 

 

1 t(x) > c 

φ(x) = 

, 

0 ellers 

er derfor et similært test. 

At en sandsynlighed ikke afhænger af θ ∈ Θ0, minder os om egenskaber ved sufficiente 

observatorer. Dette er da også, hvad vi vil bruge til at konstruere similære tests: 

hvis T = t(X) er sufficient for P0 = {P θ|θ ∈ Θ0}, vil fordelingen af X givet T ikke 

afhænge af θ ∈ Θ0, og dette giver os muligheden for at lave et similært test. 

Lemma 7.17 Antag at T = t(X) er sufficient og komplet for P0 = {P θ|θ ∈ Θ0}, og at 

testet φ er similært på niveau α. Så gælder 

(i) T og φ(X) er uafhængige under P θ, θ ∈ Θ0 

(ii) For θ ∈ Θ0 er E θ(φ|T = t) = α n.s.−P0. 

Lad for enhver værdi t af T klassen P t = {P θ(·|T = t) | θ ∈ Θ} være de betingede 

fordelinger givet T = t. Antag nu yderligere at φ betragtet som et test i klassen P t er 

uniformt stærkeste på niveau α n.s.−P0 for test af θ ∈ Θ0 mod θ ∈ K. Så gælder


(iii) φ er et uniformt stærkeste test blandt alle similære test for test af θ ∈ Θ0 mod 

θ ∈ K. 

Bevis. (i) φ(X) antager kun to værdier og 

P θ(φ(X) = 1) = 1 − P θ(φ(X) = 0) = α ∀ θ ∈ Θ0. 

da φ er similært. D.v.s. at φ(X) er ancillær under P0, og resultatet følger af Basu’s 

sætning 4.9. 

(ii) Da T er sufficent, afhænger E θ(φ|T = t) ikke af θ for θ ∈ Θ0. Desuden viser (i) at 

E(φ|T = t) = E θ(φ) = α n.s. − P θ ∀ θ ∈ Θ0. 

(iii) Lad ˜φ være et andet similært test. Fra (ii) har vi for θ ∈ Θ0 

E θ( ˜φ|T = t) = α n.s. − P0, 

d.v.s. at ˜φ er et test på niveau α i den betingede klasse P t . Fra antagelsen har vi for 

θ ∈ Θ\Θ0 

E θ(φ|T = t) ≥ E θ( ˜φ|T = t) 

og deraf 

E θφ ≥ E θ ˜φ. 

Bemærk at punkt (ii) i Lemma 7.17 siger, at hvis vi vil konstruere et similært test, kan 

dette kun gøres ved at lave et test på niveau α i de betingede fordelinger givet T = t, 

hvis T er sufficient og komplet. 

Vi skal nu bruge Lemma 7.17 til at konstruere styrkerette test i eksponentielle familier. 

Vi betragter en eksponentiel familie P = {P θ|θ ∈ Θ} af orden k med minimal 

repræsentation 

dP θ 

dµ (x) = a(θ)b(x)eθ·t(x) , (7.14) 

og hvor Θ ⊆ R k er åbent. Vi ønsker at teste at θ ligger i et (k − 1) dimensionalt affint 

underrum Θ0 af Θ. Et sådant kan vi angive ved at det indre produkt mellem θ og 

en vektor α, som står vinkelret på det affine underrrum, har en fast værdi. Lad α = 

(α1, . . . , α k) være en fast vektor i R k , α = 0, og definer parameteren 

ψ = α · θ = α1θ1 + · · · + α kθ k. 

Vi ønsker at lave tests for ψ = ψ0. Antag at α1 = 0. Så kan vi skrive 

θ · t = 1 

(α1θ1 + · · · + αkθk − α2θ2 − · · · − αkθk)t1 + θ2t2 + · · · + θktk α1 

= ψ t1 

α1 

+ θ2(t2 − α2 

α1 

t1) + · · · + θk(tk − αk t1). 

α1


Hvis vi derfor sætter 

s(x) = t1(x) 

 

, η = (θ2, . . . , θk), og v = t2(x) − 

α1 

α2 

t1(x), . . . , tk(x) − 

α1 

α 

k 

t1(x) 

α1 

så kan (7.14) skrives som 

dPψ,η 

dµ (x) = ã(ψ, η)b(x)eψs(x)+η·v(x) , (7.15) 

med (ψ, η) i det åbne område Ω = {(α · θ, θ2, . . . , θ k) | θ ∈ Θ}. 

Sætning 7.18. Betragt den eksponentielle familie på minimal form (7.15). Hvis vi for 

enhver værdi af v = v(x) kan vælge a(v) så at 

da vil testet 

Pψ0,η(s(X) ≥ a(v) | V = v) = α, (7.16) 

φ(x) = 

1 hvis s(x) ≥ a(v(x)) 

0 hvis s(x) < a(v(x)) 

være det entydigt bestemte (n.s.−P) uniformt stærkeste styrkerette test på niveau α 

for ψ = ψ0 mod ψ > ψ0. 

Bevis. For ψ = ψ0 er P0 = {Pψ0,η|(ψ0, η) ∈ Ω} en åben eksponentiel familie af orden 

k − 1 med V = v(X) som minimal sufficient observator (se afsnit 2.6). Fra Sætning 2.26 

har vi derfor at V er sufficient og komplet. Uanset værdien af a(v) afhænger sandsynligheden 

på venstresiden af (7.16) derfor ikke af η. Det er også klart fra (7.16) at 

Eψ0,ηφ = α ∀ η. 

Hvis ˜φ er et styrkeret test på niveau α , vil Eψ,η ˜φ ≥ α for ψ > ψ0 og Eψ0,η ˜φ ≤ α. Men 

da styrken er en kontinuert funktion (se beviset for Lemma 7.12), kan vi lade ψ → ψ0 

og dermed få Eψ0,η ˜φ = α. D.v.s. at ˜φ er et similært test, og det følger så fra Lemma 7.17 

(iii), at φ er det stærkeste test blandt styrkerette test, hvis vi viser, at φ er det stærkeste 

test i klassen af betingede fordelinger givet V = v. 

Den betingede tæthed af S givet V = v får vi fra afsnit 2.6: 

dPψ,η(·|V = v) 

dPψ0,η0 (·|V = v)(x) = ã(ψ − ψ0, v)e (ψ−ψ0)s(x) . (7.17) 

Fra Sætning 7.9 og eksempel 7.8 har vi, at givet V = v er det entydigt bestemte stærkeste 

test på niveau α givet ved, at vi forkaster for s(x) ≥ a(v), altså testet φ i sætningen. 

Vi mangler derfor kun at vise, at φ selv er et styrkeret test. Men Sætning 7.9 giver 

også, at når 0 < α < 1 så gælder 

og dermed 

Eψ,η(φ|V = v) > α for ψ > ψ0, 

Eψ,η(φ) > α for ψ > ψ0.


Det er vigtigt at bemærke sig at V i Sætning 7.18 kan karakteriseres som den minimal 

sufficiente observator under hypotesen ω = α · θ = ω0. 


Lad X i = exp(Y i) hvor Y − i-erne er uafhængige og N(µ, σ 2 )-fordelte. Middelværdien 

af X i er exp(µ + 1 2 σ2 ). Hvis vi vil teste at middelværdien har en bestemt værdi svarer 

det altså til at teste at ω = µ + 1 2 σ2 har en bestemt værdi. Vi vil teste at ω = ω0 mod 

ω > ω0. Vi laver følgende opskrivning af tætheden 

(2πσ2) −n/2 n 

exp ∑(yi − µ) 

1 

2 /(2σ 2 

) 

= (2πσ2) −n/2 

exp 

− nµ2 

2σ 2 

= (2πσ2) −n/2 

exp − nµ2 

= (2πσ2) −n/2 

exp 

2σ 

 

exp − 1 

2 − 1 

2 ∑ y i 

− nµ2 1 

− 

2σ2 2 ∑ yi 

2σ 2 ∑ y 2 i 

 

exp 

− 1 

µ 

+ 

σ2 

∑ yi 2σ 2 ∑ y 2 i 

 

exp − 1 − 1 2ω0 2σ2 ∑ y 2 i 

+ ω 

σ 2 ∑ y i 

 

+ ω − ω0 

σ 2 

∑ yi 

Hvis vi lader ψ = (ω − ω0)/σ 2 svarer ω = ω0 mod ω > ω0 til ψ = 0 mod ψ > 0. 

Situationen er derfor som i Sætning 7.18 med η = − 1− 1 2 ω0 

2σ2 , s(x) = ∑ yi og v(x) = 

∑ y2 i . 

For at teste ψ = ψ0 mod ψ = ψ0 skal vi bruge Sætning 7.13 istedet for Sætning 7.9. 

Sætning 7.20. Betragt den eksponentielle familie på minimal form (7.15). Hvis vi for 

enhver værdi v af V kan vælge a1(v) < a2(v) så at testet 

 

1 s(x) ≤ a1(v(x)) eller s(x) ≥ a2(v(x)) 

φ(x) = 

0 a1(v(x)) < s(x) < a2(v(x)) 

opfylder 

Eψ0 (φ|V = v) = α og Eψ0 (φS|V = v) = αEψ0 (S|V = v), 

så er ϕ det entydigt bestemte (n.s.−P) uniformt stærkeste test på niveau α for ψ = ψ0 

blandt alle styrkerette tests. 

Bevis. Fra 7.17) og Sætning 7.13 har vi, at givet V = v er φ det stærkeste test blandt 

alle tests ˜φ som opfylder 

Eψ0,η( ˜φ|V = v) = α og Eψ0,η( ˜ϕS|V = v) = αEψ0,η(S|V = v). (7.18) 

Hvis derfor vi kan vise, at et vilkårligt styrkeret test ˜φ opfylder 7.18) for næsten alle v, 

vil 

Eψ,η(φ) = Eψ,η[Eψ,η(φ|V)] ≥ Eψ,η[Eψ,η( ˜φ|V)] = Eψ,η ˜φ, 

og sætningen er vist. 

Da styrkefunktionen er kontinuert, får vi som i beviset for Sætning 7.18, at ˜φ er et 

similært test, hvis ˜φ er styrkeret. Fra Lemma 7.17 (ii) får vi så første del af 7.18). Lad 

dernæst 

f(v) = Eψ0,η( ˜φS|V = v) − αEψ0,η(S|V = v), 

 

.


som faktisk ikke afhænger af η, da V er sufficient under ψ = ψ0. Vi har, at 

Eψ0,η f(V) = Eψ0,η( ˜φS) − αEψ0,η(S). (7.19) 

For fast η er ˜φ et styrkeret test for ψ = ψ0 mod ψ = ψ0, og Pη = {Pψ,η| for ψ med 

(ψ, η) ∈ Ω} er en åben eksponentiel familie af orden 1 og med S som kanonisk observator. 

Fra Lemma 7.12 har vi derfor, at 7.19) er nul for alle η med (ψ0, η) ∈ Ω. Men da 

omvendt V er komplet for P0, har vi, at 

Eψ0,η f(V) = 0 ∀ η ⇒ f(v) = 0 n.s. − P0, 

og (7.18) er vist. 

Dette afsnit har været baseret på, at den minimal sufficiente T0 under nulmodellen 

P0 er en ægte reduktion af den minimal suffciente T under den fulde model P. Et 

similært test kan så konstrueres ved at betragte den betingede fordeling af T givet T0. 

Hvis T0 = T, altså der er ingen reduktion i den minimal sufficiente observator, vil der 

ikke nødvendigvis eksistere et similært test. Det mest berømte eksempel på dette er: 

Eksempel 7.21 (Fisher-Behrens problemet). 

Lad X1, . . . , Xn være i.i.d. med fordeling N(µ, σ 2 ) og Y1, . . . , Ym være i.i.d. med fordeling 

N(µ+δ, τ 2 ). Vi ønsker at teste H0 : δ = 0, altså at middelværdierne i de to grupper 

er ens. Hvis de to varianser σ 2 og τ 2 er ens, σ 2 = τ 2 , har I lært, at I skal vurdere stør- 

relsen 

t = ¯X − ¯Y 

 

1 ( 

n+ 1 m )s2 

, s 2 = 

n 

1 

n + m − 2 ∑(Xi − ¯X) 

1 

2 + 

m 

∑ 

1 

(Yi − ¯Y) 2 

 

(7.20) 

i en t-fordeling med (n + m − 2) frihedsgrader, og forkaste H0 hvis |t| er stor. Men 

hvad hvis σ 2 = τ 2 ? Likelihoodfunktionen er 

(2πσ 2 ) − n 2 (2πτ 2 ) − m 

2 exp 

−n µ2 

2σ 

 

· exp 

 

+ δ)2 

− m(µ 

2 2τ2 − 1 

2σ2 n 

∑ x 

1 

2 µ 

+ 

i σ2 n 

∑ 

1 

xi − 1 

2τ2 m 

∑ 

1 

y 2 i 

+ µ + δ 

τ 2 

m 

∑ yi 

1 

og under den fulde model P = {P µ,δ,σ 2 ,τ 2 | µ, δ ∈ R og σ 2 , τ 2 ∈ R+} er T = (∑ n 1 X2 i , 

∑ n 1 Xi, ∑ m 1 Y2 

i , ∑m 1 Yi) minimal sufficient. Under P0 = {P µ,0,σ 2 ,τ 2 | µ ∈ R og σ 2 , τ 2 ∈ R+} 

sker der ikke en reduktion i ordenen af den eksponentielle familie, og T er stadig minimal 

sufficient. En eksponentiel familie, hvor dimensionen af parameterrummet er mindre 

end ordenen af familien, kaldes en krum eksponentiel familie. Specielt kaldes P0 en 

(4,3) krum eksponentiel familie, idet ordenen er 4 og dimensionen af parameterrummet 

{(µ, σ 2 , τ 2 ) | µ ∈ R, σ 2 , τ 2 ∈ R+} er 3 . 

Det matematiske problem om eksistensen af et similært test baseret på T blev først 

løst af sovjetborgeren Linnik og hans kollegaer i 1966. Hvis n og m begge er lige eller 

begge er ulige, eksisterer der ikke et similært test. Hvis én af n og m er lige og den 

anden er ulige, eksisterer der ganske vist en løsning, men denne afhænger ikke på en 

“glat” måde af T. 

 

,


Selvom der ikke eksisterer tests, som er similære, eksisterer der tests, som er næsten 

similære. Da under H0 

 

¯X − ¯Y ∼ N 0, σ2 

og 

 

τ2 

+ 

n m 

s 2 1 = 

1 

n − 1 

n 

(Xi − ¯X) 2 , s 2 1 

2 = 

m − 1 

m 

(Yi − ¯Y) 2 

∑ 1 

estimerer henholdsvis σ2 og τ2 , er det naturligt at betragte teststørrelsen (sammenlign 

med 7.20)) 

¯X − ¯Y 

Z = 

. 

 

s 2 1 /n + s2 2 /m 

Denne er approksimativt t-fordelt med antallet af frihedsgrader 

ν(θ) = 

2 

θ 1 

+ / 

n m 

Ved at erstatte θ med ˆθ = s 2 1 /s2 2 

niveau α ved at forkaste, når 

θ 2 

n 2 (n − 1) + 

∑ 1 

1 

m2 

, θ = σ 

(m − 1) 

2 /τ 2 . 

får vi et approksimativt test for δ = 0 mod δ = 0 på 

|z| > t 1−α/2(ν( ˆ θ)), 

hvor tp( f) er p-fraktilen i en t-fordeling med f frihedsgrader. Dette test kaldes Welch-t 

test, og er meget tæt på at give et similært test. 

En anden mulighed, som også giver et test, der er meget tæt på at være similært, er 

at forkaste små værdier af kvotientteststørrelsen Q fra 7.4). 

7.4 Lokalt stærkeste test 

Hvad gør vi, hvis der ikke eksisterer et uniformt stærkeste test? Et rimeligt godt svar 

er: brug altid kvotientteststørrelsen Q i 7.4) og forkast for små værdier af Q. Dette er 

fornuftigt ud fra fortolkningen af Q > c som et likelihoodområde, og fordi testet bliver 

approksimativt similært, og dette sidste gælder også, hvis vi betinger med en ancillær 

observator. 

En anden mulighed - som vi skal se anvendt i forbindelse med rangtestorer i notesættet 

om ikke-parametrisk statistik - er at maksimere styrken lokalt. Dette er især af 

betydning hvis θ er endimensional, og vi ønsker at teste θ = θ0. Hvis modhypotesen 

er θ > θ0, ønsker vi at vælge testet φ sådan, at styrken β(θ) = E θφ vokser mest muligt, 

når θ bevæger sig væk fra θ0. Med andre ord ønsker vi, at maksimere β ′ (θ0 ) . Hvis vi 

må differentiere ind under integraltegnet, har vi 

Definer nu 

∂β 

∂θ (θ0) = ∂ 

 

∂θ 

φ(x)p(x, θ)dµ(x)| θ=θ0 = 

 

φ(x) = 

 

1 hvis ∂p(x,θ0) 

∂θ 

0 ellers, 

φ(x) 

> ap(x, θ0) 

∂p(x, θ0) 

dµ(x). (7.21) 

∂θ 

(7.22)


hvor a er bestemt, så at 

 

Eθ0φ = 

φ(x)p(x, θ0)dµ(x) = α. 

Det følger så af Lemma 7.5 og (7.21), at hvis ˜φ er et andet test med E θ0 ˜φ ≤ α, så vil 

∂ 

∂θ E ∂ 

θφ| θ=θ0 ≥ 

∂θ Eθ ˜φ| θ=θ0 . 

Det lokalt stærkeste test er altså givet ved 7.22). Vi kan formulere dette som at vi skal 

forkaste for store værdier af 

U(θ0) = ∂ 

∂θ p(x, θ0)/p(x, θ0) = ∂l 

∂θ (θ0), 

hvor l(θ) er loglikelihoodfunktionen. Med andre ord, vi skal forkaste for store værdier 

af scorefunktionen (se definition 5.9). 

7.5 Opgaver 

Opgave 7.1 

Lad X1, . . . , Xn være uafhængige og N(µ, σ 2 )-fordelte. 

(i) Antag at σ 2 er kendt. Vis, at et uniformt stærkeste test for µ ≤ µ0 mod µ > µ0 

forkaster for store værdier af ∑ n 1 (X i − µ0). 

(ii) Antag at µ er kendt. Vis, at et uniformt stærkeste test for σ 2 ≤ σ 2 0 mod σ2 > σ 2 0 

forkaster for store værdier af ∑ n 1 (X i − µ0) 2 . 

Opgave 7.2 

Lad X1, . . . , Xn være uafhængige og uniformt fordelte på intervallet (0, θ). 

(i) Vis, at hvis A ⊂ (0, θ0) n , da gælder der for θ1 > θ0 at Pθ1 ((X1, . . . , Xn) ∈ A) = 

nPθ0 ((X1, . . . , Xn) ∈ A). Vis dernæst, at hvis A ⊂ (0, θ1) n , da vil 

θ0 

θ 1 

Pθ 1 ((X1, . . . , Xn) ∈ A) = Pθ 1 ((X (n) ≥ θ0) ∩ A) + 

hvor X (n) = max{X1, . . . , Xn}. 

n θ0 

Pθ0 

θ1 

(A), 

(ii) Vis, at et stærkeste test for θ = θ0 mod θ = θ1, hvor θ1 > θ0, på niveau α er givet 

ved 

⎧ 

⎨ 1 

ϕ(x) = 1 

⎩ 

0 

hvis X (n) ≥ θ0 

hvis (X1, . . . , Xn) ∈ A 

ellers, 

hvor A ⊆ (0, θ0) n er vilkårlig med Pθ0 (A) = α. 

(iii) Antag at A = {a ≤ x (n) < θ0} Vis, at testet ϕ fra (ii) er et uniformt stærkeste test 

på niveau α for hypotesen θ ≤ θ0 mod θ > θ0.


Opgave 7.3 

Lad X være Bin(n, θ)-fordelt. 

(i) Vis at det uniformt stærkeste test for hypotesen θ ≤ θ0 mod θ > θ0 forkaster for 

store værdier af X. 

(ii) Lad θ0 = 0.2, og lad for ethvert n konstanten kn være bestemt, så at 

P θ0 (Xn ≥ kn) ≥ 0.05 og P θ0 (Xn > kn) < 0.05. 

Definer testet ϕn ved ϕn(x) = 1(x ≥ kn). Hvor stor skal n være for at styrken af 

ϕn i punktet θ1 = 0.4 er mindst 0.9. 

Vink: Det er nok en god ide at finde en tabel med binomialsandsynligheder! 

Opgave 7.4 

Lad P have strengt voksende kvotienter i t(x). Lad den observerede værdi at T = t(X) 

være t obs . Find p-værdien eller det observerede signifikansniveau for testet af θ ≤ θ0 

mod θ > θ0. 

Opgave 7.5 

Lad X1, . . . , Xn være uafhængige stokastiske variable, hvor X i er Poisson-fordelt med 

middelværdi λi , λi > 0, i = 1, 2, . . . , n. 

(i) Lad λ 0 i 

> 0, i = 1, 2, . . . , n og lad d > 1 være et fast tal. Vis, at 

ϕ(x1, . . . , xn) = 

er det stærkeste test på niveau α for hypotesen 

mod hypotesen 

Her er 

α = 

1 x1 + · · · + xn ≥ k 

0 x1 + · · · + xn < k 

(λ1, . . . , λn) = (λ 0 1 , . . . , λ0 n) 

(λ1, . . . , λn) = (dλ 0 1 , . . . , dλ0 n). 

∞ 

−a ai 

∑ e 

i! 

i=k 

og a = λ01 + · · · + λ0n. (ii) Vis, at ϕ er et test på niveau α for hypotesen H: 

mod hypotesen K: 

λ1 + · · · + λn ≤ a 

λ1 + · · · + λn > a. 

(iii) Vis, at ϕ er et uniformt stærkeste test på niveau α for hypotesen H mod hypotesen 

K.


Opgave 7.6 

Lad X1, X2, X3 være indbyrdes uafhængige eksponentialfordelte stokastiske variable 

med middelværdier 

EXi = 1 

, i = 1, 2, 3, 

µ i 

hvor µ i > 0, i = 1, 2, 3. Den herved definerede familie af sandsynlighedsmål på R 3 + 

udgør en regulær eksponentiel familie af orden 3. 

(i) Opskriv tætheden for (X1, X2, X3) på eksponentiel familieform med 

som kanonisk observator og 

som tilhørende kanonisk parameter. 

(ii) Vis, at for µ1 = µ2 + µ3 er 

 

X1 

P 

min(X2, X3) 

T = t(X) = (X1, X1 + X2, X1 + X3) 

θ = (µ2 + µ3 − µ1, −µ2, −µ3) 

 

≤ a = a 

, a > 0. 

a + 1 

Vink: Udnyt, at min(X2, X3) er eksponentialfordelt med middelværdi (µ2 + µ3) −1 . 

(iii) Vis, at for µ1 = µ2 + µ3 er 

uafhængige. 

X1 

min(X2, X3) og (X1 + X2, X1 + X3) 

(iv) Vis, at det uniformt stærkeste styrkerette test for µ1 = µ2 + µ3 mod µ1 < µ2 + µ3 

på niveau α er 

 

1 

ϕ(X1, X2, X3) = 

0 

X1 1−α ≥ min(X2,X3) α 

ellers. 

Vink: Konstruer testet i Sætning 7.18. 

Opgave 7.7 

Lad X1, . . . , Xn være uafhængige og Γ(λ, β)-fordelte, λ > 0, β > 0. Lad U = ∏ n 1 X1/n 

i / ¯X. 

(i) Vis, at fordelingen af U ikke afhænger af β, og vis, at U og ¯X er uafhængige. 

(ii) Vis, at det uniformt stærkeste styrkerette test på niveau α for λ = λ0 mod λ > λ0 

er givet ved 

ϕ(X1, . . . , Xn) = 

1 for (∏ n i=1 X i) 1/n / 1 n ∑n i=1 X i ≥ c 

0 ellers,


hvor c er bestemt ved 

P λ0,β 

⎛ 

⎜ 

⎝ 

n 1/n ∏ Xi i=1 

1 

n 

n 

∑ Xi i=1 

⎞ 

⎟ 

≥ c⎟ 

⎠ = α. 

Opgave 7.8 

Lad X1, . . . , Xn være uafhængige med tæthed 

 

1β exp − 

f(x) = 

x−δ 

 

β x ≥ δ 

0 ellers, 

hvor δ ∈ R og β > 0. 

Lad X (1) ,..,X (n) være ordensobservatorerne for X1, . . . , Xn . 

(i) Vis, at (X (1), . . . , X (n)) har tæthed f givet ved 

for δ ≤ z1 ≤ z2 ≤ · · · ≤ zn. 

f(z1, . . . , zn) = n! 1 

exp 

βn 

nδ 

exp − 

β 

1 

β 

Sæt Y1 = nX (1) og Y i = (n − i + 1)(X (i) − X (i−1) ), i = 2, . . . , n. 

(ii) Vis, at Y1, . . . , Yn er stokastisk uafhængige, og Y1 har tæthed 

 

1β 

f(y1) = 

e − yi β y1 ≥ nδ 

0 ellers, 

og Y i har tæthed, i = 2,. . . ,n, 

f(yi) = 

(iii) Vis, at for β fast er Y1 sufficient og komplet. 

(iv) Lad 

1β e − y i 

β y i ≥ 0 

0 ellers. 

 

1 Y2 + · · · + Yn > cα 

ϕ(Y1, . . . , Yn) = 

0 ellers, 

n 

∑ zi i=1 

hvor cα = β0 

2 χ2 1−α (2n − 2). Vis, at ϕ er et test på niveau α for β = β0 mod β > β0. 

(v) Vis, at styrkefunktionen for dette test er givet ved 

 

Eδ,β(ϕ) = P Z ≥ β0 

β χ2 

1−α (2n − 2) , 

hvor Z er en χ 2 (2n − 2)-fordelt stokastisk variabel. Vis ved hjælp af dette resultat, 

at ϕ er et styrkeret test for β = β0 mod β > β0.


(vi) Vis, at ϕ er uniformt stærkeste styrkerette test på niveau α for β = β0 mod β > β0 

. 

Opgave 7.9 

Lad X ij, i = 1, 2, j = 1, 2, være uafhængige eksponentialfordelte med middelværdi 

EX ij = 

hvor λ1, λ2 > 0 er ukendte parametre. 

1 

, i = 1, 2, j = 1, 2, 

λi + λj (i) Vis, at ovennævnte familie af sandsynlighedsmål på R 4 + 

ponentiel familie af orden 2, og vis, at 

T(X) = (X22 − X11, X11 + X12 + X21 + X22) 

er en kanonisk observator med tilhørende kanonisk parameter 

(ii) Vis, at for λ1 = λ2 er 

φ = (λ1 − λ2, −λ1 − λ2). 

X22 − X11 

X11 + X12 + X21 + X22 

ancillær og stokastisk uafhængig af X11 + X12 + X21 + X22. 

udgør en regulær eks- 

(iii) Vis, at det uniformt stærkeste styrkerette test for λ1 = λ2 mod λ1 > λ2 på niveau 

α er 

 

1 

ϕ(X11, X12, X21, X22) = 

0 

X22−X11 X ≥ cα 

11+X12+X21+X22 ellers, 

hvor cα er bestemt ved 

P λ1=λ2 

 

X22 − X11 

X11 + X12 + X21 + X22 

 

≥ cα = α. 

(iv) Vis, at det uniformt stærkeste styrkerette test for λ1 = λ2 mod λ1 = λ2 på niveau 

2α er 

 

1 

ϕ(X11, X12, X21, X22) = 

0 

|X22−X11| X ≥ cα 

11+X12+X 21+X22 

ellers, 

hvor cα er bestemt som ovenfor. 

Opgave 7.10 

Betragt en model P = {Pθ|θ ∈ Θ} på målrummet (X , A). Lad ϕ(x; θ0) være et test på 

niveau α for hypotesen H(θ0) : θ = θ0 . D.v.s. at vi har Eθ0 ϕ = α. Vis, at området 

K(x) = {θ ∈ Θ | ϕ(x; θ) = 0}


er et (1 − α)-konfidensområde. 

Lad nu θ = (ψ, η) og lad ˜ϕ(x; ψ0) være et test på niveau α for den sammensatte 

hypotese H(ψ0) : ψ = ψ0. Definer 

Vis, at 

˜K(x) = {ψ | ˜ϕ(x; ψ) = 0}. 

P θ 

ψ ∈ ˜K(X) ≥ 1 − α, 

altså at ˜K(X) indeholder den sande værdi ψ, med en sandsynlighed, der er mindst 

1 − α.

Kapitel 8 

Separat inferens 

8.1 L-sufficiens og L-ancillaritet 

Vi betragter i dette kapitel en model P = {P θ|θ ∈ Θ}, hvor θ står i én til én korrespondance 

med (ψ, η). Parameteren ψ - interesseparameteren - er den parameter, vi ønsker 

at sige noget om, hvorimod vi ikke er interesseret i η - nuisanceparameteren (engelsk: 

nuisance = plage) - selvom denne er nødvendig for en fuldstændig beskrivelse af modellen. 

I Kapitel 6 betragtede vi estimation af ψ i klassen af centrale estimater, d.v.s. 

Eψ,η ˜ψ = ψ for alle η for et centralt estimat ˜ψ. Tilsvarende betragtede vi i Afsnit 7.3 similære 

tests for den sammensatte hypotese ψ = ψ0, d.v.s. Eψ0,ηφ = α for alle η. I begge 

tilfælde er der tale om en egenskab, der ikke afhænger af nuisanceparameteren η . Der 

er to situationer, hvor denne egenskab kan opnås på en direkte måde, nemlig hvis der 

eksisterer en observator S = s(X), så at den marginale fordeling af S kun afhænger 

af ψ, eller hvis der eksisterer en observator U = u(X), så at den betingede fordeling 

af X givet U = u kun afhænger af ψ. Det var den sidste situation, der blev anvendt i 

konstruktionen af de similære tests i Afsnit 7.3. Det spørgsmål, som vi skal komme ind 

på her, er om det er rimeligt kun at betragte den marginale fordeling af S, henholdsvis 

den betingede fordeling af X givet U. Bemærk at i tilfældet, hvor der ingen nuisanceparameter 

er, d.v.s θ = ψ, så har vi en formulering af dette i (B-) sufficiensprincippet 

og (B-) betingningsprincippet. 

Jeg vil først med et eksempel vise, at maksimum likelihood estimation ikke er problemfrit, 

når der er nuisanceparametre tilstede. 

Eksempel 8.1. 

Hvis X1, . . . , Xn er uafhængige og alle N(µ, σ 2 )-fordelte, så er likelihoodfunktionen 

L(µ, σ 2 ) = 

n 

∏(2πσ 

i=1 

2 ) − 1 − 1 

2 e 2σ2 (x1−µ) 2 

Maksimum likelihood estimaterne er ˆµ = ¯X og σ 2 = 1 n ∑n 1 (X i − ¯X) 2 . På statistik 1 har 

I lært, at I ikke skal bruge ˆσ 2 som estimat for σ 2 , men istedet 

s 2 = 1 

n − 1 

n 

∑(Xi − ¯X) 

1 

2 . 

101

102 KAPITEL 8. SEPARAT INFERENS 

Argumentet for at bruge s 2 istedet for ˆσ 2 er, at 

Es 2 = σ 2 og Eˆσ 2 2 n − 1 

= σ 

n = 

 

1 − 1 

n 

 

σ 2 . 

Den marginale fordeling for s 2 er en σ 2 χ 2 (n − 1)/(n − 1) med tæthed 

 

n − 1 

2σ2 (n−1)/2 

Γ 

n − 1 

2 

−1 

x (n−3)/2 e −(n−1)x/(2σ2 ) , 

og maksimum likelihood estimatet ˆσ 2 m fra denne tæthed er netop ˆσ 2 m = s 2 . 

Medmindre n er meget lille, har det i praksis ikke den store betydning, om vi bruger 

ˆσ 2 eller s 2 . Intuitivt er det generelt forholdet mellem antallet af observationer n og antallet 

af nuisanceparametre, der bestemmer, hvor godt maksimum likelihoodestimatet 

er. Dette kan illustreres ved modellen med 

X ij ∼ N(µ i, σ 2 ) j = 1, 2, i = 1, . . . , n, 

d.v.s., at vi har n grupper med to observationer i hver. Maksimum likelihood estimaterne 

er 

Fra store tals lov (JHJ 4.12) får vi 

ˆµ i = ¯X i· = 1 

2 (Xi1 + Xi2) og ˆσ 2 = 1 

2n ∑(Xij − ¯X i·) 

ij 

2 . 

ˆσ 2 = 1 

n 

n 

∑ 

1 

 

Xi1 − X 

2 

i2 Xi1 − Xi2 → E 

2 

2 

2 

= 1 

2 σ2 , 

hvor konvergensen er næsten sikker for n → ∞, og vi har også Eˆσ 2 = 1 2 σ2 . Hvis vi 

istedet baserer estimationen af σ 2 på den marginale fordeling af 

får vi maksimum likelihood estimatet 

Y i = X i1 − X i2 ∼ N(0, 2σ 2 ) i = 1, . . . , n, 

ˆσ 2 m = 2 1 

n 

n 

∑ 

1 

 

Xi1 − 

 

Xi2 

2 

→ σ 

2 

2 , 

og Eˆσ 2 m = σ 2 . 

Lad nu familien P være domineret af µ og lad f(x; θ) = dPθ dµ (x). Hvis S = s(X) er 

en observator, lader vi 

f(s; θ) = dPθS (s) og f(x|s; θ) = 

dµS 

dPθ(·|S = s) 

dµ(·|S = s) (x), 

og tilsvarende for observatoren U = u(X). Hvis f(s; θ) kun afhænger af θ gennem ψ, 

d.v.s. 

f(x; θ) = f(s; ψ) f(x|s; ψ, η), (8.1)

8.1. L-SUFFICIENS OG L-ANCILLARITET 103 

er vi interesseret i, om vi kan basere inferensen om ψ på den marginale model f(s; ψ). 

Hvis vi kan argumentere for, at f(x|s; ψ, η) ikke indeholder information om ψ, vil det 

være rimeligt at sige, at S i en udvidet forstand er sufficient for ψ. Hvis omvendt 

f(x|u; θ) kun afhænger af θ gennem ψ, d.v.s 

f(x, θ) = f(u; ψ, η) f(x|u; ψ), (8.2) 

vil vi gerne kunne sige, at f(u; ψ, η) ikke indeholder information om ψ, og at U i en 

udvidet forstand er ancillær for ψ. 

Jeg vil nu give én (ud af andre mulige) definition på hvornår f(x|s; ψ, η) henholdsvis 

f(u; ψ, η) ikke indeholder information om ψ, og dernæst forsøge at argumentere 

for at dette er et rimeligt kriterium. 

Definition 8.2 Hvis opsplitningen (8.1) holder, og der eksisterer funktioner g(s; ψ) og 

h(x) så at 

sup f(x|s; ψ, η) = g(s; ψ)h(x), (8.3) 

η 

så siges S = s(X) at være L-sufficient for ψ (“L” for likelihood). Hvis omvendt opsplitningen 

(8.2) holder, og der eksisterer funktioner g(ψ) og h(u) så at 

sup 

η 

f(u; ψ, η) = g(ψ)h(u), (8.4) 

så siges U = u(X) at være L-ancillær for ψ. 

Hvis S er L-sufficient for ψ, bør inferens om ψ udføres i den marginale fordeling af 

S, og hvis U er L-ancillær for ψ, bør inferens om ψ udføres i den betingede fordeling af 

X givet U. 

Argumentation: Ved at tage tæthed mht. ˜µ, hvor d ˜µ/dµ = h, kan vi i (8.3) og (8.4) 

antage at h ≡ 1, hvilket hermed gøres. Profillikelihoodfunktionen ¯L(ψ) for parameteren 

ψ er defineret som 

¯L(ψ) = sup 

η 

f(x; ψ, η) = f(x; ψ, ˆηψ), 

hvor ˆηψ er maksimum likelihood estimatet for η for fastholdt værdi af ψ. Hvis (8.1) er 

opfyldt, vil 

¯L(ψ) = f(s; ψ) sup f(x|s; ψ, η) = f(s; ψ) f(x|s; ψ, ˆηψ). (8.5) 

η 

Profillikelihoodfunktionen ¯L(ψ) er udgangspunktet for inferens om ψ, og vi kan udtrykke 

(8.5) ved at ¯L(ψ) er den marginale likelihood fra S modificeret ved f(x|s; ψ, ˆηψ). 

Denne modifikation må være baseret på den extra viden, vi har fra observationen x 

givet S = s. Hvis (8.3) er opfyldt, er modifikationen g(s; ψ), altså den samme uanset 

hvad vi har observeret om x givet S = s. Men i så fald kan vi lige så godt sige, at vi 

ikke har observeret x fra X givet S = s, og tilbage er observationen S = s. Vi bør derfor 

nøjes med at betragte den marginale fordeling af S, og anse g(s; ψ) for et irrelevant 

element (som netop giver anledning til problemerne i eksempel 8.1 ovenfor). 

Hvis (8.2) er udgangspunktet, har vi 

¯L(ψ) = f(x|u; ψ) f(u; ψ, ˆηψ),


og f(u; ψ, ˆηψ) betragtes som en modifikation til f(x|u; ψ). Hvis (8.4) er opfyldt, fås 

f(u; ψ, ˆηψ) = g(ψ), 

og modifikationen afhænger altså ikke af hvilken værdi af u, der er observeret. Vi bør 

derfor nøjes med at basere inferensen på den betingede fordeling af x givet U = u. △ 

Eksempel 8.3. 

Lad X i, . . . , Xn være uafhængige og N(µ, σ 2 ) fordelte. Vi vil vise at S = (X1 − ¯X, . . . , Xn − 

¯X) er L-sufficient for σ 2 . Da X i − ¯X = (X i − µ) − ∑ n 1 (X j − µ)/n afhænger fordelingen 

af S kun af σ 2 . Da X = (X1, . . . , Xn) = S + ( ¯X, . . . , ¯X) er den betingede fordeling af X 

givet S ækvivalent med den betingede fordeling af ¯X givet S. For fast σ 2 er ¯X sufficient 

og komplet og S er ancillær. Fra Basu’s sætning har vi derfor at S og ¯X er uafhængige. 

Den betingede fordeling af X givet S er derfor ækvivalent med den marginale 

fordeling af ¯X, som jo er en N(µ, σ 2 /n) fordeling. Da 

sup 

µ 

1 

√ 2πσ 2 /n exp(−( ¯x − µ) 2 /(2σ 2 /n)) = 

1 

√ 2πσ 2 /n 

er en funktion af σ 2 udelukkende har vi fra definitionen at S er L-sufficient for σ 2 . 

Estimatet for σ 2 fra den marginale fordeling af S er s 2 = ∑ n 1 (X i − ¯X)/(n − 1). 

I de næste to afsnit vil jeg se på specialtilfælde af L-sufficiens og L-ancillaritet. 

8.2 S-sufficiens og S-ancillaritet 

Vi har antaget ovenfor at paramteren θ står i entydig forbindelse med parameteren 

(ψ, η) Vi antager nu at vi kan omparametrisere til (ψ, λ), det vil sige at der er en entil-en 

forbindelse mellem (ψ, η) og (ψ, λ). I definitionen nedenfor er det et væsentligt 

element at vi forlanger at (ψ, λ) varierer i et produktområde. 

Definition 8.4 Hvis (ψ, λ) varierer i Ψ × Λ, og (8.1) specialiserer til 

f(x; θ) = f(s; ψ) f(x|s; λ) 

siges S = s(X) at være S-sufficient for ψ. Omvendt hvis (8.2) specialiserer til 

f(x; θ) = f(u; λ) f(x|u; ψ) 

siges U = u(X) at være S-ancillær for ψ. 

Observation 8.5 S-sufficiens/ancillaritet er et specialtilfælde af L-sufficiens/ancillaritet. 

 

Bevis. (i) Sufficiens: 

(ii) Ancillaritet: 

sup 

η 

sup 

η 

f(x|s; ψ, η) = sup f(x|s; λ) = h(x). 

λ∈Λ 

f(u; ψ, η) = sup f(u; λ) = h(u). 

λ∈Λ

8.2. S-SUFFICIENS OG S-ANCILLARITET 105 

Observation 8.6 Hvis S er S-sufficient henholdsvis S-ancillær, er maksimum likelihood 

estimatet for ψ og kvotienttestoren for ψ = ψ0 de samme, om de baseres på 

den fulde likelihood f(x; ψ, η) eller på den marginale likelihood f(s; ψ) henholdsvis 

den betingede likelihood f(x|u; ψ). Fordelingen af estimat og kvotienttestor vil dog i 

ancillaritetstilfældet være påvirket af, at vi betinger med U = u. 

Observation 8.7 S-ancillaritet ligger tæt op ad B-ancillaritet, idet hvis U er S-ancillær, 

så er U også B-ancillær i enhver af delmodellerne med λ fast. Hvis derfor vi synes, at 

det er vigtigt at betinge med U for fastholdt værdi af λ, bør vi også betinge med U, når 

λ er ukendt og varierer i Λ, sålænge værdien af λ ikke siger noget om variationsområdet 

for ψ. 

Eksempel 8.8. 

I forsikringsmatematikken betragter man ofte den model, at skaderne ankommer efter 

en Poissonproces i tiden og skadestørrelserne er uafhængige og identisk fordelte. Lad 

os derfor betragte følgende model: N er en Poissonfordeling betinget med at N > 0 , 

d.v.s. 

P(N = k) = λk 

k! e−λ /(1 − e −λ ), k = 1, 2, . . . , 

og X1, X2, . . . er uafhængige exponentialfordelte med middelværdi µ. Vi observerer N 

og X1, . . . , XN og likelihoodfunktionen bliver 

L(µ, ; λ) = 

1 

1 − e −λ 

Maksimum likelihood estimatet for µ er 

ˆµ = 1 

N 

λn n 

1 

e−λ 

n! ∏ µ 

i=1 

e−xi/µ . 

N 

∑ Xi. i=1 

Hvis vi skal sige noget om, hvor tæt ˆµ må forventes at være på den sande værdi µ, 

virker det rimeligt at tage hensyn til værdien af N : hvis N = 1, ved vi ikke meget 

om µ, men hvis N = 10.000 , er vi i en meget bedre position for at lave udsagn om µ. 

Vi ønsker altså at basere inferensen på den betingede fordeling af X1, X2, . . . , Xn givet 

N = n. Hvis λ er kendt, er N B-ancillær, og hvis λ er ukendt med (µ, λ) ∈ R2 + er N 

S-ancillær for inferens om µ. 

Eksempel 8.9. 

Lad (X, Y) være 2-dimensionalt normalfordelt med middelværdi (µ, µ) og varians 

1 1 

1 1+σ 2 

 

. Parameteren (µ, σ 2 ) varierer i R × R+. Så har vi X ∼ N(µ, 1) og Y|X = 

x ∼ N(x, σ 2 ). Heraf ser vi at X er S-sufficient for µ. 


Lad N være antallet af partikler fra en radioaktiv kilde, som en geigertæller registrerer 

i et fast tidsrum, og lad N2 være en tilsvarende tælling med en plade indskudt mellem 

kilden og tælleren. Vi vil betragte modellen 

N1 ∼ Poisson(γ) og N2 ∼ Poisson(ψγ), γ > 0, 0 < ψ ≤ 1,


d.v.s. γ er intensiteten fra kilden og ψ angiver den bremsende virkning af pladen. Likelihoodfunktionen 

er 

L(ψ, γ) = γn 1 

n1! e−γ(ψγ)n2 

n2! e−ψγ 

= [γ(1 + ψ)]n1+n2 e 

(n1 + n2)! 

−γ(1+ψ) 

n1 + n2 

n1 

n1 n2 1 ψ 

, 

1 + ψ 1 + ψ 

svarende til at (N1 + N2) ∼ Poisson (γ(1 + ψ)) og N1|(N1 + N2) = k ∼ Binomial 

1 (k, 1+ψ ). Hvis ψ er interesseparameteren, og λ = γ(1 + ψ) er en nuisanceparameter, 

har vi at (ψ, λ) ∈ (0, 1] × R+, og U = N1 + N2 er S-ancillær for ψ. Vi bør altså drage 

inferens om ψ i den betingede fordeling af N1 givet N1 + N2. 

I forbindelse med S-sufficiens og S-ancillaritet optræder ofte begrebet et “snit”. Lad 

P være en klasse af sandsynlighedsmål, og S en observator. Lad P S = {P S | P ∈ P} 

være klassen af marginale fordelinger for S og lad P S = {P(·|S = ·) | P ∈ P} være 

klassen af betingede fordelinger givet S. Hvis der for enhver kombination (P1, P2) ∈ 

P S × P S eksisterer P ∈ P med P S = P1 og P(·|S = ·) = P2, så siges S at være et snit i 

modellen P . Hvis derfor S er S-sufficient for parameteren ψ, er S et snit, og omvendt 

hvis S er et snit, vil S være S-sufficient for en vilkårlig parameter, som parametriserer 

klassen P S af marginale fordelinger. 

Eksempel 8.11 (Inkubationstidsfordelingen for AIDS). 

Dette eksempel er lidt sværere end de øvrige, men jeg tager det med på grund af dets 

aktualitet. 

Da inkubationstiden for AIDS er meget lang, er smittetidspunktet ofte ukendt, når 

personer får stillet diagnosen AIDS (=AIDS i fuldt udbrud). Man har derfor forsøgt 

at bruge data fra personer, der er blevet smittet ved blodtransfusion, og derfor har et 

kendt smittetidspunkt. Lad os for eksempel sige, at vi laver en undersøgelse i 1987. 

Observationerne i = 1, . . . , n består derfor af par (xi, yi), hvor xi er smittetidspunktet, 

og y i ≤ 1987 er tidspunktet for AIDS. Der vil være flere end de n personer, der er blevet 

smittet ved blodtransfusion, men de resterende personer bliver ikke observeret, idet de 

har et AIDS-tidspunkt, der ligger senere end 1987. 

Lad os sige, at inkubationsfordelingen F(·; ψ) er parametriseret ved ψ, 

P(Y i − X i ≤ z) = F(z; ψ). 

Lad os endvidere antage, at personerne bliver smittet efter en inhomogen Poisson proces 

med intensitet λ(t). D.v.s. at antallet af personer der smittes ved blodtransfusion i 

tidsintervallet (t1, t2) er Poissonfordelt med middelværdi t2 

t 1 λ(t)dt og disjunkte tidsintervaller 

er uafhængige. Heraf får vi, at processen af observerede smittetidspunkter, 

svarende til X i-erne ovenfor, også er en inhomogen Poissonproces med intensitet 

φ(t) = λ(t)F(T − t; ψ), (8.6) 

hvor T = 1987 er tidspunktet, hvor undersøgelsen er afsluttet. Denne formel siger, at 

af dem, der smittes til tid t, når vi kun at se F(T − t; ψ).

8.3. G-SUFFICIENS OG G-ANCILLARITET 107 

Observationen bliver N = n antal par og tidspunkterne (X1, Y1), . . . , (Xn, Yn). Likelihoodfunktionen 

kan opskrives som den marginale tæthed af (N, X1, . . . , Xn) multipliceret 

med den betingede tæthed af (Y1, . . . , Yn). Givet (N, X1, . . . , XN) har vi at 

(Y1, . . . , Yn) er uafhængige, og Y i har tæthed f(y − x i; ψ)/F(T − x i; ψ), hvor f(z; ψ) = 

F ′ (z; ψ). Givet N = n har vi at X1, . . . , Xn er uafhængige, og X i har tæthed φ(x)/ T 

T0 φ(t)dt, 

hvor T0 er starttidspunktet for epidemien (dette er en egenskab ved den inhomogene 

Poissonproces). Endelig er N Poissonfordelt med middelværdi T 

φ(t)dt. Vi får da 

T0 

L(ψ; λ(·)) 

= 

= 

n 

∏ 

i=1 

n 

∏ 

i=1 

 

f(y i − xi; ψ) 1 

F(T − xi; ψ) n! 

 

1 

n! 

f(y i − x i; ψ) 

F(T − x i; ψ) 

n 

∏ 

i=1 

n 

∏ 

i=1 

 

[λ(xi)F(T − xi; ψ)] exp − 

T 

φ(xi) exp − φ(t)dt 

T0 

 

T 

T0 

 

λ(t)F(T − t; ψ)dt 

 

(8.7) 

Hvis vores model siger, at ψ ∈ Ψ og λ(·) kan variere frit, kan vi ifølge (8.6) også 

formulere dette som ψ ∈ Ψ, og φ(·) kan variere frit. Vi har derfor igen et tilfælde, 

hvor (N, X1, . . . , Xn ) er S-ancillær for ψ, og vi baserer inferensen om ψ på det første 

led i (8.7). I litteraturen har man også forsøgt at bruge den fulde likelihoodfunktion 

(8.7), idet λ(t) er blevet modelleret som exp(a + bt) med a og b parametre, i hvilket 

tilfælde (N, X1, . . . , XN ) ikke længere er S-ancillær. 

Det er værdifuldt at give en nøjere overvejelse over forskellen mellem ikke at antage 

noget om λ(·) og for eksempel at antage en parametrisk form. Når vi siger, at vi ikke 

ved noget om λ(·), baserer vi inferensen om ψ på det første led i (8.7). Hvis vore model 

F(·; ψ) for inkubationstiden er “rigtig”, vil dette føre til en fornuftig viden om ψ. Når 

vi derimod antager noget om λ(·), får det andet led i (8.7) betydning på grund af (8.6). 

Hvis nu vores antagelse om λ(·) ikke er korrekt, vil dette altså føre til en eller anden 

form for fejl i vores udtalelse om ψ. Vi kan således fortolke det, at vi baserer inferensen 

om ψ på det første led i (8.7) som en “sikker” procedure. 

Baseret på amerikanske data og den betingede likelihoodfunktion har man estimeret 

inkubationstidsfordelingen til at være en Weibullfordeling med fordelingsfunktionen 

1 − exp{−(αt) β }, α = 0.07, β = 2.5, 

hvor t måles i år. Denne fordeling har median 12.3, og sandsynligheden for en inkubationstid 

på 7 år eller derunder er kun 0.155. 

8.3 G-sufficiens og G-ancillaritet 

I dette afsnit skal jeg bruge begrebet en gruppefrembragt familie af sandsynlighedsmål, 

og jeg beskriver derfor først dette generelt. Vi betragter et generelt udfaldsrum X , 

hvopå vi har en mængde G af målelige transformationer 

g : X → X for g ∈ G. 

Vi antager, at G er en gruppe, hvilket betyder, at hvis g, h ∈ G , så vil den sammensatte 

afbildning gh, 

gh : x → g(h(x))


også tilhøre G, og for ethvert g ∈ G vil den inverse afbildning g −1 tilhøre G. Hvis P er 

en klasse af sandsynlighedsmål, siges P at være frembragt af gruppen G, hvis der for et 

P0 ∈ P gælder at 

P = {P0g | g ∈ G}. 

Hvis P0 har tæthed f(x) og χg(y) er Jacobianten 

vil P0g have tæthed f(y; g) givet ved 

 

 

χg(y) = 

 

∂y (y) 

 

 

 

, (8.8) 

∂g −1 

f(y; g) = χg(y) f(g −1 (y)). (8.9) 

En gruppe af transformationer siges at virke transitivt på X , hvis der for alle x1, x2 ∈ X 

findes et g ∈ G, så at g(x1) = x2. 

Lemma 8.12 Hvis G virket transitivt på X og P er gruppefrembragt, eksisterer der en 

konstant c(P) afhængig af P og en funktion h(x) uafhængig af P (d.v.s. kun afhængig 

af X og G) så at 

sup 

g 

f(x; g) = c(P)h(x). 

Bevis. Fra definitionen (8.8) af χg har vi, at χ gh(x) = χ h(g −1 (x))χg(x). Lad x0 være et 

fast punkt i X . Da G virker transitivt på X , kan vi for ethvert x ∈ X finde d = dx ∈ G, 

så at x = d −1 (x0). Fra (8.9) får vi 

og dermed 

f(x; g) = f(d −1 (x0); g) = χg(d −1 (x0)) f(g −1 (d −1 (x0))) 

= χ dg(x0) 

χ d(x0) f((dg)−1 (x0)) 

= f(x0, dg)χ d(x0) −1 , 

sup 

g 

f(x; g) = [sup 

g 

= [sup 

˜g 

f(x0, dg)]χ d(x0) −1 

f(x0, ˜g)]χ d(x0) −1 

= c(P)h(x). 

Definition 8.13 Hvis opsplitningen (8.1) holder, og der for ethvert s eksisterer en transitiv 

gruppe Gs af transformationer på Xs = {x|s(x) = s}, så at familien P s ψ = 

{ f(·|s; ψ, η)|ηvarierer} er frembragt af Gs for alle ψ, da siges S = s(X) at være Gsufficient 

for ψ. Omvendt hvis (8.2) holder og der eksisterer en transitiv gruppe G af 

transformationer på U = u(X), så at familien PU,ψ = {P (ψ,η)U | η varierer} er frembragt 

af G for alle ψ, da siges U = u(X) at være G-ancillær for ψ.


Observation 8.14 G sufficiens/ancillaritet er et specialtilfælde af L-sufficiens/ ancillaritet. 

 

Bevis. (i) Sufficiens: 

ifølge Lemma 8.10. 

(ii) Ancillaritet: 

sup 

η 

sup 

η 

f(x|s; ψ, η) = c(s, ψ)h(x), 

f(u; ψ, η) = c(ψ)h(u), 

ifølge Lemma 8.10. 


Lad X1, . . . , Xn være uafhængige Gammafordelte med tæthed 

hvor (β, λ) ∈ R2 + . Likelihoodfunktionen er 

L(λ, β) = βnλ 

Γ(λ) exp 

 

λ 

β λ 

Γ(λ) xλ−1 e −βx , x > 0, 

n 

∑ 

1 

ln x i − β 

og dermed er profil–likelihoodfunktionen for λ, 

Hvis 

¯L(λ) = sup 

β 

n n 

∑ xi ∏ 

1 1 

L(λ, β) = λnλ 

Γ(λ) exp λ 

∑ ln x i − n ln ¯x − n n 

∏ 1 

S = 1 

n 

n 

∑ 

1 

n 

ln Xi − ln ¯X 

∏1 X 

= ln 

1/n 

i 

¯X 

1 

x i 

 

, 

1 

xi 

 

. (8.10) 

har en fordeling, der kun afhænger af λ, viser (8.10), at S er L-sufficient for λ. Da 

S = 1 

n ∑ 

1 

ln(βXi) − ln 

n 

n 

∑ 

1 

 

(βXi) og βX i har en fordeling, der kun afhænger af λ, vil S have en fordeling, der kun afhænger 

af λ. Vi vil nu vise, at S også er G-sufficient for λ. 

Vi laver først en minimal sufficient reduktion til T = ( 1 n ∑n 1 X i, 1 n ∑n 1 ln X i). Denne 

står i entydig forbindelse med ( ¯X, S), og Baus’s sætning giver (opgave 4.3), at ¯X og S 

er uafhængige. Tætheden for ¯X er 

fn(x; λ, β) = (nβ)nλ 

Γ(nλ) xnλ−1 e −nβx . (8.11) 

Lad nu G = R+ være gruppen af transformationer på R+ givet ved, at for g ∈ R+ 

gælder 

g : x → gx, x ∈ R+.


Hvis X har tæthed fn(x; λ, β) vil g(X) have tæthed fn(x; λ, β/g). D.v.s. at for fast λ er 

familien (8.11) med β > 0 frembragt af gruppen G. Da (8.11) er de betingede tætheder 

givet S, er S altså G-sufficient for λ. 

Bemærk at transformationerne af ¯X svarer til transformationerne 

(x1, . . . , xn) → (gx1, . . . , gxn) 

på det oprindelige udfaldsrum R n + , og at under disse transformationer er S = s(X1, . . . , Xn) 

invariant 

s(gx1, . . . , gxn) = s(x1, . . . , xn). 

Eksempel 8.16 (Proportional hazards). 

Dette er også et svært eksempel. Modellen, vi skal betragte, er meget populær i forbindelse 

med studier af overlevelsesdata. Eksemplet giver også en fornemmelse af, 

hvordan man kan opstille en likelihoodfunktion i mere komplicerede situationer end 

dem, I er vant til. 

Vi betragter n personer og observerer, hvornår de dør. Til person i er der knyttet 

et sæt forklarende variable z i ∈ R k (engelsk: covariates). Disse kan for eksempel sige, 

hvilken medicinsk behandling personen får, om det er en kvinde eller en mand og 

så videre. Fordelingen af dødstidspunktet beskrives ved en hazardfunktion h(t), der 

siger, hvad sandsynligheden er for at dø i det næste lille tidsrum, givet at man har 

overlevet op til nu. Vi kan skrive dette som 

P( dø i (t, t + δ) | levende til tid t) = h(t)δ + o(δ), (8.12) 

hvor o(δ)/δ → 0 for δ → 0. En anden måde at sige dette på er 

s+t 

P(dø efter tid s + t | levende til tid s) = exp − h(u)du . (8.13) 

s 

Tænk på en inhomogen Poissonproces! 

Lad os betragte m personer med hazards h1(t), . . . , hm(t). Lad T være den stokastiske 

variabel, der angiver tidspunktet for det første dødsfald og I nummeret på den 

person, der dør til tid T. Da hazardfunktionen har fortolkningen (8.12), får vi 

og som i (8.13) finder vi, at 

P(I = i | T = t) = hi(t) ∑ m j=1 h , (8.14) 

j(t) 

 

P(T > t) = exp − 

og dermed er tætheden for T givet ved 

m 

∑ hj(t) exp − 

j=1 

t 

0 

t 

0 

m 

∑ hj(u) du , 

j=1 

m 

∑ hj(u) du , (8.15) 

j=1


Lad os nu vende tilbage til de n personer med kovariater z1, . . . , zn. Vi vil betragte 

modellen, hvor hazardfunktionen h i(t) for den i’te person er på formen 

h i(t) = λ(t) exp{β · z i}, 

hvor λ(t) er en underliggende fælles intensitet og β er en vektor af parametre. Dette 

kaldes Proportional Hazards modellen. Vi observerer de stokastiske variable D1, . . . , Dn, 

som er dødstidspunkterne for de n personer. Ækvivalent hermed kan vi betragte T1, . . . , Tn, 

som er de n dødstidspunkter ordnet efter størrelse T1 < T2 < · · · < Tn, og R1, . . . , Rn 

hvor R i angiver, hvilken person, der dør på tidspunktet T i. Vi kan nu opstille likelihoodfunktionen 

som følgende produkt af betingede tætheder 

L(β, λ(·)) = 

= 

n 

∏ 

i=1 

n 

∏ 

i=1 

p(r i, t i|(r1, t1), . . . , (r i−1, t i−1)) 

{p(r i | t i, (r1, t1), . . . , (r i−1, t i−1))p(t i | (r1, t1), . . . , (r i−1, t i−1))}. 

Lad nu I i = {R i, R i+1, . . . , Rn} = {1, . . . , n}\{R1, . . . , R i−1} være de personer, der er 

i live efter tidspunktet T i−1 (med T0 = 0) . Givet (r1, t1), . . . , (r i−1, t i−1) er situationen 

som i (8.14) og (8.15) med de m personer givet ved Ii og med nulpunktet for tidsaksen 

ved t i−1. Derfor får vi 

L(β, λ(·)) 

= 

n 

∏ 

i=1 

= exp 

λ(t i)e β·zr i 

∑j∈I λ(t i i)e β·zj n 

∑ β · zi ∏ 

i i=1 

= exp 

∑i β · zi 

∑j∈I e i β·z · 

j 

∏ n i=1 

 

∑ λ(ti)e j∈Ii β·z ti 

j exp − 

ti−1 

λ(ti) exp − 

n 

∏ 

i=1 

 

∑ 

j∈I i 

e β·z j 

∑ 

j∈I i 

∑ 

j∈I i 

e β·z ti 

j λ(u)du 

ti−1 

λ(t i) exp 

 

− 

= p(r1, . . . , rn; β) · p(t1, . . . , tn | r1, . . . , rn; β, λ(·)). 

∑ 

j∈I i 

λ(u)e β·z 

j du 

 

e β·z 

ti 

j λ(u)du 

ti−1 Vi vil nu argumentere for at (R1, . . . , Rn ) er G-sufficient for β. Vi skal altså vise, at 

klassen af betingede fordelinger for (T1, . . . , Tn) givet (R1, . . . , Rn ) for fast værdi af β 

er en gruppefrembragt famile. Lad G være gruppen af alle voksende transformationer 

af tidsaksen (0, ∞). Hvis φ ∈ G, sendes T i over i φ(T i), og R i er uændret. Ved en sådan 

transformation føres en proportional hazard model over i en ny proportional hazard 

model med den samme værdi af β, men hvor den underliggende hazard λ(·) ændres 

til 

λ(φ −1 (t))φ ′ (φ −1 (t)). 

Hvis vores model siger, at λ(·) ∈ Λ, hvor Λ er mængden af alle funktioner på (0, ∞) 

med λ(t) > 0, har vi at 

Λ = {λ(φ −1 (·))φ ′ (φ −1 (·)) | φ ∈ G}. 

Vi har dermed vist, at vi har en gruppefrembragt familie, og (R1, . . . , Rn) er G-sufficient 

for inferens om β.


Vi kan også vise at (R1, . . . , Rn ) er L-sufficient. Hvis vi skriver λ(t) = ˜λ(φ(t))φ ′ (t), 

hvor φ ′ (·) > 0 og φ(t i) = i, vil supremum over alle mulige λ-funktioner være ækvivalent 

med supremum over alle mulige ˜λ-funktioner. Endvidere har vi 

λ(t i) = ˜λ(i)φ ′ (t i) og 

Dette giver at 

sup 

λ 

ti 

t i−1 

L(β, λ) p(r1, . . . , rn; β) −1 

= 

∏ φ ′ (ti) sup∏ 

˜λ i 

λ(u)du = 

 

∑ Ii 

e βz j 

= h(t1, . . . , tn)g(r1, . . . , rn; β), 

ti 

t i−1 

˜λ(φ(u))φ ′ (u)du = 

 

˜λ(i) exp − ∑ 

Ii 

i 

i−1 

˜λ(z)dz. 

e βz 

i 

j ˜λ(u)du 

i−1 

hvoraf følger at (R1, . . . , Rn) er L-sufficient. 

8.4 Itemanalysemodellen 

Modellen, der beskrives her, har selvstændig interesse og skal blot ses som et eksempel 

på separat inferens. Modellen anvendes ofte i forbindelse med psykologiske forsøg, hvor 

n personer udsættes for m tests (items). I skal læse dette som et bidrag til jeres 

katalog af statistiske modeller og som et eksempel på brugen af eksponentieller familier. 

Lad X ij, i = 1, . . . , n, j = 1, . . . , m, være uafhængige stokastiske variable, der antager 

værdierne {0, 1} med sandsynlighederne 

p ij = P(X ij = 1) = 1 − P(X ij = 0) = (1 + e −α i−β j) −1 , 

hvor (α1, . . . , αn, β1, . . . , βm) varierer frit i R n+m . Da tætheden for en Bernoulli variabel 

er p x (1 − p) 1−x , bliver den simultane tæthed for alle X ij-erne 

∏ ij 

xij pij 

(1 − pij) 1 − pij = 

 

∏ ij 

 

1 + e α 

−1 n 

i+β j exp ∑ αixi. + 

i=1 

m 

∑ βjx .j . 

j=1 

Da x.m = x.. − x.1 − · · · − x.m−1 = ∑i x i. − x.1 − · · · − x.m−1 kan familien parametriseres 

ved ˜α i = α i + βm, i = 1, . . . , n, og ˜β j = β j − βm, j = 1, . . . , m − 1, der varierer frit i 

R n+m−1 . Man kan da indse, at vi har en regulær eksponentiel familie af orden m + 

n − 1. 

Denne model blev indført af G. Rasch, som gav den navnet itemanalysemodellen. I 

G. Rasch (1960): “Probabilistic models for some intelligence and attainment tests” og 

D.R. Cox (1970): “Analysis of binary data” er denne (og andre) model(ler) indgående 

beskrevet. 

Rasch indførte itemanalysemodellen til beskrivelse af de intelligenttests, som foretages 

ved sessionsbehandlingen. De foreliggende data kan repræsenteres på følgende

8.4. ITEMANALYSEMODELLEN 113 

måde: 

spørgsmål 

1 · · · j · · · m 

1 X11 · · · X 1j · · · X1m 

. . . . 

person i Xi1 · · · Xij · · · Xim . . . . 

n Xn1 · · · Xnj · · · Xnm 

I den (i, j)’te rubrik i dette skema registreres tallet 1, hvis den i’te person har besvaret 

intelligenstestets j’te spørgsmål korrekt og 0, hvis besvarelsen er forkert. Vi kan da 

antage, at 

X ij ∼ Bin(1, p ij). 

Lad δ i angive et mål for den i’te persons evne til at løse opgaver af den stillede type, 

således at en stor værdi af δi antyder, at personen er god til at løse disse opgaver. Lad 

ǫ j være en parameter, der angiver den j’te opgaves sværhedsgrad, således at en stor 

værdi af ǫ j angiver, at opgaven er vanskelig. Det er da rimeligt at antage, at sandsynligheden 

for at den i’te person besvarer det j’te spørgsmål korrekt, p ij, afhænger af δ i 

og ǫ j, altså er 

p ij = π(δ i, ǫ j). 

Hvis vi regner ‘evne’ og ‘sværhedsgrad’ på en skala fra 0 til ∞, og disse mål skal tolkes 

på den måde, at en fordobling af sværhedsgraden modsvares af en fordobling af evnen, 

får vi, at π kun afhænger af δ og ǫ gennem δ/ǫ 

π(δ, ǫ) = π(δ/ǫ). 

Desuden må det om π være rimeligt at antage, at 

 

1 v → ∞ 

π(v) → 

0 v → 0 

Funktionen π, defineret ved 

π(v) = v 

1 + v 

opfylder dette. Rasch valgte med held at sætte 

Altså 

p ij = π(δ i/ǫ j) = δ i/ǫ j 

1 + δ i/ǫ j 

pij = (1 + ǫj/δi) −1 = 

. 

v ∈ R+, 

δ i > 0, ǫ j > 0. 

 

1 + e − ln δ −1 i+ln ǫj . 

Lad os nu betragte tilfældet med m = 2 og lad ˜β = β1 − β2 og ˜α i = αi + β2. Vi har 

da 

1 

P(Xi1 = 1) = 

1 + exp(−˜αi − ˜ β) og P(X 1 

i2 = 1) = 

1 + exp(−˜α i) .


Vi ser da, at ˜β karakteriserer forskellen mellem de to spørgsmål. Likelihoodligningerne 

bliver 

 

1 + e −˜α i− ˜β −1 + 1 + e −˜α i −1 i = 1, . . . , n 

og 

x i. = 

x.1 = ∑ i 

 

1 + e −˜α i− ˜β −1 

. 

Da x i. kun kan antage værdierne 0, 1 og 2, får vi 

og dermed ligningen 

⎧ 

⎨ 

ˆ˜αi = 

⎩ 

−∞ hvis x i. = 0 

− 1 2 ˜β hvis x i. = 1 

∞ hvis x i. = 2, 

x.1 = n0 · 0 + n1(1 + e − 1 2 ˜β ) −1 + n2 · 1, 

hvor n1 er antallet af xi., der er lig med 1. Den sidste ligning giver 

− 1 ˆ˜β = ln 

2 

n1 − x.1 − n2 

x.1 − n2 

Da x.1 − n2 er antal observationspar (x i1, x i2) på formen (1,0) og n1 − x.1 − n2 er antal 

par på formen (0,1) , får vi fra store tals lov, at 

og dermed at 

x.1 − n2 

n 

n1 − x.1 − n2 

n 

1 

→ 

n ∑ i 

→ 1 

n ∑ i 

− 1 

 

ˆ˜β → ln 

2 

e −˜α i 

 

. 

(1 + e −˜α i− ˜β )(1 + e −˜α i) 

e −˜α i− ˜β 

(1 + e −˜α i− ˜β )(1 + e −˜α i) , 

e − ˜ β 

1 

 

= − ˜β. 

Estimatet ˆ˜β konvergerer altså mod den forkerte værdi som i eksempel 8.1. 

Hvis vi nu istedet betragter den betingede fordeling af Xi1 givet Xi. = Xi1 + Xi2 = 

xi., får vi tætheden ⎧⎪ 

1(Xi1 = 0) hvis xi. = 0 

⎨ 

e 

⎪⎩ 

˜βX i1/(1 + e ˜β ) hvis xi. = 1 

1(Xi1 = 1) hvis xi. = 2 

Likelihoodfunktionen baseret på disse betingede tætheder bliver da 

e ˜βn 10(1 + e ˜β ) −n 01−n 10, 

hvor nij er antal par (xi1, xi2) på formen (i, j). Estimatet ˆ˜β c herfra bliver 

ˆ˜β c = ln n10 

 

1 

→ ln 

 

= ˜β, 

n01 

e − ˜β

8.4. ITEMANALYSEMODELLEN 115 

hvor vi har brugt samme argument som ovenfor. Vi ser altså, at vi nu har fået et estimat 

ˆ˜β der konvergerer (i sandsynlighed) mod den rigtige værdi ˜ β. 

Bemærk, at X i., i = 1, . . . , n, ikke er L-ancillær i modellen her (opgave 8.5). Til gengæld 

ved vi, at det er nødvendigt at betinge med X i., i = 1, . . . , n hvis vi ønsker at lave 

et similært test for β. 

Erling Andersen har vist (Journal of the Royal Statistical Society B32 (1970), 283-301; 

bog fra 1980: Discrete Statistical Models with Social Science Applications) at i en lang 

række situationer, der minder om den ovenstående, vil det betingede estimat konvergere 

mod den rigtige værdi, og estimatet vil være asymptotisk normalfordelt. 

Itemanalysemodellen ovenfor er et eksempel på det, der kaldes eksponentielle agensanalysemodeller 

(fra latin agere: handle, gøre; her: den handlende person eller ting 

i en sætning, eller det virkende stof). I disse betragter man en eksponentiel familie 

P = {P θ|θ ∈ Θ} med tætheder på formen a(θ)b(x) exp(θx). Variablene X ij følger en 

P θij -fordeling, og modellen specificerer, at 

θ ij = α i + β j 

i = 1, . . . , n, j = 1, . . . , m. 

Et andet eksempel end itemanalysemodellen er den multiplikative Poissonmodel, hvor P 

er klassen af Poissonfordelinger. Variablen X ij er således Poissonfordelt med parameter 

λ ij, og vi får en agensanalysemodel, hvis 

Den simultane tæthed for X ij- erne er 

 

∏ ij 

e −δ iǫ j 

∏ ij 

λ ij = δ iǫ j. 

 

1 

exp 

xij! ∑ 

i 

x i. ln δ i + ∑ j 

x .j ln ǫ j 

Dette er en eksponentiel familie af orden m + n − 1. Hvis vi indfører parametrene 

kan vi skrive den simultane tæthed som 

[∏i xi.!][∏j x .j!] 

x..! 

1 

 

x.. 

 

∏ij x ij! 

˜δ i = δ i/δ., ˜ǫ j = ǫ j/ǫ. og µ = δ.ǫ. 

x1., . . . , xn. 

˜δ x1· 1 · · · ˜ δ xn. 

n 

 

. 

 

x.. 

˜ǫ 

x.1, . . . , x.n 

x·1 

1 · · · ˜ δ x.m µ 

m 

x.. 

x..! e−µ . 

Dette svarer til den betingede tæthed for X ij -erne givet (X1., . . . , Xn., X.1, . . . , X.m) ganget 

med den betingede tæthed af (X1., . . . , Xn. ) givet X.. ganget med den betingede 

tæthed af (X.1, . . . , X.m) givet X.. gange tætheden for X.. . Bemærk, at (X1., . . . , Xn.) 

og (X.1, . . . , X.m) er uafhængige givet X.. . Det fremgår af denne opsplitning, at (X1., 

. . . , Xn.) er S-ancillær for inferens om ( ˜ǫ1, . . . , ˜ǫm), og omvendt at (X.1, . . . , X.m) er Sancillær 

for inferens om ( ˜δ1, . . . , ˜δn) . 

Den multiplikative Poisson-model er navnlig udviklet af G. Rasch i forbindelse 

med den statistiske analyse af talmateriale fra Danmarks Pædagogiske Institut. Talmaterialet 

var indsamlet med henblik på at bedømme børns læsefærdigheder. Specielt 

interesserede man sig for, om læsehæmmede børn gjorde fremskridt ved forskellige 

former for specialundervisning. Man lod børnene læse flere prøver højt og registrerede


antal fejllæsninger. Højtlæsningsprøverne havde en stærkt varierende sværhedsgrad, 

og det var nærliggende at antage, at antallet af fejllæsninger ved et barns læsning af 

en prøve afhænger dels af barnets dygtighed, dels af prøvens sværhedsgrad. Følgende 

plan for indsamling af data er fra Rasch (1960): 

ORF ORU ORS OR5 OR6 

2 + 

3 + + 

klassetrin 4 + + 

5 + + + 

6 + + + 

7 + + 

Lad δ i være en parameter, der angiver det i’te barns standpunkt, således at en lille 

værdi af δ i er udtryk for, at barnet er dygtigt, og ǫ j en parameter, der angiver sværhedsgraden 

af den j’te prøve således at en stor værdi af ǫ j er udtryk for, at prøven er 

vanskelig. Lad X ij betegne antal fejllæsninger, det i’te barn gjorde forelagt prøve nr. j. 

Hvis prøven ikke er for kort og ikke for svær, er det nærliggende at antage, at Xij er 

Poissonfordelt med parameter 

λ ij = λ(δ i, ǫ j). 

Det forventede antal fejllæsninger af barn nr. i ved prøve nr. j er altså λ ij. Testes et 

dobbelt så dygtigt barn, δ = δ i/2, med en prøve, der er dobbelt så svær som prøve nr. 

j, ǫ = 2ǫ j, så må vi forvente samme antal fejllæsninger, altså at 

λ(δ, ǫ) = λ(δ/2, 2ǫ). 

Vi ser, at λ kun afhænger af δ og ǫ gennem δǫ 

λ(δ, ǫ) = λ(δǫ). 

Desuden må det om λ være rimeligt at antage, at 

 

∞ v → ∞ 

λ(v) → 

0 v → 0, 

Funktionen 

λ(v) = v 

opfylder dette, og Rasch analyserede materialet med modellen 

λij = δ0ǫj. 

8.5 Afsluttende bemærkninger 

Hvad gør man, hvis man ikke kan separere inferensen som i (8.1) eller (8.2)? 

Som eksempel 8.1 og afsnit 8.4 viser, er det nødvendigt at gøre noget i de tilfælde, 

hvor antallet af nuisanceparametre stiger med antallet af observationer. I nogle tilfælde 

kan man bruge en partiel likelihood. Herved forstås, at den fulde likelihood funktion


kan skrives som et produkt L = ∏ m 1 L i, hvor hvert led L i selv er en likelihoodfunktion 

fra en marginal eller en betinget fordeling, og at vi så nøjes med at betragte en del af 

dette produkt ˜L = ∏i∈I L i, hvor I er en delmængde af {1, . . . , m}. Tilfældet m = 2 

svarer til (8.1) og (8.2). De led Li, i∈ I, som medtages, bør så kun afhænge af interesseparameteren 

ψ. Da Li selv er en likelihoodfunktion, vil typisk E ∂lnL i 

∂ψ = 0, og som vi 

skal se i noterne om asymptotik, er dette den grundlæggende egenskab, som fører til, 

at estimatet er konsistent: ˆψ → ψ, når antallet af observationer vokser. 

I andre tilfælde bruges en pseudolikelihoodfunktion eller en generel estimationsligning 

(ligningen ∂lnL/∂θ = 0 kaldes likelihood estimationsligningen). Disse begreber er ikke 

veldefinerede og har et ad hoc præg. Ideen er, at man vælger nogle funktioner, der 

kombinerer aspekter af data med interesseparameteren og valgt således, at det tilsvarende 

estimat bliver konsistent. 

Pseudo likelihoodfunktioner bruges også i andre sammenhænge, nemlig hvor den 

eksakte likelihoodfunktion er meget vanskelig at udregne. Et simpelt eksempel er følgende: 

lad X1, . . . , Xn antage værdier i {−1, +1} med simultan sandsynlighed 

P((X1, . . . , Xn) = (x1, . . . , xn)) = 

exp{−β ∑ n 1 x i(x i + x i+1)} 

∑(y 1,...,yn)∈{−1,+1} n exp{−β ∑n 1 y i(y i−1 + y i+1)} 

hvor x0 = xn+1 = 0. Nævneren her er svær at udregne (summen har 2 n led), og i stedet 

kan vi lave en pseudo likelihoodfunktion på formen 

n 

∏ 

i=1 

P(X i = x i|x i−1, x i+1) = 

n 

e 

∏ 

i=1 

−2βxi(x i−1+xi+1) e−2β(xi−1+x i+1) + e2β(xi−1+x i+1) . 

Hvis antallet af nuisance parametre er fast, har vi den generelle asymptotiske teori, 

der giver os approksimativt unbiased estimater og approksimative similære tests. 

En del af forskningen indenfor dette område i de senere år har gået på at forbedre 1.ordens 

resultaterne til højere orden, således at resultaterne typisk kan anvendes, selv 

om antallet af observationer ikke er særlig stort. Disse ting er især baseret på kvotientteststørrelsen 

og modifikationer af denne. 

8.6 Opgaver 

Opgave 8.1 

Lad X og Y være uafhængige stokastiske variable, så 

og 

hvor (a, p) varierer i 

Interesseparameteren er p. 

P(X = 0) = q, P(X = 1) = p, p + q = 1 

P(Y = −1) = a, p(Y = 0) = q, P(Y = 1) = p − a, 

Θ = {(a, p) | 0 ≤ a ≤ p, 1 

2 

≤ p ≤ 2 

3 }.


Vis, at X + Y 2 er S-sufficient med hensyn til p. 

Opgave 8.2 

Lad f være funktionen defineret på R2 ved 

⎧ 

⎨ u 

f(u1, u2) = 

⎩ 

λ1−1 1 u −λ2−λ1 −1 

2 

Γ(λ1)Γ(λ2)β λ1 1 βλ 

−1 β2 

exp ( 

2 β2u2 β 

u1 + 1) u1 > 0, u2 > 0 

1 

2 

0 ellers, 

hvor (λ1, λ2, β1, β2) ∈ R 4 + . 

(i) Vis, at f er en tæthedsfunktion og vis, at familien af fordelinger med tæthedsfunktion 

f og (λ1, λ2, β1, β2) ∈ R4 + er en eksponentiel familie, og angiv ordenen af 

denne familie. 

(ii) Vis, at U1/U2 er S-sufficient for (λ1, β1) og U2 (eller U −1 

2 ) er S-sufficient for (λ2, β2). 

Opgave 8.3 

Lad X1, . . . , Xn være uafhængige og Np(ξ − Σ)-fordelte, hvor ξ ∈ R p og Σ er positiv 

definit p × p matrix. 

(i) Vis ved hjælp af Basu’s sætning, at maximum likelihood estimatet ¯X for ξ og 

maximum likelihood estimatet 1 n ∑n i=1 (X i − ¯X) ∗ (X i − ¯X) for Σ er stokastisk uafhængige. 

(ii) Vis, at ¯X ikke er S-ancillær for Σ. 

Opgave 8.4 

Lad (U, V) for α ∈ R, λ, σ 2 ∈ R+ have tæthed 

f(u, v) = vλ−1 − v 

e u2 u2λΓ(λ) 1 

√ 

2πσ2 exp 

 

− 1 

2σ2(u − α)2 

 

, u ∈ R, v ∈ R+. 

(i) Vis, at U er N(α, σ 2 )-fordelt, og at den betingede fordeling for V givet U = u er 

en Γ(λ, 1/u 2 )-fordeling. 

(ii) Vis, at fordelingen af (U, V) er en exponentiel familie af orden 3. 

Lad (U1, V1), . . . , (Un, Vn) være uafhængige og identisk fordelte med tæthed f . 

(iii) Vis, at (U1, . . . , Un) er S-sufficient for (α, σ 2 ) og S-ancillær for λ. 

(iv) Vis, at n 

∑ 

i=1 

er stokastisk uafhængige. 

U i, 

n 

∑ U 

i=1 

2 i 

 

og 

n 

∑ ln 

i=1 

Vi U2 i


(v) Vis, at maximum likelihood estimaterne ˆα, ˆσ 2 og ˆλ er stokastisk uafhængige. 

Opgave 8.5 

Læs afsnit 8.4. Betragt itemanalysemodellen med m = 2 og parametriseret ved ˜α i og 

˜β i. 

1) Vis, at vi har en regulær eksponentiel familie af orden n + 1. 

2) Godtgør formlen for ˆ˜α i på side 112. 

3) Vis præcist, ved at bruge den relevante udgave af store tals lov, at ˆ˜β → 2 ˜β. 

4) Vis, at X i·, i = 1, . . . , n, ikke er L-ancillær for β. 

Opgave 8.6 

Lad K være binomialfordelt med antalsparameter n og sandsynlighedsparameter p. 

Givet K = k lad X være binomialfordelt med antalsparameter n − k og sandsynlighedsparameter 

θ. Parametrene varierer i (p, θ) ∈ (0, 1) × (0, 1). 

1) Vis, at (X, K, n − K − X) er multinomialfordelt med antalsparameter n og sandsynlighedsparameter 

((1 − p)θ, p, (1 − p)(1 − θ)). 

2) Vis, at K er S-ancilær for inferens om θ. 

Denne opgave er en kommentar til Wilcoxons fortegnstest. I Wilcoxons fortegnstest 

vil vi teste for asymmetri i en fordeling. I beregningen af testet ser vi bort 

fra de observationer, der har værdien nul. I ovenstående kan vi tænke på p som 

sandsynligheden for at få nul og på θ som en parameter der måler assymmetrien 

i fordelingen. Vores interesseparameter er altså θ, og p er en nuisance parameter.

Kapitel 9 

Bayes statistik 

Ved en statistisk analyse ønsker vi at udtale os om en ukendt parameter ud fra indsamlede 

data. Forbindelsen mellem de to dele, parameter og data, er gennem modellen, 

der beskriver, hvordan fordelingen af data er for en given værdi af parameteren. 

I den frekventielle statistik, som beskrevet i de tidligere kapitler, udtaler man sig om 

den ukendte parameter ud fra hvor godt modellen, med et givet valg af parameteren, 

beskriver data. Vi kan da lave et estimat af parameteren, eller et konfidensinterval, eller 

vi kan teste en hypotese om parameteren. De eneste sandsynligheder vi bruger, er 

dem, vi får fra modellen for et givet valg af parameteren. I Bayes statistik introducerer 

man et ekstra sæt sandsynligheder, idet man udstyrer parameteren med en fordeling 

uafhængig af data. Denne fordeling på parameteren kaldes prior fordelingen, og er altså 

til rådighed før data indsamles. Prior fordelingen kan vi tænke på som den information, 

vi har til rådighed om parameteren, før vi indsamler data. Når data er indsamlet, 

kan vi udtrykke den information, vi har om parameteren, ved den betingede fordeling 

af parameteren givet data. 

Frekventiel Bayes 

før data θ ukendt parameter θ har tæthed π(θ) 

efter data konfidensinterval for p(θ|data) ∝ 

θ 

π(θ)L(θ) 

Observation 9.1 (Bayes formel) Lad prior fordelingen for θ have tæthed π(θ) med 

hensyn til et mål ξ på parameterrummet Θ, og lad, for en given parameterværdi θ, 

data X have tæthed p(x, θ) med hensyn til målet µ på X . Så vil fordelingen af θ givet 

X = x (kaldet posterior fordelingen) have tæthed 

p(θ|x) = 

 

π(θ)p(x, θ) 

Θ π( ˜θ)p(x, ˜θ)ξ(d ˜θ) 

med hensyn til ξ. 

Bevis. Da den simultane tæthed for (θ, X) er π(θ)p(x, θ) med hensyn til produktionsmålet 

ξ × µ er resultatet oplagt. 

Korollar 9.2. 

Inferens baseret på den betingede fordeling af θ givet X = x opfylder likelihoodprincippet. 

 

121

122 KAPITEL 9. BAYES STATISTIK 

Bevis. Antag at vi har to forskellige eksperimenter givet ved tæthederne p1(x, θ) og 

p2(y, θ). Hvis der for et givet x og y findes en konstant c, så at 

så har vi 

p1(x, θ) = cp2(y, θ) for alle θ ∈ Θ, 

π(θ)p1(x, θ) 

p1(θ|x) = 

Θ π( ˜ θ)p1(x, ˜ θ)ξ(d ˜ θ) = 

cπ(θ)p2(y, θ) 

c 

Θ π( ˜ θ)p2(y, ˜ θ)ξ(d ˜ = p2(θ|y). 

θ) 

Eksempel 9.3 (Binomialfordeling – non-informativ prior). 

Lad parameterrummet Θ = (0, 1), og for en given parameterværdi θ lad X være binomialfordelt, 

X ∼ Bin(n, θ). Som prior fordeling for θ vælger vi en betafordeling med 

tæthed 

π(θ) = 1 

B(a, b) θa−1 (1 − θ) b−1 . 

Posterior tætheden for θ givet X = x bliver da 

p(θ|x) = 1 θ 

c(x) 

a−1 (1 − θ) b−1 

n 

B(a, b) x 

= 

 

θ x (1 − θ) n−x 

1 

B(a + x, b + n − x) θa+x−1 (1 − θ) b+n−x−1 , 

som igen er en betatæthed. 

Hvis vi skulle lave et estimat for θ ud fra p(θ|x), kunne vi enten bruge middelværdien 

eller den værdi (MAP) af θ, hvor p(θ|x) er størst. Det giver 

og 

E(θ|x) = 

MAP = 

a + x 

a + b + n 

a − 1 + x 

a + b − 2 + n , 

hvor specielt MAP = x n = ˆθ hvis a = b = 1. 

Eksempel 9.4 (Normalfordeling – non-informativ prior). 

Lad X1, · · · , Xn være uafhængige og identiske N(µ, 1) fordelte. Som prior fordeling 

for µ tager vi en N(µ0, σ 2 0 ) fordeling. Posterior tætheden for µ givet X = (X1, · · · , Xn) 

bliver da 

p(µ|x) = 1 exp(−(µ − µ0) 

c(x) 

2 /(2σ2 0 )) 

 

= 

 

n + 1 

σ 2 0 

2πσ 2 0 

exp(− ∑ n i=1 (X i − µ) 2 /2) 

√ 2π n 

2π exp 

⎛ 

⎜ 

⎝− n 

 

1 + 

2 

1 

nσ2 

0 

⎛ 

¯x + 

⎝µ − 

µ0 

nσ2 0 

1 + 1 

nσ2 ⎞ 

⎠ 

0 

2 ⎞ 

⎟ 

⎠ ,

det vil sige 

I dette tilfælde er 

hvor specielt MAP = ¯x hvis σ 2 0 

⎛ 

µ|x ∼ N ⎝ 

µ0 ¯x + 

nσ2 0 

1 + 1 

nσ2 0 

E(θ|x) = MAP = 

, 

1 

n 1 + 1 

nσ 2 0 

¯x + µ0 

nσ2 0 

1 + 1 

nσ2 , 

0 

⎞ 

⎠ 

. 

123 

= ∞. 

Lad os nu ganske kort diskutere valget af prior fordeling. I visse situationer vil det 

være rimeligt at betragte θ som en stokastisk variabel. I en produktionssammenhæng 

kan θ for eksempel repræsentere den fraktion af de producerede enheder, der er defekte. 

Denne fraktion behøves ikke at være konstant, og det vil være rimeligt at betragte 

den som stokastisk. I denne situation kan vi bruge baggrundsviden til at vælge en realistisk 

prior fordeling. Denne situation rummer egentligt ikke noget nyt: vi har blot 

udvidet vores model med en realistisk beskrivelse af, hvordan θ fremkommer. 

De interessante situationer er, når θ repræsenterer en “konstant", for det eksperiment 

der foretages. Som et eksempel kan vi tænke på θ som lyshastigheden. Her må 

man betragte prior fordelingen som en måde, at angive en formodning om hvor θ ligger. 

En klassisk beskæftigelse indenfor Bayes statistik går ud på at finde prior fordelinger, 

der kan siges at repræsentere situationen, hvor vi ingen viden har om parameteren 

(“non informative prior"på engelsk). I eksempel 9.3 hvor Θ = (0, 1) og X er binomialfordelt, 

virker det rimeligt at sige, at den uniforme fordeling på Θ repræsenterer, at 

vi ingen viden har om Θ. Dette giver imidlertid anledning til en inkonsistent metode: 

hvis vi betragter ψ = θ2 istedet for θ, vil prior tætheden for ψ være π(ψ) = 1 

2 √ , og 

ψ 

ψ er således ikke uniformt fordelt. Vi skal altså vælge en skala, på hvilken vi siger, at 

parameteren er uniformt fordelt. Et foreslag er at transformere θ til en ny parameter 

ψ med den egenskab, at den forventede information i(ψ) er konstant. I eksempel 9.3 

med binomialfordelingen kommer det til at svare til, at vi bruger betafordelingen med 

a = b = 1 2 som prior fordeling for θ. I eksempel 9.4 med Θ = R er der ikke umiddelbart 

en “uniform"fordeling. Det nærmeste man kan komme er at erstatte prior fordelingen 

med et prior mål, som tages til at være lebesguemålet. Lebesguemålet giver lige stor 

masse til lige store intervaller og kan derfor siges at repræsentere situationen med ingen 

viden om parameteren. I eksemplet 9.4 vil det svare til at vi lader σ2 0 → ∞. Bemærk 

at selvom vi erstatter prior fordelingen med et generelt mål, er posterior fordelingen 

p(θ|x) stadig givet ved Bayes formel i Observation 9.1. Når prior fordelingen ikke er et 

sandsynlighedsmål, taler man i den engelsksprogede litteratur om en “improper prior 

distribution”. 

Jeg vil nu vise, at selvom det ovenstående kan se “uskyldigt ud”, kan det give 

anledning til problemer i det flerdimensionale tilfælde. 

Eksempel 9.5 (Normalfordelinger – non-informativ prior). 

Lad X1, · · · , Xn være uafhængige med X i ∼ N(µ i, 1). Som prior fordeling siger vi, at 

µ i-erne er uafhængige og bruger lebesguemålet til beskrivelse af vores prior viden om


µ i. I posterior fordelingen er µ i-erne stadig uafhængige, og ifølge eksempel 9.4 har vi 

µ i|x i ∼ N(x i, 1). Vores interesseparameter er δ 2 = µ 2 1 + · · · + µ2 u. Vi har således, at 

og 

E(δ 2 n 

|x) = ∑ 

i=1 

V(δ 2 n 

|x) = ∑ 

i=1 

δ 2 |x ∼ 

n 

∑ N(xi, 1) 

i=1 

2 , 

(x 2 i + 1) = d2 + n, d 2 = x 2 1 + · · · + x2 n 

(4x 2 i + 2) = 4d2 + 2n. 

Hvis d 2 er af samme størrelsesorden eller mindre end n, vil spredningen være af størrelsesorden 

√ n. Hvis istedet vi betragter problemet fra en ikke-Bayes synsvinkel, kan 

vi benytte, at D 2 = X 2 1 + · · · + X2 n har middelværdi δ 2 + n og varians 4δ 2 + 2n. Vi 

vil derfor lave et konfidensinterval for δ 2 , der er centreret omkring d 2 − n og med en 

længde, der er af størrelsesorden √ n. Vi har således fået to helt forskellige resultater: 

henholdsvis et konfidensinterval centreret omkring d 2 − n med en længde af størrelsesorden 

√ n og en posterior fordeling centreret omkring d 2 + n med det meste af 

sandsynlighedsmassen i et interval af størrelsesorden √ n. 

Eksempel 9.6 (Normalfordelingen – informativ prior). 

Lad X1, . . . , Xn være uafhængige med Xi ∼ N(µi, 1). Maximum likelihood estimatet 

for vektoren µ = (µ1, . . . , µn) er ˆµ = (X1, . . . , Xn). Vi vil måle kvaliteten af dette estimat 

ved mean squared error (MSE) (forklaring for dette kvalitetsmål følger nedenfor), 

MSE( ˆµ) = E 

n 

∑ 

i=1 

( ˆµ i − µ i) 2 = n. 

Vi har en formodning om, at µ i som funktion af i er langsomt varierende, det vil sige 

at µ i+1 − µ i er lille. Vi vil repræsentere denne formodning gennem en prior fordeling 

for vektoren µ. Vi kan gøre dette ved følgende beskrivelse 

µ1 ∼ N(0, σ 2 0 ), µ i+1 = µ i + ǫ i+1, ǫ i+1 ∼ N(0, δ 2 ), 

hvor µ1, ǫ2, . . . , ǫn er uafhængige. En lille værdi af δ 2 svarer til, at µ i+1 − µ i er lille. Lad 

Σ være n × n matriksen 

så at 

Σ ij = σ0 + (i − 1)δ 2 , j ≥ i + 1, Σ ji = Σ ij, j ≥ i, 

= 1 

c(x) exp 

µ ∼ Nn(0, Σ). 

Kombinerer vi X|µ ∼ Nn(µ, I) med µ ∼ Nn(0, Σ), finder vi posterior fordelingen 

p(µ|x) = 1 

c(x) exp 

 

− 1 

2 (x − µ)(x − µ)T − 1 

2 µΣ−1 µ T 

 

 

, 

 

− 1 

2 µ(I + Σ−1 )µ T + xµ T − 1 

2 xxT

hvoraf det følger, at 

Specielt har vi, at 

µ|x ∼ Nn 

 

x(I + Σ −1 ) −1 , (I + Σ −1 ) −1 

. 

E(µ|x) = x(I + Σ −1 ) −1 , 

og vi definerer et nyt estimat (bayes estimat) ved 

ˆµ b = X(I + Σ −1 ) −1 . 

Lad os udregne mean squared error for dette estimat: 

MSE( ˆµ b) = E 

n 

∑ 

i=1 

( ˆµ bi − µ i) 2 = E( ˆµ b − µ)( ˆµ b − µ) T 

= E([(X − µ)(I + Σ −1 ) −1 + µ((I + Σ −1 ) −1 − I)] ∗∗ ) 

= E([(X − µ)(I + Σ −1 ) −1 ] ∗∗ ) + [µ((I + Σ −1 ) −1 − I)] ∗∗ 

= Tr((I + Σ −1 ) −1 (I + Σ −1 ) −1 ) + [µ((I + Σ −1 ) −1 − I)] ∗∗ , 

hvor v∗∗ = vvT . I figuren nedenfor har jeg lavet et plot af MSE( ˆµ b) som funktion af δ2 og med n = 20, σ2 0 = 1, og med 

⎧ 

⎨ −1 i ≤ 5 

µ i = −1 + 0.2(i − 5) 6 ≤ i ≤ 15 

⎩ 

1 i > 15. 

(9.1) 

Desuden har jeg lavet et plot af MSE( ˆµ b) som funktion af γ, hvor δ 2 = 0.1, σ 2 0 

125 

= 1, 

og µ er som i (9.1) multipliceret med γ. Værdierne i figuren skal sammenlignes med 

MSE( ˆµ) = n = 20. Som det ses af figuren, kan vi få en væsentlig mindre mean squared 

error ved at bruge estimatet ˆµ b fremfor maksimum likelihood estimatet ˆµ. 

Hvorfor er mean squared error et relevant mål? Lad os betragte en regressionsmodel 

Y i ∼ N(z iµ T , σ 2 ). 

Vi ønsker at estimere µ, og i modellen ovenfor svarer X til maksimum likelihood estimatet 

af µ (vi har ovenfor sagt at Var(X) = I, men vi kunne lave de samme regnerier 

med en generel varians). Når vi har fundet et estimat µ est , ønsker vi at bruge estimatet 

til fremtidig prediktion af y-værdier fra nye z-værdier. Prediktionsfejlen er 

fejl = znyµ T 

est − znyµ T = zny(µ est − µ) T . 

Vi kan skalere z-værdierne, så at en typisk z-værdi har længde 1. Den største fejl får vi, 

når z er proportional med µ est − µ. Det vil sige, at den typiske største fejl er |µ est − µ| 

og 

E(typisk fejl) 2 = E|µ est − µ| 2 = E 

som er mean squared error af µ est . 

n 

∑((µ 

est )i − µi) 

i=1 

2 ,


MSE 

5 10 15 

MSE 

0 10 20 30 40 50 

-6 -4 -2 0 2 4 

2*log(delta) 

0 2 4 6 

gamma 

I dette eksempel kan vi tænke på prior fordelingen µ ∼ Nn(0, Σ) som en bekvem 

måde at indføre “glathedsegenskaber"ved µ. Med glathed mener vi, at µ i varierer langsomt 

som funktion af i. Man taler i denne sammenhæng om ˆµ b som en “regulariseret"løsning. 

Bemærk også at når vi erstatter ˆµ med ˆµ b, så lægger vi mindre vægt på 

unbiasedness og lægger istedet vægt på et mål som mean squared error. 

Eksempel 9.7 (Kausal viden repræsenteret ved sandsynligheder i et netværk). 

I dette eksempel er de “ukendte parametre"tilstande, som enten er 1 eller 0 (eksempel: 

1: man har lungekræft; 0: man har ikke lungekræft). Vi repræsenterer vores viden 

ved hjælp af sandsynligheder, som er meget bekvemt, når vi skal opdatere vores viden 

på basis af nye data. Følgende eksempel er taget fra Lauritzen og Spiegelhalter 

(J.R.Statist.Soc.B, 50, 157-224, 1988). I eksemplet har vi følgende variable: 

A: besøg i Asien R: Ryger 

T: Tuberkulose L: Lungekræft 

B: Bronkitis E: Enten tuberkulose eller lungekræft 

G: positiv røntGenbillede S: Stakåndet

Forbindelsen mellem variablene kan angives grafisk: 

A R 

T L B 

E S 

G 

En person ankommer til hospitalet med stakåndethed (S = 1), og vi ønsker at stille en 

diagnose, det vil sige, at vi vil gerne angive værdien af de ukendte variable (T, L, B). 

Det er oplyst, at patienten har været i Asien fornylig. Figuren ovenfor skal angive, at 

vi beskriver den simultane prior sandsynlighed af alle variable ved 

p(a, r, t, l, b, e, s, g) =p(a) p(r) p(t|a) p(l|r) p(b|r) p(e|t, l) p(s|b, e) p(g|e). 

For det aktuelle eksempel vælger vi 

P(A = 1) = 0.01 P(R = 1) = 0.50 

P(T = 1|A = 0) = 0.01 P(L = 1|R = 0) = 0.01 

P(T = 1|A = 1) = 0.05 P(L = 1|R = 1) = 0.10 

P(B = 1|R = 0) = 0.30 

P(B = 1|R = 1) = 0.60 

P(E = 1|T = 0, L = 0) = 0 P(S = 1|E = 0, B = 0) = 0.10 

P(E = 1|T = 0, L = 1) = 1 P(S = 1|E = 0, B = 1) = 0.80 

P(E = 1|T = 1, L = 0) = 1 P(S = 1|E = 1, B = 0) = 0.70 

P(E = 1|T = 1, L = 1) = 1 P(S = 1|E = 1, B = 1) = 0.90 

P(G = 1|E = 0) = 0.05 

P(G = 1|E = 1) = 0.98 

En beregning viser, at med disse angivelser er 

P(T = 1) = 0.0104, 

P(L = 1) = 0.055, 

P(B = 1) = 0.45. 

Vores data er S = 1 og A = 1. Vi ønsker derfor de betingede sandsynligheder givet S 

og A. Disse fås fra (9.7) ved at indsætte a = 1 og s = 1 og normalisere, så at sandsynlighederne 

summer sammen til 1. Med andre ord 

P(T = 1|A = 1, S = 1) = ∑r,l,b,e,g p(1, r, 1, l, b, e, 1, g) 

∑t,r,l,b,e,g p(1, r, t, l, b, e, 1, g) . 

127


Vi får efter en udregning 

P(T = 1|A = 1, S = 1) = 0.088, 

P(L = 1|A = 1, S = 1) = 0.100, (9.2) 

P(B = 1|A = 1, S = 1) = 0.811. 

Hvis vi nu laver en røntgenundersøgelse vil vores sandsynligheder blive opdateret 

som følger: hvis resultatet af røntgenundersøgelsen er G = 0 

og hvis resultatet er G = 1 

P(T = 1|A = 1, S = 1, G = 0) = 0.002, 

P(L = 1|A = 1, S = 1, G = 0) = 0.003, 

P(B = 1|A = 1, S = 1, G = 0) = 0.863, 

P(T = 1|A = 1, S = 1, G = 1) = 0.392, 

P(L = 1|A = 1, S = 1, G = 1) = 0.444, 

P(B = 1|A = 1, S = 1, G = 1) = 0.629. 

Sammenligner vi med (9.2), ser vi, at vores viden ændrer sig kraftigt, når vi får resultatet 

af røntgenundersøgelsen. Lad os som et eksempel sige at resultatet af røntgenundersøgelsen 

er G = 0 , og at vi også får oplyst, at patienten er ikke-ryger (R = 0). I 

dette tilfælde ender vi ud med sandsynlighederne 

P(T = 1|A = 1, S = 1, G = 0, R = 0) = 0.003, 

P(L = 1|A = 1, S = 1, G = 0, R = 0) = 0.0005, 

P(B = 1|A = 1, S = 1, G = 0, R = 0) = 0.773.

Kapitel 10 

Referencer 

Exponentielle familier af orden 1 blev introduceret af Fisher (1934) som de eneste familier 

(under regularitetsbetingelser), for hvilke der eksisterer en 1-dimensinal sufficient 

observator. Resultaterne blev generaliseret til mere end én dimension af Darmois 

(1935), Koopman (1936) og Pitman (1936). En generel gennemgang af teorien for eksponentielle 

familier kan findes i Barndorff-Nielsen (1978). Komplethed af en observator 

blev introduceret af Lehmann og Scheffé (1950). 

Sufficiente observatorer går tilbage til Fisher (1920), hvori også findes faktoriseringssætningen. 

Neyman (1935) genopdagede denne sætning, og Halmos og Savage 

(1949) udvidede sætningen til generelle dominerede familier. Teorien for minimal sufficiente 

observatorer blev startet af Lehmann og Scheffé (1950) og Dynkin (1951). Yderligere 

generalisationer blev opnået af Bahadur (1954). 

Ancillære observatorer går også tilbage til Fisher (1934, 1935). Basu’s sætning findes 

i Basu (1955, 1958). 

Fisher (1920, 1922, 1925) introducerede likelihoodfunktionen og studerede maksimum 

likelihood estimation. En gennemgang af Fisher’s ideer kan findes i hans 3 bøger 

Fisher (1925, 1935, 1956). 

Begrebet en unbiased estimator går helt tilbage til Gauss (1821) i forbindelse med 

arbejdet omkring “mindste kvadraters metode” (engelsk: least squares). Aitken and 

Silverstone (1942) var de første, som fandt en UMVU-estimator. Forbindelsen mellem 

UMVU-estimatorer og sufficiente observatorer blev studeret i specialtilfælde af Halmos 

(1946) og Kolmogorov (1950), og generelt i Rao (1947). Forbindelsen til komplette 

observatorer går tilbage til Lehmann og Scheffé (1950, 1955, 1956). 

Den første variansulighed synes at være Fréchet (1943). Udvidelser er givet i Darmois 

(1945), Rao (1945) og Cramér (1946). 

Tilløb til hypotesetestning findes helt tilbage i Arbuthnot (1710), Bernoulli (1734), 

Laplace (1773), Gavarret (1840), Lexis (1875, 1877) og Edgeworth (1885). Systematisk 

brug af hypotesetestning skyldes Karl Pearson, se bl.a. Pearson (1900). Neyman og 

Pearson (1928) indførte fejl af første og anden art og foreslog kvotienttestet som en generel 

testmetode. Teorien for uniformt stærkeste tests blev givet i Neyman og Pearson 

(1933). 

Konfidensintervaller (men dog ikke forklaret som sådanne) optræder i Laplace 

(1812), Gauss (1816), Fourier (1826) og Lexis (1875). En korrekt interpretation synes 

først givet i Wilson (1927). 

129

130 KAPITEL 10. REFERENCER 

L-sufficiens er defineret i Rémon (1984), hvor det vises, at S-sufficiens og G-sufficiens 

medfører L-sufficiens. S-sufficiens og S-ancillaritet er studeret i Fraser (1956), Sverdrup 

(1965) og Sandved (1967), og G-sufficiens er studeret i Barnard (1963). S- og Gsufficiens, 

henholdsvis ancillaritet, dækker ikke alle de situationer, hvor separat inferens 

anvendes. Et klassisk eksempel er Fisher’s eksakte test i en 2×2 tabel. For en 

generel diskussion af disse ting se Barndorff-Nielsen (1978). Som allerede nævnt er 

visse betingede test studeret i Andersen (1970). 

En generel reference til den teori, som er gennemgået i disse noter, er Lehman (1983, 

1986). Bogen af Cox og Hinkley (1983) er en mindre matematisk udgave af det samme 

teorikompleks. 

Aitken, A.C. and Silverstone, H. (1942). On the estimation of statistical parameters. 

Proc. Roy. Soc. Edinb. (A) 61, 186-194. 

Andersen, E.B. (1970). Sufficiency and exponential family for discrete sample spaces. J. 

Am. Stat. Assoc. 65, 1248-1255. 

Arbuthnot, J. (1710). An argument for Divine Providence, taken from the constant regularityobserved 

in the births of both sexes. Phil. Trans. 27, 1986-190. 

Bahadur, R.R. (1954). Sufficiency and statistical decision functions. Ann. Math. Statist. 

25, 423-462. 

Barnard, G.A. (1963). Some logical aspects of the fiducial argument. J. Roy. Statist. Soc. 

B 25, 111-114. 

Barndorff-Nielsen, O.E. (1978). Information end Exponential Families in Statistical theory. 

Wiley, New York. 

Basu, D. (1955). On statistics independent of a complete sufficient statistic. Sankhya 15, 

377-380. 

Basu, D. (1958). On statistics independent of sufficient statistics. Sankhya 20, 223-226. 

Bernoulli, D. (1734). Quelle est la cause physique de l’inclination des planètes . . . Recueil 

des Pièces qui ont Remporté le Prix de l’Académie Royale des Sciences 3, 95-122. 

Birnbaum, A. (1962). On the foundations of statistical inference. (With discussion). J. 

Amer. Statist. Ass. 57, 269-326. 

Cox, D.R. and Hinkley, D.V. (1974). Theoretical Statistics. Chapman and Hall, London. 

Cramér, H. (1946). A contribution to the theory of statistical estimation. Skand. Akt. 

Tidskr. 29, 85.94. 

Darmois, G. (1935). Sur les lois de probabilité à estimation exhaustive. C. R. Acad. Sci. 

Paris 260, 1265-1266. 

Darmois, G. (1945). Sur les lois limites de la dispersion de certaines estimations. Rev. 

Inst. Int. Statist. 13, 9-15.

Dynkin, E.B. (1951). Necessary and sufficent statistics for a family of probability distributions. 

English translation in Select. Transl. Math. Statist. Prob. 1, 23-41. 

Edgeworth, F.Y. (1885). Methods of Statistics. Jubilee volume of the Statist. Soc., E. Stanford, 

London. 

Fisher, R.A. (1920). A mathematical examination of the methods of determining the accuracy 

of an observation by the mean error and by the mean square error. Montly 

Notices Roy. Astron. Soc. 80, 758-770. 

Fisher, R.A. (1922). On the mathematical foundations of theoretical statistics. Phil. Trans. 

Roy. Soc. Ser A 222, 309-368. 

Fisher, R. A. (1925a). Theory of statistical estimation. Proc. Cambridge. Phil. Soc. 22, 700- 

725. 

Fisher, R.A. (1925b). Statistical Methods for Research Workers, 1st ed. (14th. ed. 1970). Oliver 

and Boyd, Edinburgh. 

Fisher, R.A. (1934). Two new properties of mathematical likelihood. Proc. R., Soc. A 114, 

285-307. 

Fisher, R.A. (1935). The Design of Experiments, 1st ed. (8th ed., 1966). Oliver and Boyd, 

Edinburgh. 

Fisher, R.A. (1956). Statistical Methods and Scientific Inference. Oliver and Boyd, Edinburgh 

(3rd ed., Hafner, New York, 1973). 

Fourier, J.B.J. (1826). Recherches Statistiques sur la Ville de Paris et le Département de 

la Seine, Vol. 3. 

Fraser, D.A.S. (1956). Sufficient statistics with nuisance parameters. Ann. Math. Statist. 

27, 848-842. 

Fréchet, M. (1943). Sur l’extension de certaines evaluations statistiques de petits echantillons. 

Rev. Int. Statist. 11 , 182-205. 

Gauss, C.F. (1816). Bestimmung der Genauigkeit der Beobachtungen. Z. Astron. und 

Verw. Wiss 1. (Reprinted in Gauss’ collected works, Vol 4. pp. 109-119). 

Gauss, W.F. (1821). In Gauss’ Work (1803-1826) on the Theory of least Squares. Trans. 

H.F. Trotter. Statist. Techniques Res. Group. Tech. Rep. No. 5. Princeton University. 

Princeton. (Published Translations of these papers are available in French 

and German). 

Gavarret, J. (1840). Principles Génèraux de Statistique Médicale. Paris. 

Halmos, P.R. (1946). The theory of unbiased estimation. Ann. Math. Statist. 17, 34-43. 

Halmos, P.R. and Savage, L.J. (1949). Application of the Radon-Nikodym theorem to 

the theory of sufficient statistics. Ann. Math. Statist. 20, 225-241. 

131

132 KAPITEL 10. REFERENCER 

Kolmogorov, A.N. (1950). Unbiased estimates. Izvestia Akad. Nauk SSSR, Ser. Math. 14, 

303-326. (Amer. Math. Soc. Transl. No. 98). 

Koopman. B.O. (1936). On distributions admitting a sufficient statistic. Trans. Amer. 

Math. Soc. 39, 399-409. 

Laplace, P.S. (1773). Mémoire sur l’inclinaison moyenne des orbites de comètes. Mem. 

Acad. Roy. Sci. Paris 7 (1776), 503-524. 

Laplace, P.S. (1812). Théorie Analytique des Probabilités, Paris. (The 3rd edition of 1820 is 

reprinted as Vol. 7 of Laplace’s collected works). 

Lehmann, E.L. (1983). Theory of Point Estimation. John Wiley & Sons, New York. 

Lehmann, E.L. (1986). Testing Statistical Hypotheses. John Wiley & Sons, New York. 

Lehmann, E.L. and Scheffé, H. (1950, 1955, 1956). Completeness, similar regions and 

unbiased estimation. Sankhya 10 , 305-340; 15, 219-236. (Correction 17, 250). 

Lexis, W. (1875). Einleitung in die Theorie der Bevölkerungsstatistik. Strassburg. 

Lexis, W. (1877). Zur Theorie der Massenerscheinungen in der Menschlichen Gesellschaft. 

Freiburg. 

Neymann, J. (1935). Sur un teorema concernente le cosidette statistiche sufficienti. Giorn. 

Ist. Ital. Att. 6 , 320-334. 

Neyman, J. and Pearson, E.S. (1928). On the use and interpretation of certain test 

criteria. Biometrika 20A, 175-240, 263-294. 

Neyman, J. and Pearson, E.S. (1933). On the problem of the most efficient tests of statistical 

hypotheses. Phil. Trans. Roy. Ser. A 231, 289-337. 

Pearson, K. (1900). On the criterion that a given system of diviations from the probable 

in the case of a correlated system of variables is such that it can be reasonably 

supposed to have arisen from random sampling. Phil. Mag. 5:50, 157-172. 

Pitman, E.J.G. (1936). Sufficient statistics and intrinsic accuracy. Proc. Camb. Phil. Soc. 

32, 567-579. 

Rao, C.R. (1945). Information and accuracy attainable in the estimation of statistical 

parameters. Bull. Calc. Math. Soc. 37 , 81-91. 

Rao, C.R. (1947). Minimum variance and the estimation of several parameters. Proc. 

Camb. Phil Soc. 43, 280-283. 

Rémon, M. (1984). On a concept of partial sufficiency: L-sufficiency. Internat. Statist. 

Rev. 52, 127-136. 

Sandved, E. (1967). A principle for conditioning on an ancillary statistic. Skand. Aktuar. 

50, 29-47.

Sverdrup, E. (1966). The present state of the decision theory and the Neyman-Pearson 

theory. Rev. Int. Stat. Inst. 34 , 309-333. 

Wilson, E.B. (1927). Probable inference, the law of succession, and statistical inference. 

J. Amer. Statist. Asssoc. 22, 209-212. 

133

Kapitel 11 

Notation og regneregler 

Dette kapitel er tænkt som et opslagssted, for det meste med resultater i kender fra 

tidligere kurser. I kan selv fylde på når i undervejs støder på nyttige formler. 

11.1 notation 

Det basale udfaldsrum hedder ofte X , og X er den stokastiske variabel svarende til 

identitetsafbildningen på X . 

Alle vektorer er rækkevektorer, og den transponerede vektor x ∗ er derfor en søjlevektor. 

Hvis f er en afbildning fra R m ind i R k er 

og 

∂ f 

∂x∗(x) = 

∂ f ∗ 

(x) = 

∂x 

⎛ 

⎜ 

⎝ 

⎛ 

⎜ 

⎝ 

∂ f 1 

∂x 1 (x) · · · 

∂ f 1 

∂xm 

. 

(x) · · · 

∂ f 1 

∂x 1 (x) · · · 

. 

∂ f k 

∂x 1 (x) · · · 

11.2 Transformationssætningen 

∂ f k 

∂x 1 (x) 

. 

∂ f k 

∂xm (x) 

∂ f 1 

∂xm (x) 

. 

∂ f k 

∂xm (x) 

Lad X være en stokastisk variabel i Rk med tæthed f(·) m.h.t. Lebesguemålet, og lad 

h(·) være en afbildning fra Rk ind i Rk . Vi definere Y = h(X) og ønsker at finde tætheden 

g(·) for Y. Lad 

 

 

J(x) = 

∂h 

 

∗ 

∂x (x) 

 

 

 

, 

hvor | · | er absolutværdien af determinanten. Antag at der eksisterer åbne disjunkte 

mængder B1, . . . , Bm så at h er en entydig afbildning med J(x) > 0 på hver af B i, 

135 

⎞ 

⎟ 

⎠ , 

⎞ 

⎟ 

⎠ .

136 KAPITEL 11. NOTATION OG REGNEREGLER 

i = 1, . . . , m, og at P(X ∈ ∪ iB i) = 1. Så gælder der 

g(y) = ∑ 

x:h(x)=y 

f(x)J(x) −1 . 

Hvis h er en entydig afbildning på Rk , så at m = 1, får vi den mere velkendte formel 

g(y) = f(x)J(x) −1 

= f h −1 

(y) J h −1 −1 (y) . 

11.3 Betinget middelværdi 

Lad det basale udfaldsrum være X med sigma-algebra A. Lad (Y, B) være et andet 

målrum, og lad T = t(X) med t : X → Y en målelig afbildning. Den betingede 

middelværdi E( f(X)|T), hvor f : X → R er en målelig afbildning, er en stokastisk 

variabel, altså en funktion på X , E(X|Y) = E(X|Y)(x), som er σ(T)-målelig og som 

opfylder at E(1B(T)E( f(X)|T)) = E(1B(t(X)) f(X)) for alle B ∈ B. Da E( f(X)|T) er 

σ(T)-målelig eksisterer der ifølge JHJ 6.4 en funktion ϕ : Y → R så at 

E( f(X)|T)(x) = ϕ(t(x))). 

Vi betegner ϕ(t) med E( f(X)|t = t). Bemærk at E( f(X)|T = t) kun er bestemt op til 

en PT nulmængde. 

Hvis PT (·, ·) er en regulær betinget sandsynlighed givet T, så gælder der (se (11.1)) 

 

f(x)P T (dx|t) 

X 

er en betinget middelværdi givet T. Med andre ord: en udgave af E( f(X)|t = t) er 

givet ved 

 

E( f(X)|t = t) = f(x)P T (dx|t). 

Dette læses som at den betingede middelværdi er middelværdien i den betingede fordeling. 

Jeg minder om at vi har regnereglen 

E( f(X, T)|T = t) = E( f(X, t)|T = t), 

hvilket læses på den måde at højresiden er en version af venstresiden. Bemærk at vi 

fra diskussionen tilsidst i afsnit 3.1 har at 

 

f(x, t(x))P T 

(dx|t) = f(x, t)P T (dx|t) 

hvis Y er et metrisk rum med en tællelig taet delmængde og B er Borel sigma-algebraen. 

11.4 Betingede tætheder 

Vi gennemgår her et specialtilfæde af opgave 3.3. Lad (X, Y) have simultan tæthed 

f(x, y) på R k+l og lad Y have marginal tæthed g(y), begge med hensyn til Lebesguemålet. 

Så er den betingede tæthed af X givet Y = y 

f(x|y) = 

X 

f(x, y) 

g(y) .

11.4. BETINGEDE TÆTHEDER 137 

Den regulære betingede sandsynlighed af (X, Y) givet Y i Definition 3.1 bliver i dette 

tilfælde 

P Y 

(A|y) = f(x|y)dx. 

x:(x,y)∈A 

Bevis. Vi skal eftervise (iii) i Definition 3.1. Lad B være en Borelmængde i Rl og A en 

Borelmængde i Rk+l . Så gælder der 

 

 

 

f(x|y)dx g(y)dy 

P 

B 

Y (A|y)PY(dy) = 

B 

 

= 

= 

B 

 

x:(x,y)∈A 

x:(x,y)∈A 

A∩R k ×B 

f(x, y)dxdy 

f(x, y)dxdy = P(A ∩ {Y ∈ B}). 

Følgende regneregel (JHJ 10.3) for betingede sandsynligheder er meget brugbar. For 

en regulær betinget sandsynlighed PT (A|t) og vilkårlige målelige funktioner f : X → 

R, g : Y →R har vi ligheden 

 

g(t) f(x)P T 

(dx|t) dPT(t) = g(t(x)) f(x)P(dx) = E{g(t(X)) f(X)}. (11.1) 

Dette er en specialudgave af hvad JHJ kalder “useful rules". Andre udgaver er 

 

ψ(x, t(x))P T 

(dx|t) = ψ(x, t)P T (dx|t), (11.2) 

og 

 

E(ψ(X, T) = 

Endvidere gælder der følgende rimelige resultat 

ψ(x, t)P T (dx|t)PT(dt). (11.3) 

P T (T = t|t) = 1 n.s. PT, 

såfremt at mængden {(x, t(x)|x ∈ X } tilhører produkt σ-algebraen A ⊗ B. 

Nu følger bevis for Observationerne 2.19 og 2.20. 

Bevis (for Obsevation 2.19 (JHJ 10.11)). Lad u være en afbildning fra det basale udfaldsrum 

(X , A) ind i (Y, B). Definer 

g(u) = EP( dQ 

 

dQ 

(X)|U = u) = 

dP dP (x)PU (dx|u). 

Vi skal vise at g(u) er tætheden for QU mht PU. Lad B ∈ B. Så får vi 

 

 

dQ 

g(u)dPU(u) = 1B(u) 

B 

dP (x)PU 

(dx|u) dPU(u) 

 

= EP 1B(u(X)) dQ 

dP (X) 

 

 

= 1B(u(x)) dQ 

 

(x)dP(x) = 1B(u(x))dQ(x) 

dP 

= QU(B).

138 KAPITEL 11. NOTATION OG REGNEREGLER 

I det andet lighedstegn har vi brugt regneregelen (11.1) ovenfor, og i det næstsidste 

lighedstegn har vi brugt en regneregel i afsnit 11.5. 

Bevis (for Observation 2.20). Definer 

f(x|t) = 

f(x) 

g(t) 

t ∈ D 

1 t /∈ D, og F(A|t) = 

A f(x|t)PT (dx|t). 

Vi vil vise at F(A|t) er en regulær betinget sandsynlighed for Q givet T. Undervejs 

bruger vi at QT(D c ) = 0. 

 

B 

 

F(A|t)QT(dt) = 

= 

= 

F(A|t) dQT 

(t)PT(dt) 

dPT 

f(x|t)P 

A 

T 

(dx|t) 

 

g(t)PT(dt) 

1B∩D(t) f(x)P T 

(dx|t) PT(dt) 

B∩D 

 

B∩D 

 

A 

= EP {1B∩D(t(X))1 A(X) f(X)} 

 

= 1B∩D(t(x))1 A(x) dQ 

 

(x)P(dx) = 1B∩D(t(x))1 A(x)Q(dx) 

dP 

= Q(A ∩ u −1 (B ∩ D)) = Q(A ∩ u −1 (B)), 

som netop er definitionen på at F(A|t) er en regulær betinget sandsynlighed for Q 

givet T. Jeg har brugt regneregelen (11.1) ovenfor i 4. lighedstegn og regneregel fra 

afsnit 11.5 i næstsidste lighedstegn. 

11.5 Regnereler for tætheder og integraler 

1) µ ≪ ν ⇒ f(x)dµ(x) = f(x) dµ 

dν (x)dν(x). (JHJ 3.17) 

2) µ ≪ ν

11.6. ENTYDIGHED AF LAPLACETRANSFORMEN 139 

Vi tager nu A = 1( f − g > 0). Så fås 

 

 

 

1 

( f − g)dµ = 0 ⇒ ( f − g)dµ = 0 ⇒ dµ = 0, 

A 

A ( f − g) A 

dvs A er en µ-nulmængde. På tilsvarende vis ses at mængden hvor f − g < 0 er 

en µ-nulmængde. 

11.6 Entydighed af Laplacetransformen 

Lad µ1 og µ2 være sandsynlighedsmål på R k med laplacetransformer 

 

ϕ1(θ) = 

 

exp(θ · x)µ1(dx) og ϕ2(θ) = 

exp(θ · x)µ2(dx). 

Hvis der eksisterer en åben mængde D ⊂ R k således at ϕ1 og ϕ2 begge er endelige på 

D og 

ϕ1(θ) = ϕ2(θ), θ ∈ D, 

så er de to mål ens, µ1 = µ2. 

Beviset baserer sig på at antagelsen medfører at 

 

 

exp((θ + iv) · x)µ1(dx) = 

exp((θ + iv) · x)µ2(dx), θ ∈ D, v ∈ R k . 

For fast θ er dette karakteristiske funktioner i v, og vi kan derfor bruge entydighedssætningen 

for karakteristiske funktioner.

Indeks 

141

Hele Et første kursus i teoretisk statistik. Første udgave. - Aarhus ...

Create successful ePaper yourself

Delete template?

Save as template?