30.07.2013 Views

Hele Et første kursus i teoretisk statistik. Første udgave. - Aarhus ...

Hele Et første kursus i teoretisk statistik. Første udgave. - Aarhus ...

Hele Et første kursus i teoretisk statistik. Første udgave. - Aarhus ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

E T F Ø R S T E K U R S U S<br />

I T E O R E T I S K S T A T I S T I K<br />

J E N S L E D E T J E N S E N


© Jens Ledet Jensen 2006<br />

Institut for Matematiske Fag<br />

Det Naturvidenskabelige Fakultet<br />

<strong>Aarhus</strong> Universitet<br />

Januar 2006


Indhold<br />

1 Indledning 1<br />

2 Eksponentielle familier 5<br />

2.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5<br />

2.2 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6<br />

2.3 Minimal fremstilling og konveks støtte . . . . . . . . . . . . . . . . . . . . 7<br />

2.4 Laplace- og kumulanttransform . . . . . . . . . . . . . . . . . . . . . . . . 10<br />

2.5 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />

2.6 Marginale og betingede fordelinger . . . . . . . . . . . . . . . . . . . . . . 17<br />

2.7 Komplethed af den minimalkanoniske observator . . . . . . . . . . . . . 19<br />

2.8 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />

3 Sufficiens 25<br />

3.1 Indledning og definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />

3.2 Tilfældet med diskret udfaldsrum X . . . . . . . . . . . . . . . . . . . . . 26<br />

3.3 Det generelle tilfælde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />

3.4 Minimal sufficiente observatorer . . . . . . . . . . . . . . . . . . . . . . . 29<br />

3.5 Sufficiensprincippet og B-sufficiens . . . . . . . . . . . . . . . . . . . . . . 36<br />

3.6 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36<br />

4 Ancillaritet og Basu’s sætning 43<br />

4.1 Definitioner og diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . 43<br />

4.2 Basu’s sætning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48<br />

4.3 Birnbaum’s sætning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />

4.4 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53<br />

5 Likelihoodbegreber 57<br />

5.1 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />

6 Centrale estimatorer med minimal varians 67<br />

6.1 Centrale estimatorer med minimal varians . . . . . . . . . . . . . . . . . . 67<br />

6.2 Variansuligheder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71<br />

6.3 Pusterum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75<br />

6.4 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76<br />

i


ii INDHOLD<br />

7 Testteori 79<br />

7.1 Indledning og definitioner . . . . . . . . . . . . . . . . . . . . . . . . . . . 79<br />

7.2 Neyman-Pearson’s lemma og monotone kvotienter . . . . . . . . . . . . 81<br />

7.3 Sammensat nulhypotese – test for en delparameter . . . . . . . . . . . . . 89<br />

7.4 Lokalt stærkeste test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94<br />

7.5 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95<br />

8 Separat inferens 101<br />

8.1 L-sufficiens og L-ancillaritet . . . . . . . . . . . . . . . . . . . . . . . . . . 101<br />

8.2 S-sufficiens og S-ancillaritet . . . . . . . . . . . . . . . . . . . . . . . . . . 104<br />

8.3 G-sufficiens og G-ancillaritet . . . . . . . . . . . . . . . . . . . . . . . . . . 107<br />

8.4 Itemanalysemodellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112<br />

8.5 Afsluttende bemærkninger . . . . . . . . . . . . . . . . . . . . . . . . . . . 116<br />

8.6 Opgaver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117<br />

9 Bayes <strong>statistik</strong> 121<br />

10 Referencer 129<br />

11 Notation og regneregler 135<br />

11.1 notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135<br />

11.2 Transformationssætningen . . . . . . . . . . . . . . . . . . . . . . . . . . . 135<br />

11.3 Betinget middelværdi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136<br />

11.4 Betingede tætheder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136<br />

11.5 Regnereler for tætheder og integraler . . . . . . . . . . . . . . . . . . . . . 138<br />

11.6 Entydighed af Laplacetransformen . . . . . . . . . . . . . . . . . . . . . . 139<br />

Indeks 141


Kapitel 1<br />

Indledning<br />

Med disse indledende bemærkninger vil jeg forsøge at ryste jeres statistiske grundvold,<br />

og vise at <strong>statistik</strong> (d.v.s. her <strong>teoretisk</strong> <strong>statistik</strong>) er mere end matematik. Jeg vil<br />

nævne nogle af de forskellige indgange til <strong>statistik</strong> for at afgrænse, hvad vi skal beskæftige<br />

os med i disse noter. Jeg vil her i indledningen foretage diskussionen ud fra<br />

et eksempel.<br />

En ukendt parameter θ kan antage værdier i {0, 1, 2, . . . }. En værdi k af θ vælges<br />

(måske af naturen, måske af en person), og 6 brikker placeres i en pose. Af de 6 brikker<br />

er 2 mærket med værdien k og de 4 andre med værdierne 4k + 1, . . . , 4k + 4. Eksperimentet<br />

består nu i at vælge én af brikkerne tilfældigt og observere værdien S på denne,<br />

Fordelingen af S beskrives med følgende tabel, hvori for hver række er angivet 6 gange<br />

sandsynligheden for de mulige udfald:<br />

S<br />

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24<br />

0 2 1 1 1 1<br />

1 2 1 1 1 1<br />

θ 2 2 1 1 1 1<br />

3 2 1 1 1 1<br />

4 2 1 1 1 1<br />

5 2 1 1 1 1<br />

Vores opgave er ud fra observationen s at sige noget om den ukendte parameter θ. Når<br />

s er observeret, ved vi, at θ enten er s eller for s > 0, er der også muligheden [(s − 1)/4],<br />

hvor [·] er heltalsdelen af et tal. Fra observationen s kan vi altså gætte på<br />

ˆθ = s eller ˜θ =<br />

0 hvis s = 0<br />

[(s − 1)/4] hvis s > 0,<br />

hvor ˆ θ faktisk er maksimum likelihood estimatet.<br />

Normalt vil vi vælge ˆθ som skøn over θ, idet Pˆθ (s) = 2 6 > P˜ θ (s) = 1 6 for s > 0, altså<br />

den observerede værdi s har større sandsynlighed under målet Pˆθ end under målet P˜ θ .<br />

Men hvis vi spørger om sandsynligheden for at gætte den rigtige værdi af θ, har vi<br />

Død og pine, hvad gør vi nu?<br />

P θ( ˆθ = θ) = 2 6 < P θ( ˜θ = θ) = 4 6 .<br />

1


2 KAPITEL 1. INDLEDNING<br />

Indenfor den såkaldte Bayes-<strong>statistik</strong> optræder der ingen problemer (=problemet er<br />

flyttet et andet sted hen - en særdeles velkendt problemløsningmetode). Hvis man er<br />

“bayesianer”, formuleres alt ved hjælp af sandsynligheder. I stedet for at sige at θ er<br />

ukendt, siger man, at θ er en stokastisk variabel med en prior tæthed pk = P(θ = k), og<br />

at vores viden om θ, efter at eksperimentet er udført, udtrykkes gennem den betingede<br />

tæthed<br />

⎧<br />

1 k = s = 0<br />

⎪⎨ 1<br />

3 (<br />

P(θ = k|S = s) =<br />

⎪⎩<br />

1 3 ps + 1 6 p [(s−1)/4]) −1 pk k = s, s > 0<br />

1<br />

6 ( 1 3 ps + 1 6 p [(s−1)/4]) −1 pk k = [(s − 1)/4], s > 0<br />

0 ellers<br />

Eventuelt kan vi lave et estimat ˆθB, som er den værdi af θ, som har størst sandsynlighed<br />

givet S = s.<br />

For at gennemføre dette program skal vi altså vælge en prior tæthed p k. Hvis vi<br />

tager p k = 1/2 k+1 , vil ˆ θB = ˜ θ for alle s. Det kan vises, at for en vilkårlig tæthed med<br />

p k > 0 for alle k vil ˆθB = ˜θ for uendelig mange værdier af s . Hvis p k = 0 for k ≥ 5 og<br />

p k = 1/4 for k < 5, vil<br />

ˆθB = ˆθ for s < 5 og ˆθB = ˜θ for 5 ≤ s ≤ 20.<br />

Dette sidste eksempel dækker over det generelle udsagn, at jo mere uniform vi gør den<br />

prior tæthed, desto oftere vil ˆθB = ˆθ.<br />

Det er klart, at det oprindelige problem er blevet ført over i, hvordan vi skal vælge<br />

prior tætheden. Hvis vi ikke har nogen viden, der kan hjælpe os i dette, må vi altså<br />

foretage et subjektivt valg, og af denne grund bryder mange <strong>statistik</strong>ere sig ikke om<br />

Bayes-<strong>statistik</strong>. Ud fra en pragmatisk synsvinkel kan det dog i visse situationer være<br />

praktisk at tænke i termer af Bayes-<strong>statistik</strong>. F.eks. i store ekspertsystemer, hvor et af<br />

problemerne er jævnligt at opdatere den akkumulerede viden om de mange parametre,<br />

kan det være praktisk at bruge Bayes-<strong>statistik</strong>. Jeg omtaler kort Bayes-<strong>statistik</strong> i kapitel<br />

9.<br />

En anden tilgang til <strong>statistik</strong> er decisionsteori. Her forestiller man sig, at der til hver<br />

observation x skal foretages en beslutning d = d(x), og for enhver beslutning d og<br />

enhver parameter θ er der givet en pris, eller et tab, w(θ, d) ≥ 0. Det forventede tab<br />

kaldes risikofunktionen (engelsk: risk function)<br />

r(θ, d) = E θw(θ, d(X)).<br />

I vort eksempel kan beslutningen være, at vi peger på enten ˆθ eller ˜θ som den sande<br />

værdi af θ. Lad os f.eks. sige at tabet er givet ved<br />

⎧<br />

⎪⎨ 0 hvis θ1 = θ<br />

w(θ, θ1) = α<br />

⎪⎩<br />

β<br />

<br />

12 α +<br />

r(θ, ˆθ) =<br />

hvis |θ1 − θ| ≤ 3<br />

hvis |θ1 − θ| > 3,<br />

1 6 β hvis θ = 0<br />

4<br />

6 β hvis θ > 0<br />

⎧<br />

⎪⎨<br />

0<br />

og r(θ, ˜θ) = 2<br />

6α ⎪⎩<br />

β<br />

hvis θ = 0<br />

hvis 1 ≤ θ ≤ 3<br />

hvis θ > 3.<br />

2<br />

6


Hvis θ > 3 vil ˜θ have en mindre risiko end ˆθ, men for 1 ≤ θ ≤ 3 vil ˆθ have en<br />

mindre risiko end ˜θ, hvis blot β < α/2.<br />

Decisionsteori giver anledning til mange nye definitioner. En beslutningsregel d<br />

kaldes inadmissible, hvis der findes en anden regel d1, så at r(θ, d) ≥ r(θ, d1) for alle θ og<br />

med skarp ulighed for mindst én værdi af θ. Hvis en regel ikke er inadmissible, kaldes<br />

den admissible, og disse er klart at foretrække. En minimax regel d er en admissible<br />

beslutningsregel, som opfylder<br />

sup<br />

θ<br />

r(θ, d1) ≥ sup r(θ, d)<br />

θ<br />

for enhver anden admissible regel d1. En minimax regel er et fornuftigt valg, hvis man<br />

er to personer, der spiller mod hinanden, og at man må forvente, at modspilleren er<br />

så ond som mulig. Ligesom at jeg ikke vil komme ind på Bayes-<strong>statistik</strong>, vil jeg ikke<br />

beskæftige mig med decisionsteori i disse noter.<br />

Hvad er så emnet for disse noter? Løst sagt skal vi så præcist som muligt opsummere<br />

den viden, som vi har fået om den ukendte parameter fra den foretagne observation<br />

og fra vores viden om den sandsynlighedsmekanisme, som ligger bagved. Dette<br />

betyder bl.a., at vi ikke skal bruge de hypotetiske gentagelser af forsøget til at konstruere<br />

et spil mod en usynlig modpart og dernæst minimere tabet, men derimod bruge<br />

gentagelserne til at belyse den faktiske observation i forhold til de andre mulige observationer.<br />

Heri ligger også, at de potentielle gentagelser skal være relevante, som for<br />

eksempel at de skal foretages med det samme måleudstyr (disse problemer tages op i<br />

kapitel 4 og kapitel 8). Den type problemstillinger, som vi ønsker at anvende teorien<br />

på, kan være spørgsmål som: Hvad er lysets hastighed? Hvor en stor procentdel af den<br />

danske befolkning går ind for en kombineret vej- og jernbanebro til Sverige?; Hvad er<br />

sandsynligheden for at blive rask med en given behandling?; etc., etc.<br />

I ovenstående eksempel, hvis vi f.eks. har observeret s = 2, kan vi sige, at de mulige<br />

værdier af θ er θ = 0 og θ = 2, og at sandsynlighederne for s = 2 er 1 6 og 2 6 under de to<br />

muligheder. Meget mere kan vi ikke sige. Normalt vil vi gerne angive et estimat og en<br />

relevant varians på estimatet eller et relevant konfidensområde, men her hvor der kun<br />

er to muligheder, kan vi kun give en rangordning. Da vi nu ved, at θ = 0 eller θ = 2 er<br />

ˆθ og ˜θ ikke relevante i hypotestiske gentagelser. For en ny observation s ∈ {0, 1, 3, 4}<br />

ved gentagelse, kan vi slutte at θ = 0, og for s ∈ {9, 10, 11, 12} kan vi slutte at θ = 2.<br />

Det er kun for s = 2, at vi ikke kan slutte hvad θ er. Hvis vi definerer<br />

<br />

<br />

ˆθ2(s)<br />

0 s ∈ {0, 1, 3, 4}<br />

=<br />

og ˇ<br />

0 s ∈ {0, 1, 2, 3, 4}<br />

θ2(s) =<br />

2 s ∈ {2, 9, 10, 11, 12}<br />

2 s ∈ {9, 10, 11, 12}<br />

har vi at<br />

og<br />

P0( ˆθ2 = 0) = 5 6 , P2( ˆθ2 = 2) = 1,<br />

P0( ˇθ2 = 0) = 1, P2( ˇθ2 = 2) = 4 6 ,<br />

og anskuet på denne vis vil vi sige, at maksimum likelihood estimatet ˆθ2 er det bedste<br />

estimat.<br />

Lad mig slutte denne indledning med en ultrakort gennemgang af de forskellige<br />

kapitler:<br />

3


4 KAPITEL 1. INDLEDNING<br />

Kapitel 2: Her opsumerer jeg de vigtigste begreber og resultater for ekponentielle familier.<br />

Eksponentielle familier er vigtige på grund af deres pæne matematiske egenskaber,<br />

på grund af deres udbredelse, og fordi der er en simpel sammenhæng mellem<br />

tætheden og de såkaldte sufficiente observatorer. Faktisk kan man vende bøtten rundt,<br />

og starte med at sige, hvad der skal være sufficiente observatorer, og man vil så hurtigt<br />

blive ledt frem til de eksponentieller familier. De eksponentieller familier vil optræde<br />

gennem hele notesættet.<br />

Kapitel 3: Her gives en udførlig matematisk teori for sufficiente observationer, d.v.s.<br />

funktioner af data som “indeholder al information” om den ukendte parameter.<br />

Kapitel 4: Handler on hvordan vi definerer relevante gentagelser ved at betinge med<br />

værdien af en såkaldt ancillær observator. Sammenhængen mellem dette og de sufficiente<br />

observatorer diskuteres.<br />

Kapitel 5: Nævner de vigtigste begreber omkring likelihoodfunktionen og den afledede.<br />

Resultater baseret på at antallet af observationer går mod uendelig bliver kort<br />

omtalt. Dette kapitel kan godt læses før de andre.<br />

Kapitel 6: Giver en teori for hvordan vi på fornuftig vis kan vælge estimatorer, d.v.s. at<br />

vi forsøger at minimere variansen uniformt i parameteren. For at dette får mening, må<br />

vi nøjes med at betragte de såkaldte unbiased estimatorer.<br />

Kapitel 7: Heri beskrives hvordan man konstruerer test med visse optimale egenskaber.<br />

Kapitel 8: Dette kapitel hænger sammen med kapitel 4, idet det undersøges, hvad der<br />

er relevante gentagelser, når vi ønsker at udtale os om en delparameter.<br />

Lad mig til sidst påpege at udgangspunktet er, at vi har valgt en model til beskrivelse<br />

af det udførte forsøg, og ønsker nu at optimere vores konklusioner idenfor modellen.<br />

Det vil bl.a. sige, at vi ikke kommer ind på kontrol af modellen. En anden vigtig<br />

ting vi ikke kommer ind på, er robusthed af vores procedurer overfor antagelser i modellen,<br />

d.v.s. spørgsmål som, om en optimal procedure under modellen vil være langt<br />

fra optimal, hvis modellen ændres ganske lidt.<br />

En henvisning til Jørgen Hoffman-Jørgensens bøger angives med “JHJ”.


Kapitel 2<br />

Eksponentielle familier<br />

2.1 Motivation<br />

Eksponentielle familier er klasser af sandsynlighedsmål med “særligt pæne egenskaber".<br />

Det smarte er, at når først vi har vist (og det er ikke svært), at noget er en eksponentiel<br />

familie, så ved vi, at en hel masse resultater er opfyldt. Lad os som et eksempel<br />

betragte n uafhængige variable X1, . . . , Xn som er normalfordelte med middelværdi µ<br />

og varians σ 2 . Hvis f(·) er en funktion fra R ind i R med den egenskab, at<br />

E µ,σ 2 f( ¯X) = 0 for alle µ ∈ R,<br />

så kan vi slutte, at f er identisk lig med nul pånær på en nulmængde. Denne egenskab<br />

kan måske nok synes lidt teknisk, men den kan hjælpe os til at vise andre egenskaber.<br />

Det sædvanlige estimat for σ 2 er s 2 = ∑i(X i − ¯X) 2 /(n − 1). Dette estimat har den rigtige<br />

middelværdi: Es 2 = σ 2 , og vi siger, at s 2 er middelværdiret. Man kan nu vise, at s 2<br />

er det estimat, der har mindst mulig varians, blandt alle estimater der er middelværdirette.<br />

For eksponentielle familier kan vi vise at for visse hypoteser er der særligt attraktive<br />

tests. I eksemplet ovenfor kan vi betragte et test for hypotesen µ = 0 mod alternativet<br />

µ > 0. Det sædvanlige t-test forkaster hypotesen hvis t = ¯X/ √ s 2 /n er stor, og vi kan<br />

vise at dette i en vis forstand er det bedste vi kan gøre.<br />

De ovenstående eksempler viser, at der er god grund til at beskæftige sig med eksponentielle<br />

familier. <strong>Et</strong> andet argument er, at nogle af de vigtigste klasser af fordelinger<br />

faktisk er eksponentielle familier: Binomialfordelingerne, Poissonfordelingerne,<br />

normalfordelingerne og Gammafordelingerne. Ydermere er disse fordelinger byggestene<br />

for det der hedder Generaliserede Lineære Modeller som er et vigtigt redskab i<br />

en <strong>statistik</strong>ers værktøjskasse.<br />

Definitionen på en eksponentiel familie vedrører hvordan data og parameter spiller<br />

sammen. Lad som et eksempel Pλ være poissonfordelingen med parameter λ og lad µ<br />

være tællemålet. Så kan vi skrive tætheden som<br />

dPλ λx<br />

(x) =<br />

dµ x! e−λ = e −λ · 1<br />

x!<br />

· exp{log(λ)x}.<br />

Hvad jeg har fremhævet her, er at tætheden kan skrives som en funktion af parameteren,<br />

ganget med en funktion af data, ganget med en eksponentialfunktion, hvor<br />

5


6 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />

argumentet er en funktion af parameteren ganget med en funktion af data. Det er denne<br />

struktur der nedenfor vil blive brugt i den generelle definition. Bemærk at den <strong>første</strong><br />

funktion af parameteren, lad os kalde den a(λ), er en normeringskonstant: eftersom vi<br />

betragter en tæthed, vil denne integrere til 1, og dermed har vi<br />

a(λ) ∑ x<br />

2.2 Definition<br />

<br />

1<br />

exp{log(λ)x} = 1 ⇒ a(λ) =<br />

x! ∑<br />

x<br />

1<br />

x! exp{log(λ)x}<br />

−1 .<br />

Jeg vil betragte en klasse P = {Pθ|θ ∈ Θ} af sandsynlighedsmål på målrummet<br />

(X , A, µ), hvor µ er et σ-endeligt mål. Familien P er parametriseret ved θ ∈ Θ, hvor<br />

Θ ⊆ Rp , d.v.s at hvis θ1 = θ2 så vil Pθ1 = Pθ2 . Antag, at µ dominerer alle målene i<br />

P, Pθ ≪ µ ∀θ ∈ Θ, og at der eksisterer en funktion φ = (φ1, . . . , φk) : Θ → Rk , en<br />

målelig funktion t = (t1, . . . , tk) : X → Rk , og en målelig funktion b : X → R således<br />

at<br />

dPθ<br />

dµ (x) = a(θ)b(x)eφ(θ)·t(x) , ∀θ ∈ Θ. (2.1)<br />

Hvis (2.1) er opfyldt, kaldes P en eksponentiel familie med kanonisk observator T = t(X)<br />

og kanonisk parameter φ(θ). Bemærk, at i (2.1) er a(·) bestemt ved<br />

<br />

a(θ) = b(x)e φ(θ)·t(x) −1 µ(dx)<br />

og er derfor kun en funktion af θ gennem φ(θ). Det mindste k for hvilket en repræsentation<br />

på formen (2.1) er mulig kaldes ordenen af familien. Hvis repræsentationen er<br />

minimal, d.v.s. at k er ordenen af familien, kaldes T en minimal kanonisk observator og<br />

ϕ en minimal kanonisk parameter.<br />

Eksempel 2.1.<br />

Jeg opskriver her nogle af de fordelinger I kender i forvejen på eksponentiel familieform.<br />

Binomialfordelingen. Lad X være binomialfordelt med antalsparamter n og sandsynlighedsparameter<br />

θ med 0 < θ < 1. Så er tætheden med hensyn til tællemålet µ<br />

givet ved<br />

dPθ (x) =<br />

dµ<br />

for x ∈ {0, . . . , n}.<br />

n<br />

x<br />

<br />

θ x (1 − θ) n−x = (1 − θ) n<br />

n<br />

x<br />

<br />

<br />

θ<br />

exp log x ,<br />

1 − θ<br />

Normalfordelingen. Lad X være normalfordelt med middelværdi µ og varians σ 2<br />

med (µ, σ 2 ) ∈ R × R+. Så er tætheden med hensyn til lebesguemålet m givet ved<br />

dP (µ,σ 2 )<br />

dm<br />

(x) = exp{− 1<br />

2σ 2(x − µ) 2 }<br />

√ 2πσ 2<br />

= exp{− µ2<br />

2σ 2 }<br />

√ 2πσ 2<br />

<br />

µ<br />

exp<br />

σ<br />

2σ<br />

1<br />

x − x2<br />

2 2<br />

for x ∈ R. Bemærk at i dette eksempel er b(x) = 1. <br />

<br />

,


2.3. MINIMAL FREMSTILLING OG KONVEKS STØTTE 7<br />

2.3 Minimal fremstilling og konveks støtte<br />

Jeg skal i dette afsnit angive en metode til at afgøre, om en fremstilling er minimal, og<br />

skal i denne forbindelse udtrykke mig “næsten sikkert” mht. et mål. Jeg starter derfor<br />

med følgende observation.<br />

Observation 2.2 Lad ν være målet på X givet ved<br />

dν<br />

(x) = b(x), (2.2)<br />

dµ<br />

hvor b(x) er fra (2.1). Der gælder at alle målene i P er indbyrdes ækvivalente, og at de<br />

er ækvivalente med ν , d.v.s. at alle disse mål har de samme nulmængder. <br />

Bevis. Da<br />

<br />

Pθ(A) =<br />

a(θ)e<br />

A<br />

φ(θ)·t(x) <br />

b(x)µ(dx) =<br />

A<br />

a(θ)e φ(θ)·t(x) ν(dx),<br />

har vi, at<br />

dPθ dν (x) = a(θ)eφ(θ)·t(x) . (2.3)<br />

Vi har derfor, at hvis N er en nulmængde for ν er N også en nulmængde for Pθ for alle<br />

θ ∈ Θ. Da (2.3) er strengt positiv, gælder der at ν(B) > 0 ⇒ Pθ(B) > 0. Hvis derfor N<br />

er en nulmængde for Pθ, følger det, at ν(N) = 0. <br />

Jeg vil skrive “næsten sikkert mht. P” som n.s.−P, og på grund af Observation 2.2<br />

skrive n.s.−P hvormed menes, at den angivne relation er korrekt på nær en af de fælles<br />

nulmængder for P θ og ν. Bemærk at Observation 2.2 viser, at hvis målene i en familie<br />

P ikke har samme støtte, så kan P ikke være en eksponentiel familie. <strong>Et</strong> eksempel på<br />

dette er familien af uniforme fordelinger på intervallet [0, θ], θ > 0.<br />

Lemma 2.3 Fremstillingen (2.1) er minimal hvis og kun hvis (i) og (ii) nedenfor er opfyldt:<br />

(i) funktionerne 1,φ1, . . . , φ k på Θ er lineært uafhængige, d.v.s.<br />

c0 + c1φ1(θ) + · · · + c kφ k(θ) = 0 ∀θ ∈ Θ ⇒ c0 = c1 = · · · = c k = 0, (2.4)<br />

(ii) funktionerne 1,t1, . . . , t k på X er lineært uafhængige næsten sikker mht. P, d.v.s<br />

c0 + c1t1(x) + · · · + c kt k(x) = 0 n.s. − P ⇒ c0 = c1 = · · · = c k = 0. (2.5)<br />

Bevis. Jeg viser først, at hvis (i) eller (ii) ikke er opfyldt, så er repræsentationen ikke<br />

minimal. Antag at (i) ikke er opfyldt. Der eksisterer altså en vektor c = 0, så at c0 + c ·<br />

φ(θ) = 0 ∀θ ∈ θ. Lad os sige at ck = 0, så har vi, at φk(θ) = −1<br />

c<br />

{c0 + c1φ1(θ) + · · · +<br />

k<br />

ck−1φk−1(θ)}, og vi kan skrive (2.1) som<br />

dP θ<br />

dµ (x) = a(θ)b(x)e−c0 t k(x)/c k exp<br />

<br />

k−1<br />

∑<br />

1<br />

φ i(θ)[t i(x) − c it k(x)/c k]<br />

<br />

.


8 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />

D.v.s. at vi har konstrueret en repræsentation af dimension k−1, og (2.1) er derfor ikke<br />

minimal. På helt tilsvarende måde vises, at hvis (ii) ikke er opfyldt, så er (2.1) ikke<br />

minimal.<br />

Vi antager nu, at (i) og (ii) er opfyldt, og skal vise at fremstillingen (2.1) er minimal.<br />

Vi bemærker først, at hvis θ0 ∈ Θ, så har vi fra (2.1) og Observation 2.2, at (se JHJ 3.19)<br />

dPθ dPθ0 = a(θ)<br />

a(θ0) exp[{φ(θ) − φ(θ0)} · t(x)]. (2.6)<br />

Vi betragter nu endvidere en minimal repræsentation af dimension m , med kanonisk<br />

parameter β(θ) og kanonisk observator u(x) . Vi har altså<br />

dPθ dPθ0 = ã(θ)<br />

ã(θ0) exp[{β(θ) − β(θ0)} · u(x)], (2.7)<br />

og skal vise at k = m. Fra (i) har vi, at vi kan vælge θ1, . . . , θk, så at k × k matricen<br />

⎛<br />

⎞∗<br />

φ(θ1) − φ(θ0)<br />

⎜<br />

⎟<br />

A = ⎝ . ⎠<br />

φ(θk) − φ(θ0)<br />

har fuld rang. Da (2.6) og (2.7) er tæthed for det samme mål, er de identiske n.s.−P, og<br />

vi har for i = 1, . . . , k,<br />

{φ(θ i) − φ(θ0)} · {t(x) − t(x0)} = {β(θ i) − β(θ0)} · {u(x) − u(x0)} n.s. − P.<br />

Skrevet på matriks form gælder der, at<br />

hvor B er m × k matricen<br />

{t(x) − t(x0)}A = {u(x) − u(x0)}B n.s. − P, (2.8)<br />

B =<br />

⎛<br />

⎜<br />

⎝<br />

β(θ1) − β(θ0)<br />

.<br />

β(θ k) − β(θ0)<br />

Da (2.7) er antaget minimal, har vi at m ≤ k. Antag nu at m < k, så eksisterer der<br />

d ∈ R k , d = 0, så at Bd ∗ = 0. Da A har fuld rang, er c ∗ = Ad ∗ = 0, og (2.8) giver<br />

⎞<br />

⎟<br />

⎠<br />

{t(x) − t(x0)}c ∗ = {u(x) − u(x0)}Bd ∗ = 0 n.s. − P,<br />

hvilket er i modstrid med (ii). Altså er m = k, og (2.1) er en minimal fremstilling. <br />

Betingelsen (2.4) er ækvivalent med at mængden<br />

Λ0 = {ϕ(θ)|θ ∈ Θ}<br />

ikke tilhører et affint underrum af R k .<br />

Jeg vil nu diskutere betingelsen (2.5). Støtten for en stokastisk variabel T, der lever<br />

i et metrisk rum, defineres som<br />

{t|P(kugle med centrum t og radius ǫ) > 0, ∀ǫ > 0}.<br />


2.3. MINIMAL FREMSTILLING OG KONVEKS STØTTE 9<br />

Specielt hvis T kun kan antage endelig mange værdier, så er støtten de punkter, hvor<br />

der er positiv sandsynlighed. Hvis T ∈ R k siger vi, at koordinaterne i T er affint uafhængige<br />

n.s. hvis støtten for T ikke er indeholdt i et affint underrum af R k . Dette er<br />

ækvivalent med at sige, at der ikke findes c ∈ R k , c = 0, så at c · T er lig med en konstant<br />

n.s. Men dette er netop betingelsen (2.5). Betingelsen er også ækvivalent med at sige,<br />

at variansen af T, Var(T), er positiv definit. Lad os lige eftervise det sidste udsagn:<br />

cVar(T)c ∗ = 0 ⇐⇒ Var(c · T) = 0<br />

⇐⇒ c · T = konstant n.s. ⇔ c = 0,<br />

hvor den sidste ækvivalens er betingelsen (2.5). Bemærk, at for en eksponentiel familie<br />

P giver Observation 2.2 at støtten for T er den samme uanset hvilket sandsynlighedsmål<br />

Pθ ∈ P vi betragter. Tilsvarende, hvis variansen for T er positiv definit under<br />

P θ1 ∈ P så er variansen positiv definit under alle P θ ∈ P.<br />

Den lukkede konvekse støtte Ct for den eksponentielle familie P defineres som den<br />

mindste lukkede konvekse mængde K ⊂ R k med P θ(t(X) ∈ K) = 1 for alle θ ∈ Θ,<br />

eller ækvivalent hermed {x|t(x) /∈ K} er en P-nulmængde. I symboler kan vi skrive<br />

Ct = <br />

K∈K<br />

K, (2.9)<br />

hvor K er mængden af lukkede og konvekse mængder K med ν({x|t(x) /∈ K}) = 0.<br />

Det indre af Ct betegnes intCt. Hvis støtten for T er indeholdt i et affint underrum af R k ,<br />

vil vi i definitionen af Ct tage snit over mængder, der er indeholdt i et affint underrum,<br />

og vi vil derfor have at intCt = ∅. Med andre ord vil intCt = ∅ medføre, at støtten<br />

for T ikke er indeholdt i et affint underrum af R k , og dermed at betingelsen (2.5) er<br />

opfyldt. Omvendt, hvis støtten for T ikke er indeholdt i et affint underrum af R k kan<br />

vi finde k støttepunkter der udspænder R k og dermed vil intCt = ∅.<br />

Vi kan samle vores diskussion ovenfor i:<br />

Observation 2.4 Følgende betingelser er ækvivalente:<br />

• Betingelsen (2.5);<br />

• Støtten for T er ikke indeholdt i et affint underrum af R k ;<br />

• intCt = ∅;<br />

• Variansen Var(T) er positiv definit. <br />

Eksempel 2.5 (Binomialfordelingen).<br />

Lad X være binomialfordelt med antalsparamter n og sandsynlighedsparameter θ med<br />

0 < θ < 1. Så er tætheden med hensyn til tællemålet µ givet ved<br />

<br />

dPθ n<br />

(x) = (1 − θ)n<br />

dµ x<br />

<br />

θ<br />

exp log x .<br />

1 − θ


10 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />

Dette er en eksponentiel familie med t(x) = x og ϕ(θ) = log(θ/(1 − θ)). Repræsentationen<br />

er af dimension 1, og vi vil nu vise at den er minimal. Støtten for T er<br />

{0, 1, . . . , n} og denne tilhører ikke et affint underrum af R, det vil sige at (2.5) er op-<br />

fyldt. Hvis<br />

<br />

θ<br />

c0 + c1 log = 0 ∀0 < θ < 1,<br />

1 − θ<br />

kan vi tage θ = 1/2 hvoraf følger at c0 = 0, og dernæst kan vi tage θ = 1/4 hvoraf<br />

følger at c1 = 0. Det vil sige at (2.4) er opfyldt, og vi har vist at repræsentationen er<br />

minimal. Dette eksempel er meget simpelt: hvis vi har en eksponentiel familie med en<br />

repræsentation af dimension 1, vil repræsentationen altid være minimal så længe at<br />

der er mindst to sandsynlighedsmål i familien (hvis ordenen af familien er nul vil der<br />

kun være et sandsynlighedsmål i familien). <br />

2.4 Laplace- og kumulanttransform<br />

Laplacetransformen for T = t(X) under målet ν er<br />

<br />

<br />

c(ξ) = exp(ξ · t(x))ν(dx) =<br />

Rk exp(ξ · t)νT(dt) (2.10)<br />

X<br />

for ξ ∈ R k . Domænet for c(·) er Λ = {ξ ∈ R k |c(ξ) < ∞}. Lad os definere et sandsynlighedsmål<br />

˜P ξ på X , for ξ ∈ Λ, ved<br />

d ˜P ξ<br />

dν (x) = c(ξ)−1 exp(ξ · t(x)). (2.11)<br />

Så svarer P θ i (2.1) til ˜P φ(θ) her og a(θ) = c(φ(θ)) −1 . Klassen P er givet ved<br />

P = { ˜P ξ|ξ ∈ Λ0}, Λ0 = {φ(θ)|θ ∈ Θ}.<br />

Vi har altid at Λ0 ⊆ Λ. Hvis Λ0 = Λ kaldes familien P fuld, og hvis P er fuld og Λ er<br />

åben, kaldes familien regulær. Laplacetranformen for t(X) under ˜P ξ0 er<br />

<br />

X<br />

<br />

exp(ξ · t(x)) ˜P ξ0 (dx) =<br />

X<br />

exp((ξ + ξ0) · t(x))<br />

ν(dx) =<br />

c(ξ0)<br />

Kumulanttransformen for t(X) under målet ν er defineret som<br />

κ(ξ) = ln c(ξ).<br />

Fra (2.12) har vi at kumulanttransformen af t(X) under ˜P ξ0 er<br />

κ ξ0 (ξ) = κ(ξ + ξ0) − κ(ξ0).<br />

c(ξ + ξ0)<br />

. (2.12)<br />

c(ξ0)<br />

Hvis κP er kumulanttransformen for t(X) under et sandsynlighedsmål P, kaldes de<br />

afledede af κP taget i nul for t(X)’s kumulanter. Bemærk at for kumulanttransformen af<br />

t(X) under ˜P ξ0 har vi<br />

∂kκξ0 ∂<br />

(0) =<br />

kκ (ξ0)<br />

∂ξ i1 · · · ∂ξ ik<br />

∂ξ i1 · · · ∂ξ ik


2.4. LAPLACE- OG KUMULANTTRANSFORM 11<br />

Den <strong>første</strong> og anden kumulant er henholdsvis middelværdi og varians af t(X) under<br />

P, se (2.17) og (2.18) nedenfor. For en en-dimensional variable t(X) kaldes<br />

for henholdsvis skævheden og kurtosis.<br />

κ (3)<br />

P (0)<br />

(κ ′′ ,<br />

P<br />

(0))3/2<br />

κ (4)<br />

P (0)<br />

(κ ′′<br />

P<br />

(0))2 ,<br />

Fremover vil jeg skrive P ξ for ˜P ξ, selvom dette kan give forvirring i forhold til det<br />

tidligere P θ. Vi lader E ξ betegne middelværdi mht. sandsynlighedsmålet P ξ. Desuden<br />

vil Λ blive omtalt som det fulde parameterområde for den eksponentielle familie.<br />

Sætning 2.6. Antag at t(·) opfylder (2.5). Det fulde parameterområde Λ = {ξ|c(ξ) <<br />

∞} er konvekst, og κ er strengt konveks på Λ, d.v.s. at κ(αξ1 + (1 − α)ξ2) < ακ(ξ1) +<br />

(1 − α)κ(ξ2) for alle ξ1, ξ2 ∈ Λ, ξ1 = ξ2, og alle 0 < α < 1. <br />

Bevis. Lad ξ1, ξ2 ∈ Λ. Hölders ulighed (JHJ 3.11) giver<br />

<br />

e (αξ <br />

1+(1−α)ξ2)·t(x)<br />

ν(dx) = {e ξ1·t(x) α ξ2·t(x) 1−α } {e } ν(dx)<br />

<br />

e ξ α <br />

1·t(x)<br />

ν(dx)<br />

≤<br />

e ξ2·t(x) ν(dx)<br />

1−α<br />

= c(ξ1) α c(ξ2) 1−α < ∞, (2.13)<br />

så at αξ1 + (1 − α)ξ2 ∈ Λ, d.v.s. Λ er konvekst. Tager vi logaritmen i ovenstående<br />

ulighed, fås at κ(ξ) er en konveks funktion. Der gæder lighedstegn i Hölders ulighed,<br />

hvis og kun hvis<br />

e ξ 1·t(x) = Ke ξ2·t(x) n.s. − ν,<br />

for en konstant K, og dette er ensbetydende med at ξ1 = ξ2 ifølge (2.5). <br />

Sætning 2.7. Lad ξ ∈ Λ og antag at ξ ± h ∈ Λ. Så gælder<br />

E ξ|h · t(X)| n < ∞ ∀ n ∈ N.<br />

Specielt gælder, at hvis ξ ∈ intΛ, så eksisterer alle momenter af t(X) under P ξ. <br />

Bevis. Da |y| n /n! ≤ e y + e −y for alle y ∈ R, har vi<br />

<br />

|h · t(x)| n e ξ·t(x) <br />

ν(dx) ≤ n!<br />

e (ξ+h)·t(x) <br />

ν(dx) +<br />

e (ξ−h)·t(x) <br />

ν(dx) < ∞.<br />

Hvis ξ ∈ intΛ, vil ξ ± h ∈ Λ for alle små h. Derfor har vi, at E ξ|t j(X)| n < ∞ for alle<br />

j = 1, . . . , k og alle n. Hölders ulighed giver så, at<br />

E ξ|t1(X) n 1 · · · tk(X) n k| < ∞ for alle n1, . . . , n k. (2.14)


12 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />

Sætning 2.8. Hvis ξ ∈ intΛ gælder der at<br />

∂ n c(ξ1, . . . , ξ k)<br />

∂ξ a 1<br />

1 . . . ∂ξa k<br />

k<br />

= c(ξ)E ξ {t1(X) a 1 · · · tk(X) a k}, (2.15)<br />

hvor a1 + · · · + a k = n. <br />

Bevis. Ifølge (2.14) eksisterer momenterne i (2.15). Påstanden i (2.15) kan vises ved<br />

induktion i n : Lad kuglen med centrum i ξ og radius ǫ0 være indeholdt i Λ. Antag at<br />

påstanden holder for alle a1, . . . , a k med a1 + · · · + a k = n og betragt situationen hvor<br />

vil ændre a j til a j + 1. Vi vil benytte at<br />

Så fås<br />

|e ǫt <br />

<br />

j − 1| = <br />

<br />

ǫ<br />

0<br />

∂ n+1 c(ξ1, . . . , ξ k)<br />

∂ξ a1 1 . . . ∂ξa j+1<br />

j<br />

tje ut <br />

<br />

jdu ≤ ǫ|tj|(e ǫ0tj −ǫ0t<br />

+ e j) ∀ |ǫ| < ǫ0. (2.16)<br />

. . . ∂ξ ak k<br />

= lim 1<br />

<br />

∂nc(ξ1, . . . , ξj + ǫ, . . . , ξk) −<br />

ǫ<br />

∂n <br />

c(ξ1, . . . , ξk) <br />

= lim<br />

<br />

= lim =<br />

∂ξ a 1<br />

1 . . . ∂ξa k<br />

k<br />

∂ξ a1 1 . . . ∂ξa k<br />

k<br />

t1(x) a1 · · · tk(x) ak ξ·t(x)<br />

e eǫtj(x) − 1<br />

ν(dx)<br />

<br />

ǫ<br />

t1(x) a 1 · · · tj(x) a j+1 · · · tk(x) a ke ξ·t(x) ν(dx)<br />

= c(ξ)E ξ{t1(X) a 1 · · · tj(X) a j+1 · · · tk(X) a k },<br />

hvor det andet lighedstegn er induktionsantagelsen, og det tredje lighedstegn følger af<br />

(2.16) og sætningen om domineret konvergens. <br />

Bemærkning 2.9 Bemærk at Sætning 2.8 er et eksempel på, at vi må differentiere ind<br />

under integraltegnet. <br />

Benyttes Sætning 2.8 får vi følgende vigtige relationer for ξ ∈ intΛ,<br />

τ(ξ) := Eξt(X) = ∂κ<br />

(ξ)<br />

∂ξ<br />

(2.17)<br />

V(ξ) := Varξ(t(X)) = ∂2κ ∂τ<br />

(ξ) =<br />

∂ξ∂ξ ∗ ∂ξ∗(ξ) (2.18)<br />

Desuden har vi fra Observation 2.4 at hvis t(·) opfylder (2.5) så er<br />

Var ξ(t(X)) positiv definit for ξ ∈ intΛ. (2.19)<br />

Observation 2.10 Antag at t(·) opfylder (2.5). Hvis ξ1, ξ2 ∈ intΛ og ξ1 = ξ2, så er<br />

τ(ξ1) = τ(ξ2).


2.4. LAPLACE- OG KUMULANTTRANSFORM 13<br />

Bevis.<br />

(ξ2 − ξ1) · {τ(ξ2) − τ(ξ1)} = (ξ2 − ξ1) ·<br />

=<br />

1<br />

0<br />

1<br />

0<br />

dτ(ξ1 + s(ξ2 − ξ1))<br />

ds<br />

ds<br />

(ξ2 − ξ1)V(ξ1 + s(ξ2 − ξ1))(ξ2 − ξ1) ∗ ds > 0<br />

ifølge (2.19). <br />

Eksempel 2.11 (Normalfordelingen).<br />

Lad X være normalfordelt med middelværdi µ og varians σ 2 med (µ, σ 2 ) ∈ R × R+.<br />

Så er tætheden med hensyn til lebesguemålet m givet ved<br />

dP (µ,σ2 )<br />

(x) ==<br />

dm<br />

1<br />

√ 2πσ 2<br />

µ2<br />

exp{− } exp<br />

2σ2 µ<br />

σ<br />

2σ<br />

1<br />

x − x2<br />

2 2<br />

for x ∈ R. Dette er en eksponentiel familie med t(x) = (x, x2 ) og ϕ(µ, σ2 ) = ( µ<br />

I dette tilfælde er<br />

Λ0 = R × R−,<br />

og da området har ikke tomt indre er (2.4) opfyldt. Støtten for T er<br />

{(x, x 2 )|x ∈ R},<br />

<br />

,<br />

σ2 , − 1<br />

2σ2). eftersom enhver kugle omkring (z, z 2 ) vil indeholde et interval af x-værdier, og dermed<br />

have positiv sandsynlighed. Da støtten ikke er indeholdt i et affint underrum af<br />

R 2 , er (2.5) opfyldt, og vi har vist at repræsentationen er minimal. Vi vil nu undersøge<br />

om familien er fuld. Vi skal da undersøge hvornår integralet<br />

<br />

R<br />

exp ξ1x + ξ2x 2 dx<br />

er endeligt. Hvis ξ2 ≥ 0 vil integranten gå mod uendelig for x gående mod enten +∞<br />

eller −∞ og integralet er ikke endeligt. Tilbage er området Λ0 og vi har derfor vist at<br />

Λ = Λ0, det vil sige at familien er fuld. Da Λ også er åben er familien regulær.<br />

Laplacetransformen for T under lebesguemålet er<br />

<br />

c(ξ) = exp{ξ1x + ξ2x 2 }dx<br />

R<br />

<br />

= exp<br />

=<br />

− 1<br />

4 ξ2 1 /ξ2<br />

<br />

R<br />

<br />

π/(−ξ2) exp{− 1<br />

4 ξ2 1 /ξ2}.<br />

<br />

exp ξ2 x − 1<br />

2 ξ1/(−ξ2)<br />

2 dx<br />

Kumulanttransformen er derfor κ(ξ) = − 1 4 ξ2 1 /ξ2 − 1 2 log(−ξ2/π). Fra (2.17) får vi<br />

EξX = −ξ1<br />

, EξX 2ξ2<br />

2 = ξ2 1<br />

4ξ2 −<br />

2<br />

1<br />

.<br />

2ξ2<br />

Med ξ = (ξ1, ξ2) = (µ/σ 2 , −1/(2σ 2 )) bliver formlerne<br />

E (µ,σ 2 ) X = − µ(−2σ2 )<br />

2σ 2 = µ, E (µ,σ 2 ) X2 = µ2 (4σ 4 )<br />

4σ 4<br />

−2σ2<br />

−<br />

2 = µ2 + σ 2 .


14 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />

Det er sommetider muligt at vise at en familie er fuld ved hjælp af følgende resultat.<br />

Observation 2.12 Lad Λ0 være et åbent område i R k . Hvis der for ethvert punkt ξ1 på<br />

randen af Λ0 gælder, at der eksisterer ξ0 ∈ Λ0, så at<br />

c(ξ) → ∞,<br />

for ξ → ξ1 langs liniestykket fra ξ0 til ξ1, så vil Λ0 = Λ. <br />

Bevis. Vi vil vise at c(ξ1) = ∞ for alle punkter ξ1 på randen af Λ0. Så følger det fra<br />

sætning 2.6 at Λ ikke kan være større end Λ0 (hvis ˜ξ ∈ Λ \ Λ0 så vil der, da Λ er<br />

konvekst, findes ξ1 ∈ Λ med ξ1 på randen af Λ0, men dette er en modstrid med c(ξ1) =<br />

∞). Vi laver et modstridsbevis. Antag at c(ξ1) < ∞. Så fra (2.13) har vi med ξ = αξ1 +<br />

(1 − α)ξ0, 0 < α < 1,<br />

c(ξ) ≤ c(ξ1) α c(ξ0) 1−α ≤ max{c(ξ1), c(ξ0)},<br />

hvilket er en modstrid med at c(ξ) → ∞. Altså er c(ξ1) = ∞. <br />

Observation 2.12 bruges på den måde at for ξ ∈ Λ0 har vi at ξ = ϕ(θ) for et θ ∈ Θ og<br />

dermed<br />

c(ξ) = a(θ) −1 .<br />

Hvis derfor a(θ) går mod nul for θ gående mod randen af Θ og Λ0 er åbent i R k vil<br />

familien være fuld.<br />

Det næste lemma viser at Observation 2.12 har en invers: hvis c(ξ) → ∞ for ξ<br />

gående mod randen af Λ0, så vil familien ikke være fuld.<br />

Lemma 2.13 Lad ξ /∈ Λ og lad ξn ∈ Λ med ξn → ξ for n → ∞. Så vil c(ξn) → ∞. <br />

Bevis. Da exp{ξn · t(x)} ≥ 0 siger Fatou’s lemma (JHJ 3.5) at<br />

<br />

∞ = c(ξ) = lim inf exp{ξn · t(x)}ν(dx)<br />

n<br />

<br />

≤ lim inf exp{ξn · t(x)}ν(dx)<br />

n<br />

= lim inf c(ξn),<br />

n<br />

hvilket viser resultatet. <br />

2.5 Estimation<br />

Jeg betragter i dette afsnit den fulde eksponentielle familie (2.11) med ξ ∈ Λ = {ξ|<br />

c(ξ) < ∞}, og antager at fremstillingen er minimal. For den observerede værdi t =<br />

t(x) er log likelihood funktionen<br />

l(ξ) = l(ξ; t) = ξ · t − κ(ξ), ξ ∈ Λ. (2.20)


2.5. ESTIMATION 15<br />

Sætning 2.14. Antag at den eksponentielle familie er regulær og på minimal form.<br />

Da eksisterer der ˆξ = ˆξ(t) ∈ Λ, så at log likelihood funktionen (2.20) antager sin<br />

maksimumsværdi i ˆξ, hvis og kun hvis t ∈ intCt. Da fra Sætning 2.6 l(ξ) er strengt<br />

konkav, vil for t ∈ intCt estimatet ˆξ være entydigt bestemt og være løsning til ligningen<br />

∂l(ξ)<br />

∂ξ<br />

= t − ∂κ(ξ)<br />

∂ξ<br />

= t − τ(ξ) = 0, (2.21)<br />

d.v.s. ˆξ = τ −1 (t). <br />

Bevis. Vi viser først, at t ∈ intCt medfører, at l(ξ) antager sit maksimum på Λ. Vi<br />

bruger et modstrids bevis. Antag at l(ξn) er voksende, hvor ξn ∈ Λ og ξn går mod<br />

randen af Λ. Hvis følgen ξn er begrænset, kan vi tage en delfølge {nk}, så at ξn → k<br />

˜ξ /∈ Λ. Det følger af Lemma 2.13, at c(ξn ) → ∞ da c( k ˜ ξ) = ∞, og dermed fra (2.20),<br />

at l(ξn ) → −∞, hvilket er en modstrid. Hvis i stedet følgen ξn er ubegrænset, kan vi<br />

k<br />

tage en delfølge på formen ξn = u k kek, hvor ek er en enhedsvektor i Rk med ek → e, og<br />

uk → ∞. Så giver Fatou’s lemma<br />

lim inf e<br />

k<br />

−l(ξn<br />

<br />

)<br />

k = lim inf e<br />

k<br />

ukek·(t(x)−t) ν(dx)<br />

<br />

≥ lim inf e<br />

k<br />

ukek·(t(x)−t) ν(dx)<br />

≥ ∞ · ν({x : e · (t(x) − t) > 0} = ∞,<br />

hvor det sidste lighedstegn følger af, at t ∈ intCt. Altså har vi igen at l(ξn k ) → −∞, og<br />

dermed en modstrid.<br />

Vi skal nu vise, at hvis t /∈ intCt, så antager l(ξ) ikke sit maksimum på Λ. Vi vil<br />

vise, at for ethvert ξ0 ∈ Λ findes der en retning e , så at når vi forlader ξ0 i e’s retning<br />

vokser l(ξ). Da t /∈ intCt findes der en enhedsvektor e, så at<br />

Derfor vil<br />

ν({x|e · (t(x) − t)) > 0} = 0.<br />

e −l(ξ0+λe)<br />

<br />

=<br />

e λe·(t(x)−t) e ξ0·(t(x)−t) ν(dx) (2.22)<br />

være aftagende i λ > 0. Den strenge konkavitet af l(ξ) giver, at (2.22) er strengt aftagende,<br />

og l(ξ) har derfor ikke maksimum i ξ0. <br />

Bemærkning 2.15 Bemærk at Sætning 2.14 viser, at i en regulær familie på minimal<br />

form, er<br />

τ(Λ) = intCt, (2.23)<br />

eftersom τ(ξ) = t medfører at l(·; t) har maksimum i ξ. Fra Observation 2.10 har vi<br />

altså, at τ(·) er en en-til-en afbildning af Λ på intCt. Da τ fra Sætning 2.8 er uendelig<br />

ofte differentiabel, gælder det samme for ˆξ(·) = τ −1 (·) : intCt → Λ. <br />

Den næste sætning angiver jeg uden bevis.<br />

Sætning 2.16. For en fuld eksponentiel familie med minimal repræsentation (2.11)<br />

gælder at


16 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />

(i) t ∈ intCt ⇒ l(ξ; t) har entydigt bestemt maksimumspunkt ˆξ(t),<br />

(ii) t /∈ intCt ⇒ l(ξ; t) antager ikke sit supremum for ξ ∈ Λ ,<br />

(iii) t ∈ τ(intΛ) ⊆ intCt ⇒ ˆξ(t) er den entydigt bestemte løsning til ligningen τ(ξ) =<br />

t, med ξ ∈ intΛ. <br />

Bemærk at hvis t ∈ intCt\τ(intΛ), så skal det entydigt bestemte ˆξ(t) findes på randen<br />

af Λ. <strong>Et</strong> eksempel til belysning af situationen i Sætning 2.16 er tætheden<br />

1<br />

exp(−|x| + θx − κ(θ)),<br />

1 + x4 hvor Ct er hele R og τ(int Λ) er et endeligt interval.<br />

Jeg slutter dette afsnit med at se på situationen med n uafhængige og identisk fordelte<br />

variable X1, . . . , Xn, hvor fordelingen tilhører den eksponentielle familie (2.11).<br />

Den simultane tæthed er<br />

dPn ξ<br />

dνn (x1, . . . , xn) = c(ξ) −n <br />

exp ξ · t(xi) ,<br />

d.v.s. at vi har igen en eksponentiel familie af orden k idet :<br />

Observation 2.17 Hvis 1, t1(x), . . . , t k(x) er lineært uafhængige n.s.−ν, så er også 1,<br />

∑ n 1 t1(x i), . . . , ∑ n 1 t k(x i) lineært uafhængige n.s.−ν n . <br />

Bevis.<br />

⇓<br />

⇓<br />

n<br />

c0 + c1 ∑<br />

1<br />

t1(x i) + · · · + c k<br />

n<br />

∑<br />

1<br />

n<br />

∑<br />

1<br />

t k(x i) = 0 n.s. − ν n<br />

∃ x2, . . . , xn så at der n.s-ν mht. x1 gælder:<br />

n<br />

n <br />

c0 + c1 t1(xi) + · · · + ck tk(xi) + c1t1(x1) + · · · + cktk(x1) = 0<br />

∑ 2<br />

∑ 2<br />

c k = · · · = c1 = c0 = 0. <br />

Log likelihood funktionen er<br />

ln(ξ) = ξ ·<br />

n<br />

∑<br />

1<br />

t(x i) − nκ(ξ) = nl(ξ; ¯t)<br />

med ¯t = ∑ t(x i)/n, og hvor l(ξ; t) er givet i (2.19). Estimation baseret på x1, . . . , xn er<br />

derfor som før med t erstattet af ¯t, og resultaterne fra Sætningerne 2.14 og 2.16 kan<br />

bruges.


2.6. MARGINALE OG BETINGEDE FORDELINGER 17<br />

Eksempel 2.18 (Normalfordelingen).<br />

I eksempel 2.11 så vi at normalfordelingerne med middelværdi µ og varians σ 2 med<br />

(µ, σ 2 ) ∈ R × R+ udgør en regulær eksponentiel familie. Den kanoniske observator er<br />

t(x) = (x, x 2 ) og støtten for T er<br />

Den konvekse støtte for T er derfor<br />

{(x, y) ∈ R 2 |y = x 2 }.<br />

Ct = {(x, y) ∈ R 2 |y ≥ x 2 }.<br />

Da ethvert punkt (x, x 2 ) er på randen af Ct vil maksimum likelihood estimaterne for<br />

(µ, σ 2 ) eller ξ = (µ/σ 2 , −1/(2σ 2 ) ikke eksistere når vi blot har én observation. Når vi<br />

istedet har n > 1 observationer x1, . . . , xn eksisterer maksimum likelihood estimaterne<br />

med sandsynlighed 1. Dette er fordi<br />

1<br />

n<br />

n<br />

∑<br />

i=1<br />

(x i, x 2 i<br />

1<br />

) =<br />

n (x1, x 2 1<br />

1 ) + · · · +<br />

n (xn, x 2 n) ∈ int Ct<br />

hvis der blot er to observationer der er forskellige. Udsagnet følger af at x → x 2 er en<br />

strengt konveks kurve og derfor vil en konveks kombination af forskellige punkter på<br />

denne kurve ikke ligge på kurven. <br />

2.6 Marginale og betingede fordelinger<br />

Vi betragter igen en fuld eksponentiel familie med minimal repræsentation (2.11). Lad<br />

ξ = (ξ (1) , ξ (2) ) og t(x) = (t (1) (x), t (2) (x)) være en opsplitning i de <strong>første</strong> m og de sidste<br />

(k − m) koordinater med 1 ≤ m < k. Hvad kan vi sige om de marginale fordelinger<br />

for t (2) (X) og de betingede fordelinger af t (1) (X) givet t (2) (X)?<br />

Observation 2.19 Der gælder generelt følgende formel for marginale tætheder<br />

<br />

dQU<br />

dQ<br />

(u) = EP (X) | U = u .<br />

dPU<br />

dP<br />

Bevis. Se afsnit 11.4. <br />

Benyttes denne for den marginale tæthed for t (2) (X) fås<br />

dP ξT (2)<br />

dP ξ0T (2)<br />

(v) = E ξ0<br />

= c(ξ0)<br />

c(ξ) E ξ0<br />

dPξ<br />

dP ξ0<br />

<br />

exp<br />

(X) | t (2) <br />

(X) = v<br />

<br />

(ξ (1) − ξ (1)<br />

0 ) · t(1) (X)<br />

<br />

| t (2) <br />

(X) = v exp<br />

(ξ (2) − ξ (2)<br />

0<br />

<br />

(2.24)<br />

<br />

) · v .<br />

Hvis vi ser på delklassen P0 = {P ξ|ξ ∈ Λ0} med Λ0 = {(ξ (1) , ξ (2) )|ξ (1) = ξ (1)<br />

0 }, er<br />

(2.24) på formen (2.1), og de marginale fordelinger af t (2) (X) udgør en ekponentiel<br />

familie P 0T (2).


18 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />

Hvis P er fuld, er P 0T (2) også fuld, idet<br />

<br />

exp[α · v]P ξ0T (2)(dv) = Eξ0 exp[α · t(2) (X)] = Eξ0 exp[0 · t(1) (X) + α · t (2) (X)]<br />

som er endelig, hvis og kun hvis (0, α) = ξ − ξ0 for et eller andet ξ ∈ Λ, d.v.s. α = ξ (2) −<br />

ξ0 (2) for ξ ∈ Λ, og vi får netop klassen P 0T (2). Hvis Λ er åben, er {α|ξ0 + (0, α) ∈ Λ} en<br />

åben mængde i R k−m , d.v.s. hvis P er regulær, er P 0T (2) også regulær.<br />

Vi vender os nu mod de betingede fordelinger.<br />

Observation 2.20 Lad P og Q være to sandsynlighedsmål på (X , A) med Q ≪ P. Lad<br />

(Y, B) være et andet målrum og lad t : X → Y være en målelig afbildning. Definer<br />

f(x) = dQ<br />

<br />

(x), g(t) =<br />

dP<br />

Så gælder der at Q T (·|t) ≪ P T (·|t) og<br />

dQ(·|t)<br />

(x) =<br />

dP(·|t)<br />

f(x)P T (dx|t), D = {t|0 < g(t) < ∞}.<br />

⎧<br />

⎨<br />

f(x)<br />

g(t)<br />

t ∈ D<br />

⎩<br />

1 t /∈ D.<br />

Bemærk at PT({t|g(t) = ∞}) = 0 og dermed også QT({t|g(t) = ∞}) = 0. Desuden<br />

har vi fra Observation 2.19 også at QT({t|g(t) = 0}) = 0. Vi har altså at QT(D c ) = 0. <br />

Bevis. Se afsnit 11.4. <br />

Eksempel 2.21.<br />

Lad Q være fordelingen for (X1, . . . , Xn), hvor X-erne er uafhængige og<br />

Q(X i = 1) = 1 − Q(X i = 0) = θ,<br />

og lad P være den tilsvarende fordeling med θ = 1/2. Med U + X1 + · · · + Xn er<br />

og<br />

Fra Observation 2.20 får vi<br />

dQ(·|U = u)<br />

(x) =<br />

dP(·|U = u)<br />

dP<br />

d♯n(x) =<br />

<br />

1<br />

n ,<br />

2<br />

dQ<br />

d♯ n(x) = θu (1 − θ) n−u ,<br />

dQ<br />

dP (x) = 2n θ u (1 − θ) n−u .<br />

2 n θ u (1 − θ) n−u<br />

EP(2 n θ u (1 − θ) n−u |U = u) =<br />

2 n θ u (1 − θ) n−u<br />

2 n θ u (1 − θ) n−u EP(1|U = u)<br />

hvilket viser at den betingede fordeling af (X1, . . . , Xn) givet U = u er den samme<br />

uanset værdien af θ. <br />

= 1,


2.7. KOMPLETHED AF DEN MINIMALKANONISKE OBSERVATOR 19<br />

For den betingede fordeling af X givet t (2) (X) = u får vi<br />

dP ξ(·|t (2) (X) = u)<br />

dP ξ0 (·|t(2) (X) = u) =<br />

=<br />

e (ξ−ξ0)·t(x)<br />

E ξ0 (e(ξ−ξ0)·t(X) |t (2) (X) = u)<br />

e (ξ(1) −ξ (1)<br />

0 )·t(1) (x)<br />

E ξ0 (e(ξ(1) −ξ (1)<br />

0 )·t(1) (x) |t (2) (X) = u)<br />

For en fast værdi af u udgør de betingede fordelinger således en eksponentiel familie.<br />

Denne betingede familie er ikke nødvendigvis fuld, selvom P er fuld.<br />

Ovenfor betragtede vi de <strong>første</strong> m og sidste k − m koordinater i ξ og t(x). Generelt<br />

kan vi lade A2 være en k × (k − m) matrix af fuld rang k − m. Denne supplerer vi med<br />

A1 : k × m så at<br />

A = (A1, A2)<br />

er en invertibel k × k matriks. Da<br />

ξ · t(x) = ξt(x) ∗ = [ξA ∗−1 ][t(x)A] ∗ ,<br />

kan vi opskrive P som en eksponentiel familie med minimal kanonisk observator<br />

˜t(x) = t(x)A og minimal kanonisk parameter ˜ξ = ξA ∗−1 . Vi har derfor:<br />

Sætning 2.22. Lad P være en regulær familie og lad A være som ovenfor. Så udgør<br />

de marginale fordelinger for ˜t (2) (X) = t(X)A2 i delmodellen med ˜ξ (2) fast en regulær<br />

eksponentiel familie. <br />

Bemærkning 2.23 Hvis vi betragter en delmodel givet ved {P ξ|ξ ∈ ˜Λ}, hvor ˜Λ ⊂ Λ<br />

er åben, vil det kanoniske parameterområde for de marginale fordelinger af t(X)A2<br />

under ˜ξ (2) fast også være åben. Når det kanoniske parameterområde er åbent taler vi<br />

om en åben eksponentiel familie. <br />

2.7 Komplethed af den minimalkanoniske observator<br />

For en general klasse P af sandsynlighedsmål på målrummet (X , A), og en generel<br />

observator t : (X , A) → (Y, B) med værdier i målrummet (Y, B), skal jeg nu definere<br />

komplethed. Intuitivt skal vi formalisere, at klassen P er stor nok til, at en funktion er<br />

entydigt fastlagt ud fra dens middelværdier under P, P ∈ P.<br />

Observatoren T = t(X) siges at være komplet under P (henholdsvis begrænset komplet)<br />

hvis der for enhver funktion f : (Y, B) → (R, B(R)) (henholdsvis enhver begrænset<br />

funktion) med<br />

<br />

EP f(T) = f(t(x))P(dx) = 0 ∀ P ∈ P,<br />

gælder at<br />

f(t(x)) = 0 n.s. − P for alle P ∈ P.<br />

Observation 2.24 Hvis T er komplet så er T også begrænset komplet. <br />

Observation 2.25 Hvis T er komplet så er også ˜T = g(T) komplet, hvor g er en målelig<br />

afbildning fra Y til ˜Y.


20 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />

Bevis. Antag at EP f( ˜T) = EP f(g(T)) = 0 for alle P ∈ P. Heraf følger at f(g(t(x))) =<br />

f(˜t(x)) = 0 n.s.-P for alle P ∈ P. <br />

Sætning 2.26. Lad P = {P ξ|ξ ∈ Λ0} være en eksponentiel familie på minimal form<br />

dPξ<br />

dµ (x) = a(ξ)b(x)eξ·t(x) , x ∈ X , ξ ∈ Λ0 ⊆ R k .<br />

Vi antager ikke her, at Λ0 er det fulde parameter område. Hvis intΛ0 = ∅, er T = t(X)<br />

komplet under P = {P ξ|ξ ∈ Λ0}. <br />

Bevis. Lad ξ0 ∈ Λ0 og lad f : Rk → R opfylde<br />

<br />

0 = a(ξ)b(x)e ξ·t(x) f(t(x))µ(dx) = a(ξ)<br />

<br />

a(ξ0)<br />

e (ξ−ξ0)·t(x) f(t(x))Pξ0 (dx), (2.25)<br />

for alle ξ ∈ Λ0. Lad f + (t) = f(t)1( f(t) > 0) og f − (t) = − f(t)1( f(t) < 0), og definer<br />

de to mål ν + og ν − på (R k , B(R k )) ved<br />

dν +<br />

dP ξ0T<br />

(t) = f + (t) og dν−<br />

(t) = f<br />

dPξ0T − (t).<br />

Disse to mål er endelige, idet f er Pξ-integrabel for alle ξ ∈ Λ0. Så viser (2.25), at<br />

<br />

e (ξ−ξ0)·t<br />

<br />

+<br />

ν (dt) = e (ξ−ξ0)·t −<br />

ν (dt) ∀ ξ ∈ Λ0.<br />

Denne ligning siger, at Laplacetransformerne for de to mål ν + og ν − stemmer overens<br />

på Λ0 − ξ0. Da int(Λ0 − ξ0) = ∅ følger det af JHJ, afsnit 4.19, at ν + = ν − . Dette giver<br />

til gengæld, at<br />

f + (t) = f − (t) n.s. − P ξ0T,<br />

og dermed fra definitionen af f + og f − , at<br />

Observationen 2.2 giver så, at<br />

f(t) = 0 n.s. − P ξ0T.<br />

f(t(x)) = 0 n.s. − P ξ for alle ξ ∈ Λ0. <br />

Eksempel 2.27.<br />

Lad X være binomialfordelt med antalsparameter n og sandsynlighedsparameter θ. Så<br />

siger sætningen ovenfor at hvis<br />

E θ f(X) = 0 ∀ 0 < θ < 1,<br />

så vil der gælde at f(0) = f(1) = · = f(n) = 0. Lad os vise dette direkte. Vi har altså<br />

at<br />

<br />

θ x (1 − θ) n−x = 0<br />

n <br />

n<br />

∑ f(x)<br />

x<br />

x=0<br />

for alle θ. Lader vi nu θ → 0 forsvinder alle led i summen pånær det <strong>første</strong>, som bliver<br />

f(0). Vi kan altså slutte at f(0) = 0. Vi dividerer nu ligningen ovenfor med θ og lader<br />

igen θ → 0. Dette giver os at f(1) = 0, og sådan fortsætter vi indtil vi har vist at f er<br />

identisk nul.


2.8. OPGAVER 21<br />

2.8 Opgaver<br />

Opgave 2.1<br />

Opskriv hver af familierne nedenfor på eksponentiel familieform. Angiv støtten for<br />

den kanoniske observator T, den konvekse støtte Ct, samt variationsområdet Λ0 for<br />

den kanoniske parameter og det fulde parameterområde Λ. Udregn desuden middelværdi<br />

og varians for den kanoniske observator.<br />

a) Binomialfordelingerne med antalsparameter n fast og sandsynlighedsparameter<br />

0 < θ < 1.<br />

b) Poissonfordelingerne med parameter λ > 0. Find i dette tilfælde også skævhed<br />

og kurtosis af en poissonfordelt variabel.<br />

c) Normalfordelingerne med middelværdi µ og varians σ 2 med (µ, σ 2 ) ∈ R × R+.<br />

d) Gammafordelingerne med formparameter λ og invers skalaparameter β med<br />

(λ, β) ∈ R 2 + .<br />

Opgave 2.2<br />

Find det fulde parameterområde Λ for den eksponentielle familie med tætheder<br />

i tilfældene<br />

Her er m Lebesguemålet på R.<br />

dP ξ<br />

dm (x) = a(ξ)b(x)eξx , x ∈ R,<br />

(i) b(x) = e −|x| og (ii) b(x) = e−|x|<br />

.<br />

1 + x2 Opgave 2.3<br />

Betragt en eksponentiel familie på formen (2.1) med t(x) ∈ R k . Vis, at hvis støtten for<br />

T er begrænset, og familien er ikke tom, så er det fulde parameterområde Λ lig med<br />

R k .<br />

Opgave 2.4<br />

Denne opgave er en hjælp til jer, når I skal vise affin uafhængighed næsten sikkert.<br />

Lad (X , A, µ) være et metrisk målrum, hvor målet µ giver strengt positivt mål til<br />

enhver åben kugle. Lad desuden t1, . . . , t k være kontinuerte funktioner fra X ind i R.<br />

Vis, at hvis t1(·), . . . , t k(·) er affint uafhængige som funktioner på X , så er de også<br />

affint uafhængige næsten sikkert med hensyn til µ.<br />

Vink: Lad (α0, . . . , α k) = 0. Så findes x0 ∈ X , så at α0 + α1t1(x0) + · · · + α kt k(x0) = 0.<br />

Overvej, at<br />

{x ∈ X |α0 + α1t1(x) + · · · + α kt k(x) = 0}<br />

er en åben og ikke-tom mængde, og dermed har positivt µ-mål.


22 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />

Opgave 2.5<br />

Denne opgave viser, at den minimal kanoniske observator kan være komplet, selv om<br />

det indre af det kanoniske paramterområde er tomt.<br />

Lad X og Y være uafhængige og Poissonfordelte med EX = θ −1 og EY = exp(−θ),<br />

hvor parameteren θ varierer i R+. Vis, at dette er en eksponentiel familie af orden 2<br />

med kanonisk observator t(x, y) = (x, y) og kanonisk parameter (− ln θ, −θ). Vis, ved<br />

direkte undersøgelser, at (X, Y) er komplet.<br />

Vink: Hvis E θ f(X, Y) = 0 for alle θ, vis da først at f(0, 0) = 0 ved at lade θ → ∞,<br />

dernæst f(k, 0) = 0 for alle k > 0, og endelig at f(k, l) = 0 for alle k > 0 og l > 0.<br />

Opgave 2.6<br />

Betragt en eksponentiel familie på minimal form<br />

dP θ<br />

dµ (x) = a(θ)b(x)eϕ(θ)·t(x) ,<br />

hvor ϕ : Θ → R k og Θ er et åbent område i R k . Vis at<br />

og<br />

E θt(X) = τ(ϕ(θ)) =<br />

V θt(X) =<br />

∂(− ln a(θ))<br />

∂θ<br />

∂ϕ ∗<br />

<br />

∂ϕ<br />

∂θ∗ −1 ∂Eθt(X)<br />

∂θ∗ .<br />

Opgave 2.7<br />

Lad (X1, Y1), (X2, Y2), . . . , (Xn, Yn) være n uafhængige observationer fra den todimensionale<br />

normalfordeling med middelværdivektor (0, 0) og variansmatrix<br />

<br />

1 ρ<br />

ρ 1<br />

∂θ<br />

−1<br />

hvor korrelationskoefficienten ρ har intervallet (−1, 1) som variationsområde.<br />

1) Vis at den således fastlagte familie af fordelinger for samplet (X1, Y1), . . . , (Xn, Yn)<br />

er eksponentiel, bestem ordenen af denne eksponentielle familie, og angiv en<br />

minimal kanonisk observator og en minimal kanonisk parameter. Er familien<br />

fuld?<br />

2) Opstil likelihoodligningen for ρ.<br />

Opgave 2.8<br />

Antag, at X−1 og X1 er uafhængige og Poissonfordelte med middelværdi<br />

λ i = 1 2 eα+iβ , i = −1 og 1.<br />

Lad P = {P (α,β) : (α, β) ∈ R 2 } betegne klassen af fordelinger for X = (X−1, X1).


2.8. OPGAVER 23<br />

1) Vis, at P er en regulær eksponentiel familie af orden 2.<br />

2) Angiv definitionsområdet D for maximum likelihood estimatoren (ˆα, ˆ β) og vis,<br />

at hvis x ∈ D, så er<br />

<br />

ˆα(x) = ln 2 <br />

X−1X1<br />

og<br />

ˆβ(x) = ln<br />

<br />

X1<br />

X−1<br />

3) Vis, at informationsfunktionen svarende til observationen (x−1, x1) er<br />

4) Lad<br />

j(α, β) =<br />

<br />

e α cosh(β) e α sinh(β)<br />

e α sinh(β) e α cosh(β)<br />

.<br />

<br />

.<br />

τ = e α cosh(β) (= E (α,β)(X−1 + X1)).<br />

Vis, at P kan parametriseres ved (τ, β) samt at variationsområdet for (τ, β) er<br />

(0, ∞) × (−∞, ∞).<br />

Opgave 2.9(Den logaritmiske fordeling)<br />

Definer sandsynlighedsmålet P θ, 0 < θ < 1, på X = {1, 2, . . .} ved<br />

dPθ θx<br />

(x) = (− log(1 − θ))−1<br />

d♯ x ,<br />

hvor ♯ er tællemålet. Opskriv familien på eksponentiel familieform. Angiv støtten for<br />

den kanoniske observator T, den konvekse støtte Ct, samt variationsområdet Λ0 for<br />

den kanoniske parameter og det fulde parameterområde Λ. Udregn desuden middelværdi<br />

og varians for den kanoniske observator.<br />

Opgave 2.10(Den negative binomialfordeling)<br />

Definer sandsynlighedsmålet Pθ, 0 < θ < 1, på X = {0, 1, 2, . . .} ved<br />

<br />

dPθ κ + x − 1<br />

(x) =<br />

θ<br />

d♯ x<br />

x (1 − θ) κ ,<br />

hvor ♯ er tællemålet og κ > 0 er en fast parameter. Opskriv familien på eksponentiel familieform.<br />

Angiv støtten for den kanoniske observator T, den konvekse støtte Ct, samt<br />

variationsområdet Λ0 for den kanoniske parameter og det fulde parameterområde Λ.<br />

Udregn desuden middelværdi og varians for den kanoniske observator.<br />

Opgave 2.11(Den inverse gauss fordeling)<br />

Definer sandsynlighedsmålet P (χ,ψ), (χ, ψ) ∈ R 2 + , på X = R+ ved<br />

dP (χ, ψ)<br />

(x) =<br />

dm<br />

√ χ exp( √ χψ)<br />

√ 2πx 3<br />

<br />

exp − χ<br />

2x<br />

<br />

ψx<br />

− ,<br />

2


24 KAPITEL 2. EKSPONENTIELLE FAMILIER<br />

hvor m er lebesguemålet. Opskriv familien på eksponentiel familieform. Angiv støtten<br />

for den kanoniske observator T, den konvekse støtte Ct, samt variationsområdet<br />

Λ0 for den kanoniske parameter og det fulde parameterområde Λ. Udregn desuden<br />

middelværdi og varians for den kanoniske observator.


Kapitel 3<br />

Sufficiens<br />

3.1 Indledning og definition<br />

Når data i et forsøg er indsamlet, vil man naturligt stille sig spørgsmål som “Hvad<br />

er de væsentlige træk i data?” og “Hvor er informationen om de ukendte aspekter i<br />

de forhold, der undersøges?” Med andre ord vil vi gerne reducere et stort og uoverskueligt<br />

datamateriale til nogle få interpretérbare størrelser. Som nævnt i indledningen<br />

betragter vi i dette notesæt udelukkende parametriske modeller. Vores udgangspunkt<br />

er altså, at vi har valgt en parametrisk model til at beskrive forsøget, og vi ønsker nu<br />

at undersøge hvilke reduktioner i data, vi kan udføre uden at miste information om<br />

den ukendte parameter. Hvis data er x , og T = t(x) er en reduktion af data, vil vi formalisere<br />

at T er sufficient for parameteren ved at forlange, at den betingede fordeling<br />

af X givet t(X) = t ikke afhænger af den ukendte parameter. Ideen er, at vi altid kan<br />

betragte forsøget som bestående af to trin: i <strong>første</strong> trin observeres T = t og dernæst<br />

observeres x fra den betingede fordeling af X givet T = t. Det sidste trin giver ingen<br />

information om parameteren, eftersom sandsynlighederne for de forskellige udfald er<br />

de samme for alle parameterværdierne. Man kan sige, at denne begrundelse bygger på<br />

et ikke nærmere specificeret selvvalgt princip for inferens, og lad mig derfor påpege, at<br />

de forskellige optimalitetsegenskaber, vi skal betragte, medfører, at vi kan nøjes med<br />

at betragte en sufficient reduktion af data. Som et simpelt eksempel kan jeg nævne, at<br />

maksimum likelihood estimatet kun afhænger af data gennem en sufficient observator.<br />

Når først begrebet “en sufficient observator” er indført, melder der sig to oplagte<br />

spørgsmål. Det ene er, hvordan vi afgør, at en given observator er sufficient? Vi skal<br />

afklare dette spørgsmål gennem den såkaldte faktoriseringssætning. Denne siger, at hvis<br />

tætheden for x er et produkt af to led, hvor det ene ikke afhænger af parameteren<br />

og det andet kun afhænger af x gennem t(x), så er T sufficient. Det andet spørgsmål<br />

går på, om vi kan finde en minimal sufficient observator? Altså forsøge at finde den<br />

størst mulige reduktion af data. Svaret her er - løst sagt - at likelihoodfunktionen er en<br />

minimal sufficient observator.<br />

Jeg giver nu den matematiske definition på en sufficient observator. Det basale udfaldsrum<br />

er målrummet (X , A). Den statistiske model består af en klasse P af sandsynlighedsmål<br />

på (X , A). Lad (Y, B) være et andet målrum og lad t : X → Y være en<br />

målelig afbildning.<br />

25


26 KAPITEL 3. SUFFICIENS<br />

Definition 3.1 Antag at der for ethvert P ∈ P eksisterer en regulær betinget sandsynlighed<br />

PT (A|t), A ∈ A , t ∈ Y, af P givet T. Lad P0 være et vilkårligt element i P.<br />

Observatoren T kaldes sufficient for P hvis PT 0 (·|·) er en regulær betinget sandsynlighed<br />

af P givet T for ethvert P ∈ P, d.v.s.<br />

<br />

B<br />

P T 0 (A|t)PT(dt) = P(A ∩ t −1 (B)), ∀ A ∈ A, ∀ B ∈ B, ∀ P ∈ P. (3.1)<br />

Regulære betingede sandsynligheder er betingede sandsynligheder P T (·|·) af P givet<br />

T, som opfylder<br />

(i) P T (·|t) er et sandsynlighedsmål på X for alle t ∈ Y,<br />

(ii) P T (A|·) er målelig for alle A ∈ A,<br />

(iii) <br />

B PT (A|t)PT(dt) = P(A ∩ t −1 (B)) ∀ A ∈ A, ∀ B ∈ B.<br />

Formuleret sprogligt siger definition 3.1, at alle de regulære sandsynligheder P T (·|·),<br />

P ∈ P, er identiske. For at gøre notationen mere overskuelig vil jeg ofte betegne<br />

den fælles betingede sandsynlighed med π(A|t), hvor så ifølge (i) og (ii) π(·|·) er en<br />

Markovkerne. Jeg vil også ofte skrive P(A|T = t) i stedet for P T (A|t).<br />

Jeg antager i hele dette kapitel, at regulære betingede sandsynligheder eksisterer,<br />

og nævner det derfor ikke eksplicit i det følgende. Det er vist for nylig, at regulære<br />

betingede sandsynligheder eksisterer i næsten alle situationer, og jeg vil derfor ikke<br />

her komme ind på de nødvendige regularitetsbetingelser. I opgave 3.2 og 3.3 er det<br />

beskrevet hvordan den generelle definition på en regulær betinget sandsynlighed passer<br />

sammen med mere velkendte definitioner i specialtilfælde. Intuitivt forventer vi<br />

generelt at P T (T = t|t) = 0. I JHJ 10.3 er det imidlertid vist at dette ikke altid holder.<br />

Vi må forlange at grafen {(x, t(x)|x ∈ X } tilhører produkt sigma-algebraen A × B.<br />

Ifølge JHJ opgave 1.83, 1.84, og 1.89 vil dette være opfyldt hvis Y er et metrisk rum<br />

med en tællelig tæt mængde og B er Borel sigma-algebraen. Specielt er vores intuitive<br />

fornemmelse at P T (T = t|t) = 0 altså korrekt, hvis t afbilder ind i R k .<br />

Jeg har i afsnit 11.3, 11.4 og 11.5 skrevet nogle vigtige resultater ned for betingede<br />

middelværdier og betingede sandsynligheder.<br />

3.2 Tilfældet med diskret udfaldsrum X<br />

Når udfaldsrummet X er diskret, er det nemt at angive de betingede sandsynligheder:<br />

⎧<br />

⎪⎨<br />

P(X=x)<br />

P(T=t)<br />

P(X = x|T = t) =<br />

⎪⎩<br />

0<br />

hvis P(T = t) > 0 og t(x) = t<br />

hvis t(x) = t<br />

hvis P(T = t) = 0 og t(x) = t<br />

(3.2)<br />

qt<br />

hvor qt er en vilkårlig sandsynlighed med ∑x qt(x) = 1. Det er derfor nemt at angive<br />

om en observator T er sufficient eller ej.


3.3. DET GENERELLE TILFÆLDE 27<br />

Sætning 3.2. (Faktoriseringssætningen i det diskrete tilfælde)<br />

Observatoren T er sufficient for P, hvis og kun hvis der eksisterer en funktion h : X →<br />

R og for ethvert P ∈ P eksisterer en funktion gP : Y → R, så at<br />

Bevis. Hvis (3.3) er opfyldt, vil<br />

og<br />

P(X = x) = gP(t(x))h(x) ∀ x ∈ X . (3.3)<br />

<br />

P(T = t) = gP(t)H(t), hvor H(t) = ∑<br />

z:t(z)=t<br />

h(z),<br />

⎧<br />

⎨ h(x)/H(t) hvis t(x) = t og H(t) > 0<br />

P(X = x|T = t) = 0<br />

⎩<br />

qt(x)<br />

hvis t(x) = t<br />

hvis H(t) = 0, og t(x) = t<br />

som ikke afhænger af P, og T er derfor sufficient.<br />

Omvendt, hvis den betingede sandsynlighed i (3.2) ikke afhænger af P, og lad os<br />

betegne den med π(x|t), så fås<br />

P(X = x) = P(T = t(x))π(x|t(x)),<br />

som er på formen (3.3). <br />

3.3 Det generelle tilfælde<br />

Jeg vil nu betragte et generelt målrum (X , A) og en klasse P af sandsynlighedsmål,<br />

som er domineret af et σ-endeligt mål µ , d.v.s. P ≪ µ for alle P ∈ P. Lad os først<br />

registrere at µ er ækvivalent med et sandsynlighedsmål.<br />

Lemma 3.3 Der eksisterer en målelig funktion ϕ fra X ind i R med ϕ(x) > 0 og<br />

d ˜µ<br />

ϕ(x)µ(dx) = 1. Målet ˜µ defineret ved dµ (x) = φ(x) er således et sandsynlighedsmål<br />

ækvivalent med µ. <br />

Bevis. Da µ er σ-endeligt eksisterer der en følge An ∈ A, n = 1, . . ., (eventuelt endelig)<br />

der vokser op mod X med µ(An) < ∞. Vi kan antage at An ⊂ An+1 og µ(Cn) > 0 med<br />

Cn = An\An−1 og C1 = A1. Vi definerer da<br />

ϕ(x) =<br />

∞<br />

∑ anµ(Cn)<br />

1<br />

−1 1Cn (x),<br />

hvor an er positive tal med ∑ ∞ 1 an = 1. Denne funktion har de ønskede egenskaber. <br />

Sætning 3.4. (Faktoriseringssætningen generelt)<br />

Lad P være domineret af det σ -endelige mål µ. Så er T sufficient, hvis og kun hvis der<br />

eksisterer en målelig funktion k : X → R og for ethvert P ∈ P en målelig funktion<br />

gP : Y → R, så at<br />

dP<br />

dµ (x) = gP(t(x))k(x). (3.4)


28 KAPITEL 3. SUFFICIENS<br />

Bevis. Vi viser først at (3.4) medfører at T er sufficient. Lad ˜µ være sandsynlighedsmålet<br />

fra Lemma 3.3. Så siger antagelsen (3.4) at<br />

dP<br />

d ˜µ (x) = gP(t(x)) ˜ k(x), k(x) ˜<br />

k(x)<br />

= . (3.5)<br />

φ(x)<br />

Vi vil vise at T er sufficient ved at konstruere en markovkerne og vise at denne kan<br />

bruges som betinget sandsynlighed givet T under P for ethvert P ∈ P.<br />

Definer<br />

<br />

h(t) = ˜k(x) ˜µ T (dx|t), D = {t|0 < h(t) < ∞}.<br />

Fra Observation 2.17 og (3.5) har vi<br />

<br />

dPT<br />

(t) = gP(t(x))<br />

d ˜µT<br />

˜ k(x) ˜µ T (dx|t) = gP(t)h(t),<br />

og<br />

PT(D c <br />

) =<br />

Dc gP(t)h(t) ˜µT(dt) = 0,<br />

da integralet vil være enten 0 eller uendelig, men sandsynligheden skal være mindre<br />

end eller lig med 1. Definer nu<br />

f(x|t) =<br />

<br />

˜k(x)<br />

h(t)<br />

t ∈ D<br />

1 t /∈ D,<br />

<br />

F(A|t) =<br />

A<br />

f(x|t) ˜µ T (dx|t).<br />

Så er F en markovkerne og denne vil være vores kandidat til den fælles betingede<br />

sandsynlighed for P ∈ P. Da<br />

<br />

F(A|t)PT(dt) =<br />

B<br />

<br />

(11.1) =<br />

<br />

=<br />

B∩D<br />

<br />

<br />

A<br />

˜k(x)<br />

h(t) ˜µT <br />

(dx|t) gP(t)h(t) ˜µT(dt)<br />

1B∩D(t(x))1A(x)gP(t(x)) ˜ k(x) ˜µ(dx)<br />

1B∩D(t(x))1 A(x)P(dx)<br />

= P(A ∩ t −1 (B))<br />

ses at F er betinget sandsynlighed givet T under P og T er derfor sufficient.<br />

For at vise den omvendte implikation antager vi nu at T er sufficient og skal vise<br />

(3.4). Lad π(·|·) være den fælles betingede sandsynlighed for P ∈ P, og lad sandsynlighedsmålet<br />

˜µ være som ovenfor. Da P har tæthed m.h.t. ˜µ definerer vi<br />

Idet<br />

gP(t) = dPT<br />

(t) og<br />

d ˜µT<br />

˜ k(x) = k1(x, t(x)) med k1(x, t) = dπ(·|t)<br />

d ˜µ T (·|t) (x).<br />

<br />

<br />

P(A) = π(A|t)PT(dt) = 1A(x)π(dx|t) PT(dt)<br />

<br />

= 1A(x)k1(x, t) ˜µ T <br />

(dx|t) gP(t) ˜µT(dt)<br />

<br />

= 1A(x)gP(t(x)) ˜ k(x) ˜µ(dx)


3.4. MINIMAL SUFFICIENTE OBSERVATORER 29<br />

ses det at P har tæthed gP(t(x)) ˜ k(x) m.h.t. ˜µ. Dermed har vi<br />

dP dP ˜µ<br />

(x) = (x)d<br />

dµ d ˜µ dµ (x) = gP(t(x)) ˜ d ˜µ<br />

k(x) (x) = gP(t(x))k(x),<br />

dµ<br />

hvor k(x) er produktet af de to sidste tætheder. Hermed har vi vist (3.4). <br />

3.4 Minimal sufficiente observatorer<br />

Det er klart, at X selv er sufficient for P, men dette er ikke et særligt interessant udsagn.<br />

Vi ønsker i stedet at finde en sufficient observator T med “så få værdier som muligt”.<br />

Vi definerer derfor:<br />

Definition 3.5 En observator T0 = t0(X), t0 : (X , A) → (Y0, B0), siges at være minimal<br />

sufficient for P såfremt<br />

(i) T0 er sufficent ,<br />

(ii) hvis T = t(X), t : X → Y, er en sufficient observator, så eksisterer der en funktion<br />

f : (Y, B) → (Y0, B0), så at<br />

t0(x) = f(t(x)) n.s. − P ∀ P ∈ P. (3.6)<br />

Jeg vil starte med to lemmaer, der kan hjælpe m.h.t. om der eksisterer en funktion<br />

f , så at (3.6) er opfyldt. Vi antager som før, at P er domineret af et σ -endeligt mål µ.<br />

Det <strong>første</strong> lemma er en hjælp til at klare “n.s.-P ∀ P ∈ P". Vi vil konstruere et sandsynlighedsmål<br />

λ så at nulmængderne for λ er de samme som de fælles nulmængder for<br />

familien P.<br />

Lemma 3.6 Hvis P er domineret af et σ-endeligt mål, eksisterer der en tællelig delmængde<br />

{Pn} ∞ n=1 af P, så at der for A ∈ A gælder<br />

Pn(A) = 0 ∀ n ⇒ P(A) = 0 ∀ P ∈ P.<br />

Definer λ = ∑ ∞ n=1 1<br />

2 n Pn. Så er λ et sandsynlighedsmål der opfylder<br />

P(A) = 0 ∀ P ∈ P ⇔ λ(A) = 0 for A ∈ A. (3.7)<br />

Bevis. Lad sandsynlighedsmålet ˜µ være defineret som i Lemma 3.3. Lad for P ∈ P<br />

<br />

AP = x | dP<br />

<br />

(x) > 0 . (3.8)<br />

dµ<br />

Ideen er nu, at vi gerne vil vælge P1, P2, . . . så at ˜µ(∪ ∞ 1<br />

APn ) = 1. Ækvivalent hermed<br />

skal vi forsøge at finde B1, B2, . . . med Bn ⊆ APn , så at ˜µ(∪∞ 1 Bn) = 1. Dette valg laver<br />

vi nu implicit ved at definere<br />

s = sup{ ˜µ(C)|C = ∪ ∞ 1 Bn hvor Bn ∈ A, ˜µ(Bn) > 0, og ∀ n ∃ P ∈ P : Bn ⊆ AP}. (3.9)


30 KAPITEL 3. SUFFICIENS<br />

Da s er et supremum, kan vi finde en følge C1, C2, . . . , så at s = lim ˜µ(Cn). Sættes<br />

C = ∪∞ 1 Cn vil ˜µ(C) = s. Da alle Cn, n ≥ 1, er en forening af B mængder, har vi, at<br />

C = ∪∞ 1 Bn, hvor ˜µ(Bn) > 0, og for ethvert n eksisterer der Pn ∈ P, så at Bn ⊆ APn . De<br />

således valgte {Pn} ∞ n=1 er kandidaterne til at opfylde betingelsen i lemmaet.<br />

Lad A ∈ A med Pn(A) = 0 for alle n og lad P ∈ P. Vi skal vise at P(A) = 0. Da<br />

P ≪ ˜µ er det nok at vise at ˜µ(A ∩ C c ) = 0 og ˜µ(A ∩ C) = 0.<br />

Vi kan antage at A ⊆ AP, idet P(A) = P(A ∩ AP). Fra definitionen (3.9) af s har vi<br />

s = ˜µ(A ∪ C) = ˜µ(C) + ˜µ(A ∩ C c ) = s + ˜µ(A ∩ C c ),<br />

og dermed ˜µ(A ∩ C c ) = 0.<br />

Da Pn(A) = 0 og dPn<br />

d ˜µ (x) > 0 på A ∩ Bn må ˜µ(A ∩ Bn) = 0. Dermed fås<br />

˜µ(A ∩ C) = ˜µ(A ∩ [∪∞ 1 Bn])<br />

∞<br />

≤ ∑<br />

1<br />

˜µ(A ∩ Bn) = 0.<br />

Med λ defineret som i lemmaet er det klart at λ(A) = 0 er ækvivalent med Pn(A) = 0<br />

for alle n og dermed ækvivalent med P(A) = 0 for alle P ∈ P. <br />

Lad os bemærke at hvis alle målene i P er indbyrdes ækvivalente, P1 ≪ P2 ∀ P1, P2 ∈<br />

P, så kan vi tage λ = P0 for et vilkårligt P0 ∈ P. <strong>Et</strong> andet eksempel paa konstruktionen<br />

af λ er hvis vi kan finde {P i}, så at ∪ iAP i = X , med AP i fra (3.8),<br />

Lad i det følgende N være nulmængderne for λ:<br />

N = {A ∈ A|λ(A) = 0}.<br />

Da den betingede middelværdi E(q(X)|T) er σ(t)-målelig kan vi skrive den som en<br />

målelig funktion af t(X). I lemmaet nedenfor benytter vi betegnelsen E(q(X)|T) =<br />

φq(t(X)).<br />

Lemma 3.7 Lad t : (X , A) → (Y, B) og lad q : (X , A) → (R, B(R)). Hvis σ(q) ⊆<br />

σ(σ(t), N) så er<br />

q(x) = φq(t(x)) n.s. − λ. <br />

Bevis. Vi kan antage at q ≥ 0, idet vi ellers kan vise resultatet seperat for den positive<br />

og den negative del af q. Når q ≥ 0 kan vi vælge en følge qn, der opfylder<br />

qn(x) =<br />

n<br />

∑ c<br />

i=1<br />

n i 1An i (x), An i ∈ σ(t, N) og qn ≤ q, lim qn = q.<br />

n<br />

Fra egenskaberne ved qn har vi at φq(t) = limn φqn (t).<br />

Hvis qn(x) = φqn (t(x)) n.s.-λ kan vi skrive<br />

qn(x) = 1 N c n (x)φqn (t(x)) + 1Nn (x)qn(x) med λ(Nn) = 0. (3.10)<br />

Lad M = ∪∞ i=1Ni som også er en λ-nulmængde. Så er (3.10) også opfyldt med Nn<br />

erstattet af M. Da q = limn qn har vi<br />

<br />

q(x) = lim qn(x) = lim 1Mc(x)φqn (t(x)) + 1M(x)qn(x)<br />

n n<br />

= 1M c(x)φq(t(x)) + 1M(x)q(x),


3.4. MINIMAL SUFFICIENTE OBSERVATORER 31<br />

det vil sige<br />

q(x) = φq(t(x)) n.s. − λ.<br />

Vi mangler derfor at vise, at qn(x) = φqn (t(x) n.s.-λ, men da qn er en sum af indikatorfunktioner,<br />

er det nok at vise<br />

Lader vi<br />

1A(x) = φ1 A (t(x)) n.s. − λ for A ∈ σ(t, N). (3.11)<br />

D = {A ∈ A | 1 A(x) = φ1 A (t(x)) n.s. − λ}<br />

ser vi fra additivitets- og konvergensegenskaber ved betingede middelværdier, at D<br />

en σ -algebra. Hvis A ∈ σ(t) er φ1 A (t(x)) = 1 A(x), det vil sige σ(t) ⊆ D. Hvis A ∈ N<br />

er φ1 A (t(x)) = 0 = 1A(x) n.s.-λ og N ⊆ D. Da D er en σ-algebra, har vi derfor, at<br />

σ(t, N) ⊆ D, og dermed er (3.11) vist. <br />

Lemma 3.7 udtaler sig om reelle stokastiske variable q(X) . For at kunne benytte resultatet<br />

generelt, skal jeg så at sige for en vilkårlig stokastisk variabel “konstruere en<br />

ækvivalent” reel variabel. Til dette skal jeg bruge separabilitet af en σ-algebra, d.v.s.<br />

σ-algebraen er frembragt af en tællelig klasse af mængder.<br />

Lemma 3.8 Lad C ⊆ A være en del σ-algebra. Så er C separabel, hvis og kun hvis der<br />

eksisterer en funktion f : (X , A) → (R, B(R)), så at C = σ( f). <br />

Bevis. Hvis C er separabel lad C = σ(A1, A2, . . . ) og definer<br />

f(x) =<br />

∞<br />

∑ 10<br />

n=1<br />

−n 1An (x).<br />

Det er da klart, at σ( f) = C idet σ( f) ⊆ C , og det er muligt at vælge Bn ∈ B(R), så at<br />

f −1 (Bn) = An. For eksempel har vi at<br />

A1 = f −1 ([0.1, 0.2]), og A2 = f −1 ([0.01, 0.02] ∪ [0.11, 0.12]).<br />

Omvendt hvis C = σ( f), kan vi tage B1, B2, . . . i B(R), så at B(R) = σ(B1, B2, . . . ),<br />

og dermed<br />

C = σ( f −1 (B1), f −1 (B2), . . . ),<br />

d.v.s. C er separabel. <br />

Endelig skal vi for at kunne benytte Lemma 3.8 vise, at hvis A er separabel, og C er en<br />

vilkårlig del σ-algebra, så findes der en separabel del σ -algebra C0, som ligger tæt på<br />

C.<br />

Lemma 3.9 Lad A være separabel, og lad C ⊆ A være en del σ-algebra. Så findes der<br />

en separabel del σ-algebra C0 ⊆ A, så at<br />

C0 ⊆ C ⊆ σ(C0, N).


32 KAPITEL 3. SUFFICIENS<br />

Bevis. Lad A = σ(A1, A2, . . . ) og definer<br />

C0 = σ(Eλ(1 An |C), n = 1, 2, . . .). (3.12)<br />

Da Eλ(1An |C) er en reel stokastisk variabel, er σ(Eλ(1 An |C)) separabel, og dermed er<br />

C0 separabel. Per definition er C0 ⊆ C, og vi skal derfor vise, at C ⊆ σ(C0, N).<br />

Definer<br />

A1 = {A ∈ A | E λ(1A|C) = E λ{E λ(1A|C)|C0} n.s. − λ}.<br />

Så er A1 en σ-algebra og An ∈ A1, hvor {An} er følgen i (3.12). Derfor har vi, at<br />

A = σ(A1, A2, . . . ) ⊆ A1, altså at A = A1 . Specielt for A ∈ C har vi<br />

1A = E λ(1A|C) = E λ{E λ(1A|C)|C0} = E λ(1A|C0) n.s. − λ,<br />

hvor vi har benyttet at 1A = E λ(1A|C) n.s. medfører at E λ(1A|C0) = E λ{E λ(1A|C)|C0}<br />

n.s. Vi har dermed<br />

A = {x|E λ(1 A|C0) = 1}\[A c ∩ {x|E λ(1 A|C0) = 1}] ∪ [A ∩ {x|E λ(1 A|C0) = 1}]<br />

= C\N1 ∪ N2,<br />

hvor C ∈ C0 og N1, N2 ∈ N , d.v.s. A ∈ σ(C0, N). Beviset er hermed tilendebragt. <br />

Vi kan nu vende os mod hovedsætningen i dette afsnit. Vi antager, at A er separabel.<br />

Definer<br />

<br />

dP<br />

C = σ , P ∈ P<br />

dλ<br />

(3.13)<br />

for en vilkårlig version af dP<br />

dλ , hvor λ er et mål på formen angivet i Lemma 3.6. Vi vælger<br />

nu, ifølge Lemma 3.9, en separabel σ-algebra C0, så at<br />

C0 ⊆ C ⊆ σ(C0, N), (3.14)<br />

hvor N er nulmængderne for λ. Vælg dernæst en afbildning t0 : (X , A) → (R, B(R))<br />

så at<br />

C0 = σ(t0), (3.15)<br />

hvilket kan gøres ifølge Lemma 3.8.<br />

Sætning 3.10. T0 = t0(X) er minimal sufficient. <br />

Bevis. Vi viser først, at T0 er sufficient. Per definition af C i (3.13) og definition af t0 i<br />

(3.15 følger det at<br />

σ( dP<br />

dλ ) ⊆ C ⊆ σ(C0, N) = σ(t0, N).<br />

Demed eksisterer der ifølge Lemma 3.7 en funktion gP, så at<br />

dP<br />

dλ (x) = gP(t0(x)) n.s.-λ.


3.4. MINIMAL SUFFICIENTE OBSERVATORER 33<br />

Det vil sige at gP(t0(x)) er en tæthed for P m.h.t. λ og dermed er<br />

dλ<br />

dµ (x)gP(t0(x))<br />

en tæthed for P m.h.t. µ og T0 er sufficient ifølge Faktoriseringsætningen 3.4.<br />

Vi skal nu vise at for enhver sufficient observator T findes der en afbildning f så at<br />

t0(x) = f(t(x)) n.s.-λ. Hvis T = t(x) er en sufficient observator, har vi ifølge Faktoriseringsætningen<br />

3.4, at<br />

dP<br />

(x) = k(x)gP(t(x)),<br />

dµ<br />

og dermed<br />

dλ<br />

(x) = k(x)<br />

dµ<br />

∞<br />

∑<br />

n=1<br />

hvor h(t) er den uendelige sum. Definer<br />

1<br />

gPn (t(x)) = k(x)h(t(x),<br />

2n D = {t|0 < h(t) < ∞}.<br />

Lad os først indse at PT(D c ) = 0. Da λ(T ∈ Dc ) = 1Dc(t(x)k(x)h(t(x)µ(dx) enten er<br />

0 eller uendelig, men λ er et sandsynlighedmål følger det at λ(T ∈ Dc )) = 0. Da P har<br />

tæthed m.h.t. λ følger det at PT(D c ) = 0. Tætheden for P m.h.t. λ er<br />

idet<br />

<br />

A<br />

gP(t(x)<br />

h(t(x)) 1D(t(x)λ(dx)<br />

<br />

=<br />

<br />

=<br />

Med denne form af tætheden ser vi at σ( dP<br />

dλ<br />

dP gP(t(x)<br />

(x) =<br />

dλ h(t(x)) 1D(t(x) (3.16)<br />

A<br />

<br />

dP<br />

σ(t0) ⊆ σ(C) = σ<br />

dλ<br />

gP(t(x)<br />

h(t(x)) 1D(t(x)k(x)h(t(x)µ(dx)<br />

A∩t −1 (D)<br />

gP(t(x))k(x)µ(dx)<br />

= P(A ∩ t −1 (D)) = P(A).<br />

) ⊆ σ(t, N) og derfor<br />

Lemma 3.7 giver nu eksistensen af en funktion f , så at<br />

<br />

: P ∈ P ⊆ σ(t, N).<br />

t0(x) = f(t(x)) n.s.-λ. <br />

Bemærk at definiton 3.5 giver automatisk at en minimal sufficient observator er “entydigt<br />

bestemt n.s.−λ” . Hvis nemlig t0 og t1 er to minimal sufficiente afbildninger,<br />

eksisterer der f0, f1, så at<br />

t0(x) = f0(t1(x)) n.s. − λ<br />

og<br />

t1(x) = f1(t0(x)) n.s. − λ.<br />

Bemærk også at σ(t0) næsten er lig med C. Man siger derfor ofte at likelihoodfunktionen<br />

er minimal sufficient. Se i denne forbindelse opgave 3.8 og Sætning 3.15.


34 KAPITEL 3. SUFFICIENS<br />

Korollar 3.11. En sufficient observator T = t(X), t : (X , A) → (R k , B(R k )), A separabel,<br />

er minimal sufficient hvis<br />

σ(t) ⊆ σ(C, N) <br />

Bevis. Da C ⊆ σ(C0, N) er σ(t) ⊆ σ(C0, N) = σ(t0, N), og fra Lemma 3.7 (vi kan<br />

bruge Lemma 3.7 koordinatvis) har vi eksistensen af f1, så at<br />

t(x) = f1(t0(x)) n.s. − λ.<br />

Da t0(X) er minimal sufficient, er derfor også t(X) minimal sufficient ifølge Definition<br />

3.5(ii). <br />

Den følgende sætning er ofte brugbar for at finde en minimal sufficient observator. Jeg<br />

minder om, at komplethed af en observator er defineret i afsnit 2.7.<br />

Sætning 3.12. Lad A være separabel og lad P være domineret af det σ-endelige mål<br />

µ. Lad desuden T = t(X), t : X → R k , være en sufficient og komplet observator under<br />

P. Så er T minimal sufficient. <br />

Bevis. Lad π(·|t) være den fælles betingede fordeling af P givet T0, hvor T0 = t0(X) er<br />

den kendte minimal sufficiente fra Sætning 3.10. Da T0 er minimal sufficient, eksisterer<br />

der en funktion g så at<br />

t0(x) = g(t(x)) n.s. − λ. (3.17)<br />

Definer<br />

<br />

f1(x) = t(x) − t( ˜x)π(d ˜x|t0(x)),<br />

<br />

f(t) = t − t( ˜x)π(d ˜x|g(t)),<br />

hvor f(t(x)) = f1(x) n.s.−λ ifølge (3.17). Vi har at<br />

Vi har dermed også at<br />

og da T er komplet følger det at<br />

Det vil sige at<br />

EP f1(X) = EPT − EPEP(T|T0)<br />

= EPT − EPT<br />

= 0, ∀ P ∈ P.<br />

EP f(T) = 0, ∀ P ∈ P,<br />

f1(x) = f(t(x)) = 0 n.s. − λ.<br />

<br />

t(x) =<br />

t( ˜x)π(d ˜x|t0(x)) n.s. − λ,<br />

eller sagt på anden vis: der eksistere en funktion g1 så at<br />

t(x) = g1(t0(x)) n.s. − λ.<br />

Da T0 er en funktion af en vilkårlig sufficient observator, følger det nu, at også T er en<br />

funktion af en vilkårlig sufficient observator, og dermed er T minimal sufficient.


3.4. MINIMAL SUFFICIENTE OBSERVATORER 35<br />

Korollar 3.13. For en eksponentiel familie P = {P ξ|ξ ∈ Λ0} på (X , A), hvor A er<br />

separabel, med minimal repræsentation<br />

dP ξ<br />

dµ (x) = c(ξ)−1 b(x)e ξ·t(x)<br />

gælder, at T = t(X) er minimal sufficient. <br />

Bevis. Da repræsentationen er minimal kan vi finde ξ0, ξ1, . . . , ξk så at matricen A med<br />

i’te række ξi − ξ0 er invertibel. Vi kan så skrive<br />

<br />

log dPξ 1<br />

(x), . . . , log<br />

dPξ0 dP <br />

ξk (x) = tA<br />

dPξ0 ∗ − (κ(ξ1) − κ(ξ0), . . . , κ(ξk) − κ(ξ0),<br />

hvoraf ses at t er en funktion af k tætheder. Korollar 3.11 siger så at T = t(x) er minimal<br />

sufficient. <br />

Korollar 3.11 er vores stærkeste værktøj til at afgøre om en observator er minimal<br />

sufficient. I praksis er det dog en lille smule besværligt at bruge korollaret, da der<br />

indgår tætheder med hensyn til λ i definitionen af C. Jeg vil nu lave et korollar der er<br />

nemmere at bruge og på en direkte måde siger at “likelihoodfunktionen er minimal<br />

sufficient". Jeg antager at vores familie er på formen P = {Pθ : θ ∈ Θ} og at t er en<br />

sufficient observator så at<br />

dPθ (x) = k(x)g(t(x); θ), (3.18)<br />

dµ<br />

ifølge Faktoriseringssætningen 3.4.<br />

Jeg skal bruge følgende resultat (Hoffmann-Jørgensen: The Theory of Analytic Spaces,<br />

1970, p. 145).<br />

Lemma 3.14 Lad X , Y og G være borel-delmængder af fuldstændige separable metriske<br />

rum. Lad t være en målelig afbildning fra X ind i Y og lad g være en målelig<br />

afbildning fra X ind i G så at<br />

g(x1) = g(x2) ⇒ t(x1) = t(x2), x1, x2 ∈ X .<br />

Så eksisterer der en målelig afbildning K fra G ind i Y med t(x) = K(g(x)), x ∈ X . <br />

Fuldstændig betyder at enhver cauchyfølge er konvergent, og separabelt rum betyder<br />

at der er en tællelig tæt delmængde. Det euklidiske rum R m er et fuldstændigt separabelt<br />

metrisk rum. Jeg vil bruge Lemma 3.14 med G = R N . Hvis vi udstyrer dette rum<br />

med metrikken d(x, y) = (∑ ∞ n=1 (xi − yi) 2 ) 1/2 er G et fuldstændigt separabelt metrisk<br />

rum og borel-σ-algebraen er identisk med produkt-σ-algebraen.<br />

Sætning 3.15. Antag at X er en borel-delmængde af R n , at t er en afbildning fra X ind<br />

i Y, hvor Y er en borel-delmængde af R k , og at T = t(X) er sufficient. Specielt har vi<br />

opskrivningen i (3.18). Antag at der eksisterer en tællelig delmængde {θ i : i ∈ N} så at<br />

( ∃ c(t1, t2) : g(t1; θ i) = c(t1, t2)g(t2; θ i) ∀ i ∈ N ) ⇒ t1 = t2. (3.19)<br />

Så er T minimal sufficient.


36 KAPITEL 3. SUFFICIENS<br />

Bevis. Idet vi definerer p(x, θ) = dP θ<br />

dλ (x) og 0 a = 0, a ∞<br />

p(x, θ) =<br />

g(t(x); θ)<br />

.<br />

h(t(x)<br />

Definer nu funktionen g fra X ind i G = R N ved<br />

g(x) = {p(x; θ i) : i ∈ N}.<br />

= 0, kan vi skrive 3.16 på formen<br />

Da x → p(x, θ i) er målelig er g målelig m.h.t. produkt-σ-algebraen. Fra antagelsen i<br />

sætningen har vi<br />

⇓<br />

⇓<br />

⇓<br />

g(x1) = g(x2)<br />

p(x1, θ i) = p(x2, θ i) ∀ i ∈ N<br />

g(t(x1); θ i) = h(t(x1))<br />

h(t(x2)) g(t(x2); θ i) ∀ i ∈ N<br />

t(x1) = t(x2).<br />

Fra Lemma 3.14 har vi at t(x) = K(g(x)) for en målelig funktion K og det følger at<br />

dPθi<br />

σ(t) ⊆ σ(g) ⊆ σ<br />

dλ<br />

<br />

: i ∈ N, N ⊆ σ(C, N).<br />

Fra Korollar 3.11 har vi nu at T er minimal sufficient. <br />

3.5 Sufficiensprincippet og B-sufficiens<br />

I indledningen til dette kapitel tog jeg udgangspunkt i ønsket om at reducere data til<br />

nogle væsentlige og overskuelige størrelser. I mere principielle diskussioner omkring<br />

“korrekte måder” at uddrage information fra data er dette blevet til:<br />

Sufficiensprincippet: Hvis T er sufficiens for P, bør inferens om P ∈ P udføres i den marginale<br />

fordeling af T.<br />

Så længe vi holder os til sufficiens som defineret i Definition 3.1, er der bred enighed<br />

om sufficiensprincippet. Vi skal senere i notesættet støde på andre sufficiensbegreber i<br />

forbindelse med inferens om delparametre, og her er enigheden om sufficensprincippet<br />

mindre. For at skelne de forskellige sufficiensprincipper kaldes sufficens, som givet<br />

i Definition 3.1, somme tider for B-sufficiens. Bogstavet B står her for personerne Basu<br />

og Bahadur.<br />

3.6 Opgaver<br />

Opgave 3.1. Læs dette!<br />

I JHJ’s 1985 version af sine sandsynlighedsnoter findes følgende sætning: “Lad (Ω, F, P)


3.6. OPGAVER 37<br />

være et sandsynlighedsfelt og T en målelig funktion fra (Ω, F) ind i et Borel rum<br />

(M, B). Hvis P har en semi-kompakt approximerende brolægning K ⊆ F, da findes<br />

en funktion P T (F|t) for F ∈ F, t ∈ M, så at<br />

(i) P T (·|t) er et sandsynlighedsmål ∀t ∈ M<br />

(ii) P T (F|·) er målelig ∀F<br />

(iii) <br />

B PT (F|t)PT(dt) = P(F ∩ T −1 (B)) ∀F ∈ F ∀B ∈ B.”<br />

De <strong>første</strong> to betingelser (i) og (ii) siger, at P T (·|·) er en Markovkerne, og en Markovkerne<br />

som opfylder (iii) kaldes en regulær betinget sandsynlighed af P givet T. Hvis<br />

M = Ω, B = F0 ⊆ F og T(ω) = ω taler vi om en regulær betinget sandsynlighed af P<br />

givet F0, og denne betegnes med P F0(F|ω).<br />

Betingelsen om den semikompakte approximerende brolægning K er ikke alene<br />

tilstrækkelig, men også nødvendig. Betingelsen er opfyldt i langt de fleste tilfælde,<br />

specielt hvis Ω = R T , F = B T og P er et sandsynlighedsmål på (Ω, F), hvor T er en<br />

vilkårlig indexmængde, da er<br />

KT =<br />

<br />

<br />

∏ Ct | Ct er kompakt eller Ct = R ∀t<br />

t∈T<br />

en semikompakt approximerende brolægning for P. Hvis PT er en regulær betinget<br />

sandsynlighed at P givet T, og X : (Ω, F) → (R, B(R)) er en stokastisk variabel med<br />

middelværdi, så vil<br />

<br />

E(X|T)(ω) =<br />

X(ω<br />

Ω<br />

′ )P T (dω ′ |T(ω)). (∗)<br />

Vis dette ved hjælp af standardbeviset, startende med situationen hvor X er en<br />

indikatorvariabel. I skal altså vise, at højresiden i (*) opfylder betingelserne for at være<br />

den betingede middelværdi af X givet T.<br />

Indse også at hvis T er sufficient for en klasse P af sandsynlighedsmål, så viser (*),<br />

at den betingede middelværdi af X givet T ikke afhænger af P ∈ P.<br />

Opgave 3.2<br />

Lad X være et diskret udfaldsrum og t en målelig afbildning fra X ind i Y. Lad T =<br />

t(X). Vis, at hvis π(A|t) er en Markovkerne, der opfylder<br />

<br />

π(A|t)PT(dt) = P(A ∩ t −1 (B))<br />

for alle A ⊆ X og alle B⊆ Y, så er<br />

B<br />

π(x|t) = P(X = x)/P(T = t), hvor t(x) = t.<br />

Opgave 3.3<br />

Lad X = S × T og antag at P har tæthed f(s, t) m.h.t. produktmålet µ × ν. Lad fT(t)<br />

være den marginale tæthed af T m.h.t. ν,<br />

<br />

fT(t) = f(s, t)µ(ds).<br />

S


38 KAPITEL 3. SUFFICIENS<br />

Definer nu<br />

og<br />

F T S<br />

⎧<br />

⎨ f(s,t)<br />

fT(t)<br />

g(s|t) =<br />

⎩ fS(s)<br />

<br />

hvis fT(t) > 0<br />

hvis fT(t) = 0,<br />

(A|t) = g(s|t)µ(ds), t ∈ T, A ∈ AS,<br />

<br />

F(C|t) =<br />

A<br />

s:(s,t)∈C<br />

g(s|t)µ(ds), C ∈ AS × AT ,<br />

hvor fS er den marginale tæthed af S og AS er σ-algebraen på S. Bemærk at F(·|t) er<br />

defineret til at være et mål på S × T koncentreret på S × {t}.<br />

Så er F(·|t) en regulær betinget sandsynlighed af P givet T, og FT S er den tilsvarende<br />

marginale fordeling i den betingede fordeling, altså den betingede sandsynlighed af S<br />

givet T.<br />

Vis dette.<br />

Opgave 3.4<br />

Lad f , g være to målelige funktioner på (X , A) og P et sandsynlighedsmål. Antag af<br />

f = g n.s.−P. Vis at<br />

σ( f) ⊆ σ(g, NP),<br />

hvor NP er nulmængderne for målet P.<br />

Overvej, at dette resultat kan bruges til at ændre udsagnet i Korollar 3.11 til “hvis<br />

og kun hvis”.<br />

Opgave 3.5<br />

Lad f > 0 være en tæthed på R+ med hensyn til Lebesguemålet. Lad p θ(x) være<br />

tætheden på intervallet (0, θ) givet ved p θ(x) = c(θ) f(x), 0 < x < θ, og p θ(x) =<br />

0 ellers. Parameteren θ varierer i R+ . Lad X1, . . . , Xn være uafhængige og identisk<br />

fordelte med tæthed P θ. Vis, at<br />

er sufficient.<br />

X (n) = max{X1, . . . , Xn}<br />

Opgave 3.6<br />

Lad X1, . . . , Xn være uafhængige og uniformt fordelte på intervallet (0, θ), hvor parameteren<br />

θ varierer i R+. Vis, på to måder at<br />

X (n) = max{X1, . . . , Xn}<br />

er en minimal sufficient observator. De to måder fremkommer ved at bruge henholdsvis<br />

Korollar 3.11 og Sætning 3.12,


3.6. OPGAVER 39<br />

Opgave 3.7<br />

Lad (X1, Y1), . . . , (Xn, Yn) være uafhængige og identisk fordelte med tæthed<br />

<br />

exp −θx − 1<br />

θ y<br />

<br />

, (x, y) ∈ R 2 + ,<br />

hvor parameteren θ varierer i R+. D.v.s. X og Y er uafhængige, X er exponentialfordelt<br />

med middelværdi 1 θ og Y er exponentialfordelt med middelværdi θ. Find en minimal<br />

sufficient observator ved hjælp af Korollar 3.11.<br />

Opgave 3.8<br />

Lad familien P have k elementer med tæthederne pi(x) = dPi dµ (x), i = 1, . . . , k. Definer<br />

n<br />

<br />

g(x) = ∑ pi(x), λ(A) = g(x)µ(dx),<br />

i=1<br />

A<br />

og<br />

<br />

p1(x) p2(x)<br />

t(X) = ,<br />

g(x) g(x) , . . . , p <br />

k(x)<br />

.<br />

g(x)<br />

Vis, at t(X) er minimal sufficient.<br />

Lad L(i, x) = p i(x) og vis at<br />

t(x1) = t(x2) ⇔ ∃c(x1, x2) : L(i, x1) = c(x1, x2)L(i, x2) ∀i.<br />

Opgave 3.9<br />

Lad X1, . . . , Xm, Y1, . . . , Yn være uafhængige med X i ∼ N(ξ, σ 2 ) og Y j ∼ N(η, τ 2 ). Find<br />

en minimal sufficient observator i tilfældene<br />

(i) (ξ, η, σ 2 , τ 2 ) ∈ R 2 × R 2 + ;<br />

(ii) (ξ, η, σ 2 ) ∈ R 2 × R+ og τ 2 = σ 2 ;<br />

(iii) (ξ, σ 2 , τ 2 ) ∈ R × R 2 +<br />

og η = ξ.<br />

Opgave 3.10<br />

Lad X = {−1, 0, 1, 2, . . . } og A alle delmængder af X . Klassen P = {P θ|0 < θ < 1} er<br />

givet ved<br />

P θ({−1}) = θ og P θ({x}) = (1 − θ) 2 θ x , x = 0, 1, 2, . . . .<br />

Vis, at t(X) = X er minimal sufficient. Vis dernæst, at T = t(X) er begrænset komplet<br />

for P, men ikke komplet.<br />

Opgave 3.11<br />

Denne opgave er beregnet på at få en forståelse af en minimal sufficient observator i<br />

en betinget fordeling. Lad udfaldsrummet være X = X1 ∪ X2. Lad P være en klasse as<br />

sandsynlighedsmål på X1 og definer for P ∈ P sandsynlighedsmålet ˜P til at være lig<br />

med P på X1 og som giver masse 0 til X2. For en funktion ˜t(x) på X definerer vi t på<br />

X1 og s på X2 til at være ˜t’s restriktion til X1, henholdsvis X2.


40 KAPITEL 3. SUFFICIENS<br />

(i) vis, ved hjælp af faktoriseringssætningen, at t(X) er sufficient for familien P på<br />

X1 hvis og kun hvis at ˜t(X) er sufficient for familien ˜P = { ˜P|P ∈ P} på X .<br />

Vi vil nu betragte det tilsvarende spørgsmål med sufficient erstattet af minimal sufficient.<br />

Antag at t(X) er minimal sufficient for familien P. Lad ¯t være en sufficient observator<br />

for ˜P. Fra (i) har vi at ¯t er sufficient for P. Dermed eksisterer der en funktion f så at<br />

t(x) = f(¯t(x)), x ∈ X1, n.s. − P.<br />

(ii) Vis, at der eksisterer en funktion g så at<br />

Slut at ˜t er minimal sufficient.<br />

˜t(x) = g(¯t(x)), x ∈ X , n.s. − ˜P.<br />

Formuleret i ord, så har vi set at det kun er observators værdier på X1 der afgør om<br />

den er minimal sufficient.


3.6. OPGAVER 41<br />

Ronald Aylmer Fisher 17/2 1890 (London) - 29/7 1962 (Adelaide).<br />

I sin <strong>første</strong> artikel fra 1912 introducerede Fisher maximum likelihood estimationsmetoden.<br />

Fra 1919 var Fisher ansat ved Rothamsted Experimental Station hvor han udviklede<br />

variansanalysen, se bøgerne: Statistical Methods for Research workers og The design of Experiments.<br />

I 1922 introducerede Fisher sufficiens og i 1925 ancillaritet. Se også hans bog<br />

Statistical Methods and Scientific Inference.


Kapitel 4<br />

Ancillaritet og Basu’s sætning<br />

4.1 Definitioner og diskussion<br />

I kapitel 3 argumenterede jeg for at man kan nøjes med at betragte en sufficient observator<br />

T for inferens om P ∈ P, idet observationen x kan tænkes fremkommet ved at<br />

først observeres t og dernæst observeres x fra den betingede fordeling af X givet T = t.<br />

Dette blev formuleret som sufficiensprincippet i afsnit 3.5. Antag nu istedet, at U er en<br />

observator som er fordelingskonstant, d.v.s. fordelingen af U er den samme for alle<br />

P ∈ P. Så kan jeg igen tænke på x som fremkommet ved, at først observeres U = u og<br />

dernæst observeres x fra den betingede fordeling af X givet U = u. Da udfaldet u har<br />

samme sandsynlighed for alle P ∈ P, er der ingen information om, hvilket P ∈ P som<br />

er det sande P i observationen U = u, og vi kan nøjes med at betragte den betingede<br />

fordeling af X givet U = u.<br />

Præcist definerer vi:<br />

Definition 4.1 En observator U = u(X), u : (X , A) → (U, D) siges at være ancillær for<br />

P hvis<br />

P(U ∈ D) = P0(U ∈ D) ∀P0, P ∈ P, ∀D ∈ D,<br />

altså: fordelingen af U er den samme for alle P ∈ P. <br />

Og svarende til sufficiensprincippet har vi:<br />

Betingningsprincippet: Hvis U er ancillær for P, bør inferens om P ∈ P udføres i den<br />

betingede fordeling af X givet U.<br />

Ordet ancillær stammer fra det engelske “ancillary”, som betyder hjælpestørrelse. I<br />

sammenhængen her skal det forstås som, at oplysningen U = u er en hjælp, der fortæller<br />

os hvilken betinget fordeling, vi bør betragte. Dette vil blive demonstreret i eksemplerne.<br />

Eksempel 4.2.<br />

Lad et forsøg bestå i, at først observeres I ∈ {1, 2} med<br />

P(I = 1) = P(I = 2) = 1 2 ,<br />

43


44 KAPITEL 4. ANCILLARITET OG BASU’S SÆTNING<br />

og dernæst observeres X fra en N(µ, σ2 I )-fordeling med σ2 1 = 1 og σ2 2 = 10. Vi kan<br />

her tænke på I som en variabel, der angiver hvilket måleinstrument der anvendes, og<br />

σ2 1 , σ2 2 angiver hvor gode de to måleinstrumenter er. Likelihoodfunktionen er<br />

L(µ) = 1(i = 1) 1 1<br />

√ e<br />

2 2π − 1 2 (x−µ)2<br />

+ 1(i = 2) 1 1<br />

√ e<br />

2 20π<br />

<br />

1(i = 1)e<br />

=<br />

− 1 2 x2<br />

2 √ +<br />

2π<br />

1(i = 2)e− f rac120x2<br />

2 √ <br />

20π<br />

− 1<br />

20 (x−µ)2<br />

e µx[1(i=1)+1(i=2)/10]−µ2 [1(i=1)/2+1(i=2)/20] ,<br />

så at T = (I, X) er minimal sufficient (se eksempel 4.5 nednefor). Maximum likelihood<br />

estimatet for µ er<br />

ˆµ = X.<br />

Variansen på dette estimat er V( ˆµ) = 1 2 · 1 + 1 2 · 10 = 5.5. Er dette en relevant måde at<br />

angive, hvor tæt estimatet ˆµ er på den sande værdi µ ? Hvis vi har observeret I = 1,<br />

synes det relevant at bruge den viden, at vi har brugt måleinstrumentet med den lave<br />

varians σ2 1 = 1. Med andre ord vil vi gerne sige, at variansen på ˆµ er σ2 1 = 1. Dette<br />

svarer netop til, at vi laver inferensen i den betingede fordeling givet I = 1, og er hvad<br />

betingningsprincippet siger, at vi skal gøre. <br />

I den <strong>teoretisk</strong>e diskussion nedenfor vil jeg se på forbindelsen over til sufficiens.<br />

Liegesom for sufficiens skal vi senere støde på andre ancillaritetsbegreber, og for at<br />

skelne disse kaldes ancillaritet som defineret her for B-ancillaritet, hvor B igen henviser<br />

til Basu og Bahadur.<br />

Lad os starte med den observation at der ikke findes nogen naturlig “maximal ancillær”<br />

observator. Hvis man skulle forsøge at definere dette begreb, vil et <strong>første</strong> forsøg<br />

være at sige, at U0 er maximal ancillær, hvis enhver anden ancillær U er en funktion<br />

af U0. En sådan U0 eksisterer ikke, idet to ancillære observatorer U1, U2 tilsammen kan<br />

udgøre X, og dermed ikke kan være funktioner af en ancillær observator U0. Følgende<br />

eksempel viser dette:<br />

Eksempel 4.3.<br />

Lad (Xi, Yi) i = 1, . . . , n, være uafhængige og identisk fordelte med<br />

(X i, Y i) ∼ N2<br />

<br />

1 ρ<br />

(0, 0),<br />

ρ 1<br />

Så er U1 = (X1, . . . , Xn ) og U2 = (Y1, . . . , Yn) begge ancillære, mens fordelingen af<br />

(U1, U2) afhænger af ρ og altså er (U1, U2) ikke ancillær. <br />

Når vi nu har to principper – sufficiensprincippet og betingningsprincippet – vil<br />

det være naturligt at spørge om principperne er i overensstemmelse med hinanden,<br />

eller om de kan føre til en konflikt. Jeg starter med:<br />

Observation 4.4 Lad U være en ancillær observator for P, hvor P er domineret af det<br />

σ-endelige mål µ, og A er separabel. Lad T0 være en minimal sufficient observator for<br />

P. Så er T0 også en minimal sufficient observator for klassen P u = {P(·|U = u) : P ∈<br />

P} af betingede fordelinger givet U = u.


4.1. DEFINITIONER OG DISKUSSION 45<br />

Bevis. Lad t0 : X → Y være en minimal sufficient observator. For at undgå for mange<br />

tekniske detaljer vil jeg antage at σ(t0) = C, jævnfør Korollar 3.11.<br />

Fra faktoriseringssætningen har vi<br />

Lad ˜µ være et sandsynlighedsmål med<br />

dP<br />

(x) = gP(t0(x))k(x).<br />

dµ<br />

d ˜µ<br />

dµ = φ(x) > 0 og lad ˜ k(x) = k(x)/φ(x) så at<br />

dP<br />

1<br />

(x) = gP(t0(x))k(x)<br />

d ˜µ φ(x) = gP(t0(x)) ˜ k(x).<br />

Lad målet λ være som i lemma 3.6. Så er dλ/d ˜µ(x) = h(t0(x)) ˜ k(x), hvor<br />

Vi har således<br />

h(t) = ∑ 1<br />

gPm (t).<br />

2m dP gP(t0(x))<br />

(x) =<br />

dλ h(t0(x)) ,<br />

og da U er ancillær er λU = ∑ PmU/2 m = PU for et vilkårligt P ∈ P, og dermed<br />

Hvis vi lader dλU<br />

d ˜µU<br />

dPU<br />

dλU<br />

(x) = dPU<br />

(x) = 1.<br />

dPU<br />

dPU (u) = d (u) = q(u) er det kun relevant at betragte den betingede<br />

˜µU<br />

fordeling givet U = u for u med q(u) > 0. Fra Obervation 2.18 har vi<br />

dP(·|U = u)<br />

(x) =<br />

dλ(·|U = u)<br />

dP<br />

dλ (x)<br />

dPU<br />

dλU<br />

dP<br />

=<br />

(x) dλ<br />

(x) = gP(t0(x))<br />

h(t0(x)) .<br />

Det følger af den sidste formel og faktoriseringssætningen at t0(X) er sufficient i den<br />

betingede fordeling. Vi vil bruge Korollar 3.11 til at vise at t0(X) er minimal sufficient<br />

i de tilfælde hvor q(u) > 0. Ideen er at bruge λ(·|U = u) i definitionen af C i Korollar<br />

3.11 for de betingede fordelinger. Hertil skal vi vise at<br />

λ(A|U = u) = 0 ⇔ P(A|U = u) = 0 ∀P.<br />

Implicationen ⇒ følger umiddelbart af at P(·|U = u) har tæthed mht. λ(·|U = u). Den<br />

anden implication ⇐ følger af at λ(A|U = u) = ∑ Pm(A|U = u)/2 m = 0. Bruger vi<br />

λ(·|U = u) i definitionen af Cu = σ(dP(·|U = u)/dλ(·|U = u) : P ∈ P) og bruger vi<br />

antagelsen σ(t0) = C får vi<br />

<br />

dP<br />

σ(t0) = C = σ<br />

dλ<br />

<br />

dP(·|U = u)<br />

: P ∈ P = σ<br />

dλ(·|U = u)<br />

<br />

: P ∈ P = Cu,<br />

og Korollar 3.11 siger så at t0(X) er minimal sufficient i den betingede fordeling.


46 KAPITEL 4. ANCILLARITET OG BASU’S SÆTNING<br />

Eksempel 4.5.<br />

Lad I og X være som i eksempel 4.2, d.v.s. I kan antage værdierne 1 og 2 med sandsynlighed<br />

1 2 , og givet værdien af I er X ∼ N(µ, σ2 I ). Desuden er σ2 1 = 1 og σ2 2 = 10.<br />

Tætheden med hensyn til produktet af tællemålet og Lebesguemålet er<br />

f(i, x; µ) =<br />

1(i = 1)<br />

<br />

2<br />

2πσ 2 1<br />

<br />

exp − 1<br />

2σ2(x − µ)<br />

1<br />

2 + 1(i = 2)<br />

<br />

2<br />

2πσ 2 2<br />

<br />

exp − 1<br />

2σ2(x − µ)<br />

2<br />

2<br />

.<br />

Vi kan indse at T0 = (I, X) er minimal sufficient ved følgende overvejelser: Ifølge faktoriseringssætningen<br />

er T0 sufficient. Målet λ der indgå i korollar 3.11 kan vi her tage<br />

til at være P0, altså målet med µ = 0. Dette kan vi gøre fordi alle målene er indbyrdes<br />

ækvivalente. Tætheden for Pµ med hensyn til P0 er<br />

Lad nu<br />

Så gælder der<br />

e µx[1(i=1)+1(i=2)/10]−µ2 [1(i=1)/2+1(i=2)/20] .<br />

g1(i, x) = log( dP1<br />

) og g2(i, x) = log(<br />

dP0<br />

dP−1<br />

).<br />

dP0<br />

i =<br />

og når først i er bestemt har vi<br />

1 hvis g1 + g2 = −1<br />

2 hvis g1 + g2 = − 1<br />

10 ,<br />

x = 1<br />

2 (g1 − g2)/[1(i = 1) + 1(i = 2)/10].<br />

Med andre ord er (i, x) en funktion af (g1, g2) og dermed er σ-algebraen frembragt af<br />

T0 indeholdt i σ-algebraen frembragt af g1 og g2 og dermed indeholdt i C. Korollar 3.11<br />

giver så at T0 er minimal sufficient.<br />

Når vi betinger med I = i reducerer T0 til X og dette er netop den minimal sufficiente<br />

i klassen af normalfordelinger med ukendt middelværdi. <br />

Observation 4.4 siger, at uanset om vi starter med at betinge med en ancillær størrelse,<br />

så bliver vi ledt frem til den samme minimal sufficiente observator T0. Der er dog<br />

stadig den forskel, at fra sufficiensprincippet vil vi betragte den marginale fordeling<br />

af T0, hvorimod fra betingningsprincippet vil vi betragte den betingede fordeling af T0<br />

givet U . Basu’s sætning nedenfor siger imidlertid, at hvis T0 er komplet, så vil T0 og U<br />

være uafhængige. Vi har derfor:<br />

Observation 4.6 Hvis T0 er minimal sufficient og komplet for P og U er ancillær for<br />

P, så vil både sufficiensprincippet og betingningsprincippet føre til, at vi skal betragte<br />

den marginale fordeling af T0 for inferens om P ∈ P. <br />

Hvis den minimal sufficiente T0 ikke er komplet, kan der eksistere ancillære observatorer,<br />

som er funktioner af T0, og dermed ikke er uafhængige af T0 som ovenfor.<br />

Dette illustreres ved:


4.1. DEFINITIONER OG DISKUSSION 47<br />

Eksempel 4.7.<br />

Lad (X i, Y i), i = 1, . . . , n være uafhængige og identisk fordelte med tæthed<br />

e −θx− 1 θ y , x > 0, y > 0,<br />

hvor θ > 0 er en parameter. Log likelihoodfunktionen er<br />

og T0 = ( ¯X, ¯Y) er minimal sufficient. Lad<br />

så er W ancillær idet<br />

<br />

l(θ) = n −θ ¯x − 1<br />

θ ¯y<br />

<br />

,<br />

W = ¯X ¯Y,<br />

<br />

W = (θ ¯X)<br />

1<br />

θ ¯Y<br />

<br />

1<br />

=<br />

n<br />

n<br />

∑<br />

1<br />

θX i<br />

1<br />

n<br />

n<br />

∑<br />

1<br />

1<br />

θ Y <br />

i ,<br />

og fordelingen af (θX i, 1 θ Y i) afhænger ikke af parameteren θ. Da W er en funktion af<br />

T0, er W og T0 ikke uafhængige. <br />

Umiddelbart kan vi derfor sige, at der er en konflikt mellem sufficiens- og betingningsprincippet.<br />

Den rigtige tilgangsvinkel til dette synes at være, at vi skal bruge<br />

begge principperne, når vi drager inferens. Spørgsmålet er så om rækkefølgen er ligegyldig,<br />

når T0 ikke er komplet? Vi kan derfor formulere følgende<br />

Ønske 4.8. Hvis T0 er minimal sufficient og U er ancillær, så ville det være ønskværdigt<br />

om der eksisterede en observator W, som både kan opfattes som en funktion af U<br />

(og dermed ancillær!) og som en funktion af T0, så at<br />

T0|U = u ∼ T0|W = w,<br />

altså at de to betingede fordelinger er de samme. D.v.s. at vi får det samme om vi<br />

først betinger med den ancilllære U og dernæst finder T0, eller om vi først finder T0 og<br />

dernæst betinger med den ancillære W, som er en funktion af T0. <br />

Ønske 4.7 er generelt ikke opfyldt, altså der eksisterer situationer, hvor rækkefølgen<br />

af brugen af sufficiens- og betingningsprincippet har betydning: se eksempel 4.11.<br />

Det kan derfor ikke forbavse, at denne mangel på entydighed kan føre til meget andet:<br />

se afsnit 4.3. Ønske 4.7 er opfyldt i den vigtige klasse af eksponentielle tranformationsmodeller,<br />

hvor U er den såkaldte konfiguration af (X1, . . . , Xn ) og W er den såkaldte<br />

maximal invariante efter minimal sufficient reduktion. Jeg vil ikke definere alle disse<br />

begreber her, men blot intuitivt nævne at en transformationsmodel P er på formen<br />

P = {Pg|g ∈ G} hvor G er en gruppe af transformationer på udfaldsrummet X (se også<br />

afsnit 8.3). Lad mig illustrere disse ting med:


48 KAPITEL 4. ANCILLARITET OG BASU’S SÆTNING<br />

Eksempel 4.9.<br />

Lad situationen være som i eksempel 4.6 og betegn sandsynlighedsmålet for (X1, Y1)<br />

med Pθ. Udfaldsrummet for den enkelte observation er R2 + , og her kan vi for ethvert<br />

g > 0 definere transformationen<br />

Hvis (X, Y) ∼ P1 så vil<br />

g : (x, y) →<br />

<br />

gx, 1<br />

g y<br />

<br />

.<br />

g(X, Y) ∼ (P1)g = P g −1,<br />

og klassen {P θ|θ > 0} = {(P1)g|g > 0} er derfor en transformationsmodel. Konfigurationen<br />

U bliver i denne situation<br />

og desuden er<br />

U =<br />

<br />

ˆθ(X1, . . . , Xn), 1<br />

ˆθ (Y1,<br />

<br />

. . . , Yn) hvor ˆ <br />

¯Y ¯X<br />

θ =<br />

,<br />

W =<br />

<br />

1<br />

n<br />

n<br />

∑<br />

1<br />

den maximal invariante efter minimal sufficient reduktion, som er en funktion af U.<br />

Det kan nu vises at<br />

( ˆθ, W)|U = u ∼ ( ˆθ, W)|W = w. <br />

I praksis beskæftiger man sig ikke med ovenstående potentielle konflikt. I typiske<br />

situationer vil der være nogle “oplagte” ancillære, som der betinges med først. Disse<br />

kan vedrøre forhold omkring den eksperimentelle situation og hvordan data indsamles.<br />

Dernæst bestemmes den minimal sufficiente observator T0, og hvis denne indeholder<br />

ancillære komponenter, betinges der med disse.<br />

4.2 Basu’s sætning<br />

ˆθX i<br />

Jeg kommer nu til det vigtigste resultat i dette kapitel:<br />

Sætning 4.10 (Basu’s sætning). Lad T = t(X), t : (X , A) → (Y, B), og U = u(X),<br />

u : (X , A) → (U, D), være to observatorer og antag at T er sufficient for P. Så gælder<br />

(i) Hvis T og U er uafhængige under ethvert mål i P, og hvis intet par af mål i P er<br />

indbyrdes singulære, så er U ancillær.<br />

(ii) Hvis T og U er uafhængige under ét mål i P, og hvis målene i P er indbyrdes<br />

ækvivalente, så er U ancillær.<br />

(iii) Hvis U er ancillær, og T er begrænset komplet under P, så er T og U uafhængige<br />

under ethvert mål i P <br />

2


4.2. BASU’S SÆTNING 49<br />

Bevis. (i) Lad π(A|t) være den fælles betingede sandsynlighed givet T og lad D ∈ D.<br />

Vi skal vise at P1(U ∈ D) = P2(U ∈ D) ∀P1, P2 ∈ P. Vi har for B ∈ B<br />

<br />

B<br />

P(U ∈ D)PT(dt) = P(U ∈ D)P(T ∈ B) = P(U ∈ D, T ∈ B)<br />

<br />

= π(u −1 D)|t)PT(dt), (4.1)<br />

B<br />

hvor det andet lighedstegn skyldes at T og U er uafhængige. Hvis vi definerer målet<br />

νP på (Y, B) ved<br />

νP(B) = P(U ∈ D, T ∈ B),<br />

så siger (4.1), at både P(U ∈ D) og π(u−1 (D)|t) er en version af dνP . Da tætheder<br />

dPT<br />

er entydigt bestemt på nær på en nulmængde, har vi, at der eksisterer NP ∈ B med<br />

P(T ∈ NP) = 0, og så at<br />

For to sandsynlighedsmål P1 og P2 har vi derfor<br />

P(U ∈ D) = π(u −1 (D)|t) for t /∈ NP. (4.2)<br />

P1(U ∈ D) = P2(U ∈ D) for t /∈ NP 1 ∪ NP2 .<br />

Vi skal nu blot vise, at NP 1 ∪ NP2 = Y, men dette følger af, at målene P1 og P2 ikke er<br />

indbyrdes singulære.<br />

(ii) Lad T og U være uafhængige under P0 ∈ P. Fra (4.2) har vi<br />

P0(U ∈ D) = π(u −1 (D)|t) t /∈ N0,<br />

hvor P0(T ∈ N0) = 0. Da målene er indbyrdes ækvivalente, er P(T ∈ N0) = 0 ∀P ∈ P,<br />

og vi får<br />

<br />

P0(U ∈ D) =<br />

<br />

P0(U ∈ D)PT(dt) =<br />

π(u −1 (D)|t)PT(dt) = P(U ∈ D).<br />

D.v.s. at U er ancillær.<br />

(iii) Vi skal vise, at T og U er uafhængige. Vi skal derfor vise, at den marginale<br />

sandsynlighed P(U ∈ D) = P0(U ∈ D) er lig med den betingede sandsynlighed<br />

P(U ∈ D|T = t) = π(u −1 (D)|t) for næsten alle t. Lad f : Y → R være<br />

Så er <br />

f(t) = P0(U ∈ D) − π(u −1 (D)|t).<br />

f(t)PT(dt) = P0(U ∈ D) − P(U ∈ D) = 0,<br />

og antagelsen om begrænset komplethed giver derfor, at f(t) = 0 for næsten alle t. <br />

Punkt (iii) i Basu’s sætning anvendes ofte, idet det giver en bekvem måde at etablere<br />

fordelingsresultater på.


50 KAPITEL 4. ANCILLARITET OG BASU’S SÆTNING<br />

Eksempel 4.11.<br />

Lad X1, . . . , Xn være uafhængige og N(ξ, σ 2 )-fordelte. Hvis vi betragter familien P σ 2<br />

med σ 2 fast og ξ ∈ R, er dette en eksponentiel familie med minimal kanonisk observator<br />

T = ∑ X i og kanonisk parameter ξ/σ 2 ∈ R. Fra Sætning 2.26 har vi at T er komplet,<br />

og fra Korollar 3.13 at T er minimal sufficient. Lad<br />

U = (X1 − ¯X, . . . , Xn − ¯X) = (Z1 − ¯Z, . . . , Zn − ¯Z)<br />

hvor Z i = X i − ξ. Da fordelingen af Z i ikke afhænger af ξ er U ancillær. Basu’s sætning<br />

giver så, at ¯X og U er uafhængige. Specielt er<br />

¯X og SSD =<br />

n<br />

∑(Xi − ¯X)<br />

1<br />

2 n<br />

= ∑ U<br />

1<br />

2 i<br />

uafhængige. <br />

4.3 Birnbaum’s sætning<br />

Dette afsnit har jeg udelukkende taget med for jeres fornøjelses skyld! Jeg starter med:<br />

Eksempel 4.12.<br />

Udfaldsrummet er X = {0, 1} × N, og den stokastiske variabel betegnes (A, X). Familien<br />

af sandsynlighedsmål er P = {P θ|0 < θ < 1}, hvor<br />

Pθ(A = 1) = 1 − Pθ(A = 0) = 1 2<br />

Pθ(X = k|A = 0) = (1 − θ) k θ for k = 0, 1, . . .<br />

<br />

5<br />

Pθ(X = k|A = 1) = (1 − θ)<br />

k<br />

k θ 5−k<br />

for k = 0, 1, . . . , 5.<br />

Altså svarer vores forsøg til, at vi først kaster en mønt for at bestemme værdien af A,<br />

og dernæst hvis A = 0, observerer vi X fra en geometrisk fordeling, og hvis A = 1, observerer<br />

vi X fra en binomialfordeling med antalparameter 5 . For at kunne bestemme<br />

den minimal sufficiente observator, bemærker vi at<br />

dP θ<br />

dP1 2<br />

(a, k) = (1 − a)θ(1 − θ)k + a( 5<br />

k )(1 − θ)kθ 5−k<br />

(1 − a)( 1 2 )k+1 + a( 5<br />

k )( 1 2 )5<br />

⎧<br />

⎨2<br />

=<br />

⎩<br />

k+1θ(1 − θ) k a = 0<br />

2 5 (1 − θ) k θ 5−k a = 1.<br />

Dette medfører at den minimal sufficiente observator er<br />

t0(a, k) = (a1(k = 4), k),<br />

d.v.s. T0 er næsten identisk med (A, X), bortset fra at de to udfald (0,4) og (1,4) er slået<br />

sammen til et udfald (0,4) .


4.3. BIRNBAUM’S SÆTNING 51<br />

Hvis vi føst bruger betingningsprincippet og betinger med A og dernæst bruger<br />

sufficiensprincippet, ender vi ud med at betragte<br />

X|A = a. (4.3)<br />

Hvis vi derimod starter med sufficensprincippet og dernæst betingningsprincippet,<br />

skal vi spørge, om der findes en ancillær observator der er funktion af T0. Dette synes<br />

ikke at være tilfældet (Ã = A1(X = 4) er således ikke ancillær), og vi ender ud med<br />

at betragte<br />

T0 = (A1(X = 4), X). (4.4)<br />

Vi har derfor fået de to forskellige resultater (4.3) og (4.4). <br />

Eksempel 4.11 viser således, at Ønske 4.7 ikke altid er opfyldt.<br />

Hvis vi nu insisterer på, at “først betingningsprincip så sufficiensprincip” og “først<br />

sufficensprincip så betingningsprincip” altid skal føre til de samme konklusioner, er<br />

det klart, at vi må lave restriktioner på hvordan vi laver konklusioner. Hvad den nødvendige<br />

restriktion bliver, er netop resultatet af Birnbaum’s sætning.<br />

For at formulere sætningen skal jeg bruge noget notation. Resultatet af en statistisk<br />

analyse vil jeg betegne med R. Hvis modellen (X , A, P) betegnes med E og observationen<br />

med x , vil R(E, x) være resultatet fra at have observeret x fra modellen E. Den<br />

type resultater, I er vant til at få frem i en statistisk analyse, er for eksempel et estimat<br />

sammen med dettes middelværdi og varians, eller for eksempel et estimat sammen<br />

med et konfidensinterval. Hvis T er sufficient, og ET betegner modellen svarende til at<br />

kun T = t(X) observeres, formulerer Birnbaum sufficiensprincippet som<br />

(S) R(E, x) = R(ET, t(x)).<br />

Hvis U er ancillær, betegner vi den betingede model af X givet U = u med Eu, og<br />

Birnbaum giver betingningsprincippet som<br />

(B) R(E, x) = R(E u(x) , x).<br />

Endelig skal vi have indført likelihoodprincippet. Dette siger, at resultatet af en statistisk<br />

analyse skal kun afhænge af (E, x) gennem likelihoodfunktionen<br />

l(θ) = dP θ<br />

dµ (x).<br />

D.v.s. at hvis to modeller E 0 og E 1 med det samme parameterrrum Θ og med tilhørende<br />

observationer x 0 og x 1 giver anledning til de samme likelihoodfunktioner<br />

l 0 (θ) = dP0 θ<br />

dµ (x0 ) = c dP1 θ<br />

dµ 1 (x1 ) = cl 1 (θ) for alle θ ∈ Θ, (4.5)<br />

hvor c = c(x 0 , x 1 ) ikke afhænger af θ, så skal<br />

R(E 0 , x 0 ) = R(E 1 , x 1 )<br />

Jeg kan nu formulere Birnbaum’s sætning som:<br />

“Hvis (S) og (B) kan bruges i flæng, så gælder likelihoodprincippet”


52 KAPITEL 4. ANCILLARITET OG BASU’S SÆTNING<br />

Bevis. Lad som ovenfor (E 0 , x 0 ) og (E 1 , x 1 ) være to modeller med tilhørende observationer<br />

x 0 og x 1 så at for netop disse to observationer er l 0 (θ) og l 1 (θ) ens, se (4.5). Vi<br />

konstruerer nu en større model E ∗ , der består i, at først bestemmes værdien af A, hvor<br />

P θ(A = 0) = P θ(A = 1) = 1 2 , og dernæst hvis A = 0 observeres der fra E0 og hvis<br />

A = 1 observeres der fra E 1 . Eksempel 4.11 ovenfor er et specialeksempel på dette.<br />

Udfaldsrummet for E ∗ er<br />

X ∗ = {(a, y) | a = 0 og y ∈ X 0 eller a = 1 og y ∈ X 1 }<br />

= ({0} × X 0 ) ∪ ({1} × X 1 ).<br />

Lad målet µ ∗ på X ∗ bestå af µ 0 på {0} × X 0 og µ 1 på {1} × X 1 . Så er<br />

og<br />

dP∗ θ 1<br />

(a, y) =<br />

dµ ∗ 2 {(1 − a)dP0 θ<br />

dµ 0 (y) + adP1 θ<br />

dµ<br />

dP ∗ θ<br />

dP ∗ θ0<br />

(a, y) =<br />

⎡<br />

⎢<br />

⎣<br />

dP 0 θ<br />

dP 0 θ 0<br />

dP 1 θ<br />

dP 1 θ 0<br />

(y) hvis a = 0<br />

(y) hvis a = 1.<br />

1 (y)},<br />

(4.6)<br />

Hvis x 0 og x 1 opfylder (4.5), viser (4.6), at (0, x 0 ) og (1, x 1 ) giver den samme værdi for<br />

den minimal sufficiente T ∗ 0 under E∗ , altså t ∗ 0 (0, x0 ) = t ∗ 0 (1, x1 ). Derfor giver (S), at<br />

R(E ∗ , (0, x 0 )) = R(E ∗ T0 , t∗ 0 (0, x0 )) = R(E ∗ T0 , t∗ 0 (1, x1 )) = R(E ∗ , (1, x 1 )). (4.7)<br />

Da A er ancillær, giver (B) , at<br />

R(E ∗ , (0, x 0 )) = R(E 0 , x 0 ) og R(E ∗ , (1, x 1 )) = R(E 1 , x 1 ). (4.8)<br />

Kombinerer vi (4.7) og (4.8), har vi, at<br />

R(E 0 , x 0 ) = R(E 1 , x 1 ), (4.9)<br />

d.v.s. at vi har vist, at hvis de to likelihoodfunktioner er ens (4.5), så får vi det samme<br />

resultat (4.9) ud af den statistiske analyse. <br />

Da Birnbaum publicerede sit resultat i 1962, kom det som en stor overraskelse. Grunden<br />

er, at de fleste <strong>statistik</strong>ere akcepterer sufficiensprincippet og betingningsprincippet<br />

som rimelige, men de vil ikke akceptere likelihoodprincippet. Det sidste skyldes,<br />

at hvis man holder sig til likelihoodprincippet, så har man ikke mulighed for at lave<br />

sandsynlighedsudtalelser i sin konklusion, f.eks. kan man ikke angive middelværdi og<br />

varians af et estimat. Som det fremgår af beviset for Birnbaum’s sætning, opstår problemet,<br />

fordi han forlanger at forskellige rækkefølger af brugen af sufficensprincippet<br />

og betingningsprincippet skal føre til samme resultat R for analysen.<br />

En <strong>statistik</strong>er af “<strong>Aarhus</strong>-skolen”, og dermed en <strong>statistik</strong>er i Fisher’s ånd, vil sige,<br />

at Birnbaum’s resulatat er af typen, at “man smider barnet ud med badevandet”. Altså<br />

den manglende entydighed, når sufficiens- og betingningsprincippet bruges i forskellig<br />

rækkefølge, er udtryk for at inferensdragning er en ikke-entydig beskæftigelse, og<br />

nødvendiggør ikke, at vi skal underkaste os likelihoodprincippets åg.


4.4. OPGAVER 53<br />

4.4 Opgaver<br />

Opgave 4.1<br />

Lad X og Y være uafhængige stokastiske variable, så<br />

og<br />

P(X = 0) = P(X = 1) = 1 2 ,<br />

P(Y = −1) = p, p(Y = 0) = 1 2 , P(Y = 1) = 1 2 − p,<br />

hvor 0 ≤ p ≤ 1 2 . Vis, at U = X + Y2 er ancillær.<br />

Vis, dernæst at Y er sufficient og overvej om Y og U er uafhængige.<br />

Opgave 4.2<br />

Lad X1, . . . , Xn være uafhængige med fordeling givet ved<br />

⎧<br />

⎪⎩<br />

1 6 (1 − θ) k = 1<br />

⎪⎨ 1<br />

6 (1 + θ) k = 2<br />

P(Xi = k) =<br />

1 6 (2 − θ) k = 3<br />

1 6 (2 + θ) k = 4,<br />

med −1 < θ < 1. Lad endvidere N k være antallet af X i-er med værdien K. Vis, at<br />

U = (N1 + N2, N3 + N4) og V = (N1 + N4, N2 + N3) begge er ancillære.<br />

Find den forventede information i fordelingen af (N1, N2, N3, N4) givet henholdsvis<br />

U og V.<br />

Vis, at (N1, N2, N3, N4) er minimal sufficient for klassen af fordelinger for X1, . . . , Xn.<br />

Find dernæst en minimal sufficient observator i den betingede fordeling givet U.<br />

Opgave 4.3<br />

Lad X1, . . . , Xn være uafhængige Γ(λ, β)-fordelte, d.v.s. tætheden er<br />

Γ(λ) −1 β λ x λ−1 exp(−βx). Parametrene varierer i (λ, β) ∈ R 2 + .<br />

(i) Vis, at maksimum likelihood estimatet er løsningen til ligningssystemet<br />

λ<br />

β = ¯X og<br />

d<br />

dλ ln Γ(λ) − ln λ = ln ∏n 1 X1/n<br />

i<br />

(ii) Vis, ved at bruge Basu’s sætning på delfamilien med λ fast og β ∈ R+, at ¯X og ˆλ<br />

er uafhængige.<br />

Vink: (∗) viser at ˆλ er en funktion af<br />

n<br />

∏ 1<br />

X 1/n<br />

i<br />

¯X =<br />

n<br />

∏ 1<br />

(βX i) 1/n 1<br />

n<br />

n<br />

∑<br />

1<br />

¯X<br />

βX i<br />

<br />

.<br />

(∗)


54 KAPITEL 4. ANCILLARITET OG BASU’S SÆTNING<br />

Opgave 4.4<br />

Lad X1, . . . , Xn være uafhængige og identisk N(ξ, σ 2 )-fordelte med ξ ∈ R og σ 2 ∈ R+.<br />

Vis, at ( ¯X, s 2 ) er sufficient, hvor s 2 = ∑(X i − ¯X) 2 /(n − 1). Vis, at ( ¯X, s 2 ) er uafhængig<br />

af henholdsvis U1 og U2, hvor<br />

Her er<br />

U1 = ∑n−1<br />

i=1 (Xi+1 − Xi) 2<br />

∑ n i=1 (X i − ¯X) 2<br />

og U2 = X (n) − ¯X<br />

X (n) − X (1)<br />

X (1) = min{X1, . . . , Xn} og X (n) = max{X1, . . . , Xn}.<br />

Vink: Udtryk U1 og U2 ved Z i = (X i − ξ)/σ, i = 1, .., n.<br />

Opgave 4.5<br />

Lad X1, . . . , Xn være uafhængige og identisk fordelte med tæthed<br />

1<br />

β exp<br />

<br />

x − α<br />

<br />

−<br />

β<br />

Parametrene (α, β) varierer i R × R+.<br />

for x ≥ α og nul ellers.<br />

(i) Find maksimum likelihood estimatet for (α, β).<br />

(ii) Vis, at for fast β og α ∈ R er X (1) = min{X1, . . . , Xn} sufficient og begrænset<br />

komplet. (Vink: Hvis Eα f = 0 for alle α, definer da to mål ν + og ν − ved hjælp af<br />

f + og f − , og vis at disse to mål er identiske.)<br />

(iii) Vis, at ˆα og ˆβ er uafhængige.


4.4. OPGAVER 55<br />

D. Basu -


Kapitel 5<br />

Likelihoodbegreber<br />

Vi skal betragte den statistiske model (X , A, P), hvor X er udfaldsrummet, A en σalgebra,<br />

og P = {P θ|θ ∈ Θ} en parametriseret klasse af sandsynlighedsmål på X .<br />

Med en sådan model formaliserer vi, at parameteren θ ikke direkte kan måles, og at<br />

vi kun får indirekte viden gennem at data følger en fordeling specificeret ved θ. Lad µ<br />

være et mål som dominerer P θ for alle θ ∈ Θ.<br />

Definition 5.1 (Likelihoodfunktionen) L(θ) eller L(θ, x) er en funktion af θ, der for<br />

ethvert x ∈ X er givet ved<br />

L(θ) = L(θ, x) = dPθ (x), θ ∈ Θ.<br />

dµ<br />

I visse situationer vil vi betragte L(θ) som den stokastiske variabel L(θ, X). Loglikelihoodfunktionen<br />

er<br />

l(θ) = l(θ, x) = ln L(θ, x).<br />

Ultimativt ville vi gerne gennem den statistiske analyse være i stand til at pege på<br />

den værdi af θ, som har frembragt data. Dette er naturligvis ikke muligt, og istedet<br />

må vi nøjes med at pege på nogle gode kandidater. Likelihoodfunktionen er et vigtigt<br />

hjælpemiddel til at finde ud af, hvad der er gode kandidater. Hvis for eksempel<br />

L(θ2)/L(θ1) = 10 betyder dette, at under Pθ2 er der 10 gange større sandsynlighed for<br />

at få observationen x end under Pθ1 . I et sådant tilfælde vil vi have mere tiltro til, at θ2<br />

er den ukendte værdi af θ, end vi har til θ1. Hvis udfaldsrummet X er diskret, giver<br />

denne fortolkning ikke anledning til problemer. Hvis istedet X er kontinuert, støder<br />

vi på det problem, at en tæthed kun er defineret næsten sikkert. I praksis er dette som<br />

regel ikke et problem, idet der findes en version af tætheden, som er kontinuert i x, og<br />

denne version bruges så til at angive likelihoodfunktionen. Det er klart ud fra ovenstående<br />

fortolkning, at den værdi af θ, hvor funktionen L(θ) - eller l(θ) - har maksimum,<br />

er af særlig interesse.<br />

Definition 5.2 Hvis ˆθ = ˆθ(x) er sådan, at<br />

l(θ) ≤ l( ˆθ) ∀θ ∈ Θ,<br />

kaldes ˆθ(x) et maksimum likelihood estimat. Ligningen ∂l<br />

∂θ (θ) = 0 kaldes likelihoodligningen.<br />

<br />

57


58 KAPITEL 5. LIKELIHOODBEGREBER<br />

Hvis vi får at vide, at en undersøgelse har vist, at hvis man ryger, er der 10 procent risiko<br />

for, at man får lungekræft, vil vi sikkert straks spørge, hvor sikker denne konklusion<br />

er. Det er jo ikke ligegyldigt om undersøgelsen har fulgt 10 personer, og en af disse har<br />

udviklet lungekræft, eller om hele Danmarks befolkning er blevet fulgt i en årrække.<br />

Det er derfor ikke særligt informativt at afslutte en undersøgelse med at give et punkt<br />

estimat, vi må også sige noget om, hvor tæt estimatet kan formodes at være på den<br />

ukendte værdi af parameteren. Vi vil med andre ord være interesseret i fordelingen af<br />

estimatet, altså hvordan varierer estimatet, hvis vi forestiller os, at forsøget gentages,<br />

så at nye data indsamles fra P θ. Specielt kan vi se på middelværdien af estimatet, og<br />

dette giver anledning til:<br />

Definition 5.3 <strong>Et</strong> estimat ˜θ : X → Θ (ikke nødvendigvis maksimum likelihood estimatet)<br />

siges at være centralt (på engelsk unbiased) hvis<br />

E θ ˜θ(X) = θ for alle θ ∈ Θ. <br />

Hvis et estimat ikke er unbiased, siges det at være biased. I de fleste tilfælde vil Θ være<br />

en delmængde af R d , så at ˜ θ(X) ∈ R d , og vi kan tale om dens middelværdi.<br />

Eksempel 5.4.<br />

Lad X1, . . . , Xn være i.i.d. med tæthed<br />

βe −βx , x > 0,<br />

hvor parameteren β > 0. Loglikelihoodfunktionen er<br />

l(β) = n{ln β − β ¯x},<br />

og dermed ˆβ = ¯X −1 . Da ¯X er Gamma-fordelt, finder vi, at<br />

E ˆβ = n<br />

β = β,<br />

n − 1<br />

og ˆβ er altså ikke et centralt estimat. Hvis vi istedet for β betragter parameteren µ =<br />

1/β, som er middelværdien af X, får vi, at maksimum likelihood estimatet af µ er<br />

ˆµ = 1/ ˆ β = ¯X.<br />

Det giver E ˆµ = µ, og ˆµ er et centralt estimat. <br />

Udover middelværdien af et estimat vil det være naturligt at undersøge variansen.<br />

Specielt kan man blandt de estimater, der er centrale forsøge at finde det estimat, der<br />

har mindst mulig varians. Dette er emnet for kapitel 6. Lad mig nævne her, at det<br />

ikke er sikkert, at centrale estimater eksisterer, og hvis de eksisterer, kan kravet om,<br />

at estimatet skal være eksakt centralt betyde, at estimater med andre gode egenskaber<br />

udelukkes.<br />

I stedet for at angive variansen på ˆθ kan vi angive de værdier af θ udover ˆθ, som<br />

har en stor værdi af likelihoodfunktion.


Definition 5.5 <strong>Et</strong> likelihoodområde er en delmængde af Θ på formen<br />

{θ ∈ Θ | l(θ) − l( ˆθ) ≥ −c} (5.1)<br />

for en given konstant c > 0. <br />

I eksempel 5.4 ovenfor vil et likelihoodområde for β være et interval<br />

<br />

z1(c/n)<br />

,<br />

¯x<br />

z2(c/n)<br />

<br />

¯x<br />

hvor z1(y) < z2(y) er de to løsninger til z − 1 − ln z = y. Når n er stor, fås<br />

<br />

1 − √ 2c/n<br />

,<br />

¯x<br />

1 + √ <br />

2c/n<br />

.<br />

¯x<br />

Bemærk her afhængigheden af n. Hvis antallet af observationer 4-dobles, vil længden<br />

af likelihoodintervallet blive halveret.<br />

Likelihoodområdet er indført ovenfor ud fra synspunktet, at det er de θ værdier,<br />

som er næsten lige så trolige som ˆθ. Man kan også spørge: hvad er sandsynlighden for,<br />

at den ukendte parameterværdi θ er indeholdt i likelihoodområdet? Dette får os til at<br />

indføre:<br />

Definition 5.6 <strong>Et</strong> (1 − α)− konfidensområde er en afbildning K(x) fra X ind i mængden<br />

af delmængder af Θ, så at<br />

P θ(K(X) indeholder θ) = 1 − α for alle θ ∈ Θ. <br />

Eksempel 5.7.<br />

Lad X1, . . . , Xn være i.i.d. med fordeling N(µ, σ2 0 ), hvor σ2 0 er kendt og µ ∈ R er ukendt.<br />

Så er<br />

<br />

K(x1, . . . , xn) = ¯x − 1.96<br />

√ σ0, ¯x +<br />

n 1.96<br />

<br />

√ σ0<br />

(5.2)<br />

n<br />

et 95% konfidensinterval for µ. Dette ses ved, at<br />

<br />

Pµ µ ∈ ¯X − 1.96<br />

√ σ0, ¯X +<br />

n 1.96<br />

<br />

√ σ0 = Pµ −1.96 ≤<br />

n √ n( ¯X − µ) 1<br />

idet ¯X ∼ N(µ, σ2 0 /n).<br />

Da log-likelihoodfunktionen er<br />

<br />

l(µ) = n − 1<br />

2 ln(2πσ2 1<br />

0 ) −<br />

2σ2 1<br />

n 0<br />

∑(xi − µ) 2<br />

<br />

<br />

= n − 1<br />

2 ln(2πσ2 1<br />

0 ) −<br />

2σ2 1<br />

n 0<br />

∑(xi − ¯x) 2 − 1<br />

2σ2( ¯x − µ)<br />

0<br />

2<br />

<br />

fås at<br />

l(µ) − l( ˆµ) = − n<br />

2σ2( ¯x − µ)<br />

0<br />

2 .<br />

σ0<br />

<br />

≤ 1.96 = 0.95<br />

Konfidensintervallet (5.2) er derfor også likelihoodintervallet l(µ) − l( ˆµ) > −1.96 2 /2.<br />

59


60 KAPITEL 5. LIKELIHOODBEGREBER<br />

I eksempel 5.7 så vi et eksempel på, at et likelihoodområde også er et konfidensområde.<br />

Dette vil kun være tilfældet i specielle situationer. Til gengæld er det meget ofte korrekt<br />

approximativt:<br />

Observation 5.8 I mange modeller er området<br />

Kc(x) = {θ | l(θ) − l( ˆθ) ≥ −c}<br />

approksimativt et χ2 d (2c) konfidensområde. Her er χ2 d (w) sandsynligheden for at en<br />

χ2-fordeling med d-frihedsgrader er mindre end w, og d stammer fra at Θ ⊆ Rd . <br />

Dette er selvfølgelig meget løst formuleret, men i notesættet om asymptotik skal<br />

vi se, at det er korrekt for n → ∞, hvor n er antallet af observationer. Resultatet i<br />

Bemærkning 5.8 hænger sammen med et fordelingsresultat for ˆθ. For at forklare dette<br />

definerer jeg:<br />

Definition 5.9 Den stokastiske variabel<br />

kaldes scorefunktionen, og matricen<br />

U(θ) =<br />

∂l(θ, X)<br />

∂θ<br />

j(θ) = − ∂2 l(θ, X)<br />

∂θ∂θ ∗<br />

kaldes den observerede information. Middelværdien af j(θ)<br />

i(θ) = E θj(θ)<br />

kaldes den forventede information. <br />

Observation 5.10 Hvis vi må bytte rundt på differentiation og integration, har vi<br />

og<br />

dPθ ∂ ln( dµ<br />

EθU(θ) =<br />

(x))<br />

dPθ(x) ∂θ<br />

<br />

∂ dPθ<br />

=<br />

∂θ dµ (x)<br />

<br />

dPθ<br />

dµ (x)<br />

−1 dPθ(x) =<br />

= ∂<br />

<br />

dPθ<br />

∂<br />

(x)dµ(x) = 1 = 0,<br />

∂θ dµ ∂θ<br />

Var θ(U(θ)) = E θU(θ) ∗ U(θ)<br />

hvor vi benyttede at<br />

<br />

∂ 2<br />

∂θ∂θ ∗<br />

<br />

=<br />

<br />

=<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

dPθ<br />

dµ (x)<br />

∂<br />

∂θ ∗<br />

<br />

dPθ<br />

dµ (x)<br />

<br />

∂ dPθ<br />

∂θ dµ (x)<br />

<br />

dPθ<br />

dµ (x)<br />

2 j(θ)dP θ(x) = i(θ),<br />

<br />

dPθ<br />

dµ (x)<br />

−1<br />

<br />

−<br />

<br />

∂ dPθ<br />

∂θ dµ (x)<br />

<br />

dµ(x)<br />

∂2 ∂θ∂θ∗ <br />

dPθ<br />

dµ (x)<br />

<br />

dPθ<br />

dµ (x)<br />

<br />

⎫<br />

⎪⎬<br />

⎪⎭ dPθ(x)<br />

dPθ(x) = ∂2<br />

∂θ∂θ∗ <br />

dPθ<br />

(x)dµ(x) = 0.<br />


Observation 5.11 Hvis vi har n data punkter X1, . . . Xn og betegner scorefunktionen<br />

med Un(θ) = Un(θ, X1, . . . , Xn), så vil et bevis magen til det ovenfor for E θUn(θ) = 0<br />

give at<br />

Eθ{Un+1(θ) | X1, . . . , Xn} = Un(θ).<br />

Altså er Un(θ) en martingal. Beviset bygger på, at tætheden for X1, . . . Xn+1 er den betingede<br />

tæthed af Xn+1 givet (X1, . . . , Xn ) ganget med tætheden for X1, . . . , Xn. <br />

Jeg kom bort fra, at jeg ville sige noget om fordelingen af ˆθ :<br />

Observation 5.12 I mange modeller er<br />

( ˆθ − θ)j( ˆθ) 1/2 approksimativt N d(0, I d),<br />

hvor I d er d × d enhedsmatricen. <br />

Igen er dette et resultat, der holder for de fleste modeller, når n → ∞, hvor n er antallet<br />

af observationer. Det er også bemærkelsesværdigt, at hvis der findes en ancillær<br />

observator, vil resultaterne i Observationerne 5.8 og 5.12 typisk holde i den betingede<br />

fordeling givet værdien af den ancillære observator.<br />

Indtil nu har jeg talt om estimaternes fordeling og om forskellige områder af trolige<br />

parameterværdier. Heri ligger også kimen til forskellige måder at lave tests på. Lad os<br />

se på situationen, at vi ønsker at teste θ = θ0. En meget naturlig måde til at undersøge<br />

om θ = θ0, er at se om θ0 tilhører et likelihoodområde specificeret ved en værdi af c i<br />

(5.1). Dette svarer imidlertid til at betragte værdien af log kvotienttestoren (log likelihood<br />

ratio teststørrelsen)<br />

W = 2{l( ˆθ) − l(θ0)}, (5.3)<br />

således at θ0 tilhører likelihoodområdet hvis og kun hvis W ≤ 2c. Store værdier af W<br />

betyder, at ˆθ er en meget mere trolig værdi af den ukendte parameter end θ0, og hvis<br />

W bliver for stor, forkaster vi hypotesen θ = θ0. Hvis vi Taylorudvikler (5.3) omkring<br />

ˆθ, får vi den såkaldte Wald teststørrelse:<br />

Wald = ( ˆθ − θ0)j( ˆθ)( ˆθ − θ0) ∗ .<br />

En tredje mulighed er at forkaste hypotesen hvis<br />

U(θ0)i(θ0) −1/2<br />

bliver for stor. Dette kaldes scoretestet. Ækvivalent hermed er det store værdier af<br />

S = U(θ0)i(θ0) −1 U(θ0) ∗<br />

som forkastes.<br />

Svarende til Observationerne 5.8 og 5.12 har vi:<br />

Observation 5.13 Alle tre teststørrelser W , Wald og S er i mange modeller approksimativt<br />

χ2 d-fordelt. <br />

61


62 KAPITEL 5. LIKELIHOODBEGREBER<br />

Vi kan altså lave et approksimativt test på niveau α ved at forkaste, når teststørrelsen<br />

er større en 1 − α fraktilen i en χ 2 d -fordeling.<br />

I nogle af afsnittene nedenfor skal vi diskutere, hvordan vi vælger ét test fremfor et<br />

andet.<br />

Vi så i afsnit 3.4, at likelihoodfunktionen er en minimal sufficient observator. De<br />

ting, som jeg har sagt i dette afsnit, peger hen mod, at de vigtigste aspekter ved likelihoodfunktionen<br />

er parret ( ˆ θ, j( ˆ θ)). Dette bygger på, at hvis vi kender ˆ θ og j( ˆ θ), så<br />

kan vi lave en parabolsk approksimation til likelihoodfunktionen omkring dens maksimum.<br />

Som nævnt ovenfor forudsætter dette at antallet af observationer er stort. Hvis<br />

dette ikke er tilfældet, er det vigtigt at kigge nøjere på likelihoodfunktionen, og det er<br />

vigtigt at bruge log kvotienttestoren W fremfor Wald teststørrelsen.<br />

Jeg vender tilbage til likelihoodfunktionen i afsnit 8.1 i forbindelse med inferens<br />

om en delparameter.<br />

5.1 Opgaver<br />

Opgave 5.1<br />

Lad l(θ), θ ∈ Θ, være loglikelihoodfunktion for observationen x, og lad ˆθ = ˆθ(x) være<br />

maksimum likelihood estimatet under hypotesen θ ∈ Θ :<br />

sup l(θ) = l( ˆθ).<br />

θ∈Θ<br />

Lad Θ0 ⊆ Θ være en delhypotese. Vis, at hvis estimatet ˆθ under den fulde model<br />

tilhører Θ0, ˆ θ ∈ Θ0, da vil<br />

sup l(θ) = l( ˆθ).<br />

θ∈Θ0<br />

Lad nu θ = (ψ, η) og Θ = Ψ × Ω. Antag at l(θ) er på formen<br />

Vis, at<br />

sup<br />

θ∈Θ<br />

l(θ) = l0(ψ) + l1(η).<br />

l(θ) = sup<br />

ψ∈Ψ<br />

l0(ψ) + sup l1(η).<br />

η∈Ω<br />

Opgave 5.2<br />

Lad X1 ∼ Bin(n1, θ1) og X2 ∼ Bin(n2, θ2), hvor (θ1, θ2) ∈ Θ = (0, 1) × (0, 1), og lad X1<br />

og X2 være uafhængige. Opstil log-likelihoodfunktionen l(θ1, θ2) for (θ1, θ2).<br />

Betragt delhypotesen (θ1, θ2) = (ψ, ψ 3 ) med 0 < ψ < 1, og opstil loglikelihoodfunktionen<br />

l(ψ) for ψ.<br />

Vis, at likelihoodligningen l ′ (ψ) = 0 kan reduceres til en tredje grads ligning.<br />

Betragt tilfældet med n1 = n2 = 16, x1 = 8 og x2 = 2. Find maksimum likelihood<br />

estimatet ( ˆθ1, ˆθ2) i den fulde model og dernæst maksimum likelihood estimatet for ψ i<br />

delmodellen.<br />

Opgave 5.3. Newton-Raphson iteration<br />

Lad l(θ) være en loglikelihoodfunktion med θ liggende i et interval af R. Hvis vi ikke


5.1. OPGAVER 63<br />

kan løse likelihoodligningen<br />

l ′ (θ) = 0<br />

direkte, kan vi forsøge at lave en iterativ procedure, som konvergerer mod estimatet ˆ θ.<br />

Newton-Raphson iteration baserer sig på en 1.-ordens Taylorudvikling af l ′ (θ) :<br />

⇓<br />

l ′ (θ) = l ′ (θ1) + (θ − θ1)l ′′ (θ1) + Rest(θ, θ1)<br />

ˆθ − θ1 = −l′ (θ1) − Rest( ˆθ, θ1)<br />

l ′′ .<br />

(θ1)<br />

Vi smider nu restleddet væk og forsøger os med gættet<br />

Vi får derfor en sekvens θ2, θ3, .. på formen<br />

θ2 = θ1 − l ′ (θ1)/l ′′ (θ1).<br />

θ k+1 = θ k − l ′ (θ k)/l ′′ (θ k).<br />

Denne metode til bestemmelse af ˆθ kaldes Newton-Raphson iteration.<br />

Lav en tegning med l ′ (θ) som funktion af θ og vis hvordan θ2 konstrueres ud fra θ1.<br />

Generelt konvergerer Newton-Raphson iterationen mod ˆθ, hvis blot det <strong>første</strong> gæt<br />

θ1 ligger tiltrækkelig tæt på ˆθ. Overvej dette ud fra tegnede eksempler.<br />

Hvis θ er p-dimensional, bliver Taylorudviklingen<br />

og Newton-Raphson iterationen bliver<br />

∂l<br />

(θ) ≈<br />

∂θ<br />

∂l<br />

∂θ (θ1) + (θ − θ1)<br />

∂2l ∂θ∂θ∗ 1 × p 1 × p 1 × p p × p<br />

θk+1 = θk − ∂l<br />

∂θ (θ <br />

∂2l k)<br />

∂θ∂θ∗(θ −1<br />

k) .<br />

Opgave 5.4<br />

Betragt igen opgave 5.2 med X1 ∼ Bin(n1, ψ) og X2 ∼ Bin(n2, ψ 3 ). Vis, at likelihoodligningen<br />

reducerer til<br />

(n1 + 3n2)ψ 3 + (n1 − x1)ψ 2 + (n1 − x1)ψ − (x1 + 3x2) = 0. (∗)<br />

Overvej hvor mange løsninger denne ligning har i intervallet (0, 1).<br />

Opskriv Newton-Raphson iterationen, og overvej et godt startpunkt ψ1.<br />

Lad n1 = 10, n2 = 20 og x1 = 5, x2 = 2. Find ˆψ ved iteration. Start evt. med<br />

ψ1 = x 1<br />

n 1 + x2<br />

n2<br />

1/3 /2. Tegn l(ψ) og find likelihoodintervallet {ψ|l( ˆψ) − l(ψ) ≤ 2}.<br />

Opgave 5.5<br />

Lad X1, . . . , Xn være uafhængige N(µ, σ 2 )-fordelte. Find den observerede information<br />

j(µ, σ 2 ) og den forventede information i(µ, σ 2 ).


64 KAPITEL 5. LIKELIHOODBEGREBER<br />

Maksimum likelihood estimatet for σ 2 er ˆσ 2 = 1 n Σ(x i − ¯x) 2 . Vis, at for n → ∞ vil<br />

√ n(ˆσ 2 − σ 2 ) ˜→N(0, τ 2 )<br />

og angiv τ2 .<br />

Vink: Det sidste spørgsmål kan løses direkte, da ˆσ 2 ’s fordeling er kendt. Alternativt<br />

kan man skrive<br />

√ n(ˆσ 2 − σ 2 ) = 1<br />

√n<br />

n<br />

∑<br />

1<br />

og vise at n 1/4 ( ¯X − µ) → 0 i sandsynlighed.<br />

<br />

(Xi − µ) 2 − σ 2<br />

<br />

− n 1/4 2 ( ¯X − µ)<br />

Opgave 5.6<br />

Denne opgave skal løses numerisk ved hjælp af en lille computer.<br />

I forbindelse med estimation af fordelingen af inkubationstiden for AIDS har man<br />

forsøgt at bruge data for personer smittet ved blodtransfusion, hvor netop smittetidspunktet<br />

er kendt. Hvis for eksempel undersøgelsen af afsluttet i 1985, har vi observeret<br />

alle dem, der har fået AIDS før 1985 og som er smittet ved blodtransfusion. Lad observationerne<br />

være Y i < Z i < 1985, hvor Y i er smittetidspunktet og Z i er tidspunktet for<br />

AIDS i fuldt udbrud. Der vil være andre, der er smittede til tidspunktet Y i, men disse<br />

observeres ikke, da deres AIDS tidspunkt Z ligger senere end 1985. Det relevante vil<br />

derfor være at betragte Xi = Zi − Yi som en observation af en inkubationstid i den<br />

betingede fordeling givet X i < 1985 − Y i = U i.<br />

Vi opstiller derfor en likelihoodfunktion baseret på observationerne (x1, u1), . . . ,<br />

(xn, un) og den betingede fordeling af X givet X < u. Vi vil betragte modellen, hvor<br />

inkubationstiden er Weibullfordelt, d.v.s. fordelingsfunktionen er givet ved<br />

hvor parametrene (α, β) varierer i R 2 +<br />

X i men K i, hvor<br />

bliver likelihoodfunktionen<br />

L(α, β) =<br />

n<br />

∏ 1<br />

= ∏ k≤u<br />

P(X ≤ x) = 1 − e −βxα<br />

,<br />

. Hvis data er grupperet, så at vi ikke observerer<br />

K i = l for l − 1 < X i ≤ l,<br />

exp[−β(ki − 1) α ] − exp[−βkα i ]<br />

1 − exp(−βuα i )<br />

<br />

exp[−β(k − 1) α ] − exp[−βkα ]<br />

1 − exp(−βuα n(k,u) ,<br />

)<br />

hvor n(k, u) er antal observationer (k i, u i) med vaerdien (k, u). Datasættet nedenfor<br />

stammer fra San Francisco. For hver kombination af (k, u) angiver tabellen hvor mange<br />

observationer n(k, u) der er med denne værdi af (k, u)<br />

k 6 7 3 4 5 6 3 4 5 1 2 3 4 1 2 3 1 2<br />

u 7 7 6 6 6 6 5 5 5 4 4 4 4 3 3 3 2 2<br />

n(k, u) 2 1 2 1 5.5 4.5 8 11.5 5 1 7.5 8.5 17 3 14.5 20.5 4.5 20.5


5.1. OPGAVER 65<br />

Find maksimum likelihood estimatet (ˆα, ˆβ), og skitser på en tegning området l(ˆα, ˆβ) −<br />

l(α, β) ≥ 3, hvor l(α, β) = log L(α, β).<br />

Vink: En mulighed er at lave en lille (α, β)-tabel med værdier af l(α, β). Når det på<br />

denne måde er bestemt, hvor cirka (ˆα, ˆβ) ligger, kan man enten gøre tabellen finere og<br />

finere, eller man kan lave Newton-Raphson iteration. Likelihoodområdet findes ved<br />

for udvalgte værdier af α at finde de to værdier af β, som afgrænser området.


Kapitel 6<br />

Centrale estimatorer med minimal<br />

varians og nedre grænse på variansen<br />

6.1 Centrale estimatorer med minimal varians<br />

I dette afsnit betragter jeg igen en model (X , A, P) med P = {P θ|θ ∈ Θ}. Desuden<br />

lader jeg ψ : Θ → R være en parameterfunktion, som jeg ønsker at estimere. Hvis<br />

f.eks. P er alle normalfordelinger , P = {N(µ, σ 2 )|µ ∈ R, σ 2 > 0}, og vi ønsker at<br />

estimere middelværdien, vil ψ(µ, σ 2 ) = µ.<br />

Definition 6.1 <strong>Et</strong> estimat S = s(X), s : (X , A) → (R, B(R)), siges at være centralt (på<br />

engelsk unbiased) hvis<br />

<br />

EθS = s(x)dPθ(x) = ψ(θ) ∀θ ∈ Θ.<br />

Centrale estimatorer eksisterer ikke altid:<br />

Eksempel 6.2.<br />

Lad X være binomialfordelt med antalsparameter n og sandsynlighedsparameter 0 <<br />

θ < 1. Lad ψ(θ) = θ −1 . For at s(X) er et centralt estimat, skal<br />

n<br />

∑ s(k)<br />

k=0<br />

Lader vi θ → 0, får vi ligningen<br />

og en central estimator for 1 θ<br />

<br />

n<br />

<br />

θ<br />

k<br />

k (1 − θ) n−k = 1<br />

θ<br />

s(0) = ∞,<br />

∀ 0 < θ < 1.<br />

eksisterer ikke. <br />

Mængden af centrale estimatorer af ψ med endelig varians betegnes C(ψ) :<br />

C(ψ) = {s : X → R | EθS = ψ(θ), EθS 2 < ∞ ∀ θ ∈ Θ}.<br />

Specielt er C0 = C(0) alle funktioner med middelværdi 0 og med endelig varians for<br />

alle θ ∈ Θ. Vi vil kun betragte estimatorer i C(ψ), og jagter elementer i denne klasse<br />

med mindst mulig varians:<br />

67


68 KAPITEL 6. CENTRALE ESTIMATORER MED MINIMAL VARIANS<br />

Definition 6.3 En estimator S0 ∈ C(ψ) kaldes UMVU (uniformly minimum variance<br />

unbiased) eller central estimator med minimal varians hvis<br />

V θ(S) ≥ V θ(S0) ∀S ∈ C(ψ) ∀θ ∈ Θ. <br />

Selvom der eksisterer centrale estimatorer, C(ψ) = ∅, er det ikke sikkert, at der eksisterer<br />

en UMVU-estimator. Den eventuelt manglende eksistens skyldes, at vi i Definition<br />

6.3 forlanger minimal varians for alle θ ∈ Θ. For et givet θ0 ∈ Θ er det altid muligt at<br />

finde Sθ0 ∈ C(ψ), så at Vθ0 (S) ≥ Vθ0 (Sθ0 ) for alle S ∈ C(ψ). Dette bygger på Matematik<br />

2 teori:<br />

Observation 6.4 Lad L 2 θ0 = { f : X → R | E θ0 f(X)2 < ∞}, som er et vektorrum med<br />

det indre produkt<br />

< f , g > θ0 =<br />

<br />

f(x)g(x)dP θ0 (x).<br />

I L 2 θ0 er C0 et underrum, og der eksisterer en ortogonal projektion Proj θ0 af L2 θ0<br />

på C0.<br />

Hvis S1 er et fast valgt element i C(ψ) ⊂ L2 , vil ethvert andet element S ∈ C(ψ) kunne<br />

θ0<br />

skrives som S = S1 − S2 med S2 ∈ C0. Vi vil nu vælge S2, så at variansen under Pθ0 minimeres, d.v.s. vi skal minimere<br />

< (S1 − ψ0) − S2, (S1 − ψ0) − S2 > θ0 =< S1 − S2, S1 − S2 > θ0 −ψ2 0 ,<br />

hvor ψ0 = ψ(θ0). Løsningen til dette er<br />

som er bestemt ved<br />

S2 = Proj θ0 (S1),<br />

< S1 − Proj θ0 (S1), S2 > θ0 = 0 ∀S2 ∈ C0. (6.1)<br />

Det er altså muligt at finde Sθ0 ∈ C(ψ), som har minimal varians under Pθ0 . Dette entydigt<br />

bestemte Sθ0 kaldes en LMVU-estimator (locally minimum variance unbiased).<br />

△ <br />

Eksempel 6.5.<br />

Lad X antage værdierne −1, 0, 1, · · · med sandsynlighederne<br />

P(X = −1) = θ, P(X = k) = (1 − θ) 2 θ k , k = 0, 1, . . . ,<br />

hvor 0 < θ < 1. Lad ψ1(θ) = θ, ψ2(θ) = (1 − θ) 2 og definer<br />

S1 =<br />

1 hvis X = −1<br />

0 ellers<br />

<br />

1 hvis X = 0<br />

, S2 =<br />

0 ellers<br />

Da er S1 ∈ C(ψ1) og S2 ∈ C(ψ2). Hvis S = s(X) ∈ C0 skal<br />

s(−1)θ +<br />

∞<br />

∑<br />

k=0<br />

(1 − θ) 2 θ k s(k) = 0 ∀ 0 < θ < 1,


6.1. CENTRALE ESTIMATORER MED MINIMAL VARIANS 69<br />

og dette medfører, at<br />

C0 = {s : X → R | s(k) = ak for et a ∈ R}.<br />

Hvis vi vil minimere variansen under Pθ0 , skal vi minimere<br />

mht. a ∈ R. Løsningen hertil er<br />

â i(θ0) =<br />

Eθ0 XSi<br />

=<br />

Eθ0X2 ∑(si(k) − ak) 2 Pθ0 (X = k)<br />

<br />

−θ0/[θ0 + (1 − θ0) 2 ∑ ∞ 1 k2θk 0 ] i = 1<br />

0 i = 2<br />

Da â2(θ0) ikke afhænger af θ0 er S2 − â2X = S2 en UMVU for ψ2. Omvendt da â1(θ0)<br />

afhænger af θ0, så eksisterer der ikke en UMVU for ψ1. <br />

Formel (6.1) indeholder en karakterisation af UMVU-estimatorer. Dette vil jeg nu<br />

vise præcist:<br />

Lemma 6.6 S0 ∈ C(ψ) er en UMVU-estimator hvis og kun hvis<br />

E θ(S0S) = 0 ∀ S ∈ C0 ∀ θ ∈ Θ. <br />

Bevis. Lad E θS0S = 0, ∀ S ∈ C0. Hvis S1 ∈ C(ψ) vil S = S1 − S0 ∈ C0, og<br />

V θS1 = V θ(S1 − S0 + S0) = V θ(S) + V θ(S0) + 2Cov θ(S, S0)<br />

= V θ(S) + V θ(S0) + 2E θSS0 = V θ(S) + V θ(S0) ≥ V θ(S0).<br />

D.v.s. S0 er en UMVU-estimator.<br />

Hvis S0 er en UMVU-estimator og ρ = E θ0 S0S = 0 for et S ∈ C0 og et θ0 ∈ Θ, skal<br />

vi vise en modstrid. Lad S λ = S0 + λS ∈ C(ψ). Så er<br />

Vθ0 (Sλ) = Vθ0 (S0) + λ 2 Vθ0 (S) + 2λρ,<br />

og da ρ = 0 medfører Vθ0 (S) > 0, kan vi tage λ = −ρ/Vθ0 (S), hvilket giver<br />

V θ0 (S λ) = V θ0 (S0) − ρ2<br />

V θ0 (S) < V θ0 (S0).<br />

Dette er en modstrid med at S0 er en UMVU-estimator. <br />

Korollar 6.7 (Entydighed af UMVU-estimatorer). Hvis S1, S2 begge er UMVU-estimatorer<br />

for ψ vil<br />

S1 = S2 n.s. − P θ ∀ θ ∈ Θ. <br />

Bevis. Da S1 − S2 ∈ C0 har vi fra Lemma 6.6, at<br />

V θ(S1) = V θ(S1 − S2 + S2) = V θ(S2) + V θ(S1 − S2).<br />

Da S1 og S2 begge er UMVU, er V θ(S1 − S2) = 0, som giver resultatet.


70 KAPITEL 6. CENTRALE ESTIMATORER MED MINIMAL VARIANS<br />

I Observation 6.4 blev det antydet, at for at minimere variansen under Pθ0 , skulle vi<br />

betragte en projektion. For at få en UMVU-estimator skal denne projektion være uafhængig<br />

af θ0. Projektioner minder lidt om betingede middelværdier, og hvis disse skal<br />

være uafhængige af parameteren, nærmer vi os noget med sufficiente observatorer. At<br />

dette ikke er fuldstændig tom snak, vidner de næste to sætninger om.<br />

Sætning 6.8 (Rao-Blackwell). Lad T være sufficient for P og lad S ∈ C(ψ). Da T er<br />

sufficient, afhænger ST = Eθ(S|T) ikke af θ, og vi har, at ST ∈ C(ψ) og<br />

V θ(ST) ≤ V θ(S),<br />

med lighedstegn hvis og kun hvis S = ST n.s. − P θ. Når man erstatter S med ST siger<br />

man, at man har udført en “Rao-Blackwellisation". <br />

Bevis. Da E θST = E θS og E θS 2 T ≤ E θE θ(S 2 |T) = E θS 2 < ∞ vil ST ∈ C(ψ). Da S =<br />

S − ST + ST har vi<br />

V θ(S) = V θ(S − ST) + V θ(ST) + 2Cov θ(S − ST, ST)<br />

= V θ(S − ST) + V θ(ST), (6.2)<br />

da Cov θ(S − ST, ST) = E θ((S − ST)ST) = E θ(STE θ(S − ST|T)) = 0. Af 6.2 følger umiddelbart<br />

uligheden i sætningen. Lighed opnås hvis og kun hvis<br />

V θ(S − ST) = 0 ⇔ S = ST n.s. − p θ. <br />

I eksempel 6.5 havde vi en model, hvor der for nogle, men ikke alle, parameterfunktioner<br />

ψ(θ) eksisterede en UMVU-estimator. Hvis vi har en model med en sufficient og<br />

komplet observator T, er situationen en anden:<br />

Sætning 6.9. Hvis T er sufficient og komplet for P og ψ : Θ → R er en parameterfunktion<br />

med C(ψ) = ∅, så eksisterer der en (entydig, jvf. Korollar 6.7) UMVU-estimator<br />

for ψ og denne er en funktion af T. Hvis S ∈ C(ψ) så er UMVU-estimatoren givet ved<br />

ST = E(S|T). Specielt hvis T = t(X), t : X → Y og f : Y → R med E θ f(T) 2 < ∞ ∀ θ,<br />

så er f(t(X)) en UMVU-estimator for parameterfunktionen<br />

ψ f(θ) = E θ f(T). <br />

Bevis. Lad S ∈ C(ψ) og definer ST = E(S|T) . Vi vil vise, at ST er en UMVU-estimator<br />

for ψ. Lad ˜S ∈ C(ψ) og lad ˜ST = E( ˜S|T). Da ˜ST og ST begge er funktioner af T og da<br />

Eθ( ˜ST − ST) = ψ(θ) − ψ(θ) = 0 ∀ θ ∈ θ<br />

vil, da T er komplet, ˜ST = ST n.s.-P θ for alle θ ∈ θ. Dermed har vi ifølge sætning 6.8 at<br />

V θST = V θ ˜ST ≤ V θ ˜S.<br />

Den sidste del af sætningen følger af, at vi trivielt har, at f(T) ∈ C(ψ f), og da<br />

E( f(T)|T) = f(T) er f(T) den UMVU-estimator, som vi konstruerede ovenfor. <br />

Sætning 6.9 giver os ikke blot eksistens, men også en metode til at konstruere UMVUestimatorer<br />

på.


6.2. VARIANSULIGHEDER 71<br />

Eksempel 6.10.<br />

Lad X1, . . . , Xn være i.i.d. fra en N(θ, 1). Fra eksponentiel familie teori har vi, at ∑ X i<br />

er sufficient og komplet. Da X1 er en central estimator for θ, giver Sætning 6.9, at<br />

<br />

E X1| ∑<br />

i<br />

X i<br />

<br />

= 1<br />

n ∑ j<br />

E 1<br />

Xj| ∑ Xi =<br />

n E<br />

<br />

∑<br />

j<br />

X j| ∑ i<br />

X i<br />

<br />

= 1<br />

n ∑ i<br />

er en UMVU-estimator for θ.<br />

(<strong>Et</strong> direkte bevis for sufficiens er som følger: Tætheden for X1, . . . , Xn er (2π) −n/2 ·<br />

exp{− 1 2 ∑i(x i − ¯x) 2 } exp{− n 2 ( ¯x − θ)2 }, og når vi dividerer denne med tætheden for ¯X,<br />

forsvinder det sidste eksponentielle led, og vi får noget der ikke afhænger af θ. Hvis vi<br />

vil bevise komplethed af ¯X benytter vi, at hvis h(v) exp{−(v − θ) 2 /(2σ 2 )} = 0 for<br />

alle θ, så er ˜ h(v) exp{vµ} = 0 for alle µ, hvor ˜ h(v) = h(v) exp{−v 2 /(2σ 2 )}. Vi spitter<br />

dernæst ˜ h op i den positive og negative del og benytter entydighed af laplacetransformen.)<br />

<br />

6.2 Variansuligheder<br />

Ovenfor undersøgte jeg eksistensen af centrale estimatorer med minimal varians. Udover<br />

eksistensen vil vi også gerne vide hvad variansen er. Denne er som regel svær<br />

at beregne, men istedet kan vi angive en simpel nedre grænse. At den nedre grænse,<br />

som vi udleder, er relevant, kan ses i asymptotiske resultater. I Bemærkning 5.12 anførte<br />

jeg, at vi ofte har ( ˆθ − θ)j( ˆθ) 1/2 ˜→N d(0, I d), men da også typisk j( ˆθ)/i(θ) → 1<br />

vil ( ˆθ − θ)i(θ) 1/2 ˜→N d(0, I d). D.v.s. at den forventede information i(θ) −1 måler den asymptotiske<br />

varians af ˆθ. Nedenfor skal vi netop udlede i(θ) −1 som en nedre grænse<br />

for variansen. Dette viser, at maksimum likelihood estimatet ud over at være begrundet<br />

i fortolkningen af likelihoodfunktionen også kan begrundes i dets gode egenskaber,<br />

når antallet af observationer vokser.<br />

Lemma 6.11 Antag at alle målene i P er indbyrdes ækvivalente. Så gælder for alle<br />

θ ∈ Θ og alle S ∈ C(ψ) at<br />

(med a ∞ = 0 og 0 0<br />

V θ(S) ≥ sup<br />

η∈Θ<br />

[ψ(η) − ψ(θ)] 2<br />

.<br />

V θ( dPη<br />

dP θ )<br />

= 0). <br />

Bevis. Vi skal vise, at V θ(S) ≥ [ψ(η) − ψ(θ)] 2 /V θ( dPη<br />

dP θ ) for alle η. Hvis V θ( dPη<br />

dP θ ) = ∞<br />

er resultatet trivielt opfyldt, og tilsvarende hvis V θ( dPη<br />

dP θ ) = 0, så er ψ(η) = ψ(θ), og<br />

resultatet er trivielt. I modsat fald har vi Cauchy-Schwarz’ ulighed<br />

<br />

Covθ S, dPη<br />

<br />

dPθ 2 dPη<br />

<br />

≤ Vθ(S)V θ<br />

dPθ X i


72 KAPITEL 6. CENTRALE ESTIMATORER MED MINIMAL VARIANS<br />

Resultatet følger derfor af<br />

<br />

Covθ S, dPη<br />

<br />

dPθ<br />

<br />

dPη<br />

= EθS dPθ<br />

<br />

dPη<br />

= EθS dP θ<br />

<br />

dPη dPη<br />

− Eθ = EθS − Eη1<br />

dPθ dPθ<br />

<br />

− 1 = EηS − EθS = ψ(η) − ψ(θ) <br />

Det næste resultat får vi fra lemma 6.11 ved at lade η → θ på passende vis. Da vi skal<br />

bytte rundt på differentiation og integration, skal vi have nogle yderligere antagelser.<br />

Sætning 6.12 (Cramér-Rao’s ulighed). Antag at alle målene i P er indbyrdes ækviva-<br />

lente og lad Lθ(η, x) = dPη<br />

dP θ (x). Antag at<br />

(i) Θ er en åben delmængde af R d ,<br />

(ii) ψ er 1 gang differentiabel,<br />

(iii) ∀ θ ∈ Θ er Lθ(η, x) differentiabel som funktion af η i punktet θ n.s.−Pθ, den<br />

afledede ∂<br />

∂η Lθ(η, x)| η=θ betegnes L ′ θ (θ, x),<br />

(iv) i(θ) = EθL ′ θ (θ, X)∗ L ′ θ (θ, X) er positiv definit ,<br />

(v) ∀ θ ∈ Θ findes der ω θ > 0 og D θ : X → R så at E θD θ(X) 2 < ∞ og |L θ(η, x) − 1| ≤<br />

η − θDθ(x) for alle η − θ < ωθ n.s. − Pθ.<br />

Da gælder for alle S ∈ C(ψ) at<br />

1<br />

t 2[ψ(ηt) − ψ(θ)] 2 →<br />

Vθ(S) ≥ ∂ψ ∂ψ<br />

(θ)i(θ)−1<br />

∂θ ∂θ∗(θ). Bevis. Lad ηt = θ + t ∂ψ<br />

∂θ (θ)i(θ)−1 . Da ψ er differentiabel, er t→ ψ(ηt) differentiabel, og<br />

<br />

∂ψ ∂ψ<br />

(θ)i(θ)−1<br />

∂θ ∂θ∗(θ) 2 for t → 0. (6.3)<br />

Fra domineret konvergens får vi, idet ηt − θ = |t| dψ<br />

dθ (θ)i(θ)−1 < ωθ for t lille,<br />

1<br />

t2 V 2 Lθ(ηt, x) − 1<br />

θ(Lθ(ηt, X)) =<br />

dP<br />

t<br />

θ(x)<br />

2 ∂ψ<br />

→<br />

(θ, x)∗ dPθ(x) <br />

∂ψ<br />

=<br />

∂θ (θ)i(θ)−1 L ′ θ<br />

∂θ (θ)i(θ)−1 L ′ θ (θ, x)∗ L ′ θ<br />

<br />

= ∂ψ<br />

∂θ (θ)i(θ)−1<br />

= ∂ψ<br />

∂θ (θ)i(θ)−1 −1 ∂ψ<br />

i(θ)i(θ)<br />

∂θ∗(θ) ∂ψ<br />

(θ, x)i(θ)−1<br />

∂θ∗(θ)dP θ(x)<br />

L ′ θ (θ, x)∗ L ′ θ (θ, x)dP <br />

θ(x)<br />

−1 ∂ψ<br />

i(θ)<br />

∂θ∗(θ) = ∂ψ ∂ψ<br />

(θ)i(θ)−1<br />

∂θ ∂θ∗(θ). (6.4)<br />

Dividerer vi nu (6.3) med (6.4), fås resultatet fra Lemma 6.11.


6.2. VARIANSULIGHEDER 73<br />

Observation 6.13 Ovenfor er i(θ) udtrykt ved L ′ θ (θ, x). Hvis µ er et fast mål som dominerer<br />

P og L(θ) = L(θ, x) er likelihoodfunktionen dPθ dµ , vil<br />

∂<br />

∂η L θ(η, x)| η=θ =<br />

∂L<br />

∂θ (θ)<br />

L(θ)<br />

hvor l(θ) = logL(θ) er loglikelihoodfunktionen. D.v.s.<br />

i(θ) = E θ<br />

∂l ∂l<br />

∂θ∗(θ) ∂θ (θ),<br />

= ∂l<br />

∂θ (θ),<br />

og denne kaldes Fisher’s informationsfunktion. Definitionen af i(θ) afviger fra Definition<br />

5.9, men som det fremgår af Observation 5.10, er de to definitioner ækvivalente. <br />

Eksempel 6.14.<br />

I Eksempel 5.4 betragtede vi observationer fra en exponentialfordeling. Loglikelihoodfunktionen<br />

var<br />

l(β) = n{ln β − β ¯x},<br />

og vi fandt ˆβ = ¯X −1 . Da E ˆβ = β n<br />

n−1 har vi fra Sætning 6.9, at<br />

n − 1<br />

n<br />

ˆβ =<br />

n − 1<br />

∑ X i<br />

er en central estimator med minimal varians for β. Desuden finder vi, at<br />

<br />

n − 1<br />

V<br />

∑ Xi = (n − 1) 2<br />

Den forventede information er<br />

i(β) = E<br />

<br />

β 2<br />

(n − 1)(n − 2) −<br />

2 ∂l<br />

= n<br />

∂β<br />

2 <br />

1<br />

E<br />

β − 2 ¯X<br />

og demed bliver Cramér-Rao’s nedre grænse<br />

1<br />

n β2<br />

β2 (n − 1) 2<br />

<br />

= 1<br />

n − 2 β2 .<br />

= n<br />

,<br />

β2 som er strengt mindre end 1<br />

n−2 β2 . <br />

Eksempel 6.15.<br />

Lad P være en eksponentiel familie på minimal form<br />

dPθ (x) = b(x)eθ·t(x)−κ(θ)<br />

dµ<br />

med θ ∈ Θ ⊆ R d . Så er loglikelihoodfunktionen<br />

l(θ) = θ · t(x) − κ(θ),


74 KAPITEL 6. CENTRALE ESTIMATORER MED MINIMAL VARIANS<br />

og dermed<br />

∂l<br />

i(θ) = Eθ ∂θ∗ ∂l<br />

∂θ = Eθ[t(X) − τ(θ)] ∗ [t(X) − τ(θ)] = Vθ(t(X)) = ∂2κ .<br />

∂θ∂θ∗ Lad for et øjeblik d = 1. Så siger Sætning 6.9, at T = t(X) er en UMVU-estimator for<br />

τ(θ) = E θT. Cramér-Rao’s nedre grænse er i dette tilfælde<br />

∂τ ∂τ<br />

i(θ)−1<br />

∂θ ∂θ∗ = Vθ(T)V θ(T) −1 Vθ(T) = Vθ(T), d.v.s. at den nedre grænse er lig med den faktiske varians, når middelværdien τ(θ)<br />

estimeres med T.<br />

Hvis ψ : Θ → R er en generel parameterfunktion og denne estimeres med ˆψ =<br />

ψ( ˆθ) = ψ( ˆθ(T)), kan vi approksimere variansen ved at Taylorudvikle:<br />

ˆψ = ψ(θ) + (T − τ) ∂ ˆθ<br />

∂t ∗<br />

Hvis vi kun betragter de <strong>første</strong> to led fås<br />

V θ( ˆψ) ∼ ∂ψ<br />

∂θ V θ(T) −1 V θ(T)V θ(T)<br />

∂ψ<br />

∂θ ∗ + · · · = ψ(θ) + (T − τ)V θ(T)<br />

−1 ∂ψ ∂ψ<br />

= ∗<br />

∂θ<br />

∂θ<br />

−1 ∂ψ<br />

∂ψ<br />

i(θ)−1 ,<br />

∂θ∗ + · · ·<br />

∂θ∗ altså Cramér-Rao’s nedre grænse. Dette viser, at den simple Cramér-Rao nedre grænse<br />

typisk ikke vil være langt fra den faktiske varians. <br />

Observation 6.16 I forbindelse med Cramer-Rao’s nedre grænse gælder der, for en<br />

eksponentiel familie med tætheder på formen<br />

dPθ<br />

(x) = exp{φ(θ) · t(x) − κ(φ(θ))},<br />

dµ<br />

hvor φ(θ), t(x) er p-dimensionale og θ er k-dimensional, k ≤ p, at betingelserne (i),<br />

(iii), (iv) og (v) er opfyldt, hvis<br />

(i) Støtten for t(X) ikke er indeholdt i et affint underum af R p , og Λ = {ξ| exp[ξ ·<br />

t(x)]µ(dx) < ∞} har ikke-tomt indre.<br />

(ii) φ(θ) er kontinuert differentiabel;<br />

(iii) φ(θ) tilhører det indre af definitionsområdet Λ for κ(ξ);<br />

(iv)<br />

∂φ<br />

∂θ ∗(θ) har fuld rang.<br />

Bevis. Idet vi husker at<br />

τ(ξ) = ∂κ<br />

∂ξ (ξ) = E ξt(X) og<br />

∂ 2 κ<br />

∂ξ∂ξ ∗ (ξ) = V ξ(t(X)),


6.3. PUSTERUM 75<br />

viser en lille udregning at<br />

i(θ) = ∂φ<br />

∂θ ∗ V φ(θ)(t(X)) ∂φ∗<br />

∂θ ,<br />

som er positiv definit under antagelsen (i) og under antagelsen (iv). Desuden har vi<br />

med<br />

ηz = θ + z(η − θ), og f(z) = exp{(φ(ηz) − φ(θ)) · t(x) − κ(φ(ηz)) + κ(φ(θ))},<br />

formlen<br />

L θ(η, x) − 1 = f(1) − f(0) =<br />

1<br />

f ′ (u)du<br />

0<br />

1 ∂φ<br />

= (η − θ)<br />

0 ∂θ∗(ηu){t − τ(φ(ηu))} ∗ f(u)du.<br />

Lad nu ω være så lille, at der eksisterer δ > 0 med Kugle(φ(θ); 3δ √ p) ⊆ Λ og |η − θ| <<br />

ω medfører |φ(η) − φ(θ)| < δ. På grund af kontinuitet af de indgående funktioner kan<br />

vi se at der eksisterer konstanter c i så at<br />

|L θ(η, x) − 1| ≤ |η − θ|(c1 + c2|t|)<br />

p<br />

∏ 1<br />

{exp(δt i) + exp(−δt i)} = |η − θ|D θ(x).<br />

Når vi udregner produktet i D θ(x) og kvadrerer får vi en sum af led på formen<br />

(c1 + c2|t(x)|) 2 exp{(∆1 + ∆2) · t(x)},<br />

∆ i = δ(j i1, . . . , j ip), hvor j il enten er +1 eller −1.<br />

Med antagelsen om δ kan man nu indse at D θ(x) 2 er P θ-integrabel, idet ∆1 + ∆2 + φ(θ)<br />

ligger i det indre af Λ, og alle momenter af t(X) eksisterer for en exponentiel tæthed.<br />

6.3 Pusterum<br />

Lad os for et øjeblik standse det hæsblæsende tempo og samle tankerne. Vi startede<br />

dette notesæt med at indføre sufficiensprincippet i afsnit 3.5 og betingningsprincippet<br />

i afsnit 4.1. Hvordan passer det sammen med teorien for UMVU-estimatorer? I Sætning<br />

6.8 så vi, at vi skal lade en estimator være en funktion af den minimal sufficiente<br />

for at reducere variansen, d.v.s. at der er god overensstemmelse med sufficiensprincippet.<br />

Hvis T er sufficient og komplet, er der også overensstemmelse med betingningsprincippet,<br />

idet vi fra Basu’ sætning har, at fordelingen af T er den samme som den<br />

betingede fordeling af T givet en ancillær U.<br />

Det resterende tilfælde er hvor den minimal sufficiente observator T0 ikke er komplet,<br />

og hvor der eksisterer en ancillær observator U. Hvis vi benytter betingningsprincippet,<br />

skal vi derfor anvende teorien ovenfor på klassen af betingede fordelinger<br />

P u = {P θ(· | U = u)|θ ∈ θ} for ethvert u ∈ U. Hvis der for ethvert u eksisterer en<br />

UMVU-estimator S(u) for klassen P u , vil det være naturligt at spørge, om S(U) er en


76 KAPITEL 6. CENTRALE ESTIMATORER MED MINIMAL VARIANS<br />

UMVU-estimator for P ? Svaret er ikke helt oplagt på grund af følgende modsatrettede<br />

uligheder:<br />

⇓<br />

V(S) = V(E(S|U)) + E{V(S|U)}<br />

inf V(S) ≥ E{ inf V(S|U)} ≤ E{ inf<br />

S∈C(ψ) S∈C(ψ) S∈Cu V(S|U = u)}<br />

(ψ)<br />

= E(V(S(u)|U = u)),<br />

hvor Cu (ψ) er de centrale estimatorer for klassen P u . Svaret er imidlertid nej, som det<br />

følgende eksempel viser. Lad udfaldsrummet være {1, 2, 3, 4} med sandsynlighederne<br />

(1 + θ)/4, (1 − θ)/4, (1 + 2θ)/4 og (1 − 2θ)/4, hvor − 1 2 < θ < 1 2 . Lad U være 1 hvis X<br />

er 1 eller 2 og lad U være 2 hvis X er 3 eller 4. Så er U ancillær. Lad endelig S(U) antage<br />

værdierne 1, -1, 1 2 , − 1 2 , svarende til X = 1, 2, 3, 4. Det er let at se at S(U) er UMVU i det<br />

betingede fordelinger givet U, men ikke UMVU i de ubetingede.<br />

Med hensyn til overensstemmelse mellem UMVU-estimatorer og maksimum likelihood<br />

estimatorer har jeg vist ved eksempler, at maksimum likelihood estimatorer ikke<br />

nødvendigvis er centrale og dermed ikke er UMVU-estimatorer. Til gengæld har jeg<br />

antydet, at maksimum likelihood estimatorer approksimativt er UMVU-estimatorer<br />

med en varians givet ved Cramér-Rao’s nedre grænse. Dette er især baseret på, hvad<br />

der sker, når antallet af observationer er stort.<br />

6.4 Opgaver<br />

Opgave 6.1<br />

Lad udfaldsrummet være X = {−1, 0, 1, 2, 3}, og lad P = {P θ|0 ≤ θ ≤ 1} være givet<br />

ved<br />

P θ(X = −1) = 2θ(1 − θ) og P θ(X = k) = θ k (1 − θ) 3−k for k = 0, 1, 2, 3.<br />

Find LMVU-estimatoren i punktet θ0 for henholdsvis ψ1(θ) = θ og ψ2(θ) = θ(1 − θ)<br />

(se observation 6.4 og eksempel 6.5). Afgør i begge tilfælde om estimatoren er UMVU.<br />

Find maksimum likelihood estimatet for ψ1, og lav et plot der viser bias af maksimum<br />

likelihood estimatet samt et plot der viser variansen af maksimum likelihood<br />

estimatet og variansen af LMVU-estimatet.<br />

Lav et plot for parameteren ψ2 af variansen af LMVU-estimatet samt af Cramer-<br />

Rao’s nedre grænse for variansen.<br />

Opgave 6.2<br />

Lad S1 og S2 være UMVU estimatorer for estimation af henholdsvis ψ1(θ) og ψ2(θ).<br />

Vis, at aS1 + bS2 er en UMVU estimator for estimation af aψ1(θ) + bψ2(θ). Her er a og<br />

b to vilkårlige reelle tal.<br />

Opgave 6.3<br />

Lad X1, . . . , Xn være uafhængige og identisk fordelte med varians Var(X i) = σ 2 . Lad<br />

s 2 = 1<br />

n−1 ∑n 1 (X i − ¯X) 2 .


6.4. OPGAVER 77<br />

(i) Vis, at s 2 er en unbiased estimator af σ 2 .<br />

(ii) Antag at X i antager værdierne 1 og 0 med sandsynlighederne θ og 1 − θ, 0 <<br />

θ < 1. Vis, at s 2 er en funktion af T = ∑ n 1 X i , og at s 2 er en UMVU estimator for<br />

σ 2 = θ(1 − θ).<br />

Opgave 6.4<br />

Lad X1, . . . , Xn være uafhængige og Bin(1, θ)-fordelte. Lad S1 være givet ved<br />

S1 = 1 hvis X1 = X2 = X3 = 1 og S1 = 0 ellers .<br />

(i) Vis, at T = ∑ n 1 X i er sufficient og komplet.<br />

(ii) Vis, at S1 er et unbiased estimat af ψ(θ) = θ 3 .<br />

(iii) Find en UMVU-estimator for ψ(θ) = θ 3 .<br />

Opgave 6.5<br />

Lad X1, . . . , Xn være Poissonfordelte med middelværdi θ −1 , og lad Y1, . . . , Yn være Poissonfordelte<br />

med middelværdi e −θ og lad alle de stokastiske variable være uafhængige.<br />

Den minimal kanoniske observator er T = (∑ n 1 X i, ∑ n 1 Y i) . Som i opgave 2.4 kan<br />

det vises, at T er komplet for familien P = {P θ|θ > 0}. Lad S = ¯X + ¯Y.<br />

(i) Vis, at S er en UMVU estimator for ψ(θ) = θ −1 + e −θ .<br />

(ii) Find variansen på √ n(S − ψ(θ)) og sammenlign med Cramér-Rao’s nedre grænse<br />

for V θ(S).<br />

(iii) Sammenlign resultatet i (ii) med resultatet i eksempel 6.14.<br />

Opgave 6.6<br />

Lad X1, . . . , Xn være uafhængige N(µ, σ 2 )-fordelte, og lad SSD = ∑ n 1 (X i − ¯X) 2 . Definer<br />

S = ¯X 2 − SSD/[n(n − 1)].<br />

(i) Vis, at S er en UMVU-estimator for µ 2 .<br />

(ii) Find variansen på S.<br />

(iii) Find Cramér-Rao’s nedre grænse for Var(S) og sammenlign med (ii).<br />

Opgave 6.7 En lille omtolkning af Cramér-Rao’s nedre grænse<br />

Lad en observator S have middelværdi ψ S(θ) = E θS. Vi har da trivielt at S er en unbiased<br />

estimator for ψS. Cramér-Rao’s nedre grænse giver<br />

V θ(S) ≥ ∂ψS<br />

∂θ<br />

∂ψS<br />

(θ)i(θ)−1 (θ)<br />

∂θ∗


78 KAPITEL 6. CENTRALE ESTIMATORER MED MINIMAL VARIANS<br />

under antagleserne i Sætning 6.12, specielt under antagelsen at ψ S(θ) er differentiabel.<br />

Hvis nu vi tænker på S som en estimator af parameterfunktionen ψ(θ) er bias b(θ)<br />

givet ved<br />

b(θ) = ψ S(θ) − ψ(θ).<br />

Indsætter vi ψS(θ) = ψ(θ) + b(θ) i Cramér-Rao’s nedre grænse får vi<br />

<br />

∂ψ ∂b<br />

Vθ(S) ≥ (θ) +<br />

∂θ ∂θ (θ)<br />

<br />

i(θ) −1<br />

<br />

∂ψ ∂b<br />

∂θ∗(θ) +<br />

∂θ∗(θ) <br />

.<br />

Hermed har vi en generel formel, hvis ellers vi kan beregne bias b(θ).<br />

Antagelsen om at ψS(θ) er differentiabel (antaglese (ii) i Sætning 6.12) kan erstattes<br />

af antagelsen om at D θ i antagelse (v) opfylder<br />

E θSD θ(X) < ∞.<br />

Vis, at denne antagelse medfører at ψ S(θ) er differentiabel.


Kapitel 7<br />

Testteori<br />

7.1 Indledning og definitioner<br />

I Kapitel 5 om likelihoodinferens nævnte jeg kvotienttestet som en naturlig måde at<br />

undersøge vores tiltro til en hypotese på formen θ = θ0. I dette kapitel skal vi se på<br />

muligheden for systematisk at udvælge test udfra ønsket om at optimere visse egenskaber<br />

ved testet. Vi vil så se, at kvotienttestet dukker op gang på gang, hvilket er en<br />

konsekvens af det fundamentale Neyman-Pearson Lemma, som bevises i afsnit 7.2. I<br />

afsnit 7.3 kommer vi i direkte clinch med inferens for en delparameter, igen med udgangspunkt<br />

i en umiddelbar anvendelse af ønsket om at optimere visse egenskaber. I<br />

Kapitel 8 skal vi vende tilbage til inferens for delparametre, hvor vi vil betragte udvidede<br />

sufficiens- og betingningsprincipper.<br />

Testteorien her er baseret på, at vi for enhver mulig observation x vil træffe en afgørelse,<br />

der siger, enten at vi akcepterer hypotesen, der undersøges eller, at vi forkaster<br />

hypotesen. Dette er en formulering, som vi har brug for til at finde “gode” tests. I<br />

mange videnskabelige undersøgelser vil man ikke være interesseret i at afslutte undersøgelsen<br />

med et ja eller nej til en hypotese. Istedet vil man forsøge at angive, hvor<br />

meget data er i overensstemmelse med hypotesen, hyppigt udtrykt ved det opnåede<br />

signifikansniveau eller p-værdien. Som tidligere er vores model (X , A, P) med<br />

P = {P θ|θ ∈ Θ} og parameter området Θ ⊆ R d .<br />

Definition 7.1 En hypotese H0 er en ikke-tom delmængde Θ0 af Θ, og et udsagn om at<br />

den værdi af θ (den “sande” værdi) , der karakteriserer målet P θ, under hvilket data<br />

er indsamlet, ligger i Θ0. Den alternative hypotese H1 til H0 er delmængden Θ\Θ0. En<br />

hypotese kaldes simpel hvis den betragtede delmængde af Θ består af ét element, og<br />

ellers kaldes hypotesen sammensat. <br />

Definition 7.2 <strong>Et</strong> test for en hypotese H0 er et område A, kaldet akceptområdet, bestående<br />

af de x ∈ X for hvilke hypotesen akcepteres. Området A c hvor vi forkaster hypotesen<br />

H0, kaldes forkastelsesområdet. Ækvivalent hermed kan vi karakterisere testet ved<br />

den kritiske funktion φ, der peger på de x, som ligger i forkastelsesområdet,<br />

φ(x) =<br />

0 x ∈ A<br />

1 x ∈ A c . <br />

79


80 KAPITEL 7. TESTTEORI<br />

At vælge et test betyder altså, at vi skal vælge området A . Vi vil karakterisere et område<br />

ved to tal eller rettere ét tal og en funktion og bruge disse til at vælge et passende<br />

test.<br />

Definition 7.3 Niveauet α = α(φ) for et test φ for hypotesen H0 er<br />

α = α(φ) = sup Eθφ.<br />

Niveauet er altså den maksimale sandsynlighed under H0 for at forkaste H0. For θ ∈<br />

Θ0 kaldes E θφ også for sandsynligheden for fejl af type I. Styrken β(θ) = β(θ; φ) af testet<br />

φ under Pθ er<br />

β(θ) = β(θ; φ) = E θφ = P θ(forkaste H0).<br />

Funktionen β : Θ → R kaldes styrkefunktionen. Styrken er af interesse for θ /∈ Θ0, hvor<br />

den angiver sandsynligheden for at vi træffer den rigtige beslutning, nemlig at forkaste<br />

H0. For θ /∈ Θ0 kaldes 1 − β(θ) sandsynligheden for fejl af type II , d.v.s. sandsynlighden<br />

for at akceptere en forkert hypotese. <br />

Udfra niveauet og styrken kan vi definere et stærkeste test mod alternativet θ1 ∈ Θ\Θ0.<br />

Definition 7.4 <strong>Et</strong> test φ kaldes et stærkeste test på niveau α, d.v.s. α(φ) = α, mod et<br />

alternativ θ1 ∈ Θ\Θ0 hvis<br />

θ∈Θ0<br />

β(θ1; φ) ≥ β(θ1, ˜φ) for alle test ˜φ med α( ˜φ) ≤ α(φ).<br />

Altså φ har større styrke end alle andre test på niveau højst α. Hvis et test φ er det<br />

stærkeste test mod ethvert alternativ θ1 ∈ Θ\Θ0, kaldes φ et uniformt stærkeste test. <strong>Et</strong><br />

test φ på niveau α kaldes styrkeret, hvis<br />

og strengt styrkeret hvis<br />

β(θ; φ) ≥ α for alle θ ∈ Θ\Θ0,<br />

β(θ; φ) > α for alle θ ∈ Θ\Θ0. <br />

Grunden til at vi i Definition 7.4 betragter tests med α( ˜φ) ≤ α og ikke α( ˜φ) = α er,<br />

at med diskrete udfaldsrum er det ikke sikkert, at vi kan vælge det ønskede akceptområde<br />

på en sådan måde at α( ˜φ) = α. Styrkerette tests indføres fordi det i mange<br />

situationer er muligt at finde et uniformt stærkeste test blandt de styrkerette, hvorimod<br />

dette ikke er muligt blandt alle tests.<br />

Typisk vil man ikke blot konstruere et test φ for én fast værdi af niveauet α. Istedet<br />

vil man for ethvert 0 < α < 1 konstruere et test φα med den egenskab, at<br />

φα2 (x) ≥ φα 1 (x) for α2 > α1,<br />

d.v.s. at hvis vi forkaster ved et test på niveau α1, så forkaster vi også ved et test på<br />

niveau α2 > α1 (sandsynligheden for at forkaste under H0 stiger). For en observeret<br />

værdi x kan vi bestemme ǫ(x) ved<br />

ǫ(x) = inf<br />

α {φα(x) = 1}.


7.2. NEYMAN-PEARSON’S LEMMA OG MONOTONE KVOTIENTER 81<br />

Værdien af ǫ(x) kaldes det observerede signifikansniveau eller p-værdien. P-værdien angiver<br />

altså den grænse for niveauet, hvor vi forkaster H0 for den observerede værdi x,<br />

hvis niveauet α > ǫ(x), og vi akcepterer H0, hvis α < ǫ(x).<br />

Vi antager i hele kapitel 7, at P er domineret af det σ-endelige mål µ på X .<br />

Neyman 16/4 1894 (Bendery, Russia) - 5/8 1981 (Berkeley)<br />

Neyman udviklede i årerne 1928-1938 testteorien sammen med E. Pearson. I 1937 skrev<br />

han også en fundamental artikel om konfidensintervaller.<br />

Egon Sharpe Pearson 11/8 1895 (London) - 12/6 1980 (Sussex)<br />

Se ovenfor vedrørende samarbejdet med Neyman.<br />

7.2 Neyman-Pearson’s lemma og monotone kvotienter<br />

Vi jagter stærkeste tests, d.v.s. at vi skal maksimere styrken for et fastholdt niveau.<br />

Geometrisk betyder dette, at vi forsøger at placere A indeholdt i X , så at P θ1 (A c ) er så<br />

stor som mulig, og hvor størrelsen af A er bestemt ved niveauet α. Følgende lemma er<br />

fundamentalt:<br />

Lemma 7.5 (Neyman-Pearson) Lad f , f1, . . . , f k være givne funktioner fra X ind i R og<br />

lad c1, . . . , c k være givne konstanter. Lad endvidere φ0 være givet ved<br />

<br />

k<br />

1 hvis f(x) ≥<br />

φ0(x) =<br />

∑i=1 ai fi(x) 0 ellers,<br />

(7.1)


82 KAPITEL 7. TESTTEORI<br />

hvor a1, . . . , a k er konstanter med a i ≥ 0, og antag at<br />

<br />

φ0(x) fi(x)dµ(x) = ci i = 1, . . . , k.<br />

Så gælder at <br />

<br />

φ0(x) f(x)dµ(x) ≥<br />

h(x) f(x)dµ(x) (7.2)<br />

for enhver funktion h : X → R med 0 ≤ h(x) ≤ 1 og med<br />

<br />

h(x) f i(x)dµ(x) ≤ c i i = 1, . . . , k. (7.3)<br />

Bevis. Fra definitionen af φ0 og idet 0 ≤ h ≤ 1 ses, at<br />

Dermed fås<br />

<br />

0 ≤<br />

<br />

=<br />

<br />

[φ0(x) − h(x)] f(x) −<br />

<br />

[φ0(x) − h(x)] f(x) −<br />

<br />

φ0(x) f(x)dµ(x) −<br />

hvor ˜c i = h(x) f i(x)dµ(x) ≤ c i. Vi får da<br />

<br />

<br />

h(x) f(x)dµ(x) ≤<br />

k<br />

∑<br />

1<br />

φ0(x) f(x)dµ(x) −<br />

k<br />

∑<br />

1<br />

<br />

ai fi(x) ≥ 0.<br />

<br />

ai fi(x) dµ(x).<br />

h(x) f(x)dµ(x) −<br />

k<br />

∑<br />

1<br />

k<br />

∑<br />

1<br />

<br />

ai(ci − ˜c i) ≤<br />

k<br />

aici + ∑<br />

1<br />

ai ˜ci,<br />

φ0(x) f(x)dµ(x).<br />

For at teste H0 : θ ∈ Θ0 mod H1 : θ ∈ Θ\Θ0 definerer vi generelt kvotientteststørrelsen<br />

Q ved<br />

hvor<br />

Q(x) = sup p(x, θ)<br />

θ∈Θ0<br />

, (7.4)<br />

supθ∈Θ p(x, θ)<br />

p(x, θ) = dP θ<br />

dµ (x)<br />

er tæthedsfunktionen. Hvis Θ = {θ0, θ1} består af kun to værdier og Θ0 = {θ0} bliver<br />

Q(x) = Q(x; θ0, θ1) =<br />

p(x, θ0)<br />

max(p(x, θ0), p(x, θ1)) =<br />

<strong>Et</strong> område på formen Q(x) ≤ c, med c < 1, bliver da<br />

Dette ligner (7.1), og vi har da også:<br />

<br />

x p(x, θ1) ≥ 1<br />

<br />

p(x, θ0) .<br />

c<br />

<br />

max<br />

1<br />

1, p(x,θ 1)<br />

p(x,θ0)<br />

<br />

<br />

(7.5)


7.2. NEYMAN-PEARSON’S LEMMA OG MONOTONE KVOTIENTER 83<br />

Sætning 7.6. Lad a ≥ 0. Kvotienttestet<br />

φ0 =<br />

1 hvis p(x, θ1) ≥ ap(x, θ0)<br />

0 ellers<br />

(7.6)<br />

er et stærkeste test for θ = θ0 mod θ = θ1 på niveau α = E θ0 φ0. Ydermere er φ0 det<br />

eneste stærkeste test på niveau α n.s.– {P θ0 , P θ 1 }, og hvis 0 < α < 1 er styrken E θ1 φ0<br />

større end niveauet α. <br />

Bevis. (i) Dette svarer til Lemma 7.5 med f(x) = p(x, θ1), f1(x) = p(x, θ0) og<br />

<br />

c1 =<br />

Formlerne (7.2) og (7.3) siger specielt, at<br />

φ0(x)p(x, θ0)dµ(x) = E θ0 φ0 = α.<br />

E θ1 φ0 ≥ E θ1 φ<br />

for ethvert test φ med E θ0 φ ≤ α. D.v.s. φ0 er et stærkeste test.<br />

(ii) For at vise entydigheden lader vi φ ∗ være et andet test med samme styrke som φ0<br />

og med niveau E θ0 φ∗ = α ∗ ≤ α. Vi skal så vise, at φ0 = φ ∗ n.s.−{P θ0 , P θ 1 }. Lad<br />

og<br />

A0 = {x | φ0(x) = φ ∗ (x)},<br />

A1 = {x | φ0(x) = φ ∗ (x), p(x, θ1) = ap(x, θ0)},<br />

A2 = {x|φ0(x) = φ ∗ (x), p(x, θ1) = ap(x, θ0) > 0},<br />

A3 = {x|φ0(x) = φ ∗ (x), p(x, θ1) = ap(x, θ0) = 0}.<br />

Vi har trivielt at P θ0 (A3) = P θ1 (A3) = 0. Vi vil vise at µ(A1) = 0 og at P θ0 (A2) =<br />

P θ1 (A2) = 0. På A1 er [φ0(x) − φ ∗ (x)][p(x, θ1) − ap(x, θ0]] > 0, og hvis µ(A1) > 0 vil<br />

<br />

0 < [φ0(x) − φ<br />

A1 ∗ (x)][p(x, θ1) − ap(x, θ0)]dµ(x)<br />

<br />

= [φ0(x) − φ ∗ (x)][p(x, θ1) − ap(x, θ0)]dµ(x)<br />

= E θ1 φ0 − E θ1 φ ∗ − aE θ0 φ + aE θ0 φ∗<br />

= E θ1 φ0 − E θ1 φ ∗ − a(α − α ∗ ),<br />

hvilket er en modstrid, da φ ∗ har samme styrke som φ0. Altså er µ(A1) = 0. Endvidere<br />

fås<br />

E θ1 φ ∗ = E θ1 φ ∗ (1 A0 + 1 A 1 + 1 A2 + 1 A3 ) = E θ 1 φ ∗ (1 A0 + 1 A2 )<br />

= E θ1 φ0(1A0 + 1A2 ) + E θ 1 (φ ∗ − φ0)1A2<br />

= E θ1 φ0 − P θ1 (A2),<br />

altså er A2 en P θ1 -nulmængde og per definition af A2 derfor også en P θ0 -nulmængde.


84 KAPITEL 7. TESTTEORI<br />

(iii) Vi skal nu vise, at E θ1 φ0 > E θ0 φ0 = α hvis 0 < α < 1. Da E θ0 φ0 = α med 0 < α < 1<br />

har vi, at φ0(x)p(x, θ0)dµ(x) > 0, og fra definitionen af φ0 ses derfor, at<br />

og<br />

Eθ 1 φ0 =<br />

<br />

<br />

φ0(x)p(x, θ1)dµ(x) ≥ a<br />

φ0(x)p(x, θ0)dµ(x) = aα<br />

1 − Eθ 1 φ0 = Eθ 1 (1 − φ0) < aEθ0 (1 − φ0) = a(1 − α).<br />

Hvis a > 1 giver den <strong>første</strong> ulighed det ønskede. Hvis 0 < a ≤ 1 giver den anden<br />

ulighed, at<br />

E θ1 φ0 > 1 − a(1 − α) ≥ α. <br />

Sætning 7.6 er et simpelt og stærkt resultat. Hvis vi betragter en mere generel situation,<br />

hvor nulhypotesen stadig er simpel Θ0 = {θ0}, men modhypotesen Θ\{θ0} er<br />

sammensat, viser Sætning 7.6, at den eneste kandidat til et uniformt stærkeste test er<br />

kvotienttestet i (7.6) for et vilkårligt valgt θ1 ∈ Θ\{θ0}. Testet i (7.6) vil være uniformt<br />

stærkeste hvis og kun hvis små værdier af kvotienttestoren Q(x; θ0, θ1) svarer til små<br />

værdier af Q(x; θ0, θ2) for vilkårlige θ1, θ2 ∈ Θ\{θ0}. Vi kan formulere en klasse af<br />

modeller med Θ ⊆ R, hvor dette er tilfældet på følgende vis:<br />

Definition 7.7 Lad Θ ⊆ R og lad t : X → R. Så siges P at have strengt voksende<br />

kvotienter i t såfremt der for alle θ1, θ2 ∈ Θ, θ1 < θ2, eksisterer en strengt voksende<br />

funktion hθ1,θ2 , så at<br />

p(x, θ2)<br />

p(x, θ1) = hθ (t(x)) for alle x ∈ X .<br />

1,θ2<br />

Fra definitionen følger at Pθ2 ≪ Pθ for θ2 > θ1. Det omvendte gælder ikke. Hvis<br />

1<br />

for eksempel t(x) ∈ N0 kan vi have Pθ1 (T = 0) > 0 og Pθ2 (T = 0) = 0.<br />

Eksempel 7.8.<br />

Betragt en eksponentiel familie P af orden 1 med<br />

p(x, θ) = a(θ)b(x)e ψ(θ)t(x) ,<br />

hvor ψ : θ → R er strengt voksende. Denne familie har strengt voksende kvotienter i t,<br />

idet<br />

p(x, θ2)<br />

p(x, θ1)<br />

= a(θ2)<br />

a(θ1) e[ψ(θ2)−ψ(θ 1)]t(x) .<br />

Sætning 7.9. Lad P have strengt voksende kvotienter i t, og lad φ være testet<br />

<br />

1 hvis t(x) ≥ c<br />

φ(x) =<br />

0 ellers<br />

hvor c er en konstant. Så gælder<br />

(i) Hvis θ0 < θ1 er φ kvotienttestet for H0 : θ = θ0 mod H1 : θ = θ1 på niveau<br />

α = E θ0 φ.


7.2. NEYMAN-PEARSON’S LEMMA OG MONOTONE KVOTIENTER 85<br />

(ii) Hvis 0 < E θ0 φ < 1 så er styrkefunktionen β(θ) = E θφ strengt voksende i området<br />

{θ : β(θ) < 1}.<br />

(iii) Lad α = Eθ0φ og antag at 0 < α < 1. Så er φ det entydigt bestemte (n.s. mht.<br />

Pθ, θ ≥ θ0) uniformt stærkeste test for H0 : θ = θ0 eller H0 : θ ≤ θ0 mod H1 : θ ><br />

θ0 på niveau α. Desuden er φ strengt styrkeret. <br />

Bevis. (i) Fra Definiton 7.7 har vi, at t(x) ≥ c er ensbetydende med p(x, θ1) ≥ aθ1,θ0 p(x, θ0)<br />

for en konstant aθ1,θ0 , d.v.s. φ er et kvotienttest, se (7.6).<br />

(ii) Fra Sætning 7.6 har vi at hvis 0 < Eθ1φ < 1 så er β(θ2) = Eθ2φ > Eθ φ = β(θ1) for<br />

1<br />

θ2 > θ1. Spørgsmålet nu er så om β(θ) kan være nul. For θ > θ0 har vi β(θ) > β(θ0) > 0<br />

per antagelse. Endvidere, hvis β(θ) = 0 for θ < θ0 så vil β(θ0) = 0 da Pθ ≫ Pθ0 , men vi<br />

har netop antaget at β(θ0) > 0.<br />

(iii) Hvis H0 er θ = θ0 har vi fra (i) og Sætning 7.6 at φ er det stærkeste test for H0<br />

mod θ = θ1, hvor θ1 > θ0. Men da testet ikke afhænger at θ1, er φ det uniformt<br />

stærkeste mod H1 : θ > θ0. Hvis istedet H0 : θ ≤ θ0 viser (ii) , at niveauet for testet<br />

er sup θ≤θ0 E θφ = sup θ≤θ0 β(θ) = β(θ0) = E θ0 φ = α. Da ethvert andet test ˜φ for<br />

H0 = θ ≤ θ0 på niveau α1 ≤ α også er et test for θ = θ0 på niveau α2 ≤ α, har vi<br />

fra tilfældet med H0 : θ = θ0 at φ er stærkere end ˜φ. D.v.s. at φ er også det uniformt<br />

stærkeste for H0 : θ ≤ θ0 mod H1 : θ > θ0. Den strenge styrkerethed er en direkte<br />

konsekvens af(ii). Entydigheden af testet for nulhypotesen θ ≤ θ0 følger af lemmaet<br />

nedenfor. <br />

Lemma 7.10 Lad φ0 være det entydige staerkeste test i (7.6) for θ = θ0 mod θ = θ1 på<br />

niveau α. Lad K være en udvidelse af alternativet, θ1 ∈ K, og antag at φ0 er uniformt<br />

stærkeste for θ = θ0 mod θ ∈ K. Lad Θ0 være en udvidelse af nulhypotesen, θ0 ∈ Θ0.<br />

Hvis<br />

sup<br />

θ∈Θ0<br />

E θφ0 = α,<br />

så vil φ0 vaere det entydige (n.s. med hensyn til p θ, θ ∈ K ∪ {θ0}) uniformt stærkeste<br />

test for θ ∈ Θ0 mod θ ∈ K på niveau α. <br />

Bevis. Lad ˜φ være et alternativt test med sup ˜φ ≤ α. Så har vi E θ∈Θ0<br />

θ0 ˜φ ≤ α = Eθ0φ0 og dermed at<br />

Eθ1φ0 ≥ E ˜φ, θ1 θ ∈ K,<br />

da φ0 er et uniformt staerkeste test for θ = θ0. Dette viser at φ0 også er et uniformt<br />

staerkeste test for den udvidede nulhypotese.<br />

Entydigheden vises på helt samme måde som i beviset for sætning 7.6. <br />

Vi så ovenfor, at når vi tester θ = θ0 mod θ > θ0, fås det uniformt stærkeste test ved<br />

at forkaste for store værdier af T = t(X). Omvendt skal vi forkaste for små værdier<br />

af T, hvis vi tester mod den alternative hypotese θ < θ0. Der vil derfor normalt ikke


86 KAPITEL 7. TESTTEORI<br />

eksistere et uniformt stærkeste test for H0 : θ = θ0 mod H1 : θ = θ0 . Vi vil nu vise, at<br />

et uniformt stærkeste test blandt alle styrkerette tests eksisterer i denne situation.<br />

Vi betragter en eksponentiel familie P med<br />

hvor Θ er et åbent interval.<br />

p(x, θ) = b(x)e θt(x)−κ(θ) , θ ∈ Θ, (7.7)<br />

Lemma 7.11 Lad familien P være regulær. Kvotientteststørrelsen Q for H0 : θ = θ0<br />

mod H1 : θ = θ0, givet i (7.4), afhænger af x kun gennem t(x). Kvotienttestet, der<br />

forkaster for Q(t) ≤ c, er givet ved<br />

<br />

1 hvis t(x) ≤ a1 eller t(x) ≥ a2<br />

φ(x) =<br />

(7.8)<br />

0 ellers,<br />

hvor a1 < a2 er de to løsninger til Q(a) = c. <br />

Bevis. Fra Sætning 2.14 har vi, at, maksimum likelihood estimatet ˆθ = ˆθ(t) = τ−1 (t).<br />

Vi har da, at<br />

p(x, θ0)<br />

− log Q = − log<br />

p(x, ˆθ) = ( ˆθ − θ0)t + κ(θ0) − κ( ˆθ). (7.9)<br />

Da τ( ˆθ(t)) = t får vi<br />

Differentierer vi (7.9) mht. t fås<br />

dτ<br />

dθ ( ˆ θ) d ˆθ<br />

dt = 1 eller d ˆθ<br />

dt<br />

( ˆθ − θ0) + ˆθ ′ t − τ( ˆθ) ˆθ ′ = ˆθ − θ0,<br />

og da (7.10) viser, at ˆθ er strengt voksende i t, har vi<br />

d(− log Q)<br />

dt<br />

> 0 for t > τ(θ0)<br />

< 0 for t < τ(θ0)<br />

1<br />

=<br />

V( ˆ . (7.10)<br />

θ)<br />

Heraf ses at store værdier af − log Q (= små værdier af Q) svarer til t ≤ a1 eller t ≥ a2.<br />

Lemma 7.11 motiverer os til at betragte test på formen (7.8). Inden jeg gør dette, viser<br />

jeg:<br />

Lemma 7.12 For en åben eksponentiel familie (7.7) gælder, at hvis φ er et styrkeret test<br />

for θ = θ0 mod θ = θ0 på niveau α, så er<br />

Eθ0φT = αEθ0 T, (7.11)<br />

hvor T = t(X). <br />

Bevis. Vi har, at<br />

<br />

β(θ) = Eθφ = φ(x)b(x)e θt(x)−κ(θ) dµ(x)<br />

= e −κ(θ)<br />

<br />

e θt(x) dν(x) = e −κ(θ) c1(θ),


7.2. NEYMAN-PEARSON’S LEMMA OG MONOTONE KVOTIENTER 87<br />

hvor dν<br />

dµ (x) = φ(x)b(x). Dette viser, at c1(θ) er en Laplacetransform, og de afledede af<br />

c1 fås ved at differentiere under integraltegnet (Sætning 2.8). Vi får derfor<br />

β ′ (θ) = −κ ′ (θ)e −κ(θ) c1(θ) + e −κ(θ) c ′ 1 (θ)<br />

= −τ(θ)β(θ) + E θφT. (7.12)<br />

Da φ er styrkeret, har β(θ) minimum i θ0. D.v.s. β ′ (θ0) = 0 og fra (7.12) fås<br />

E θ0 φT = β(θ0)E θ0 T = αE θ0 T. <br />

Sætning 7.13. For en åben eksponentiel familie (7.7) og et test φ på formen<br />

<br />

1<br />

φ(x) =<br />

0<br />

t(x) ≤ a1 eller t(x) ≥ a2<br />

ellers<br />

gælder, at hvis a1 og a2 er valgt så at Eθ0φ = α og (7.11) er opfyldt, så er φ det entydigt<br />

bestemte (n.s.−P) uniformt stærkeste test for θ = θ0 mod θ = θ0 på niveau α = Eθ0φ blandt alle styrkerette test på niveau α. <br />

Bevis. Vi viser først at φ er et uniformt stærkeste styrkeret test. Lad θ = θ0. Da er<br />

p(x, θ)<br />

p(x, θ0)<br />

= e(θ−θ0)t(x)−κ(θ)+κ(θ0)<br />

en strengt konveks funktion g θ(t) af t. Lad c0(θ) + c1(θ)t være linien gennem de to<br />

punkter (a1, g θ(a1)) og (a2, g θ(a2)). Så vil g θ(t) ligge over denne linie for t < a1 og<br />

t > a2 (lav en tegning!). Med andre ord<br />

φ(x) = 1 ⇔ gθ(t(x)) ≥ c0(θ) + c1(θ)t(x). (7.13)<br />

Lad ˜φ være et vilkårligt andet styrkeret test på niveau Eθ0 ˜φ = ˜α ≤ α. Vi bemærker først<br />

at<br />

<br />

<br />

0 ≤ (1 − φ(x))p(x, θ)µ(dx) = (1 − φ(x))gθ(t(x))p(x, θ0)µ(dx)<br />

<br />

≤ (1 − φ(x))[c0 + c1t(x)]p(x, θ0)µ(dx) = [c0 + c1Eθ0 T](1 − α)<br />

⇓<br />

0 ≤ c0 + c1E θ0 T,<br />

hvor vi har brugt Lemma 7.12. Fra (7.13) har vi<br />

<br />

[φ(x) − ˜φ(x)]<br />

p(x, θ)<br />

p(x, θ0) − c0(θ)<br />

<br />

− c1(θ)t(x) ≥ 0<br />

og dermed<br />

<br />

p(x,<br />

0 ≤ [φ(x) − ˜φ(x)]<br />

θ)<br />

p(x, θ0) − c0(θ)<br />

<br />

− c1(θ)t(x) p(x, θ0)dµ(x)<br />

= Eθφ − Eθ ˜φ − [c0 + c1Eθ0 T](α − ˜α),


88 KAPITEL 7. TESTTEORI<br />

hvor vi igen har brugt Lemma 7.12. Kombinerer vi dette med det foregående resultat<br />

har vi at E θ ˜φ ≤ E θφ.<br />

Hvis vi erstatter ˜φ(x) ovenfor med α får vi istedet<br />

0 ≤ E θφ − α,<br />

det vil sige, testet φ er selv et styrkeret test.<br />

Entydigheden vises på helt tilsvarende vis som i Sætning 7.6 med A1 = {x | φ(x) =<br />

φ ∗ (x), p(x, θ)/p(x, θ0) − c0(θ) − c1(θ)t(x) = 0} og A2 = {x | φ(x) = φ ∗ (x),<br />

p(x, θ)/p(x, θ0) − c0(θ) − c1(θ)t(x) = 0, p(x, θ0) > 0}. <br />

Bemærk, at da vi indførte testet (7.8) var det ud fra kvotientteststørrelsen , og a1 og<br />

a2 blev bestemt ved, at de gav den samme værdi af Q, Q(a1) = Q(a2). I Sætning 7.13<br />

derimod skal a1 og a2 bestemmes, så at niveauet er α og så at testet er styrkeret. Typisk<br />

vil disse værdier af a1 og a2 ikke opfylde Q(a1) = Q(a2).<br />

Eksempel 7.14.<br />

Lad X være eksponentialfordelt med tæthed θe−θx . Lad os bestemme a1 og a2 i (7.8), så<br />

at Eθ0 ϕ = α og (7.11) er opfyldt. Det giver ligningerne<br />

Kvotientteststørrelsen er<br />

og dermed<br />

1 − e −θ0a 1 + e −θ0a2 = α og a2e −θ0a2 − a1e −θ0a 1 = 0.<br />

Q(x) =<br />

θ0e −θ0x<br />

1<br />

xe−1 = θ0xe −θ0x+1<br />

,<br />

Q(a1) = θ0a1e −θ0a 1+1 = θ0a2e −θ0a2+1 = Q(a2).<br />

Det samme resultat gælder for alle gammafordelinger med fast formparameter.<br />

Lad os istedet betragte klassen af tætheder<br />

e θx<br />

1 θ (e θ − 1)<br />

med 0 < x < 1. Hvis θ0 = 1 er tæthed og fordelingsfunktion<br />

Niveauet for testet bliver<br />

og<br />

Endelig har vi<br />

ET = 1<br />

f(x) = ex<br />

e − 1 og F(x) = ex − 1<br />

e − 1 .<br />

α = ea 1 − 1 + e − e a2<br />

e − 1<br />

e − 1 , EφT = 1 − (1 − a1)ea1 + (1 − a2)ea2 e − 1<br />

Q = ex (e ˆ θ − 1)<br />

(e − 1)e ˆθx ˆθ .<br />

Hvis vi nu tager a1 = 0.05, og løser αET = EφT, så bliver a2 = 0.973724 og α =<br />

0.07086524 og<br />

−2 log Q(a 1) = 4.974114 og − 2 log Q(a2) = 4.4134. <br />

.


7.3. SAMMENSAT NULHYPOTESE – TEST FOR EN DELPARAMETER 89<br />

7.3 Sammensat nulhypotese – test for en delparameter<br />

Den typiske situation, som vi skal betragte i dette afsnit, er den hvor θ står i entydig<br />

forbindelse med (ψ, η), og vi ønsker at teste H0 : ψ = ψ0. Dette er en sammensat<br />

hypotese med Θ0 = {θ(ψ, η)|ψ = ψ0}. Vi har generelt defineret niveauet af et test som<br />

sup θ∈Θ0 E θφ. En særlig ønskværdig situation vil være den, hvor E θφ ikke afhænger af<br />

θ ∈ Θ0, d.v.s. at uanset værdien af den ukendte η vil E θ(ψ0,η)φ = α.<br />

Definition 7.15 <strong>Et</strong> test φ på niveau α for den sammensatte hypotese θ ∈ Θ0 kaldes<br />

similært (eller niveaukonstant) hvis<br />

E θφ = α ∀ θ ∈ Θ0 <br />

Navnet similært stammer fra det engelske “similar” og skal forstås på den måde, at<br />

forkastelsesområdet {x|φ(x) = 1} har den egenskab tilfælles med hele udfaldsrummet<br />

X , at sandsynligheden er uafhængig af θ ∈ Θ0. <strong>Et</strong> eksempel hvor der ikke findes et<br />

similært test er beskrevet nedenfor i eksempel 7.21.<br />

Eksempel 7.16.<br />

Lad X1, . . . , Xn være uafhængige og N(µ, σ 2 )-fordelte. Vi vil teste hypotesen at µ = 0.<br />

Traditionelt benytter vi<br />

T =<br />

1<br />

n−1<br />

∑ n 1 X <br />

i/n<br />

n<br />

∑1 (Xi − ¯X) 2 /(n − 1) ,<br />

som er t-fordelt med n − 1 frihedsgrader, d.v.s. fordelingen afhænger ikke af parameteren<br />

σ2 . Testet defineret ved<br />

<br />

1 t(x) > c<br />

φ(x) =<br />

,<br />

0 ellers<br />

er derfor et similært test. <br />

At en sandsynlighed ikke afhænger af θ ∈ Θ0, minder os om egenskaber ved sufficiente<br />

observatorer. Dette er da også, hvad vi vil bruge til at konstruere similære tests:<br />

hvis T = t(X) er sufficient for P0 = {P θ|θ ∈ Θ0}, vil fordelingen af X givet T ikke<br />

afhænge af θ ∈ Θ0, og dette giver os muligheden for at lave et similært test.<br />

Lemma 7.17 Antag at T = t(X) er sufficient og komplet for P0 = {P θ|θ ∈ Θ0}, og at<br />

testet φ er similært på niveau α. Så gælder<br />

(i) T og φ(X) er uafhængige under P θ, θ ∈ Θ0<br />

(ii) For θ ∈ Θ0 er E θ(φ|T = t) = α n.s.−P0.<br />

Lad for enhver værdi t af T klassen P t = {P θ(·|T = t) | θ ∈ Θ} være de betingede<br />

fordelinger givet T = t. Antag nu yderligere at φ betragtet som et test i klassen P t er<br />

uniformt stærkeste på niveau α n.s.−P0 for test af θ ∈ Θ0 mod θ ∈ K. Så gælder


90 KAPITEL 7. TESTTEORI<br />

(iii) φ er et uniformt stærkeste test blandt alle similære test for test af θ ∈ Θ0 mod<br />

θ ∈ K. <br />

Bevis. (i) φ(X) antager kun to værdier og<br />

P θ(φ(X) = 1) = 1 − P θ(φ(X) = 0) = α ∀ θ ∈ Θ0.<br />

da φ er similært. D.v.s. at φ(X) er ancillær under P0, og resultatet følger af Basu’s<br />

sætning 4.9.<br />

(ii) Da T er sufficent, afhænger E θ(φ|T = t) ikke af θ for θ ∈ Θ0. Desuden viser (i) at<br />

E(φ|T = t) = E θ(φ) = α n.s. − P θ ∀ θ ∈ Θ0.<br />

(iii) Lad ˜φ være et andet similært test. Fra (ii) har vi for θ ∈ Θ0<br />

E θ( ˜φ|T = t) = α n.s. − P0,<br />

d.v.s. at ˜φ er et test på niveau α i den betingede klasse P t . Fra antagelsen har vi for<br />

θ ∈ Θ\Θ0<br />

E θ(φ|T = t) ≥ E θ( ˜φ|T = t)<br />

og deraf<br />

E θφ ≥ E θ ˜φ. <br />

Bemærk at punkt (ii) i Lemma 7.17 siger, at hvis vi vil konstruere et similært test, kan<br />

dette kun gøres ved at lave et test på niveau α i de betingede fordelinger givet T = t,<br />

hvis T er sufficient og komplet.<br />

Vi skal nu bruge Lemma 7.17 til at konstruere styrkerette test i eksponentielle familier.<br />

Vi betragter en eksponentiel familie P = {P θ|θ ∈ Θ} af orden k med minimal<br />

repræsentation<br />

dP θ<br />

dµ (x) = a(θ)b(x)eθ·t(x) , (7.14)<br />

og hvor Θ ⊆ R k er åbent. Vi ønsker at teste at θ ligger i et (k − 1) dimensionalt affint<br />

underrum Θ0 af Θ. <strong>Et</strong> sådant kan vi angive ved at det indre produkt mellem θ og<br />

en vektor α, som står vinkelret på det affine underrrum, har en fast værdi. Lad α =<br />

(α1, . . . , α k) være en fast vektor i R k , α = 0, og definer parameteren<br />

ψ = α · θ = α1θ1 + · · · + α kθ k.<br />

Vi ønsker at lave tests for ψ = ψ0. Antag at α1 = 0. Så kan vi skrive<br />

θ · t = 1<br />

(α1θ1 + · · · + αkθk − α2θ2 − · · · − αkθk)t1 + θ2t2 + · · · + θktk α1<br />

= ψ t1<br />

α1<br />

+ θ2(t2 − α2<br />

α1<br />

t1) + · · · + θk(tk − αk t1).<br />

α1


7.3. SAMMENSAT NULHYPOTESE – TEST FOR EN DELPARAMETER 91<br />

Hvis vi derfor sætter<br />

s(x) = t1(x)<br />

<br />

, η = (θ2, . . . , θk), og v = t2(x) −<br />

α1<br />

α2<br />

t1(x), . . . , tk(x) −<br />

α1<br />

α <br />

k<br />

t1(x)<br />

α1<br />

så kan (7.14) skrives som<br />

dPψ,η<br />

dµ (x) = ã(ψ, η)b(x)eψs(x)+η·v(x) , (7.15)<br />

med (ψ, η) i det åbne område Ω = {(α · θ, θ2, . . . , θ k) | θ ∈ Θ}.<br />

Sætning 7.18. Betragt den eksponentielle familie på minimal form (7.15). Hvis vi for<br />

enhver værdi af v = v(x) kan vælge a(v) så at<br />

da vil testet<br />

Pψ0,η(s(X) ≥ a(v) | V = v) = α, (7.16)<br />

φ(x) =<br />

1 hvis s(x) ≥ a(v(x))<br />

0 hvis s(x) < a(v(x))<br />

være det entydigt bestemte (n.s.−P) uniformt stærkeste styrkerette test på niveau α<br />

for ψ = ψ0 mod ψ > ψ0. <br />

Bevis. For ψ = ψ0 er P0 = {Pψ0,η|(ψ0, η) ∈ Ω} en åben eksponentiel familie af orden<br />

k − 1 med V = v(X) som minimal sufficient observator (se afsnit 2.6). Fra Sætning 2.26<br />

har vi derfor at V er sufficient og komplet. Uanset værdien af a(v) afhænger sandsynligheden<br />

på venstresiden af (7.16) derfor ikke af η. Det er også klart fra (7.16) at<br />

Eψ0,ηφ = α ∀ η.<br />

Hvis ˜φ er et styrkeret test på niveau α , vil Eψ,η ˜φ ≥ α for ψ > ψ0 og Eψ0,η ˜φ ≤ α. Men<br />

da styrken er en kontinuert funktion (se beviset for Lemma 7.12), kan vi lade ψ → ψ0<br />

og dermed få Eψ0,η ˜φ = α. D.v.s. at ˜φ er et similært test, og det følger så fra Lemma 7.17<br />

(iii), at φ er det stærkeste test blandt styrkerette test, hvis vi viser, at φ er det stærkeste<br />

test i klassen af betingede fordelinger givet V = v.<br />

Den betingede tæthed af S givet V = v får vi fra afsnit 2.6:<br />

dPψ,η(·|V = v)<br />

dPψ0,η0 (·|V = v)(x) = ã(ψ − ψ0, v)e (ψ−ψ0)s(x) . (7.17)<br />

Fra Sætning 7.9 og eksempel 7.8 har vi, at givet V = v er det entydigt bestemte stærkeste<br />

test på niveau α givet ved, at vi forkaster for s(x) ≥ a(v), altså testet φ i sætningen.<br />

Vi mangler derfor kun at vise, at φ selv er et styrkeret test. Men Sætning 7.9 giver<br />

også, at når 0 < α < 1 så gælder<br />

og dermed<br />

Eψ,η(φ|V = v) > α for ψ > ψ0,<br />

Eψ,η(φ) > α for ψ > ψ0.


92 KAPITEL 7. TESTTEORI<br />

Det er vigtigt at bemærke sig at V i Sætning 7.18 kan karakteriseres som den minimal<br />

sufficiente observator under hypotesen ω = α · θ = ω0.<br />

Eksempel 7.19.<br />

Lad X i = exp(Y i) hvor Y − i-erne er uafhængige og N(µ, σ 2 )-fordelte. Middelværdien<br />

af X i er exp(µ + 1 2 σ2 ). Hvis vi vil teste at middelværdien har en bestemt værdi svarer<br />

det altså til at teste at ω = µ + 1 2 σ2 har en bestemt værdi. Vi vil teste at ω = ω0 mod<br />

ω > ω0. Vi laver følgende opskrivning af tætheden<br />

(2πσ2) −n/2 n<br />

exp ∑(yi − µ)<br />

1<br />

2 /(2σ 2 <br />

)<br />

= (2πσ2) −n/2 <br />

exp<br />

− nµ2<br />

2σ 2<br />

= (2πσ2) −n/2 <br />

exp − nµ2<br />

= (2πσ2) −n/2 <br />

exp<br />

2σ<br />

<br />

exp − 1<br />

2 − 1<br />

2 ∑ y i<br />

− nµ2 1<br />

−<br />

2σ2 2 ∑ yi<br />

2σ 2 ∑ y 2 i<br />

<br />

exp<br />

− 1<br />

µ<br />

+<br />

σ2 <br />

∑ yi 2σ 2 ∑ y 2 i<br />

<br />

exp − 1 − 1 2ω0 2σ2 ∑ y 2 i<br />

+ ω<br />

σ 2 ∑ y i<br />

<br />

+ ω − ω0<br />

σ 2<br />

∑ yi<br />

Hvis vi lader ψ = (ω − ω0)/σ 2 svarer ω = ω0 mod ω > ω0 til ψ = 0 mod ψ > 0.<br />

Situationen er derfor som i Sætning 7.18 med η = − 1− 1 2 ω0<br />

2σ2 , s(x) = ∑ yi og v(x) =<br />

∑ y2 i . <br />

For at teste ψ = ψ0 mod ψ = ψ0 skal vi bruge Sætning 7.13 istedet for Sætning 7.9.<br />

Sætning 7.20. Betragt den eksponentielle familie på minimal form (7.15). Hvis vi for<br />

enhver værdi v af V kan vælge a1(v) < a2(v) så at testet<br />

<br />

1 s(x) ≤ a1(v(x)) eller s(x) ≥ a2(v(x))<br />

φ(x) =<br />

0 a1(v(x)) < s(x) < a2(v(x))<br />

opfylder<br />

Eψ0 (φ|V = v) = α og Eψ0 (φS|V = v) = αEψ0 (S|V = v),<br />

så er ϕ det entydigt bestemte (n.s.−P) uniformt stærkeste test på niveau α for ψ = ψ0<br />

blandt alle styrkerette tests. <br />

Bevis. Fra 7.17) og Sætning 7.13 har vi, at givet V = v er φ det stærkeste test blandt<br />

alle tests ˜φ som opfylder<br />

Eψ0,η( ˜φ|V = v) = α og Eψ0,η( ˜ϕS|V = v) = αEψ0,η(S|V = v). (7.18)<br />

Hvis derfor vi kan vise, at et vilkårligt styrkeret test ˜φ opfylder 7.18) for næsten alle v,<br />

vil<br />

Eψ,η(φ) = Eψ,η[Eψ,η(φ|V)] ≥ Eψ,η[Eψ,η( ˜φ|V)] = Eψ,η ˜φ,<br />

og sætningen er vist.<br />

Da styrkefunktionen er kontinuert, får vi som i beviset for Sætning 7.18, at ˜φ er et<br />

similært test, hvis ˜φ er styrkeret. Fra Lemma 7.17 (ii) får vi så <strong>første</strong> del af 7.18). Lad<br />

dernæst<br />

f(v) = Eψ0,η( ˜φS|V = v) − αEψ0,η(S|V = v),<br />

<br />

.


7.3. SAMMENSAT NULHYPOTESE – TEST FOR EN DELPARAMETER 93<br />

som faktisk ikke afhænger af η, da V er sufficient under ψ = ψ0. Vi har, at<br />

Eψ0,η f(V) = Eψ0,η( ˜φS) − αEψ0,η(S). (7.19)<br />

For fast η er ˜φ et styrkeret test for ψ = ψ0 mod ψ = ψ0, og Pη = {Pψ,η| for ψ med<br />

(ψ, η) ∈ Ω} er en åben eksponentiel familie af orden 1 og med S som kanonisk observator.<br />

Fra Lemma 7.12 har vi derfor, at 7.19) er nul for alle η med (ψ0, η) ∈ Ω. Men da<br />

omvendt V er komplet for P0, har vi, at<br />

Eψ0,η f(V) = 0 ∀ η ⇒ f(v) = 0 n.s. − P0,<br />

og (7.18) er vist. <br />

Dette afsnit har været baseret på, at den minimal sufficiente T0 under nulmodellen<br />

P0 er en ægte reduktion af den minimal suffciente T under den fulde model P. <strong>Et</strong><br />

similært test kan så konstrueres ved at betragte den betingede fordeling af T givet T0.<br />

Hvis T0 = T, altså der er ingen reduktion i den minimal sufficiente observator, vil der<br />

ikke nødvendigvis eksistere et similært test. Det mest berømte eksempel på dette er:<br />

Eksempel 7.21 (Fisher-Behrens problemet).<br />

Lad X1, . . . , Xn være i.i.d. med fordeling N(µ, σ 2 ) og Y1, . . . , Ym være i.i.d. med fordeling<br />

N(µ+δ, τ 2 ). Vi ønsker at teste H0 : δ = 0, altså at middelværdierne i de to grupper<br />

er ens. Hvis de to varianser σ 2 og τ 2 er ens, σ 2 = τ 2 , har I lært, at I skal vurdere stør-<br />

relsen<br />

t = ¯X − ¯Y<br />

<br />

1 (<br />

n+ 1 m )s2<br />

, s 2 =<br />

n<br />

1<br />

n + m − 2 ∑(Xi − ¯X)<br />

1<br />

2 +<br />

m<br />

∑<br />

1<br />

(Yi − ¯Y) 2<br />

<br />

(7.20)<br />

i en t-fordeling med (n + m − 2) frihedsgrader, og forkaste H0 hvis |t| er stor. Men<br />

hvad hvis σ 2 = τ 2 ? Likelihoodfunktionen er<br />

(2πσ 2 ) − n 2 (2πτ 2 ) − m <br />

2 exp<br />

−n µ2<br />

2σ<br />

<br />

· exp<br />

<br />

+ δ)2<br />

− m(µ<br />

2 2τ2 − 1<br />

2σ2 n<br />

∑ x<br />

1<br />

2 µ<br />

+<br />

i σ2 n<br />

∑<br />

1<br />

xi − 1<br />

2τ2 m<br />

∑<br />

1<br />

y 2 i<br />

+ µ + δ<br />

τ 2<br />

m<br />

∑ yi<br />

1<br />

og under den fulde model P = {P µ,δ,σ 2 ,τ 2 | µ, δ ∈ R og σ 2 , τ 2 ∈ R+} er T = (∑ n 1 X2 i ,<br />

∑ n 1 Xi, ∑ m 1 Y2<br />

i , ∑m 1 Yi) minimal sufficient. Under P0 = {P µ,0,σ 2 ,τ 2 | µ ∈ R og σ 2 , τ 2 ∈ R+}<br />

sker der ikke en reduktion i ordenen af den eksponentielle familie, og T er stadig minimal<br />

sufficient. En eksponentiel familie, hvor dimensionen af parameterrummet er mindre<br />

end ordenen af familien, kaldes en krum eksponentiel familie. Specielt kaldes P0 en<br />

(4,3) krum eksponentiel familie, idet ordenen er 4 og dimensionen af parameterrummet<br />

{(µ, σ 2 , τ 2 ) | µ ∈ R, σ 2 , τ 2 ∈ R+} er 3 .<br />

Det matematiske problem om eksistensen af et similært test baseret på T blev først<br />

løst af sovjetborgeren Linnik og hans kollegaer i 1966. Hvis n og m begge er lige eller<br />

begge er ulige, eksisterer der ikke et similært test. Hvis én af n og m er lige og den<br />

anden er ulige, eksisterer der ganske vist en løsning, men denne afhænger ikke på en<br />

“glat” måde af T.<br />

<br />

,


94 KAPITEL 7. TESTTEORI<br />

Selvom der ikke eksisterer tests, som er similære, eksisterer der tests, som er næsten<br />

similære. Da under H0<br />

<br />

¯X − ¯Y ∼ N 0, σ2<br />

og<br />

<br />

τ2<br />

+<br />

n m<br />

s 2 1 =<br />

1<br />

n − 1<br />

n<br />

(Xi − ¯X) 2 , s 2 1<br />

2 =<br />

m − 1<br />

m<br />

(Yi − ¯Y) 2<br />

∑ 1<br />

estimerer henholdsvis σ2 og τ2 , er det naturligt at betragte teststørrelsen (sammenlign<br />

med 7.20))<br />

¯X − ¯Y<br />

Z =<br />

.<br />

<br />

s 2 1 /n + s2 2 /m<br />

Denne er approksimativt t-fordelt med antallet af frihedsgrader<br />

ν(θ) =<br />

2 <br />

θ 1<br />

+ /<br />

n m<br />

Ved at erstatte θ med ˆθ = s 2 1 /s2 2<br />

niveau α ved at forkaste, når<br />

θ 2<br />

n 2 (n − 1) +<br />

∑ 1<br />

1<br />

m2 <br />

, θ = σ<br />

(m − 1)<br />

2 /τ 2 .<br />

får vi et approksimativt test for δ = 0 mod δ = 0 på<br />

|z| > t 1−α/2(ν( ˆ θ)),<br />

hvor tp( f) er p-fraktilen i en t-fordeling med f frihedsgrader. Dette test kaldes Welch-t<br />

test, og er meget tæt på at give et similært test.<br />

En anden mulighed, som også giver et test, der er meget tæt på at være similært, er<br />

at forkaste små værdier af kvotientteststørrelsen Q fra 7.4). <br />

7.4 Lokalt stærkeste test<br />

Hvad gør vi, hvis der ikke eksisterer et uniformt stærkeste test? <strong>Et</strong> rimeligt godt svar<br />

er: brug altid kvotientteststørrelsen Q i 7.4) og forkast for små værdier af Q. Dette er<br />

fornuftigt ud fra fortolkningen af Q > c som et likelihoodområde, og fordi testet bliver<br />

approksimativt similært, og dette sidste gælder også, hvis vi betinger med en ancillær<br />

observator.<br />

En anden mulighed - som vi skal se anvendt i forbindelse med rangtestorer i notesættet<br />

om ikke-parametrisk <strong>statistik</strong> - er at maksimere styrken lokalt. Dette er især af<br />

betydning hvis θ er endimensional, og vi ønsker at teste θ = θ0. Hvis modhypotesen<br />

er θ > θ0, ønsker vi at vælge testet φ sådan, at styrken β(θ) = E θφ vokser mest muligt,<br />

når θ bevæger sig væk fra θ0. Med andre ord ønsker vi, at maksimere β ′ (θ0 ) . Hvis vi<br />

må differentiere ind under integraltegnet, har vi<br />

Definer nu<br />

∂β<br />

∂θ (θ0) = ∂<br />

<br />

∂θ<br />

φ(x)p(x, θ)dµ(x)| θ=θ0 =<br />

<br />

φ(x) =<br />

<br />

1 hvis ∂p(x,θ0)<br />

∂θ<br />

0 ellers,<br />

φ(x)<br />

> ap(x, θ0)<br />

∂p(x, θ0)<br />

dµ(x). (7.21)<br />

∂θ<br />

(7.22)


7.5. OPGAVER 95<br />

hvor a er bestemt, så at<br />

<br />

Eθ0φ =<br />

φ(x)p(x, θ0)dµ(x) = α.<br />

Det følger så af Lemma 7.5 og (7.21), at hvis ˜φ er et andet test med E θ0 ˜φ ≤ α, så vil<br />

∂<br />

∂θ E ∂<br />

θφ| θ=θ0 ≥<br />

∂θ Eθ ˜φ| θ=θ0 .<br />

Det lokalt stærkeste test er altså givet ved 7.22). Vi kan formulere dette som at vi skal<br />

forkaste for store værdier af<br />

U(θ0) = ∂<br />

∂θ p(x, θ0)/p(x, θ0) = ∂l<br />

∂θ (θ0),<br />

hvor l(θ) er loglikelihoodfunktionen. Med andre ord, vi skal forkaste for store værdier<br />

af scorefunktionen (se definition 5.9).<br />

7.5 Opgaver<br />

Opgave 7.1<br />

Lad X1, . . . , Xn være uafhængige og N(µ, σ 2 )-fordelte.<br />

(i) Antag at σ 2 er kendt. Vis, at et uniformt stærkeste test for µ ≤ µ0 mod µ > µ0<br />

forkaster for store værdier af ∑ n 1 (X i − µ0).<br />

(ii) Antag at µ er kendt. Vis, at et uniformt stærkeste test for σ 2 ≤ σ 2 0 mod σ2 > σ 2 0<br />

forkaster for store værdier af ∑ n 1 (X i − µ0) 2 .<br />

Opgave 7.2<br />

Lad X1, . . . , Xn være uafhængige og uniformt fordelte på intervallet (0, θ).<br />

(i) Vis, at hvis A ⊂ (0, θ0) n , da gælder der for θ1 > θ0 at Pθ1 ((X1, . . . , Xn) ∈ A) =<br />

nPθ0 ((X1, . . . , Xn) ∈ A). Vis dernæst, at hvis A ⊂ (0, θ1) n , da vil<br />

θ0<br />

θ 1<br />

Pθ 1 ((X1, . . . , Xn) ∈ A) = Pθ 1 ((X (n) ≥ θ0) ∩ A) +<br />

hvor X (n) = max{X1, . . . , Xn}.<br />

n θ0<br />

Pθ0<br />

θ1<br />

(A),<br />

(ii) Vis, at et stærkeste test for θ = θ0 mod θ = θ1, hvor θ1 > θ0, på niveau α er givet<br />

ved<br />

⎧<br />

⎨ 1<br />

ϕ(x) = 1<br />

⎩<br />

0<br />

hvis X (n) ≥ θ0<br />

hvis (X1, . . . , Xn) ∈ A<br />

ellers,<br />

hvor A ⊆ (0, θ0) n er vilkårlig med Pθ0 (A) = α.<br />

(iii) Antag at A = {a ≤ x (n) < θ0} Vis, at testet ϕ fra (ii) er et uniformt stærkeste test<br />

på niveau α for hypotesen θ ≤ θ0 mod θ > θ0.


96 KAPITEL 7. TESTTEORI<br />

Opgave 7.3<br />

Lad X være Bin(n, θ)-fordelt.<br />

(i) Vis at det uniformt stærkeste test for hypotesen θ ≤ θ0 mod θ > θ0 forkaster for<br />

store værdier af X.<br />

(ii) Lad θ0 = 0.2, og lad for ethvert n konstanten kn være bestemt, så at<br />

P θ0 (Xn ≥ kn) ≥ 0.05 og P θ0 (Xn > kn) < 0.05.<br />

Definer testet ϕn ved ϕn(x) = 1(x ≥ kn). Hvor stor skal n være for at styrken af<br />

ϕn i punktet θ1 = 0.4 er mindst 0.9.<br />

Vink: Det er nok en god ide at finde en tabel med binomialsandsynligheder!<br />

Opgave 7.4<br />

Lad P have strengt voksende kvotienter i t(x). Lad den observerede værdi at T = t(X)<br />

være t obs . Find p-værdien eller det observerede signifikansniveau for testet af θ ≤ θ0<br />

mod θ > θ0.<br />

Opgave 7.5<br />

Lad X1, . . . , Xn være uafhængige stokastiske variable, hvor X i er Poisson-fordelt med<br />

middelværdi λi , λi > 0, i = 1, 2, . . . , n.<br />

(i) Lad λ 0 i<br />

> 0, i = 1, 2, . . . , n og lad d > 1 være et fast tal. Vis, at<br />

ϕ(x1, . . . , xn) =<br />

er det stærkeste test på niveau α for hypotesen<br />

mod hypotesen<br />

Her er<br />

α =<br />

1 x1 + · · · + xn ≥ k<br />

0 x1 + · · · + xn < k<br />

(λ1, . . . , λn) = (λ 0 1 , . . . , λ0 n)<br />

(λ1, . . . , λn) = (dλ 0 1 , . . . , dλ0 n).<br />

∞<br />

−a ai<br />

∑ e<br />

i!<br />

i=k<br />

og a = λ01 + · · · + λ0n. (ii) Vis, at ϕ er et test på niveau α for hypotesen H:<br />

mod hypotesen K:<br />

λ1 + · · · + λn ≤ a<br />

λ1 + · · · + λn > a.<br />

(iii) Vis, at ϕ er et uniformt stærkeste test på niveau α for hypotesen H mod hypotesen<br />

K.


7.5. OPGAVER 97<br />

Opgave 7.6<br />

Lad X1, X2, X3 være indbyrdes uafhængige eksponentialfordelte stokastiske variable<br />

med middelværdier<br />

EXi = 1<br />

, i = 1, 2, 3,<br />

µ i<br />

hvor µ i > 0, i = 1, 2, 3. Den herved definerede familie af sandsynlighedsmål på R 3 +<br />

udgør en regulær eksponentiel familie af orden 3.<br />

(i) Opskriv tætheden for (X1, X2, X3) på eksponentiel familieform med<br />

som kanonisk observator og<br />

som tilhørende kanonisk parameter.<br />

(ii) Vis, at for µ1 = µ2 + µ3 er<br />

<br />

X1<br />

P<br />

min(X2, X3)<br />

T = t(X) = (X1, X1 + X2, X1 + X3)<br />

θ = (µ2 + µ3 − µ1, −µ2, −µ3)<br />

<br />

≤ a = a<br />

, a > 0.<br />

a + 1<br />

Vink: Udnyt, at min(X2, X3) er eksponentialfordelt med middelværdi (µ2 + µ3) −1 .<br />

(iii) Vis, at for µ1 = µ2 + µ3 er<br />

uafhængige.<br />

X1<br />

min(X2, X3) og (X1 + X2, X1 + X3)<br />

(iv) Vis, at det uniformt stærkeste styrkerette test for µ1 = µ2 + µ3 mod µ1 < µ2 + µ3<br />

på niveau α er<br />

<br />

1<br />

ϕ(X1, X2, X3) =<br />

0<br />

X1 1−α ≥ min(X2,X3) α<br />

ellers.<br />

Vink: Konstruer testet i Sætning 7.18.<br />

Opgave 7.7<br />

Lad X1, . . . , Xn være uafhængige og Γ(λ, β)-fordelte, λ > 0, β > 0. Lad U = ∏ n 1 X1/n<br />

i / ¯X.<br />

(i) Vis, at fordelingen af U ikke afhænger af β, og vis, at U og ¯X er uafhængige.<br />

(ii) Vis, at det uniformt stærkeste styrkerette test på niveau α for λ = λ0 mod λ > λ0<br />

er givet ved<br />

ϕ(X1, . . . , Xn) =<br />

1 for (∏ n i=1 X i) 1/n / 1 n ∑n i=1 X i ≥ c<br />

0 ellers,


98 KAPITEL 7. TESTTEORI<br />

hvor c er bestemt ved<br />

P λ0,β<br />

⎛<br />

⎜<br />

⎝<br />

n 1/n ∏ Xi i=1<br />

1<br />

n<br />

n<br />

∑ Xi i=1<br />

⎞<br />

⎟<br />

≥ c⎟<br />

⎠ = α.<br />

Opgave 7.8<br />

Lad X1, . . . , Xn være uafhængige med tæthed<br />

<br />

1β exp −<br />

f(x) =<br />

x−δ<br />

<br />

β x ≥ δ<br />

0 ellers,<br />

hvor δ ∈ R og β > 0.<br />

Lad X (1) ,..,X (n) være ordensobservatorerne for X1, . . . , Xn .<br />

(i) Vis, at (X (1), . . . , X (n)) har tæthed f givet ved<br />

for δ ≤ z1 ≤ z2 ≤ · · · ≤ zn.<br />

f(z1, . . . , zn) = n! 1<br />

exp<br />

βn <br />

nδ<br />

exp −<br />

β<br />

1<br />

β<br />

Sæt Y1 = nX (1) og Y i = (n − i + 1)(X (i) − X (i−1) ), i = 2, . . . , n.<br />

(ii) Vis, at Y1, . . . , Yn er stokastisk uafhængige, og Y1 har tæthed<br />

<br />

1β<br />

f(y1) =<br />

e − yi β y1 ≥ nδ<br />

0 ellers,<br />

og Y i har tæthed, i = 2,. . . ,n,<br />

f(yi) =<br />

(iii) Vis, at for β fast er Y1 sufficient og komplet.<br />

(iv) Lad<br />

1β e − y i<br />

β y i ≥ 0<br />

0 ellers.<br />

<br />

1 Y2 + · · · + Yn > cα<br />

ϕ(Y1, . . . , Yn) =<br />

0 ellers,<br />

n <br />

∑ zi i=1<br />

hvor cα = β0<br />

2 χ2 1−α (2n − 2). Vis, at ϕ er et test på niveau α for β = β0 mod β > β0.<br />

(v) Vis, at styrkefunktionen for dette test er givet ved<br />

<br />

Eδ,β(ϕ) = P Z ≥ β0<br />

β χ2 <br />

1−α (2n − 2) ,<br />

hvor Z er en χ 2 (2n − 2)-fordelt stokastisk variabel. Vis ved hjælp af dette resultat,<br />

at ϕ er et styrkeret test for β = β0 mod β > β0.


7.5. OPGAVER 99<br />

(vi) Vis, at ϕ er uniformt stærkeste styrkerette test på niveau α for β = β0 mod β > β0<br />

.<br />

Opgave 7.9<br />

Lad X ij, i = 1, 2, j = 1, 2, være uafhængige eksponentialfordelte med middelværdi<br />

EX ij =<br />

hvor λ1, λ2 > 0 er ukendte parametre.<br />

1<br />

, i = 1, 2, j = 1, 2,<br />

λi + λj (i) Vis, at ovennævnte familie af sandsynlighedsmål på R 4 +<br />

ponentiel familie af orden 2, og vis, at<br />

T(X) = (X22 − X11, X11 + X12 + X21 + X22)<br />

er en kanonisk observator med tilhørende kanonisk parameter<br />

(ii) Vis, at for λ1 = λ2 er<br />

φ = (λ1 − λ2, −λ1 − λ2).<br />

X22 − X11<br />

X11 + X12 + X21 + X22<br />

ancillær og stokastisk uafhængig af X11 + X12 + X21 + X22.<br />

udgør en regulær eks-<br />

(iii) Vis, at det uniformt stærkeste styrkerette test for λ1 = λ2 mod λ1 > λ2 på niveau<br />

α er<br />

<br />

1<br />

ϕ(X11, X12, X21, X22) =<br />

0<br />

X22−X11 X ≥ cα<br />

11+X12+X21+X22 ellers,<br />

hvor cα er bestemt ved<br />

P λ1=λ2<br />

<br />

X22 − X11<br />

X11 + X12 + X21 + X22<br />

<br />

≥ cα = α.<br />

(iv) Vis, at det uniformt stærkeste styrkerette test for λ1 = λ2 mod λ1 = λ2 på niveau<br />

2α er<br />

<br />

1<br />

ϕ(X11, X12, X21, X22) =<br />

0<br />

|X22−X11| X ≥ cα<br />

11+X12+X 21+X22<br />

ellers,<br />

hvor cα er bestemt som ovenfor.<br />

Opgave 7.10<br />

Betragt en model P = {Pθ|θ ∈ Θ} på målrummet (X , A). Lad ϕ(x; θ0) være et test på<br />

niveau α for hypotesen H(θ0) : θ = θ0 . D.v.s. at vi har Eθ0 ϕ = α. Vis, at området<br />

K(x) = {θ ∈ Θ | ϕ(x; θ) = 0}


100 KAPITEL 7. TESTTEORI<br />

er et (1 − α)-konfidensområde.<br />

Lad nu θ = (ψ, η) og lad ˜ϕ(x; ψ0) være et test på niveau α for den sammensatte<br />

hypotese H(ψ0) : ψ = ψ0. Definer<br />

Vis, at<br />

˜K(x) = {ψ | ˜ϕ(x; ψ) = 0}.<br />

P θ<br />

ψ ∈ ˜K(X) ≥ 1 − α,<br />

altså at ˜K(X) indeholder den sande værdi ψ, med en sandsynlighed, der er mindst<br />

1 − α.


Kapitel 8<br />

Separat inferens<br />

8.1 L-sufficiens og L-ancillaritet<br />

Vi betragter i dette kapitel en model P = {P θ|θ ∈ Θ}, hvor θ står i én til én korrespondance<br />

med (ψ, η). Parameteren ψ - interesseparameteren - er den parameter, vi ønsker<br />

at sige noget om, hvorimod vi ikke er interesseret i η - nuisanceparameteren (engelsk:<br />

nuisance = plage) - selvom denne er nødvendig for en fuldstændig beskrivelse af modellen.<br />

I Kapitel 6 betragtede vi estimation af ψ i klassen af centrale estimater, d.v.s.<br />

Eψ,η ˜ψ = ψ for alle η for et centralt estimat ˜ψ. Tilsvarende betragtede vi i Afsnit 7.3 similære<br />

tests for den sammensatte hypotese ψ = ψ0, d.v.s. Eψ0,ηφ = α for alle η. I begge<br />

tilfælde er der tale om en egenskab, der ikke afhænger af nuisanceparameteren η . Der<br />

er to situationer, hvor denne egenskab kan opnås på en direkte måde, nemlig hvis der<br />

eksisterer en observator S = s(X), så at den marginale fordeling af S kun afhænger<br />

af ψ, eller hvis der eksisterer en observator U = u(X), så at den betingede fordeling<br />

af X givet U = u kun afhænger af ψ. Det var den sidste situation, der blev anvendt i<br />

konstruktionen af de similære tests i Afsnit 7.3. Det spørgsmål, som vi skal komme ind<br />

på her, er om det er rimeligt kun at betragte den marginale fordeling af S, henholdsvis<br />

den betingede fordeling af X givet U. Bemærk at i tilfældet, hvor der ingen nuisanceparameter<br />

er, d.v.s θ = ψ, så har vi en formulering af dette i (B-) sufficiensprincippet<br />

og (B-) betingningsprincippet.<br />

Jeg vil først med et eksempel vise, at maksimum likelihood estimation ikke er problemfrit,<br />

når der er nuisanceparametre tilstede.<br />

Eksempel 8.1.<br />

Hvis X1, . . . , Xn er uafhængige og alle N(µ, σ 2 )-fordelte, så er likelihoodfunktionen<br />

L(µ, σ 2 ) =<br />

n<br />

∏(2πσ<br />

i=1<br />

2 ) − 1 − 1<br />

2 e 2σ2 (x1−µ) 2<br />

Maksimum likelihood estimaterne er ˆµ = ¯X og σ 2 = 1 n ∑n 1 (X i − ¯X) 2 . På <strong>statistik</strong> 1 har<br />

I lært, at I ikke skal bruge ˆσ 2 som estimat for σ 2 , men istedet<br />

s 2 = 1<br />

n − 1<br />

n<br />

∑(Xi − ¯X)<br />

1<br />

2 .<br />

101


102 KAPITEL 8. SEPARAT INFERENS<br />

Argumentet for at bruge s 2 istedet for ˆσ 2 er, at<br />

Es 2 = σ 2 og Eˆσ 2 2 n − 1<br />

= σ<br />

n =<br />

<br />

1 − 1<br />

n<br />

<br />

σ 2 .<br />

Den marginale fordeling for s 2 er en σ 2 χ 2 (n − 1)/(n − 1) med tæthed<br />

<br />

n − 1<br />

2σ2 (n−1)/2<br />

Γ<br />

n − 1<br />

2<br />

−1<br />

x (n−3)/2 e −(n−1)x/(2σ2 ) ,<br />

og maksimum likelihood estimatet ˆσ 2 m fra denne tæthed er netop ˆσ 2 m = s 2 .<br />

Medmindre n er meget lille, har det i praksis ikke den store betydning, om vi bruger<br />

ˆσ 2 eller s 2 . Intuitivt er det generelt forholdet mellem antallet af observationer n og antallet<br />

af nuisanceparametre, der bestemmer, hvor godt maksimum likelihoodestimatet<br />

er. Dette kan illustreres ved modellen med<br />

X ij ∼ N(µ i, σ 2 ) j = 1, 2, i = 1, . . . , n,<br />

d.v.s., at vi har n grupper med to observationer i hver. Maksimum likelihood estimaterne<br />

er<br />

Fra store tals lov (JHJ 4.12) får vi<br />

ˆµ i = ¯X i· = 1<br />

2 (Xi1 + Xi2) og ˆσ 2 = 1<br />

2n ∑(Xij − ¯X i·)<br />

ij<br />

2 .<br />

ˆσ 2 = 1<br />

n<br />

n<br />

∑<br />

1<br />

<br />

Xi1 − X<br />

2 <br />

i2 Xi1 − Xi2 → E<br />

2<br />

2<br />

2<br />

= 1<br />

2 σ2 ,<br />

hvor konvergensen er næsten sikker for n → ∞, og vi har også Eˆσ 2 = 1 2 σ2 . Hvis vi<br />

istedet baserer estimationen af σ 2 på den marginale fordeling af<br />

får vi maksimum likelihood estimatet<br />

Y i = X i1 − X i2 ∼ N(0, 2σ 2 ) i = 1, . . . , n,<br />

ˆσ 2 m = 2 1<br />

n<br />

n<br />

∑<br />

1<br />

<br />

Xi1 −<br />

<br />

Xi2<br />

2<br />

→ σ<br />

2<br />

2 ,<br />

og Eˆσ 2 m = σ 2 . <br />

Lad nu familien P være domineret af µ og lad f(x; θ) = dPθ dµ (x). Hvis S = s(X) er<br />

en observator, lader vi<br />

f(s; θ) = dPθS (s) og f(x|s; θ) =<br />

dµS<br />

dPθ(·|S = s)<br />

dµ(·|S = s) (x),<br />

og tilsvarende for observatoren U = u(X). Hvis f(s; θ) kun afhænger af θ gennem ψ,<br />

d.v.s.<br />

f(x; θ) = f(s; ψ) f(x|s; ψ, η), (8.1)


8.1. L-SUFFICIENS OG L-ANCILLARITET 103<br />

er vi interesseret i, om vi kan basere inferensen om ψ på den marginale model f(s; ψ).<br />

Hvis vi kan argumentere for, at f(x|s; ψ, η) ikke indeholder information om ψ, vil det<br />

være rimeligt at sige, at S i en udvidet forstand er sufficient for ψ. Hvis omvendt<br />

f(x|u; θ) kun afhænger af θ gennem ψ, d.v.s<br />

f(x, θ) = f(u; ψ, η) f(x|u; ψ), (8.2)<br />

vil vi gerne kunne sige, at f(u; ψ, η) ikke indeholder information om ψ, og at U i en<br />

udvidet forstand er ancillær for ψ.<br />

Jeg vil nu give én (ud af andre mulige) definition på hvornår f(x|s; ψ, η) henholdsvis<br />

f(u; ψ, η) ikke indeholder information om ψ, og dernæst forsøge at argumentere<br />

for at dette er et rimeligt kriterium.<br />

Definition 8.2 Hvis opsplitningen (8.1) holder, og der eksisterer funktioner g(s; ψ) og<br />

h(x) så at<br />

sup f(x|s; ψ, η) = g(s; ψ)h(x), (8.3)<br />

η<br />

så siges S = s(X) at være L-sufficient for ψ (“L” for likelihood). Hvis omvendt opsplitningen<br />

(8.2) holder, og der eksisterer funktioner g(ψ) og h(u) så at<br />

sup<br />

η<br />

f(u; ψ, η) = g(ψ)h(u), (8.4)<br />

så siges U = u(X) at være L-ancillær for ψ.<br />

Hvis S er L-sufficient for ψ, bør inferens om ψ udføres i den marginale fordeling af<br />

S, og hvis U er L-ancillær for ψ, bør inferens om ψ udføres i den betingede fordeling af<br />

X givet U. <br />

Argumentation: Ved at tage tæthed mht. ˜µ, hvor d ˜µ/dµ = h, kan vi i (8.3) og (8.4)<br />

antage at h ≡ 1, hvilket hermed gøres. Profillikelihoodfunktionen ¯L(ψ) for parameteren<br />

ψ er defineret som<br />

¯L(ψ) = sup<br />

η<br />

f(x; ψ, η) = f(x; ψ, ˆηψ),<br />

hvor ˆηψ er maksimum likelihood estimatet for η for fastholdt værdi af ψ. Hvis (8.1) er<br />

opfyldt, vil<br />

¯L(ψ) = f(s; ψ) sup f(x|s; ψ, η) = f(s; ψ) f(x|s; ψ, ˆηψ). (8.5)<br />

η<br />

Profillikelihoodfunktionen ¯L(ψ) er udgangspunktet for inferens om ψ, og vi kan udtrykke<br />

(8.5) ved at ¯L(ψ) er den marginale likelihood fra S modificeret ved f(x|s; ψ, ˆηψ).<br />

Denne modifikation må være baseret på den extra viden, vi har fra observationen x<br />

givet S = s. Hvis (8.3) er opfyldt, er modifikationen g(s; ψ), altså den samme uanset<br />

hvad vi har observeret om x givet S = s. Men i så fald kan vi lige så godt sige, at vi<br />

ikke har observeret x fra X givet S = s, og tilbage er observationen S = s. Vi bør derfor<br />

nøjes med at betragte den marginale fordeling af S, og anse g(s; ψ) for et irrelevant<br />

element (som netop giver anledning til problemerne i eksempel 8.1 ovenfor).<br />

Hvis (8.2) er udgangspunktet, har vi<br />

¯L(ψ) = f(x|u; ψ) f(u; ψ, ˆηψ),


104 KAPITEL 8. SEPARAT INFERENS<br />

og f(u; ψ, ˆηψ) betragtes som en modifikation til f(x|u; ψ). Hvis (8.4) er opfyldt, fås<br />

f(u; ψ, ˆηψ) = g(ψ),<br />

og modifikationen afhænger altså ikke af hvilken værdi af u, der er observeret. Vi bør<br />

derfor nøjes med at basere inferensen på den betingede fordeling af x givet U = u. △<br />

Eksempel 8.3.<br />

Lad X i, . . . , Xn være uafhængige og N(µ, σ 2 ) fordelte. Vi vil vise at S = (X1 − ¯X, . . . , Xn −<br />

¯X) er L-sufficient for σ 2 . Da X i − ¯X = (X i − µ) − ∑ n 1 (X j − µ)/n afhænger fordelingen<br />

af S kun af σ 2 . Da X = (X1, . . . , Xn) = S + ( ¯X, . . . , ¯X) er den betingede fordeling af X<br />

givet S ækvivalent med den betingede fordeling af ¯X givet S. For fast σ 2 er ¯X sufficient<br />

og komplet og S er ancillær. Fra Basu’s sætning har vi derfor at S og ¯X er uafhængige.<br />

Den betingede fordeling af X givet S er derfor ækvivalent med den marginale<br />

fordeling af ¯X, som jo er en N(µ, σ 2 /n) fordeling. Da<br />

sup<br />

µ<br />

1<br />

√ 2πσ 2 /n exp(−( ¯x − µ) 2 /(2σ 2 /n)) =<br />

1<br />

√ 2πσ 2 /n<br />

er en funktion af σ 2 udelukkende har vi fra definitionen at S er L-sufficient for σ 2 .<br />

Estimatet for σ 2 fra den marginale fordeling af S er s 2 = ∑ n 1 (X i − ¯X)/(n − 1). <br />

I de næste to afsnit vil jeg se på specialtilfælde af L-sufficiens og L-ancillaritet.<br />

8.2 S-sufficiens og S-ancillaritet<br />

Vi har antaget ovenfor at paramteren θ står i entydig forbindelse med parameteren<br />

(ψ, η) Vi antager nu at vi kan omparametrisere til (ψ, λ), det vil sige at der er en entil-en<br />

forbindelse mellem (ψ, η) og (ψ, λ). I definitionen nedenfor er det et væsentligt<br />

element at vi forlanger at (ψ, λ) varierer i et produktområde.<br />

Definition 8.4 Hvis (ψ, λ) varierer i Ψ × Λ, og (8.1) specialiserer til<br />

f(x; θ) = f(s; ψ) f(x|s; λ)<br />

siges S = s(X) at være S-sufficient for ψ. Omvendt hvis (8.2) specialiserer til<br />

f(x; θ) = f(u; λ) f(x|u; ψ)<br />

siges U = u(X) at være S-ancillær for ψ. <br />

Observation 8.5 S-sufficiens/ancillaritet er et specialtilfælde af L-sufficiens/ancillaritet.<br />

<br />

Bevis. (i) Sufficiens:<br />

(ii) Ancillaritet:<br />

sup<br />

η<br />

sup<br />

η<br />

f(x|s; ψ, η) = sup f(x|s; λ) = h(x).<br />

λ∈Λ<br />

f(u; ψ, η) = sup f(u; λ) = h(u).<br />

λ∈Λ


8.2. S-SUFFICIENS OG S-ANCILLARITET 105<br />

Observation 8.6 Hvis S er S-sufficient henholdsvis S-ancillær, er maksimum likelihood<br />

estimatet for ψ og kvotienttestoren for ψ = ψ0 de samme, om de baseres på<br />

den fulde likelihood f(x; ψ, η) eller på den marginale likelihood f(s; ψ) henholdsvis<br />

den betingede likelihood f(x|u; ψ). Fordelingen af estimat og kvotienttestor vil dog i<br />

ancillaritetstilfældet være påvirket af, at vi betinger med U = u. <br />

Observation 8.7 S-ancillaritet ligger tæt op ad B-ancillaritet, idet hvis U er S-ancillær,<br />

så er U også B-ancillær i enhver af delmodellerne med λ fast. Hvis derfor vi synes, at<br />

det er vigtigt at betinge med U for fastholdt værdi af λ, bør vi også betinge med U, når<br />

λ er ukendt og varierer i Λ, sålænge værdien af λ ikke siger noget om variationsområdet<br />

for ψ. <br />

Eksempel 8.8.<br />

I forsikringsmatematikken betragter man ofte den model, at skaderne ankommer efter<br />

en Poissonproces i tiden og skadestørrelserne er uafhængige og identisk fordelte. Lad<br />

os derfor betragte følgende model: N er en Poissonfordeling betinget med at N > 0 ,<br />

d.v.s.<br />

P(N = k) = λk<br />

k! e−λ /(1 − e −λ ), k = 1, 2, . . . ,<br />

og X1, X2, . . . er uafhængige exponentialfordelte med middelværdi µ. Vi observerer N<br />

og X1, . . . , XN og likelihoodfunktionen bliver<br />

L(µ, ; λ) =<br />

1<br />

1 − e −λ<br />

Maksimum likelihood estimatet for µ er<br />

ˆµ = 1<br />

N<br />

λn n<br />

1<br />

e−λ<br />

n! ∏ µ<br />

i=1<br />

e−xi/µ .<br />

N<br />

∑ Xi. i=1<br />

Hvis vi skal sige noget om, hvor tæt ˆµ må forventes at være på den sande værdi µ,<br />

virker det rimeligt at tage hensyn til værdien af N : hvis N = 1, ved vi ikke meget<br />

om µ, men hvis N = 10.000 , er vi i en meget bedre position for at lave udsagn om µ.<br />

Vi ønsker altså at basere inferensen på den betingede fordeling af X1, X2, . . . , Xn givet<br />

N = n. Hvis λ er kendt, er N B-ancillær, og hvis λ er ukendt med (µ, λ) ∈ R2 + er N<br />

S-ancillær for inferens om µ. <br />

Eksempel 8.9.<br />

Lad (X, Y) være 2-dimensionalt normalfordelt med middelværdi (µ, µ) og varians<br />

1 1<br />

1 1+σ 2<br />

<br />

. Parameteren (µ, σ 2 ) varierer i R × R+. Så har vi X ∼ N(µ, 1) og Y|X =<br />

x ∼ N(x, σ 2 ). Heraf ser vi at X er S-sufficient for µ. <br />

Eksempel 8.10.<br />

Lad N være antallet af partikler fra en radioaktiv kilde, som en geigertæller registrerer<br />

i et fast tidsrum, og lad N2 være en tilsvarende tælling med en plade indskudt mellem<br />

kilden og tælleren. Vi vil betragte modellen<br />

N1 ∼ Poisson(γ) og N2 ∼ Poisson(ψγ), γ > 0, 0 < ψ ≤ 1,


106 KAPITEL 8. SEPARAT INFERENS<br />

d.v.s. γ er intensiteten fra kilden og ψ angiver den bremsende virkning af pladen. Likelihoodfunktionen<br />

er<br />

L(ψ, γ) = γn 1<br />

n1! e−γ(ψγ)n2<br />

n2! e−ψγ<br />

= [γ(1 + ψ)]n1+n2 e<br />

(n1 + n2)!<br />

−γ(1+ψ)<br />

n1 + n2<br />

n1<br />

n1 n2 1 ψ<br />

,<br />

1 + ψ 1 + ψ<br />

svarende til at (N1 + N2) ∼ Poisson (γ(1 + ψ)) og N1|(N1 + N2) = k ∼ Binomial<br />

1 (k, 1+ψ ). Hvis ψ er interesseparameteren, og λ = γ(1 + ψ) er en nuisanceparameter,<br />

har vi at (ψ, λ) ∈ (0, 1] × R+, og U = N1 + N2 er S-ancillær for ψ. Vi bør altså drage<br />

inferens om ψ i den betingede fordeling af N1 givet N1 + N2. <br />

I forbindelse med S-sufficiens og S-ancillaritet optræder ofte begrebet et “snit”. Lad<br />

P være en klasse af sandsynlighedsmål, og S en observator. Lad P S = {P S | P ∈ P}<br />

være klassen af marginale fordelinger for S og lad P S = {P(·|S = ·) | P ∈ P} være<br />

klassen af betingede fordelinger givet S. Hvis der for enhver kombination (P1, P2) ∈<br />

P S × P S eksisterer P ∈ P med P S = P1 og P(·|S = ·) = P2, så siges S at være et snit i<br />

modellen P . Hvis derfor S er S-sufficient for parameteren ψ, er S et snit, og omvendt<br />

hvis S er et snit, vil S være S-sufficient for en vilkårlig parameter, som parametriserer<br />

klassen P S af marginale fordelinger.<br />

Eksempel 8.11 (Inkubationstidsfordelingen for AIDS).<br />

Dette eksempel er lidt sværere end de øvrige, men jeg tager det med på grund af dets<br />

aktualitet.<br />

Da inkubationstiden for AIDS er meget lang, er smittetidspunktet ofte ukendt, når<br />

personer får stillet diagnosen AIDS (=AIDS i fuldt udbrud). Man har derfor forsøgt<br />

at bruge data fra personer, der er blevet smittet ved blodtransfusion, og derfor har et<br />

kendt smittetidspunkt. Lad os for eksempel sige, at vi laver en undersøgelse i 1987.<br />

Observationerne i = 1, . . . , n består derfor af par (xi, yi), hvor xi er smittetidspunktet,<br />

og y i ≤ 1987 er tidspunktet for AIDS. Der vil være flere end de n personer, der er blevet<br />

smittet ved blodtransfusion, men de resterende personer bliver ikke observeret, idet de<br />

har et AIDS-tidspunkt, der ligger senere end 1987.<br />

Lad os sige, at inkubationsfordelingen F(·; ψ) er parametriseret ved ψ,<br />

P(Y i − X i ≤ z) = F(z; ψ).<br />

Lad os endvidere antage, at personerne bliver smittet efter en inhomogen Poisson proces<br />

med intensitet λ(t). D.v.s. at antallet af personer der smittes ved blodtransfusion i<br />

tidsintervallet (t1, t2) er Poissonfordelt med middelværdi t2<br />

t 1 λ(t)dt og disjunkte tidsintervaller<br />

er uafhængige. Heraf får vi, at processen af observerede smittetidspunkter,<br />

svarende til X i-erne ovenfor, også er en inhomogen Poissonproces med intensitet<br />

φ(t) = λ(t)F(T − t; ψ), (8.6)<br />

hvor T = 1987 er tidspunktet, hvor undersøgelsen er afsluttet. Denne formel siger, at<br />

af dem, der smittes til tid t, når vi kun at se F(T − t; ψ).


8.3. G-SUFFICIENS OG G-ANCILLARITET 107<br />

Observationen bliver N = n antal par og tidspunkterne (X1, Y1), . . . , (Xn, Yn). Likelihoodfunktionen<br />

kan opskrives som den marginale tæthed af (N, X1, . . . , Xn) multipliceret<br />

med den betingede tæthed af (Y1, . . . , Yn). Givet (N, X1, . . . , XN) har vi at<br />

(Y1, . . . , Yn) er uafhængige, og Y i har tæthed f(y − x i; ψ)/F(T − x i; ψ), hvor f(z; ψ) =<br />

F ′ (z; ψ). Givet N = n har vi at X1, . . . , Xn er uafhængige, og X i har tæthed φ(x)/ T<br />

T0 φ(t)dt,<br />

hvor T0 er starttidspunktet for epidemien (dette er en egenskab ved den inhomogene<br />

Poissonproces). Endelig er N Poissonfordelt med middelværdi T<br />

φ(t)dt. Vi får da<br />

T0<br />

L(ψ; λ(·))<br />

=<br />

=<br />

n<br />

∏<br />

i=1<br />

n<br />

∏<br />

i=1<br />

<br />

f(y i − xi; ψ) 1<br />

F(T − xi; ψ) n!<br />

<br />

1<br />

n!<br />

f(y i − x i; ψ)<br />

F(T − x i; ψ)<br />

n<br />

∏<br />

i=1<br />

n<br />

∏<br />

i=1<br />

<br />

[λ(xi)F(T − xi; ψ)] exp −<br />

T <br />

φ(xi) exp − φ(t)dt<br />

T0<br />

<br />

T<br />

T0<br />

<br />

λ(t)F(T − t; ψ)dt<br />

<br />

(8.7)<br />

Hvis vores model siger, at ψ ∈ Ψ og λ(·) kan variere frit, kan vi ifølge (8.6) også<br />

formulere dette som ψ ∈ Ψ, og φ(·) kan variere frit. Vi har derfor igen et tilfælde,<br />

hvor (N, X1, . . . , Xn ) er S-ancillær for ψ, og vi baserer inferensen om ψ på det <strong>første</strong><br />

led i (8.7). I litteraturen har man også forsøgt at bruge den fulde likelihoodfunktion<br />

(8.7), idet λ(t) er blevet modelleret som exp(a + bt) med a og b parametre, i hvilket<br />

tilfælde (N, X1, . . . , XN ) ikke længere er S-ancillær.<br />

Det er værdifuldt at give en nøjere overvejelse over forskellen mellem ikke at antage<br />

noget om λ(·) og for eksempel at antage en parametrisk form. Når vi siger, at vi ikke<br />

ved noget om λ(·), baserer vi inferensen om ψ på det <strong>første</strong> led i (8.7). Hvis vore model<br />

F(·; ψ) for inkubationstiden er “rigtig”, vil dette føre til en fornuftig viden om ψ. Når<br />

vi derimod antager noget om λ(·), får det andet led i (8.7) betydning på grund af (8.6).<br />

Hvis nu vores antagelse om λ(·) ikke er korrekt, vil dette altså føre til en eller anden<br />

form for fejl i vores udtalelse om ψ. Vi kan således fortolke det, at vi baserer inferensen<br />

om ψ på det <strong>første</strong> led i (8.7) som en “sikker” procedure.<br />

Baseret på amerikanske data og den betingede likelihoodfunktion har man estimeret<br />

inkubationstidsfordelingen til at være en Weibullfordeling med fordelingsfunktionen<br />

1 − exp{−(αt) β }, α = 0.07, β = 2.5,<br />

hvor t måles i år. Denne fordeling har median 12.3, og sandsynligheden for en inkubationstid<br />

på 7 år eller derunder er kun 0.155. <br />

8.3 G-sufficiens og G-ancillaritet<br />

I dette afsnit skal jeg bruge begrebet en gruppefrembragt familie af sandsynlighedsmål,<br />

og jeg beskriver derfor først dette generelt. Vi betragter et generelt udfaldsrum X ,<br />

hvopå vi har en mængde G af målelige transformationer<br />

g : X → X for g ∈ G.<br />

Vi antager, at G er en gruppe, hvilket betyder, at hvis g, h ∈ G , så vil den sammensatte<br />

afbildning gh,<br />

gh : x → g(h(x))


108 KAPITEL 8. SEPARAT INFERENS<br />

også tilhøre G, og for ethvert g ∈ G vil den inverse afbildning g −1 tilhøre G. Hvis P er<br />

en klasse af sandsynlighedsmål, siges P at være frembragt af gruppen G, hvis der for et<br />

P0 ∈ P gælder at<br />

P = {P0g | g ∈ G}.<br />

Hvis P0 har tæthed f(x) og χg(y) er Jacobianten<br />

vil P0g have tæthed f(y; g) givet ved<br />

<br />

<br />

χg(y) = <br />

<br />

∂y (y)<br />

<br />

<br />

<br />

, (8.8)<br />

∂g −1<br />

f(y; g) = χg(y) f(g −1 (y)). (8.9)<br />

En gruppe af transformationer siges at virke transitivt på X , hvis der for alle x1, x2 ∈ X<br />

findes et g ∈ G, så at g(x1) = x2.<br />

Lemma 8.12 Hvis G virket transitivt på X og P er gruppefrembragt, eksisterer der en<br />

konstant c(P) afhængig af P og en funktion h(x) uafhængig af P (d.v.s. kun afhængig<br />

af X og G) så at<br />

sup<br />

g<br />

f(x; g) = c(P)h(x).<br />

Bevis. Fra definitionen (8.8) af χg har vi, at χ gh(x) = χ h(g −1 (x))χg(x). Lad x0 være et<br />

fast punkt i X . Da G virker transitivt på X , kan vi for ethvert x ∈ X finde d = dx ∈ G,<br />

så at x = d −1 (x0). Fra (8.9) får vi<br />

og dermed<br />

f(x; g) = f(d −1 (x0); g) = χg(d −1 (x0)) f(g −1 (d −1 (x0)))<br />

= χ dg(x0)<br />

χ d(x0) f((dg)−1 (x0))<br />

= f(x0, dg)χ d(x0) −1 ,<br />

sup<br />

g<br />

f(x; g) = [sup<br />

g<br />

= [sup<br />

˜g<br />

f(x0, dg)]χ d(x0) −1<br />

f(x0, ˜g)]χ d(x0) −1<br />

= c(P)h(x). <br />

Definition 8.13 Hvis opsplitningen (8.1) holder, og der for ethvert s eksisterer en transitiv<br />

gruppe Gs af transformationer på Xs = {x|s(x) = s}, så at familien P s ψ =<br />

{ f(·|s; ψ, η)|ηvarierer} er frembragt af Gs for alle ψ, da siges S = s(X) at være Gsufficient<br />

for ψ. Omvendt hvis (8.2) holder og der eksisterer en transitiv gruppe G af<br />

transformationer på U = u(X), så at familien PU,ψ = {P (ψ,η)U | η varierer} er frembragt<br />

af G for alle ψ, da siges U = u(X) at være G-ancillær for ψ.


8.3. G-SUFFICIENS OG G-ANCILLARITET 109<br />

Observation 8.14 G sufficiens/ancillaritet er et specialtilfælde af L-sufficiens/ ancillaritet.<br />

<br />

Bevis. (i) Sufficiens:<br />

ifølge Lemma 8.10.<br />

(ii) Ancillaritet:<br />

sup<br />

η<br />

sup<br />

η<br />

f(x|s; ψ, η) = c(s, ψ)h(x),<br />

f(u; ψ, η) = c(ψ)h(u),<br />

ifølge Lemma 8.10. <br />

Eksempel 8.15.<br />

Lad X1, . . . , Xn være uafhængige Gammafordelte med tæthed<br />

hvor (β, λ) ∈ R2 + . Likelihoodfunktionen er<br />

L(λ, β) = βnλ<br />

Γ(λ) exp<br />

<br />

λ<br />

β λ<br />

Γ(λ) xλ−1 e −βx , x > 0,<br />

n<br />

∑<br />

1<br />

ln x i − β<br />

og dermed er profil–likelihoodfunktionen for λ,<br />

Hvis<br />

¯L(λ) = sup<br />

β<br />

n n<br />

∑ xi ∏<br />

1 1<br />

L(λ, β) = λnλ<br />

Γ(λ) exp λ <br />

∑ ln x i − n ln ¯x − n n<br />

∏ 1<br />

S = 1<br />

n<br />

n<br />

∑<br />

1<br />

n<br />

ln Xi − ln ¯X<br />

∏1 X<br />

= ln<br />

1/n <br />

i<br />

¯X<br />

1<br />

x i<br />

<br />

,<br />

1<br />

xi<br />

<br />

. (8.10)<br />

har en fordeling, der kun afhænger af λ, viser (8.10), at S er L-sufficient for λ. Da<br />

S = 1<br />

n ∑ <br />

1<br />

ln(βXi) − ln<br />

n<br />

n<br />

∑<br />

1<br />

<br />

(βXi) og βX i har en fordeling, der kun afhænger af λ, vil S have en fordeling, der kun afhænger<br />

af λ. Vi vil nu vise, at S også er G-sufficient for λ.<br />

Vi laver først en minimal sufficient reduktion til T = ( 1 n ∑n 1 X i, 1 n ∑n 1 ln X i). Denne<br />

står i entydig forbindelse med ( ¯X, S), og Baus’s sætning giver (opgave 4.3), at ¯X og S<br />

er uafhængige. Tætheden for ¯X er<br />

fn(x; λ, β) = (nβ)nλ<br />

Γ(nλ) xnλ−1 e −nβx . (8.11)<br />

Lad nu G = R+ være gruppen af transformationer på R+ givet ved, at for g ∈ R+<br />

gælder<br />

g : x → gx, x ∈ R+.


110 KAPITEL 8. SEPARAT INFERENS<br />

Hvis X har tæthed fn(x; λ, β) vil g(X) have tæthed fn(x; λ, β/g). D.v.s. at for fast λ er<br />

familien (8.11) med β > 0 frembragt af gruppen G. Da (8.11) er de betingede tætheder<br />

givet S, er S altså G-sufficient for λ.<br />

Bemærk at transformationerne af ¯X svarer til transformationerne<br />

(x1, . . . , xn) → (gx1, . . . , gxn)<br />

på det oprindelige udfaldsrum R n + , og at under disse transformationer er S = s(X1, . . . , Xn)<br />

invariant<br />

s(gx1, . . . , gxn) = s(x1, . . . , xn). <br />

Eksempel 8.16 (Proportional hazards).<br />

Dette er også et svært eksempel. Modellen, vi skal betragte, er meget populær i forbindelse<br />

med studier af overlevelsesdata. Eksemplet giver også en fornemmelse af,<br />

hvordan man kan opstille en likelihoodfunktion i mere komplicerede situationer end<br />

dem, I er vant til.<br />

Vi betragter n personer og observerer, hvornår de dør. Til person i er der knyttet<br />

et sæt forklarende variable z i ∈ R k (engelsk: covariates). Disse kan for eksempel sige,<br />

hvilken medicinsk behandling personen får, om det er en kvinde eller en mand og<br />

så videre. Fordelingen af dødstidspunktet beskrives ved en hazardfunktion h(t), der<br />

siger, hvad sandsynligheden er for at dø i det næste lille tidsrum, givet at man har<br />

overlevet op til nu. Vi kan skrive dette som<br />

P( dø i (t, t + δ) | levende til tid t) = h(t)δ + o(δ), (8.12)<br />

hvor o(δ)/δ → 0 for δ → 0. En anden måde at sige dette på er<br />

s+t <br />

P(dø efter tid s + t | levende til tid s) = exp − h(u)du . (8.13)<br />

s<br />

Tænk på en inhomogen Poissonproces!<br />

Lad os betragte m personer med hazards h1(t), . . . , hm(t). Lad T være den stokastiske<br />

variabel, der angiver tidspunktet for det <strong>første</strong> dødsfald og I nummeret på den<br />

person, der dør til tid T. Da hazardfunktionen har fortolkningen (8.12), får vi<br />

og som i (8.13) finder vi, at<br />

P(I = i | T = t) = hi(t) ∑ m j=1 h , (8.14)<br />

j(t)<br />

<br />

P(T > t) = exp −<br />

og dermed er tætheden for T givet ved<br />

m <br />

∑ hj(t) exp −<br />

j=1<br />

t<br />

0<br />

t<br />

0<br />

m <br />

∑ hj(u) du ,<br />

j=1<br />

m <br />

∑ hj(u) du , (8.15)<br />

j=1


8.3. G-SUFFICIENS OG G-ANCILLARITET 111<br />

Lad os nu vende tilbage til de n personer med kovariater z1, . . . , zn. Vi vil betragte<br />

modellen, hvor hazardfunktionen h i(t) for den i’te person er på formen<br />

h i(t) = λ(t) exp{β · z i},<br />

hvor λ(t) er en underliggende fælles intensitet og β er en vektor af parametre. Dette<br />

kaldes Proportional Hazards modellen. Vi observerer de stokastiske variable D1, . . . , Dn,<br />

som er dødstidspunkterne for de n personer. Ækvivalent hermed kan vi betragte T1, . . . , Tn,<br />

som er de n dødstidspunkter ordnet efter størrelse T1 < T2 < · · · < Tn, og R1, . . . , Rn<br />

hvor R i angiver, hvilken person, der dør på tidspunktet T i. Vi kan nu opstille likelihoodfunktionen<br />

som følgende produkt af betingede tætheder<br />

L(β, λ(·)) =<br />

=<br />

n<br />

∏<br />

i=1<br />

n<br />

∏<br />

i=1<br />

p(r i, t i|(r1, t1), . . . , (r i−1, t i−1))<br />

{p(r i | t i, (r1, t1), . . . , (r i−1, t i−1))p(t i | (r1, t1), . . . , (r i−1, t i−1))}.<br />

Lad nu I i = {R i, R i+1, . . . , Rn} = {1, . . . , n}\{R1, . . . , R i−1} være de personer, der er<br />

i live efter tidspunktet T i−1 (med T0 = 0) . Givet (r1, t1), . . . , (r i−1, t i−1) er situationen<br />

som i (8.14) og (8.15) med de m personer givet ved Ii og med nulpunktet for tidsaksen<br />

ved t i−1. Derfor får vi<br />

L(β, λ(·))<br />

=<br />

n<br />

∏<br />

i=1<br />

= exp<br />

λ(t i)e β·zr i<br />

∑j∈I λ(t i i)e β·zj n<br />

∑ β · zi ∏<br />

i i=1<br />

= exp <br />

∑i β · zi <br />

∑j∈I e i β·z ·<br />

j<br />

∏ n i=1<br />

<br />

∑ λ(ti)e j∈Ii β·z ti <br />

j exp −<br />

ti−1 <br />

λ(ti) exp −<br />

n<br />

∏<br />

i=1<br />

<br />

∑<br />

j∈I i<br />

e β·z j<br />

∑<br />

j∈I i<br />

∑<br />

j∈I i<br />

e β·z ti<br />

j λ(u)du<br />

ti−1 <br />

λ(t i) exp<br />

<br />

−<br />

= p(r1, . . . , rn; β) · p(t1, . . . , tn | r1, . . . , rn; β, λ(·)).<br />

∑<br />

j∈I i<br />

λ(u)e β·z <br />

j du<br />

<br />

e β·z <br />

ti<br />

j λ(u)du<br />

ti−1 Vi vil nu argumentere for at (R1, . . . , Rn ) er G-sufficient for β. Vi skal altså vise, at<br />

klassen af betingede fordelinger for (T1, . . . , Tn) givet (R1, . . . , Rn ) for fast værdi af β<br />

er en gruppefrembragt famile. Lad G være gruppen af alle voksende transformationer<br />

af tidsaksen (0, ∞). Hvis φ ∈ G, sendes T i over i φ(T i), og R i er uændret. Ved en sådan<br />

transformation føres en proportional hazard model over i en ny proportional hazard<br />

model med den samme værdi af β, men hvor den underliggende hazard λ(·) ændres<br />

til<br />

λ(φ −1 (t))φ ′ (φ −1 (t)).<br />

Hvis vores model siger, at λ(·) ∈ Λ, hvor Λ er mængden af alle funktioner på (0, ∞)<br />

med λ(t) > 0, har vi at<br />

Λ = {λ(φ −1 (·))φ ′ (φ −1 (·)) | φ ∈ G}.<br />

Vi har dermed vist, at vi har en gruppefrembragt familie, og (R1, . . . , Rn) er G-sufficient<br />

for inferens om β.


112 KAPITEL 8. SEPARAT INFERENS<br />

Vi kan også vise at (R1, . . . , Rn ) er L-sufficient. Hvis vi skriver λ(t) = ˜λ(φ(t))φ ′ (t),<br />

hvor φ ′ (·) > 0 og φ(t i) = i, vil supremum over alle mulige λ-funktioner være ækvivalent<br />

med supremum over alle mulige ˜λ-funktioner. Endvidere har vi<br />

λ(t i) = ˜λ(i)φ ′ (t i) og<br />

Dette giver at<br />

sup<br />

λ<br />

ti<br />

t i−1<br />

L(β, λ) p(r1, . . . , rn; β) −1<br />

= <br />

∏ φ ′ (ti) sup∏<br />

˜λ i<br />

λ(u)du =<br />

<br />

∑ Ii<br />

e βz j<br />

= h(t1, . . . , tn)g(r1, . . . , rn; β),<br />

ti<br />

t i−1<br />

˜λ(φ(u))φ ′ (u)du =<br />

<br />

˜λ(i) exp − ∑<br />

Ii<br />

i<br />

i−1<br />

˜λ(z)dz.<br />

e βz <br />

i<br />

j ˜λ(u)du<br />

i−1<br />

hvoraf følger at (R1, . . . , Rn) er L-sufficient. <br />

8.4 Itemanalysemodellen<br />

Modellen, der beskrives her, har selvstændig interesse og skal blot ses som et eksempel<br />

på separat inferens. Modellen anvendes ofte i forbindelse med psykologiske forsøg, hvor<br />

n personer udsættes for m tests (items). I skal læse dette som et bidrag til jeres<br />

katalog af statistiske modeller og som et eksempel på brugen af eksponentieller familier.<br />

Lad X ij, i = 1, . . . , n, j = 1, . . . , m, være uafhængige stokastiske variable, der antager<br />

værdierne {0, 1} med sandsynlighederne<br />

p ij = P(X ij = 1) = 1 − P(X ij = 0) = (1 + e −α i−β j) −1 ,<br />

hvor (α1, . . . , αn, β1, . . . , βm) varierer frit i R n+m . Da tætheden for en Bernoulli variabel<br />

er p x (1 − p) 1−x , bliver den simultane tæthed for alle X ij-erne<br />

∏ ij<br />

xij pij<br />

(1 − pij) 1 − pij =<br />

<br />

∏ ij<br />

<br />

1 + e α <br />

−1 n<br />

i+β j exp ∑ αixi. +<br />

i=1<br />

m <br />

∑ βjx .j .<br />

j=1<br />

Da x.m = x.. − x.1 − · · · − x.m−1 = ∑i x i. − x.1 − · · · − x.m−1 kan familien parametriseres<br />

ved ˜α i = α i + βm, i = 1, . . . , n, og ˜β j = β j − βm, j = 1, . . . , m − 1, der varierer frit i<br />

R n+m−1 . Man kan da indse, at vi har en regulær eksponentiel familie af orden m +<br />

n − 1.<br />

Denne model blev indført af G. Rasch, som gav den navnet itemanalysemodellen. I<br />

G. Rasch (1960): “Probabilistic models for some intelligence and attainment tests” og<br />

D.R. Cox (1970): “Analysis of binary data” er denne (og andre) model(ler) indgående<br />

beskrevet.<br />

Rasch indførte itemanalysemodellen til beskrivelse af de intelligenttests, som foretages<br />

ved sessionsbehandlingen. De foreliggende data kan repræsenteres på følgende


8.4. ITEMANALYSEMODELLEN 113<br />

måde:<br />

spørgsmål<br />

1 · · · j · · · m<br />

1 X11 · · · X 1j · · · X1m<br />

. . . .<br />

person i Xi1 · · · Xij · · · Xim . . . .<br />

n Xn1 · · · Xnj · · · Xnm<br />

I den (i, j)’te rubrik i dette skema registreres tallet 1, hvis den i’te person har besvaret<br />

intelligenstestets j’te spørgsmål korrekt og 0, hvis besvarelsen er forkert. Vi kan da<br />

antage, at<br />

X ij ∼ Bin(1, p ij).<br />

Lad δ i angive et mål for den i’te persons evne til at løse opgaver af den stillede type,<br />

således at en stor værdi af δi antyder, at personen er god til at løse disse opgaver. Lad<br />

ǫ j være en parameter, der angiver den j’te opgaves sværhedsgrad, således at en stor<br />

værdi af ǫ j angiver, at opgaven er vanskelig. Det er da rimeligt at antage, at sandsynligheden<br />

for at den i’te person besvarer det j’te spørgsmål korrekt, p ij, afhænger af δ i<br />

og ǫ j, altså er<br />

p ij = π(δ i, ǫ j).<br />

Hvis vi regner ‘evne’ og ‘sværhedsgrad’ på en skala fra 0 til ∞, og disse mål skal tolkes<br />

på den måde, at en fordobling af sværhedsgraden modsvares af en fordobling af evnen,<br />

får vi, at π kun afhænger af δ og ǫ gennem δ/ǫ<br />

π(δ, ǫ) = π(δ/ǫ).<br />

Desuden må det om π være rimeligt at antage, at<br />

<br />

1 v → ∞<br />

π(v) →<br />

0 v → 0<br />

Funktionen π, defineret ved<br />

π(v) = v<br />

1 + v<br />

opfylder dette. Rasch valgte med held at sætte<br />

Altså<br />

p ij = π(δ i/ǫ j) = δ i/ǫ j<br />

1 + δ i/ǫ j<br />

pij = (1 + ǫj/δi) −1 =<br />

.<br />

v ∈ R+,<br />

δ i > 0, ǫ j > 0.<br />

<br />

1 + e − ln δ −1 i+ln ǫj .<br />

Lad os nu betragte tilfældet med m = 2 og lad ˜β = β1 − β2 og ˜α i = αi + β2. Vi har<br />

da<br />

1<br />

P(Xi1 = 1) =<br />

1 + exp(−˜αi − ˜ β) og P(X 1<br />

i2 = 1) =<br />

1 + exp(−˜α i) .


114 KAPITEL 8. SEPARAT INFERENS<br />

Vi ser da, at ˜β karakteriserer forskellen mellem de to spørgsmål. Likelihoodligningerne<br />

bliver<br />

<br />

1 + e −˜α i− ˜β −1 + 1 + e −˜α i −1 i = 1, . . . , n<br />

og<br />

x i. =<br />

x.1 = ∑ i<br />

<br />

1 + e −˜α i− ˜β −1<br />

.<br />

Da x i. kun kan antage værdierne 0, 1 og 2, får vi<br />

og dermed ligningen<br />

⎧<br />

⎨<br />

ˆ˜αi =<br />

⎩<br />

−∞ hvis x i. = 0<br />

− 1 2 ˜β hvis x i. = 1<br />

∞ hvis x i. = 2,<br />

x.1 = n0 · 0 + n1(1 + e − 1 2 ˜β ) −1 + n2 · 1,<br />

hvor n1 er antallet af xi., der er lig med 1. Den sidste ligning giver<br />

− 1 ˆ˜β = ln<br />

2<br />

n1 − x.1 − n2<br />

x.1 − n2<br />

Da x.1 − n2 er antal observationspar (x i1, x i2) på formen (1,0) og n1 − x.1 − n2 er antal<br />

par på formen (0,1) , får vi fra store tals lov, at<br />

og dermed at<br />

x.1 − n2<br />

n<br />

n1 − x.1 − n2<br />

n<br />

1<br />

→<br />

n ∑ i<br />

→ 1<br />

n ∑ i<br />

− 1<br />

<br />

ˆ˜β → ln<br />

2<br />

e −˜α i<br />

<br />

.<br />

(1 + e −˜α i− ˜β )(1 + e −˜α i)<br />

e −˜α i− ˜β<br />

(1 + e −˜α i− ˜β )(1 + e −˜α i) ,<br />

e − ˜ β<br />

1<br />

<br />

= − ˜β.<br />

Estimatet ˆ˜β konvergerer altså mod den forkerte værdi som i eksempel 8.1.<br />

Hvis vi nu istedet betragter den betingede fordeling af Xi1 givet Xi. = Xi1 + Xi2 =<br />

xi., får vi tætheden ⎧⎪<br />

1(Xi1 = 0) hvis xi. = 0<br />

⎨<br />

e<br />

⎪⎩<br />

˜βX i1/(1 + e ˜β ) hvis xi. = 1<br />

1(Xi1 = 1) hvis xi. = 2<br />

Likelihoodfunktionen baseret på disse betingede tætheder bliver da<br />

e ˜βn 10(1 + e ˜β ) −n 01−n 10,<br />

hvor nij er antal par (xi1, xi2) på formen (i, j). Estimatet ˆ˜β c herfra bliver<br />

ˆ˜β c = ln n10<br />

<br />

1<br />

→ ln<br />

<br />

= ˜β,<br />

n01<br />

e − ˜β


8.4. ITEMANALYSEMODELLEN 115<br />

hvor vi har brugt samme argument som ovenfor. Vi ser altså, at vi nu har fået et estimat<br />

ˆ˜β der konvergerer (i sandsynlighed) mod den rigtige værdi ˜ β.<br />

Bemærk, at X i., i = 1, . . . , n, ikke er L-ancillær i modellen her (opgave 8.5). Til gengæld<br />

ved vi, at det er nødvendigt at betinge med X i., i = 1, . . . , n hvis vi ønsker at lave<br />

et similært test for β.<br />

Erling Andersen har vist (Journal of the Royal Statistical Society B32 (1970), 283-301;<br />

bog fra 1980: Discrete Statistical Models with Social Science Applications) at i en lang<br />

række situationer, der minder om den ovenstående, vil det betingede estimat konvergere<br />

mod den rigtige værdi, og estimatet vil være asymptotisk normalfordelt.<br />

Itemanalysemodellen ovenfor er et eksempel på det, der kaldes eksponentielle agensanalysemodeller<br />

(fra latin agere: handle, gøre; her: den handlende person eller ting<br />

i en sætning, eller det virkende stof). I disse betragter man en eksponentiel familie<br />

P = {P θ|θ ∈ Θ} med tætheder på formen a(θ)b(x) exp(θx). Variablene X ij følger en<br />

P θij -fordeling, og modellen specificerer, at<br />

θ ij = α i + β j<br />

i = 1, . . . , n, j = 1, . . . , m.<br />

<strong>Et</strong> andet eksempel end itemanalysemodellen er den multiplikative Poissonmodel, hvor P<br />

er klassen af Poissonfordelinger. Variablen X ij er således Poissonfordelt med parameter<br />

λ ij, og vi får en agensanalysemodel, hvis<br />

Den simultane tæthed for X ij- erne er<br />

<br />

∏ ij<br />

e −δ iǫ j <br />

∏ ij<br />

λ ij = δ iǫ j.<br />

<br />

1<br />

exp<br />

xij! ∑<br />

i<br />

x i. ln δ i + ∑ j<br />

x .j ln ǫ j<br />

Dette er en eksponentiel familie af orden m + n − 1. Hvis vi indfører parametrene<br />

kan vi skrive den simultane tæthed som<br />

[∏i xi.!][∏j x .j!]<br />

x..!<br />

1<br />

<br />

x..<br />

<br />

∏ij x ij!<br />

˜δ i = δ i/δ., ˜ǫ j = ǫ j/ǫ. og µ = δ.ǫ.<br />

x1., . . . , xn.<br />

˜δ x1· 1 · · · ˜ δ xn.<br />

n<br />

<br />

.<br />

<br />

x..<br />

˜ǫ<br />

x.1, . . . , x.n<br />

x·1<br />

1 · · · ˜ δ x.m µ<br />

m<br />

x..<br />

x..! e−µ .<br />

Dette svarer til den betingede tæthed for X ij -erne givet (X1., . . . , Xn., X.1, . . . , X.m) ganget<br />

med den betingede tæthed af (X1., . . . , Xn. ) givet X.. ganget med den betingede<br />

tæthed af (X.1, . . . , X.m) givet X.. gange tætheden for X.. . Bemærk, at (X1., . . . , Xn.)<br />

og (X.1, . . . , X.m) er uafhængige givet X.. . Det fremgår af denne opsplitning, at (X1.,<br />

. . . , Xn.) er S-ancillær for inferens om ( ˜ǫ1, . . . , ˜ǫm), og omvendt at (X.1, . . . , X.m) er Sancillær<br />

for inferens om ( ˜δ1, . . . , ˜δn) .<br />

Den multiplikative Poisson-model er navnlig udviklet af G. Rasch i forbindelse<br />

med den statistiske analyse af talmateriale fra Danmarks Pædagogiske Institut. Talmaterialet<br />

var indsamlet med henblik på at bedømme børns læsefærdigheder. Specielt<br />

interesserede man sig for, om læsehæmmede børn gjorde fremskridt ved forskellige<br />

former for specialundervisning. Man lod børnene læse flere prøver højt og registrerede


116 KAPITEL 8. SEPARAT INFERENS<br />

antal fejllæsninger. Højtlæsningsprøverne havde en stærkt varierende sværhedsgrad,<br />

og det var nærliggende at antage, at antallet af fejllæsninger ved et barns læsning af<br />

en prøve afhænger dels af barnets dygtighed, dels af prøvens sværhedsgrad. Følgende<br />

plan for indsamling af data er fra Rasch (1960):<br />

ORF ORU ORS OR5 OR6<br />

2 +<br />

3 + +<br />

klassetrin 4 + +<br />

5 + + +<br />

6 + + +<br />

7 + +<br />

Lad δ i være en parameter, der angiver det i’te barns standpunkt, således at en lille<br />

værdi af δ i er udtryk for, at barnet er dygtigt, og ǫ j en parameter, der angiver sværhedsgraden<br />

af den j’te prøve således at en stor værdi af ǫ j er udtryk for, at prøven er<br />

vanskelig. Lad X ij betegne antal fejllæsninger, det i’te barn gjorde forelagt prøve nr. j.<br />

Hvis prøven ikke er for kort og ikke for svær, er det nærliggende at antage, at Xij er<br />

Poissonfordelt med parameter<br />

λ ij = λ(δ i, ǫ j).<br />

Det forventede antal fejllæsninger af barn nr. i ved prøve nr. j er altså λ ij. Testes et<br />

dobbelt så dygtigt barn, δ = δ i/2, med en prøve, der er dobbelt så svær som prøve nr.<br />

j, ǫ = 2ǫ j, så må vi forvente samme antal fejllæsninger, altså at<br />

λ(δ, ǫ) = λ(δ/2, 2ǫ).<br />

Vi ser, at λ kun afhænger af δ og ǫ gennem δǫ<br />

λ(δ, ǫ) = λ(δǫ).<br />

Desuden må det om λ være rimeligt at antage, at<br />

<br />

∞ v → ∞<br />

λ(v) →<br />

0 v → 0,<br />

Funktionen<br />

λ(v) = v<br />

opfylder dette, og Rasch analyserede materialet med modellen<br />

λij = δ0ǫj.<br />

8.5 Afsluttende bemærkninger<br />

Hvad gør man, hvis man ikke kan separere inferensen som i (8.1) eller (8.2)?<br />

Som eksempel 8.1 og afsnit 8.4 viser, er det nødvendigt at gøre noget i de tilfælde,<br />

hvor antallet af nuisanceparametre stiger med antallet af observationer. I nogle tilfælde<br />

kan man bruge en partiel likelihood. Herved forstås, at den fulde likelihood funktion


8.6. OPGAVER 117<br />

kan skrives som et produkt L = ∏ m 1 L i, hvor hvert led L i selv er en likelihoodfunktion<br />

fra en marginal eller en betinget fordeling, og at vi så nøjes med at betragte en del af<br />

dette produkt ˜L = ∏i∈I L i, hvor I er en delmængde af {1, . . . , m}. Tilfældet m = 2<br />

svarer til (8.1) og (8.2). De led Li, i∈ I, som medtages, bør så kun afhænge af interesseparameteren<br />

ψ. Da Li selv er en likelihoodfunktion, vil typisk E ∂lnL i<br />

∂ψ = 0, og som vi<br />

skal se i noterne om asymptotik, er dette den grundlæggende egenskab, som fører til,<br />

at estimatet er konsistent: ˆψ → ψ, når antallet af observationer vokser.<br />

I andre tilfælde bruges en pseudolikelihoodfunktion eller en generel estimationsligning<br />

(ligningen ∂lnL/∂θ = 0 kaldes likelihood estimationsligningen). Disse begreber er ikke<br />

veldefinerede og har et ad hoc præg. Ideen er, at man vælger nogle funktioner, der<br />

kombinerer aspekter af data med interesseparameteren og valgt således, at det tilsvarende<br />

estimat bliver konsistent.<br />

Pseudo likelihoodfunktioner bruges også i andre sammenhænge, nemlig hvor den<br />

eksakte likelihoodfunktion er meget vanskelig at udregne. <strong>Et</strong> simpelt eksempel er følgende:<br />

lad X1, . . . , Xn antage værdier i {−1, +1} med simultan sandsynlighed<br />

P((X1, . . . , Xn) = (x1, . . . , xn)) =<br />

exp{−β ∑ n 1 x i(x i + x i+1)}<br />

∑(y 1,...,yn)∈{−1,+1} n exp{−β ∑n 1 y i(y i−1 + y i+1)}<br />

hvor x0 = xn+1 = 0. Nævneren her er svær at udregne (summen har 2 n led), og i stedet<br />

kan vi lave en pseudo likelihoodfunktion på formen<br />

n<br />

∏<br />

i=1<br />

P(X i = x i|x i−1, x i+1) =<br />

n<br />

e<br />

∏<br />

i=1<br />

−2βxi(x i−1+xi+1) e−2β(xi−1+x i+1) + e2β(xi−1+x i+1) .<br />

Hvis antallet af nuisance parametre er fast, har vi den generelle asymptotiske teori,<br />

der giver os approksimativt unbiased estimater og approksimative similære tests.<br />

En del af forskningen indenfor dette område i de senere år har gået på at forbedre 1.ordens<br />

resultaterne til højere orden, således at resultaterne typisk kan anvendes, selv<br />

om antallet af observationer ikke er særlig stort. Disse ting er især baseret på kvotientteststørrelsen<br />

og modifikationer af denne.<br />

8.6 Opgaver<br />

Opgave 8.1<br />

Lad X og Y være uafhængige stokastiske variable, så<br />

og<br />

hvor (a, p) varierer i<br />

Interesseparameteren er p.<br />

P(X = 0) = q, P(X = 1) = p, p + q = 1<br />

P(Y = −1) = a, p(Y = 0) = q, P(Y = 1) = p − a,<br />

Θ = {(a, p) | 0 ≤ a ≤ p, 1<br />

2<br />

≤ p ≤ 2<br />

3 }.


118 KAPITEL 8. SEPARAT INFERENS<br />

Vis, at X + Y 2 er S-sufficient med hensyn til p.<br />

Opgave 8.2<br />

Lad f være funktionen defineret på R2 ved<br />

⎧<br />

⎨ u<br />

f(u1, u2) =<br />

⎩<br />

λ1−1 1 u −λ2−λ1 −1<br />

2<br />

Γ(λ1)Γ(λ2)β λ1 1 βλ <br />

−1 β2<br />

exp (<br />

2 β2u2 β<br />

u1 + 1) u1 > 0, u2 > 0<br />

1<br />

2<br />

0 ellers,<br />

hvor (λ1, λ2, β1, β2) ∈ R 4 + .<br />

(i) Vis, at f er en tæthedsfunktion og vis, at familien af fordelinger med tæthedsfunktion<br />

f og (λ1, λ2, β1, β2) ∈ R4 + er en eksponentiel familie, og angiv ordenen af<br />

denne familie.<br />

(ii) Vis, at U1/U2 er S-sufficient for (λ1, β1) og U2 (eller U −1<br />

2 ) er S-sufficient for (λ2, β2).<br />

Opgave 8.3<br />

Lad X1, . . . , Xn være uafhængige og Np(ξ − Σ)-fordelte, hvor ξ ∈ R p og Σ er positiv<br />

definit p × p matrix.<br />

(i) Vis ved hjælp af Basu’s sætning, at maximum likelihood estimatet ¯X for ξ og<br />

maximum likelihood estimatet 1 n ∑n i=1 (X i − ¯X) ∗ (X i − ¯X) for Σ er stokastisk uafhængige.<br />

(ii) Vis, at ¯X ikke er S-ancillær for Σ.<br />

Opgave 8.4<br />

Lad (U, V) for α ∈ R, λ, σ 2 ∈ R+ have tæthed<br />

f(u, v) = vλ−1 − v<br />

e u2 u2λΓ(λ) 1<br />

√<br />

2πσ2 exp<br />

<br />

− 1<br />

2σ2(u − α)2<br />

<br />

, u ∈ R, v ∈ R+.<br />

(i) Vis, at U er N(α, σ 2 )-fordelt, og at den betingede fordeling for V givet U = u er<br />

en Γ(λ, 1/u 2 )-fordeling.<br />

(ii) Vis, at fordelingen af (U, V) er en exponentiel familie af orden 3.<br />

Lad (U1, V1), . . . , (Un, Vn) være uafhængige og identisk fordelte med tæthed f .<br />

(iii) Vis, at (U1, . . . , Un) er S-sufficient for (α, σ 2 ) og S-ancillær for λ.<br />

(iv) Vis, at n<br />

∑<br />

i=1<br />

er stokastisk uafhængige.<br />

U i,<br />

n<br />

∑ U<br />

i=1<br />

2 i<br />

<br />

og<br />

n<br />

∑ ln<br />

i=1<br />

Vi U2 i


8.6. OPGAVER 119<br />

(v) Vis, at maximum likelihood estimaterne ˆα, ˆσ 2 og ˆλ er stokastisk uafhængige.<br />

Opgave 8.5<br />

Læs afsnit 8.4. Betragt itemanalysemodellen med m = 2 og parametriseret ved ˜α i og<br />

˜β i.<br />

1) Vis, at vi har en regulær eksponentiel familie af orden n + 1.<br />

2) Godtgør formlen for ˆ˜α i på side 112.<br />

3) Vis præcist, ved at bruge den relevante <strong>udgave</strong> af store tals lov, at ˆ˜β → 2 ˜β.<br />

4) Vis, at X i·, i = 1, . . . , n, ikke er L-ancillær for β.<br />

Opgave 8.6<br />

Lad K være binomialfordelt med antalsparameter n og sandsynlighedsparameter p.<br />

Givet K = k lad X være binomialfordelt med antalsparameter n − k og sandsynlighedsparameter<br />

θ. Parametrene varierer i (p, θ) ∈ (0, 1) × (0, 1).<br />

1) Vis, at (X, K, n − K − X) er multinomialfordelt med antalsparameter n og sandsynlighedsparameter<br />

((1 − p)θ, p, (1 − p)(1 − θ)).<br />

2) Vis, at K er S-ancilær for inferens om θ.<br />

Denne opgave er en kommentar til Wilcoxons fortegnstest. I Wilcoxons fortegnstest<br />

vil vi teste for asymmetri i en fordeling. I beregningen af testet ser vi bort<br />

fra de observationer, der har værdien nul. I ovenstående kan vi tænke på p som<br />

sandsynligheden for at få nul og på θ som en parameter der måler assymmetrien<br />

i fordelingen. Vores interesseparameter er altså θ, og p er en nuisance parameter.


Kapitel 9<br />

Bayes <strong>statistik</strong><br />

Ved en statistisk analyse ønsker vi at udtale os om en ukendt parameter ud fra indsamlede<br />

data. Forbindelsen mellem de to dele, parameter og data, er gennem modellen,<br />

der beskriver, hvordan fordelingen af data er for en given værdi af parameteren.<br />

I den frekventielle <strong>statistik</strong>, som beskrevet i de tidligere kapitler, udtaler man sig om<br />

den ukendte parameter ud fra hvor godt modellen, med et givet valg af parameteren,<br />

beskriver data. Vi kan da lave et estimat af parameteren, eller et konfidensinterval, eller<br />

vi kan teste en hypotese om parameteren. De eneste sandsynligheder vi bruger, er<br />

dem, vi får fra modellen for et givet valg af parameteren. I Bayes <strong>statistik</strong> introducerer<br />

man et ekstra sæt sandsynligheder, idet man udstyrer parameteren med en fordeling<br />

uafhængig af data. Denne fordeling på parameteren kaldes prior fordelingen, og er altså<br />

til rådighed før data indsamles. Prior fordelingen kan vi tænke på som den information,<br />

vi har til rådighed om parameteren, før vi indsamler data. Når data er indsamlet,<br />

kan vi udtrykke den information, vi har om parameteren, ved den betingede fordeling<br />

af parameteren givet data.<br />

Frekventiel Bayes<br />

før data θ ukendt parameter θ har tæthed π(θ)<br />

efter data konfidensinterval for p(θ|data) ∝<br />

θ<br />

π(θ)L(θ)<br />

Observation 9.1 (Bayes formel) Lad prior fordelingen for θ have tæthed π(θ) med<br />

hensyn til et mål ξ på parameterrummet Θ, og lad, for en given parameterværdi θ,<br />

data X have tæthed p(x, θ) med hensyn til målet µ på X . Så vil fordelingen af θ givet<br />

X = x (kaldet posterior fordelingen) have tæthed<br />

p(θ|x) =<br />

<br />

π(θ)p(x, θ)<br />

Θ π( ˜θ)p(x, ˜θ)ξ(d ˜θ)<br />

med hensyn til ξ. <br />

Bevis. Da den simultane tæthed for (θ, X) er π(θ)p(x, θ) med hensyn til produktionsmålet<br />

ξ × µ er resultatet oplagt. <br />

Korollar 9.2.<br />

Inferens baseret på den betingede fordeling af θ givet X = x opfylder likelihoodprincippet.<br />

<br />

121


122 KAPITEL 9. BAYES STATISTIK<br />

Bevis. Antag at vi har to forskellige eksperimenter givet ved tæthederne p1(x, θ) og<br />

p2(y, θ). Hvis der for et givet x og y findes en konstant c, så at<br />

så har vi<br />

p1(x, θ) = cp2(y, θ) for alle θ ∈ Θ,<br />

π(θ)p1(x, θ)<br />

p1(θ|x) = <br />

Θ π( ˜ θ)p1(x, ˜ θ)ξ(d ˜ θ) =<br />

cπ(θ)p2(y, θ)<br />

c <br />

Θ π( ˜ θ)p2(y, ˜ θ)ξ(d ˜ = p2(θ|y).<br />

θ)<br />

Eksempel 9.3 (Binomialfordeling – non-informativ prior).<br />

Lad parameterrummet Θ = (0, 1), og for en given parameterværdi θ lad X være binomialfordelt,<br />

X ∼ Bin(n, θ). Som prior fordeling for θ vælger vi en betafordeling med<br />

tæthed<br />

π(θ) = 1<br />

B(a, b) θa−1 (1 − θ) b−1 .<br />

Posterior tætheden for θ givet X = x bliver da<br />

p(θ|x) = 1 θ<br />

c(x)<br />

a−1 (1 − θ) b−1 <br />

n<br />

B(a, b) x<br />

=<br />

<br />

θ x (1 − θ) n−x<br />

1<br />

B(a + x, b + n − x) θa+x−1 (1 − θ) b+n−x−1 ,<br />

som igen er en betatæthed.<br />

Hvis vi skulle lave et estimat for θ ud fra p(θ|x), kunne vi enten bruge middelværdien<br />

eller den værdi (MAP) af θ, hvor p(θ|x) er størst. Det giver<br />

og<br />

E(θ|x) =<br />

MAP =<br />

a + x<br />

a + b + n<br />

a − 1 + x<br />

a + b − 2 + n ,<br />

hvor specielt MAP = x n = ˆθ hvis a = b = 1. <br />

Eksempel 9.4 (Normalfordeling – non-informativ prior).<br />

Lad X1, · · · , Xn være uafhængige og identiske N(µ, 1) fordelte. Som prior fordeling<br />

for µ tager vi en N(µ0, σ 2 0 ) fordeling. Posterior tætheden for µ givet X = (X1, · · · , Xn)<br />

bliver da<br />

p(µ|x) = 1 exp(−(µ − µ0)<br />

c(x)<br />

2 /(2σ2 0 ))<br />

<br />

=<br />

<br />

n + 1<br />

σ 2 0<br />

2πσ 2 0<br />

exp(− ∑ n i=1 (X i − µ) 2 /2)<br />

√ 2π n<br />

2π exp<br />

⎛<br />

⎜<br />

⎝− n<br />

<br />

1 +<br />

2<br />

1<br />

nσ2 <br />

0<br />

⎛<br />

¯x +<br />

⎝µ −<br />

µ0<br />

nσ2 0<br />

1 + 1<br />

nσ2 ⎞<br />

⎠<br />

0<br />

2 ⎞<br />

⎟<br />

⎠ ,


det vil sige<br />

I dette tilfælde er<br />

hvor specielt MAP = ¯x hvis σ 2 0<br />

⎛<br />

µ|x ∼ N ⎝<br />

µ0 ¯x +<br />

nσ2 0<br />

1 + 1<br />

nσ2 0<br />

E(θ|x) = MAP =<br />

,<br />

1<br />

n 1 + 1<br />

nσ 2 0<br />

¯x + µ0<br />

nσ2 0<br />

1 + 1<br />

nσ2 ,<br />

0<br />

⎞<br />

⎠<br />

.<br />

123<br />

= ∞. <br />

Lad os nu ganske kort diskutere valget af prior fordeling. I visse situationer vil det<br />

være rimeligt at betragte θ som en stokastisk variabel. I en produktionssammenhæng<br />

kan θ for eksempel repræsentere den fraktion af de producerede enheder, der er defekte.<br />

Denne fraktion behøves ikke at være konstant, og det vil være rimeligt at betragte<br />

den som stokastisk. I denne situation kan vi bruge baggrundsviden til at vælge en realistisk<br />

prior fordeling. Denne situation rummer egentligt ikke noget nyt: vi har blot<br />

udvidet vores model med en realistisk beskrivelse af, hvordan θ fremkommer.<br />

De interessante situationer er, når θ repræsenterer en “konstant", for det eksperiment<br />

der foretages. Som et eksempel kan vi tænke på θ som lyshastigheden. Her må<br />

man betragte prior fordelingen som en måde, at angive en formodning om hvor θ ligger.<br />

En klassisk beskæftigelse indenfor Bayes <strong>statistik</strong> går ud på at finde prior fordelinger,<br />

der kan siges at repræsentere situationen, hvor vi ingen viden har om parameteren<br />

(“non informative prior"på engelsk). I eksempel 9.3 hvor Θ = (0, 1) og X er binomialfordelt,<br />

virker det rimeligt at sige, at den uniforme fordeling på Θ repræsenterer, at<br />

vi ingen viden har om Θ. Dette giver imidlertid anledning til en inkonsistent metode:<br />

hvis vi betragter ψ = θ2 istedet for θ, vil prior tætheden for ψ være π(ψ) = 1<br />

2 √ , og<br />

ψ<br />

ψ er således ikke uniformt fordelt. Vi skal altså vælge en skala, på hvilken vi siger, at<br />

parameteren er uniformt fordelt. <strong>Et</strong> foreslag er at transformere θ til en ny parameter<br />

ψ med den egenskab, at den forventede information i(ψ) er konstant. I eksempel 9.3<br />

med binomialfordelingen kommer det til at svare til, at vi bruger betafordelingen med<br />

a = b = 1 2 som prior fordeling for θ. I eksempel 9.4 med Θ = R er der ikke umiddelbart<br />

en “uniform"fordeling. Det nærmeste man kan komme er at erstatte prior fordelingen<br />

med et prior mål, som tages til at være lebesguemålet. Lebesguemålet giver lige stor<br />

masse til lige store intervaller og kan derfor siges at repræsentere situationen med ingen<br />

viden om parameteren. I eksemplet 9.4 vil det svare til at vi lader σ2 0 → ∞. Bemærk<br />

at selvom vi erstatter prior fordelingen med et generelt mål, er posterior fordelingen<br />

p(θ|x) stadig givet ved Bayes formel i Observation 9.1. Når prior fordelingen ikke er et<br />

sandsynlighedsmål, taler man i den engelsksprogede litteratur om en “improper prior<br />

distribution”.<br />

Jeg vil nu vise, at selvom det ovenstående kan se “uskyldigt ud”, kan det give<br />

anledning til problemer i det flerdimensionale tilfælde.<br />

Eksempel 9.5 (Normalfordelinger – non-informativ prior).<br />

Lad X1, · · · , Xn være uafhængige med X i ∼ N(µ i, 1). Som prior fordeling siger vi, at<br />

µ i-erne er uafhængige og bruger lebesguemålet til beskrivelse af vores prior viden om


124 KAPITEL 9. BAYES STATISTIK<br />

µ i. I posterior fordelingen er µ i-erne stadig uafhængige, og ifølge eksempel 9.4 har vi<br />

µ i|x i ∼ N(x i, 1). Vores interesseparameter er δ 2 = µ 2 1 + · · · + µ2 u. Vi har således, at<br />

og<br />

E(δ 2 n<br />

|x) = ∑<br />

i=1<br />

V(δ 2 n<br />

|x) = ∑<br />

i=1<br />

δ 2 |x ∼<br />

n<br />

∑ N(xi, 1)<br />

i=1<br />

2 ,<br />

(x 2 i + 1) = d2 + n, d 2 = x 2 1 + · · · + x2 n<br />

(4x 2 i + 2) = 4d2 + 2n.<br />

Hvis d 2 er af samme størrelsesorden eller mindre end n, vil spredningen være af størrelsesorden<br />

√ n. Hvis istedet vi betragter problemet fra en ikke-Bayes synsvinkel, kan<br />

vi benytte, at D 2 = X 2 1 + · · · + X2 n har middelværdi δ 2 + n og varians 4δ 2 + 2n. Vi<br />

vil derfor lave et konfidensinterval for δ 2 , der er centreret omkring d 2 − n og med en<br />

længde, der er af størrelsesorden √ n. Vi har således fået to helt forskellige resultater:<br />

henholdsvis et konfidensinterval centreret omkring d 2 − n med en længde af størrelsesorden<br />

√ n og en posterior fordeling centreret omkring d 2 + n med det meste af<br />

sandsynlighedsmassen i et interval af størrelsesorden √ n. <br />

Eksempel 9.6 (Normalfordelingen – informativ prior).<br />

Lad X1, . . . , Xn være uafhængige med Xi ∼ N(µi, 1). Maximum likelihood estimatet<br />

for vektoren µ = (µ1, . . . , µn) er ˆµ = (X1, . . . , Xn). Vi vil måle kvaliteten af dette estimat<br />

ved mean squared error (MSE) (forklaring for dette kvalitetsmål følger nedenfor),<br />

MSE( ˆµ) = E<br />

n<br />

∑<br />

i=1<br />

( ˆµ i − µ i) 2 = n.<br />

Vi har en formodning om, at µ i som funktion af i er langsomt varierende, det vil sige<br />

at µ i+1 − µ i er lille. Vi vil repræsentere denne formodning gennem en prior fordeling<br />

for vektoren µ. Vi kan gøre dette ved følgende beskrivelse<br />

µ1 ∼ N(0, σ 2 0 ), µ i+1 = µ i + ǫ i+1, ǫ i+1 ∼ N(0, δ 2 ),<br />

hvor µ1, ǫ2, . . . , ǫn er uafhængige. En lille værdi af δ 2 svarer til, at µ i+1 − µ i er lille. Lad<br />

Σ være n × n matriksen<br />

så at<br />

Σ ij = σ0 + (i − 1)δ 2 , j ≥ i + 1, Σ ji = Σ ij, j ≥ i,<br />

= 1<br />

c(x) exp<br />

µ ∼ Nn(0, Σ).<br />

Kombinerer vi X|µ ∼ Nn(µ, I) med µ ∼ Nn(0, Σ), finder vi posterior fordelingen<br />

p(µ|x) = 1<br />

c(x) exp<br />

<br />

− 1<br />

2 (x − µ)(x − µ)T − 1<br />

2 µΣ−1 µ T<br />

<br />

<br />

,<br />

<br />

− 1<br />

2 µ(I + Σ−1 )µ T + xµ T − 1<br />

2 xxT


hvoraf det følger, at<br />

Specielt har vi, at<br />

µ|x ∼ Nn<br />

<br />

x(I + Σ −1 ) −1 , (I + Σ −1 ) −1<br />

.<br />

E(µ|x) = x(I + Σ −1 ) −1 ,<br />

og vi definerer et nyt estimat (bayes estimat) ved<br />

ˆµ b = X(I + Σ −1 ) −1 .<br />

Lad os udregne mean squared error for dette estimat:<br />

MSE( ˆµ b) = E<br />

n<br />

∑<br />

i=1<br />

( ˆµ bi − µ i) 2 = E( ˆµ b − µ)( ˆµ b − µ) T<br />

= E([(X − µ)(I + Σ −1 ) −1 + µ((I + Σ −1 ) −1 − I)] ∗∗ )<br />

= E([(X − µ)(I + Σ −1 ) −1 ] ∗∗ ) + [µ((I + Σ −1 ) −1 − I)] ∗∗<br />

= Tr((I + Σ −1 ) −1 (I + Σ −1 ) −1 ) + [µ((I + Σ −1 ) −1 − I)] ∗∗ ,<br />

hvor v∗∗ = vvT . I figuren nedenfor har jeg lavet et plot af MSE( ˆµ b) som funktion af δ2 og med n = 20, σ2 0 = 1, og med<br />

⎧<br />

⎨ −1 i ≤ 5<br />

µ i = −1 + 0.2(i − 5) 6 ≤ i ≤ 15<br />

⎩<br />

1 i > 15.<br />

(9.1)<br />

Desuden har jeg lavet et plot af MSE( ˆµ b) som funktion af γ, hvor δ 2 = 0.1, σ 2 0<br />

125<br />

= 1,<br />

og µ er som i (9.1) multipliceret med γ. Værdierne i figuren skal sammenlignes med<br />

MSE( ˆµ) = n = 20. Som det ses af figuren, kan vi få en væsentlig mindre mean squared<br />

error ved at bruge estimatet ˆµ b fremfor maksimum likelihood estimatet ˆµ.<br />

Hvorfor er mean squared error et relevant mål? Lad os betragte en regressionsmodel<br />

Y i ∼ N(z iµ T , σ 2 ).<br />

Vi ønsker at estimere µ, og i modellen ovenfor svarer X til maksimum likelihood estimatet<br />

af µ (vi har ovenfor sagt at Var(X) = I, men vi kunne lave de samme regnerier<br />

med en generel varians). Når vi har fundet et estimat µ est , ønsker vi at bruge estimatet<br />

til fremtidig prediktion af y-værdier fra nye z-værdier. Prediktionsfejlen er<br />

fejl = znyµ T<br />

est − znyµ T = zny(µ est − µ) T .<br />

Vi kan skalere z-værdierne, så at en typisk z-værdi har længde 1. Den største fejl får vi,<br />

når z er proportional med µ est − µ. Det vil sige, at den typiske største fejl er |µ est − µ|<br />

og<br />

E(typisk fejl) 2 = E|µ est − µ| 2 = E<br />

som er mean squared error af µ est .<br />

n<br />

∑((µ<br />

est )i − µi)<br />

i=1<br />

2 ,


126 KAPITEL 9. BAYES STATISTIK<br />

MSE<br />

5 10 15<br />

MSE<br />

0 10 20 30 40 50<br />

-6 -4 -2 0 2 4<br />

2*log(delta)<br />

0 2 4 6<br />

gamma<br />

I dette eksempel kan vi tænke på prior fordelingen µ ∼ Nn(0, Σ) som en bekvem<br />

måde at indføre “glathedsegenskaber"ved µ. Med glathed mener vi, at µ i varierer langsomt<br />

som funktion af i. Man taler i denne sammenhæng om ˆµ b som en “regulariseret"løsning.<br />

Bemærk også at når vi erstatter ˆµ med ˆµ b, så lægger vi mindre vægt på<br />

unbiasedness og lægger istedet vægt på et mål som mean squared error. <br />

Eksempel 9.7 (Kausal viden repræsenteret ved sandsynligheder i et netværk).<br />

I dette eksempel er de “ukendte parametre"tilstande, som enten er 1 eller 0 (eksempel:<br />

1: man har lungekræft; 0: man har ikke lungekræft). Vi repræsenterer vores viden<br />

ved hjælp af sandsynligheder, som er meget bekvemt, når vi skal opdatere vores viden<br />

på basis af nye data. Følgende eksempel er taget fra Lauritzen og Spiegelhalter<br />

(J.R.Statist.Soc.B, 50, 157-224, 1988). I eksemplet har vi følgende variable:<br />

A: besøg i Asien R: Ryger<br />

T: Tuberkulose L: Lungekræft<br />

B: Bronkitis E: Enten tuberkulose eller lungekræft<br />

G: positiv røntGenbillede S: Stakåndet


Forbindelsen mellem variablene kan angives grafisk:<br />

A R<br />

T L B<br />

E S<br />

G<br />

En person ankommer til hospitalet med stakåndethed (S = 1), og vi ønsker at stille en<br />

diagnose, det vil sige, at vi vil gerne angive værdien af de ukendte variable (T, L, B).<br />

Det er oplyst, at patienten har været i Asien fornylig. Figuren ovenfor skal angive, at<br />

vi beskriver den simultane prior sandsynlighed af alle variable ved<br />

p(a, r, t, l, b, e, s, g) =p(a) p(r) p(t|a) p(l|r) p(b|r) p(e|t, l) p(s|b, e) p(g|e).<br />

For det aktuelle eksempel vælger vi<br />

P(A = 1) = 0.01 P(R = 1) = 0.50<br />

P(T = 1|A = 0) = 0.01 P(L = 1|R = 0) = 0.01<br />

P(T = 1|A = 1) = 0.05 P(L = 1|R = 1) = 0.10<br />

P(B = 1|R = 0) = 0.30<br />

P(B = 1|R = 1) = 0.60<br />

P(E = 1|T = 0, L = 0) = 0 P(S = 1|E = 0, B = 0) = 0.10<br />

P(E = 1|T = 0, L = 1) = 1 P(S = 1|E = 0, B = 1) = 0.80<br />

P(E = 1|T = 1, L = 0) = 1 P(S = 1|E = 1, B = 0) = 0.70<br />

P(E = 1|T = 1, L = 1) = 1 P(S = 1|E = 1, B = 1) = 0.90<br />

P(G = 1|E = 0) = 0.05<br />

P(G = 1|E = 1) = 0.98<br />

En beregning viser, at med disse angivelser er<br />

P(T = 1) = 0.0104,<br />

P(L = 1) = 0.055,<br />

P(B = 1) = 0.45.<br />

Vores data er S = 1 og A = 1. Vi ønsker derfor de betingede sandsynligheder givet S<br />

og A. Disse fås fra (9.7) ved at indsætte a = 1 og s = 1 og normalisere, så at sandsynlighederne<br />

summer sammen til 1. Med andre ord<br />

P(T = 1|A = 1, S = 1) = ∑r,l,b,e,g p(1, r, 1, l, b, e, 1, g)<br />

∑t,r,l,b,e,g p(1, r, t, l, b, e, 1, g) .<br />

127


128 KAPITEL 9. BAYES STATISTIK<br />

Vi får efter en udregning<br />

P(T = 1|A = 1, S = 1) = 0.088,<br />

P(L = 1|A = 1, S = 1) = 0.100, (9.2)<br />

P(B = 1|A = 1, S = 1) = 0.811.<br />

Hvis vi nu laver en røntgenundersøgelse vil vores sandsynligheder blive opdateret<br />

som følger: hvis resultatet af røntgenundersøgelsen er G = 0<br />

og hvis resultatet er G = 1<br />

P(T = 1|A = 1, S = 1, G = 0) = 0.002,<br />

P(L = 1|A = 1, S = 1, G = 0) = 0.003,<br />

P(B = 1|A = 1, S = 1, G = 0) = 0.863,<br />

P(T = 1|A = 1, S = 1, G = 1) = 0.392,<br />

P(L = 1|A = 1, S = 1, G = 1) = 0.444,<br />

P(B = 1|A = 1, S = 1, G = 1) = 0.629.<br />

Sammenligner vi med (9.2), ser vi, at vores viden ændrer sig kraftigt, når vi får resultatet<br />

af røntgenundersøgelsen. Lad os som et eksempel sige at resultatet af røntgenundersøgelsen<br />

er G = 0 , og at vi også får oplyst, at patienten er ikke-ryger (R = 0). I<br />

dette tilfælde ender vi ud med sandsynlighederne<br />

P(T = 1|A = 1, S = 1, G = 0, R = 0) = 0.003,<br />

P(L = 1|A = 1, S = 1, G = 0, R = 0) = 0.0005,<br />

P(B = 1|A = 1, S = 1, G = 0, R = 0) = 0.773.


Kapitel 10<br />

Referencer<br />

Exponentielle familier af orden 1 blev introduceret af Fisher (1934) som de eneste familier<br />

(under regularitetsbetingelser), for hvilke der eksisterer en 1-dimensinal sufficient<br />

observator. Resultaterne blev generaliseret til mere end én dimension af Darmois<br />

(1935), Koopman (1936) og Pitman (1936). En generel gennemgang af teorien for eksponentielle<br />

familier kan findes i Barndorff-Nielsen (1978). Komplethed af en observator<br />

blev introduceret af Lehmann og Scheffé (1950).<br />

Sufficiente observatorer går tilbage til Fisher (1920), hvori også findes faktoriseringssætningen.<br />

Neyman (1935) genopdagede denne sætning, og Halmos og Savage<br />

(1949) udvidede sætningen til generelle dominerede familier. Teorien for minimal sufficiente<br />

observatorer blev startet af Lehmann og Scheffé (1950) og Dynkin (1951). Yderligere<br />

generalisationer blev opnået af Bahadur (1954).<br />

Ancillære observatorer går også tilbage til Fisher (1934, 1935). Basu’s sætning findes<br />

i Basu (1955, 1958).<br />

Fisher (1920, 1922, 1925) introducerede likelihoodfunktionen og studerede maksimum<br />

likelihood estimation. En gennemgang af Fisher’s ideer kan findes i hans 3 bøger<br />

Fisher (1925, 1935, 1956).<br />

Begrebet en unbiased estimator går helt tilbage til Gauss (1821) i forbindelse med<br />

arbejdet omkring “mindste kvadraters metode” (engelsk: least squares). Aitken and<br />

Silverstone (1942) var de <strong>første</strong>, som fandt en UMVU-estimator. Forbindelsen mellem<br />

UMVU-estimatorer og sufficiente observatorer blev studeret i specialtilfælde af Halmos<br />

(1946) og Kolmogorov (1950), og generelt i Rao (1947). Forbindelsen til komplette<br />

observatorer går tilbage til Lehmann og Scheffé (1950, 1955, 1956).<br />

Den <strong>første</strong> variansulighed synes at være Fréchet (1943). Udvidelser er givet i Darmois<br />

(1945), Rao (1945) og Cramér (1946).<br />

Tilløb til hypotesetestning findes helt tilbage i Arbuthnot (1710), Bernoulli (1734),<br />

Laplace (1773), Gavarret (1840), Lexis (1875, 1877) og Edgeworth (1885). Systematisk<br />

brug af hypotesetestning skyldes Karl Pearson, se bl.a. Pearson (1900). Neyman og<br />

Pearson (1928) indførte fejl af <strong>første</strong> og anden art og foreslog kvotienttestet som en generel<br />

testmetode. Teorien for uniformt stærkeste tests blev givet i Neyman og Pearson<br />

(1933).<br />

Konfidensintervaller (men dog ikke forklaret som sådanne) optræder i Laplace<br />

(1812), Gauss (1816), Fourier (1826) og Lexis (1875). En korrekt interpretation synes<br />

først givet i Wilson (1927).<br />

129


130 KAPITEL 10. REFERENCER<br />

L-sufficiens er defineret i Rémon (1984), hvor det vises, at S-sufficiens og G-sufficiens<br />

medfører L-sufficiens. S-sufficiens og S-ancillaritet er studeret i Fraser (1956), Sverdrup<br />

(1965) og Sandved (1967), og G-sufficiens er studeret i Barnard (1963). S- og Gsufficiens,<br />

henholdsvis ancillaritet, dækker ikke alle de situationer, hvor separat inferens<br />

anvendes. <strong>Et</strong> klassisk eksempel er Fisher’s eksakte test i en 2×2 tabel. For en<br />

generel diskussion af disse ting se Barndorff-Nielsen (1978). Som allerede nævnt er<br />

visse betingede test studeret i Andersen (1970).<br />

En generel reference til den teori, som er gennemgået i disse noter, er Lehman (1983,<br />

1986). Bogen af Cox og Hinkley (1983) er en mindre matematisk <strong>udgave</strong> af det samme<br />

teorikompleks.<br />

Aitken, A.C. and Silverstone, H. (1942). On the estimation of statistical parameters.<br />

Proc. Roy. Soc. Edinb. (A) 61, 186-194.<br />

Andersen, E.B. (1970). Sufficiency and exponential family for discrete sample spaces. J.<br />

Am. Stat. Assoc. 65, 1248-1255.<br />

Arbuthnot, J. (1710). An argument for Divine Providence, taken from the constant regularityobserved<br />

in the births of both sexes. Phil. Trans. 27, 1986-190.<br />

Bahadur, R.R. (1954). Sufficiency and statistical decision functions. Ann. Math. Statist.<br />

25, 423-462.<br />

Barnard, G.A. (1963). Some logical aspects of the fiducial argument. J. Roy. Statist. Soc.<br />

B 25, 111-114.<br />

Barndorff-Nielsen, O.E. (1978). Information end Exponential Families in Statistical theory.<br />

Wiley, New York.<br />

Basu, D. (1955). On statistics independent of a complete sufficient statistic. Sankhya 15,<br />

377-380.<br />

Basu, D. (1958). On statistics independent of sufficient statistics. Sankhya 20, 223-226.<br />

Bernoulli, D. (1734). Quelle est la cause physique de l’inclination des planètes . . . Recueil<br />

des Pièces qui ont Remporté le Prix de l’Académie Royale des Sciences 3, 95-122.<br />

Birnbaum, A. (1962). On the foundations of statistical inference. (With discussion). J.<br />

Amer. Statist. Ass. 57, 269-326.<br />

Cox, D.R. and Hinkley, D.V. (1974). Theoretical Statistics. Chapman and Hall, London.<br />

Cramér, H. (1946). A contribution to the theory of statistical estimation. Skand. Akt.<br />

Tidskr. 29, 85.94.<br />

Darmois, G. (1935). Sur les lois de probabilité à estimation exhaustive. C. R. Acad. Sci.<br />

Paris 260, 1265-1266.<br />

Darmois, G. (1945). Sur les lois limites de la dispersion de certaines estimations. Rev.<br />

Inst. Int. Statist. 13, 9-15.


Dynkin, E.B. (1951). Necessary and sufficent statistics for a family of probability distributions.<br />

English translation in Select. Transl. Math. Statist. Prob. 1, 23-41.<br />

Edgeworth, F.Y. (1885). Methods of Statistics. Jubilee volume of the Statist. Soc., E. Stanford,<br />

London.<br />

Fisher, R.A. (1920). A mathematical examination of the methods of determining the accuracy<br />

of an observation by the mean error and by the mean square error. Montly<br />

Notices Roy. Astron. Soc. 80, 758-770.<br />

Fisher, R.A. (1922). On the mathematical foundations of theoretical statistics. Phil. Trans.<br />

Roy. Soc. Ser A 222, 309-368.<br />

Fisher, R. A. (1925a). Theory of statistical estimation. Proc. Cambridge. Phil. Soc. 22, 700-<br />

725.<br />

Fisher, R.A. (1925b). Statistical Methods for Research Workers, 1st ed. (14th. ed. 1970). Oliver<br />

and Boyd, Edinburgh.<br />

Fisher, R.A. (1934). Two new properties of mathematical likelihood. Proc. R., Soc. A 114,<br />

285-307.<br />

Fisher, R.A. (1935). The Design of Experiments, 1st ed. (8th ed., 1966). Oliver and Boyd,<br />

Edinburgh.<br />

Fisher, R.A. (1956). Statistical Methods and Scientific Inference. Oliver and Boyd, Edinburgh<br />

(3rd ed., Hafner, New York, 1973).<br />

Fourier, J.B.J. (1826). Recherches Statistiques sur la Ville de Paris et le Département de<br />

la Seine, Vol. 3.<br />

Fraser, D.A.S. (1956). Sufficient statistics with nuisance parameters. Ann. Math. Statist.<br />

27, 848-842.<br />

Fréchet, M. (1943). Sur l’extension de certaines evaluations statistiques de petits echantillons.<br />

Rev. Int. Statist. 11 , 182-205.<br />

Gauss, C.F. (1816). Bestimmung der Genauigkeit der Beobachtungen. Z. Astron. und<br />

Verw. Wiss 1. (Reprinted in Gauss’ collected works, Vol 4. pp. 109-119).<br />

Gauss, W.F. (1821). In Gauss’ Work (1803-1826) on the Theory of least Squares. Trans.<br />

H.F. Trotter. Statist. Techniques Res. Group. Tech. Rep. No. 5. Princeton University.<br />

Princeton. (Published Translations of these papers are available in French<br />

and German).<br />

Gavarret, J. (1840). Principles Génèraux de Statistique Médicale. Paris.<br />

Halmos, P.R. (1946). The theory of unbiased estimation. Ann. Math. Statist. 17, 34-43.<br />

Halmos, P.R. and Savage, L.J. (1949). Application of the Radon-Nikodym theorem to<br />

the theory of sufficient statistics. Ann. Math. Statist. 20, 225-241.<br />

131


132 KAPITEL 10. REFERENCER<br />

Kolmogorov, A.N. (1950). Unbiased estimates. Izvestia Akad. Nauk SSSR, Ser. Math. 14,<br />

303-326. (Amer. Math. Soc. Transl. No. 98).<br />

Koopman. B.O. (1936). On distributions admitting a sufficient statistic. Trans. Amer.<br />

Math. Soc. 39, 399-409.<br />

Laplace, P.S. (1773). Mémoire sur l’inclinaison moyenne des orbites de comètes. Mem.<br />

Acad. Roy. Sci. Paris 7 (1776), 503-524.<br />

Laplace, P.S. (1812). Théorie Analytique des Probabilités, Paris. (The 3rd edition of 1820 is<br />

reprinted as Vol. 7 of Laplace’s collected works).<br />

Lehmann, E.L. (1983). Theory of Point Estimation. John Wiley & Sons, New York.<br />

Lehmann, E.L. (1986). Testing Statistical Hypotheses. John Wiley & Sons, New York.<br />

Lehmann, E.L. and Scheffé, H. (1950, 1955, 1956). Completeness, similar regions and<br />

unbiased estimation. Sankhya 10 , 305-340; 15, 219-236. (Correction 17, 250).<br />

Lexis, W. (1875). Einleitung in die Theorie der Bevölkerungs<strong>statistik</strong>. Strassburg.<br />

Lexis, W. (1877). Zur Theorie der Massenerscheinungen in der Menschlichen Gesellschaft.<br />

Freiburg.<br />

Neymann, J. (1935). Sur un teorema concernente le cosidette statistiche sufficienti. Giorn.<br />

Ist. Ital. Att. 6 , 320-334.<br />

Neyman, J. and Pearson, E.S. (1928). On the use and interpretation of certain test<br />

criteria. Biometrika 20A, 175-240, 263-294.<br />

Neyman, J. and Pearson, E.S. (1933). On the problem of the most efficient tests of statistical<br />

hypotheses. Phil. Trans. Roy. Ser. A 231, 289-337.<br />

Pearson, K. (1900). On the criterion that a given system of diviations from the probable<br />

in the case of a correlated system of variables is such that it can be reasonably<br />

supposed to have arisen from random sampling. Phil. Mag. 5:50, 157-172.<br />

Pitman, E.J.G. (1936). Sufficient statistics and intrinsic accuracy. Proc. Camb. Phil. Soc.<br />

32, 567-579.<br />

Rao, C.R. (1945). Information and accuracy attainable in the estimation of statistical<br />

parameters. Bull. Calc. Math. Soc. 37 , 81-91.<br />

Rao, C.R. (1947). Minimum variance and the estimation of several parameters. Proc.<br />

Camb. Phil Soc. 43, 280-283.<br />

Rémon, M. (1984). On a concept of partial sufficiency: L-sufficiency. Internat. Statist.<br />

Rev. 52, 127-136.<br />

Sandved, E. (1967). A principle for conditioning on an ancillary statistic. Skand. Aktuar.<br />

50, 29-47.


Sverdrup, E. (1966). The present state of the decision theory and the Neyman-Pearson<br />

theory. Rev. Int. Stat. Inst. 34 , 309-333.<br />

Wilson, E.B. (1927). Probable inference, the law of succession, and statistical inference.<br />

J. Amer. Statist. Asssoc. 22, 209-212.<br />

133


Kapitel 11<br />

Notation og regneregler<br />

Dette kapitel er tænkt som et opslagssted, for det meste med resultater i kender fra<br />

tidligere kurser. I kan selv fylde på når i undervejs støder på nyttige formler.<br />

11.1 notation<br />

Det basale udfaldsrum hedder ofte X , og X er den stokastiske variabel svarende til<br />

identitetsafbildningen på X .<br />

Alle vektorer er rækkevektorer, og den transponerede vektor x ∗ er derfor en søjlevektor.<br />

Hvis f er en afbildning fra R m ind i R k er<br />

og<br />

∂ f<br />

∂x∗(x) =<br />

∂ f ∗<br />

(x) =<br />

∂x<br />

⎛<br />

⎜<br />

⎝<br />

⎛<br />

⎜<br />

⎝<br />

∂ f 1<br />

∂x 1 (x) · · ·<br />

∂ f 1<br />

∂xm<br />

.<br />

(x) · · ·<br />

∂ f 1<br />

∂x 1 (x) · · ·<br />

.<br />

∂ f k<br />

∂x 1 (x) · · ·<br />

11.2 Transformationssætningen<br />

∂ f k<br />

∂x 1 (x)<br />

.<br />

∂ f k<br />

∂xm (x)<br />

∂ f 1<br />

∂xm (x)<br />

.<br />

∂ f k<br />

∂xm (x)<br />

Lad X være en stokastisk variabel i Rk med tæthed f(·) m.h.t. Lebesguemålet, og lad<br />

h(·) være en afbildning fra Rk ind i Rk . Vi definere Y = h(X) og ønsker at finde tætheden<br />

g(·) for Y. Lad<br />

<br />

<br />

J(x) = <br />

∂h<br />

<br />

∗<br />

∂x (x)<br />

<br />

<br />

<br />

,<br />

hvor | · | er absolutværdien af determinanten. Antag at der eksisterer åbne disjunkte<br />

mængder B1, . . . , Bm så at h er en entydig afbildning med J(x) > 0 på hver af B i,<br />

135<br />

⎞<br />

⎟<br />

⎠ ,<br />

⎞<br />

⎟<br />

⎠ .


136 KAPITEL 11. NOTATION OG REGNEREGLER<br />

i = 1, . . . , m, og at P(X ∈ ∪ iB i) = 1. Så gælder der<br />

g(y) = ∑<br />

x:h(x)=y<br />

f(x)J(x) −1 .<br />

Hvis h er en entydig afbildning på Rk , så at m = 1, får vi den mere velkendte formel<br />

g(y) = f(x)J(x) −1 <br />

= f h −1 <br />

(y) J h −1 −1 (y) .<br />

11.3 Betinget middelværdi<br />

Lad det basale udfaldsrum være X med sigma-algebra A. Lad (Y, B) være et andet<br />

målrum, og lad T = t(X) med t : X → Y en målelig afbildning. Den betingede<br />

middelværdi E( f(X)|T), hvor f : X → R er en målelig afbildning, er en stokastisk<br />

variabel, altså en funktion på X , E(X|Y) = E(X|Y)(x), som er σ(T)-målelig og som<br />

opfylder at E(1B(T)E( f(X)|T)) = E(1B(t(X)) f(X)) for alle B ∈ B. Da E( f(X)|T) er<br />

σ(T)-målelig eksisterer der ifølge JHJ 6.4 en funktion ϕ : Y → R så at<br />

E( f(X)|T)(x) = ϕ(t(x))).<br />

Vi betegner ϕ(t) med E( f(X)|t = t). Bemærk at E( f(X)|T = t) kun er bestemt op til<br />

en PT nulmængde.<br />

Hvis PT (·, ·) er en regulær betinget sandsynlighed givet T, så gælder der (se (11.1))<br />

<br />

f(x)P T (dx|t)<br />

X<br />

er en betinget middelværdi givet T. Med andre ord: en <strong>udgave</strong> af E( f(X)|t = t) er<br />

givet ved<br />

<br />

E( f(X)|t = t) = f(x)P T (dx|t).<br />

Dette læses som at den betingede middelværdi er middelværdien i den betingede fordeling.<br />

Jeg minder om at vi har regnereglen<br />

E( f(X, T)|T = t) = E( f(X, t)|T = t),<br />

hvilket læses på den måde at højresiden er en version af venstresiden. Bemærk at vi<br />

fra diskussionen tilsidst i afsnit 3.1 har at<br />

<br />

f(x, t(x))P T <br />

(dx|t) = f(x, t)P T (dx|t)<br />

hvis Y er et metrisk rum med en tællelig taet delmængde og B er Borel sigma-algebraen.<br />

11.4 Betingede tætheder<br />

Vi gennemgår her et specialtilfæde af opgave 3.3. Lad (X, Y) have simultan tæthed<br />

f(x, y) på R k+l og lad Y have marginal tæthed g(y), begge med hensyn til Lebesguemålet.<br />

Så er den betingede tæthed af X givet Y = y<br />

f(x|y) =<br />

X<br />

f(x, y)<br />

g(y) .


11.4. BETINGEDE TÆTHEDER 137<br />

Den regulære betingede sandsynlighed af (X, Y) givet Y i Definition 3.1 bliver i dette<br />

tilfælde<br />

P Y <br />

(A|y) = f(x|y)dx.<br />

x:(x,y)∈A<br />

Bevis. Vi skal eftervise (iii) i Definition 3.1. Lad B være en Borelmængde i Rl og A en<br />

Borelmængde i Rk+l . Så gælder der<br />

<br />

<br />

<br />

f(x|y)dx g(y)dy<br />

P<br />

B<br />

Y (A|y)PY(dy) =<br />

B<br />

<br />

=<br />

=<br />

B<br />

<br />

x:(x,y)∈A<br />

x:(x,y)∈A<br />

A∩R k ×B<br />

f(x, y)dxdy<br />

f(x, y)dxdy = P(A ∩ {Y ∈ B}). <br />

Følgende regneregel (JHJ 10.3) for betingede sandsynligheder er meget brugbar. For<br />

en regulær betinget sandsynlighed PT (A|t) og vilkårlige målelige funktioner f : X →<br />

R, g : Y →R har vi ligheden<br />

<br />

g(t) f(x)P T <br />

(dx|t) dPT(t) = g(t(x)) f(x)P(dx) = E{g(t(X)) f(X)}. (11.1)<br />

Dette er en special<strong>udgave</strong> af hvad JHJ kalder “useful rules". Andre <strong>udgave</strong>r er<br />

<br />

ψ(x, t(x))P T <br />

(dx|t) = ψ(x, t)P T (dx|t), (11.2)<br />

og<br />

<br />

E(ψ(X, T) =<br />

Endvidere gælder der følgende rimelige resultat<br />

ψ(x, t)P T (dx|t)PT(dt). (11.3)<br />

P T (T = t|t) = 1 n.s. PT,<br />

såfremt at mængden {(x, t(x)|x ∈ X } tilhører produkt σ-algebraen A ⊗ B.<br />

Nu følger bevis for Observationerne 2.19 og 2.20.<br />

Bevis (for Obsevation 2.19 (JHJ 10.11)). Lad u være en afbildning fra det basale udfaldsrum<br />

(X , A) ind i (Y, B). Definer<br />

g(u) = EP( dQ<br />

<br />

dQ<br />

(X)|U = u) =<br />

dP dP (x)PU (dx|u).<br />

Vi skal vise at g(u) er tætheden for QU mht PU. Lad B ∈ B. Så får vi<br />

<br />

<br />

dQ<br />

g(u)dPU(u) = 1B(u)<br />

B<br />

dP (x)PU <br />

(dx|u) dPU(u)<br />

<br />

= EP 1B(u(X)) dQ<br />

dP (X)<br />

<br />

<br />

= 1B(u(x)) dQ<br />

<br />

(x)dP(x) = 1B(u(x))dQ(x)<br />

dP<br />

= QU(B).


138 KAPITEL 11. NOTATION OG REGNEREGLER<br />

I det andet lighedstegn har vi brugt regneregelen (11.1) ovenfor, og i det næstsidste<br />

lighedstegn har vi brugt en regneregel i afsnit 11.5. <br />

Bevis (for Observation 2.20). Definer<br />

f(x|t) =<br />

f(x)<br />

g(t)<br />

t ∈ D<br />

1 t /∈ D, og F(A|t) = <br />

A f(x|t)PT (dx|t).<br />

Vi vil vise at F(A|t) er en regulær betinget sandsynlighed for Q givet T. Undervejs<br />

bruger vi at QT(D c ) = 0.<br />

<br />

B<br />

<br />

F(A|t)QT(dt) =<br />

=<br />

=<br />

F(A|t) dQT<br />

(t)PT(dt)<br />

dPT<br />

f(x|t)P<br />

A<br />

T <br />

(dx|t)<br />

<br />

g(t)PT(dt)<br />

1B∩D(t) f(x)P T <br />

(dx|t) PT(dt)<br />

B∩D<br />

<br />

B∩D<br />

<br />

A<br />

= EP {1B∩D(t(X))1 A(X) f(X)}<br />

<br />

= 1B∩D(t(x))1 A(x) dQ<br />

<br />

(x)P(dx) = 1B∩D(t(x))1 A(x)Q(dx)<br />

dP<br />

= Q(A ∩ u −1 (B ∩ D)) = Q(A ∩ u −1 (B)),<br />

som netop er definitionen på at F(A|t) er en regulær betinget sandsynlighed for Q<br />

givet T. Jeg har brugt regneregelen (11.1) ovenfor i 4. lighedstegn og regneregel fra<br />

afsnit 11.5 i næstsidste lighedstegn. <br />

11.5 Regnereler for tætheder og integraler<br />

1) µ ≪ ν ⇒ f(x)dµ(x) = f(x) dµ<br />

dν (x)dν(x). (JHJ 3.17)<br />

2) µ ≪ ν


11.6. ENTYDIGHED AF LAPLACETRANSFORMEN 139<br />

Vi tager nu A = 1( f − g > 0). Så fås<br />

<br />

<br />

<br />

1<br />

( f − g)dµ = 0 ⇒ ( f − g)dµ = 0 ⇒ dµ = 0,<br />

A<br />

A ( f − g) A<br />

dvs A er en µ-nulmængde. På tilsvarende vis ses at mængden hvor f − g < 0 er<br />

en µ-nulmængde.<br />

11.6 Entydighed af Laplacetransformen<br />

Lad µ1 og µ2 være sandsynlighedsmål på R k med laplacetransformer<br />

<br />

ϕ1(θ) =<br />

<br />

exp(θ · x)µ1(dx) og ϕ2(θ) =<br />

exp(θ · x)µ2(dx).<br />

Hvis der eksisterer en åben mængde D ⊂ R k således at ϕ1 og ϕ2 begge er endelige på<br />

D og<br />

ϕ1(θ) = ϕ2(θ), θ ∈ D,<br />

så er de to mål ens, µ1 = µ2.<br />

Beviset baserer sig på at antagelsen medfører at<br />

<br />

<br />

exp((θ + iv) · x)µ1(dx) =<br />

exp((θ + iv) · x)µ2(dx), θ ∈ D, v ∈ R k .<br />

For fast θ er dette karakteristiske funktioner i v, og vi kan derfor bruge entydighedssætningen<br />

for karakteristiske funktioner.


Indeks<br />

141

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!