Teoria prawdopodobieÅstwa i statystyka dla fizyki komputerowej
Teoria prawdopodobieÅstwa i statystyka dla fizyki komputerowej
Teoria prawdopodobieÅstwa i statystyka dla fizyki komputerowej
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
TEORIA PRAWDOPODOBIEŃSTWA I<br />
STATYSTYKA DLA FIZYKI KOMPUTEROWEJ<br />
B. Kamys<br />
Spis treści<br />
1 Elementy teorii prawdopodobieństwa 3<br />
1.1 Definicje podstawowych pojȩć . . . . . . . . . . . . . . . . . . . . . . 3<br />
1.2 W̷lasności prawdopodobieństwa . . . . . . . . . . . . . . . . . . . . . 4<br />
2 Ilościowy opis zmiennych losowych 6<br />
3 Funkcje zmiennej losowej 8<br />
4 Charakterystyki opisowe 10<br />
5 Podstawowe pojȩcia teorii estymacji 14<br />
6 Rozk̷lad normalny (Gaussa) 16<br />
7 Podstawy rachunku b̷lȩdów 19<br />
7.1 Rozk̷lad pomiarów obarczonych b̷lȩdami przypadkowymi . . . . . . . . 21<br />
7.2 Estymator wartości oczekiwanej . . . . . . . . . . . . . . . . . . . . . 22<br />
7.3 Estymator odchylenia standardowego . . . . . . . . . . . . . . . . . . 23<br />
7.4 Zapis wyników pomiarów . . . . . . . . . . . . . . . . . . . . . . . . 24<br />
7.5 B̷l¸ad statystyczny . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />
7.6 Pomiary pośrednie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />
7.6.1 Estymator E(Y) <strong>dla</strong> pomiaru pośredniego Y . . . . . . . . . . . 27<br />
7.6.2 B̷l¸ad pomiaru pośredniego . . . . . . . . . . . . . . . . . . . . 28<br />
7.6.3 B̷l¸ad maksymalny . . . . . . . . . . . . . . . . . . . . . . . . 28<br />
8 Estymacja przedzia̷lowa 30<br />
8.1 Estymacja E{X} gdy znamy odchylenie standardowe σ{X} . . . . . . . 31<br />
8.2 Estymacja E{X} gdy nie znamy odchylenia standardowego σ{X} . . . . 33<br />
8.3 Estymacja przedzia̷lowa wariancji i odchylenia standardowego . . . . . . 34<br />
9 Metody szukania “dobrych” estymatorów 36<br />
9.1 Metoda momentów (“MM”) . . . . . . . . . . . . . . . . . . . . . . . 36<br />
9.2 Metoda najwiȩkszej wiarygodności (“MNW”) . . . . . . . . . . . . . . 40<br />
9.3 Metoda najmniejszych kwadratów (“MNK”) . . . . . . . . . . . . . . . 45
B.Kamys: Fiz. Komp. 2003/04 2<br />
10 Wielowymiarowe (wektorowe) zmienne losowe 49<br />
10.1 Momenty rozk̷ladu wielowymiarowej zmiennej losowej . . . . . . . . . . 52<br />
10.2 Estymacja punktowa wartości oczekiwanej E{⃗Y ( ⃗X)} i macierzy kowariancji<br />
⃗Y ( ⃗X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56<br />
10.3 Regresja liniowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59<br />
10.4 Regresja przy pomocy wielomianów ortogonalnych . . . . . . . . . . . . 62<br />
10.4.1 Regresja przy pomocy wielomianów ortogonalnych na zbiorze wartości<br />
argumentu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />
10.4.2 Konstrukcja zespo̷lu wielomianów ortogonalnych na zbiorze wartości<br />
argumentu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65<br />
11 Metoda Monte Carlo 67<br />
11.1 Liczenie ca̷lek metod¸a Monte Carlo . . . . . . . . . . . . . . . . . . . 67<br />
11.2 Zmniejszanie b̷lȩdu ca̷lki . . . . . . . . . . . . . . . . . . . . . . . . . 69<br />
11.3 Generacja liczb losowych . . . . . . . . . . . . . . . . . . . . . . . . . 72<br />
11.3.1 Generacja liczb o rozk̷ladzie równomiernym . . . . . . . . . . . 72<br />
11.3.2 Generacja liczb losowych o dowolnych rozk̷ladach prawdopodobieństwa 74<br />
11.3.3 Generacja wielowymiarowych zmiennych losowych . . . . . . . . 80<br />
12 Testowanie hipotez statystycznych 81<br />
12.1 Definicje elementarnych pojȩć . . . . . . . . . . . . . . . . . . . . . . 81<br />
12.2 Test normalności rozk̷ladu . . . . . . . . . . . . . . . . . . . . . . . . 82<br />
12.2.1 Test zerowania siȩ wspó̷lczynnika asymetrii i kurtozy . . . . . . . 82<br />
12.2.2 Test zgodności λ - Ko̷lmogorowa . . . . . . . . . . . . . . . . . 84<br />
12.2.3 Test zgodności Andersona-Darlinga . . . . . . . . . . . . . . . 86<br />
12.2.4 Test zgodności χ 2 - Pearsona . . . . . . . . . . . . . . . . . . 87<br />
12.2.5 Wykres normalny . . . . . . . . . . . . . . . . . . . . . . . . 88<br />
12.3 Hipotezy dotycz¸ace wartości oczekiwanej . . . . . . . . . . . . . . . . 90<br />
12.3.1 Porównanie E(X) z liczb¸a (H 0 : E(X) = X 0 ) . . . . . . . . . 90<br />
12.3.2 Wartości oczekiwane dwu populacji (H 0 : E(X) = E(Y )) . . . 91<br />
12.4 Hipotezy dotycz¸ace wariancji . . . . . . . . . . . . . . . . . . . . . . 94<br />
12.4.1 Porównanie wariancji X z liczb¸a (H 0 : σ 2 (X) = σ 2 0 ) . . . . . . 94<br />
12.4.2 Porównanie wariancji dwu populacji (H 0 : σ 2 (X) = σ 2 (Y )) . . 94<br />
12.5 Hipoteza jednorodności wariancji kilku populacji . . . . . . . . . . . . 96<br />
12.5.1 Test Bartletta . . . . . . . . . . . . . . . . . . . . . . . . . . 96<br />
12.5.2 Test Cochrana . . . . . . . . . . . . . . . . . . . . . . . . . . 97<br />
12.6 Analiza wariancji - klasyfikacja jednoczynnikowa . . . . . . . . . . . . . 98<br />
12.7 Analiza wariancji - <strong>dla</strong> regresji liniowej . . . . . . . . . . . . . . . . . 102<br />
12.8 Testy nieparametryczne hipotez porównuj¸acych populacje . . . . . . . . 105<br />
12.8.1 Test Smirnowa . . . . . . . . . . . . . . . . . . . . . . . . . . 105<br />
12.8.2 Test znaków . . . . . . . . . . . . . . . . . . . . . . . . . . . 108<br />
12.8.3 Test serii Walda-Wolfowitza . . . . . . . . . . . . . . . . . . . 109<br />
12.8.4 Test sumy rang Wilcoxona-Manna-Whitneya . . . . . . . . . . . 111
B.Kamys: Fiz. Komp. 2003/04 3<br />
1 ELEMENTY TEORII PRAWDOPODOBIEŃSTWA<br />
1.1 DEFINICJE PODSTAWOWYCH POJȨĆ<br />
DEFINICJA: Zbiór zdarzeń elementarnych - zbiór takich zdarzeń, które siȩ wzajemnie<br />
wykluczaj¸a oraz wyczerpuj¸a wszystkie możliwości (tzn. w każdym możliwym<br />
przypadku przynajmniej jedno z nich musi zachodzić).<br />
DEFINICJA: Zdarzeniem jest dowolny podzbiór zdarzeń elementarnych E.<br />
DEFINICJA: Zdarzeniem pewnym jest zdarzenie zawieraj¸ace wszystkie elementy<br />
zbioru E (zachodzi zawsze).<br />
DEFINICJA: Zdarzeniem niemożliwym jest zdarzenie nie zawieraj¸ace żadnego elementu<br />
zbioru E tj. zbiór pusty Ø.<br />
DEFINICJA: Zdarzenie A zawiera siȩ w zdarzeniu B jeżeli każde zdarzenie elementarne<br />
należ¸ace do zbioru A należy do B: A ⊂ B<br />
DEFINICJA: Zdarzenia A i B s¸a równe<br />
gdy A ⊂ B i B ⊂ A.<br />
DEFINICJA: Suma zdarzeń A+B<br />
to zdarzenie zawieraj¸ace te i tylko te zdarzenia elementarne, które należ¸a do któregokolwiek<br />
ze zdarzeń A, B (suma logiczna zbiorów zdarzeń elementarnych A ⋃ B).<br />
DEFINICJA: Różnica zdarzeń A-B<br />
to zdarzenie zawieraj¸ace te i tylko te zdarzenia elementarne, które należ¸a do zdarzenia<br />
A a nie należ¸a do zdarzenia B.<br />
DEFINICJA: Iloczyn zdarzeń A.B to zdarzenie zawieraj¸ace te i tylko te zdarzenia elementarne,<br />
które należ¸a do wszystkich zdarzeń A, B (tzn. w jȩzyku zbiorów A ⋂ B).<br />
DEFINICJA: Zdarzeniem przeciwnym do A: A nazywamy różnicȩ E − A .<br />
DEFINICJA:<br />
Zdarzeniem losowym - nazywamy zdarzenie spe̷lniaj¸ace poniższe warunki:<br />
1. W zbiorze zdarzeń losowych znajduje siȩ zdarzenie pewne oraz zdarzenie<br />
niemożliwe.<br />
2. Jeżeli zdarzenia A 1 , A 2 , ... w ilości skończonej lub przeliczalnej s¸a zdarzeniami<br />
losowymi to ich iloczyn i ich suma s¸a również zdarzeniami losowymi.
B.Kamys: Fiz. Komp. 2003/04 4<br />
3. Jeżeli A 1 i A 2 s¸a zdarzeniami losowymi to ich różnica jest również zdarzeniem<br />
losowym.<br />
INTUICYJNE OKREŚLENIE: Zdarzenie losowe to takie, o którym nie możemy<br />
powiedzieć czy zajdzie w danych warunkach czy też nie zajdzie.<br />
DEFINICJA: Zmienn¸a losow¸a nazywamy jednoznaczn¸a funkcjȩ rzeczywist¸a X(e)<br />
określon¸a na zbiorze E zdarzeń elementarnych tak¸a, że każdemu przedzia̷lowi wartości<br />
funkcji X odpowiada zdarzenie losowe.<br />
DEFINICJA: Zmienna losowa typu skokowego (dyskretnego) to taka, która<br />
przyjmuje tylko co najwyżej przeliczalny zbiór wartości. Zmienna losowa typu<br />
ci¸ag̷lego - może przyjmować dowolne wartości od minus do plus nieskończoności.<br />
DEFINICJA:<br />
Definicja prawdopodobieństwa<br />
Aksjomat 1: Każdemu zdarzeniu losowemu przyporz¸adkowana jest jednoznacznie<br />
nieujemna liczba rzeczywista zwana prawdopodobieństwem.<br />
Aksjomat 2:<br />
Prawdopodobieństwo zdarzenia pewnego jest równe jedności.<br />
Aksjomat 3: Jeżeli zdarzenie losowe Z jest sum¸a skończonej lub przeliczalnej<br />
liczby roz̷l¸acznych zdarzeń losowych Z 1 ,Z 2 ,.. to prawdopodobieństwo zrealizowania<br />
siȩ zdarzenia Z jest równe sumie prawdopodobieństw zdarzeń Z 1 ,Z 2 ,<br />
..<br />
Aksjomat 4: Prawdopodobieństwo warunkowe zdarzenia A pod warunkiem, że<br />
zachodzi zdarzenie B; P (A | B) wyraża siȩ wzorem:<br />
P (A | B) = P (A:B)<br />
P (B)<br />
Prawdopodobieństwo to jest nieokreślone, gdy prawdopodobieństwo zdarzenia<br />
B wynosi zero.<br />
1.2 W̷LASNOŚCI PRAWDOPODOBIEŃSTWA<br />
1.) Zdarzenie przeciwne do A :<br />
P (A) = 1 − P (A)<br />
Dowód:<br />
A + A = E a wiȩc P (A + A) = P (E) = 1,<br />
z drugiej strony A i A wykluczaj¸a siȩ wiȩc<br />
P (A + A) = P (A) + P (A).<br />
St¸ad P (A) = P (E) − P (A) czyli P (A) = 1 − P (A) c.b.d.o.<br />
2.) Zdarzenie niemożliwe :<br />
P (Ø) = 0
B.Kamys: Fiz. Komp. 2003/04 5<br />
Dowód:<br />
E i Ø wykluczaj¸a siȩ wiȩc P (E + Ø) = P (E) + P (Ø) oraz E + Ø = E a wiȩc<br />
P (E + Ø) = P (E), czyli P (Ø) = 0<br />
c.b.d.o.<br />
3.) Zdarzenie A zawiera siȩ w B :<br />
P (A) ≤ P (B)<br />
Dowód: P (B) = P (A + (A.B)) = P (A) + P (A.B) ≥ P (A) c.b.d.o.<br />
4.) Dowolne zdarzenie losowe :<br />
0 ≤ P (A) ≤ 1<br />
Dowód: Dla każdego zdarzenia jest prawdziwe:<br />
Ø ⊂ A + Ø = A = A.E ⊂ E<br />
a wiȩc prawdopodobieństwa zdarzeń Ø,A i E spe̷lniaj¸a:<br />
0 ≤ P (A) ≤ 1 c.b.d.o.<br />
5.) Suma dowolnych zdarzeń A+B :<br />
P (A + B) = P (A) + P (B) − P (A.B)<br />
Dowód:<br />
Zarówno A + B jak i B możemy zapisać jako sumy roz̷l¸acznych (wykluczaj¸acych<br />
siȩ) zdarzeń:<br />
A + B = A + (B − A.B) oraz<br />
B = A.B + (B − A.B),<br />
stosujemy aksjomat nr 3 definicji prawdopodobieństwa,<br />
P (A + B) = P (A) + P (B − A.B),<br />
P (B) = P (A.B) + P (B − A.B)<br />
odejmujemy stronami: P (A + B) = P (A) + P (B) − P (A.B) c.b.d.o.<br />
6.) Iloczyn zdarzeń A.B :<br />
P (A.B) = P (B).P (A | B) = P (A).P (B | A)<br />
Dowód:<br />
Wynika to automatycznie z 4 aksjomatu definicji prawdopodobieństwa.<br />
DEFINICJA:<br />
Zdarzenie A jest niezależne od B gdy P (A | B) = P (A).<br />
7.) Jeżeli A nie zależy od B to B nie zależy od A. Dowód:<br />
Korzystamy z dwu wzorów na prawdopodobieństwo A.B podanych wyżej, przy czym<br />
w pierwszym z nich uwzglȩdniamy, że A jest niezależne od B. Wówczas z porównania<br />
obu wzorów dostajemy P (B | A) = P (B).<br />
c.b.d.o.
B.Kamys: Fiz. Komp. 2003/04 6<br />
8.) WKW niezależnosci: P (A.B) = P (A).P (B) Dowód:<br />
Wynika to automatycznie ze wzoru na prawdopodobieństwo iloczynu zdarzeń.<br />
c.b.d.o<br />
9.) Formu̷la ’ca̷lkowitego prawdopodobieństwa’: Jeżeli istnieje zbiór zdarzeń<br />
A 1 , A 2 , ... wykluczaj¸acych siȩ wzajemnie i wyczerpuj¸acych wszystkie możliwości<br />
wówczas prawdopodobieństwo dowolnego zdarzenia B może być zapisane nastȩpuj¸aco:<br />
P (B) = ∑ iP (A i ).P (B | A i )<br />
Dowód:<br />
B = ∑ iB.Ai (suma roz̷l¸acznych zdarzeń) a wiȩc P (B) = ∑ iP (B.Ai) a każdy<br />
sk̷ladnik można zapisać jako P (Ai).P (B | Ai). c.b.d.o.<br />
2 ILOŚCIOWY OPIS ZMIENNYCH LOSOWYCH<br />
Ilościowy opis zmiennych losowych uzyskujemy stosuj¸ac<br />
• Dystrybuantȩ (Zwan¸a czȩsto przez statystyków funkcj¸a rozk̷ladu)<br />
• Rozk̷lad prawdopodobieństwa (Tylko <strong>dla</strong> zmiennych dyskretnych)<br />
• Funkcjȩ gȩstości prawdopodobieństwa (Tylko <strong>dla</strong> zmiennych ci¸ag̷lych) oraz<br />
wielkości charakteryzuj¸ace te powyżej wymienione twory.<br />
DEFINICJA: Dystrybuant¸a F(x) nazywamy prawdopodobieństwo tego, że zmienna<br />
losowa X przyjmie wartość mniejsz¸a od x. (X - to symbol zmiennej losowej a<br />
x to jej konkretna wartość). Oczywiście dystrybuanta jest funkcj¸a x.<br />
F (x) ≡ P (X < x)<br />
W̷lasności dystrybuanty:<br />
1. 0 ≤ F (x) ≤ 1<br />
2. F (−∞) = 0<br />
3. F (+∞) = 1<br />
4. F (x) jest niemalej¸ac¸a funkcj¸a<br />
5. F (x) nie posiada wymiaru
B.Kamys: Fiz. Komp. 2003/04 7<br />
Przyk̷lad:<br />
Dla rzutu kostk¸a do gry, gdzie jako zmienn¸a losow¸a przyjȩto liczbȩ wyrzuconych<br />
punktów:<br />
F (x) = 0 <strong>dla</strong> x ≤ 1,<br />
= 1/6 <strong>dla</strong> 1 < x ≤ 2,<br />
= 2/6 <strong>dla</strong> 2 < x ≤ 3,<br />
= 3/6 <strong>dla</strong> 3 < x ≤ 4,<br />
= 4/6 <strong>dla</strong> 4 < x ≤ 5,<br />
= 5/6 <strong>dla</strong> 5 < x ≤ 6,<br />
= 1 <strong>dla</strong> x > 6<br />
DEFINICJA: Rozk̷lad prawdopodobieństwa : Jeżeli x i (i = 1, 2, ...) s¸a wartościami<br />
dyskretnej zmiennej losowej to rozk̷ladem prawdopodobieństwa nazywamy zespó̷l<br />
prawdopodobieństw:<br />
P (X = x i ) = p i ,<br />
∑<br />
i p i = 1<br />
Przyk̷lad:<br />
Rozk̷lad prawdopodobieństwa <strong>dla</strong> rzutu kostk¸a do gry omawianego powyżej:<br />
p i = 1/6 <strong>dla</strong> i = 1, 2..6.<br />
DEFINICJA:<br />
Funkcja gȩstości prawdopodobieństwa f(x)<br />
f(x)dx ≡ P (x ≤ X ≤ x + dx)<br />
W̷lasności funkcji gȩstości prawdopodobieństwa:<br />
1. f(x) ≥ 0,<br />
2. f(x) jest unormowana tj.<br />
∫ +1 1 f(x)dx = 1<br />
3. f(x) =<br />
dF (x)<br />
dx<br />
4. wymiar f(x) = wymiar(1/x)
B.Kamys: Fiz. Komp. 2003/04 8<br />
Przyk̷lad:<br />
⎧<br />
⎪⎨ 0 <strong>dla</strong> x < a<br />
f(x) = 1/(b − a) <strong>dla</strong> a ≤ x ≤ b<br />
⎪⎩<br />
0 <strong>dla</strong> x > b<br />
3 FUNKCJE ZMIENNEJ LOSOWEJ<br />
Funkcja Y zmiennej losowej X: Y = Y(X) jest również zmienn¸a losow¸a. Dlatego<br />
też można <strong>dla</strong> niej określić dystrybuantȩ, rozk̷lad prawdopodobieństwa lub funkcjȩ<br />
gȩstości prawdopodobieństwa. S¸a one prosto zwi¸azane z odpowiednimi wielkościami<br />
<strong>dla</strong> zmiennej X. Należy rozpatrzyć niezależnie przypadek, gdy funkcja Y(X) jest<br />
monotoniczna oraz gdy nie posiada tej w̷lasnosci.<br />
a) Funkcja Y = Y(X) jest monotoniczna.<br />
Można wówczas jednoznacznie określić funkcjȩ odwrotn¸a X=X(Y).<br />
1. Dystrybuanta funkcji Y(X): G(y)<br />
Y(X) jest rosn¸aca :<br />
G(y) = F (x(y))<br />
Y(X) jest malej¸aca :<br />
G(y) = 1 − F (x(y)) − P (x; y = y(x))<br />
Dowód: Wychodz¸ac z definicji <strong>dla</strong> Y(X) rosn¸acej:<br />
G(y) = P (Y < y)<br />
= P (X(Y ) < x)<br />
= F (x(y))<br />
<strong>dla</strong> Y(X) malej¸acej:<br />
G(y) = P (Y < y)<br />
= P (X(Y ) > x)<br />
= 1 − P (X(Y ) ≤ x)<br />
= 1 − P (X(Y ) < x) − P (X(Y ) = x)<br />
= 1 − F (x(y)) − P (x; Y = y(x)) c.b.d.o.
B.Kamys: Fiz. Komp. 2003/04 9<br />
2. Rozk̷lad prawdopodobieństwa P(y):<br />
P (y i ) = P (x i ; y i = Y (x i ))<br />
3. Funkcja gȩstości prawdopodobieństwa g(y):<br />
g(y) = f(x(y)) | dx(y)<br />
dy |<br />
gdzie X(Y) jest funkcj¸a odwrotn¸a do Y(X).<br />
Z definicji: f(x)dx = P (x ≤ X < x + dx) a to prawdopodobieństwo przy<br />
jednoznacznym zwi¸azku miȩdzy X i Y wynosi P (y ≤ Y < y + dy) = g(y)dy.<br />
Znak modu̷lu przy pochodnej pojawia siȩ st¸ad, że przy malej¸acej funkcji Y (X)<br />
pochodna bȩdzie ujemna co powodowa̷loby, że g(y) by̷laby ujemna a zgodnie z<br />
definicj¸a musi być nieujemna.<br />
Przyk̷lad <strong>dla</strong> funkcji monotonicznej:<br />
Y (X) = aX + b ; a i b to rzeczywiste sta̷le<br />
1. Rozk̷lad prawdopodobieństwa:<br />
P (Y = y i ) = P (ax i + b = y i ) = P (x i = y i b<br />
a )<br />
2. Dystrybuanta:<br />
<strong>dla</strong> a > 0, G(y) = F (x = y a b ),<br />
<strong>dla</strong> a < 0, G(y) = 1 − F (x = y a b ) − P (x = y<br />
a b )<br />
3. Gȩstość prawdopodobieństwa:<br />
g(y) = 1<br />
jaj f(x = y<br />
a b )
B.Kamys: Fiz. Komp. 2003/04 10<br />
b.) Funkcja Y(X) nie jest monotoniczna .<br />
Wówczas dzielimy obszar zmienności X na przedzia̷ly, w których Y(X) jest<br />
monotoniczna i powtarzamy powyższe rozważania sumuj¸ac przyczynki od roz̷l¸acznych<br />
przedzia̷lów.<br />
Przyk̷lad <strong>dla</strong> funkcji niemonotonicznej:<br />
Y (X) = X 2<br />
1. Rozk̷lad prawdopodobieństwa:<br />
P (y i ) = P (X 2 = y i ) = P (X = − √ y i ) + P (X = + √ y i )<br />
2. Dystrybuanta:<br />
G(y) = P (Y < y) = P (X 2 < y) = P (− √ y < X < + √ y)<br />
G(y) = 0 <strong>dla</strong> y ≤ 0<br />
G(y) = F ( √ y) − F (− √ y) <strong>dla</strong> y ≥ 0<br />
3. Rozk̷lad gȩstości prawdopodobieństwa:<br />
g(y) = 0 <strong>dla</strong> y < 0<br />
g(y) =<br />
−1<br />
|<br />
2 √ y | f(√ y) + 1<br />
2 √ y f(−√ y)<br />
= 1<br />
2 √ y (f(√ y) + f(− √ y)) <strong>dla</strong> y ≥ 0<br />
4 CHARAKTERYSTYKI OPISOWE<br />
W praktycznych zastosowaniach czȩsto wystarcza poznanie wartości pewnych wielkości,<br />
które charakteryzuj¸a rozk̷lad prawdopodobieństwa zamiast pe̷lnej informacji o rozk̷ladzie.<br />
Oto najczȩściej stosowane:<br />
DEFINICJA: fraktyl x q (zwany również kwantylem) jest to taka wartość zmiennej<br />
losowej, że prawdopodobieństwo znalezienia mniejszych od niej wartości wynosi q:<br />
P (X < x q ) ≡ F (x q ) = q
B.Kamys: Fiz. Komp. 2003/04 11<br />
Najważniejsze fraktyle to dolny kwartyl: x 0:25 , górny kwartyl: x 0:75 oraz mediana: x 0:5 .<br />
DEFINICJA: Moda (zwana również wartości¸a modaln¸a jest to taka wartość zmiennej<br />
losowej, <strong>dla</strong> której rozk̷lad prawdopodobieństwa (lub funkcja gȩstości prawdopodobieństwa)<br />
przyjmuje maksimum.<br />
DEFINICJA: Rozk̷lady prawdopodobieństwa posiadaj¸ace jedn¸a modȩ zwane s¸a<br />
jednomodalnymi a te, które maj¸a wiȩcej niż jedn¸a - wielomodalnymi.<br />
DEFINICJA: m 1 zwany wartości¸a oczekiwan¸a, wartości¸a średni¸a lub nadziej¸a matematyczn¸a.<br />
Bȩdziemy go oznaczali przez E(X) (stosuje siȩ również oznaczenie M(X) lub<br />
ˆX ).<br />
E(X) ≡ ∑ i x i·p i <strong>dla</strong> zmiennych dyskretnych,<br />
E(X) ≡ ∫ x·f(x) dx <strong>dla</strong> zmiennych ci¸ag̷lych<br />
UWAGA: Jeżeli powyższa ca̷lka (lub suma) sa bezwzglȩdnie zbieżne to mówimy, że istnieje<br />
wartość oczekiwana. W przeciwnym wypadku (nawet jeżeli ca̷lka jest zbieżna) mówimy,<br />
że wartość oczekiwana nie istnieje !<br />
INTERPRETACJA E(X):<br />
E(X) jest wspó̷lrzȩdn¸a punktu, który by̷lby środkiem masy<br />
rozk̷ladu prawdopodobieństwa (lub pola pod funkcj¸a gȩstości prawdopodobieństwa)<br />
gdyby prawdopodobieństwa poszczególnych wartości<br />
”x i ”traktować jako masy (lub odpowiednio gȩstość prawdodobieństwa<br />
jako zwyk̷l¸a gȩstość).<br />
W̷LASNOŚCI E(X):<br />
E(X) jest operatorem liniowym a wiȩc:<br />
1. E( ∑ i C i · X i ) = ∑ i C i · E(X i )<br />
Co w szczególnych przypadkach daje:<br />
(a) E(C) = C<br />
(b) E(C · X) = C · E(X)<br />
(c) E(X 1 + X 2 ) = E(X 1 ) + E(X 2 )
B.Kamys: Fiz. Komp. 2003/04 12<br />
2. Dla zmiennych niezależnych X 1 , ..., X n<br />
{ } ∏<br />
E X i = ∏ E {X i}<br />
i i<br />
UWAGA: Warunkiem koniecznym i wystarczaj¸acym by zmienne by̷ly niezależne<br />
jest aby wspólny rozk̷lad prawdopodobieństwa faktoryzowa̷l siȩ: f(X 1 , X 2 , .., X n ) =<br />
f 1 (X 1 ).f 2 (X 2 )...f n (X n ). Rozk̷lady wielu zmiennych losowych omówimy później.<br />
3. Dla funkcji zmiennej X; Y=Y(X)<br />
wartość oczekiwana E(Y) może być znaleziona przy pomocy rozk̷ladu zmiennej X<br />
bez konieczności szukania rozk̷ladu f(y):<br />
E(Y ) = ∑ i y(x i ) · p i , E(Y ) = ∫ y(x) · f(x)dx<br />
<strong>dla</strong> zmiennej dyskretnej i <strong>dla</strong> zmiennej ci¸ag̷lej odpowiednio.<br />
DEFINICJA: Momentem rozk̷ladu rzȩdu ’k’ wzglȩdem punktu x 0 , nazywamy nastȩpuj¸ac¸a<br />
wielkość:<br />
czyli<br />
m k (x 0 ) ≡ E{(x − x 0 ) k }<br />
m k (x 0 ) ≡ ∫ (x − x 0 ) k f(x) dx<br />
m k (x 0 ) ≡ ∑ i(x i − x 0 ) k p(x i )<br />
<strong>dla</strong> zmiennych ci¸ag̷lych i dyskretnych odpowiednio.<br />
Najważniejszymi momentami s¸a te, które liczone s¸a wzglȩdem pocz¸atku uk̷ladu wspó̷lrzȩdnych<br />
tj. x 0 = 0 - (bȩdziemy je oznaczali przez ’ m k ’ ) oraz momenty liczone wzglȩdem<br />
X 0 = m 1 tj. wzglȩdem pierwszego momentu wzglȩdem pocz¸atku uk̷ladu wspó̷lrzȩdnych.<br />
Te ostatnie momenty nazywa siȩ momentami centralnymi (bȩdziemy je oznaczać przez<br />
’ µ k ’).<br />
DEFINICJA: µ 2 , zwany wariancj¸a lub dyspersj¸a<br />
Bȩdziemy go oznaczać przez σ 2 (X) lub var(X) (stosuje siȩ również oznaczenie<br />
D(X). Pierwiastek z wariancji nazywany jest odchyleniem standardowym i oznaczany<br />
σ(X) ale czasami używa siȩ również nazwy ’ dyspersja ’.<br />
σ 2 (X) ≡ ∑ i(x i − E(x)) 2 · p i zmienna dyskretna<br />
σ 2 (X) ≡ ∫ (x − E(x)) 2 · f(x)dx zmienna ci¸ag̷la
B.Kamys: Fiz. Komp. 2003/04 13<br />
W̷LASNOŚCI WARIANCJI:<br />
1. Wariancja może być wyrażona przez momenty liczone wzglȩdem pocz¸atku uk̷ladu<br />
wspó̷lrzȩdnych:<br />
σ 2 (X) = m 2 − m 2 1<br />
σ 2 (X) = E(X 2 ) − E 2 (X)<br />
Dowód: Korzystamy z trzeciej w̷lasności wartości oczekiwanej tj.<br />
c.b.d.o.<br />
m 2 (E(X)) = E((X − E(X)) 2 )<br />
= E(X 2 − 2X.E(X) + E 2 (X))<br />
= E(X 2 ) − 2E(X).E(X) + E 2 (X)<br />
= E(X 2 ) − E 2 (X)<br />
Pos̷lugujac siȩ tym przedstawieniem wariancji dostajemy natychmiast nastȩpuj¸ace<br />
w̷lasności:<br />
(a) var(C) = 0 .<br />
bo E(C 2 ) − E 2 (C) = C 2 − C 2 = 0 c.b.d.o.<br />
(b)<br />
(c)<br />
var(C · X) = C 2 · var(X)<br />
jest to nastȩpstwo liniowości E(X), przez któr¸a definiowaliśmy var(X).<br />
var(C 1 · X + C 2 ) = C 2 · var(X)<br />
2. Dla zmiennych niezależnych<br />
var( ∑ i C i · X i ) = ∑ i C 2 i · var(X)<br />
Wzór ten ̷latwo wyprowadzić przypominaj¸ac definicjȩ wariancji i korzystaj¸ac z trzeciej<br />
w̷lasności wartości oczekiwanej:<br />
var(y = ∑ i C i · X i ) ≡ E((y − E(Y )) 2 ).<br />
Po wstawieniu do wzoru oraz podniesieniu do kwadratu otrzymamy sumȩ kwadratów<br />
wyrażeń C i · (X i − E(X i )) oraz iloczyny mieszane tych wyrażeń. Iloczyny mieszane<br />
znikn¸a w chwili gdy podzia̷la na nie zewnȩtrzny operator wartości oczekiwanej (ponieważ<br />
E(X − E(X)) = E(X) − E(X) = 0).<br />
Za̷lożenie niezależności jest potrzebne przy liczeniu wartości oczekiwanej z iloczynów<br />
mieszanych (wówczas wartość oczekiwana iloczynu równa jest iloczynowi wartości oczekiwanych).<br />
Suma wartości oczekiwanych z kwadratów wyrażeń C i · (X i − E(X i )) jest<br />
w̷laśnie oczekiwanym przez nas wyrażeniem.
B.Kamys: Fiz. Komp. 2003/04 14<br />
Interpretacja wariancji wynika z nierówności Czebyszewa, któr¸a można zapisać nastȩpuj¸aco:<br />
P (| X − E(X) |≥ a · σ(X)) ≤ a 2<br />
TWIERDZENIE:<br />
Prawdopodobieństwo odchylenia wartości zmiennej losowej od wartości oczekiwanej E(X)<br />
o ’a’ -krotn¸a wartość odchylenia standardowego jest mniejsze lub równe od 1 a 2 .<br />
Twierdzenie to jest s̷luszne <strong>dla</strong> wszystkich rozk̷ladów, które posiadaj¸a wariancjȩ (a wiȩc,<br />
co za tym idzie i wartość oczekiwan¸a). Liczba ’ a ’ jest dowoln¸a dodatni¸a rzeczywist¸a liczb¸a.<br />
INTERPRETACJA WARIANCJI Korzystaj¸ac z powyższego twierdzenia dochodzimy do<br />
wniosku, że wariancja (lub odchylenie standardowe) jest miar¸a rozrzutu zmiennej<br />
losowej doko̷la wartości oczekiwanej.<br />
Jest to bardzo ważny wniosek bo w analizie danych doświadczalnych utożsamiamy<br />
wartość oczekiwan¸a pomiarów wykonanych w obecności b̷lȩdów przypadkowych z<br />
wartości¸a prawdziw¸a mierzonej wielkości. Wtedy miar¸a b̷lȩdu przypadkowego<br />
jest odchylenie standardowe bo ono określa rozrzut wyników doko̷la wartości prawdziwej.<br />
5 PODSTAWOWE POJȨCIA TEORII ESTYMACJI<br />
DEFINICJA: W statystyce skończony zespó̷l doświadczeń nazywamy prób¸a a wnioskowanie<br />
na podstawie próby o w̷lasnościach nieskończonego (zwykle) zespo̷lu wszystkich<br />
możliwych doświadczeń zwanego populacj¸a generaln¸a , nazywamy estymacj¸a.<br />
DEFINICJA: Przez próbȩ prost¸a rozumiemy ci¸ag niezależnych doświadczeń odnosz¸acych<br />
siȩ do tej samej populacji generalnej.<br />
DEFINICJA: Statystyk¸a nazywamy tak¸a funkcjȩ zmiennych losowych obserwowanych w<br />
próbie, która sama jest zmienn¸a losow¸a.<br />
DEFINICJA: Estymatorem T n (x 1 , x 2 , ..x n ; θ) parametru θ lub w skrócie T n (θ) nazywamy<br />
statystykȩ o rozk̷ladzie prawdopodobieństwa zależnym od θ. Tu ’x 1 , x 2 , ..’ oznaczaj¸a<br />
wyniki pomiarów próby a przez rozk̷lad prawdopodobieństwa rozumiemy przyporz¸adkowanie<br />
prawdopodobieństw różnym wartościom statystyki T n .
B.Kamys: Fiz. Komp. 2003/04 15<br />
DEFINICJA: Estymacja punktowa to taka estymacja, która polega na oszacowaniu<br />
wartości danego parametru θ przez wartość jego estymatora T n (θ).<br />
DEFINICJA: Estymacja przedzia̷lowa polega na szukaniu przedzia̷lu liczbowego, wewn¸atrz<br />
którego z za̷lożonym prawdopodobieństwem leży prawdziwa wartość parametru.<br />
DEFINICJA: Estymator T n (θ), jest zgodny jeżeli <strong>dla</strong> każdego ɛ > 0 jest spe̷lniony<br />
warunek:<br />
lim n!1P (| T n (θ) − θ |< ɛ) = 1<br />
W takim przypadku używa siȩ czȩsto określenia, że estymator spe̷lnia prawo wielkich<br />
liczb .<br />
PRZYK̷LAD:<br />
TWIERDZENIE (Bernoulli): Wzglȩdna czȩstość pojawiania siȩ zdarzenia ’A’ w<br />
ci¸agu ’n’ doświadczeń spe̷lnia prawo wielkich liczb czyli jest zgodnym estymatorem prawdopodobieństwa<br />
zdarzenia A: P (A).<br />
lim n!1P (| n A /n − P (A) |< ɛ) = 1<br />
DEFINICJA:<br />
Estymator spe̷lniaj¸acy mocne prawo wielkich liczb to taki, który jest zbieżny do estymowanego<br />
parametru z prawdopodobieństwem równym jedności.<br />
P (lim n!1T n (θ) = θ) = 1<br />
PRZYK̷LAD:<br />
TWIERDZENIE: F.P.Cantelli udowodni̷l w 1917 roku, że wzglȩdna czȩstość pozytywnego<br />
zakończenia doświadczenia; n A /n jest zbieżna do prawdopodobieństwa zdarzenia<br />
A; P (A) z prawdopodobieństwem równym jedności:<br />
P (lim n!1(n A /n) = P (A)) = 1<br />
czyli wzglȩdna czȩstość spe̷lnia mocne prawo wielkich liczb.<br />
DEFINICJA: Estymatorem nieobci¸ażonym T n (θ) parametru θ nazywamy taki estymator,<br />
którego wartość oczekiwana równa jest wartości estymowanego parametru niezależnie<br />
od rozmiarów próby:<br />
E(T n (θ)) = θ
B.Kamys: Fiz. Komp. 2003/04 16<br />
DEFINICJA: Obci¸ażeniem estymatora ’B n ’ nazywamy różnicȩ jego wartości oczekiwanej<br />
i wartości estymowanego parametru:<br />
B n = E(T n (θ)) − θ<br />
DEFINICJA: Estymatorem obci¸ażonym nazywamy taki estymator, którego obci¸ażenie<br />
jest różne od zera.<br />
DEFINICJA: Estymatorem asymptotycznie nieobci¸ażonym nazywamy taki estymator<br />
obci¸ażony, którego obci¸ażenie zmierza do zera gdy rozmiary próby nieskończenie rosn¸a:<br />
lim n!1B n = 0<br />
TWIERDZENIE:<br />
Jeżeli wariancja estymatora nieobci¸ażonego lub asymptotycznie nieobci¸ażonego d¸aży do<br />
zera gdy rozmiary próby rosn¸a nieograniczenie wówczas estymator ten jest zgodny.<br />
TWIERDZENIE:<br />
Jeżeli T n (θ) jest zgodnym estymatorem θ i jeżeli h(θ) jest wielomianem lub ilorazem<br />
wielomianów to estymator h(T n (θ)) jest estymatorem zgodnym <strong>dla</strong> h(θ).<br />
DEFINICJA:<br />
Jeżeli mamy zbiór estymatorów tego samego parametru θ: T n (1) (2)<br />
(k)<br />
(θ),T n (θ), ... T n (θ),<br />
wówczas ten spośród nich nazywany jest najbardziej efektywnym, który ma najmniejsz¸a<br />
wariancjȩ.<br />
6 ROZK̷LAD NORMALNY (Gaussa)<br />
DEFINICJA:<br />
Ci¸ag̷la zmienna losowa X, której funkcja gȩstości prawdopodobieństwa ma nastȩpuj¸ac¸a<br />
postać:<br />
f(X) = p 1<br />
2 B<br />
exp(<br />
(X A)2<br />
2B 2 )<br />
nazywa siȩ zmienn¸a o rozk̷ladzie normalnym N(A, B).
B.Kamys: Fiz. Komp. 2003/04 17<br />
W̷lasności rozk̷ladu normalnego f(X) ≡ N(A, B):<br />
Wartość oczekiwana:<br />
Odchylenie standardowe:<br />
E(X) = A<br />
σ(X) = B<br />
St¸ad ̷latwo widać, że N(A, B) ≡ N(E(X), σ(X))<br />
Dystrybuanta rozk̷ladu normalnego nie wyraża siȩ przez funkcje elementarne.<br />
Warto zapamiȩtać nastȩpuj¸ace wartości prawdopodobieństwa znalezienia zmiennej<br />
X w danym przedziale:<br />
P (E(X) − σ(X) ≤ X < E(X) + σ(X)) = 0.6827<br />
P (E(X) − 2σ(X) ≤ X < E(X) + 2σ(X)) = 0.9545<br />
P (E(X) − 3σ(X) ≤ X < E(X) + 3σ(X)) = 0.9973<br />
Uwaga:<br />
Dowoln¸a zmienn¸a Y o rozk̷ladzie normalnym można standaryzować tworz¸ac wielkość Z<br />
o rozk̷ladzie ’standardowym normalnym’ N(0, 1):<br />
Z = (Y − E(Y ))/σ(Y ).<br />
Standaryzacja jest ważna ze wzglȩdu na możliwość tablicowania zarówno funkcji gȩstości<br />
prawdopodobieństwa, jak i dystrybuanty rozk̷ladu N(0, 1) a potem wykorzystania faktu,<br />
że maj¸ac zmienn¸a X o rozk̷ladzie N(0, 1) możemy stworzyć zmienn¸a Y o rozk̷ladzie<br />
N(A, B) przez prost¸a transformacjȩ: Y = B ∗ X + A .<br />
TWIERDZENIE (Centralne Twierdzenie Graniczne w wersji podanej przez<br />
Lapunowa):<br />
Niech X 1 , X 2 , ...X n bȩdzie ci¸agiem niezależnych zmiennych losowych których rozk̷lady<br />
posiadaj¸a:<br />
• wartość oczekiwan¸a E(X k ),<br />
• wariancjȩ var(X k ),<br />
• trzeci moment centralny µ 3 (X k ), oraz
B.Kamys: Fiz. Komp. 2003/04 18<br />
• absolutny trzeci moment centralny tj.<br />
b k ≡ E(| X k − E(X k ) | 3 ) <strong>dla</strong> k = 1, ..., n.<br />
Wówczas ci¸ag dystrybuant standaryzowanych zmiennych losowych zdefiniowanych<br />
nastȩpuj¸aco:<br />
spe̷lnia zależność:<br />
jeżeli jest spe̷lniony warunek:<br />
Z =<br />
n∑<br />
k=1<br />
X k − E(X k )<br />
√ ∑ni=1<br />
var(X i )<br />
lim<br />
n!1 F n(Z) = √ 1 ∫ Z<br />
2π 1 dt · exp(−t2 2 )<br />
lim<br />
n!1<br />
√ ∑nk=1<br />
3<br />
b k<br />
√ ∑nk=1<br />
var(X k ) = 0<br />
2<br />
Centralne Twierdzenie Graniczne (Intuicyjne sformu̷lowanie)<br />
Zmienna Z bȩd¸aca standaryzowan¸a sum¸a niezależnych zmiennych losowych bedzie mia̷la<br />
standardowy rozk̷lad normalny gdy liczba sk̷ladników w sumie d¸aży do nieskończoności<br />
oraz w sumie nie wystȩpuj¸a zmienne o wariancjach dominuj¸acych w stosunku do reszty<br />
sk̷ladników.<br />
W̷laśnie to twierdzenie powoduje, że rozk̷lad normalny jest wyróżnionym rozk̷ladem -<br />
bardzo czȩsto stosowanym w statystyce.
B.Kamys: Fiz. Komp. 2003/04 19<br />
7 PODSTAWY RACHUNKU B̷LȨDÓW<br />
Wynik pomiaru bez podania dok̷ladności<br />
doświadczenia (b̷lȩdu) jest bezwartościowy.<br />
DEFINICJA: Pomiarem bezpośrednim nazywamy doświadczenie, w którym przy pomocy<br />
odpowiednich przyrz¸adow mierzymy (porównujemy z jednostk¸a) interesuj¸ac¸a nas<br />
wielkość fizyczn¸a.<br />
Przyk̷lad:<br />
• Pomiar d̷lugości przedmiotu przy pomocy linijki<br />
• Pomiar d̷lugości odcinka czasu przy pomocy zegara<br />
DEFINICJA: Pomiarem pośrednim nazywamy doświadczenie, w którym wyznaczamy<br />
wartość interesuj¸acej nas wielkości fizycznej przez pomiar innych wielkości fizycznych<br />
zwi¸azanych z dan¸a wielkości¸a znanym zwi¸azkiem funkcyjnym.<br />
Przyk̷lad:<br />
• Pomiar oporu elektrycznego przewodnika: mierzymy spadek napiȩcia U na przewodniku<br />
i pr¸ad I przez niego p̷lyn¸acy a opór R wyznaczamy z prawa Ohma: R = U/I.<br />
• Pomiar gȩstości stopu, z którego zbudowany jest prostopad̷lościan: mierzymy bezpośrednio<br />
d̷lugość krawȩdzi a, b i c prostopad̷lościanu i jego masȩ m a gȩstość wyznaczamy<br />
ze wzoru: ρ = m/(a · b · c).<br />
DEFINICJA: B̷lȩdem pomiaru e nazywamy różnicȩ pomiȩdzy wartości¸a X uzyskan¸a w<br />
doświadczeniu a prawdziw¸a (nieznan¸a) wartości¸a X 0 danej wielkości:<br />
e = X − X 0<br />
B̷lȩdy dzielimy na grube, systematyczne i przypadkowe<br />
DEFINICJA: B̷lȩdy grube to b̷lȩdy, które pojawiaj¸a siȩ w wyniku pomy̷lki eksperymentatora<br />
(np. odczyt na niew̷laściwej skali przyrz¸adu) lub w wyniku niesprawności aparatury<br />
pomiarowej. Zwykle s¸a one na tyle duże, że można je ̷latwo zauważyć.
B.Kamys: Fiz. Komp. 2003/04 20<br />
Dla unikniȩcia tych b̷lȩdów należy starannie zorganizować proces pomiaru i używać do<br />
doświadczeń tylko w̷laściwie wytestowanych przyrz¸adów.<br />
DEFINICJA: B̷lȩdy systematyczne to takie, które podczas wykonywania pomiaru systematycznie<br />
przesuwaj¸a wyniki pomiarów w jedn¸a stronȩ w stosunku do prawdziwej<br />
wartości.<br />
Przyk̷lad:<br />
Przy pomiarze oporu możemy zastosować dwa różne schematy pod̷l¸aczenia woltomierza i<br />
amperomierza:<br />
1. Woltomierz pod̷l¸aczony równolegle do oporu a szeregowo do nich amperomierz.<br />
Wówczas spadek napiȩcia mierzony jest rzeczywiście na oporniku ale pr¸ad mierzony<br />
przez amperomierz odpowiada nie samemu pr¸adowi p̷lyn¸acemu przez przewodnik<br />
lecz sumie pr¸adów - opornika i woltomierza. Systematycznie zawyżamy wartość<br />
pr¸adu ’I’ co w przypadku gdy opór woltomierza nie jest wielokrotnie wiȩkszy od<br />
oporu przewodnika może prowadzić do znacz¸acego b̷lȩdu.<br />
2. Woltomierz pod̷l¸aczony jest równolegle do uk̷ladu szeregowo po̷l¸aczonego opornika<br />
i amperomierza. Wówczas woltomierz mierzy spadek napiȩcia na przewodniku oraz<br />
na amperomierzu równocześnie. Systematycznie zawyżamy napiȩcie ’U’ co w<br />
przypadku gdy opór wewnȩtrzny amperomierza nie jest wielokrotnie mniejszy od<br />
oporu przewodnika może prowadzić do znacz¸acego b̷ledu.<br />
B̷ledy systematyczne s¸a trudne do zauważenia i oszacowania.<br />
Dla ich unikniȩcia stosuje siȩ:<br />
• staranne przemyślenie metody pomiaru w poszukiwaniu możliwych źróde̷l b̷lȩdów<br />
systematycznych i rezygnacja z metod, które prowadz¸a do takich b̷lȩdów,<br />
• zmianȩ metody pomiaru np. opór w powyższym przyk̷ladzie można mierzyć metod¸a<br />
mostka, która nie wprowadza takich systematycznych b̷lȩdów jak omówione najprostsze<br />
schematy pomiaru. Ważne sta̷le fizyczne takie jak prȩdkość świat̷la ’c’<br />
by̷ly wielokrotnie mierzone różnymi metodami, g̷lównie po to by upewnić siȩ, że<br />
unikniȩto b̷lȩdów systematycznych,<br />
• unikanie oczywistych źróde̷l b̷lȩdu jak np. ”b̷l¸ad paralaksy”polegaj¸acy na odczytaniu<br />
skali nie patrz¸ac na ni¸a z kierunku prostopad̷lego,<br />
• pomiary wzglȩdne polegaj¸ace na tym, że mierzymy równocześnie, t¸a sam¸a metod¸a<br />
dwie wielkości - jedn¸a dobrze znan¸a a drug¸a - tȩ, któr¸a chcemy zmierzyć. Odnosz¸ac<br />
wynik pomiaru nieznanej wielkości do wyniku pomiaru znanej wielkości zwykle<br />
możemy wyeliminować b̷lȩdy systematyczne.
B.Kamys: Fiz. Komp. 2003/04 21<br />
DEFINICJA: B̷lȩdy przypadkowe to b̷lȩdy, które zmieniaj¸a siȩ od pomiaru do pomiaru,<br />
powoduj¸ac odchylenia od wartości prawdziwej zarówno w jedn¸a jak i drug¸a stronȩ.<br />
Zak̷lada siȩ, że spowodowane s¸a one przez wiele niezależnych przyczyn o porównywalnym<br />
znaczeniu.<br />
Metody statystyki pozwalaj¸a na oszacowanie tego typu b̷lȩdów zarowno jakościowo<br />
jak i ilościowo. Nie mówi¸a jednak nic o b̷lȩdach systematycznych czy grubych. Dlatego<br />
dalsze rozważania bȩd¸a dotyczy̷ly tylko b̷lȩdów przypadkowych.<br />
Jeżeli mamy do czynienia tylko z b̷lȩdami przypadkowymi wówczas s¸a spe̷lnione za̷lożenia<br />
centralnego twierdzenia granicznego a wiȩc:<br />
Rozk̷lad b̷lȩdu przypadkowego to rozk̷lad N(0, σ(e)).<br />
f(e) =<br />
p<br />
1<br />
2 (e)<br />
exp(<br />
e 2<br />
2 2 (e) )<br />
7.1 ROZK̷LAD POMIARÓW OBARCZONYCH B̷LȨDAMI PRZY-<br />
PADKOWYMI<br />
Wartość oczekiwana b̷lȩdu przypadkowego jest z definicji równa zero a rozrzut b̷lȩdów<br />
doko̷la wartości oczekiwanej b̷lȩdu jest określony przez odchylenie standardowe σ(e).<br />
Wynik pomiaru X różni siȩ od b̷lȩdu e tylko przesuniȩciem skali wspó̷lrzȩdnych o<br />
X 0 (wartość prawdziw¸a) a wiȩc rozk̷lad wartości mierzonej X jest rozk̷ladem Gaussa<br />
N(X 0 , σ(e)):<br />
f(X) =<br />
p<br />
1<br />
2 (e)<br />
exp( (X X 0) 2<br />
2 ).<br />
2 (e)<br />
WAŻNE WNIOSKI:<br />
• Wartość prawdziwa mierzonej wielkości jest równa wartości oczekiwanej<br />
pomiarów (jeżeli s¸a tylko b̷lȩdy przypadkowe).<br />
• Rozrzut pomiarów doko̷la wartości prawdziwej jest określony przez odchylenie<br />
standardowe σ(e) rozk̷ladu b̷lȩdów przypadkowych.<br />
• Miar¸a b̷lȩdu pojedynczego pomiaru jest odchylenie standardowe pomiarów.
B.Kamys: Fiz. Komp. 2003/04 22<br />
Z powyższych faktów wynika, że:<br />
szukanie prawdziwej wartości mierzonej wielkości i jej b̷lȩdu to estymacja<br />
wartości oczekiwanej i odchylenia standardowego pomiarów<br />
OD ’DOBREGO’ ESTYMATORA ŻA¸ DAMY ABY:<br />
• spe̷lnia̷l mocne prawo wielkich liczb lub by̷l zgodny<br />
• O ile to możliwe chcemy by by̷l:<br />
– Nieobci¸ażony,<br />
– Najbardziej efektywny.<br />
7.2 ESTYMATOR WARTOŚCI OCZEKIWANEJ<br />
Jako estymator wartości oczekiwanej T n (E(X)) przyjmuje siȩ średni¸a arytmetyczn¸a<br />
niezależnych pomiarów wielkości X. Bȩdziemy j¸a oznaczać przez X :<br />
T n (E(X)) ≡ X = 1 n<br />
∑ ni=1<br />
X i<br />
Estymator ten posiada optymalne w̷lasności:<br />
1. Ko̷lmogorow pokaza̷l, że X spe̷lnia mocne prawo wielkich liczb a wiȩc oczywiście<br />
jest zgodny,<br />
2. Estymator X jest nieobci¸ażony.<br />
E( n<br />
1 ∑<br />
i X i) = n<br />
1 ∑<br />
i E(X i) = n 1 (n.E(X)) = E(X) c.b.d.o.<br />
Tu wykorzystano fakt, że wszystkie wartości oczekiwane s¸a równe E(Xi)=E(X).<br />
3. Można pokazać, że X jest najbardziej efektywnym estymatorem E(X).<br />
TWIERDZENIE:<br />
Estymator X wartości oczekiwanej E(X) ma rozk̷lad normalny N(E(X), (X) p n )<br />
gdzie ’n’ jest liczb¸a pomiarów w próbie.
B.Kamys: Fiz. Komp. 2003/04 23<br />
WNIOSKI:<br />
1. Odchylenie standardowe średniej arytmetycznej X jest √ n - krotnie mniejsze od<br />
odchylenia standardowego pojedynczego pomiaru.<br />
2. Odchylenie standardowe σ(X) czyli b̷l¸ad średni kwadratowy średniej arytmetycznej<br />
charakteryzuje dok̷ladność wyznaczenia prawdziwej wartości X w danym<br />
konkretnym pomiarze sk̷ladaj¸acym siȩ z n niezależnych doświadczeń.<br />
X 0 = X ± σ(X)<br />
3. Aby charakteryzować dok̷ladność metody pomiarowej wówczas jako miarȩ dok̷ladności<br />
podajemy b̷l¸ad pojedynczego pomiaru tj. σ(X) .<br />
4. W granicach wyznaczonych przez σ(X) powinno leżeć 68.27% wszystkich pomiarów<br />
a nie wszystkie pomiary.<br />
7.3 ESTYMATOR ODCHYLENIA STANDARDOWEGO<br />
(a) S(X) ≡ √ 1 ∑ ni=1<br />
n (X<br />
1 i − X) 2<br />
Jest to zgodny, asymptotycznie nieobci¸ażony estymator<br />
(b) s(X) ≡ √ 1<br />
n<br />
∑ ni=1<br />
(X i − X) 2<br />
Jest to zgodny, asymptotycznie nieobci¸ażony i najbardziej efektywny estymator<br />
(c)<br />
S(X) ≡ k n S(X)<br />
gdzie k n = √ n 1<br />
2<br />
Γ( n 1<br />
2 )<br />
Γ( n 2 )<br />
Jest to zgodny i nieobci¸ażony estymator σ(X).
B.Kamys: Fiz. Komp. 2003/04 24<br />
UWAGA: Wspó̷lczynnik ”k n ”można zast¸apić z niez̷lym przybliżeniem przez wstawienie<br />
do wzoru na S(X) zamiast 1/(n − 1) czynnika 1/(n − 1.45).<br />
Poniżej podajemy w tabelce przyk̷ladowe wartości wspó̷lczynnika k n <strong>dla</strong> różnych ’n’:<br />
√<br />
n k n 1<br />
n n 1:45<br />
3 1.1284 1.1359<br />
4 1.0853 1.0847<br />
5 1.0640 1.0615<br />
6 1.0506 1.0482<br />
7 1.0423 1.0397<br />
10 1.0280 1.0260<br />
15 1.0181 1.0165<br />
20 1.0134 1.0121<br />
25 1.0104 1.0095<br />
50 1.0051 1.0046<br />
UWAGA:<br />
Najczȩściej używanym estymatorem odchylenia standardowego jest estymator S(X)<br />
7.4 ZAPIS WYNIKÓW POMIARÓW<br />
Ponieważ z doświadczenia nie uzyskujemy prawdziwej wartości oczekiwanej E(X) oraz<br />
odchylenia standardowego σ(X) a tylko ich estymatory wiȩc nie podaje siȩ ich wartości<br />
z pe̷ln¸a (uzyskan¸a z obliczeń) liczb¸a cyfr znacz¸acych.<br />
Stosuje siȩ nastȩpuj¸ac¸a konwencjȩ:<br />
• Pozostawia siȩ tylko dwie cyfry znacz¸ace estymatora b̷lȩdu a jeżeli<br />
zaokr¸aglenie do jednej cyfry (zaokr¸aglaj¸ac zawsze do góry) nie<br />
zmieni wyniku wiȩcej niż o 10% to podaje siȩ tylko jedn¸a cyfrȩ.<br />
• Wynik pomiaru obliczamy o jedno miejsce dziesiȩtne dalej niż<br />
miejsce dziesiȩtne, na którym zaokr¸aglono b̷l¸ad, a nastȩpnie<br />
zaokr¸aglamy wg normalnych regu̷l do tego samego miejsca<br />
dziesiȩtnego, do którego wyznaczono b̷l¸ad.
B.Kamys: Fiz. Komp. 2003/04 25<br />
TWIERDZENIE: Jeżeli prawdopodobieństwo zrealizowania siȩ danego zdarzenia losowego<br />
w pojedynczym doświadczeniu jest równe p to liczba k zrealizowanych zdarzeń w N<br />
niezależnych doświadczeniach rz¸adzona jest rozk̷ladem Bernoulliego (dwumianowym,<br />
binomialnym):<br />
̷Latwo można pokazać, że<br />
P (k) = N!<br />
k!(N k)! pk (1 − p) N k ; k = 0, 1, ..N<br />
E(k) = √N · p<br />
σ(k) = N · p · (1 − p)<br />
W fizyce atomowej, j¸ader atomowych i cz¸astek elementarnych czȩsto zdarza siȩ sytuacja<br />
gdy N jest bardzo duże, p bardzo ma̷le a wartość oczekiwana rejestrowanych zdarzeń<br />
E(k) ≡ N · p jest sta̷la. np. N - liczba radioaktywnych j¸ader w badanej próbce, p - prawdopodobieństwo<br />
rozpadu pojedynczego radioaktywnego j¸adra w jednostce czasu, k - liczba<br />
rejestrowanych rozpadów w jednostce czasu<br />
W takiej sytuacji rozk̷lad Bernoulliego przechodzi w rozk̷lad Poissona:<br />
P (k) = k<br />
k! exp(−λ)<br />
Wartość oczekiwana i odchylenie standardowe wyrażaj¸a siȩ wzorem:<br />
E(k) = λ<br />
σ(k) = √ λ<br />
Można pokazać, że <strong>dla</strong> <strong>dla</strong> N√<br />
⇒ ∞ rozk̷lad Bernoulliego i rozk̷lad Poissona d¸aż¸a do<br />
rozk̷ladu normalnego N(N.p, N.p.(1 − p)) i N(λ, √ λ) odpowiednio.
B.Kamys: Fiz. Komp. 2003/04 26<br />
7.5 B̷LA¸ D STATYSTYCZNY<br />
Liczba rejestrowanych w danym okresie czasu zdarzeń k rz¸adzonych powyższymi prawami<br />
jest zmienn¸a losow¸a a wiȩc ’prawdziwa’ liczba zdarzeń to E(k) a jej ’b̷l¸ad’ to σ(k).<br />
Ten ’b̷l¸ad’ nazywany jest b̷lȩdem statystycznym.<br />
ESTYMATOR prawdziwej liczby zdarzeń i b̷lȩdu statystycznego<br />
Jako estymator prawdziwej liczby zdarzeń przyjmuje siȩ liczbȩ k zarejestrowanych<br />
zdarzeń podczas pojedynczego pomiaru:<br />
T n (E(k)) = k<br />
a jako estymator b̷lȩdu statystycznego:<br />
T n (σ(k)) = √ k<br />
POZORNY PARADOKS: Im d̷lużej mierzymy tym b̷l¸ad liczby zarejestrowanych zdarzeń<br />
jest wiȩkszy.<br />
WYT̷LUMACZENIE: Istotny jest statystyczny b̷l¸ad wzglȩdny a nie bezwzglȩdny:<br />
T n ( (k) ) = p 1<br />
E(k) k<br />
.<br />
NOMENKLATURA: Pomiar z ma̷lym statystycznym b̷lȩdem wzglȩdnym to pomiar z<br />
DOBRA¸ STATYSTYKA¸ a z dużym to pomiar ze Z̷LA¸ STATYSTYKA¸ .<br />
UWAGA: Zwykle interesuje nas liczba zdarzeń na jednostkȩ czasu a wiȩc k ma wymiar<br />
odwrotny do czasu. Należy zwracać uwagȩ, że b̷l¸ad statystyczny ma identyczny<br />
wymiar jak liczba zdarzeń, tj. wymiar odwrotny do czasu mimo, że ilościowo jest<br />
pierwiastkiem z liczby zdarzeń.<br />
W praktyce do opisu rejestracji liczby zdarzeń stosujemy rozk̷lad Poissona. Interesuje nas<br />
jednak nie tylko odpowiedź na pytanie:<br />
Ile zdarzeń zachodzi w określonym czasie ?<br />
ale również odpowiedź na inne pytanie:<br />
Ile zachodzi zdarzeń DANEGO TYPU ?<br />
PRZYK̷LAD: Rejestrujemy produkty reakcji j¸adrowej. Chcemy wiedzieć nie tylko ile<br />
reakcji zachodzi ale także ile jest produktów posiadaj¸acych określon¸a energiȩ.
B.Kamys: Fiz. Komp. 2003/04 27<br />
PYTANIA:<br />
1. Jakim rozk̷ladem rz¸adzona jest liczba zdarzeń w każdym przedziale (’kanale’) energii?<br />
2. Co by siȩ sta̷lo gdybyśmy dodali liczby zdarzeń z kilku s¸asiednich kana̷lów (<strong>dla</strong><br />
poprawienia ’statystyki’ liczby zdarzeń) ?<br />
ODPOWIEDZI:<br />
ad 1 Liczba zdarzeń w każdym kanale jest rz¸adzona rozk̷ladem Poissona ale każdy z tych<br />
rozk̷ladów ma zwykle różny parametr λ.<br />
ad 2 Korzystaj¸ac z poniższego twierdzenia:<br />
TWIERDZENIE<br />
Rozk̷lad prawdopodobieństwa sumy skończonej liczby niezależnych sk̷ladników, z których<br />
każdy rz¸adzony jest rozk̷ladem Poissona o parametrze λ i jest również rozk̷ladem<br />
Poissona ale o nowym parametrze λ = ∑ i λ i .<br />
stwierdzamy, że liczba zdarzeń w kilku wysumowanych kana̷lach k = ∑ i k i bȩdzie<br />
dalej rz¸adzona rozk̷ladem Poissona z parametrem λ, którego estymator jest równy<br />
T n (E(k)) = ∑ i k i.<br />
7.6 POMIARY POŚREDNIE<br />
Jeżeli w doświadczeniu mierzymy wielkości X 1 , X 2 , .., X N a nastȩpnie wyliczamy wartość<br />
funkcji Y = Y(X 1 , X 2 , .., X N ) to tak¸a procedurȩ nazywamy pomiarem pośrednim.<br />
7.6.1 ESTYMATOR E(Y) POMIARU POŚREDNIEGO Y<br />
Estymatorem E(Y) jest wartość funkcji Y wyliczona <strong>dla</strong> argumentów, które s¸a estymatorami<br />
X 1 , X 2 , ..X N tzn. <strong>dla</strong> średnich arytmetycznych X 1 , X 2 , ..., X N :<br />
lub inaczej<br />
T n (E(Y(X 1 , X 2 , ..X N ))) = Y(X 1 , X 2 , ..., X N )<br />
E(Y(X 1 , X 2 , ..X N )) ≈ Y(X 1 , X 2 , ..., X N )
B.Kamys: Fiz. Komp. 2003/04 28<br />
7.6.2 B̷LA¸ D POMIARU POŚREDNIEGO<br />
Przy za̷lożeniu, że pomiary X 1 , X 2 , .., X N by̷ly wykonywane niezależnie odpowiednio<br />
n 1 , n 2 , .., n N razy, b̷l¸ad pomiaru pośredniego (b̷l¸ad średni kwadratowy) oszacowuje<br />
siȩ nastȩpuj¸aco:<br />
√<br />
∑ N<br />
σ(Y ) ≈ (@X @Y<br />
i=1 i<br />
) 2 X i =X · σ 2 (X i i )<br />
UWAGA:<br />
1. X 1 , X 2 , ..X N to różne wielkości a nie kolejne pomiary wielkości ”X”,<br />
2. Pochodne liczone wzglȩdem ’X i ’ to pochodne cz¸astkowe tzn. liczone przy za̷lożeniu,<br />
że pozosta̷le zmienne ’X j6=i’ s¸a ustalone,<br />
3. Zamiast wariancji zmiennej σ 2 (X i ) używa siȩ jej estymatora tzn. S 2 (X i )<br />
n i - krotnie mniejszego od estymatora S 2 (X i ).<br />
Jeżeli pomiary wielkości mierzonych bezpośrednio by̷ly wykonywane jednokrotnie to<br />
nie możemy oszacować b̷lȩdu średniego kwadratowego wielkości mierzonych bezpośrednio<br />
(z rozrzutu pomiarów) ani nie możemy oszacować b̷lȩdu średniego kwadratowego wielkości<br />
mierzonych pośrednio.<br />
Wtedy szacujemy tylko b̷l¸ad maksymalny !!!<br />
7.6.3 B̷LA¸ D MAKSYMALNY<br />
B̷l¸ad maksymalny pomiaru pośredniego liczymy wg poniższego wzoru, tzn.<br />
różniczki zupe̷lnej.<br />
metod¸a<br />
∆(Y ) ≈ N ∑<br />
i=1<br />
| @Y<br />
@X i<br />
| · ∆(X i )<br />
Tu modu̷ly pochodnych s¸a wyliczane <strong>dla</strong> jednokrotnie zmierzonych wielkości X i a<br />
symbol ∆(X i ) oznacza maksymalny b̷l¸ad tej wielkości mierzonej bezpośrednio.<br />
̷Latwo można pokazać , że b̷l¸ad obliczony metod¸a różniczki zupe̷lnej jest nie mniejszy<br />
od b̷lȩdu średniego kwadratowego.<br />
W odróżnieniu od b̷lȩdu średniego kwadratowego szacowanego wzorami podanymi<br />
powyżej b̷l¸ad maksymalny nie ma interpretacji statystycznej a wiȩc nie można<br />
go bezpośrednio wyrazić przez b̷l¸ad średni kwadratowy. Niekiedy jednak stosuje siȩ przepis<br />
wyznaczaj¸acy go jako potrojon¸a wartość odchylenia standardowego (czyli b̷lȩdu średniego<br />
kwadratowego). Przepis ten wykorzystuje omówion¸a wcześniej w̷lasność rozk̷ladu Gaussa,
B.Kamys: Fiz. Komp. 2003/04 29<br />
że w granicy ±3 · σ doko̷la wartości oczekiwanej leży 99,73 % wszystkich wartości zmiennej.<br />
Czȩsto interesuje nas zamiast bezwzglȩdnej wartości b̷lȩdu jego stosunek do wartości<br />
zmierzonej wielkości. Jest to tzw. b̷l¸ad wzglȩdny. Warto pamiȩtać, że w szczególnym<br />
przypadku gdy szukana wielkość f(X,Y,Z) zależy od mierzonych bezpośrednio wielkości w<br />
poniższy sposób:<br />
f(X, Y, Z) = X a · Y b · Z c<br />
gdzie a,b i c to sta̷le, ̷latwiej jest wyliczyć b̷l¸ad wzglȩdny niż bezwzglȩdny.<br />
W przypadku b̷lȩdu maksymalnego b̷l¸ad wzglȩdny z̷lożonej wielkości ”f”jest nastȩpuj¸ac¸a<br />
kombinacj¸a liniow¸a wzglȩdnych b̷lȩdów argumentów:<br />
∆(f)<br />
f<br />
=| a | · ∆(X)<br />
jXj + | b | · ∆(Y jYj ) + | c | · ∆(Z)<br />
jZj<br />
W przypadku b̷lȩdu średniego kwadratowego dostajemy analogiczny wzór:<br />
√<br />
(f)<br />
f = a 2 · ( (X)<br />
X )2 + b 2 · ( (Y Y<br />
)<br />
)2 + c 2 · ( (Z)<br />
Z )2<br />
Wzór ten czȩsto określa siȩ sformu̷lowaniem: ’wzglȩdne b̷lȩdy średnie kwadratowe dodaj¸a<br />
siȩ w kwadratach’. To sformu̷lowanie jest precyzyjne wtedy gdy wyk̷ladniki potȩg<br />
’a’,’b’,’c’, ... s¸a równe 1 (lub -1).
B.Kamys: Fiz. Komp. 2003/04 30<br />
8 ESTYMACJA PRZEDZIA̷LOWA<br />
Podstawy tej metody estymacji opracowa̷l polski statystyk Jerzy Sp̷lawa-Neyman (w literaturze<br />
zachodniej cytowany zwykle jako Neyman). Ide¸a metody jest tworzenie takiego<br />
przedzia̷lu liczbowego, o którym można powiedzieć, że z zadanym prawdopodobieństwem<br />
zawiera w sobie (przekrywa) wartość szacowanego parametru.<br />
Prawdopodobieństwo to nazywa siȩ poziomem ufności i standardowo oznaczane jest<br />
symbolem 1 − α . W tych notatkach zamiennie używane jest oznaczenie 1 − α oraz γ.<br />
Przedzia̷l nazywany jest przedzia̷lem ufności <strong>dla</strong> parametru θ jeżeli:<br />
♦ prawdopodobieństwo P( T (1)<br />
n<br />
≤ θ ≤T (2)<br />
n<br />
) = 1 - α ,<br />
♦ końce przedzia̷lu zależ¸a od wyników doświadczenia i od poziomu istotności a nie zależ¸a<br />
funkcyjnie od θ.<br />
UWAGA:<br />
• Poziom ufności 1 − α ≡ γ przyjmuje siȩ zwykle duży (np. 0,9) ale nie może być<br />
zbyt duży bo zwiȩkszanie poziomu ufności zwiȩksza d̷lugość przedzia̷lu ufności co<br />
powoduje, że tracona jest informacja o wartości oszacowanego parametru.<br />
• Poniższe rozważania s¸a s̷luszne przy za̷lożeniu, że wyniki pomiarów x i ,i=1,..n obarczone<br />
s¸a tylko b̷lȩdami przypadkowymi a wiȩc rz¸adzone s¸a rozk̷ladem normalnym<br />
N(E{x}, σ{x}).
B.Kamys: Fiz. Komp. 2003/04 31<br />
8.1 ESTYMACJA E{X} GDY ZNAMY σ{X}<br />
Jako statystykȩ testow¸a (zmienn¸a losow¸a zależn¸a od wyniku doświadczenia) bierzemy<br />
zmienn¸a z zdefiniowan¸a poniżej:<br />
z ≡<br />
¯x − E{¯x}<br />
σ{¯x}<br />
≡ (¯x − E{x})√ n<br />
σ{x}<br />
Ponieważ średnia arytmetyczna “¯x” ma rozk̷lad normalny wiȩc zmienna z, która jest<br />
standaryzowan¸a średni¸a arytmetyczn¸a, ma<br />
standardowy rozk̷lad normalny N(0,1).<br />
Szukamy takiego przedzia̷lu [z min , z max ], że:<br />
• P (z min ≤ z ≤ z max ) = γ<br />
• przedzia̷l ten po̷lożony jest tam, gdzie gȩstość prawdopodobieństwa f(z) jest najwiȩksza.<br />
Ponieważ rozk̷lad standardowy normalny jest symetryczny doko̷la zera i zero jest mod¸a<br />
rozk̷ladu (funkcja gȩstości ma maksimum) to widać, że przedzia̷l [z min , z max ] powinien<br />
być po̷lożony symetrycznie doko̷la z = 0:<br />
z max = −z min .<br />
Wiedz¸ac, że funkcja gȩstości prawdopodobieństwa jest unormowana do jedności (pole<br />
pod ca̷lym wykresem funkcji gȩstości jest równe jedności) oraz wiedz¸ac, że pole pod tym<br />
wykresem <strong>dla</strong> z leż¸acego w przedziale [z min , z max ] wynosi γ a przedzia̷l leży symetrycznie<br />
doko̷la z = 0 można brzegi przedzia̷lu wyrazić przez kwantyle z q rozk̷ladu N(0, 1) :<br />
z min = z 1<br />
<br />
2<br />
oraz z max = z 1+<br />
2<br />
Dodatkowo możemy skorzystać z faktu symetrii rozk̷ladu N(0, 1) doko̷la z = 0, który<br />
pozwala na wyrażenie obu kwantyli przez siebie:<br />
z 1 <br />
2<br />
= −z 1+<br />
2<br />
Dziȩki temu w tablicach podawane s¸a zwykle tylko kwantyle na dużym ( tj. 1+ ) lub 2<br />
na ma̷lym ( tj. 1 ) poziomie.<br />
2<br />
Zamiast korzystać z tablic można oczywiście wyliczać numerycznie kwantyle rozk̷ladu<br />
N(0, 1). Odpowiednie procedury <strong>dla</strong> liczenia kwantyli rozk̷ladu standardowego normalnego<br />
a także innych podstawowych rozk̷ladów statystyki, takich jak rozk̷lad chi-kwadrat,
B.Kamys: Fiz. Komp. 2003/04 32<br />
rozk̷lad Studenta czy też rozk̷lad Fishera-Snedecora można znaleźć np. w ksi¸ażce S.<br />
Brandta, “Analiza danych” , PWN 1998.<br />
Definicyjny wzór na zmienn¸a z pokazuje, że zmienna z i średnia arytmetyczna zwi¸azane s¸a<br />
monotoniczn¸a (liniow¸a) zależności¸a a wiȩc można jednoznacznie przedzia̷lowi [z min , z max ]<br />
przypisać przedzia̷l wartości zmiennej<br />
¯X − E{X} = σ{X} √ n<br />
z.<br />
co po prostym przekszta̷lceniu da przedzia̷l ufności na E{X}:<br />
(<br />
P (z min ≤ z ≤ z max ) ⇔ P ¯X − σ{X} √ z max ≤ E{X} ≤ ¯X − σ{X} )<br />
√ z min n n<br />
Trzeba pamiȩtać, że wartość oczekiwana jest konkretn¸a liczb¸a a nie zmienn¸a losow¸a.<br />
Zmiennymi s¸a końce przedzia̷lu bo s¸a funkcjami średniej arytmetycznej pomiarów.<br />
Inaczej mówi¸ac:<br />
Z prawdopodobieństwem γ przedzia̷l liczbowy wypisany<br />
powyżej przykrywa sob¸a wartość oczekiwan¸a E{X}.<br />
Wyrażaj¸ac z min i z max przez kwantyle standardowego rozk̷ladu normalnego dostajemy<br />
przedzia̷l ufności <strong>dla</strong> wartości oczekiwanej E{X} na poziomie ufności γ:<br />
¯X − σ{X} √ n<br />
U 1+<br />
2<br />
≤ E{X} ≤ ¯X − σ{X} √ U 1<br />
n<br />
<br />
2<br />
.<br />
lub<br />
¯X − σ{X} √ n<br />
z 1+<br />
2<br />
≤ E{X} ≤ ¯X + σ{X} √ n<br />
z 1+<br />
2<br />
lub<br />
¯X + σ{X} √ z 1<br />
n<br />
<br />
2<br />
≤ E{X} ≤ ¯X − σ{X} √ z 1<br />
n<br />
<br />
2<br />
S¸a to trzy równoważne formy, przy czym naj̷latwiej chyba zapamiȩtać drug¸a z nich:<br />
¯X − σ{X} √ n<br />
z 1+<br />
2<br />
≤ E{X} ≤ ¯X + σ{X} √ n<br />
z 1+<br />
2
B.Kamys: Fiz. Komp. 2003/04 33<br />
8.2 ESTYMACJA E{X} GDY NIE ZNAMY σ{X}<br />
Jako statystykȩ testow¸a bierzemy zmienn¸a “t” zdefiniowan¸a poniżej:<br />
t ≡<br />
¯x − E{¯x}<br />
S{¯x}<br />
≡ (¯x − E{x})√ n<br />
S{x}<br />
gdzie <strong>statystyka</strong><br />
1 n∑<br />
S{¯x} ≡ √<br />
(x i − ¯x) 2<br />
n(n − 1) i=1<br />
jest znanym nam estymatorem odchylenia standardowego średniej arytmetycznej “¯x” a<br />
“n” oznacza liczbȩ pomiarów w próbie.<br />
Można pokazać, że zmienna t ma rozk̷lad Studenta o (n-1) stopniach swobody.<br />
Ponieważ rozk̷lad Studenta jest bardzo podobny do standardowego rozk̷ladu normalnego<br />
wiȩc rozważania podane powyżej <strong>dla</strong> przypadku przedzia̷lu ufności <strong>dla</strong> E{X} gdy<br />
znane jest odchylenie standardowe pomiarów zachowuj¸a sw¸a prawdziwość i <strong>dla</strong> aktualnej<br />
sytuacji z tym, że kwantyle rozk̷ladu normalnego musz¸a być zamienione przez odpowiednie<br />
kwantyle rozk̷ladu Studenta a odchylenie standardowe zast¸apione przez jego estymator:<br />
¯X − S{X} √ n<br />
t 1+<br />
2<br />
≤ E{X} ≤ ¯X + S{X} √ n<br />
t 1+<br />
2<br />
Tu podana jest tylko jedna z trzech równoważnych postaci wzoru na przedzia̷l ufności<br />
ale oczywiście można również używać obu pozosta̷lych po odpowiednich modyfikacjach.<br />
UWAGA:<br />
Dla dużych prób (n > 20 ÷ 30) rozk̷lad Studenta upodabnia siȩ bardzo do rozk̷ladu<br />
standardowego normalnego i <strong>dla</strong> wiȩkszości praktycznych zastosowań można pos̷lugiwać<br />
siȩ kwantylami rozk̷ladu N(0, 1).
B.Kamys: Fiz. Komp. 2003/04 34<br />
8.3 ESTYMACJA PRZEDZIA̷LOWA var(X) i σ(X)<br />
Jako statystykȩ bierzemy zmienn¸a Y zdefiniowan¸a nastȩpuj¸aco:<br />
Y = (n − 1)S2 (X)<br />
σ 2 (X)<br />
gdzie “n” to liczba pomiarów w próbie, σ 2 (X) to wariancja X a S 2 (X) to estymator<br />
wariancji zmiennej X:<br />
S 2 (X) = 1 n∑<br />
(x i − ¯x) 2<br />
n − 1<br />
i=1<br />
Wielkość ta ma rozk̷lad chi-kwadrat o (n-1) stopniach swobody.<br />
Podobnie jak przy szukaniu przedzia̷lu ufności <strong>dla</strong> wartości oczekiwanej E{X} rozważa siȩ<br />
przedzia̷l najbardziej prawdopodobnych wartości zmiennej Y. Jednakże przedzia̷l ten nie<br />
jest symetryczny doko̷la mody bo rozk̷lad chi-kwadrat nie jest symetryczny.<br />
Dla jednoznacznego określenia przedzia̷lu ufności zak̷lada siȩ, że prawdopodobieństwo<br />
odchylenia wartości Y poza wybrany przedzia̷l w stronȩ dużych wartości jest takie samo<br />
jak prawdopodobieństwo odchylenia w stronȩ odwrotn¸a:<br />
P (Y < Y min ) = P (Y > Y max ) = 1 − γ<br />
2<br />
Za̷lożenie to pozwala jednoznacznie określić brzegi przedzia̷lu przez kwantyle rozk̷ladu<br />
chi-kwadrat :<br />
Y min = (χ 2 n 1 ) 1<br />
<br />
2<br />
i Y max = (χ 2 n 1 ) 1+<br />
2<br />
Kwantyle te nie s¸a równe i musz¸a być oba wyliczone lub znalezione z tablic.<br />
Relacja pomiȩdzy estymowanym parametrem, tj. wariancj¸a i statystyk¸a Y jest monotoniczn¸a<br />
funkcj¸a :<br />
σ 2 (X) = (n − 1).S2 (X)<br />
Y<br />
wiȩc prawdopodobieństwo trafienia statystyki do przedzia̷lu [Y min , Y max ] jest równe prawdopodobieństwu<br />
tego, że oszacowywana wariancja bȩdzie leża̷la w przedziale:<br />
(n − 1).S 2 (X)<br />
Y max<br />
≤ σ 2 (X) ≤ (n − 1).S2 (X)<br />
Y min<br />
,<br />
co powoduje, że ostatecznie przedzia̷l ufności <strong>dla</strong> wariancji na poziomie ufności γ to :
B.Kamys: Fiz. Komp. 2003/04 35<br />
(n − 1).S 2 (X)<br />
(χ 2 n 1 ) 1+<br />
2<br />
≤ σ 2 (X) ≤ (n − 1).S2 (X)<br />
(χ 2 n 1 ) 1 <br />
2<br />
Estymacja przedzia̷lowa odchylenia standardowego σ(X) może być przeprowadzona<br />
przez pierwiastkowanie granic przedzia̷lu ufności <strong>dla</strong> wariancji. Ten przedzia̷l liczbowy<br />
bȩdzie przedzia̷lem ufności <strong>dla</strong> odchylenia standardowego na tym samym poziomie ufności<br />
γ ≡ 1 − α co startowy przedzia̷l ufności <strong>dla</strong> wariancji. Dzieje siȩ tak <strong>dla</strong>tego, że pierwiastkowanie<br />
- relacja miȩdzy wariancj¸a i odchyleniem standardowym - jest monotoniczn¸a<br />
funkcj¸a.<br />
(n − √ 1).S2 (X)<br />
(χ 2 n 1 ) 1+<br />
2<br />
≤ σ(X) ≤<br />
(n − √ 1).S2 (X)<br />
(χ 2 n 1 ) 1 <br />
2
B.Kamys: Fiz. Komp. 2003/04 36<br />
9 METODY SZUKANIA ESTYMATORÓW<br />
Omówimy poniżej trzy najczȩściej stosowane ogólne metody poszukiwania estymatorów<br />
parametrów zapewniaj¸ace otrzymanie estymatorów o poż¸adanych w̷lasnościach. S¸a to:<br />
• Metoda momentów<br />
• Metoda najwiȩkszej wiarygodności<br />
• Metoda najmniejszych kwadratów<br />
Każda z nich ma swoje zalety i wady. W ogólnym przypadku zalecana jest metoda najwiȩkszej<br />
wiarygodności ale w przypadku szukania parametrów regresji najbardziej popularn¸a<br />
jest metoda najmniejszych kwadratów. Z kolei metoda momentów może być bardzo<br />
wygodna w niektórych przypadkach przedyskutowanych poniżej.<br />
9.1 METODA MOMENTÓW (“MM”)<br />
Metoda momentów zaproponowana zosta̷la przez K. Pearsona na prze̷lomie XIX i XX<br />
wieku.<br />
Idea metody: Szukamy estymatorów parametrów θ 1; θ 2;::: θ k określaj¸acych ca̷lkowicie<br />
dystrybuantȩ zmiennej losowej X postȩpuj¸ac w poniższy sposób:<br />
• Znajdujemy zwi¸azki pomiȩdzy parametrami a momentami rozk̷ladu.<br />
• Wyliczamy estymatory momentów T n (m i (0)) ≡ M i wg wzoru:<br />
M i = 1 n∑<br />
[x j ] i<br />
nj=1<br />
• Wstawiamy powyższe estymatory momentów do wzorów wi¸aż¸acych oszacowywane<br />
parametry z momentami.<br />
• Rozwi¸azujemy uk̷lad równań na parametry θ 1; θ 2;::: θ k wyrażaj¸ac je przez estymatory<br />
momentów M i , i=1,..,k . Te rozwi¸azania s¸a estymatorami odpowiednich<br />
parametrów T n (θ i ) , i=1,...,k , optymalnymi w sensie metody momentów.
B.Kamys: Fiz. Komp. 2003/04 37<br />
PRZYK̷LAD:<br />
Szukamy estymatorów parametrów θ 1; (θ 2 ) 2 rozk̷ladu Gaussa:<br />
f(x) = 1 √ exp{− (x − θ 1) 2<br />
}<br />
2πθ<br />
2<br />
2<br />
2θ 2 2<br />
Znamy zwi¸azki pomiȩdzy parametrami i momentami rozk̷ladu:<br />
θ 1 =E{x} ≡ m 1 (0)<br />
(θ 2 ) 2 = var{x} = E{x 2 } − (E{x}) 2 ≡ m 2 (0) − (m 1 (0)) 2<br />
Liczymy estymatory momentów:<br />
T n (m 1 (0)) ≡ M 1 = 1 n∑<br />
x i<br />
ni=1<br />
T n (m 2 (0)) ≡ M 2 = 1 n∑<br />
x 2 i<br />
ni=1<br />
Z pierwszego równania po wstawieniu średniej arytmetycznej zamiast E{x}<br />
dostajemy:<br />
T n (θ 1 ) = 1 n∑<br />
x i<br />
ni=1<br />
Z drugiego równania (zastȩpuj¸ac momenty ich estymatorami) dostajemy:<br />
( )<br />
T n (θ 2 2 ) = n<br />
1 n∑<br />
x 2 i − 1<br />
n∑ 2<br />
n x i =<br />
i=1 i=1<br />
= n<br />
1 n∑<br />
x 2 i − 2¯x2 + ¯x 2 =<br />
i=1<br />
( )<br />
= n<br />
1 n∑<br />
x 2 i − 2¯x. 1<br />
n∑<br />
n x i +<br />
i=1<br />
i=1<br />
= n<br />
1 n∑ (<br />
x<br />
2<br />
i − 2¯x.x i + ¯x 2) =<br />
= 1 n<br />
i=1<br />
n∑<br />
i=1<br />
(x i − ¯x) 2<br />
(<br />
1<br />
n<br />
n∑<br />
i=1<br />
¯x 2 )<br />
=
B.Kamys: Fiz. Komp. 2003/04 38<br />
(w drugim wierszu dodany i odjȩty kwadrat średniej arytmetycznej, w trzecim kwadrat<br />
średniej zapisany jako n-ta czȩść sumy kwadratów średniej a dalej to tylko zwijanie<br />
kwadratu różnicy).<br />
Otrzymujemy wiȩc znany nam estymator s 2 (x) jako najlepszy w sensie metody momentów<br />
estymator wariancji θ 2 2 :<br />
T n (θ 2 2 ) = 1 n∑<br />
(x i − ¯x) 2 ≡ s 2 (x)<br />
ni=1<br />
W̷lasności estymatorów metody momentów:<br />
Estymatory s¸a:<br />
• asymptotycznie nieobci¸ażone (lub nieobci¸ażone)<br />
• zgodne<br />
Wady metody momentów:<br />
• Uk̷lad równań na estymatory parametrów θ jest zwykle nieliniowy co powoduje,<br />
że musimy znajdować rozwi¸azania numerycznie i dodatkowo utrudnia oszacowanie<br />
b̷lȩdów estymatorów.<br />
• Estymatory metody momentów s¸a zwykle mniej efektywne (tzn. maj¸a wiȩksz¸a wariancjȩ)<br />
niż estymatory znalezione innymi metodami a w szczególności metod¸a najwiȩkszej<br />
wiarygodności.<br />
• Wyznaczanie wyższych momentów z doświadczenia jest ma̷lo dok̷ladne co rzutuje<br />
na dok̷ladność estymatorów parametrów.<br />
Optymalna sytuacja <strong>dla</strong> metody momentów:<br />
Zachodzi ona wtedy, gdy szukane parametry wystȩpuj¸a jako wspó̷lczynniki rozwiniȩcia<br />
funkcji gȩstości prawdopodobieństwa na ortonormalny zespó̷l funkcji g k (x), k = 1, .., r:<br />
f(x, θ) ⃗ r∑<br />
= const + θ k g k (x)<br />
k=1
B.Kamys: Fiz. Komp. 2003/04 39<br />
gdzie “const” jest sta̷l¸a normalizacyjn¸a a funkcje g k spe̷lniaj¸a relacje:<br />
∫<br />
dx g k (x) g j (x) = δ kj<br />
oraz<br />
∫<br />
dx g k (x) = 0.<br />
Wtedy możemy napisać nastȩpuj¸aco wzór na wartość oczekiwan¸a funkcji g j (x):<br />
E{g j (x)} = ∫ dx g j (x) f(x, ⃗ θ) =<br />
= ∫ dx const g j (x) + r ∑<br />
= 0 + θ j<br />
k=1<br />
θ k<br />
∫ dx gk (x) g j (x) =<br />
Wynika st¸ad, że szukanie estymatora parametru θ j sprowadza siȩ do znalezienia estymatora<br />
wartości oczekiwanej funkcji g j (x). Zgodnie z zasad¸a metody momentów estymatorem<br />
tym jest średnia arytmetyczna:<br />
T n (θ j ) = 1 n∑<br />
g j (x i )<br />
ni=1<br />
Wiemy, że średnia arytmetyczna jest zgodnym i nieobci¸ażonym estymatorem. Co wiȩcej,<br />
wiemy z centralnego twierdzenia granicznego , że asymptotyczny rozk̷lad takiej zmiennej<br />
jest rozk̷ladem normalnym a wiȩc znamy również przepis na estymator wariancji tego<br />
estymatora. Takim nieobci¸ażonym i zgodnym estymatorem jest S 2 (¯x), gdzie zamiast<br />
“x i ” bierzemy funkcjȩ g j (x i ) a zamiast ¯x bierzemy estymator T n (θ j ):<br />
S 2 (T n (θ j )) =<br />
1 n∑<br />
[g j (x i ) − T n (θ j )] 2<br />
n(n − 1) i=1
B.Kamys: Fiz. Komp. 2003/04 40<br />
9.2 METODA NAJWIȨKSZEJ WIARYGODNOŚCI (“MNW”)<br />
Metoda najwiȩkszej wiarygodności zaproponowana zosta̷la przez R.A. Fishera w 1921<br />
roku.<br />
Idea metody:<br />
Zawiera siȩ w za̷lożeniu, że zaobserwowane w próbie wyniki s¸a najbardziej prawdopodobne<br />
spośród wszystkich możliwych.<br />
• Szukamy prawdopodobieństwa tego, że próba bȩdzie taka jak¸a zaobserwowaliśmy<br />
jeżeli parametry ⃗ θ przyjmuj¸a konkretn¸a wartość ⃗ θ 0 .<br />
Jeżeli próba jest prosta, tzn. pomiary x i , i = 1, .., n s¸a niezależne to szukane<br />
prawdopodobieństwo próby równe jest iloczynowi prawdopodobieństw warunkowych<br />
poszczególnych pomiarów. Dla zmiennej ci¸ag̷lej X możemy opuścić iloczyn różniczek<br />
dx 1 ...dx n i zapisać jedynie iloczyn gȩstości prawdopodobieństw:<br />
L( θ ⃗ n∏ ∣ ∣∣ 0 ) = f(x i θ0 ⃗ ).<br />
i=1<br />
To prawdopodobieństwo (<strong>dla</strong> zmiennej dyskretnej) lub gȩstość prawdopodobieństwa<br />
(<strong>dla</strong> zmiennej ci¸ag̷lej) możemy potraktować jako funkcjȩ szukanych parametrów.<br />
Funkcjȩ tȩ nazywamy funkcj¸a wiarygodności.<br />
• Znajdujemy tak¸a wartość parametrów ⃗ θ , która zapewnia maksimum funkcji wiarygodności:<br />
L(⃗θ) = max .<br />
Te dwa warunki s̷luż¸a jako przepis na szukanie optymalnych w sensie metody najwiȩkszej<br />
wiarygodności estymatorów.<br />
Ponieważ szukanie maksimum funkcji wiarygodności wymaga zwykle różniczkowania<br />
po parametrach wiȩc bȩdziemy mieć do czynienia z różniczkowaniem iloczynu co<br />
prowadzi do dość skomplikowanych rachunków. Aby u̷latwić różniczkowanie standardowo<br />
zamienia siȩ funkcjȩ wiarygodności przez jej logarytm co powoduje, że zamiast<br />
różniczkowania iloczynu należy różniczkować sumȩ a po̷lożenie maksimum w przestrzeni<br />
parametrów jest takie samo gdyż logarytm jest funkcj¸a monotoniczn¸a oraz<br />
∂ ln(L)<br />
∂θ i<br />
≡<br />
( ) @L<br />
@ i<br />
L<br />
ma taki sam znak jak<br />
∂L<br />
∂θ i<br />
(L jest wiȩksze od zera ).<br />
Logarytm z funkcji wiarygodności oznaczany jest zwykle przez ma̷l¸a literȩ l.
B.Kamys: Fiz. Komp. 2003/04 41<br />
l ≡ ln(L)<br />
(chociaż stosuje siȩ również oznaczenie przez duże L) i nazywany jest “logarytmiczn¸a<br />
funkcj¸a wiarygodności” a czasem również “funkcj¸a wiarygodności”.<br />
PRZYK̷LAD:<br />
Dla rozk̷ladu normalnego N(θ 1 ,θ 2 ) :<br />
wiȩc funkcja wiarygodności:<br />
f(x) =<br />
L(θ 1 , θ 2 ) =<br />
1<br />
√<br />
2π θ2<br />
exp<br />
1<br />
(2π) n 2 θ n 2<br />
a logarytmiczna funkcja wiarygodności:<br />
{− (x − θ 1) 2 }<br />
2θ 2 2<br />
{<br />
exp − 1<br />
}<br />
n∑<br />
(x i − θ<br />
2θ2<br />
2 1 ) 2<br />
i=1<br />
l = −n ln((2π) 1 2 ) − n ln(θ2 ) − 1 n∑<br />
(x i −θ<br />
2θ2<br />
2 1 ) 2<br />
i=1<br />
Różniczkuj¸ac po parametrach dostajemy uk̷lad równań na parametry:<br />
⎧<br />
⎪⎨<br />
⎪⎩<br />
@l<br />
@ 1<br />
= 1<br />
n∑<br />
2<br />
2 i=1<br />
@l<br />
@ 2<br />
= − n 2<br />
+ 1<br />
(x i − θ 1 ) = 0<br />
n∑<br />
(x i − θ 1 ) 2 = 0<br />
2<br />
3 i=1<br />
Rozwi¸azanie pierwszego równania daje estymator T n (θ 1 ):<br />
T n (θ 1 ) = 1 n∑<br />
x i<br />
ni=1<br />
czyli średni¸a arytmetyczn¸a ¯x, a przekszta̷lcaj¸ac drugie równanie można napisać tak:<br />
czyli<br />
n = 1 n∑<br />
(x i − T n (θ<br />
θ2<br />
2 1 ) 2<br />
i=1<br />
T n (θ 2 2 ) = 1 n∑<br />
(x i − ¯x) 2<br />
ni=1
B.Kamys: Fiz. Komp. 2003/04 42<br />
a to jest znany nam estymator wariancji zmiennej x oznaczany symbolem s 2 (x).<br />
Jak widać metoda najwiȩkszej wiarygodności da̷la w tym przypadku dok̷ladnie te same<br />
estymatory co metoda momentów.<br />
Zanim podamy w̷lasności estymatorów MNW wprowadzimy definicjȩ rozk̷ladu regularnego<br />
i estymatorów regularnych.<br />
Mówimy, że rozk̷lad f(X, θ) jest rozk̷ladem regularnym gdy ca̷lkowanie wzglȩdem x i<br />
różniczkowanie wzglȩdem θ s¸a przemienne i istniej¸a wyrażenia:<br />
oraz<br />
+1<br />
@ 2<br />
@ 2<br />
≡ +1<br />
+1<br />
@ ∫ +1<br />
@f(xj)<br />
@ dx f(x|θ) = dx<br />
1<br />
∫1 +1<br />
@<br />
@ ln f(xj)<br />
≡ dx f(x|θ)<br />
∫1<br />
@<br />
≡ E { @ ln f(xj)<br />
@<br />
+1<br />
dx f(x|θ) =<br />
∫1 dx @2 f(xj)<br />
@ 2<br />
+1<br />
@ + 2<br />
∫<br />
1<br />
∫1 dx f(x|θ) @2 ln f(xj)<br />
≡ E { @ 2 ln f(xj)<br />
@ 2<br />
}<br />
}<br />
+ E<br />
{ [@ ln f(xj)<br />
@<br />
∫1 dx ] f(x|θ)[ @ 2 ln f(xj)<br />
@ ≡<br />
] } 2<br />
Estymator parametru θ rozk̷ladu regularnego nazywamy estymatorem regularnym.<br />
Gdy zmienna X jest dyskretna to w powyższych wzorach należy funkcje gȩstości prawdopodobieństwa<br />
zast¸apić prawdopodobieństwem i ca̷lki sumami.<br />
UWAGA:<br />
+1 ∫<br />
Ze wzglȩdu na warunek normalizacji gȩstości prawdopodobieństwa dx f(x|θ) = 1<br />
oba wyrażenia wypisane w definicji rozk̷ladu regularnego s¸a równe zero.<br />
1<br />
TWIERDZENIE<br />
Jeżeli funkcja gȩstości prawdopodobieństwa f(X|θ) (lub rozk̷lad prawdopodobieństwa<br />
p(X|θ) ) s¸a rozk̷ladami regularnymi i parametr θ jest szacowany na podstawie próby<br />
prostej to estymator T n (θ) otrzymany przy pomocy MNW ma <strong>dla</strong> rozmiarów próby<br />
“n” d¸aż¸acych do nieskończoności nastȩpuj¸ace w̷lasności:<br />
• jest zgodny<br />
• jego asymptotyczny rozk̷lad jest normalny
B.Kamys: Fiz. Komp. 2003/04 43<br />
– z wartości¸a oczekiwan¸a E{T n (θ)}=θ<br />
[<br />
+1<br />
]<br />
– i wariancj¸a σ 2 ∫ ( ) 1<br />
(T n (θ))=− n @ ln f(Xj) 2<br />
@ f(X|θ) dX<br />
1<br />
Można pokazać (jest to treści¸a tzw. nierówności Cramera-Rao), że wyrażenie powyższe<br />
jest doln¸a granic¸a wariancji <strong>dla</strong> nieobci¸ażonego estymatora regularnego a<br />
wiȩc<br />
MNW daje estymatory:<br />
- zgodne,<br />
- asymptotycznie nieobci¸ażone,<br />
- asymptotycznie najbardziej efektywne<br />
Dla skończonych rozmiarów próby i regularnych rozk̷ladów MNW daje estymatory<br />
zgodne ale mog¸a być one obci¸ażone i mog¸a nie być najbardziej efektywne. O ich<br />
efektywności można wnioskować na podstawie twierdzenia Cramera-Rao zwanego również<br />
nierówności¸a informacyjn¸a:<br />
TWIERDZENIE Cramera-Rao:<br />
Wariancja regularnego estymatora T n (θ) spe̷lnia nierówność<br />
σ 2 (T n (θ)) ≥<br />
{<br />
1 + ∂B(θ)<br />
∂θ<br />
} ⎡ ⎢ ⎣n<br />
+1 ∫<br />
1<br />
⎤<br />
( ) ∂ ln f(X|θ) 2<br />
⎥<br />
f(X|θ) dX ⎦<br />
∂θ<br />
1<br />
gdzie<br />
B(θ) ≡ E{T n (θ)} − θ<br />
jest obci¸ażeniem estymatora.<br />
Wyrażenie w nawiasie kwadratowym nazywane jest informacj¸a o parametrze θ zawart¸a<br />
w próbie (R.A. Fisher) - st¸ad nazwa nierówności.<br />
Wyrażenie to zosta̷lo tak nazwane gdyż posiada w̷lasności, których wymagamy od informacji:<br />
• zwiȩksza siȩ wraz z liczb¸a obserwacji,<br />
• zależy od tego czego chcemy siȩ dowiedzieć (od parametru θ i jego zwi¸azku z mierzonymi<br />
wielkościami),<br />
• zwi¸azana jest z dok̷ladności¸a (im wiȩksza informacja tym lepsza dok̷ladność określenia<br />
wartości parametru)
B.Kamys: Fiz. Komp. 2003/04 44<br />
TWIERDZENIE<br />
Minimaln¸a wariancjȩ estymatora regularnego (równość w twierdzeniu Cramera-Rao)<br />
T n (τ (θ)) pewnej funkcji τ (θ) interesuj¸acego nas parametru θ :<br />
( )<br />
@ ()<br />
σ 2 (T n (τ (θ)) =<br />
@<br />
∣ F (θ) ∣<br />
uzyskuje siȩ <strong>dla</strong> skończonych rozmiarów próby “n” wtedy gdy pochodna cz¸astkowa<br />
funkcji wiarygodności spe̷lnia nastȩpuj¸ac¸a relacjȩ:<br />
∂ ln L<br />
∂θ<br />
= F (θ) ( T n (τ (θ)) − τ (θ))<br />
gdzie F(θ) jest pewn¸a funkcj¸a parametru θ ale nie zależy od pomiarów ⃗x.<br />
○<br />
Funkcja wiarygodności ma wtedy nastȩpuj¸ac¸a postać:<br />
L(⃗x|θ ) = exp { A(θ) B(⃗x) + C(⃗x) + D(θ) }<br />
gdzie “A” i “D” s¸a funkcjami θ (A jest ca̷lk¸a po dθ z F (θ) ) a “B” i “C” s¸a funkcjami<br />
zespo̷lu pomiarów (próby).<br />
Porównuj¸ac wzór na wariancjȩ estymatora T n (τ (θ)) z nierówności¸a Cramera-Rao<br />
widać natychmiast, że:<br />
• F (θ) to informacja z próby o funkcji τ (θ),<br />
• gdy τ (θ)=θ to wariancja wynosi 1/F (θ),<br />
• istnieje tylko jedna funkcja parametru θ , <strong>dla</strong> której osi¸agana jest minimalna wariancja<br />
estymatora określona nierówności¸a Cramera-Rao czyli taka funkcja T n (τ (θ))<br />
od której liniowo zależy pochodna po parametrze θ z logarytmicznej funkcji wiarygodności.<br />
PRZYK̷LAD: Jeżeli parametrem θ jest odchylenie standardowe rozk̷ladu normalnego<br />
σ(x) to tylko estymator wariancji σ 2 (x) , tzn. estymator s 2 (x) ma minimaln¸a wariancjȩ<br />
a estymator s(x) już tej w̷lasności nie posiada. Widać to ze wzoru wyprowadzonego w<br />
przyk̷ladzie zastosowania MNW:<br />
∂l<br />
= − n + 1 n∑<br />
(x i − θ<br />
∂θ 2 θ 2 θ2<br />
3 1 ) 2 = 0<br />
i=1<br />
Pochodna po θ 2 jest liniowo zwi¸azana z funkcj¸a s 2 (x) ≡ n<br />
1 n∑<br />
(x i − θ 1 ) 2 a nie z<br />
i=1<br />
estymatorem odchylenia standardowego s(x), który jest pierwiastkiem z tego wyrażenia.
B.Kamys: Fiz. Komp. 2003/04 45<br />
9.3 METODA NAJMNIEJSZYCH KWADRATÓW (“MNK”)<br />
Za autora metody najmniejszych kwadratów uważa siȩ K. Gaussa.<br />
Idea metody:<br />
Szukamy estymatora T n (θ) parametru θ wystȩpuj¸acego we wzorze:<br />
g(Y, θ) = 0,<br />
który może być ściśle spe̷lniony tylko w wyidealizowanym przypadku, gdy mierzone doświadczalnie<br />
wielkosci Y i nie s¸a obarczone b̷lȩdami. W obecności b̷lȩdów tak dobieramy parametr θ<br />
(może być ich wiȩcej) aby funkcja “g” zbliży̷la siȩ do zera tak bardzo jak to tylko jest<br />
możliwe, tj. ż¸adamy spe̷lnienia warunku:<br />
n∑<br />
i=1<br />
[g(Y i , θ)] 2 = min <br />
a w najogólniejszym przypadku (w̷l¸aczaj¸ac wagi pomiarów “w i ”) warunku:<br />
n∑<br />
i=1<br />
w i· [g(Y i , θ)] 2 = min .<br />
<br />
PRZYK̷LAD:<br />
Szukamy prawdziwej wartości wielkości Y mierzonej bezpośrednio. Gdyby nie by̷lo blȩdów<br />
wówczas:<br />
albo inaczej<br />
θ = Y<br />
g(Y |θ) ≡ Y − θ = 0.<br />
W obecności b̷lȩdów,funkcja g(Y |θ) bȩdzie zwykle różna od zera ale MNK podaje przepis<br />
jak znaleźć estymator T n (θ):<br />
n∑<br />
n∑<br />
[g(Y i |θ)] 2 ≡<br />
i=1<br />
i=1<br />
[Y i − θ] 2 = min <br />
Aby znaleźć minimum powyższej funkcji ze wzglȩdu na θ należy przyrównać do zera<br />
pochodn¸a tej funkcji wzglȩdem θ:<br />
n∑<br />
−2 [Y i − θ] = 0<br />
i=1<br />
a wiȩc dostajemy znany nam przepis na estymator wartości oczekiwanej:
B.Kamys: Fiz. Komp. 2003/04 46<br />
T n (θ) = 1 n∑<br />
Y i<br />
n i=1<br />
W̷lasności estymatorów MNK<br />
Estymatory otrzymane MNK nie maj¸a w ogólnym przypadku optymalnych w̷lasności<br />
(nawet asymptotycznie)! Istniej¸a jednak dwa ważne wyj¸atki od tej regu̷ly:<br />
1.) Pomiary Y i maj¸a rozk̷lad normalny i s¸a nieskorelowane,<br />
2.) Szukane parametry s¸a wspó̷lczynnikami w liniowej funkcji regresji.<br />
ad 1. Pomiary maj¸a rozk̷lad normalny i s¸a nieskorelowane Odpowiada to sytuacji,<br />
w której zmienna Y może być przedstawiona nastȩpuj¸aco:<br />
Y i = h(X i , ⃗ θ) + ε<br />
gdzie ε to b̷l¸ad przypadkowy.<br />
Wtedy funkcja wiarygodności ma nastȩpuj¸ac¸a postać:<br />
L(Y 1 , .., Y n |⃗θ) =<br />
n∏<br />
i=1<br />
a logarytmiczna funkcja wiarygodności:<br />
⎧ (<br />
1<br />
⎪⎨ Yi<br />
√ exp<br />
2πσi ⎪⎩ − − h(X i , ⃗θ) ) ⎫<br />
2<br />
⎪⎬<br />
2σi<br />
2 ⎪⎭<br />
(<br />
Yi − h(X i , ⃗ θ) ) 2<br />
l(Y 1 , .., Y n | θ) ⃗ = − 1 2 n ln ( ) ∑ n<br />
2πσi<br />
2 −<br />
i=1<br />
2σ 2 i<br />
Funkcja ta bȩdzie mia̷la maksimum (ujemne !) gdy suma kwadratów bȩdzie najmniejsza.<br />
A wiȩc metoda najmniejszych kwadratów jest wtedy równoważna metodzie<br />
najwiȩkszej wiarygodności, która zapewnia optymalnośc otrzymywanych estymatorów.<br />
ad 2. Funkcja regresji jest liniowa ze wzglȩdu na szukane parametry Zmienna<br />
Y zależy wtedy od zmiennej X w nastȩpuj¸acy sposób:<br />
k∑<br />
Y i = θ j · f j (X i )<br />
j=1
B.Kamys: Fiz. Komp. 2003/04 47<br />
gdzie f j (X) jest dowoln¸a funkcj¸a.<br />
Markow udowodni̷l, że w takiej sytuacji estymatory parametrów posiadaj¸a bardzo<br />
dobre w̷lasności:<br />
• s¸a nieobci¸ażone<br />
• s¸a najbardziej efektywne<br />
• s¸a liniowymi funkcjami pomiarów Y 1 , ..., Y n .<br />
Te w̷lasności nie zależ¸a od rozk̷ladu zmiennej Y i spe̷lnione s¸a nawet<br />
<strong>dla</strong> niewielkich prób.<br />
Linowy (ze wzglȩdu na parametry) model funkcji regresji jest bardzo czȩsto stosowany<br />
w praktyce, ponieważ obok optymalnych w̷lasności estymatorów parametrów zapewnia<br />
możliwość ścis̷lego rozwi¸azania równań określaj¸acych estymatory parametrów a wiȩc możliwość<br />
znalezienia jawnych wzorów na estymatory. Tego prawie nigdy nie da siȩ zrobić w przypadku<br />
pierwszym, tzn. gdy zależność od parametrów jest nieliniowa. Zapiszemy warunek<br />
metody najmniejszych kwadratów macierzowo stosuj¸ac nastȩpuj¸ace oznaczenia:<br />
A ij ≡ f j (x i ) i = 1, .., n j = 1, .., r<br />
B ij i = 1, .., n j = 1, .., n<br />
Y i i = 1, .., n<br />
θ i i = 1, .., r<br />
gdzie A ij to macierz wartości funkcji f j (x i ), B i;j to macierz wag zwykle brana jako<br />
odwrócona macierz kowariancji pomiarów {cov(y i ,y j )} 1 , Y i - wektor pomiarów, θ i -<br />
wektor parametrów. Wtedy minimalizowana suma kwadratów może być zapisana w taki<br />
sposób:<br />
Q 2 = (⃗Y − A · ⃗θ) T · B · (⃗Y − A · ⃗θ)<br />
a pochodne wzglȩdem parametrów nastȩpuj¸aco (i=1,...,r):<br />
∂Q 2<br />
∂θ i<br />
= { −2A T · B · (⃗Y − A · ⃗θ) } i = 0·<br />
Zespó̷l r powyższych równań można zapisać macierzowo i rozwi¸azać formalnie:<br />
A T · B · (⃗Y − A · ⃗θ) = 0<br />
A T · B · ⃗Y = A T · B · A · ⃗θ<br />
a mnoż¸ac lewostronnie przez macierz odwrotn¸a do A T BA, dostaniemy estymatory<br />
parametrów liniowej funkcji regresji :<br />
T n ( ⃗ θ) = [ A T · B · A ]<br />
1<br />
A<br />
T · B · ⃗Y
B.Kamys: Fiz. Komp. 2003/04 48<br />
Jest to dok̷ladne i jedyne rozwi¸azanie (pod warunkiem, że macierz A T BA jest nieosobliwa)<br />
Z powyższego wzoru widać, że estymatory parametrów s¸a liniowymi funkcjami wartości<br />
pomiarów Y 1 , ..., Y n co pozwala ściśle wyrazić macierz kowariancji estymatorów parametrów<br />
(a wiȩc i ich b̷lȩdy) przez macierz kowariancji pomiarów C(⃗Y ) stosuj¸ac wzór wyprowadzony<br />
<strong>dla</strong> “propagacji b̷lȩdów”. Gdy przyjmiemy macierz wag B jako macierz odwrotn¸a do<br />
C(⃗Y ) to uzyskamy wyj¸atkowo prost¸a formȩ macierzy kowariancji estymatorów parametrów.<br />
C(T n ( ⃗ θ)) =<br />
=<br />
{ [A ] }<br />
{<br />
T 1 [A ]<br />
BA A<br />
T B · C(⃗Y ) ·<br />
T 1<br />
BA A<br />
T } T<br />
B<br />
{ [A ] } {<br />
T 1 [A ]<br />
BA A<br />
T B · B 1 ·<br />
T 1<br />
BA A<br />
T } T<br />
B<br />
= [ A T BA ] 1<br />
A<br />
T · BB 1 · B T ( [A ]<br />
A<br />
T ) 1 T<br />
BA<br />
= [ A T BA ] 1 [ ] ( [A<br />
· A<br />
T BA ·<br />
T ] T ) 1<br />
BA<br />
= ([ A T BA ]) 1<br />
= [ A T C(⃗Y ) 1 A ] 1<br />
Ostatecznie macierz kowariancji estymatorów parametrów :<br />
C(T n ( ⃗ θ)) = [ A T C(⃗Y ) 1 A ] 1<br />
Warto zauważyć, że<br />
• Ten wynik jest ścis̷ly<br />
• Powyższa macierz jest wyliczana <strong>dla</strong> znalezienia estymatorów parametrów bo to jest<br />
macierz {A T BA} 1 wystȩpuj¸aca we wzorze na estymatory.<br />
• Mimo, że wzór jest ścis̷ly i prosty to jego wyliczenie czȩsto napotyka na trudności<br />
numeryczne gdyż procedura odwracania macierzy {A T BA} 1 jest źle uwarunkowana<br />
numerycznie (ma̷le zaokr¸aglenia rachunków mog¸a powodować wielkie zmiany<br />
wyników). Dlatego nieco później omówimy metodȩ pozwalaj¸ac¸a na unikniȩcie tego<br />
problemu przez zastosowanie wielomianów ortogonalnych na zbiorze punktów.
B.Kamys: Fiz. Komp. 2003/04 49<br />
10 WIELOWYMIAROWE (WEKTOROWE) ZMI-<br />
ENNE LOSOWE<br />
Wielowymiarowa zmienna losowa definiowana jest analogicznie jak jednowymiarowa<br />
(skalarna), tzn. można j¸a traktować jako wektor, którego sk̷ladowe s¸a jednowymiarowymi<br />
zmiennymi losowymi.<br />
Dystrybuanta :<br />
F (x 1 , .., x N ) = P (X 1 < x 1 , ..., X N < x N )<br />
Funkcja gȩstości prawdopodobieństwa:<br />
f(x 1 , ..., x N ).dx 1 ...dx N = P (x 1 ≤ X 1 < x 1 + dx 1 , ..., x N ≤ X N < x N + dx N )<br />
Oprócz funkcji gȩstości prawdopodobieństwa <strong>dla</strong> ca̷lego wektora losowego (X 1 , .., X N )<br />
można zdefiniować jeszcze :<br />
• Rozk̷lad brzegowy gȩstości prawdopodobieństwa i<br />
• Rozk̷lad warunkowy gȩstości prawdopodobieństwa.<br />
Brzegowy rozk̷lad gȩstości prawdopodobieństwa<br />
zmiennej X i ( i – tej sk̷ladowej wektora losowego) to wynik wyca̷lkowania funkcji gȩstości<br />
prawdopodobieństwa <strong>dla</strong> ca̷lej wielowymiarowej zmiennej po wszystkich sk̷ladowych z<br />
wyj¸atkiem X i :<br />
∫<br />
g(X i ) =<br />
dx 1 ..dx i 1 .dx i+1 ...dx N .f(x 1 , ..., x N )<br />
Oczywiście można stworzyć rozk̷lady brzegowe <strong>dla</strong> dwuwymiarowych zmiennych (jeżeli<br />
N > 2) ca̷lkuj¸ac po wszystkich zmiennych z wyj¸atkiem tych dwu wybranych,rozk̷lad<br />
brzegowy <strong>dla</strong> trzywymiarowych (jeżeli N > 3) ca̷lkuj¸ac po wszystkich z wyj¸atkiem tych<br />
trzech zmiennych, itd. .
B.Kamys: Fiz. Komp. 2003/04 50<br />
Rozk̷lad warunkowy “f w ” zmiennych (X 1 , .., X i ) pod warunkiem, że zmienne (X i+1 , .., X N )<br />
przyjmuj¸a wartość w nieskończenie ma̷lym przedziale (x i+1 ≤ X i+1 < x i+1 , .., x N ≤<br />
X N < x N ) definiowany jest nastȩpuj¸aco:<br />
f w (x 1 , .., x i |x i+1 , .., x N ) = f(x 1, .., x N )<br />
f b (x i+1 , .., x N )<br />
Rozk̷lad ten nie jest określony, gdy rozk̷lad brzegowy wystȩpuj¸acy w mianowniku zeruje<br />
siȩ. Wskaźniki “w” i “b” zosta̷ly użyte w tym wzorze aby podkreślić, że postać funkcyjna<br />
tych rozk̷ladów jest w ogólności inna niż rozk̷ladu f(x 1 , .., x N ).<br />
Rozk̷lad warunkowy można tworzyć <strong>dla</strong> różnych zespo̷lów sk̷ladowych wektora losowego,<br />
np. moglibyśmy zdefiniować rozk̷lad warunkowy pojedynczej zmiennej “X N ” pod warunkiem,<br />
że pozosta̷le zmienne przyjmuj¸a określone wartości.<br />
Rozk̷lad prawdopodobieństwa wielowymiarowej dyskretnej zmiennej losowej jest<br />
oczywistym uogólnieniem rozk̷ladu jednowymiarowego, a brzegowy rozk̷lad prawdopodobieństwa<br />
i warunkowy rozk̷lad prawdopodobieństwa tworzy siȩ tak jak ich<br />
odpowiedniki <strong>dla</strong> zmiennej ci¸ag̷lej zastȩpuj¸ac ca̷lkowanie sumowaniem po wartościach<br />
odpowiednich sk̷ladowych.<br />
Warto również pamiȩtać, że można tworzyć brzegow¸a dystrybuantȩ i warunkow¸a<br />
dystrybuantȩ (zarówno <strong>dla</strong> zmiennej ci¸ag̷lej jak i skokowej).<br />
Niezależne zmienne losowe to takie, że rozk̷lad warunkowy jednej zmiennej (może<br />
to być wielowymiarowa zmienna) pod warunkiem, że druga zmienna przyjmuje konkretne<br />
wartości (ta zmienna też może być wielowymiarowa) równy jest rozk̷ladowi brzegowemu:<br />
f w (⃗x 1 |⃗x 2<br />
) = f(⃗x 1 )<br />
Warunkiem koniecznym i wystarczaj¸acym niezależności zmiennych losowych jest<br />
aby ich wspólna funkcja gȩstości prawdopodobieństwa (<strong>dla</strong> zmiennej ci¸ag̷lej) lub ich<br />
wspólny rozk̷lad prawdopodobieństwa (<strong>dla</strong> zmiennej dyskretnej) faktoryzowa̷ly siȩ tzn.<br />
f(x 1 , ...x N ) = f 1 (x 1 ).f 2 (x 2 )....f N (x N )
B.Kamys: Fiz. Komp. 2003/04 51<br />
Przyk̷lad <strong>dla</strong> 2-wymiarowej zmiennej losowej:<br />
Wspólna funkcja gȩstości prawdopodobieństwa X 1 i X 2 jest sta̷la (wynosi 1 / 2 ) w<br />
kwadracie o wierzcho̷lkach {(-1,0),(0,1),(1,0) i (0,-1)} a zeruje siȩ poza kwadratem.<br />
Rozk̷lad brzegowy X 1 :<br />
⎧<br />
⎪⎨<br />
f b (X 1 ) =<br />
⎪⎩<br />
0 <strong>dla</strong> X 1 ≤ −1<br />
X 1 + 1 <strong>dla</strong> −1 ≤ X 1 ≤ 0<br />
−X 1 + 1 <strong>dla</strong> 0 ≤ X 1 ≤ +1<br />
0 <strong>dla</strong> X 1 ≥ +1<br />
Jest to rozk̷lad trójk¸atny zwany “rozk̷ladem Simpsona”. Można wyobrazić sobie<br />
pogl¸adowo, że w powyższym przyk̷ladzie liczenie rozk̷ladu brzegowego jest równoważne<br />
“zsypywaniu” punktów jednorodnego rozk̷ladu w kwadracie na oś X 1 co powoduje, że<br />
rozk̷lad brzegowy ma kszta̷lt trójk¸ata (w kwadracie zmiennych X 1 , X 2 najwiȩcej punktów<br />
ma wspó̷lrzȩdn¸a X 1 blisk¸a zeru a ilość punktów z wiȩkszymi lub mniejszymi wartościami<br />
tej wspó̷lrzȩdnej maleje liniowo.<br />
Rozk̷lad warunkowy X 1 pod warunkiem X 2 .<br />
f w (X 1 |X 2 ) =<br />
1<br />
2<br />
f b (X 2 )<br />
Wzór ten ważny jest <strong>dla</strong> nastȩpuj¸acego przedzia̷lu zmiennej X 1 :<br />
−X 2 − 1 ≤ X 1 ≤ +X 2 + 1 gdy − 1 ≤ X 2 ≤ 0<br />
+X 2 − 1 ≤ X 1 ≤ −X 2 + 1 gdy 0 ≤ X 2 ≤ +1<br />
Wyznaczanie rozk̷ladu warunkowego f w (X 1 |X 2 ) można sobie wyobrazić jako ogl¸adanie<br />
(patrz¸ac wzd̷luż osi X 2 ) przekroju prostopad̷lościanu przy czym ze wzglȩdu na normalizacjȩ<br />
pole tego przekroju musi być równe jedności – st¸ad pojawia siȩ sta̷la normalizacyjna<br />
1/f b (X 2 ) (różna <strong>dla</strong> różnych wartości X 2 ).<br />
Ponieważ f w (X 1 |X 2 ) ≠ f b (X 1 ) to zmienne X 1 i X 2 s¸a zależne !
B.Kamys: Fiz. Komp. 2003/04 52<br />
10.1 MOMENTY ROZK̷LADU WIELOWYMIAROWEJ<br />
ZMIENNEJ LOSOWEJ<br />
Momentem wielowymiarowej zmiennej losowej X (X 1 ,...,X N ) rzȩdu k 1 +...+k N wzglȩdem<br />
punktu X 0 (X 01 ,...,X 0N ) nazywamy wielkość zdefiniowan¸a wzorem:<br />
∫<br />
m k1 +:::+k N (X 01 , ..., X 0N ) =<br />
dX 1 ...dX N .f(X 1 , ..., X N ).(X 1 −X 01 ) k 1<br />
...(X N −X 0N ) k N<br />
Ten wzór jest s̷luszny <strong>dla</strong> zmiennej ci¸ag̷lej a <strong>dla</strong> dyskretnej trzeba ca̷lkȩ zamienić na sumȩ<br />
i funkcjȩ gȩstości prawdopodobieństwa na rozk̷lad prawdopodobieństwa.<br />
Najważniejsze momenty <strong>dla</strong> celów analizy statystycznej danych to:<br />
Wartość oczekiwana czyli pierwszy moment wzglȩdem pocz¸atku uk̷ladu wspó̷lrzȩdnych:<br />
czyli<br />
E{ ⃗X} = (m 10:::0 (0, .., 0), ..., m 0:::01 (0, ..., 0))<br />
E{ ⃗X} = (E{X 1 }, E{X 2 }, ...E{X N })<br />
Wariancja czyli drugi moment wzglȩdem wartości oczekiwanej:<br />
var{X 1 } = m 20:::0 (E{X 1 }, ..., E{X N })<br />
.............<br />
var{X N } = m 00:::2 (E{X 1 }, ..., E{X N })<br />
Kowariancja czyli drugi moment mieszany wzglȩdem wartości oczekiwanej:<br />
cov{X 1 , X 2 } = m 1100::0 (E{X 1 }, .., E{X N }),<br />
cov{X 1 , X 3 } = m 1010::0 (E{X 1 }, .., E{X N }),<br />
.....
B.Kamys: Fiz. Komp. 2003/04 53<br />
Ponieważ wariancjȩ można uważać za kowariancjȩ policzon¸a <strong>dla</strong> dwukrotnie powtórzonej<br />
zmiennej: var{X i } = cov{X i , X i } to wygodnie jest zgromadzić wariancje i kowariancje<br />
w jeden zespó̷l wielkości zwany macierz¸a kowariancji. Na g̷lównej przek¸atnej macierzy<br />
znajduj¸a siȩ wariancje a poza przek¸atn¸a kowariancje. Macierz kowariancji jest: rzeczywista,<br />
symetryczna i dodatnio określona. Można j¸a wiȩc zawsze zdiagonalizować<br />
przez liniow¸a transformacjȩ zmiennych pozostawiaj¸ac jedynie wariancje na diagonali.<br />
Czȩsto zamiast macierzy kowariancji tworzy siȩ macierz korelacji.<br />
Macierz ta sk̷lada siȩ ze wspó̷lczynników korelacji ρ(X i ,X j ) zdefiniowanych nastȩpuj¸aco:<br />
ρ(X i , X j ) =<br />
cov{X i , X j }<br />
√<br />
var{Xi }.var{X j }<br />
Oczywiście diagonalne elementy macierzy korelacji to jedynki a pozadiagonalne to odpowiednie<br />
wspó̷lczynniki korelacji.<br />
W̷lasności wspó̷lczynnika korelacji<br />
○ Wspó̷lczynnik korelacji przyjmuje wartości z przedzia̷lu [-1,+1]<br />
○ Jeżeli zmienne s¸a niezależne to wspó̷lczynnik korelacji jest równy zero.<br />
○ Gdy wspó̷lczynnik korelacji równy jest zero (mówimy wtedy, że zmienne s¸a<br />
nieskorelowane) to zmienne s¸a niezależne liniowo ale mog¸a być zależne i to nawet<br />
funkcyjnie.<br />
○ Jeżeli zmienne X i Y s¸a zwi¸azane funkcyjnym zwi¸azkiem liniowym; Y=<br />
aX+b to wspó̷lczynnik korelacji jest równy jedności co do modu̷lu a jego znak jest taki<br />
sam jak znak wspó̷lczynnika kierunkowego prostej.<br />
○ Jeżeli modu̷l wspó̷lczynnika korelacji jest równy jedności to X i Y zwi¸azane<br />
s¸a funkcyjnym zwi¸azkiem liniowym Y= aX+b a znak wspó̷lczynnika kierunkowego prostej<br />
jest taki sam jak znak wspó̷lczynnika korelacji.<br />
Estymator wspó̷lczynnika korelacji T n (ρ(X, Y )) ≡,,r” (symbole ¯x i ȳ oznaczaj¸a średnie<br />
arytmetyczne pomiarów):<br />
r ≡ T n (ρ(X, Y )) =<br />
n∑<br />
(x i − ¯x)(y i − ȳ)<br />
i=1<br />
( n √<br />
∑<br />
) ( )<br />
n∑<br />
(x i − ¯x) 2 (y j − ȳ) 2<br />
i=1<br />
j=1
B.Kamys: Fiz. Komp. 2003/04 54<br />
Interpretacja kwadratu estymatora ,,r 2 ”<br />
Można pokazać, że kwadrat estymatora wspó̷lczynnika korelacji pokazuje na ile dobre jest<br />
przybliżenie liniowe zależności y(x) czyli jak dobra jest regresja drugiego rodzaju (patrz<br />
niżej).<br />
r 2 =<br />
∑<br />
i (ax i + b − ȳ) 2<br />
∑<br />
i (y i − ȳ) 2<br />
Wyrażenie w liczniku to tzw. wyjaśniona przez regresjȩ suma kwadratów a wyrażenie w<br />
mianowniku to ca̷lkowita suma kwadratów. Jak widać im bliższy jedności jest kwadrat<br />
estymatora wspó̷lczynnika korelacji tym lepszym przybliżeniem zależności y(x) jest linia<br />
prosta. Zwykle uważa siȩ, że przybliżenie jest dobre gdy wartości r 2 s¸a bliskie 0.9 ale w<br />
praktyce sami musimy zdecydować, czy odchylenia rzȩdu 10% s¸a już zadowalaj¸aco ma̷le.<br />
Regresj¸a (lub regresj¸a pierwszego rodzaju ) zmiennej Y wzglȩdem X nazywamy warunkow¸a<br />
wartość oczekiwan¸a E{Y |X} traktowan¸a jako funkcja zmiennej X. Oczywiście warunkow¸a<br />
wartość oczekiwan¸a E{X|Y } nazywamy regresj¸a pierwszego rodzaju zmiennej X wzglȩdem<br />
Y.<br />
Podstawowa w̷lasność funkcji regresji E{Y |X}: polega na tym, że wartość oczekiwana<br />
kwadratu odchyleń zmiennej losowej Y od dowolnej funkcji u(X) jest minimalna, gdy jako<br />
tȩ funkcjȩ przyjmiemy funkcjȩ regresji E{Y |X}:<br />
E { (Y − u(X)) 2} ≥ E { (Y − E{Y |X}) 2}<br />
Dowód:<br />
E { (Y − u(X)) 2} = ∫ dX · dY · f(X, Y ) · (Y − u(X)) 2<br />
= ∫ dX · f 1 (X) ∫ dY · f 2 (Y |X) · (Y − u(X)) 2<br />
Wewnȩtrzna ca̷lka jest wartości¸a oczekiwan¸a kwadratu odchylenia zmiennej Y od pewnej<br />
sta̷lej (u(X) jest sta̷l¸a jeżeli idzie o ca̷lkowanie wzglȩdem zmiennej Y). Możemy wiȩc<br />
zapisać tȩ ca̷lkȩ nastȩpuj¸aco (oznaczamy u(X) ≡ c):<br />
∫ dY · f2 (Y |X) · (Y − u(X)) 2 =<br />
= E{(Y − c) 2 } =<br />
= E{(Y − E{Y } + E{Y } − c) 2 =<br />
= E{(Y − E{Y }) 2 + 2(Y − E{Y })(E{Y } − c) + (E{Y } − c) 2 } =<br />
= E{(Y − E{Y }) 2 } + 2E{Y − E{Y })(E{Y } − c) + E{(E{Y } − c) 2 } =<br />
= E{(Y − E{Y }) 2 + 0 + E{(E{Y } − c) 2 }.
B.Kamys: Fiz. Komp. 2003/04 55<br />
Drugi wyraz znikn¸a̷l bo E{Y-E{Y}} ≡ 0 a pozosta̷la suma wartości oczekiwanych z<br />
kwadratów (Y-E{Y}) 2 i (E{Y}-c) 2 bȩdzie mia̷la minimum gdy E{Y } ≡ c tj. E{Y } =<br />
E{Y |X}.<br />
c.b.d.o.<br />
UWAGI:<br />
• W tym wyprowadzeniu oczywiście należy odczytywać E{Y} jako warunkow¸a wartość<br />
oczekiwan¸a, tj. E{Y|X} a sta̷l¸a c jako dowoln¸a funkcjȩ u(X).<br />
• Metoda estymacji parametrów oparta na omówionej powyżej w̷lasności funkcji regresji<br />
nazywana jest metod¸a najmniejszych kwadratów<br />
Regresja liniowa zwana również regresj¸a drugiego rodzaju to linia prosta przybliżaj¸aca<br />
zależność regresji E{Y|X} od X, przy czym parametry tej prostej dobiera siȩ tak aby by̷la<br />
spe̷lniona podstawowa w̷lasność regresji tzn. aby wartość oczekiwana sumy kwadratów<br />
odchyleń wartości Y od linii prostej by̷la minimalna.<br />
W szczególnym przypadku dwuwymiarowego rozk̷ladu normalnego funkcja regresji E{Y|X}<br />
jest lini¸a prost¸a a wiȩc funkcja regresji drugiego rodzaju jest również funkcj¸a regresji pierwszego<br />
rodzaju.<br />
Regresja krzywoliniowa to funkcja nieliniowa argumentu X przybliżaj¸aca regresjȩ E{Y|X}<br />
przy czym parametry funkcji dobierane s¸a metod¸a najmniejszych kwadratów. W tym<br />
przypadku należy rozróżnić dwie sytuacje:<br />
• Parametry wchodz¸a liniowo do funkcji, np. przybliżenie E{Y|X} przez szereg wielomianów<br />
lub innych funkcji tworz¸acych uk̷lad zupe̷lny. Odpowiada to tzw.<br />
liniowej metodzie najmniejszych kwadratów i pozwala znaleźć wartości parametrów<br />
jako rozwi¸azania uk̷ladu równań liniowych przy czym <strong>dla</strong> unikniȩcia niestabilności<br />
numerycznych zalecane jest stosowanie funkcji, które s¸a ortogonalne na danym odcinku<br />
lub na zbiorze wartości zmiennej X.<br />
W szczególności można pos̷lużyć siȩ<br />
wielomianami ortogonalnymi na zbiorze wartości zmiennej X.<br />
• Parametry wchodz¸a nieliniowo do formu̷l. Wtedy optymalne wartości parametrów s¸a<br />
rozwi¸azaniami uk̷ladu równań nieliniowych, które rozwi¸azuje siȩ różnymi sposobami.<br />
Jedn¸a z popularnych metod jest szukanie rozwi¸azań iteracyjnie znajduj¸ac w kolejnych<br />
iteracjach poprawki do startowych parametrów w sposób analogiczny jak <strong>dla</strong><br />
liniowego przypadku metody najmniejszych kwadratów. Osi¸aga siȩ to rozwijaj¸ac<br />
nieliniow¸a formu̷lȩ w szereg Taylora doko̷la startowych wartości parametrów i obcina<br />
siȩ szereg na wyrazach liniowych. Dla zapewnienia zbieżności procedury iteracyjnej<br />
uzupe̷lnia siȩ tȩ metodȩ o szereg pragmatycznych regu̷l przyśpieszaj¸acych zbieżność<br />
i określaj¸acych kiedy należy przerwać poszukiwanie wartości parametrów.
B.Kamys: Fiz. Komp. 2003/04 56<br />
10.2 ESTYMACJA PUNKTOWA WARTOŚCI OCZEKIWANEJ<br />
E{⃗Y ( ⃗X)} I MACIERZY KOWARIANCJI ⃗Y ( ⃗X)<br />
Estymator wartości oczekiwanej:<br />
T n {E(⃗Y )} = ⃗Y (T n {E(X 1 )}, T n {E(X 2 )}, ..T n {E(X n )})<br />
Estymator macierzy kowariancji:<br />
T n {cov(Y k , Y q )} = ∑ ( ( ∂Yk ∂Yq<br />
T<br />
i;j<br />
n {cov(X i , X j )}<br />
∂X i<br />
)~x=E(~x) ∂X j<br />
)~x=E(~x)<br />
W powyższych wzorach wartości oczekiwane E{X i } oraz cov{X i ,X j } s¸a zastȩpowane<br />
swoimi estymatorami, tzn. odpowiednimi średnimi arytmetycznymi oraz estymatorem<br />
kowariancji wektora ⃗X:<br />
T n (cov{X i , X j }) = 1<br />
n − 1<br />
n∑<br />
((X i ) k − ¯X i )((X j ) k − ¯X j )<br />
k=1<br />
Symbol (X i ) k oznacza ”k-ty”pomiar zmiennej X i .<br />
Wprowadzaj¸ac oznaczenia macierzowe:<br />
C ij (X) = T n {cov{X i , X j }}<br />
C ij (Y ) = T n {cov{Y i , Y j }}<br />
T ij = ( @Y i<br />
@X j<br />
)~x=Ef~xg<br />
możemy wyrazić estymator kowariancji zmiennej ⃗Y przez estymator kowariancji zmiennej<br />
⃗X w nastȩpuj¸acy sposób (nazywany propagacj¸a b̷lȩdów):<br />
C(Y ) = T C(X)T T
B.Kamys: Fiz. Komp. 2003/04 57<br />
Wyprowadzenie:<br />
• Rozwijamy w szereg Taylora sk̷ladowe wektora ⃗Y doko̷la wektora E{ ⃗X} obcinaj¸ac<br />
rozwiniȩcie na wyrazach liniowych<br />
Y i ≈ Y i (E{ ⃗X}) + ∑ j( @Y i<br />
@X j<br />
) · (X j − E{X j }).<br />
• Ponieważ wartość oczekiwana z różnicy ⃗X − E{ ⃗X} tożsamościowo znika wiȩc<br />
wartość oczekiwana wektora ⃗Y równa jest Y (E{ ⃗X}), tzn. dostajemy podany<br />
wyżej wzór na wartość oczekiwan¸a Y (E{ ⃗X}).<br />
Estymator wartości oczekiwanej E{⃗Y } otrzymujemy wstawiaj¸ac estymatory<br />
(średnie arytmetyczne) zamiast sk̷ladowych wektora E{ ⃗X} .<br />
• Z tego również wynika, że Y i − Y i (E{ ⃗X}) = ∑ j( @Y i<br />
@X j<br />
) · (X j − E{X j })<br />
a wiȩc kowariancja Y k i Y q , która jest wartości¸a oczekiwan¸a<br />
E{(Y k − E{Y k }) · (Y q − E{Y q })}<br />
liczona jest jako wartość oczekiwana iloczynu analogicznych sum zawieraj¸acych<br />
pochodne i wyrażenia X j −E{X j } co po prostym przeliczeniu daje powyższy wzór .<br />
Estymator kowariancji otrzymujemy zastȩpuj¸ac wartości oczekiwane przez odpowiednie<br />
średnie arytmetyczne a także licz¸ac wartości pochodnych cz¸astkowych nie <strong>dla</strong><br />
wartości oczekiwanych Y i ale <strong>dla</strong> odpowiednich średnich arytmetycznych.<br />
Gdy zmienne X i , i = 1, ..n s¸a niezależne macierz kowariancji sk̷ladowych wektora ⃗X<br />
jest diagonalna czyli pozostaj¸a niezerowe jedynie wariancje:<br />
cov{X i , X j } = δ ij · var{X i }<br />
Wzór na kowariancjȩ cov(Y k , Y q ) gdy X i , i = 1, ..n s¸a niezależne sprowadza siȩ do<br />
poniższej postaci:<br />
cov(Y k , Y q ) = ∑ ( ( ∂Yk ∂Yq<br />
var(X<br />
i<br />
i )<br />
∂X i<br />
)~x=E(~x) ∂X i<br />
)~x=E(~x)<br />
co w szczególności daje znany nam wzór na b̷l¸ad średni kwadratowy :<br />
σ(Y k ) ≡<br />
√<br />
var(Y k ) =<br />
√ ∑ ( ∂Yk<br />
i<br />
) 2<br />
var(X i )<br />
∂X i ~x=E(~x)
B.Kamys: Fiz. Komp. 2003/04 58<br />
Należy pamiȩtać, że<br />
• B̷l¸ad średni kwadratowy Y k może być policzony wg wzoru powyżej (bez kowariancji)<br />
tylko wtedy gdy zmienne X i s¸a niezależne. W praktyce E(X i ) zastȩpowana<br />
jest przez średni¸a arytmetyczn¸a ¯X i a var(X j ) przez kwadrat b̷lȩdu średniej arytmetycznej<br />
(a nie samej zmiennej X i ).<br />
• Macierz kowariancji zmiennych Y i , i=1,..n jest zwykle niediagonalna<br />
nawet wtedy gdy zmienne X i s¸a niezależne (macierz kowariancji X i jest diagonalna)<br />
czyli zmienne Y i , i=1,..n s¸a zwykle zależne. Jeżeli wiȩc bȩdziemy chcieli<br />
znaleźć macierz kowariancji wektora losowego ⃗Z, który jest z kolei funkcj¸a wektora<br />
⃗Y to musimy korzystać z ogólnego wzoru zawieraj¸acego kowariancje (zastȩpuj¸ac<br />
oczywiście ⃗Y przez ⃗Z a ⃗X przez ⃗Y ).<br />
• Wzory powyższe s¸a wzorami przybliżonymi, tzn. na tyle s¸a dobre na ile rozwiniȩcie<br />
⃗Y ( ⃗X) w szereg Taylora doko̷la E{ ⃗X} z obciȩciem na liniowych wyrazach jest dobrym<br />
przybliżeniem funkcji ⃗Y ( ⃗X).<br />
Mimo to praktycznie wszȩdzie stosuje siȩ te wzory, czȩsto zapominaj¸ac o<br />
tym, że s¸a one ścis̷le tylko <strong>dla</strong> liniowego zwi¸azku pomiȩdzy ⃗Y i ⃗X.
B.Kamys: Fiz. Komp. 2003/04 59<br />
10.3 REGRESJA LINIOWA<br />
Definicja regresji liniowej by̷la już omawiana powyżej ale powtórzymy j¸a <strong>dla</strong> przypomnienia:<br />
DEFINICJA<br />
Regresja liniowa zmiennej Y wzglȩdem zmiennej X to linia prosta<br />
Y = a · X + b<br />
z parametrami a i b dobranymi tak aby minimalizować sumȩ kwadratów odchyleń wspó̷lrzȩdnych<br />
(y i , i = 1, 2, ..n) zespo̷lu n punktów o wspó̷lrzȩdnych (x 1 , y 1 ),(x 2 , y 2 ),... (x n , y n ) od<br />
tej linii:<br />
n∑<br />
Q 2 = (y i − a · x i − b) 2<br />
i=1<br />
UWAGA:<br />
Regresja liniowa X wzglȩdem Y tj. prosta X = c · Y + d pokrywa siȩ z regresj¸a liniow¸a<br />
Y wzglȩdem X tj. prost¸a Y = a · X + b znalezion¸a <strong>dla</strong> tego samego zespo̷lu punktów<br />
doświadczalnych tylko wtedy gdy zwi¸azek pomiȩdzy X i Y jest funkcyjnym zwi¸azkiem<br />
liniowym (a nie zależności¸a statystyczn¸a).<br />
Rozważymy tu specyficzn¸a sytuacjȩ polegaj¸ac¸a na tym, że:<br />
• zmienna X ma zaniedbywalnie ma̷le b̷lȩdy<br />
(mówimy wtedy, że X jest zmienn¸a kontrolowan¸a)<br />
• b̷l¸ad zmiennej Y jest taki sam <strong>dla</strong> wszystkich punktów i wynosi σ(Y ).<br />
Wtedy dostajemy proste, analityczne wzory na estymatory parametrów regresji:<br />
T n (b) = (∑ i x i 2 ) · ( ∑ i y i ) − ( ∑ i x i ) · ( ∑ i x i · y i )<br />
W<br />
T n (a) = n · (∑ i x i · y i ) − ( ∑ i x i ) · ( ∑ i y i )<br />
W<br />
W ≡ n · ∑<br />
x 2 i − (∑ x i ) 2<br />
i i
B.Kamys: Fiz. Komp. 2003/04 60<br />
Wskaźnik sumowania i przebiega wartości od 1 do n.<br />
B̷lȩdy estymatorów parametrów a i b również wyrażaj¸a siȩ analitycznymi wzorami:<br />
√ ∑<br />
i x 2 i<br />
T n (σ(b)) = σ(Y ) ·<br />
W<br />
√ n<br />
T n (σ(a)) = σ(Y ) ·<br />
W<br />
Możemy również podać wzór na b̷l¸ad wartości Y przewidzianej przez liniȩ regresji<br />
(zależny od x):<br />
T n (σ(Y (x))) = σ(Y ) · √ 1 n<br />
+<br />
(x − x)2<br />
∑<br />
i (x i − x) 2<br />
• T n (σ(Y (x))) to estymator b̷lȩdu wartości Y (x) przewidzianej przez regresjȩ,<br />
• σ(Y ) to b̷l¸ad pomiaru wspó̷lrzȩdnej Y i z za̷lożenia taki sam <strong>dla</strong> wszystkich punktów.<br />
Gdy go nie znamy wpisujemy tu (i do wzorów na b̷lȩdy parametrów ’a’ i ’b’) estymator<br />
T n (σ(Y )),<br />
• x to średnia arytmetyczna wartości zmiennej kontrolowanej wyliczona ze wspó̷lrzȩdnych<br />
punktów x 1 , x 2 , ...x n ,<br />
• x - to wartość zmiennej kontrolowanej X, <strong>dla</strong> której wyliczamy wartość regresji<br />
liniowej Y (x) i estymator b̷lȩdu regresji liniowej T n (σ(Y (x))).<br />
UWAGA: Aby podj¸ać decyzjȩ, czy regresja liniowa zadawalaj¸aco dobrze odtwarza zależność<br />
y od x można zastosować jedn¸a wymienionych poniżej metod:<br />
• Przy poprawnym odtwarzaniu zależności y(x) przez prost¸a regresji y = a · x + b<br />
wielkość Q 2 ma rozk̷lad chi - kwadrat o n − 2 stopniach swobody a wiȩc jej wartość<br />
oczekiwana i odchylenie standardowe spe̷lniaj¸a nastȩpuj¸ace relacje:<br />
E{Q 2 } = n − 2<br />
√<br />
σ{Q 2 } = 2(n − 2)
B.Kamys: Fiz. Komp. 2003/04 61<br />
• Wspó̷lczynnik korelacji zmiennych x i y powinien być równy jeden (co do modu̷lu),<br />
a wiȩc można sprawdzać hipotezȩ statystyczn¸a H 0 : E{r} = 1<br />
lub H 0 : E{r 2 } = 1, gdzie r jest estymatorem wspó̷lczynnika korelacji x i y.<br />
• Można zastosować tzw. analizȩ wariancji. Zarówno ten jak i poprzedni sposób<br />
zostanie omówiony przy okazji badania hipotez statytsycznych.
B.Kamys: Fiz. Komp. 2003/04 62<br />
10.4 REGRESJA PRZY POMOCY WIELOMIANÓW ORTOG-<br />
ONALNYCH<br />
Tu omówiona zostanie regresja krzywoliniowa ze wzglȩdu na postać zależności dopasowanych<br />
funkcji od argumentu ale liniowa ze wzglȩdu na zależność od dobieranych<br />
parametrów. W takiej sytuacji wartości parametrów można znaleźć przez rozwi¸azanie<br />
uk̷ladu równań liniowych (podobnie jak poprzednio <strong>dla</strong> parametrów linii prostej). Równania<br />
te s¸a jednakże czȩsto numerycznie niestabilne, tzn. ma̷le zmiany wartości wspó̷lczynników<br />
uk̷ladu równań powoduj¸a drastyczne zmiany rozwi¸azań. Wygodn¸a metod¸a unikniȩcia tych<br />
problemów jest zastosowanie wielomianów ortogonalnych.<br />
10.4.1 REGRESJA PRZY POMOCY WIELOMIANÓW ORTOGONALNYCH<br />
NA ZBIORZE WARTOŚCI ZMIENNEJ KONTROLOWANEJ x i , i =<br />
1, ...n<br />
Przedstawiamy zmienn¸a y jako rozwiniȩcie w szereg wielomianów ortogonalnych P r (x)<br />
na zbiorze wartości argumentów x i , i = 1, ...n:<br />
m∑<br />
y(x) = θ r · P r (x)<br />
r=0<br />
gdzie<br />
parametry θ r , (r = 1, ..., m) należy wyznaczyć metod¸a najmniejszych kwadratów przyrównuj¸ac<br />
powyższe wyrażenie na y(x) do zespo̷lu punktów (x i , y i ), (i = 1, 2, ..., n)<br />
a wielomiany P r (x), (r = 1, 2, ..., m) s¸a określone przez zbiór wartości argumentu<br />
x i ; (i = 1, 2, .., n) na którym maj¸a być ortogonalne oraz - ewentualnie - przez zbiór wag<br />
w i , (i = 1, 2, ..., n) przypisanych poszczególnym punktom (x i , y i ), (i = 1, 2, ..., n).<br />
Stosowanie wielomianów ortogonalnych ma nastȩpuj¸ace zalety:<br />
1. parametry θ r , (r = 1, ..., m) można wyliczyć analitycznie ponieważ pojawiaj¸a<br />
siȩ jako wspó̷lczynniki przy wielomianach a wiȩc mamy do czynienia z liniowym<br />
przypadkiem metody najmniejszych kwadratów (MNK).<br />
2. Obliczenie parametrów odbywa siȩ przy pomocy prostych wzorów podanych poniżej.<br />
Nie wymaga to odwracania macierzy - jak to ma miejsce w ogólnym przypadku<br />
ogólnej liniowej MNK. Dziȩki temu unika siȩ problemów numerycznych gdyż odwracanie<br />
typowych macierzy pojawiaj¸acych siȩ w MNK jest niestabiln¸a numerycznie<br />
procedur¸a.<br />
3. Parametr θ r+1 jest wyznaczany niezależnie od parametrów θ 1 , θ 2 , ...θ r , tzn. dodanie<br />
nastȩpnego wyrazu do szeregu nie wp̷lywa na parametry przy wielomianach<br />
niższego stopnia). Oznacza to również, że macierz kowariancji estymatorów parametrów<br />
θ jest diagonalna.
B.Kamys: Fiz. Komp. 2003/04 63<br />
Ortogonalność wielomianów P r (X) na zbiorze X i , i = 1, 2, ...n<br />
oznacza spe̷lnienie poniższych warunków:<br />
n∑<br />
P l (x i ) · P k (x i ) = 0 <strong>dla</strong> l ≠ k<br />
i=1<br />
n∑<br />
[P l (x i )] 2 ≠ 0<br />
i=1<br />
Powyższe w̷lasności wielomianów ortogonalnych wykorzystujemy nastȩpuj¸aco:<br />
Mnożymy równanie określaj¸ace y(x) jako rozwiniȩcie w szereg wielomianów ortogonalnych<br />
przez dany wielomian P k (x i ) i sumujemy po i co dziȩki ortogonalności wielomianów<br />
prowadzi do wzoru:<br />
n∑<br />
∑ n<br />
y i · P k (x i ) = θ k [P k (x i )] 2<br />
i=1 i=1<br />
a wiȩc otrzymujemy analityczny wzór na estymator parametru θ k :<br />
T n (θ k ) =<br />
n∑<br />
i=1<br />
n∑<br />
i=1<br />
y i · P k (x i )<br />
[P k (x i )] 2<br />
Oczywiście można wprowadzić wielomiany ortogonalne z pewn¸a wag¸a ’w i ’, które<br />
spe̷lniaj¸a równanie analogiczne do wielomianów ortogonalnych z wag¸a jednostkow¸a określonych<br />
powyżej:<br />
n∑<br />
w i · P l (x i ) · P k (x i ) = 0 <strong>dla</strong> l ≠ k<br />
i=1<br />
n∑<br />
w i · [P l (x i )] 2 ≠ 0<br />
i=1<br />
wtedy<br />
T n (θ k ) =<br />
n∑<br />
i=1<br />
n∑<br />
i=1<br />
w i · y i · P k (x i )<br />
w i · [P k (x i )] 2
B.Kamys: Fiz. Komp. 2003/04 64<br />
Jako wagi w i bierze siȩ zwykle kwadraty odwrotności b̷lȩdów mierzonych wielkości Y i ,<br />
gdyż to bardzo upraszcza rachunki:<br />
w i = 1<br />
σ 2 (y i )<br />
Przede wszystkim należy zauważyć, że estymatory parametrów θ k zależ¸a liniowo od<br />
danych y 1 , y 2 , ...y n a wiȩc macierz kowariancji estymatorów można wyliczyć<br />
ściśle stosuj¸ac wzór na transformacjȩ macierzy kowariancji (”przenoszenie<br />
b̷lȩdów”) znaj¸ac macierz kowariancji danych y 1 , y 2 , ...y n . Co wiȩcej wiadomo,<br />
że macierz kowariancji parametrów jest diagonalna (bo estymator parametru θ k jest<br />
wyliczany niezależnie od estymatorów pozosta̷lych parametrów) a wiȩc pozostaje nam<br />
znalezienie wariancji tych estymatorów.<br />
var(T n (θ k )) =<br />
n∑<br />
[w i · P k (x i )] 2 σ 2 (y i )<br />
i=1<br />
∑<br />
[ n w i · Pk 2(x i)] 2<br />
i=1<br />
Gdy przyjmiemy (tak bȩdziemy robić w nastȩpnych wzorach) w i ≡ 1<br />
2 (y i )<br />
to<br />
n∑<br />
i=1<br />
[w i · P k (x i )] 2 · σ 2 (y i ) =<br />
=<br />
n∑<br />
wi 2 · P k 2 (x i) ·<br />
i=1<br />
n∑<br />
w i · Pk 2 (x i)<br />
i=1<br />
1<br />
w i<br />
a wiȩc wariancja estymatora parametru θ k wyraża siȩ analitycznym wzorem:<br />
var(T n (θ k )) =<br />
n∑<br />
i=1<br />
1<br />
w i · P 2 k (x i)<br />
Równie ̷latwo można (ścisle) znaleźć wariancjȩ (wiȩc i b̷l¸ad) formu̷ly interpolacyjnej na<br />
y(x):<br />
m∑<br />
var(y(x)) = [P r (x)] 2 · var(T n (θ r ))<br />
r=0
B.Kamys: Fiz. Komp. 2003/04 65<br />
czyli<br />
m∑<br />
var(y(x)) =<br />
n∑<br />
r=0<br />
i=1<br />
[P r (x)] 2<br />
w i · P 2 r (x i)<br />
Jakość dopasowania może być oceniana przez policzenie wartości wyrażenia:<br />
n∑ m∑<br />
Q 2 (m) = w i·[y i − T n (θ r )·P r (x i )] 2 ,<br />
i=1 r=0<br />
które przy adekwatności modelu powinno mieć rozk̷lad chi-kwadrat o (n-(m+1)) stopniach<br />
swobody.<br />
Wiedz¸ac o tym możemy wartość tego wyrażenia używać jako kryterium doboru najwyższego<br />
stopnia wielomianu w rozwiniȩciu (m), gdyż √ wiemy, że Q 2 (m) powinno mieć wartość<br />
oczekiwan¸a równ¸a (n − m − 1) z b̷lȩdem 2(n − m − 1).<br />
Czȩsto zamiast Q 2 (m) stosuje siȩ unormowan¸a sumȩ kwadratów odchyleń:<br />
Q 2 (m)<br />
n − m − 1 .<br />
Wartość oczekiwana tej wielkości jest równa jedności a b̷l¸ad √ 2<br />
n m 1 .<br />
10.4.2 KONSTRUKCJA ZESPO̷LU WIELOMIANÓW ORTOGONALNYCH<br />
NA ZBIORZE WARTOŚCI ARGUMENTU<br />
Zak̷ladamy, że maj¸a to być wielomiany ortogonalne z wagami w 1 , w 2 , ...w n na zbiorze<br />
wartości argumentu x 1 , x 2 , ...x n , posiadaj¸ace jednostkowy wspó̷lczynnik przy najwyższej<br />
potȩdze argumentu x. Można pokazać, że wielomiany ortogonalne P 0 (x), P 1 (x), ...P m (x)<br />
spe̷lniaj¸a poniższe formu̷ly rekurencyjne, które mog¸a być efektywnie zastosowane do ich<br />
wyliczenia:
B.Kamys: Fiz. Komp. 2003/04 66<br />
P r+1 (x) = [x + β r+1 ] · P r (x) + γ r+1 · P r 1 (x)<br />
n∑<br />
w i · Pr 2(x i) · x i<br />
i=1<br />
β r+1 = − n∑<br />
w i · Pr 2(x i)<br />
γ r+1 = −<br />
i=1<br />
n∑<br />
i=1<br />
n∑<br />
i=1<br />
w i · P 2 r (x i)<br />
w i · P 2 r 1 (x i)<br />
przy czym startowe wielomiany, tzn. P 0 (x) i P 1 (x) określa siȩ nastȩpuj¸aco:<br />
P 0 (x) = 1<br />
P 1 (x) = x −<br />
n∑<br />
i=1<br />
n∑<br />
w i · x i<br />
i=1<br />
w i<br />
Warto zauważyć, że sumy typu ∑ i w i·Pr 2(x i) wystȩpuj¸a zarówno w mianowniku wzorów<br />
na γ r+2 , β r+1 , T n (θ r ), var(y) jak i w liczniku wzoru na γ r+1 . Dziȩki temu przy<br />
programowaniu wzorów można te sumy wykorzystać wielokrotnie.
B.Kamys: Fiz. Komp. 2003/04 67<br />
11 METODA MONTE CARLO<br />
Metoda ta polega na przyporz¸adkowaniu problemowi matematycznemu lub przyrodniczemu<br />
równoważnego problemu statystycznego i rozwi¸azaniu go metodami statystyki. Szczególnie<br />
pożyteczna okaza̷la siȩ w przypadkach, gdy szczegó̷ly badanego problemu s¸a zrozumia̷le<br />
i da̷lyby siȩ rozwi¸azać analitycznie ale rachunki takie s¸a zbyt czasoch̷lonne, np. policzenie<br />
ca̷lek wielokrotnych gdy wymiar przestrzeni ca̷lkowania jest duży czy też śledzenie<br />
losu neutronów przechodz¸acych przez niejednorodne środowisko – takie jak w reaktorze<br />
j¸adrowym i jego obudowie. Ten ostatni przyk̷lad, tj. śledzenie losu neutronów przy<br />
̷lańcuchowej reakcji rozszczepienia prowadz¸acej do wybuchu bomby atomowej by̷l pierwszym<br />
zastosowaniem tej metody zaproponowanej przez J. von Neumanna i S. Ulama.<br />
Zwykle udaje siȩ zast¸apić poszukiwanie rozwi¸azania oryginalnego problemu przez<br />
estymacjȩ wartości oczekiwanej pewnej funkcji na podstawie próby statystycznej<br />
sk̷ladaj¸acej siȩ z zespo̷lu wartości tej funkcji obliczonego <strong>dla</strong> wylosowanych wartości argumentu.<br />
W zwi¸azku z tym pojawiaj¸a siȩ nastȩpuj¸ace pytania:<br />
1. Jak sformu̷lować problem statystyczny, tzn. jak ma wygl¸adać funkcja <strong>dla</strong> której<br />
poszukujemy wartości oczekiwanej ? Bierzemy przy tym pod uwagȩ:<br />
• Jak zminimalizować bl¸ad estymacji przy ustalonym rozmiarze próby statystycznej<br />
?<br />
• Z jakim rozk̷ladem prawdopodobieństwa (gȩstości prawdopodobieństwa) należy<br />
losować wartości argumentu funkcji ?<br />
2. W jaki sposób przeprowadzić generacjȩ liczb losowych ?<br />
Odpowiedzi na te pytania zależ¸a od rozwi¸azywanego problemu. Poniżej bȩd¸a przedstawione<br />
przyk̷lady jak można dobierać postać funkcji i jakie pojawiaj¸a siȩ wtedy rozk̷lady<br />
prawdopodobieństwa gdy stosuje siȩ metodȩ Monte Carlo do liczenia ca̷lek.<br />
11.1 LICZENIE CA̷LEK METODA¸ MONTE CARLO<br />
Ca̷lkȩ<br />
∫ b<br />
I ≡<br />
a f(x)dx<br />
możemy zapisać w równoważnej postaci<br />
∫b<br />
g(x)<br />
I = · f(x) · dx<br />
a<br />
g(x)<br />
∫<br />
gdzie funkcja g(x) > 0 oraz b g(x)dx = 1 - czyli g(x) jest pewn¸a funkcj¸a gȩstości<br />
a<br />
prawdopodobieństwa na odcinku [a,b]).
B.Kamys: Fiz. Komp. 2003/04 68<br />
Porównuj¸ac drugi wzór na ca̷lkȩ I ze wzorem na wartość oczekiwan¸a funkcji f(x)<br />
g(x) :<br />
{ } f(x)<br />
∫b<br />
( ) f(x)<br />
E ≡ dx · g(x) ·<br />
g(x)<br />
a<br />
g(x)<br />
<strong>dla</strong> gȩstości praw-<br />
widać, że ca̷lka jest po prostu wartości¸a oczekiwan¸a funkcji<br />
dopodobieństwa g(x).<br />
f(x)<br />
g(x)<br />
W szczególności jako funkcjȩ g(x) możemy wzi¸ać funkcjȩ gȩstości prawdopodobieństwa<br />
rozk̷ladu jednorodnego na odcinku [a,b] i dostaniemy:<br />
∫b<br />
I = (b − a) ·<br />
a<br />
f(x)dx<br />
b − a<br />
Estymatorem powyższej wartości oczekiwanej jest średnia arytmetyczna<br />
T n (I) = (b − a) · 1 n∑<br />
f(x i )<br />
ni=1<br />
gdzie argumenty x i s¸a losowane z rozk̷ladem jednorodnym (równomiernym) na odcinku<br />
[a,b]. Jest to tzw. podstawowa metoda liczenia ca̷lki metod¸a Monte Carlo.<br />
Dla wygody rozważa siȩ zwykle ca̷lki liczone na odcinku [0,1] bo wtedy nie<br />
musimy jawnie wypisywać d̷lugości przedzia̷lu ca̷lkowania a można zawsze<br />
przez liniow¸a zmianȩ zmiennych przejść do dowolnego odcinka [a,b]. W<br />
poniższych rozważaniach bȩdziemy stosować tȩ konwencjȩ.<br />
Wzór na estymator ca̷lki jest wtedy po prostu średni¸a arytmetyczn¸a wartości funkcji<br />
podca̷lkowej gdzie argumenty x i s¸a losowane z rozk̷ladem jednorodnym na przedziale [0,1].<br />
B̷l¸ad estymatora ca̷lki to b̷l¸ad średniej arytmetycznej :<br />
σ{I} =<br />
=<br />
{ }<br />
1 √ n∑<br />
σ 2 f(x i )<br />
ni=1<br />
√ 1 ∑ n<br />
σ 2 {f(x i )}<br />
n 2 i=1<br />
=<br />
√<br />
1<br />
n 2 σ2 {f}<br />
= 1 √ n<br />
σ{f}
B.Kamys: Fiz. Komp. 2003/04 69<br />
Niestety ten wzór nie może być w praktyce stosowany bo liczenie σ{f} wymaga̷loby<br />
znajomości wartości szukanej ca̷lki:<br />
σ 2 {f} =<br />
=<br />
∫1<br />
⎡<br />
∫1<br />
⎤2<br />
f 2 (x)dx − ⎣ f(x)dx⎦<br />
0<br />
∫1<br />
0<br />
0<br />
f 2 (x)dx − I 2<br />
Dlatego <strong>dla</strong> liczenia estymatora b̷lȩdu ca̷lki S(I) zamiast σ{f} używa siȩ estymatora<br />
S{f} liczonego wg wzoru:<br />
S (f) =<br />
√ 1 n∑<br />
[f(x i ) − T n (I)] 2<br />
n − 1 i=1<br />
S (I) = 1 √ n<br />
S (f)<br />
gdzie należy zauważyć, że T n (I) jest równe (ze wzglȩdu na jednostkow¸a d̷lugość przedzia̷lu<br />
ca̷lkowania) średniej arytmetycznej z wartości funkcji f(x)<br />
Ponieważ przy liczeniu ca̷lek chcielibyśmy wiedzieć nie tylko jakie jest odchylenie standardowe<br />
estymatora ca̷lki, lecz chcielibyśmy określić przedzia̷l gdzie “prawie na pewno”<br />
bȩdzie znajdować siȩ prawdziwa wartość ca̷lki to przyjȩ̷lo siȩ jako “b̷l¸ad ca̷lki” brać po̷lowȩ<br />
przedzia̷lu ufności na poziomie ufności 0,9545, który równy jest podwojonej wartości odchylenia<br />
standardowego przy za̷lożeniu, że średnia arytmetyczna ma rozk̷lad normalny.<br />
A wiȩc jako “b̷l¸ad ca̷lki” bierzemy wielkość:<br />
2S(f)<br />
√ n<br />
11.2 ZMNIEJSZANIE B̷LȨDU CA̷LKI<br />
Podstawow¸a metod¸a stosowan¸a w tym celu jest tzw. ”metoda średniej ważonej” (zwana<br />
po angielsku “importance sampling”). Polega ona na tym, że zamiast losować argument<br />
funkcji podca̷lkowej z rozk̷ladem jednorodnym losuje siȩ go z rozk̷ladem g(x) możliwie<br />
podobnym do funkcji podca̷lkowej. Wtedy estymatorem ca̷lki na przedziale [0,1] z funkcji<br />
f(x) jest średnia ważona:
B.Kamys: Fiz. Komp. 2003/04 70<br />
T n (I) = 1 n∑ f(x i )<br />
n i=1 g(x i )<br />
gdzie argumenty x i losowane s¸a czȩściej tam gdzie funkcja f(x) jest duża a wiȩc przyczynki<br />
do ca̷lki s¸a znacz¸ace – st¸ad angielska nazwa “losowanie istotne”.<br />
Można pokazać, że zastosowanie tej metody zawsze daje mniejszy b̷l¸ad ca̷lki niż otrzymywany<br />
w metodzie podstawowej.<br />
Inn¸a metod¸a jest tzw. “losowanie warstwowe” polegaj¸ace na rozbiciu przedzia̷lu<br />
ca̷lkowania na mniejsze przedzia̷ly, w których funkcja podca̷lkowa zmienia siȩ możliwie<br />
ma̷lo – jest prawie sta̷la. Wtedy użycie najprostszej metody – podstawowej – w każdym<br />
z przedzia̷lów zdecydowanie zmniejsza wariancjȩ (b̷l¸ad) ca̷lki. Widać to ewidentnie <strong>dla</strong><br />
funkcji przedzia̷lami sta̷lej. Tam metoda warstwowa daje b̷l¸ad równy zeru (!).<br />
Tu także można pokazać, że b̷l¸ad ca̷lki jest zawsze mniejszy lub równy od b̷lȩdu metody<br />
podstawowej.<br />
“Metoda zmiennych kontrolnych” to szukanie funkcji h(x) podobnej do f(x) ale<br />
takiej, że ca̷lka z h(x) na przedziale [0,1] jest znana. Wtedy możemy liczyć podstawow¸a<br />
metod¸a Monte Carlo ca̷lkȩ z różnicy f(x)-h(x). Jest to op̷lacalne jeżeli liczenie funkcji h(x)<br />
nie jest zbyt pracoch̷lonne. Zwykle przyjmuje siȩ, że wspó̷lczynnik korelacji pomiȩdzy<br />
funkcjami f(x) i h(x) powinien spe̷lniać relacjȩ: ρ(f(x), h(x)) ≥ √ 1 − k 1 gdzie “k”<br />
oznacza ile razy bardziej pracoch̷lonne jest policzenie różnicy f(x)-h(x) od policzenia samej<br />
funkcji f(x).<br />
“Metoda zmiennych antytetycznych”<br />
Jeżeli f 1 (ξ) i f 2 (η) s¸a dwoma estymatorami liczonej powyżej ca̷lki to ich średnia<br />
arytmetyczna g 2 też bȩdzie estymatorem ca̷lki:<br />
g 2 ≡ 1 2 (f 1 + f 2 ),<br />
przy czym jeżeli oba estymatory f 1 i f 2 s¸a nieobci¸ażone to i estymator g 2 jest nieobci¸ażony.<br />
Z drugiej strony wariancja estymatora g 2 bȩdzie zależeć nie tylko od wariancji estymatorów<br />
f 1 i f 2 ale także od ich kowariancji:<br />
σ 2 (g 2 ) ≡ 1 4 (σ2 (f 1 ) + σ 2 (f 2 )) + 1 2 cov(f 1, f 2 ).<br />
Jeżeli kowariancja estymatorów bȩdzie ujemna i duża co do modu̷lu, to wariancja estymatora<br />
g 2 może być mniejsza od wariancji każdego z estymatorów f 1 i f 2 . Powyższe<br />
rozumowanie można oczywiście rozszerzyć na średni¸a m estymatorów ca̷lki.
B.Kamys: Fiz. Komp. 2003/04 71<br />
PRZYK̷LAD:<br />
Jeżeli funkcja podca̷lkowa f(x) jest monotoniczna to jako dwa wyżej omawiane estymatory<br />
możemy wzi¸ać nastȩpuj¸ace funkcje: f 1 = f(x) i f 2 = f(1 − x). Wtedy estymator<br />
g 2 bȩdzie bardziej zbliżony do sta̷lej na odcinku [0,1] niż każdy z dwu sk̷ladników.<br />
To spowoduje, że jego wariancja bȩdzie mniejsza od wariancji każdego ze sk̷ladników a o<br />
to nam chodzi.<br />
Dla funkcji monotonicznej na ca̷lym przedziale ca̷lkowania można dobrać inny wygodny<br />
estymator g 2 , który bȩdzie średni¸a ważon¸a a nie średni¸a arytmetyczn¸a a wagi dobierze siȩ<br />
tak aby najbardziej zmniejszyć wariancjȩ estymatora g 2 :<br />
g 2 ≡ α · f(αx) + (1 − α) · f(1 − (1 − α)x) gdzie 0 < α < 1.<br />
Znalezienie optymalnej wartości wspó̷lczynnika α może być bardzo trudne, wiȩc czȩsto<br />
zadawalamy siȩ zastosowaniem nastȩpuj¸acego, prostszego przepisu, który zwykle daje<br />
porównywalnie ma̷l¸a wariancjȩ ca̷lki jak optymalna wartość α. Jest to rozwi¸azanie równania:<br />
f(α) = (1 − α) · f(1) + α · f(0)<br />
Powyższe przyk̷lady liczenia ca̷lki metod¸a Monte Carlo nie wyczerpuj¸a wszystkich<br />
stosowanych wariantów tej metody lecz s̷luż¸a raczej do ilustracji na czym polega problem<br />
doboru funkcji, <strong>dla</strong> której szukamy wartości oczekiwanej. Nie pokazuj¸a jednak na czym<br />
polega przewaga metody Monte Carlo nad innymi metodami liczenia ca̷lki.<br />
W przypadku ca̷lki jednokrotnej taka przewaga nie ujawnia siȩ bo istnieje wiele innych<br />
metod numerycznych takich jak np. metoda Simpsona, Romberga czy Gaussa, które s¸a<br />
bardziej precyzyjne od metody Monte Carlo przy tej samej liczbie wyliczonych wartości<br />
funkcji podca̷lkowej. Jednakże gdybyśmy chcieli zastosować któr¸aś z tych metod do<br />
ca̷lki wielokrotnej to okaże siȩ, że otrzymanie ma̷lego b̷lȩdu ca̷lki wymaga przy zwiȩkszaniu<br />
wymiaru przestrzeni argumentów zwiȩkszania liczby obliczeń funkcji podca̷lkowej w sposób<br />
proporcjonalny do n w , gdzie n jest liczb¸a wartości jednego argumentu a w jest wymiarem<br />
przestrzeni argumentów. W odróżnieniu od tych metod wielkość b̷lȩdu estymatora ca̷lki<br />
uzyskanego metod¸a Monte Carlo maleje tak jak b̷l¸ad średniej arytmetycznej czyli proporcjonalnie<br />
do 1/ √ n niezależnie od wymiaru przestrzeni argumentów. A wiȩc<br />
zwiȩkszanie wymiaru przestrzeni argumentów funkcji podca̷lkowej nie musi przed̷lużać<br />
czasu obliczenia ca̷lki.<br />
Rozważmy prosty przyk̷lad: do obliczenia ca̷lki 10 – krotnej, wyliczaj¸ac funkcjȩ podca̷lkow¸a<br />
10 razy <strong>dla</strong> każdego wymiaru musielibyśmy obliczyć funkcjȩ podca̷lkow¸a 10 10 razy. Jeżeli<br />
potrafimy w ci¸agu sekundy obliczyć funkcjȩ podca̷lkow¸a 10 000 razy to znalezienie wartości<br />
ca̷lki wymaga̷loby 1000 000 sekund czyli oko̷lo 12 dni i nocy. Tymczasem stosuj¸ac metodȩ<br />
Monte Carlo, możemy oszacować wartość ca̷lki z dok̷ladności¸a kilku procent wyliczaj¸ac<br />
np. 1000 000 razy funkcjȩ podca̷lkow¸a tzn. skracaj¸ac czas obliczeń do 100 sekund.
B.Kamys: Fiz. Komp. 2003/04 72<br />
11.3 GENERACJA LICZB LOSOWYCH<br />
Przy obliczeniach metod¸a Monte Carlo konieczna jest generacja liczb losowych o poż¸adanym<br />
rozk̷ladzie (gȩstości) prawdopodobieństwa. Liczby te w praktyce znajduje siȩ przy pomocy<br />
odpowiednich programów komputerowych co powoduje, że ci¸agi liczb losowych otrzymane<br />
z tych samych startowych parametrów s¸a powtarzalne a wiȩc nie s¸a naprawdȩ losowe. Z<br />
tej przyczyny używa siȩ czȩsto określenia liczby pseudolosowe.<br />
Najważniejszym ze stosowanych rozk̷ladów jest rozk̷lad jednorodny(równomierny,<br />
jednostajny), gdyż przy jego użyciu można wygenerować liczby pseudolosowe o innych<br />
poż¸adanych rozk̷ladach prawdopodobieństwa. Jak bȩdzie pokazane poniżej istniej¸a<br />
metody pozwalaj¸ace na stworzenie prostych i krótkich programów komputerowych do<br />
generacji liczb pseudolosowych o rozk̷ladzie jednorodnym. Można wiȩc samemu napisać<br />
taki program. Okazuje siȩ jednak, że bezpieczniej jest korzystać z gotowych, o-<br />
pracowanych przez specjalistów procedur, gdyż spe̷lniaj¸a one nie tylko podstawowe<br />
wymagania narzucane na liczby pseudolosowe ale uwzglȩdniaj¸a także bardziej zaawansowane<br />
warunki, które musz¸a być zapewnione przy niektórych obliczeniach. Takimi godnymi<br />
polecenia generatorami liczb losowych s¸a procedury RANLUX i RANMAR z<br />
biblioteki procedur CERN. Pierwszy z nich zosta̷l napisany przez F. Jamesa (Comp. Phys.<br />
Comm. 79 (1994) 111) i oznaczony jest symbolem V115 w bibliotece procedur CERN a<br />
drugi (stworzony w oparciu o raport G. Marsaglia, A. Zaman, and W.W. Tsang, Towards a<br />
Universal Random Number Generator, Supercomputer Computations Research Institute,<br />
Florida State University technical report FSU-SCRI-87-50 (1987)) przez F. Carminati i<br />
F. Jamesa i wystȩpuje jako procedura V113 w bibliotece procedur CERN.<br />
11.3.1 Generacja liczb o rozk̷ladzie równomiernym<br />
W olbrzymiej wiȩkszości przypadków ci¸agi liczb pseudolosowych tworzone s¸a przy pomocy<br />
zwi¸azków rekurencyjnych. Najlepiej zbadanym algorytmem jest tzw. metoda kongruencyjna,<br />
która generuje kolejn¸a liczbȩ pseudolosow¸a w oparciu o k + 1 poprzednich wg<br />
wzoru:<br />
x n+1 = (a 0 x n + a 1 x n 1 + . . . + a k x n k )(modM),<br />
gdzie zapis a(mod b) należy rozumieć jako resztȩ z dzielenia liczby a przez liczbȩ b.<br />
Liczba M a także wszystkie liczby a i oraz x i s¸a liczbami ca̷lkowitymi z przedzia̷lu [0, M).<br />
Generatory stanowi¸ace szczególne przypadki powyższego wzoru maj¸a swoje specjalne<br />
nazwy. Generatory stosuj¸ace wzór:<br />
x n+1 = x n + x n 1 (modM)<br />
nazywane s¸a generatorami Fibonacciego,<br />
te, które używaj¸a relacji:<br />
x n+1 = a 0 x n (modM)<br />
określa siȩ mianem generatorów multiplikatywnych a oparte o wyrażenie:<br />
x n+1 = (a 0 x n + a 1 )(modM)
B.Kamys: Fiz. Komp. 2003/04 73<br />
nosz¸a nazwȩ generatorów mieszanych.<br />
Wszystkie ci¸agi liczb pseudolosowych s¸a ci¸agami okresowymi. Dobry generator powinien<br />
mieć możliwie d̷lugi okres, tak d̷lugi aby w czasie wykonywania prac obliczeniowych wykorzystywać<br />
tylko niewielk¸a czȩść okresu. Maksymalny możliwy okres ci¸agu liczb losowych<br />
otrzymanych ogóln¸a metod¸a kongruencyjn¸a nie może przekroczyć M k+1 . A wiȩc maksymalny<br />
okres generatora Fibonacciego to M 2 a generatora multiplikatywnego i mieszanego<br />
nie przekracza M. Te maksymalne wartości s¸a osi¸agane tylko przy odpowiednim doborze<br />
wspó̷lczynników formu̷ly rekurencyjnej. Na przyk̷lad, można pokazać, że d̷lugość okresu<br />
ci¸agu liczb losowych generatora mieszanego wynosi M wtedy i tylko wtedy, gdy spe̷lnione<br />
s¸a nastȩpuj¸ace warunki:<br />
• a 1 i M nie maj¸a wspólnych dzielników,<br />
• (a 0 − 1) jest wielokrotności¸a liczby pierwszej, która jest dzielnikiem liczby M,<br />
• (a 0 − 1) jest wielokrotności¸a liczby 4, o ile M jest też wielokrotności¸a liczby 4.<br />
Od dobrego generatora, ż¸adamy również aby można by̷lo kolejne liczby pseudolosowe<br />
uważać za niezależne. W szczególności powinny być niezależne liniowo. Możemy to<br />
sprawdzić licz¸ac wspó̷lczynniki korelacji pomiȩdzy parami liczb:<br />
ϱ j ≡ ϱ(x i , x i+j ).<br />
Wspó̷lczynniki korelacji ϱ j ,j=1,2,... powinny być równe zero.<br />
Zamiast liczyć wspó̷lczynniki korelacji można niezależność liniow¸a generowanych liczb<br />
sprawdzać przez wykonanie pewnych kontrolnych zadań rachunkowych. Jednym z najprostszych<br />
zadań jest liczenie metod¸a Monte Carlo (np. podstawow¸a metod¸a szukania<br />
ca̷lki) objȩtości kuli o jednostkowym promieniu w przestrzeni N-wymiarowej. Objȩtość<br />
kuli wynosi:<br />
V N = 2 π N=2<br />
N Γ(N/2) ,<br />
gdzie Γ(N/2) to funkcja gamma Eulera. Funkcja ta przyjmuje wartość √ π <strong>dla</strong> argumentu<br />
1/2 i może być liczona rekurencyjnie wg wzoru Γ(z + 1) = z · Γ(z). Nawet<br />
niewielka korelacja pomiȩdzy generowanymi liczbami pseudolosowymi odbija siȩ wyraźnie<br />
na wynikach obliczeń dyskredytuj¸ac stosowany generator.<br />
Inn¸a, bardzo ważn¸a cech¸a generatora liczb pseudolosowych jest aby te liczby pokrywa̷ly<br />
przedzia̷l (0,1) odpowiednio gȩsto.<br />
Aby to prosto wyjaśnić weźmy pod uwagȩ rekurencyjny algorytm, w którym nastȩpna<br />
liczba generowana jest przy pomocy poprzedniej: x n+1 = f(x n ). Jeżeli wykreślimy<br />
na powierzchni jednostkowego kwadratu (czyli kwadratu o wierzcho̷lkach (0,0),(1,0),(1,1)<br />
i (0,1) po̷lożenia punktów o wspó̷lrzȩdnych (x = x n , y = x n+1 ) to w przypadku<br />
prawdziwych losowych liczb x n i x n+1 powinny one pokrywać równomiernie powierzchniȩ<br />
kwadratu. Natomiast <strong>dla</strong> pseudolosowych liczb dostaniemy punkty leż¸ace na krzywej<br />
y = f(x). A wiȩc krzywa y = f(x) musi wielokrotnie i to w ma̷lych odleg̷lościach<br />
przechodzić przez powierzchniȩ kwadratu aby zapewnić w miarȩ równomierne pokrycie
B.Kamys: Fiz. Komp. 2003/04 74<br />
powierzchni kwadratu. Ten warunek podobnie jak i inne powyżej wymienione jest jedynie<br />
warunkiem koniecznym aby generator móg̷l być uznany za zadawalaj¸acy generator.<br />
Dla surowego testowania generatorów wymyślono ca̷ly zestaw testów, które powinny<br />
być spe̷lniane przez dobre generatory (np. G. Marsaglia, A Current View of Random<br />
Number Generators, Computer Science and Statistics: 16th Symposium on the Interface,<br />
Elsevier (1985)). Wspomniane na wstȩpie generatory RANLUX, RANMAR przesz̷ly<br />
pomyślnie ten zestaw testów.<br />
11.3.2 Generacja liczb losowych o dowolnych rozk̷ladach prawdopodobieństwa<br />
Jeżeli dysponujemy już dobrym generatorem liczb pseudolosowych o rozk̷ladzie równomiernym<br />
na odcinku [0,1] to możemy przyst¸apić do generacji liczb o dowolnych rozk̷ladach prawdopodobieństwa.<br />
Zacznijmy od generacji zmiennej dyskretnej przyjmuj¸acej n wartości<br />
z zadanym rozk̷ladem prawdopodobieństwa:<br />
P (x = x i ) = p i ,<br />
<strong>dla</strong> i = 1, 2, ...n<br />
W tym celu podzielmy przedzia̷l [0,1] na n przedzia̷lów o d̷lugości ∆ i = p i . Liter¸a γ<br />
oznaczać bȩdziemy wygenerowan¸a zmienn¸a o rozk̷ladzie równomiernym w przedziale [0,1].<br />
Wtedy ̷latwo udowodnić nastȩpuj¸ace twierdzenie:<br />
TWIERDZENIE<br />
Losowa wielkość x określona formu̷l¸a<br />
x = x i<br />
gdy γ ∈ ∆ i<br />
ma poszukiwany rozk̷lad dyskretny.<br />
DOWÓD:<br />
♦<br />
P (x = x i ) = P (γ ∈ ∆ i ) = ∆ i = p i<br />
UWAGA 1: Powyższe twierdzenie można uogólnić na przypadek zmiennej dyskretnej<br />
przyjmuj¸acej nieskończenie wiele wartości. Wtedy zarówno wartości zmiennej<br />
x i jak i prawdopodobieństwa p i określone s¸a wzorami określaj¸acymi ich zależność od<br />
wskaźnika i. Dla efektywnego losowania wybiera siȩ pewne n max tak duże, że suma<br />
prawdopodobieństw<br />
n∑<br />
max<br />
p i = 1 − ε<br />
i=1<br />
jest bliska jedności (tj. ε > 0 jest odpowiednio ma̷le) i <strong>dla</strong> wskaźników i = 1, ..., n max<br />
wylicza siȩ przed generacj¸a x i i p i (przechowuj¸ac je nastȩpnie w pamiȩci komputera) a
B.Kamys: Fiz. Komp. 2003/04 75<br />
obliczenia wg zadanych wzorów wykonuje siȩ tylko przy generacji ma̷lo prawdopodobnych<br />
wartości x i (<strong>dla</strong> i > n max ).<br />
♦<br />
UWAGA 2: Czȩsto przy symulacji zjawisk przyrodniczych spotykamy siȩ z sytuacj¸a,<br />
w której musimy zdecydować jakie zdarzenie spośród wszystkich możliwych i wykluczaj¸acych<br />
siȩ zdarzeń (A 1 , A 2 , ..., A n ) zachodzi w danym momencie jeżeli znamy<br />
prawdopodobieństwa tych zdarzeń. Taka sytuacja dok̷ladnie odpowiada schematowi<br />
wyboru wartości zmiennej dyskretnej tożsamej ze wskaźnikiem i danego zdarzenia A i o<br />
znanym rozk̷ladzie prawdopodobieństw p i , i = 1, ..., n.<br />
♦<br />
Generacja zmiennej ci¸ag̷lej z zadan¸a funkcj¸a gȩstości prawdopodobieństwa f(x).<br />
Za̷lóżmy, że zmienna losowa x ma funkcjȩ gȩstości prawdopodobieństwa f(x) > 0 w<br />
skończonym lub nieskończonym przedziale [a,b]. Wtedy dystrybuanta zmiennej x opisywana<br />
jest wzorem:<br />
∫x<br />
F (x) = f(t)dt<br />
a<br />
i jest silnie rosn¸ac¸a funkcj¸a.<br />
TWIERDZENIE<br />
Przy tych za̷lożeniach losowa wielkość x określona formu̷l¸a<br />
F (x) = γ<br />
ma funkcjȩ gȩstości prawdopodobieństwa f(x).<br />
DOWÓD:<br />
Dla silnie rosn¸acej dystrybuanty F (x) możemy napisać nastȩpuj¸acy zespó̷l równań (przez<br />
Y oznaczamy dystrybuantȩ traktowan¸a jako zmienna losowa):<br />
sk¸ad wynika, że<br />
P (y < Y < y + dy) = P (x < X < x + dx)<br />
P (y < Y < y + dy) ≡ g(y)dy<br />
P (x < X < x + dx) ≡ f(x)dx<br />
Z definicji dystrybuanty wiadomo, że:<br />
g(y)dy = f(x)dx<br />
g(F (x))dF (x) = f(x)dx.<br />
dF (x) = f(x)dx,
B.Kamys: Fiz. Komp. 2003/04 76<br />
a wiȩc<br />
g(F (x)) = 1,<br />
czyli dystrybuanta ma rozk̷lad równomierny w przedziale [0,1].<br />
St¸ad generuj¸ac wartość liczby losowej γ określamy jednoznacznie wartość dystrybuanty<br />
F(x) a co za tym idzie wartość zmiennej x o funkcji gȩstości prawdopodobieństwa f(x):<br />
x = F<br />
1 (γ),<br />
gdzie F<br />
♦<br />
1 (x) oznacza funkcjȩ odwrotn¸a do dystrybuanty.<br />
UWAGA 1: Jeżeli funkcja gȩstości prawdopodobieństwa f(x) zeruje siȩ na pewnych odcinkach<br />
wartości argumentu to dystrybuanta F(x) nie jest funkcj¸a silnie rosn¸ac¸a i wtedy<br />
rozwi¸azanie równania F (x) = γ nie jest jednoznaczne (F(x) nie ma funkcji odwrotnej).<br />
Można temu jednak zapobiec zastȩpuj¸ac funkcjȩ odwrotn¸a do dystrybuanty F<br />
1 (x) przez<br />
funkcjȩ G(y) zdefiniowan¸a nastȩpuj¸aco:<br />
G(y) ≡<br />
inf x<br />
fxjy
B.Kamys: Fiz. Komp. 2003/04 77<br />
Dystrybuanta:<br />
∫x<br />
F (x) = C · exp[−C(t − x 0 )] · dt = 1 − exp[−C(x − x 0 )].<br />
x 0<br />
Rozwi¸azujemy ze wzglȩdu na x równanie F (x) = γ, gdzie γ jest pseudolosow¸a liczb¸a<br />
o rozk̷ladzie równomiernym w [0,1]. Wstawiaj¸ac jawn¸a postać dystrybuanty dostajemy:<br />
1 − exp[−C(x − x 0 )] = γ. Rozwi¸azanie równania to:<br />
x = x 0 − 1 C<br />
· ln(1 − γ).<br />
♦<br />
Szukanie funkcji odwrotnej do dystrybuanty może być trudne ze wzglȩdów numerycznych.<br />
Wtedy czȩsto daje siȩ uprościć generacjȩ stosuj¸ac tzw. metodȩ superpozycji. Używa siȩ<br />
jej wtedy gdy dystrybuantȩ zmiennej, któr¸a chcemy generować udaje siȩ przedstawić<br />
w postaci kombinacji liniowej dystrybuant o prostszej postaci, takich <strong>dla</strong> których ̷latwo<br />
znaleźć funkcje odwrotne. Istotne jest, że wspó̷lczynniki kombinacji liniowej (o skończonej<br />
lub nieskończonej liczbie wyrazów) powinny mieć wartości należ¸ace do przedzia̷lu (0,1)<br />
a ich suma ma być równa jedności, tak aby można je by̷lo interpretować jako prawdopodobieństwa.<br />
Wtedy kombinacjȩ liniow¸a można interpretować jako formu̷lȩ pe̷lnego<br />
prawdopodobieństwa:<br />
F (x) = N ∑<br />
N∑<br />
k=1<br />
k=1<br />
c k · F k (x)<br />
c k = 1, 0 < c k < 1<br />
W metodzie superpozycji generujemy dwie niezależne liczby losowe o rozk̷ladzie jednorodnym<br />
w [0,1]: γ 1 i γ 2 . Pierwsz¸a z nich stosujemy do losowego wyboru wartości wskaźnika k<br />
(zgodnie z przepisem podanym wyżej <strong>dla</strong> generacji wartości dyskretnej zmiennej) a drug¸a<br />
do generacji wartości zmiennej x posiadaj¸acej dystrybuantȩ F k (x).<br />
PRZYK̷LAD:<br />
Chcemy generować wartości zmiennej x o funkcji gȩstości prawdopodobieństwa:<br />
Dystrybuanta zmiennej x ma postać:<br />
f(x) = 5 12 · [1 + (x − 1)4 ] <strong>dla</strong> x ∈ (0, 2).<br />
F (x) = 1 5 · [(x − 1)5 + 1] <strong>dla</strong> ∈ (0, 2)
B.Kamys: Fiz. Komp. 2003/04 78<br />
co powoduje, że <strong>dla</strong> generacji metod¸a funkcji odwrotnych musielibyśmy rozwi¸azać równanie<br />
pi¸atego stopnia:<br />
1 (<br />
(x − 1) 5 + 5x + 1 ) = γ.<br />
12<br />
Gdy przedstawimy funkcjȩ gȩstości prawdopodobieństwa jako kombinacjȩ liniow¸a o<br />
wspó̷lczynnikach c 1 = (5/6) i c 2 = (1/6) dwu funkcji gȩstości prawdopodobieństwa:<br />
f(x) =<br />
( 5<br />
6)<br />
· 1 ( ) 1<br />
2 + 6<br />
to dystrybuanta też bȩdzie kombinacj¸a liniow¸a postaci:<br />
F (x) =<br />
( 5<br />
6)<br />
· 5 (x − 1)4<br />
2<br />
· x ( ) 1<br />
2 + · 1<br />
6 2 [(x − 1)5 + 1].<br />
Wtedy generacja metod¸a funkcji odwrotnej <strong>dla</strong> obu prostszych dystrybuant daje jawne<br />
wzory na funkcje odwrotne i dostajemy nastȩpuj¸acy przepis na wyliczenie x:<br />
♦<br />
x = 2γ 2 gdy γ 1 < 5/6<br />
= 1 + 5 √2γ 2 − 1 gdy γ 1 ≥ 5/6.<br />
Obok metody funkcji odwrotnych używa siȩ <strong>dla</strong> generacji liczb losowych również inne<br />
metody, spośród których najbardziej popularna jest metoda eliminacji zaproponowana<br />
przez J. von Neumanna lub metody wykorzystuj¸ace wzory typu: x = g(γ 1 , γ 2 , ..., γ n ).<br />
Omówimy je poniżej.<br />
Metodȩ eliminacji stosuje siȩ gdy zmienna x ma rozk̷lad o gȩstości prawdopodobieństwa<br />
opisany funkcj¸a f(x) w przedziale [a,b] i równy zero poza przedzia̷lem, oraz f(x) jest<br />
ograniczona od góry: f(x) ≤ c. Postȩpuje siȩ wtedy wg nastȩpuj¸acej procedury:<br />
1. Generujemy wartość zmiennej x wg wzoru: x = (b − a)γ 1 + a z rozk̷ladem<br />
jednorodnym w przedziale [a,b].<br />
2. Generujemy wartość zmiennej y wg wzoru: y = cγ 2 z rozk̷ladem jednorodnym w<br />
przedziale [0,c].<br />
3. Sprawdzamy, czy y ≤ f(x). Jeżeli tak, to akceptujemy wartość x, w przeciwnym<br />
przypadku para (x,y) jest eliminowana i generacjȩ powtarza siȩ od nowa.
B.Kamys: Fiz. Komp. 2003/04 79<br />
Metody wykorzystuj¸ace przekszta̷lcenie x = g(γ 1 , γ 2 , ..., γ n )<br />
PRZYK̷LAD Pokażemy, że zmienn¸a o rozk̷ladzie gȩstości prawdopodobieństwa:<br />
czyli o dystrybuancie<br />
f(x) = n · x n 1 <strong>dla</strong> x ∈ [0, 1]<br />
F (x) = x n <strong>dla</strong> x ∈ [0, 1]<br />
można generować stosuj¸ac wzór: x = max(γ 1 , ..., γ n ).<br />
Dowód:<br />
Wprowadźmy funkcjȩ schodkow¸a zdefiniowan¸a nastȩpuj¸aco:<br />
{<br />
0 <strong>dla</strong> z ≤ 0<br />
θ(z) =<br />
1 <strong>dla</strong> z > 0.<br />
Zmienna losowa g(γ 1 , ..., γ n ) bȩdzie mia̷la dystrybuantȩ F (x) wtedy i tylko wtedy gdy<br />
∫ 1<br />
0<br />
∫ 1<br />
. . .<br />
0<br />
dy 1 . . . dy n θ(x − g(γ 1 , ..., γ n )) = F (x).<br />
Jest oczywiste, że θ(x− max<br />
1in y i) nie równa jest zero wtedy i tylko wtedy gdy równocześnie<br />
y 1 < x, y 2 < x , ..., y n < x. A wiȩc ca̷lka<br />
może być zapisana jako:<br />
∫1<br />
0<br />
∫1<br />
. . .<br />
0<br />
dy 1 . . . dy n θ(x − max<br />
1in y i)<br />
∫x ∫x<br />
. . . dy 1 . . . dy n = x n<br />
0<br />
0<br />
a to jest w̷laśnie taka dystrybuanta zmiennej x jak¸a chcielibyśmy uzyskać.<br />
♦<br />
UWAGA<br />
Zmienn¸a losow¸a o dystrybuancie F (x) = x n <strong>dla</strong> x ∈ [0, 1] można generować metod¸a<br />
funkcji odwrotnych, z której dostajemy:<br />
x = n√ γ.<br />
Porównuj¸ac ten wynik z poprzednim dostajemy zaskakuj¸acy wniosek, że można<br />
zast¸apić obliczanie pierwiastka n-tego stopnia z liczby losowej o rozk̷ladzie<br />
równomiernym w [0,1] przez obliczanie maksimum n liczb losowych o takim<br />
rozk̷ladzie.
B.Kamys: Fiz. Komp. 2003/04 80<br />
11.3.3 Generacja wielowymiarowych zmiennych losowych<br />
Metoda eliminacji może być ̷latwo uogólniona na przypadek zmiennych wielowymiarowych.<br />
Jeżeli f(x 1 , x 2 , ..., x n ) jest gȩstości¸a prawdopodobieństwa <strong>dla</strong> n-wymiarowej<br />
zmiennej losowej (x 1 , x 2 , ...x n ), która znika poza kostk¸a n-wymiarow¸a: a i ≤ b i , i =<br />
1, 2, .., n i ograniczon¸a przez liczbȩ c to przeprowadzamy generacjȩ w nastȩpuj¸acy sposób:<br />
1. Generujemy wartość zmiennej x 1 , x 2 , ...x n+1 wg wzoru:<br />
x i = (b i − a i )γ i + a i , i = 1, 2, ..., n oraz x n+1 = cγ n+1<br />
z rozk̷ladem równomiernym w przedziale (a 1 ≤ x 1 ≤ b 1 , ..., a n ≤ x n ≤ b n ) i<br />
ograniczon¸a przez liczbȩ c: (0 ≤ x n+1 ≤ c)<br />
2. Sprawdzamy, czy x n+1 ≤ f(x 1 , x 2 , ..., x n ). Jeżeli tak, to akceptujemy punkt<br />
x 1 , x 2 , ..., x n , w przeciwnym przypadku punkt ten jest eliminowany i generacjȩ<br />
powtarza siȩ od nowa.<br />
Wielowymiarowe zmienne losowe możemy również generować metod¸a funkcji odwrotnych.<br />
Należy rozważyć oddzielnie dwa przypadki:<br />
1. Gdy poszczególne sk̷ladowe wielowymiarowej zmiennej s¸a niezależne to każd¸a z nich<br />
generuje siȩ niezależnie jedn¸a z metod omawianych <strong>dla</strong> jednowymiarowych zmiennych<br />
losowych.<br />
2. Gdy sk̷ladowe s¸a zależne to korzystamy z poniższego twierdzenia:<br />
TWIERDZENIE<br />
Gdy γ 1 , γ 2 , ..., γ n s¸a niezależnymi liczbami losowymi o rozk̷ladzie równomiernym w<br />
przedziale [0,1) to zbiór liczb x 1 , x 2 , ..., x n otrzymanych jako rozwi¸azania nastȩpuj¸acego<br />
uk̷ladu równań:<br />
F 1 (x 1 ) = γ 1<br />
F 2 (x 2 |x 1 ) = γ 2<br />
· · ·<br />
F n (x n |x 1 , ..., x n 1 ) = γ n<br />
ma poż¸adan¸a gȩstość prawdopodobieństwa f(x 1 , x 2 , ..., x n ).<br />
♦
B.Kamys: Fiz. Komp. 2003/04 81<br />
12 TESTOWANIE HIPOTEZ STATYSTYCZNYCH<br />
12.1 Definicje elementarnych pojȩć<br />
Poniżej podamy definicje elementarnych pojȩć stosowanych przy testowaniu hipotez.<br />
Hipotez¸a statystyczn¸a nazywamy hipotezȩ odnosz¸ac¸a siȩ do rozk̷ladu prawdopodobieństwa<br />
zmiennej losowej (funkcji gȩstości prawdopodobieństwa, itp.) lub do parametrów rozk̷ladu<br />
prawdopodobieństwa.<br />
Hipoteza prosta to taka, która jednoznacznie określa dystrybuantȩ (rozk̷lad) zmiennej<br />
losowej, tzn. podana jest postać rozk̷ladu i wartości wszystkich parametrów.<br />
Hipoteza z̷lożona to taka, która nie jest prosta, np. podana jest postać rozk̷ladu a<br />
nie s¸a znane wartości niektórych parametrów.<br />
Hipoteza parametryczna to hipoteza odnosz¸aca siȩ do wartości parametrów rozk̷ladu.<br />
Inne hipotezy nazywaj¸a siȩ hipotezami nieparametrycznymi i z natury s¸a hipotezami<br />
z̷lożonymi.<br />
Hipoteza zerowa ”<br />
H 0 ” to sprawdzana hipoteza.<br />
Hipoteza alternatywna H ” 1 ” to hipoteza, któr¸a bylibyśmy sk̷lonni przyj¸ać gdy<br />
” H 0” jest nieprawdziwa.<br />
UWAGA:<br />
” H 1” nie musi być prostym zaprzeczeniem H ” 0 ”<br />
B̷l¸ad pierwszego rodzaju to odrzucenie prawdziwej ”<br />
H 0 ”.<br />
Poziomem istotności ”<br />
α” nazywamy prawdopodobieństwo pope̷lnienia b̷lȩdu pierwszego<br />
rodzaju. Przyjmuje siȩ zwykle ”<br />
α” ∈ [0.1−0.001] – konkretny wybór oczywiście<br />
zależy od tego jak kosztowne bȩd¸a skutki pope̷lnienia b̷lȩdu pierwszego rodzaju.<br />
B̷l¸ad drugiego rodzaju to przyjȩcie nieprawdziwej ”<br />
H 0 ”.<br />
UWAGA: Przez sformu̷lowanie ”<br />
przyjȩcie hipotezy” należy rozumieć stwierdzenie, że ”<br />
nie<br />
mamy podstaw do odrzucenia hipotezy H 0 ”. Inaczej mówi¸ac pomiaru, którego wynik<br />
nie przeczy hipotezie nie można uważać za dowód prawdziwości hipotezy !!!<br />
Moc¸a testu nazywamy prawdopodobieństwo odrzucenia fa̷lszywej ”<br />
H 0 ”, tzn. prawdopodobieństwo<br />
tego, że nie pope̷lnimy b̷lȩdu II rodzaju. Moc testu oznacza siȩ zwykle<br />
przez ”<br />
1 − β” gdzie ”<br />
β” oznacza prawdopodobieństwo pope̷lnienia b̷lȩdu II rodzaju.<br />
Tablica 1: Wyniki podejmowania decyzji przy testowaniu hipotez<br />
H 0 prawdziwa H 1 prawdziwa<br />
Przyjȩcie H 0 Decyzja prawid̷lowa B̷l¸ad II rodzaju<br />
Przyjȩcie H 1 B̷l¸ad I rodzaju Decyzja prawid̷lowa
B.Kamys: Fiz. Komp. 2003/04 82<br />
12.2 Test normalności rozk̷ladu<br />
Wiȩkszość metod statystyki jest dobrze opracowana matematycznie <strong>dla</strong> zmiennych o<br />
rozk̷ladzie normalnym natomiast nie jest oczywiste, że dadz¸a siȩ zastosować bez modyfikacji<br />
<strong>dla</strong> zmiennych o innych rozk̷ladach. Z tej przyczyny przed rozpoczȩciem bardziej<br />
zaawansowanych rozważań statystycznych należy siȩ upewnić, że badana zmienna podlega<br />
rozk̷ladowi normalnemu. Sprawdzana hipoteza zerowa polega na stwierdzeniu, że rozk̷lad<br />
badanej zmiennej jest rozk̷ladem normalnym. W zależności od testu zak̷lada siȩ znajomość<br />
parametrów rozk̷ladu jak np. w teście lambda Ko̷lmogorowa lub też nie jest<br />
to niezbȩdne jak np. w badaniu wykresu normalnego.<br />
12.2.1 Test zerowania siȩ wspó̷lczynnika asymetrii i kurtozy<br />
Test ten polega na sprawdzeniu, czy spe̷lnione s¸a warunki konieczne do tego aby rozk̷lad<br />
badanej zmiennej móg̷l być rozk̷ladem normalnym. Wiadomo, że <strong>dla</strong> rozk̷ladu normalnego<br />
wspó̷lczynnik asymetrii i kurtoza (wspó̷lczynnik przewyższenia) znikaj¸a niezależnie od<br />
tego jaka jest wartość oczekiwana i wariancja rozk̷ladu. A wiȩc<br />
• Hipoteza zerowa, H 0 :<br />
(γ 1 = 0) ∧ (γ 2 = 0)<br />
• Statystyka testowa:<br />
Q 1 =<br />
Q 2 =<br />
√ n · g1<br />
√<br />
6<br />
√ n · g2<br />
√<br />
24<br />
gdzie g 1 i g 2 to estymatory wspó̷lczynnika asymetrii γ 1 i kurtozy γ 2 :<br />
γ 1 ≡ E ((x − E(x))3 )<br />
σ 3 (x)<br />
γ 1 ≡ E ((x − E(x))4 )<br />
σ 4 (x)<br />
− 3
B.Kamys: Fiz. Komp. 2003/04 83<br />
opisane poniższymi wzorami:<br />
g 1 = M 3<br />
√<br />
M<br />
3<br />
2<br />
, g 2 = M 4<br />
M 2 2<br />
UWAGA:<br />
Wielkości M 2 , M 3 i M 4 to nie s¸a momenty liczone wzglȩdem pocz¸atku uk̷ladu<br />
lecz estymatory momentów centralnych odpowiednio drugiego, trzeciego i czwartego<br />
rzȩdu:<br />
M 2 ≡ 1 n<br />
M 3 ≡ 1 n<br />
M 4 ≡ 1 n<br />
n∑<br />
i=1<br />
n∑<br />
i=1<br />
n∑<br />
i=1<br />
(x i − ¯x) 2<br />
(x i − ¯x) 3<br />
(x i − ¯x) 4<br />
Jeżeli hipoteza zerowa jest prawdziwa oraz próba jest bardzo duża to statystyki<br />
g 1 i g 2 maj¸a rozk̷lady normalne o wartościach oczekiwanych<br />
i odchyleniach standardowych:<br />
− 3<br />
E(g 1 ) ≈ 0 E(g 2 ) ≈ 0<br />
σ(g 1 ) ≈<br />
√<br />
6<br />
n<br />
σ(g 2 ) ≈<br />
√<br />
24<br />
n<br />
Wtedy estymatory Q 1 i Q 2 maj¸a standardowe rozk̷lady normalne N(0,1).<br />
• Hipoteza alternatywna to zaprzeczenie H 0 :<br />
prawdziwe wartości γ 1 i γ 2 nie s¸a równe 0.<br />
• Obszar krytyczny dwustronny. Brzegi określone przez kwantyl rozk̷ladu N(0,1):<br />
| Q 1 |> U 1<br />
<br />
2<br />
⋃<br />
| Q2 |> U 1<br />
<br />
2<br />
Jeżeli rozmiary próby nie s¸a bardzo duże to rozk̷lad statystyk Q 1 i Q 2 nie przyjmuje<br />
swej asymptotycznej postaci; N(0,1) ale wartości oczekiwane i wariancje tych zmiennych<br />
s¸a bliskie odpowiednio zeru i jedności. Można to wykorzystać do stworzenia obszaru<br />
krytycznego w oparciu o nierówność Czebyszewa . Jako obszar krytyczny przyjmuje siȩ<br />
⋃<br />
wartości ( | Q 1 |> 3 | Q2 |> 3 ) tj. poziom istotności równy α = 1/9.
B.Kamys: Fiz. Komp. 2003/04 84<br />
Należy zwrócić uwagȩ na fakt, że powyższy test pozwala zwykle w uzasadniony sposób<br />
odrzucić hipotezȩ zerow¸a (gdy Q 1 lub Q 2 trafia do obszaru krytycznego) natomiast fakt,<br />
że wartości tych statystyk nie s¸a sprzeczne z hipotez¸a zerow¸a nie wyklucza możliwości, że<br />
mamy do czynienia z rozk̷ladem różnym od normalnego.<br />
12.2.2 Test zgodności λ - Ko̷lmogorowa<br />
Ten test stosowany jest do porównania rozk̷ladu prawdopodobieństwa z próby ze znanym<br />
(teoretycznym) rozk̷ladem. Tu wykorzystujemy go do testowania normalności rozk̷ladu<br />
ale można go stosować do dowolnych teoretycznych rozk̷ladów ci¸ag̷lej zmiennej<br />
losowej. Parametry rozk̷ladu powinny być określone w hipotezie zerowej.<br />
Pomiary z próby x 1 , x 2 , x 3 , ...x n porz¸adkujemy wg wzrastajacej wartości otrzymuj¸ac<br />
nastȩpujacy ci¸ag:<br />
x<br />
1 ≤ x <br />
2 ≤ x <br />
3 ≤ ... x n<br />
Zmienn¸a losow¸a X m , tak¸a, że jej realizacja x m zajmuje w ci¸agu m − te miejsce nazywamy<br />
statystyk¸a pozycyjn¸a rzȩdu m w próbie n-elementowej.<br />
Tworzymy empiryczn¸a dystrybuantȩ F n (x) obserwowanej w próbie zmiennej losowej X:<br />
⎧<br />
⎪⎨<br />
F n (x) =<br />
⎪⎩<br />
0 gdy x ≤ x<br />
1<br />
m<br />
n gdy x m < x ≤ x<br />
m+1<br />
, 1 ≤ m ≤ n − 1<br />
1 gdy x > x n<br />
Empiryczna dystrybuanta jest zwyk̷l¸a funkcj¸a argumentu x ale jest równocześnie<br />
statystyk¸a bo jest definiowana przez wszystkie wielkości x<br />
1 , ..., x n z próby.<br />
Można pokazać, że wartość oczekiwana empirycznej dystrybuanty jest równa oszacowywanej<br />
wielkości teoretycznej dystrybuanty<br />
E(F n (x)) = F (x)<br />
a jej wariancja d¸aży do zera gdy rozmiary próby d¸aż¸a do nieskończoności<br />
σ 2 (F n (x)) = 1 n<br />
· F (x) · (1 − F (x)) → 0.<br />
St¸ad F n (x) jest nieobci¸ażonym i zgodnym estymatorem F(x).
B.Kamys: Fiz. Komp. 2003/04 85<br />
• Hipoteza zerowa<br />
Dystrybuanta obserwowanej zmiennej losowej jest dystrybuant¸a rozk̷ladu normalnego<br />
o parametrach E(x) = x 0 , σ(x) = σ:<br />
E(F n(x)) =<br />
∫ x<br />
1 dx · 1<br />
√<br />
2πσ · exp(− (x − x 0) 2<br />
2σ 2 )<br />
• Statystyka testowa:<br />
w oryginalnej wersji - zaproponowanej przez Ko̷lmogorowa:<br />
D n = sup x<br />
| F n (x) − F (x) |<br />
Smirnow zaproponowa̷l dwie inne definicje statystyki testowej (st¸ad czȩsto używana<br />
nazwa test Ko̷lmogorowa-Smirnowa):<br />
D + n = sup x (F n(x) − F (x))<br />
D n = − inf<br />
x (F n(x) − F (x))<br />
Dla praktycznych rachunków wykorzystuje siȩ nieco inne wzory, które wymagaj¸a<br />
znajomości teoretycznej dystrybuanty tylko <strong>dla</strong> zmierzonych wartości zmiennej<br />
X:<br />
D + n = max<br />
1mn ( m n − F (x m ) )<br />
D n = max<br />
1mn ( F (x m ) − m − 1<br />
n<br />
D n = max( D n + , D n )<br />
)<br />
• Obszar krytyczny: prawostronny (duże wartości D n , tzn. D n > D n (1 − α))<br />
Granicȩ obszaru krytycznego, tj. kwantyl D n (1 − α) można <strong>dla</strong> n ≥ 10 oraz<br />
<strong>dla</strong> poziomu istotności α ≥ 0, 01 wyliczyć z przybliżonego wzoru (dok̷ladność nie<br />
gorsza niż 3 cyfry znacz¸ace)<br />
D n (1 − α) ≈<br />
√<br />
1<br />
2n · (y − 2y2 − 4y − 1<br />
) − 1<br />
18n 6n<br />
y ≡ − ln(0, 5 · α)
B.Kamys: Fiz. Komp. 2003/04 86<br />
Po wyliczeniu z próby wartości statystyki D n porównujemy j¸a z kwantylem D n (1 − α)<br />
znalezionym z tablic lub wyliczonym z podanego wzoru (W praktyce możemy wyliczać ten<br />
kwantyl wg wzoru ponieważ zarówno typowe poziomy istotności α ≥ 0, 01 jak i liczebność<br />
próby n ≥ 10 odpowiadaj¸a warunkom stosowania tego wzoru.)<br />
Gdy D n > D n (1−α) odrzucamy hipotezȩ zerow¸a, tzn. stwierdzamy, że dane doświadczalne<br />
wykluczaj¸a to aby rozk̷lad prawdopodobieństwa populacji by̷l rozk̷ladem normalnym z<br />
parametrami E(x) = x 0 i σ(x) = σ, przy czym nasz wniosek może być b̷lȩdny z<br />
prawdopodobieństwem α.<br />
UWAGA:<br />
1. Statystyka D n powinna być liczona ze szczegó̷lowego szeregu statystycznego ( tj. z<br />
indywidualnych pomiarów ) a nie może być liczona z szeregu rozdzielczego (danych<br />
pogrupowanych)!!<br />
2. Statystyka D n testu Ko̷lmogorowa - Smirnowa ma <strong>dla</strong> n d¸aż¸acego do nieskończoności<br />
rozk̷lad niezależny od postaci porównywanych rozk̷ladów:<br />
To jest wielk¸a zalet¸a testu ale jest również pewn¸a s̷labości¸a bo przez to jest stosunkowo<br />
ma̷lo czu̷ly na postać ogonów rozk̷ladu. Aby to poprawić stosuje siȩ<br />
specjaln¸a odmianȩ tego testu tzw. test Andersona - Darlinga, który przy liczeniu<br />
wartości krytycznych testu wykorzystuje specyfikȩ badanych rozk̷ladów. Te wartości<br />
liczone s¸a przy pomocy specjalnych programów komputerowych.<br />
3. Dla poprawnego stosowania testu Ko̷lmogorowa - Smirnowa niezbȩdna jest znajomość<br />
wartości parametrów teoretycznego rozk̷ladu. Jeżeli nie znamy tych parametrów<br />
- musimy je wcześniej oszacować, np. przy pomocy metody najwiȩkszej wiarygodności.<br />
Istniej¸a programy, które dokonuj¸a automatycznie takiego oszacowania<br />
(np. w pakiecie STATISTICA ta wersja testu nazywa siȩ<br />
testem Ko̷lmogorowa -Smirnowa z poprawk¸a Lillieforsa .<br />
12.2.3 Test zgodności Andersona-Darlinga<br />
Jak to wspomniano wyżej ten test jest modyfikacj¸a testu Ko̷lmogorowa-Smirnowa wykorzystuj¸ac¸a<br />
do liczenia wartości krytycznych w̷lasności badanego rozk̷ladu (tu - rozk̷ladu<br />
normalnego). Test ten jest bardziej czu̷ly na kszta̷lt ”ogonów” rozk̷ladu.<br />
• Hipoteza zerowa<br />
Dystrybuanta obserwowanej zmiennej losowej jest dystrybuant¸a rozk̷ladu normalnego.<br />
• Hipoteza alternatywna<br />
Zaprzeczenie hipotezy zerowej.
B.Kamys: Fiz. Komp. 2003/04 87<br />
• Statystyka testowa<br />
A 2 = −n − S gdzie<br />
S = n ∑<br />
i=1<br />
(2i 1)<br />
n<br />
{<br />
ln F (x i ) + ln[1 − F (x<br />
n+1 i )] }<br />
F (x i ) − dystrybuanta danego rozkladu normalnego<br />
x i − <strong>statystyka</strong> pozycyjna<br />
• Obszar krytyczny<br />
Prawostronny (duże wartości statystyki testowej): A 2 > A 2 1 .<br />
Typowe wartości krytyczne testu:<br />
A 2 0:9 = 1.062<br />
A 2 0:95 = 1.321<br />
A 2 0:975 = 1.591<br />
A 2 0:99 = 1.959<br />
UWAGA: Te kwantyle s¸a policzone przy za̷lożeniu, że badany rozk̷lad jest normalny.<br />
Nie mog¸a wiȩc być stosowane <strong>dla</strong> testowania czy dane maj¸a inny rozk̷lad.<br />
12.2.4 Test zgodności χ 2 - Pearsona<br />
Podobnie jak test λ Ko̷lmogorowa tak i ten test stosowany jest do porównania rozk̷ladu<br />
prawdopodobieństwa z próby ze znanym (teoretycznym) rozk̷ladem. Tu wykorzystujemy<br />
go do testowania normalności rozk̷ladu ale można go stosować do dowolnych teoretycznych<br />
rozk̷ladów ci¸ag̷lej lub dyskretnej zmiennej losowej ale<br />
pomiary musz¸a być pogrupowane (szereg rozdzielczy) - wprost przeciwnie niż w przypadku<br />
testu Ko̷lmogorowa.<br />
• Hipoteza zerowa<br />
Dystrybuanta obserwowanej zmiennej losowej jest dystrybuant¸a rozk̷ladu normalnego:<br />
∫ x<br />
E(F n(x)) =<br />
1 dx · 1<br />
√ · exp(− (x − x 0) 2<br />
)<br />
2πσ 2σ 2<br />
• Statystyka testowa:<br />
k∑<br />
X 2 (n i − n · π i ) 2<br />
=<br />
nπ i<br />
i=1
B.Kamys: Fiz. Komp. 2003/04 88<br />
gdzie<br />
– k to liczba przedzia̷lów w szeregu rozdzielczym (przynajmniej kilka),<br />
– n i to liczebność i − tego przedzia̷lu (n i ≥ 5),<br />
– π i to prawdopodobieństwo zaobserwowania pomiarów w przedziale i − tym<br />
jeżeli prawdziwa jest hipoteza zerowa,<br />
– n to liczba wszystkich pomiarów.<br />
Dowodzi siȩ, że asymptotycznie (tzn. <strong>dla</strong> n → ∞) <strong>statystyka</strong> X 2 ma rozk̷lad<br />
χ 2 k r 1<br />
, gdzie r jest liczb¸a nieznanych parametrów teoretycznego rozk̷ladu (<strong>dla</strong><br />
rozk̷ladu normalnego r = 2) oszacowywanych wstȩpnie z próby metod¸a najwiȩkszej<br />
wiarygodności.<br />
• Obszar krytyczny to duże wartości X 2 (X 2 > χ 2 k r 1<br />
(1 − α)), gdzie w naszym<br />
przypadku testowania normalności rozk̷ladu χ 2 k r 1<br />
(1 − α) jest kwantylem rzȩdu<br />
1 − α rozk̷ladu χ 2 k 1<br />
(gdy znamy E(x) i σ(x) rozk̷ladu normalnego) lub rozk̷ladu<br />
χ 2 k 3<br />
(gdy musimy oszacować przed testowaniem normalności E(x) i σ(x) ).<br />
Test χ 2 również nie wymaga skomplikowanych obliczeń i <strong>dla</strong>tego może być przeprowadzony<br />
bez użycia komputera ale kwantyle tego rozk̷ladu nie dadz¸a siȩ policzyć tak prosto<br />
jak <strong>dla</strong> testu Ko̷lmogorowa. Musimy korzystać z tablic statystycznych.<br />
12.2.5 Wykres normalny<br />
Wykres ten jest szczególnym przypadkiem wykresu kwantyl - kwantyl, na którym przedstawia<br />
siȩ estymatory kwantyli <strong>dla</strong> rozk̷ladu zmiennej z próby w funkcji kwantyli teoretycznego<br />
rozk̷ladu. Jako kwantyle teoretycznego rozk̷ladu bierze siȩ kwantyle standardowego<br />
rozk̷ladu normalnego. Jako kwantyle doświadczalne bierzemy kolejne wartości pozycyjnej<br />
statystyki z próby. Jeżeli hipoteza zerowa (normalność rozk̷ladu mierzonej wielkości X)<br />
jest prawdziwa to tak otrzymany wykres powinien być lini¸a prost¸a. Odstȩpstwa od prostoliniowości<br />
s¸a argumentem za odrzuceniem hipotezy zerowej.<br />
• Hipoteza zerowa<br />
Dystrybuanta obserwowanej zmiennej losowej jest dystrybuant¸a rozk̷ladu normalnego,<br />
przy czym <strong>dla</strong> tego testu nie jest wymagana znajomość parametrów rozk̷ladu.<br />
• Statystyka testowa<br />
Jako statystykȩ testow¸a można wzi¸ać estymator wspólczynnika korelacji r pomiȩdzy<br />
doświadczalnymi i teoretycznymi kwantylami.<br />
Postȩpujemy nastȩpuj¸aco:<br />
1. Porz¸adkujemy pomiary {x k } tak aby utworzy̷ly ci¸ag rosnacy {x k } czyli statystykȩ<br />
pozycyjn¸a. Statystykȩ pozycyjn¸a rzȩdu k z n - elementowej próby traktujemy<br />
jako estymator kwantyla na poziomie k/(n + 1).<br />
2. Szukamy z k , tj. teoretycznego kwantyla standardowego rozk̷ladu normalnego<br />
na poziomie k/(n + 1) wykorzystuj¸ac relacjȩ:
B.Kamys: Fiz. Komp. 2003/04 89<br />
F (z k ) =<br />
k<br />
( ) k<br />
n + 1 ⇒ z k = F 1 n + 1<br />
3. Rysujemy pary {z k , x k }. Gdy wykres wyraźnie różni siȩ od linii prostej to<br />
odrzucamy H 0 , w przeciwnym wypadku liczymy estymator wspó̷lczynnika korelacji<br />
r(z k , x k ) i przeprowadzamy bardziej ilościowe rozważania.<br />
• Obszar krytyczny to ma̷le wartości estymatora r wspó̷lczynnika korelacji ϱ(z k , x k ),<br />
tj. mniejsze od odpowiednich wartości krytycznych r n (α) zależnych od poziomu istotności<br />
α (test lewostronny). Wartości te można znaleźć w tablicach lub zastosować<br />
przybliżone wzory podane poniżej:<br />
r n (α = 0.05) ≈ 1 − 0.5669<br />
n , r n(α = 0.01) ≈ 1 − 0.3867<br />
2=3 n 2=3<br />
Wzory te daj¸a krytyczne wartości wspó̷lczynnika korelacji r n (α) <strong>dla</strong> dwu<br />
poziomów istotności α z dok̷ladności¸a nie gorsz¸a niż 1% jeżeli rozmiar próby n leży<br />
w przedziale 5 < n < 1000.<br />
UWAGA:<br />
Jeżeli linia prosta jest dobrym przybliżeniem, to wspó̷lczynnik kierunkowy prostej<br />
{z k , x k } równy jest parametrowi skali (tj. odchyleniu standardowemu) a wspó̷lrzȩdna<br />
przeciȩcia prostej z osi¸a x k równa jest wspó̷lczynnikowi tendencji centralnej (wartości<br />
oczekiwanej X). W ten sposób można oszacować parametry rozk̷ladu normalnego, rz¸adz¸acego<br />
wartościami zmiennej z próby.
B.Kamys: Fiz. Komp. 2003/04 90<br />
12.3 HIPOTEZY DOTYCZA¸ CE WARTOŚCI OCZEKIWANEJ<br />
Zajmujemy siȩ zmiennymi o rozk̷ladzie normalnym. S¸a dwie podstawowe hipotezy, które<br />
bada siȩ najczȩściej:<br />
• Porównanie E(X) z liczb¸a:<br />
H 0 : E(X) = x 0 , oraz<br />
• Porównanie wartości oczekiwanych dwu populacji:<br />
H 0 : E(X) = E(Y )<br />
Każda z tych hipotez może oczywiście być formu̷lowana jako nierówność, np. H 0 :<br />
E(X) > X 0 ale wtedy hipoteza zerowa jest z̷lożona a wiȩc nie mamy jednoznacznie<br />
zdefiniowanego rozk̷ladu X. Z tego powodu wygodniej jest zawsze brać jako hipotezȩ<br />
zerow¸a równość E(X) z dan¸a liczb¸a lub E(Y) a interesuj¸ac¸a nas hipotezȩ traktować jako<br />
hipotezȩ alternatywn¸a.<br />
12.3.1 PORÓWNANIE E(X) Z LICZBA¸ (H 0 : E(X)=X 0 )<br />
Musimy rozróżnić dwa przypadki:<br />
• gdy znamy σ(X), wtedy jako statystykȩ testow¸a T n (X) bierzemy poniższ¸a statystykȩ<br />
z o rozk̷ladzie standardowym normalnym N(0,1):<br />
z =<br />
(x − E(X))<br />
σ(X)<br />
• gdy nie znamy σ(X), to jako statystykȩ T n (X) bierzemy analogiczn¸a funkcjȩ ”t”,<br />
w której σ zast¸apiona jest estymatorem S(X):<br />
t =<br />
(x − E(X))<br />
.<br />
S(X)<br />
Statystyka t ma rozk̷lad Studenta o (n-1) stopniach swobody.<br />
Oczywiście odchylenie standardowe średniej arytmetycznej σ(X) podobnie jak jego<br />
estymator S(X) równe s¸a odpowiednim wartościom <strong>dla</strong> samej zmiennej X podzielonym<br />
przez √ n:<br />
σ(X) = σ(X) √ n
B.Kamys: Fiz. Komp. 2003/04 91<br />
Tablica 2: Obszar krytyczny <strong>dla</strong> hipotez dotycz¸acych E(X)<br />
Hipoteza H 1 Obszar krytyczny Obszar krytyczny<br />
gdy znamy σ(X) gdy nie znamy σ(X)<br />
E(X) ≠ X 0 | z | > z 1<br />
<br />
2<br />
| t | > t 1<br />
<br />
2<br />
E(X) > X 0 z > z 1 t > t 1 <br />
E(X) < X 0 z < z t < t <br />
Sposób określenia obszaru krytycznego <strong>dla</strong> poszczególnych hipotez alternatywnych<br />
podany jest w tabeli (2).<br />
z oraz t to odpowiednio fraktyle standardowego rozk̷ladu normalnego N(0,1) i rozk̷ladu<br />
Studenta o (n-1) stopniach swobody. Oba te rozk̷lady s¸a symetryczne wzglȩdem zera a<br />
wiȩc można wykorzystać nastȩpuj¸ac¸a symetriȩ kwantyli:<br />
z = −z 1 <br />
t = −t 1 <br />
12.3.2 WARTOŚCI OCZEKIWANE DWU POPULACJI (H 0 : E(X) = E(Y ))<br />
Tutaj trzeba odróżnić trzy sytuacje:<br />
1.) σ(X) i σ(Y ) znane,<br />
2.) σ(X) i σ(Y ) nieznane ale σ(X) = σ(Y ),<br />
3.) σ(X) i σ(Y ) nieznane oraz σ(X) ≠ σ(Y ),
B.Kamys: Fiz. Komp. 2003/04 92<br />
ad 1.) Jako statystykȩ testow¸a bierze siȩ zmienn¸a z:<br />
z =<br />
X − Y<br />
√<br />
2 (X)<br />
n x<br />
+ 2 (Y )<br />
n y<br />
Zmienna ta ma rozk̷lad standardowy normalny N(0,1).<br />
ad 2.) Po stwierdzeniu (przy pomocy testu Fishera-Snedecora), że wariancje zmiennej X<br />
i zmiennej Y można uznać za równe, stosujemy test Studenta ze zmienn¸a t zdefiniowan¸a<br />
nastȩpuj¸aco:<br />
t =<br />
S(X, Y ) =<br />
X − Y<br />
√<br />
S(X, Y ) · nx+ny<br />
n x n y<br />
√ (n x − 1) ∗ S 2 (X) + (n y − 1) ∗ S 2 (Y )<br />
n x + n y − 2<br />
Zmienna t ma rozk̷lad Studenta o (n x + n y − 2) stopniach swobody.<br />
ad 3.) Jeżeli test F pokaza̷l, że wariancje zmiennych X i Y s¸a istotnie różne to jako<br />
statystykȩ testow¸a używa siȩ zmodyfikowanej zmiennej t:<br />
t =<br />
X − Y<br />
√<br />
S 2 (X)<br />
n x<br />
+ S2 (Y )<br />
n y<br />
Zmienna t ma rozk̷lad, który można przybliżyć rozk̷ladem Studenta o efektywnej<br />
liczbie stopni swobody n ef :<br />
n ef =<br />
( S2 (X)<br />
n x<br />
+ S2 (Y )<br />
n y<br />
) 2<br />
(S 2 (X)=n x ) 2<br />
n x<br />
+ (S2 (Y )=n y)<br />
2 − 2<br />
+1 n y +1
B.Kamys: Fiz. Komp. 2003/04 93<br />
Ponieważ efektywna liczba stopni swobody n ef zwykle nie jest liczb¸a ca̷lkowit¸a to<br />
szukaj¸ac w tablicach musimy zaokr¸aglać j¸a do liczby ca̷lkowitej (bezpieczniej zaokr¸aglać<br />
w dó̷l - wtedy efektywnie zwiȩkszamy nieco poziom istotności).<br />
W tabeli przytoczonej poniżej zdefiniowane s¸a obszary krytyczne <strong>dla</strong> tych trzech przypadków<br />
przy zastosowaniu dwu różnych hipotez alternatywnych H 1 .<br />
Hipoteza H 1 Obszar krytyczny Obszar krytyczny Obszar krytyczny<br />
σ(X) i σ(Y ) σ(X) = σ(Y ) σ(X) ≠ σ(Y )<br />
znane nieznane nieznane<br />
E(X) ≠ E(Y ) | z | > z 1<br />
<br />
2<br />
| t | > t nx +n y 2(1 − 2 ) | t | > t n ef<br />
(1 − 2 )<br />
E(X) > E(Y ) z > z 1 t > t nx +n y 2(1 − α) t > t nef (1 − α)<br />
Oczywiście statystyki testowe z i t to statystyki zdefiniowane powyżej a fraktyle należy<br />
brać odpowiednio <strong>dla</strong> rozk̷ladu standardowego normalnego N(0,1) oraz rozk̷ladów Studenta<br />
o odpowiedniej liczbie stopni swobody.
B.Kamys: Fiz. Komp. 2003/04 94<br />
12.4 HIPOTEZY DOTYCZA¸ CE WARIANCJI<br />
Najważniejsze to hipotezy porównuj¸ace wariancjȩ zmiennej X z liczb¸a oraz hipoteza<br />
porównuj¸aca wariancje dwu populacji. Zak̷ladamy, podobnie jak w przypadku hipotez<br />
odnosz¸acych siȩ do wartości oczekiwanych, że zmienne losowe pochodz¸a z populacji normalnych.<br />
12.4.1 PORÓWNANIE WARIANCJI X Z LICZBA¸ (H 0 : σ 2 (X) = σ 2 0 )<br />
Dla testowania takiej hipotezy używa siȩ statystyki testowej Q 2 zdefiniowanej nastȩpuj¸aco:<br />
Q 2 = (n − 1) · S2 (X)<br />
σ 2 0<br />
Przy prawdziwości H 0 ta <strong>statystyka</strong> ma rozk̷lad χ 2 n 1<br />
, gdzie n to liczba pomiarów w próbie<br />
a S 2 (X) to estymator wariancji.<br />
Obszary krytyczne <strong>dla</strong> różnych hipotez alternatywnych s¸a wymienione w tabeli poniżej:<br />
Hipoteza H 1<br />
Obszar krytyczny<br />
σ 2 (X) ≠ σ 2 0<br />
Q 2 < χ 2 <br />
2<br />
lub Q 2 > χ 2 1 2<br />
σ 2 (X) > σ 2 0<br />
Q 2 > χ 2 1 <br />
σ 2 (X) < σ 2 0<br />
Q 2 < χ 2 <br />
12.4.2 PORÓWNANIE WARIANCJI DWU POPULACJI<br />
Hipoteza zerowa H 0 : σ 2 (X) = σ 2 (Y )<br />
Dla testowania tej hipotezy używa siȩ testu F Fishera-Snedecora. Zarówno zmienn¸a<br />
jak i rozk̷lad prawdopodobieństwa oznacza siȩ liter¸a F z dwoma wskaźnikami n 1 , n 2 :<br />
F(n 1 , n 2 ). Zmienna F(n 1 , n 2 ) to stosunek dwu zmiennych o rozk̷ladach chikwadrat<br />
podzielonych przez ich liczby stopni swobody, przy czym zmienna w<br />
liczniku ma n 1 a zmienna w mianowniku n 2 stopni swobody:
B.Kamys: Fiz. Komp. 2003/04 95<br />
F (n 1 , n 2 ) ≡ (2 n 1<br />
n 1<br />
)<br />
( 2 n 2<br />
n 2<br />
)<br />
Zmienna ta przyjmuje, jako stosunek dwu nieujemnych liczb, tylko wartości nieujemne<br />
a kszta̷lt jej rozk̷ladu jest podobny do kszta̷ltu rozk̷ladu χ 2 .<br />
Jako statystykȩ testow¸a F bierze siȩ iloraz estymatora S 2 (X) i estymatora S 2 (Y):<br />
F ≡ S2 (X)<br />
S 2 (Y )<br />
̷Latwo pokazać, że <strong>statystyka</strong> F ma rozk̷lad F(n x − 1, n y − 1):<br />
Wiemy z rozważań dotycz¸acych porównania wariancji z liczb¸a, że zmienna Q 2 obliczona<br />
<strong>dla</strong> próby sk̷ladaj¸acej siȩ z n elementów ma rozk̷lad χ 2 n 1 . Po podzieleniu jej przez<br />
liczbȩ stopni swobody (n − 1) otrzymujemy iloraz S2<br />
. Jeżeli prawdziwa jest hipoteza zerowa<br />
g̷losz¸aca, że wariancje licznika i mianownika s¸a równe, to stosunek statystyk S 2 (X)<br />
2<br />
(licznika) i S 2 (Y ) (mianownika) jest równy stosunkowi Q2 (X)<br />
n i Q2 (Y )<br />
x 1 n y<br />
czyli równy jest<br />
1<br />
zmiennej F (n x − 1, n y − 1).<br />
Jako hipotezȩ alternatywn¸a k̷ladzie siȩ brak równości obu wariancji lub to, że wariancja<br />
licznika jest wiȩksza od wariancji mianownika:<br />
Hipoteza H 1<br />
σ 2 (X) ≠ σ 2 (Y )<br />
Obszar krytyczny<br />
F < F <br />
2 (n x − 1, n y − 1) lub F > F 1<br />
<br />
2 (n x − 1, n y − 1)<br />
σ 2 (X) > σ 2 (Y ) F > F 1 (n x − 1, n y − 1)<br />
Jeżeli w tablicach podane s¸a tylko kwantyle rozk̷ladu F na dużym poziomie lub tylko<br />
na ma̷lym poziomie, to korzysta siȩ z oczywistej równości:<br />
F =2 (n 1 , n 2 ) = 1/F 1 =2 (n 2 , n 1 )
B.Kamys: Fiz. Komp. 2003/04 96<br />
12.5 HIPOTEZA JEDNORODNOŚCI WARIANCJI (KILKU<br />
POPULACJI<br />
Zajmujemy siȩ zmiennymi o rozk̷ladzie normalnym. Sprawdzamy czy wariancje kilku<br />
populacji s¸a takie same (np. czy dok̷ladność kilku różnych serii pomiarów jest taka<br />
sama). Ta w̷lasność - zwana jednorodności¸a wariancji - może być interesuj¸aca sama w<br />
sobie a dodatkowo jest niezbȩdna jeżeli chcemy badać równość wartości oczekiwanych<br />
kilku populacji przez zastosowanie tzw. analizy wariancji (ANOVA).<br />
12.5.1 TEST BARTLETTA<br />
Badamy k populacji normalnych. Z każdej populacji i = 1, .., k bierzemy n i obserwacji<br />
(w sumie n = ∑ n<br />
i=1<br />
n i wyników).<br />
• Hipoteza zerowa H 0 : Wszystkie wariancje s¸a sobie równe:<br />
σ 2 1 = σ2 2 = ·· = σ2 k<br />
• Hipoteza alternatywna H 1 : Przynajmniej jedna wariancja jest wiȩksza od pozosta̷lych:<br />
• Statystyka testowa:<br />
σ 2 j > σ2 1 = · · σ2 j<br />
1 = σ2 j+1 = ·· = σ2 k<br />
⎧<br />
⎪⎨<br />
M =<br />
⎪⎩<br />
− k ∑<br />
i=1<br />
1 + 1<br />
3(k 1)<br />
( ) S<br />
2<br />
(n i − 1) · ln i<br />
S 2<br />
[<br />
∑ k<br />
1<br />
n − 1<br />
i 1 n k<br />
i=1<br />
⎫<br />
⎪⎬<br />
]<br />
⎪⎭<br />
gdzie S 2 i<br />
jest estymatorem wariancji <strong>dla</strong> i-tej próby:<br />
S 2 i = 1<br />
n i 1<br />
n i ∑<br />
j=1<br />
(x ji − ¯x i ) 2 oraz S 2 = 1<br />
n k<br />
k∑<br />
i=1<br />
(n i − 1) · S 2 i .<br />
Bartlett pokaza̷l, że zmienna M zdefiniowana powyżej ma rozk̷lad, który bardzo<br />
szybko d¸aży do rozk̷ladu chi-kwadrat o k-1 stopniach swobody. Wystarcza już<br />
warunek n i > 3 <strong>dla</strong> wszystkich prób i.<br />
• Obszar krytyczny: prawostronny.
B.Kamys: Fiz. Komp. 2003/04 97<br />
12.5.2 TEST COCHRANA<br />
Można go stosować <strong>dla</strong> k populacji normalnych jeżeli liczebność wszystkich prób n i ,<br />
i=1,..,k jest identyczna.<br />
• Hipoteza zerowa H 0 : Wszystkie wariancje s¸a sobie równe:<br />
σ 2 1 = σ2 2 = ·· = σ2 k<br />
• Hipoteza alternatywna H 1 : Przynajmniej jedna wariancja jest wiȩksza od pozosta̷lych:<br />
σ 2 j > σ2 2 = · · σ2 j<br />
1 = σ2 j+1 = ·· = σ2 k<br />
• Statystyka testowa:<br />
G =<br />
max S 2<br />
i i<br />
k∑<br />
Si<br />
2<br />
i=1<br />
gdzie S 2 i<br />
jest estymatorem wariancji <strong>dla</strong> i-tej próby.<br />
• Obszar krytyczny: prawostronny. Należy korzystać ze specjalnych tablic testu Cochrana.
B.Kamys: Fiz. Komp. 2003/04 98<br />
12.6 ANALIZA WARIANCJI - klasyfikacja jednoczynnikowa<br />
Analiza wariancji - zaproponowana przez R. A. Fishera - to metoda s̷luż¸aca w swojej<br />
najprostszej wersji do porównania wartości oczekiwanych kilku populacji normalnych.<br />
Poniżej zostanie wyjaśniona idea tej metody na przyk̷ladzie tego zastosowania.<br />
Należy podkreślić, że analiza wariancji zwana czȩsto ANOVA (ANalysis Of VAriance)<br />
ma bardzo szerokie zastosowanie w naukach biologicznych i medycznych gdyż czynnik<br />
odróżniaj¸acy populacje może być zmienn¸a jakościow¸a.<br />
ZA̷LOŻENIA:<br />
1. Badamy k populacji normalnych zmiennych X 1 , ...X k ,<br />
2. Wszystkie populacje maj¸a równe wariancje,<br />
Jeżeli nie mamy z góry zagwarantowanego spe̷lnienia tych za̷lożeń to musimy przeprowadzić<br />
odpowiednie testy statystyczne (np. Test λ-Ko̷lmogorowa, test χ 2 Pearsona lub inne <strong>dla</strong><br />
sprawdzenia normalności populacji oraz test Bartletta lub Cochrana <strong>dla</strong> sprawdzenia identyczności<br />
wariancji - nazywanej jednorodności¸a wariancji - <strong>dla</strong> różnych populacji).<br />
• Hipoteza zerowa: H 0 : E(X 1 ) = E(X 2 ) = ... = E(X k )<br />
• Hipoteza alternatywna: H 1 :<br />
Niektóre E(X i ) s¸a różne.<br />
• Statystyka testowa:<br />
Wprowadzamy nastȩpuj¸ace oznaczenia:<br />
– x ij to i-ty pomiar z j-tej próby (j-tej populacji)<br />
– n j to liczebność j-tej próby, przy czym k ∑<br />
j=1<br />
– ¯xj to średnia arytmetyczna <strong>dla</strong> j-tej próby:<br />
¯xj = n 1 ∑ n j<br />
∑ n j<br />
j<br />
x ij czyli x ij = n j · ¯xj<br />
i=1<br />
i=1<br />
n j = N<br />
– ¯x to średnia arytmetyczna wszystkich pomiarów:<br />
¯x = N<br />
1 k∑ ∑ n j<br />
x ij = 1 k∑<br />
N n j · ¯xj<br />
j=1 i=1 j=1<br />
– s 2 b ≡ 1<br />
(k 1)<br />
k∑<br />
n j ∑<br />
j=1 i=1<br />
(¯xj − ¯x) 2 = 1<br />
(k 1)<br />
k∑<br />
j=1<br />
n j · (¯xj − ¯x) 2<br />
to estymator wariancji ca̷lkowitego zbioru danych liczony z rozrzutu średnich<br />
arytmetycznych poszczególnych prób j = 1, .., k. Kwadrat odchylenia j-tej
B.Kamys: Fiz. Komp. 2003/04 99<br />
średniej ¯xj od ogólnej średniej wchodzi do wzoru z wag¸a równ¸a liczebności j-<br />
tej próby. Ponieważ ogólna średnia narzuca jeden warunek na zespó̷l k średnich<br />
grupowych to suma s 2 b ma (k − 1) stopni swobody.<br />
Wskaźnik ”b”pochodzi od angielskiego s̷lowa ”between”(pomiȩdzy) i s 2 b nazywany<br />
jest estymatorem ”wariancji miȩdzygrupowej”.<br />
– s 2 w ≡ 1<br />
(N k)<br />
k∑<br />
n j ∑<br />
j=1 i=1<br />
(x ij − ¯xj) 2<br />
to estymator wariancji ca̷lkowitego zbioru danych liczony z rozrzutu pomiarów<br />
wewn¸atrz każdej próby j = 1, .., k. Liczba stopni swobody <strong>dla</strong> sumy kwadratów<br />
wewn¸atrz j-tej grupy to (n j − 1). Liczba stopni swobody <strong>dla</strong> sumy kwadratów<br />
po wszystkich k grupach to:<br />
∑<br />
(n 1 − 1) + (n 2 − 1) + .. + (n k − 1) = k n j − k = N − k.<br />
St¸ad liczba stopni swobody tej sumy wynosi (N − k).<br />
Wskaźnik ”w” pochodzi od angielskiego s̷lowa ”within” (wewn¸atrz) i <strong>dla</strong>tego<br />
estymator s 2 w nazywany jest estymatorem ”wariancji wewn¸atrzgrupowej”.<br />
j=1<br />
TWIERDZENIE:<br />
Można pokazać, że przy równości wariancji wszystkich populacji<br />
σ 2 1 = σ2 2 = . . . = σ2 k ≡ σ2 zachodz¸a nastȩpuj¸ace relacje:<br />
E{s 2 w } = σ2<br />
E{s 2 b } = σ2 +<br />
( k∑<br />
)<br />
(Efx j g Efxg) 2<br />
j=1<br />
k 1<br />
·<br />
(<br />
N<br />
k ∑<br />
j=1<br />
k 1<br />
)<br />
n 2 j<br />
N<br />
gdzie E{x j } i E{x} to wartość oczekiwana <strong>dla</strong> j -tej populacji i postulowana przez<br />
hipotezȩ zerow¸a wspólna wartość oczekiwana wszystkich populacji.<br />
Jak widać, estymator s 2 w jest zawsze nieobci¸ażonym estymatorem wariancji<br />
(niezależnie od prawdziwości H 0 ), natomiast estymator s 2 b jest<br />
nieobci¸ażony tylko wtedy, gdy H 0 jest prawdziwa natomiast ma dodatnie<br />
obci¸ażenie, gdy tak nie jest (kwadrat sumy dodatnich liczb N 2 ∑<br />
≡ ( k n j ) 2<br />
jest zawsze wiȩkszy od sumy ich kwadratów).<br />
Jako statystykȩ testow¸a bierzemy wielkość:<br />
j=1<br />
s 2 b /s2 w<br />
= F (k − 1, N − k)<br />
Powyższy wzór przedstawia stosunek dwu estymatorów wariancji, który przy prawdziwości<br />
hipotezy zerowej powinien być zmienn¸a o rozk̷ladzie F Fishera - Snedecora.
B.Kamys: Fiz. Komp. 2003/04 100<br />
• Obszar krytyczny<br />
Jeżeli hipoteza zerowa nie jest prawdziwa to <strong>statystyka</strong> testowa powinna być wiȩksza<br />
niż przewiduje to rozk̷lad F (k − 1, N − k) bo wtedy s 2 b jest dodatnio obci¸ażony,<br />
a wiȩc obszar krytyczny odpowiada dużym wartościom statystyki testowej (test<br />
prawostronny).<br />
UWAGI:<br />
1. Gdy odrzucamy hipotezȩ zerow¸a, czyli stwierdzamy że nie wszystkie populacje maj¸a<br />
równe wartości oczekiwane badanej wielkości X, pojawia siȩ problem oszacowania<br />
tych wartości oczekiwanych. Jako estymator wartości oczekiwanej j-tej populacji<br />
przyjmuje siȩ definiowan¸a wyżej wielkość ¯xj.<br />
2. Jednoczynnikowa analiza wariancji bierze sw¸a nazwȩ z faktu podzia̷lu ca̷lej populacji<br />
wartości zmiennej X na k populacji różni¸acych siȩ wartości¸a lub poziomem jednego<br />
klasyfikuj¸acego czynnika. W szczególności ten czynnik może być zmienn¸a<br />
jakościow¸a a wiȩc zamiast wartości czynnika klasyfikuj¸acego (zmiennej ilościowej)<br />
mog¸a to być kategorie lub poziomy czynnika jakościowego. Na przyk̷lad, zmienn¸a<br />
X może być temperatura cia̷la leczonych pacjentów a czynnikiem klasyfikuj¸acym<br />
rodzaj podanego lekarstwa.<br />
Dziȩki takim możliwościom analiza wariancji jest czȩsto stosowana w naukach<br />
biologicznych, medycznych i spo̷lecznych a wiȩc tam gdzie używa siȩ zmiennych<br />
jakościowych.<br />
3. Warunkiem stosowalności analizy wariancji jest normalność analizowanej zmiennej<br />
oraz jednorodność wariancji (równość wariancji) <strong>dla</strong> wszystkich porównywanych<br />
populacji. Z doświadczenia wiadomo, że drugi warunek jest znacznie<br />
ważniejszy, tzn. niejednorodność wariancji wp̷lywa silniej na wyniki analizy wariancji<br />
niż niewielkie odstȩpstwa od normalności rozk̷ladu zmiennej X.<br />
W przypadku, gdy wariancja zmienia siȩ regularnie wraz z wartości¸a oczekiwan¸a<br />
(co stwierdzamy porównuj¸ac średnie poszczególnych prób i estymatory s 2 <strong>dla</strong> tych<br />
prób) można zastosować przekszta̷lcenia zmiennych takie jak pierwiastkowanie<br />
lub logarytmowanie, a nastȩpnie przeprowadzić analizȩ wariancji <strong>dla</strong> tak przekszta̷lconych<br />
danych. Tak¸a procedurȩ postȩpowania, nazywa siȩ stabilizacj¸a wariancji.<br />
4. Rachunki zwi¸azane z analiz¸a wariancji należy prowadzić z możliwie<br />
duż¸a dok̷ladności¸a, gdyż pozornie niewielkie zaokr¸aglenia mog¸a silnie zniekszta̷lcić<br />
wyniki.
B.Kamys: Fiz. Komp. 2003/04 101<br />
Sumy kwadratów wystȩpuj¸ace w definicjach s 2 b i s2 w<br />
przytoczonych w prawej kolumnie poniżej:<br />
zaleca siȩ liczyć wg wzorów<br />
SS b ≡ (k − 1) · s 2 b =<br />
SS w ≡ (N − k) · s 2 w =<br />
SS ≡ (N − 1) ·<br />
k∑<br />
k ∑<br />
j=1<br />
n j ∑<br />
j=1 i=1<br />
n j ¯x 2 :j − N ¯x2 ::<br />
k ∑<br />
n j ∑<br />
j=1 i=1<br />
x 2 ij − k ∑<br />
j=1<br />
(x ij − ¯x :: ) 2 = k ∑<br />
n j ¯x 2 :j<br />
n j ∑<br />
j=1 i=1<br />
x 2 ij − N ¯x2 ::<br />
gdzie suma kwadratów SS jest obliczana jako sprawdzian bo musi zachodzić:<br />
SS = SS b + SS w .<br />
Zwykle cz¸astkowe wyniki zapisuje siȩ w postaci tabeli analizy wariancji jednoczynnikowej:<br />
Rodzaj wariancji SS≡ sum of squares DF≡ degrees of freedom MS≡ mean square F - <strong>statystyka</strong><br />
(suma kwadratów) (liczba stopni swobody) (średni kwadrat) testowa<br />
Pomiȩdzy grupami SS b k − 1 s 2 b = SS b/(k − 1)<br />
Wewn¸atrz grup SS w N − k s 2 w = SS w/(N − k)<br />
Ca̷lkowita SS N − 1 s 2 = SS/(N − 1) F = s 2 b /s2 w
B.Kamys: Fiz. Komp. 2003/04 102<br />
12.7 ANALIZA WARIANCJI - <strong>dla</strong> regresji liniowej<br />
Analiza wariancji polega na podziale sumy kwadratów odchyleń na czȩść wyjaśnion¸a przez<br />
regresjȩ i czȩść niewyjaśnion¸a (definicja tych pojȩć podana jest poniżej). Zapisuj¸ac regresjȩ<br />
liniow¸a w postaci R(x) = b + ax możemy przedstawić sumȩ kwadratów odchyleń<br />
poszczególnych pomiarów y i od wartości średniej ȳ jako sumȩ:<br />
∑<br />
(y i − ȳ) 2 = ∑<br />
i<br />
i<br />
((y i − R(x i )) + (R(x i ) − ȳ)) 2 .<br />
Pierwszy z wewnȩtrznych nawiasów opisuje odchylenie pomiarów od prostej regresji a<br />
drugi odchylenie regresji od średniej arytmetycznej wszystkich pomiarów.<br />
Dalej bȩdziemy używać uproszczonego zapisu polegaj¸acego na opuszczaniu wskaźników<br />
przy symbolu sumy i przy sumowanych elementach oraz na opuszczaniu argumentu x w<br />
funkcji regresji liniowej. Wtedy powyższy wzór bȩdzie zapisany nastȩpuj¸aco:<br />
∑<br />
(y − ȳ) 2 = ∑ ((y − R) + (R − ȳ)) 2 .<br />
Sumȩ tȩ możemy rozpisać tak:<br />
∑<br />
(y − ȳ) 2 = ∑ (y − R) 2 + 2 ∑ (y − R) (R − ȳ) + ∑ (R − ȳ) 2 ,<br />
a wykorzystuj¸ac fakt, że drugi wyraz jest równy zero przedstawić jako dwie sumy kwadratów:<br />
∑<br />
(y − ȳ) 2 = ∑ (y − R) 2 + ∑ (R − ȳ) 2 .<br />
Pierwsza z sum po prawej stronie równania nazywana jest niewyjaśnion¸a (przez<br />
regresjȩ) sum¸a kwadratów a druga wyjaśnion¸a (przez regresjȩ) sum¸a kwadratów.<br />
Nazwy te staj¸a siȩ oczywiste gdy zależność y od x jest liniow¸a zależności¸a funkcyjn¸a a<br />
nie zależności¸a losow¸a. Wtedy pierwsza suma znika a ca̷la zmienność y pojawiaj¸aca siȩ<br />
jako odchylenie od średniej wartości ȳ opisana jest przez regresjȩ.<br />
Niewyjaśniona przez regresjȩ suma kwadratów ∑ (y − R) 2 może być traktowana jako<br />
miara rozrzutu zmiennej y doko̷la prostej regresji a wiȩc zwi¸azana jest bezpośrednio z estymatorem<br />
wariancji y doko̷la regresji (która z definicji jest warunkow¸a wartości¸a oczekiwan¸a<br />
y; R = E{y|x} zmiennej y <strong>dla</strong> ustalonej zmiennej x):<br />
S 2 y=x =<br />
n∑<br />
i=1<br />
(y i − R(x i )) 2<br />
n − 2<br />
gdzie (n−2) jest liczb¸a stopni swobody (mniejsz¸a o 2 od n gdyż <strong>dla</strong> uzyskania parametrów<br />
prostej musieliśmy użyć dwu równań zwi¸azuj¸acych ze sob¸a wartości danych).<br />
Wyjaśniona przez regresjȩ suma kwadratów ∑ (R − ȳ) 2 może być wyrażona w inny<br />
sposób przy wykorzystaniu estymatora r wspó̷lczynnika korelacji ρ.
B.Kamys: Fiz. Komp. 2003/04 103<br />
r =<br />
∑ (x − ¯x)(y − ȳ)<br />
√[ ∑ (x − ¯x) 2 ][ ∑ (y − ȳ) 2 ] .<br />
Wprowadzimy teraz dodatkow¸a konwencjȩ zapisu polegaj¸ac¸a na oznaczaniu odchylenia<br />
zmiennych od średniej arytmetycznej przez odpowiednie duże litery:<br />
X ≡ x − ¯x, Y ≡ y − ȳ.<br />
Korzystaj¸ac z tego, że wspó̷lczynnik a we wzorach R = ax + b oraz ȳ = a¯x + b da<br />
siȩ zapisać jako<br />
a = ∑ XY / ∑ X 2<br />
(można to sprawdzić przekszta̷lcaj¸ac wzory na parametry linii prostej podane wcześniej -<br />
w rozdziale o regresji liniowej) dostajemy:<br />
∑<br />
(R − ȳ)<br />
2<br />
=<br />
= a 2 ∑ (x − ¯x) 2<br />
≡ a 2 ∑ X 2<br />
= (∑ XY ) 2<br />
( ∑ X 2 ) 2 (∑<br />
X<br />
2 )<br />
( ∑ XY ) 2 (∑<br />
=<br />
)<br />
( ∑ X 2 ) ( ∑ Y<br />
2<br />
Y 2 )<br />
= r ( 2 ∑ )<br />
Y<br />
2<br />
≡ r 2 ( ∑<br />
(y − ȳ)<br />
2 )<br />
W ten sposób pokazano, że kwadrat estymatora wspó̷lczynnika korelacji równy<br />
jest stosunkowi sumy kwadratów odchyleń wyjaśnionych przez regresjȩ do<br />
ca̷lkowitej sumy kwadratów odchyleń:<br />
r 2 =<br />
∑ (R − ȳ)<br />
2<br />
∑ (y − ȳ)<br />
2 .<br />
Daje to nam prost¸a interpretacjȩ kwadratu wspó̷lczynnika korelacji: gdy r 2 bliskie jest<br />
jedności to regresja odpowiada za prawie ca̷ly rozrzut obserwowanych wartości y i (<strong>dla</strong><br />
wszystkich x i ) a ca̷la reszta rozrzutu może być przypisana istnieniu b̷lȩdów y i .
B.Kamys: Fiz. Komp. 2003/04 104<br />
Sumȩ kwadratów wyjaśnion¸a przez regresjȩ i niewyjaśnion¸a przez regresjȩ można<br />
zwi¸azać z odpowiednimi estymatorami wariancji. Jeżeli zmienna y i x s¸a niezależne liniowo<br />
to obie te wariancje powinny być sobie równe (liczenie regresji nie wnosi nic nowego).<br />
A wiȩc sprawdzenie metod¸a analizy wariancji hipotezy, że obie wariancje s¸a<br />
równe możemy uznać za równoważne do testowania hipotezy g̷losz¸acej, że<br />
zmienne x i y s¸a liniowo niezależne tzn.<br />
H 0 : ρ(x, y) = 0.<br />
Uporz¸adkujmy dotychczasowe informacje w tabeli analizy wariancji:<br />
Suma<br />
Kwadratów<br />
Stopnie<br />
swobody<br />
Estymator<br />
wariancji<br />
Statystyka testowa<br />
Ca̷lkowita<br />
∑ (y − ȳ)<br />
2<br />
N − 1<br />
Wyjaśniona<br />
przez regresjȩ<br />
r 2 ∑ (y − ȳ) 2 1 r 2 ∑ (y − ȳ) 2<br />
1<br />
Niewyjaśniona<br />
przez regresjȩ<br />
(1 − r 2 ) ∑ (y − ȳ) 2 N − 2 (1 − r 2 ) ∑ (y − ȳ) 2<br />
N − 2<br />
F (1,N−2) = r2 (N − 2)<br />
(1 − r 2 )<br />
Liczby stopni swobody skojarzone z odpowiednimi sumami kwadratów wynosz¸a odpowiednio:<br />
• N −1 <strong>dla</strong> ca̷lkowitej wariancji (liczba pomiarów minus jeden zwi¸azek wykorzystany<br />
na liczenie średniej arytmetycznej ȳ),<br />
• 1 <strong>dla</strong> sumy ∑ (R − ȳ) 2 (bo równanie regresji jednoznacznie określa jaki jest rozrzut<br />
punktów leż¸acych na prostej wzglȩdem średniej arytmetycznej) i<br />
• N − 2 <strong>dla</strong> sumy ∑ (y − R) 2 (bo dwa równania na parametry prostej ograniczaj¸a<br />
swobodȩ zmiany N wartości y i ).<br />
Dla sprawdzenia czy wariancja wyjaśniona przez regresjȩ jest taka sama jak wariancja<br />
niewyjaśniona przez regresjȩ stosuje siȩ test F Fishera, używaj¸ac jako statystyki testowej<br />
ilorazu estymatorów tych wariancji a wiȩc dwu zmiennych o rozk̷ladach chi-kwadrat χ 2 1 i<br />
χ 2 N 2<br />
podzielonych przez odpowiednie liczby stopni swobody a wiȩc zmiennej:<br />
F (1, N − 2),<br />
analogicznie jak robi siȩ przy porównaniu wariancji dwu populacji normalnych.<br />
Obszar krytyczny jest obszarem prawostronnym (wartości statystyki testowej wiȩksze<br />
od krytycznej wartości tj. kwantyla F 1 (1, N − 2) ).
B.Kamys: Fiz. Komp. 2003/04 105<br />
12.8 TESTY NIEPARAMETRYCZNE<br />
HIPOTEZ PORÓWNUJA¸ CYCH POPULACJE<br />
Do tej pory rozważaliśmy testy sprawdzaj¸ace hipotezy g̷losz¸ace równość wartości oczekiwanych<br />
dwu zmiennych a także równość wariancji dwu zmiennych. Testy te dotyczy̷ly<br />
jedynie zmiennych o rozk̷ladach normalnych. Teraz omówimy testy odnosz¸ace siȩ do<br />
hipotez g̷losz¸acych identyczność dystrybuant dwu populacji; H 0 : F (X) = G(X)<br />
niezależnie od postaci rozk̷ladu. Dystrybuanty oznaczono różnymi literami aby podkreślić,<br />
że odnosz¸a siȩ do dwu różnych populacji ale badamy tȩ sam¸a zmienn¸a losow¸a<br />
X <strong>dla</strong> obu populacji bior¸ac próbȩ liczebności n 1 z pierwszej populacji i liczebności n 2 z<br />
drugiej populacji.<br />
12.8.1 TEST SMIRNOWA<br />
• Hipoteza zerowa H 0 : F (X) ≡ G(X)<br />
gdzie zmienna X jest zmienn¸a ci¸ag̷l¸a.<br />
F (X) i G(X) s¸a odpowiednio dystrybuantami zmiennej X <strong>dla</strong> pierwszej i drugiej<br />
populacji .<br />
• Hipoteza alternatywna H 1 : zaprzeczenie H 0<br />
• Statystyka testowa D n1 ;n 2<br />
:<br />
D n1 ;n 2<br />
= sup x<br />
| F n1 (x) − G n2 (x) |<br />
gdzie F n1 (x) i G n2 (x) to empiryczne dystrybuanty zbudowane na podstawie prób<br />
o liczebności odpowiednio n 1 i n 2 , zdefiniowane tak jak <strong>dla</strong> rozk̷ladu Ko̷lmogorowa.<br />
Należy zauważyć, że obie dystrybuanty s¸a od tej samej wartości argumentu.<br />
Ponieważ spe̷lniona jest relacja:<br />
D n1 ;n 2<br />
= D n2 ;n 1<br />
wiȩc bez ograniczenia ogólności wniosków można rozważać tylko<br />
D n1 ;n 2<br />
zak̷ladaj¸ac, że<br />
n 1 ≤ n 2 .
B.Kamys: Fiz. Komp. 2003/04 106<br />
W praktycznych rachunkach używa siȩ nastȩpuj¸acych wzorów na D n1 ;n 2<br />
, gdzie<br />
obliczenia wykonuje siȩ tylko <strong>dla</strong> wartości argumentów zaobserwowanych w obu<br />
próbach i <strong>dla</strong> rozróżnienia prób stosuje siȩ symbole x<br />
1 ...x <br />
n1<br />
i y<br />
1 ....y n2<br />
na statystyki<br />
pozycyjne odpowiednio z pierwszej i drugiej próby:<br />
(<br />
D n + 1 ;n 2<br />
= max i<br />
1in 1<br />
n 1<br />
− G n2 (x i ) ) (<br />
= max Fn1<br />
1jn 2<br />
(y j ) − j )<br />
n 1<br />
2<br />
D n1 ;n 2<br />
= max<br />
1in 1<br />
(<br />
Gn2 (x i ) − i 1<br />
n 1<br />
)<br />
=<br />
D n1 ;n 2<br />
= max ( D + n 1 ;n 2<br />
, D n1 ;n 2<br />
)<br />
max<br />
1jn 2<br />
( j<br />
n2<br />
− F n1 (y j ) )<br />
TWIERDZENIE (Smirnow):<br />
Gdy H 0 jest prawdziwa oraz liczby pomiarów n 1 i n 2 d¸aż¸a do nieskończoności to<br />
zmienna<br />
√<br />
n1 · n 2<br />
D n1 ;n 2<br />
·<br />
n 1 + n 2<br />
d¸aży do rozk̷ladu λ (Ko̷lmogorowa).<br />
♦<br />
Dystrybuanta rozk̷ladu Ko̷lmogorowa wyraża siȩ nastȩpuj¸acym wzorem:<br />
1∑<br />
K(y) =<br />
k= 1 (−1)k exp[−2k 2 y 2 ]<br />
St¸ad można znaleźć kwantyle tego rozk̷ladu. Przytoczymy tylko trzy najczȩściej<br />
stosowane: y 0;95 = 1, 36, y 0;99 = 1, 63 i y 0;999 = 1, 95.<br />
Jeżeli obie próby s¸a odpowiednio duże (n i > 150) to można już z rozs¸adnym<br />
przybliżeniem stosować asymptotyczne wzory, tj.<br />
D n1 ;n 2<br />
(1 − α) ≈<br />
√<br />
n1 + n 2<br />
n 1 · n 2<br />
· y 1
B.Kamys: Fiz. Komp. 2003/04 107<br />
Gdy n 1 i n 2 s¸a ma̷le, trzeba stosować dok̷ladny rozk̷lad statystyki D n1 ;n 2<br />
znaleziony<br />
przez Masseya (F.J.Massey, AMS 23 (1952) 435-441).<br />
• Obszar krytyczny: prawostronny (duże wartości statystyki testowej)
B.Kamys: Fiz. Komp. 2003/04 108<br />
12.8.2 TEST ZNAKÓW<br />
Test znaków s̷luży do sprawdzenia hipotezy zerowej g̷losz¸acej, że dystrybuanty dwu ci¸ag̷lych<br />
zmiennych losowych X i Y s¸a identyczne:<br />
• Hipoteza zerowa H 0 : G(X) = F (Y ).<br />
Przy prawdziwości H 0 prawdopodobieństwo P (X > Y ) tego, że zajdzie zdarzenie<br />
losowe X > Y , jest równe prawdopodobieństwu P (X < Y ) tego, że X < Y .<br />
Ze wzglȩdu na za̷lożenie ci¸ag̷lości zmiennych prawdopodobieństwo równości X i Y<br />
jest równe zero; P (X = Y ) = 0 a ponieważ te trzy zdarzenia s¸a roz̷l¸aczne i<br />
wyczerpuj¸a wszystkie możliwości wiȩc ostatecznie:<br />
P (X < Y ) = P (X > Y ) = 1/2<br />
• Hipoteza alternatywna H 1 : G(X) ≠ F (Y ).<br />
• Statystyka testowa to liczba k takich par, że x i > y i wśród n niezależnych par<br />
(x i , y i ). Rozk̷lad prawdopodobieństwa tej statystyki przy prawdziwości H 0 to<br />
rozk̷lad Bernoulliego z parametrem p = 1/2 :<br />
P (k) = ( n k ) · 1<br />
2 k ·<br />
1<br />
2 (n = (n k) k ) · 1<br />
2 n<br />
• Obszar krytyczny to bardzo ma̷la (k ≈ 0) i bardzo duża (k ≈ n) liczba par<br />
(x i , y i ), takich że x i > y i (obszar dwustronny). Jeżeli mamy wskazówki, że prawdopodobieństwo<br />
pojawienia siȩ wartości X wiȩkszych od Y jest wiȩksze niż 1/2 to<br />
należy przyj¸ać prawostronny obszar krytyczny (k > k p ) a gdy prawdopodobieństwo<br />
X wiȩkszych od Y jest mniejsze od 1/2 to lewostronny obszar krytyczny (k < k l ).<br />
Brzeg prawostronnego obszaru krytycznego k p szukamy z warunku:<br />
P (k ≥ k p ) = 2 n n∑<br />
· ( n i ) = α<br />
i=k p
B.Kamys: Fiz. Komp. 2003/04 109<br />
Brzeg lewostronnego obszaru krytycznego k l szukamy z warunku:<br />
P (k ≤ k l ) = 2 n ·<br />
∑ k l<br />
( n i ) = α<br />
i=0<br />
a brzegi dwustronnego obszaru krytycznego z obu powyższych wzorów, w których<br />
zast¸api siȩ α przez α/2.<br />
UWAGA:<br />
Tu zak̷ladaliśmy milcz¸aco, że nie bȩd¸a siȩ pojawia̷ly pary (x i = y i ) ponieważ obie<br />
zmienne s¸a ci¸ag̷le a wiȩc prawdopodobieństwo takich par wynosi zero. W praktyce<br />
obliczenia wykonywane s¸a zawsze ze skończon¸a dok̷ladności¸a a to powoduje pojawianie<br />
siȩ powyższych par. Jeżeli ich liczba jest niewielka w porównaniu do liczby wszystkich<br />
par to można je po prostu pomin¸ać. W przeciwnym wypadku stosuje siȩ losowanie , które<br />
(z prawdopodobieństwem 0,5 ) określa czy dan¸a parȩ zaliczyć do par, w których x i > y i<br />
czy odwrotnie.<br />
12.8.3 TEST SERII WALDA - WOLFOWITZA<br />
Seri¸a nazywamy każdy podci¸ag ci¸agu z̷lożonego z elementów A i B maj¸acy tȩ w̷lasność,<br />
że należ¸a do niego elementy tego samego typu (A lub B).<br />
Liczba serii n s spe̷lnia warunek:<br />
2 ≤ n s ≤ 2 · min(n A , n B ) + 1<br />
gdzie n A i n B to odpowiednio liczby elementów typu A i typu B w ca̷lym ci¸agu.<br />
Test serii Walda-Wolfowitza s̷luży do sprawdzania hipotezy g̷losz¸acej, że dystrybuanty<br />
dwu zmiennych ci¸ag̷lych X i Y s¸a identyczne:<br />
• Hipoteza zerowa H 0 : F 1 (X) = F 2 (Y )<br />
• Hipoteza alternatywna H 1 : F 1 (X) ≠ F 2 (Y )
B.Kamys: Fiz. Komp. 2003/04 110<br />
• Statystyka testowa n s (liczba serii).<br />
Mamy próbȩ sk̷ladaj¸ac¸a siȩ z n A wartości zmiennej X oraz z n B wartości zmiennej<br />
Y . Zapisujemy te n A + n B wartości w jeden niemalej¸acy ci¸ag i sprawdzamy ile jest<br />
serii typu A (tzn. sk̷ladaj¸acych siȩ z elementów X) i ile jest serii typu B (tzn.<br />
sk̷ladaj¸acych siȩ z elementów Y ). Jeżeli zdarzy siȩ, że dwie wartości s¸a identyczne<br />
to musimy losować (z prawdopodobieństwem 0,5), która z nich ma być pierwsza w<br />
ci¸agu.<br />
• Obszar krytyczny - lewostronny: n s ≤ n s (α)<br />
Gdy hipoteza zerowa jest s̷luszna to możemy siȩ spodziewać, że wartości X s¸a<br />
przemieszane z wartościami Y a wiȩc liczba serii bȩdzie duża. Jeżeli dystrybuanty<br />
zmiennych X i Y s¸a różne to spodziewamy siȩ, że systematycznie jedna z tych<br />
zmiennych bȩdzie wiȩksza od drugiej (przynajmniej na pewnym odcinku wartości)<br />
a wiȩc liczba serii bȩdzie ma̷la. St¸ad ma̷la liczba serii w próbie bȩdzie świadczyć<br />
przeciw hipotezie zerowej.<br />
Rozk̷lad liczby serii n s jest znany przy prawdziwości H 0 i wyraża siȩ analitycznym<br />
wzorem:<br />
⎧<br />
⎛ ⎞⎛<br />
⎞<br />
⎪⎩<br />
2⎜<br />
⎝<br />
nA − 1<br />
nB − 1<br />
⎟⎜<br />
⎟<br />
⎠⎝<br />
n s<br />
2<br />
− 1<br />
n<br />
⎠<br />
s<br />
2<br />
− 1<br />
⎛<br />
⎞<br />
nA + nB<br />
⎜<br />
⎟<br />
⎝<br />
⎠<br />
⎪⎨<br />
nA<br />
p(ns) = ⎛ ⎞⎛<br />
⎞ ⎛ ⎞⎛<br />
⎞<br />
nA − 1<br />
nB − 1<br />
⎜ ⎟⎜<br />
⎟<br />
⎝<br />
n s<br />
2<br />
− 1 ⎠⎝<br />
n s<br />
2 2<br />
− 3 ⎠ + nA − 1<br />
nB − 1<br />
⎜ ⎟⎜<br />
⎟<br />
⎝<br />
n s<br />
2<br />
2<br />
− 3 ⎠⎝<br />
n s<br />
2 2<br />
− 1 ⎠<br />
2<br />
⎛<br />
⎞<br />
nA + nB<br />
⎜<br />
⎟<br />
⎝<br />
⎠<br />
nA<br />
<strong>dla</strong> ns parzystego<br />
a wiȩc można znaleźć (numerycznie) wartości krytyczne statystyki testowej.<br />
<strong>dla</strong> ns nieparzystego<br />
UWAGA:<br />
Warto zauważyć, że w przypadku odrzucenia hipotezy zerowej, tj. zaobserwowania ma̷lej<br />
liczby serii, można próbować uzyskać informacjȩ o relacji pomiȩdzy wartościami oczekiwanymi<br />
E(X) i E(Y ) sprawdzaj¸ac czy na pocz¸atku ca̷lego ci¸agu przeważaj¸a wartości<br />
typu A (tj. wartości zmiennej X) czy typu B(wartości zmiennej Y ).<br />
Jeżeli na pocz¸atku mamy przewagȩ wartości typu A a potem typu B to możemy uważać,<br />
że E(X) < E(Y ). W przypadku odwrotnym spodziewamy siȩ, że E(X) > E(Y ).
B.Kamys: Fiz. Komp. 2003/04 111<br />
12.8.4 TEST SUMY RANG WILCOXONA - MANNA - WHITNEYA<br />
Test ten zosta̷l opracowany przez F. Wilcoxona <strong>dla</strong> dwu równie licznych prób a później<br />
uogólniony przez H.B. Manna i D.R. Whitneya na dwie próby o dowolnej liczebności.<br />
Można wiȩc spotkać siȩ z nazw¸a test Wilcoxona lub test Wilcoxona-Manna-Whitneya.<br />
Przez rangȩ obserwacji rozumie siȩ liczbȩ naturaln¸a równ¸a numerowi miejsca, który ta<br />
obserwacja zajmuje w uporz¸adkowanym ci¸agu niemalej¸acym obserwacji w próbie (numer<br />
danej statystyki pozycyjnej). Jeżeli dwie lub wiȩcej obserwacji ma tȩ sam¸a wartość to<br />
ich rangi s¸a równe średniej arytmetycznej rang, które posiada̷lyby gdyby siȩ minimalnie<br />
różni̷ly (tzn. różni̷lyby siȩ tak ma̷lo, że nie zmieni̷lyby po̷lożenia w ci¸agu w stosunku do<br />
innych obserwacji).<br />
• Hipoteza zerowa H 0 : F 1 (X) = F 2 (Y )<br />
• Hipoteza alternatywna H 1 : F 1 (X) ≠ F 2 (Y )<br />
Można jednak postawić inne hipotezy alternatywne:<br />
– H 1 : P (X > Y ) > 0, 5 lub<br />
– H 1 : P (X > Y ) < 0, 5<br />
• Statystyka testowa:<br />
w =<br />
n min ∑<br />
i=1<br />
ranga(i)<br />
n min oznacza liczebność mniejszej próby a ranga(i) to ranga kolejnej obserwacji<br />
z mniej licznej próby ale w ci¸agu utworzonym z obserwacji obu prób.<br />
• Obszar krytyczny: Dla prostego zaprzeczenia - obustronny, a <strong>dla</strong> dwu pozosta̷lych<br />
hipotez alternatywnych jest odpowiednio prawo- i lewostronny (przy za̷lożeniu, że<br />
prób¸a mniej liczn¸a jest próba ’X’). Wartości krytyczne trzeba brać z odpowiednich<br />
tablic.