Teoria prawdopodobieÅstwa i statystyka dla fizyki komputerowej

TEORIA PRAWDOPODOBIEŃSTWA I 

STATYSTYKA DLA FIZYKI KOMPUTEROWEJ 

B. Kamys 

Spis treści 

1 Elementy teorii prawdopodobieństwa 3 

1.1 Definicje podstawowych pojȩć . . . . . . . . . . . . . . . . . . . . . . 3 

1.2 W̷lasności prawdopodobieństwa . . . . . . . . . . . . . . . . . . . . . 4 

2 Ilościowy opis zmiennych losowych 6 

3 Funkcje zmiennej losowej 8 

4 Charakterystyki opisowe 10 

5 Podstawowe pojȩcia teorii estymacji 14 

6 Rozk̷lad normalny (Gaussa) 16 

7 Podstawy rachunku b̷lȩdów 19 

7.1 Rozk̷lad pomiarów obarczonych b̷lȩdami przypadkowymi . . . . . . . . 21 

7.2 Estymator wartości oczekiwanej . . . . . . . . . . . . . . . . . . . . . 22 

7.3 Estymator odchylenia standardowego . . . . . . . . . . . . . . . . . . 23 

7.4 Zapis wyników pomiarów . . . . . . . . . . . . . . . . . . . . . . . . 24 

7.5 B̷l¸ad statystyczny . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 

7.6 Pomiary pośrednie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 

7.6.1 Estymator E(Y) dla pomiaru pośredniego Y . . . . . . . . . . . 27 

7.6.2 B̷l¸ad pomiaru pośredniego . . . . . . . . . . . . . . . . . . . . 28 

7.6.3 B̷l¸ad maksymalny . . . . . . . . . . . . . . . . . . . . . . . . 28 

8 Estymacja przedzia̷lowa 30 

8.1 Estymacja E{X} gdy znamy odchylenie standardowe σ{X} . . . . . . . 31 

8.2 Estymacja E{X} gdy nie znamy odchylenia standardowego σ{X} . . . . 33 

8.3 Estymacja przedzia̷lowa wariancji i odchylenia standardowego . . . . . . 34 

9 Metody szukania “dobrych” estymatorów 36 

9.1 Metoda momentów (“MM”) . . . . . . . . . . . . . . . . . . . . . . . 36 

9.2 Metoda najwiȩkszej wiarygodności (“MNW”) . . . . . . . . . . . . . . 40 

9.3 Metoda najmniejszych kwadratów (“MNK”) . . . . . . . . . . . . . . . 45

B.Kamys: Fiz. Komp. 2003/04 2 

10 Wielowymiarowe (wektorowe) zmienne losowe 49 

10.1 Momenty rozk̷ladu wielowymiarowej zmiennej losowej . . . . . . . . . . 52 

10.2 Estymacja punktowa wartości oczekiwanej E{⃗Y ( ⃗X)} i macierzy kowariancji 

⃗Y ( ⃗X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 

10.3 Regresja liniowa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 

10.4 Regresja przy pomocy wielomianów ortogonalnych . . . . . . . . . . . . 62 

10.4.1 Regresja przy pomocy wielomianów ortogonalnych na zbiorze wartości 

argumentu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 

10.4.2 Konstrukcja zespo̷lu wielomianów ortogonalnych na zbiorze wartości 

argumentu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 

11 Metoda Monte Carlo 67 

11.1 Liczenie ca̷lek metod¸a Monte Carlo . . . . . . . . . . . . . . . . . . . 67 

11.2 Zmniejszanie b̷lȩdu ca̷lki . . . . . . . . . . . . . . . . . . . . . . . . . 69 

11.3 Generacja liczb losowych . . . . . . . . . . . . . . . . . . . . . . . . . 72 

11.3.1 Generacja liczb o rozk̷ladzie równomiernym . . . . . . . . . . . 72 

11.3.2 Generacja liczb losowych o dowolnych rozk̷ladach prawdopodobieństwa 74 

11.3.3 Generacja wielowymiarowych zmiennych losowych . . . . . . . . 80 

12 Testowanie hipotez statystycznych 81 

12.1 Definicje elementarnych pojȩć . . . . . . . . . . . . . . . . . . . . . . 81 

12.2 Test normalności rozk̷ladu . . . . . . . . . . . . . . . . . . . . . . . . 82 

12.2.1 Test zerowania siȩ wspó̷lczynnika asymetrii i kurtozy . . . . . . . 82 

12.2.2 Test zgodności λ - Ko̷lmogorowa . . . . . . . . . . . . . . . . . 84 

12.2.3 Test zgodności Andersona-Darlinga . . . . . . . . . . . . . . . 86 

12.2.4 Test zgodności χ 2 - Pearsona . . . . . . . . . . . . . . . . . . 87 

12.2.5 Wykres normalny . . . . . . . . . . . . . . . . . . . . . . . . 88 

12.3 Hipotezy dotycz¸ace wartości oczekiwanej . . . . . . . . . . . . . . . . 90 

12.3.1 Porównanie E(X) z liczb¸a (H 0 : E(X) = X 0 ) . . . . . . . . . 90 

12.3.2 Wartości oczekiwane dwu populacji (H 0 : E(X) = E(Y )) . . . 91 

12.4 Hipotezy dotycz¸ace wariancji . . . . . . . . . . . . . . . . . . . . . . 94 

12.4.1 Porównanie wariancji X z liczb¸a (H 0 : σ 2 (X) = σ 2 0 ) . . . . . . 94 

12.4.2 Porównanie wariancji dwu populacji (H 0 : σ 2 (X) = σ 2 (Y )) . . 94 

12.5 Hipoteza jednorodności wariancji kilku populacji . . . . . . . . . . . . 96 

12.5.1 Test Bartletta . . . . . . . . . . . . . . . . . . . . . . . . . . 96 

12.5.2 Test Cochrana . . . . . . . . . . . . . . . . . . . . . . . . . . 97 

12.6 Analiza wariancji - klasyfikacja jednoczynnikowa . . . . . . . . . . . . . 98 

12.7 Analiza wariancji - dla regresji liniowej . . . . . . . . . . . . . . . . . 102 

12.8 Testy nieparametryczne hipotez porównuj¸acych populacje . . . . . . . . 105 

12.8.1 Test Smirnowa . . . . . . . . . . . . . . . . . . . . . . . . . . 105 

12.8.2 Test znaków . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 

12.8.3 Test serii Walda-Wolfowitza . . . . . . . . . . . . . . . . . . . 109 

12.8.4 Test sumy rang Wilcoxona-Manna-Whitneya . . . . . . . . . . . 111


1 ELEMENTY TEORII PRAWDOPODOBIEŃSTWA 

1.1 DEFINICJE PODSTAWOWYCH POJȨĆ 

DEFINICJA: Zbiór zdarzeń elementarnych - zbiór takich zdarzeń, które siȩ wzajemnie 

wykluczaj¸a oraz wyczerpuj¸a wszystkie możliwości (tzn. w każdym możliwym 

przypadku przynajmniej jedno z nich musi zachodzić). 

DEFINICJA: Zdarzeniem jest dowolny podzbiór zdarzeń elementarnych E. 

DEFINICJA: Zdarzeniem pewnym jest zdarzenie zawieraj¸ace wszystkie elementy 

zbioru E (zachodzi zawsze). 

DEFINICJA: Zdarzeniem niemożliwym jest zdarzenie nie zawieraj¸ace żadnego elementu 

zbioru E tj. zbiór pusty Ø. 

DEFINICJA: Zdarzenie A zawiera siȩ w zdarzeniu B jeżeli każde zdarzenie elementarne 

należ¸ace do zbioru A należy do B: A ⊂ B 

DEFINICJA: Zdarzenia A i B s¸a równe 

gdy A ⊂ B i B ⊂ A. 

DEFINICJA: Suma zdarzeń A+B 

to zdarzenie zawieraj¸ace te i tylko te zdarzenia elementarne, które należ¸a do któregokolwiek 

ze zdarzeń A, B (suma logiczna zbiorów zdarzeń elementarnych A ⋃ B). 

DEFINICJA: Różnica zdarzeń A-B 

to zdarzenie zawieraj¸ace te i tylko te zdarzenia elementarne, które należ¸a do zdarzenia 

A a nie należ¸a do zdarzenia B. 

DEFINICJA: Iloczyn zdarzeń A.B to zdarzenie zawieraj¸ace te i tylko te zdarzenia elementarne, 

które należ¸a do wszystkich zdarzeń A, B (tzn. w jȩzyku zbiorów A ⋂ B). 

DEFINICJA: Zdarzeniem przeciwnym do A: A nazywamy różnicȩ E − A . 

DEFINICJA: 

Zdarzeniem losowym - nazywamy zdarzenie spe̷lniaj¸ace poniższe warunki: 

1. W zbiorze zdarzeń losowych znajduje siȩ zdarzenie pewne oraz zdarzenie 

niemożliwe. 

2. Jeżeli zdarzenia A 1 , A 2 , ... w ilości skończonej lub przeliczalnej s¸a zdarzeniami 

losowymi to ich iloczyn i ich suma s¸a również zdarzeniami losowymi.


3. Jeżeli A 1 i A 2 s¸a zdarzeniami losowymi to ich różnica jest również zdarzeniem 

losowym. 

INTUICYJNE OKREŚLENIE: Zdarzenie losowe to takie, o którym nie możemy 

powiedzieć czy zajdzie w danych warunkach czy też nie zajdzie. 

DEFINICJA: Zmienn¸a losow¸a nazywamy jednoznaczn¸a funkcjȩ rzeczywist¸a X(e) 

określon¸a na zbiorze E zdarzeń elementarnych tak¸a, że każdemu przedzia̷lowi wartości 

funkcji X odpowiada zdarzenie losowe. 

DEFINICJA: Zmienna losowa typu skokowego (dyskretnego) to taka, która 

przyjmuje tylko co najwyżej przeliczalny zbiór wartości. Zmienna losowa typu 

ci¸ag̷lego - może przyjmować dowolne wartości od minus do plus nieskończoności. 

DEFINICJA: 

Definicja prawdopodobieństwa 

Aksjomat 1: Każdemu zdarzeniu losowemu przyporz¸adkowana jest jednoznacznie 

nieujemna liczba rzeczywista zwana prawdopodobieństwem. 

Aksjomat 2: 

Prawdopodobieństwo zdarzenia pewnego jest równe jedności. 

Aksjomat 3: Jeżeli zdarzenie losowe Z jest sum¸a skończonej lub przeliczalnej 

liczby roz̷l¸acznych zdarzeń losowych Z 1 ,Z 2 ,.. to prawdopodobieństwo zrealizowania 

siȩ zdarzenia Z jest równe sumie prawdopodobieństw zdarzeń Z 1 ,Z 2 , 

.. 

Aksjomat 4: Prawdopodobieństwo warunkowe zdarzenia A pod warunkiem, że 

zachodzi zdarzenie B; P (A | B) wyraża siȩ wzorem: 

P (A | B) = P (A:B) 

P (B) 

Prawdopodobieństwo to jest nieokreślone, gdy prawdopodobieństwo zdarzenia 

B wynosi zero. 

1.2 W̷LASNOŚCI PRAWDOPODOBIEŃSTWA 

1.) Zdarzenie przeciwne do A : 

P (A) = 1 − P (A) 

Dowód: 

A + A = E a wiȩc P (A + A) = P (E) = 1, 

z drugiej strony A i A wykluczaj¸a siȩ wiȩc 

P (A + A) = P (A) + P (A). 

St¸ad P (A) = P (E) − P (A) czyli P (A) = 1 − P (A) c.b.d.o. 

2.) Zdarzenie niemożliwe : 

P (Ø) = 0


Dowód: 

E i Ø wykluczaj¸a siȩ wiȩc P (E + Ø) = P (E) + P (Ø) oraz E + Ø = E a wiȩc 

P (E + Ø) = P (E), czyli P (Ø) = 0 

c.b.d.o. 

3.) Zdarzenie A zawiera siȩ w B : 

P (A) ≤ P (B) 

Dowód: P (B) = P (A + (A.B)) = P (A) + P (A.B) ≥ P (A) c.b.d.o. 

4.) Dowolne zdarzenie losowe : 

0 ≤ P (A) ≤ 1 

Dowód: Dla każdego zdarzenia jest prawdziwe: 

Ø ⊂ A + Ø = A = A.E ⊂ E 

a wiȩc prawdopodobieństwa zdarzeń Ø,A i E spe̷lniaj¸a: 

0 ≤ P (A) ≤ 1 c.b.d.o. 

5.) Suma dowolnych zdarzeń A+B : 

P (A + B) = P (A) + P (B) − P (A.B) 

Dowód: 

Zarówno A + B jak i B możemy zapisać jako sumy roz̷l¸acznych (wykluczaj¸acych 

siȩ) zdarzeń: 

A + B = A + (B − A.B) oraz 

B = A.B + (B − A.B), 

stosujemy aksjomat nr 3 definicji prawdopodobieństwa, 

P (A + B) = P (A) + P (B − A.B), 

P (B) = P (A.B) + P (B − A.B) 

odejmujemy stronami: P (A + B) = P (A) + P (B) − P (A.B) c.b.d.o. 

6.) Iloczyn zdarzeń A.B : 

P (A.B) = P (B).P (A | B) = P (A).P (B | A) 

Dowód: 

Wynika to automatycznie z 4 aksjomatu definicji prawdopodobieństwa. 

DEFINICJA: 

Zdarzenie A jest niezależne od B gdy P (A | B) = P (A). 

7.) Jeżeli A nie zależy od B to B nie zależy od A. Dowód: 

Korzystamy z dwu wzorów na prawdopodobieństwo A.B podanych wyżej, przy czym 

w pierwszym z nich uwzglȩdniamy, że A jest niezależne od B. Wówczas z porównania 

obu wzorów dostajemy P (B | A) = P (B). 

c.b.d.o.


8.) WKW niezależnosci: P (A.B) = P (A).P (B) Dowód: 

Wynika to automatycznie ze wzoru na prawdopodobieństwo iloczynu zdarzeń. 

c.b.d.o 

9.) Formu̷la ’ca̷lkowitego prawdopodobieństwa’: Jeżeli istnieje zbiór zdarzeń 

A 1 , A 2 , ... wykluczaj¸acych siȩ wzajemnie i wyczerpuj¸acych wszystkie możliwości 

wówczas prawdopodobieństwo dowolnego zdarzenia B może być zapisane nastȩpuj¸aco: 

P (B) = ∑ iP (A i ).P (B | A i ) 

Dowód: 

B = ∑ iB.Ai (suma roz̷l¸acznych zdarzeń) a wiȩc P (B) = ∑ iP (B.Ai) a każdy 

sk̷ladnik można zapisać jako P (Ai).P (B | Ai). c.b.d.o. 

2 ILOŚCIOWY OPIS ZMIENNYCH LOSOWYCH 

Ilościowy opis zmiennych losowych uzyskujemy stosuj¸ac 

• Dystrybuantȩ (Zwan¸a czȩsto przez statystyków funkcj¸a rozk̷ladu) 

• Rozk̷lad prawdopodobieństwa (Tylko dla zmiennych dyskretnych) 

• Funkcjȩ gȩstości prawdopodobieństwa (Tylko dla zmiennych ci¸ag̷lych) oraz 

wielkości charakteryzuj¸ace te powyżej wymienione twory. 

DEFINICJA: Dystrybuant¸a F(x) nazywamy prawdopodobieństwo tego, że zmienna 

losowa X przyjmie wartość mniejsz¸a od x. (X - to symbol zmiennej losowej a 

x to jej konkretna wartość). Oczywiście dystrybuanta jest funkcj¸a x. 

F (x) ≡ P (X < x) 

W̷lasności dystrybuanty: 

1. 0 ≤ F (x) ≤ 1 

2. F (−∞) = 0 

3. F (+∞) = 1 

4. F (x) jest niemalej¸aça funkcj¸a 

5. F (x) nie posiada wymiaru


Przyk̷lad: 

Dla rzutu kostk¸a do gry, gdzie jako zmienn¸a losow¸a przyjȩto liczbȩ wyrzuconych 

punktów: 

F (x) = 0 dla x ≤ 1, 

= 1/6 dla 1 < x ≤ 2, 





= 1 dla x > 6 

DEFINICJA: Rozk̷lad prawdopodobieństwa : Jeżeli x i (i = 1, 2, ...) s¸a wartościami 

dyskretnej zmiennej losowej to rozk̷ladem prawdopodobieństwa nazywamy zespó̷l 

prawdopodobieństw: 

P (X = x i ) = p i , 

∑ 

i p i = 1 

Przyk̷lad: 

Rozk̷lad prawdopodobieństwa dla rzutu kostk¸a do gry omawianego powyżej: 

p i = 1/6 dla i = 1, 2..6. 

DEFINICJA: 

Funkcja gȩstości prawdopodobieństwa f(x) 

f(x)dx ≡ P (x ≤ X ≤ x + dx) 

W̷lasności funkcji gȩstości prawdopodobieństwa: 

1. f(x) ≥ 0, 

2. f(x) jest unormowana tj. 

∫ +1 1 f(x)dx = 1 

3. f(x) = 

dF (x) 

dx 

4. wymiar f(x) = wymiar(1/x)


Przyk̷lad: 

⎧ 

⎪⎨ 0 dla x < a 

f(x) = 1/(b − a) dla a ≤ x ≤ b 

⎪⎩ 

0 dla x > b 

3 FUNKCJE ZMIENNEJ LOSOWEJ 

Funkcja Y zmiennej losowej X: Y = Y(X) jest również zmienn¸a losow¸a. Dlatego 

też można dla niej określić dystrybuantȩ, rozk̷lad prawdopodobieństwa lub funkcjȩ 

gȩstości prawdopodobieństwa. S¸a one prosto zwi¸azane z odpowiednimi wielkościami 

dla zmiennej X. Należy rozpatrzyć niezależnie przypadek, gdy funkcja Y(X) jest 

monotoniczna oraz gdy nie posiada tej w̷lasnosci. 

a) Funkcja Y = Y(X) jest monotoniczna. 

Można wówczas jednoznacznie określić funkcjȩ odwrotn¸a X=X(Y). 

1. Dystrybuanta funkcji Y(X): G(y) 

Y(X) jest rosn¸aca : 

G(y) = F (x(y)) 

Y(X) jest malej¸aca : 

G(y) = 1 − F (x(y)) − P (x; y = y(x)) 

Dowód: Wychodz¸ac z definicji dla Y(X) rosn¸acej: 

G(y) = P (Y < y) 

= P (X(Y ) < x) 

= F (x(y)) 

dla Y(X) malej¸acej: 

G(y) = P (Y < y) 

= P (X(Y ) > x) 

= 1 − P (X(Y ) ≤ x) 

= 1 − P (X(Y ) < x) − P (X(Y ) = x) 

= 1 − F (x(y)) − P (x; Y = y(x)) c.b.d.o.


2. Rozk̷lad prawdopodobieństwa P(y): 

P (y i ) = P (x i ; y i = Y (x i )) 

3. Funkcja gȩstości prawdopodobieństwa g(y): 

g(y) = f(x(y)) | dx(y) 

dy | 

gdzie X(Y) jest funkcj¸a odwrotn¸a do Y(X). 

Z definicji: f(x)dx = P (x ≤ X < x + dx) a to prawdopodobieństwo przy 

jednoznacznym zwi¸azku miȩdzy X i Y wynosi P (y ≤ Y < y + dy) = g(y)dy. 

Znak modu̷lu przy pochodnej pojawia siȩ st¸ad, że przy malej¸acej funkcji Y (X) 

pochodna bȩdzie ujemna co powodowa̷loby, że g(y) by̷laby ujemna a zgodnie z 

definicj¸a musi być nieujemna. 

Przyk̷lad dla funkcji monotonicznej: 

Y (X) = aX + b ; a i b to rzeczywiste sta̷le 

1. Rozk̷lad prawdopodobieństwa: 

P (Y = y i ) = P (ax i + b = y i ) = P (x i = y i b 

a ) 

2. Dystrybuanta: 

dla a > 0, G(y) = F (x = y a b ), 

dla a < 0, G(y) = 1 − F (x = y a b ) − P (x = y 

a b ) 

3. Gȩstość prawdopodobieństwa: 

g(y) = 1 

jaj f(x = y 

a b )


b.) Funkcja Y(X) nie jest monotoniczna . 

Wówczas dzielimy obszar zmienności X na przedzia̷ly, w których Y(X) jest 

monotoniczna i powtarzamy powyższe rozważania sumuj¸ac przyczynki od roz̷l¸acznych 

przedzia̷lów. 

Przyk̷lad dla funkcji niemonotonicznej: 

Y (X) = X 2 

1. Rozk̷lad prawdopodobieństwa: 

P (y i ) = P (X 2 = y i ) = P (X = − √ y i ) + P (X = + √ y i ) 

2. Dystrybuanta: 

G(y) = P (Y < y) = P (X 2 < y) = P (− √ y < X < + √ y) 

G(y) = 0 dla y ≤ 0 

G(y) = F ( √ y) − F (− √ y) dla y ≥ 0 

3. Rozk̷lad gȩstości prawdopodobieństwa: 

g(y) = 0 dla y < 0 

g(y) = 

−1 

| 

2 √ y | f(√ y) + 1 

2 √ y f(−√ y) 

= 1 

2 √ y (f(√ y) + f(− √ y)) dla y ≥ 0 

4 CHARAKTERYSTYKI OPISOWE 

W praktycznych zastosowaniach czȩsto wystarcza poznanie wartości pewnych wielkości, 

które charakteryzuj¸a rozk̷lad prawdopodobieństwa zamiast pe̷lnej informacji o rozk̷ladzie. 

Oto najczȩściej stosowane: 

DEFINICJA: fraktyl x q (zwany również kwantylem) jest to taka wartość zmiennej 

losowej, że prawdopodobieństwo znalezienia mniejszych od niej wartości wynosi q: 

P (X < x q ) ≡ F (x q ) = q


Najważniejsze fraktyle to dolny kwartyl: x 0:25 , górny kwartyl: x 0:75 oraz mediana: x 0:5 . 

DEFINICJA: Moda (zwana również wartości¸a modaln¸a jest to taka wartość zmiennej 

losowej, dla której rozk̷lad prawdopodobieństwa (lub funkcja gȩstości prawdopodobieństwa) 

przyjmuje maksimum. 

DEFINICJA: Rozk̷lady prawdopodobieństwa posiadaj¸ace jedn¸a modȩ zwane s¸a 

jednomodalnymi a te, które maj¸a wiȩcej niż jedn¸a - wielomodalnymi. 

DEFINICJA: m 1 zwany wartości¸a oczekiwan¸a, wartości¸a średni¸a lub nadziej¸a matematyczn¸a. 

Bȩdziemy go oznaczali przez E(X) (stosuje siȩ również oznaczenie M(X) lub 

ˆX ). 

E(X) ≡ ∑ i x i·p i dla zmiennych dyskretnych, 

E(X) ≡ ∫ x·f(x) dx dla zmiennych ci¸ag̷lych 

UWAGA: Jeżeli powyższa ca̷lka (lub suma) sa bezwzglȩdnie zbieżne to mówimy, że istnieje 

wartość oczekiwana. W przeciwnym wypadku (nawet jeżeli ca̷lka jest zbieżna) mówimy, 

że wartość oczekiwana nie istnieje ! 

INTERPRETACJA E(X): 

E(X) jest wspó̷lrzȩdn¸a punktu, który by̷lby środkiem masy 

rozk̷ladu prawdopodobieństwa (lub pola pod funkcj¸a gȩstości prawdopodobieństwa) 

gdyby prawdopodobieństwa poszczególnych wartości 

”x i ”traktować jako masy (lub odpowiednio gȩstość prawdodobieństwa 

jako zwyk̷l¸a gȩstość). 

W̷LASNOŚCI E(X): 

E(X) jest operatorem liniowym a wiȩc: 

1. E( ∑ i C i · X i ) = ∑ i C i · E(X i ) 

Co w szczególnych przypadkach daje: 

(a) E(C) = C 

(b) E(C · X) = C · E(X) 

(c) E(X 1 + X 2 ) = E(X 1 ) + E(X 2 )


2. Dla zmiennych niezależnych X 1 , ..., X n 

{ } ∏ 

E X i = ∏ E {X i} 

i i 

UWAGA: Warunkiem koniecznym i wystarczaj¸acym by zmienne by̷ly niezależne 

jest aby wspólny rozk̷lad prawdopodobieństwa faktoryzowa̷l siȩ: f(X 1 , X 2 , .., X n ) = 

f 1 (X 1 ).f 2 (X 2 )...f n (X n ). Rozk̷lady wielu zmiennych losowych omówimy później. 

3. Dla funkcji zmiennej X; Y=Y(X) 

wartość oczekiwana E(Y) może być znaleziona przy pomocy rozk̷ladu zmiennej X 

bez konieczności szukania rozk̷ladu f(y): 

E(Y ) = ∑ i y(x i ) · p i , E(Y ) = ∫ y(x) · f(x)dx 

dla zmiennej dyskretnej i dla zmiennej ci¸ag̷lej odpowiednio. 

DEFINICJA: Momentem rozk̷ladu rzȩdu ’k’ wzglȩdem punktu x 0 , nazywamy nastȩpuj¸aça 

wielkość: 

czyli 

m k (x 0 ) ≡ E{(x − x 0 ) k } 

m k (x 0 ) ≡ ∫ (x − x 0 ) k f(x) dx 

m k (x 0 ) ≡ ∑ i(x i − x 0 ) k p(x i ) 

dla zmiennych ci¸ag̷lych i dyskretnych odpowiednio. 

Najważniejszymi momentami s¸a te, które liczone s¸a wzglȩdem pocz¸atku uk̷ladu wspó̷lrzȩdnych 

tj. x 0 = 0 - (bȩdziemy je oznaczali przez ’ m k ’ ) oraz momenty liczone wzglȩdem 

X 0 = m 1 tj. wzglȩdem pierwszego momentu wzglȩdem pocz¸atku uk̷ladu wspó̷lrzȩdnych. 

Te ostatnie momenty nazywa siȩ momentami centralnymi (bȩdziemy je oznaczać przez 

’ µ k ’). 

DEFINICJA: µ 2 , zwany wariancj¸a lub dyspersj¸a 

Bȩdziemy go oznaczać przez σ 2 (X) lub var(X) (stosuje siȩ również oznaczenie 

D(X). Pierwiastek z wariancji nazywany jest odchyleniem standardowym i oznaczany 

σ(X) ale czasami używa siȩ również nazwy ’ dyspersja ’. 

σ 2 (X) ≡ ∑ i(x i − E(x)) 2 · p i zmienna dyskretna 

σ 2 (X) ≡ ∫ (x − E(x)) 2 · f(x)dx zmienna ci¸ag̷la


W̷LASNOŚCI WARIANCJI: 

1. Wariancja może być wyrażona przez momenty liczone wzglȩdem pocz¸atku uk̷ladu 

wspó̷lrzȩdnych: 

σ 2 (X) = m 2 − m 2 1 

σ 2 (X) = E(X 2 ) − E 2 (X) 

Dowód: Korzystamy z trzeciej w̷lasności wartości oczekiwanej tj. 

c.b.d.o. 

m 2 (E(X)) = E((X − E(X)) 2 ) 

= E(X 2 − 2X.E(X) + E 2 (X)) 

= E(X 2 ) − 2E(X).E(X) + E 2 (X) 

= E(X 2 ) − E 2 (X) 

Pos̷lugujac siȩ tym przedstawieniem wariancji dostajemy natychmiast nastȩpuj¸ace 

w̷lasności: 

(a) var(C) = 0 . 

bo E(C 2 ) − E 2 (C) = C 2 − C 2 = 0 c.b.d.o. 

(b) 

(c) 

var(C · X) = C 2 · var(X) 

jest to nastȩpstwo liniowości E(X), przez któr¸a definiowaliśmy var(X). 

var(C 1 · X + C 2 ) = C 2 · var(X) 

2. Dla zmiennych niezależnych 

var( ∑ i C i · X i ) = ∑ i C 2 i · var(X) 

Wzór ten ̷latwo wyprowadzić przypominaj¸ac definicjȩ wariancji i korzystaj¸ac z trzeciej 

w̷lasności wartości oczekiwanej: 

var(y = ∑ i C i · X i ) ≡ E((y − E(Y )) 2 ). 

Po wstawieniu do wzoru oraz podniesieniu do kwadratu otrzymamy sumȩ kwadratów 

wyrażeń C i · (X i − E(X i )) oraz iloczyny mieszane tych wyrażeń. Iloczyny mieszane 

znikn¸a w chwili gdy podzia̷la na nie zewnȩtrzny operator wartości oczekiwanej (ponieważ 

E(X − E(X)) = E(X) − E(X) = 0). 

Za̷lożenie niezależności jest potrzebne przy liczeniu wartości oczekiwanej z iloczynów 

mieszanych (wówczas wartość oczekiwana iloczynu równa jest iloczynowi wartości oczekiwanych). 

Suma wartości oczekiwanych z kwadratów wyrażeń C i · (X i − E(X i )) jest 

w̷laśnie oczekiwanym przez nas wyrażeniem.


Interpretacja wariancji wynika z nierówności Czebyszewa, któr¸a można zapisać nastȩpuj¸aco: 

P (| X − E(X) |≥ a · σ(X)) ≤ a 2 

TWIERDZENIE: 

Prawdopodobieństwo odchylenia wartości zmiennej losowej od wartości oczekiwanej E(X) 

o ’a’ -krotn¸a wartość odchylenia standardowego jest mniejsze lub równe od 1 a 2 . 

Twierdzenie to jest s̷luszne dla wszystkich rozk̷ladów, które posiadaj¸a wariancjȩ (a wiȩc, 

co za tym idzie i wartość oczekiwan¸a). Liczba ’ a ’ jest dowoln¸a dodatni¸a rzeczywist¸a liczb¸a. 

INTERPRETACJA WARIANCJI Korzystaj¸ac z powyższego twierdzenia dochodzimy do 

wniosku, że wariancja (lub odchylenie standardowe) jest miar¸a rozrzutu zmiennej 

losowej doko̷la wartości oczekiwanej. 

Jest to bardzo ważny wniosek bo w analizie danych doświadczalnych utożsamiamy 

wartość oczekiwan¸a pomiarów wykonanych w obecności b̷lȩdów przypadkowych z 

wartości¸a prawdziw¸a mierzonej wielkości. Wtedy miar¸a b̷lȩdu przypadkowego 

jest odchylenie standardowe bo ono określa rozrzut wyników doko̷la wartości prawdziwej. 

5 PODSTAWOWE POJȨCIA TEORII ESTYMACJI 

DEFINICJA: W statystyce skończony zespó̷l doświadczeń nazywamy prób¸a a wnioskowanie 

na podstawie próby o w̷lasnościach nieskończonego (zwykle) zespo̷lu wszystkich 

możliwych doświadczeń zwanego populacj¸a generaln¸a , nazywamy estymacj¸a. 

DEFINICJA: Przez próbȩ prost¸a rozumiemy ci¸ag niezależnych doświadczeń odnosz¸acych 

siȩ do tej samej populacji generalnej. 

DEFINICJA: Statystyk¸a nazywamy tak¸a funkcjȩ zmiennych losowych obserwowanych w 

próbie, która sama jest zmienn¸a losow¸a. 

DEFINICJA: Estymatorem T n (x 1 , x 2 , ..x n ; θ) parametru θ lub w skrócie T n (θ) nazywamy 

statystykȩ o rozk̷ladzie prawdopodobieństwa zależnym od θ. Tu ’x 1 , x 2 , ..’ oznaczaj¸a 

wyniki pomiarów próby a przez rozk̷lad prawdopodobieństwa rozumiemy przyporz¸adkowanie 

prawdopodobieństw różnym wartościom statystyki T n .


DEFINICJA: Estymacja punktowa to taka estymacja, która polega na oszacowaniu 

wartości danego parametru θ przez wartość jego estymatora T n (θ). 

DEFINICJA: Estymacja przedzia̷lowa polega na szukaniu przedzia̷lu liczbowego, wewn¸atrz 

którego z za̷lożonym prawdopodobieństwem leży prawdziwa wartość parametru. 

DEFINICJA: Estymator T n (θ), jest zgodny jeżeli dla każdego ɛ > 0 jest spe̷lniony 

warunek: 

lim n!1P (| T n (θ) − θ |< ɛ) = 1 

W takim przypadku używa siȩ czȩsto określenia, że estymator spe̷lnia prawo wielkich 

liczb . 

PRZYK̷LAD: 

TWIERDZENIE (Bernoulli): Wzglȩdna czȩstość pojawiania siȩ zdarzenia ’A’ w 

ci¸agu ’n’ doświadczeń spe̷lnia prawo wielkich liczb czyli jest zgodnym estymatorem prawdopodobieństwa 

zdarzenia A: P (A). 

lim n!1P (| n A /n − P (A) |< ɛ) = 1 

DEFINICJA: 

Estymator spe̷lniaj¸acy mocne prawo wielkich liczb to taki, który jest zbieżny do estymowanego 

parametru z prawdopodobieństwem równym jedności. 

P (lim n!1T n (θ) = θ) = 1 

PRZYK̷LAD: 

TWIERDZENIE: F.P.Cantelli udowodni̷l w 1917 roku, że wzglȩdna czȩstość pozytywnego 

zakończenia doświadczenia; n A /n jest zbieżna do prawdopodobieństwa zdarzenia 

A; P (A) z prawdopodobieństwem równym jedności: 

P (lim n!1(n A /n) = P (A)) = 1 

czyli wzglȩdna czȩstość spe̷lnia mocne prawo wielkich liczb. 

DEFINICJA: Estymatorem nieobci¸ażonym T n (θ) parametru θ nazywamy taki estymator, 

którego wartość oczekiwana równa jest wartości estymowanego parametru niezależnie 

od rozmiarów próby: 

E(T n (θ)) = θ


DEFINICJA: Obci¸ażeniem estymatora ’B n ’ nazywamy różnicȩ jego wartości oczekiwanej 

i wartości estymowanego parametru: 

B n = E(T n (θ)) − θ 

DEFINICJA: Estymatorem obci¸ażonym nazywamy taki estymator, którego obci¸ażenie 

jest różne od zera. 

DEFINICJA: Estymatorem asymptotycznie nieobci¸ażonym nazywamy taki estymator 

obci¸ażony, którego obci¸ażenie zmierza do zera gdy rozmiary próby nieskończenie rosn¸a: 

lim n!1B n = 0 

TWIERDZENIE: 

Jeżeli wariancja estymatora nieobci¸ażonego lub asymptotycznie nieobci¸ażonego d¸aży do 

zera gdy rozmiary próby rosn¸a nieograniczenie wówczas estymator ten jest zgodny. 

TWIERDZENIE: 

Jeżeli T n (θ) jest zgodnym estymatorem θ i jeżeli h(θ) jest wielomianem lub ilorazem 

wielomianów to estymator h(T n (θ)) jest estymatorem zgodnym dla h(θ). 

DEFINICJA: 

Jeżeli mamy zbiór estymatorów tego samego parametru θ: T n (1) (2) 

(k) 

(θ),T n (θ), ... T n (θ), 

wówczas ten spośród nich nazywany jest najbardziej efektywnym, który ma najmniejsz¸a 

wariancjȩ. 

6 ROZK̷LAD NORMALNY (Gaussa) 

DEFINICJA: 

Ci¸ag̷la zmienna losowa X, której funkcja gȩstości prawdopodobieństwa ma nastȩpuj¸aça 

postać: 

f(X) = p 1 

2 B 

exp( 

(X A)2 

2B 2 ) 

nazywa siȩ zmienn¸a o rozk̷ladzie normalnym N(A, B).


W̷lasności rozk̷ladu normalnego f(X) ≡ N(A, B): 

Wartość oczekiwana: 

Odchylenie standardowe: 

E(X) = A 

σ(X) = B 

St¸ad ̷latwo widać, że N(A, B) ≡ N(E(X), σ(X)) 

Dystrybuanta rozk̷ladu normalnego nie wyraża siȩ przez funkcje elementarne. 

Warto zapamiȩtać nastȩpuj¸ace wartości prawdopodobieństwa znalezienia zmiennej 

X w danym przedziale: 

P (E(X) − σ(X) ≤ X < E(X) + σ(X)) = 0.6827 

P (E(X) − 2σ(X) ≤ X < E(X) + 2σ(X)) = 0.9545 

P (E(X) − 3σ(X) ≤ X < E(X) + 3σ(X)) = 0.9973 

Uwaga: 

Dowoln¸a zmienn¸a Y o rozk̷ladzie normalnym można standaryzować tworz¸ac wielkość Z 

o rozk̷ladzie ’standardowym normalnym’ N(0, 1): 

Z = (Y − E(Y ))/σ(Y ). 

Standaryzacja jest ważna ze wzglȩdu na możliwość tablicowania zarówno funkcji gȩstości 

prawdopodobieństwa, jak i dystrybuanty rozk̷ladu N(0, 1) a potem wykorzystania faktu, 

że maj¸ac zmienn¸a X o rozk̷ladzie N(0, 1) możemy stworzyć zmienn¸a Y o rozk̷ladzie 

N(A, B) przez prost¸a transformacjȩ: Y = B ∗ X + A . 

TWIERDZENIE (Centralne Twierdzenie Graniczne w wersji podanej przez 

Lapunowa): 

Niech X 1 , X 2 , ...X n bȩdzie ci¸agiem niezależnych zmiennych losowych których rozk̷lady 

posiadaj¸a: 

• wartość oczekiwan¸a E(X k ), 

• wariancjȩ var(X k ), 

• trzeci moment centralny µ 3 (X k ), oraz


• absolutny trzeci moment centralny tj. 

b k ≡ E(| X k − E(X k ) | 3 ) dla k = 1, ..., n. 

Wówczas ci¸ag dystrybuant standaryzowanych zmiennych losowych zdefiniowanych 

nastȩpuj¸aco: 

spe̷lnia zależność: 

jeżeli jest spe̷lniony warunek: 

Z = 

n∑ 

k=1 

X k − E(X k ) 

√ ∑ni=1 

var(X i ) 

lim 

n!1 F n(Z) = √ 1 ∫ Z 

2π 1 dt · exp(−t2 2 ) 

lim 

n!1 

√ ∑nk=1 

3 

b k 

√ ∑nk=1 

var(X k ) = 0 

2 

Centralne Twierdzenie Graniczne (Intuicyjne sformu̷lowanie) 

Zmienna Z bȩd¸aca standaryzowan¸a sum¸a niezależnych zmiennych losowych bedzie mia̷la 

standardowy rozk̷lad normalny gdy liczba sk̷ladników w sumie d¸aży do nieskończoności 

oraz w sumie nie wystȩpuj¸a zmienne o wariancjach dominuj¸acych w stosunku do reszty 

sk̷ladników. 

W̷laśnie to twierdzenie powoduje, że rozk̷lad normalny jest wyróżnionym rozk̷ladem - 

bardzo czȩsto stosowanym w statystyce.


7 PODSTAWY RACHUNKU B̷LȨDÓW 

Wynik pomiaru bez podania dok̷ladności 

doświadczenia (b̷lȩdu) jest bezwartościowy. 

DEFINICJA: Pomiarem bezpośrednim nazywamy doświadczenie, w którym przy pomocy 

odpowiednich przyrz¸adow mierzymy (porównujemy z jednostk¸a) interesuj¸aça nas 

wielkość fizyczn¸a. 

Przyk̷lad: 

• Pomiar d̷lugości przedmiotu przy pomocy linijki 

• Pomiar d̷lugości odcinka czasu przy pomocy zegara 

DEFINICJA: Pomiarem pośrednim nazywamy doświadczenie, w którym wyznaczamy 

wartość interesuj¸acej nas wielkości fizycznej przez pomiar innych wielkości fizycznych 

zwi¸azanych z dan¸a wielkości¸a znanym zwi¸azkiem funkcyjnym. 

Przyk̷lad: 

• Pomiar oporu elektrycznego przewodnika: mierzymy spadek napiȩcia U na przewodniku 

i pr¸ad I przez niego p̷lyn¸acy a opór R wyznaczamy z prawa Ohma: R = U/I. 

• Pomiar gȩstości stopu, z którego zbudowany jest prostopad̷lościan: mierzymy bezpośrednio 

d̷lugość krawȩdzi a, b i c prostopad̷lościanu i jego masȩ m a gȩstość wyznaczamy 

ze wzoru: ρ = m/(a · b · c). 

DEFINICJA: B̷lȩdem pomiaru e nazywamy różnicȩ pomiȩdzy wartości¸a X uzyskan¸a w 

doświadczeniu a prawdziw¸a (nieznan¸a) wartości¸a X 0 danej wielkości: 

e = X − X 0 

B̷lȩdy dzielimy na grube, systematyczne i przypadkowe 

DEFINICJA: B̷lȩdy grube to b̷lȩdy, które pojawiaj¸a siȩ w wyniku pomy̷lki eksperymentatora 

(np. odczyt na niew̷laściwej skali przyrz¸adu) lub w wyniku niesprawności aparatury 

pomiarowej. Zwykle s¸a one na tyle duże, że można je ̷latwo zauważyć.


Dla unikniȩcia tych b̷lȩdów należy starannie zorganizować proces pomiaru i używać do 

doświadczeń tylko w̷laściwie wytestowanych przyrz¸adów. 

DEFINICJA: B̷lȩdy systematyczne to takie, które podczas wykonywania pomiaru systematycznie 

przesuwaj¸a wyniki pomiarów w jedn¸a stronȩ w stosunku do prawdziwej 

wartości. 

Przyk̷lad: 

Przy pomiarze oporu możemy zastosować dwa różne schematy pod̷l¸aczenia woltomierza i 

amperomierza: 

1. Woltomierz pod̷l¸aczony równolegle do oporu a szeregowo do nich amperomierz. 

Wówczas spadek napiȩcia mierzony jest rzeczywiście na oporniku ale pr¸ad mierzony 

przez amperomierz odpowiada nie samemu pr¸adowi p̷lyn¸acemu przez przewodnik 

lecz sumie pr¸adów - opornika i woltomierza. Systematycznie zawyżamy wartość 

pr¸adu ’I’ co w przypadku gdy opór woltomierza nie jest wielokrotnie wiȩkszy od 

oporu przewodnika może prowadzić do znacz¸acego b̷lȩdu. 

2. Woltomierz pod̷l¸aczony jest równolegle do uk̷ladu szeregowo po̷l¸aczonego opornika 

i amperomierza. Wówczas woltomierz mierzy spadek napiȩcia na przewodniku oraz 

na amperomierzu równocześnie. Systematycznie zawyżamy napiȩcie ’U’ co w 

przypadku gdy opór wewnȩtrzny amperomierza nie jest wielokrotnie mniejszy od 

oporu przewodnika może prowadzić do znacz¸acego b̷ledu. 

B̷ledy systematyczne s¸a trudne do zauważenia i oszacowania. 

Dla ich unikniȩcia stosuje siȩ: 

• staranne przemyślenie metody pomiaru w poszukiwaniu możliwych źróde̷l b̷lȩdów 

systematycznych i rezygnacja z metod, które prowadz¸a do takich b̷lȩdów, 

• zmianȩ metody pomiaru np. opór w powyższym przyk̷ladzie można mierzyć metod¸a 

mostka, która nie wprowadza takich systematycznych b̷lȩdów jak omówione najprostsze 

schematy pomiaru. Ważne sta̷le fizyczne takie jak prȩdkość świat̷la ’c’ 

by̷ly wielokrotnie mierzone różnymi metodami, g̷lównie po to by upewnić siȩ, że 

unikniȩto b̷lȩdów systematycznych, 

• unikanie oczywistych źróde̷l b̷lȩdu jak np. ”b̷l¸ad paralaksy”polegaj¸acy na odczytaniu 

skali nie patrz¸ac na ni¸a z kierunku prostopad̷lego, 

• pomiary wzglȩdne polegaj¸ace na tym, że mierzymy równocześnie, t¸a sam¸a metod¸a 

dwie wielkości - jedn¸a dobrze znan¸a a drug¸a - tȩ, któr¸a chcemy zmierzyć. Odnosz¸ac 

wynik pomiaru nieznanej wielkości do wyniku pomiaru znanej wielkości zwykle 

możemy wyeliminować b̷lȩdy systematyczne.


DEFINICJA: B̷lȩdy przypadkowe to b̷lȩdy, które zmieniaj¸a siȩ od pomiaru do pomiaru, 

powoduj¸ac odchylenia od wartości prawdziwej zarówno w jedn¸a jak i drug¸a stronȩ. 

Zak̷lada siȩ, że spowodowane s¸a one przez wiele niezależnych przyczyn o porównywalnym 

znaczeniu. 

Metody statystyki pozwalaj¸a na oszacowanie tego typu b̷lȩdów zarowno jakościowo 

jak i ilościowo. Nie mówi¸a jednak nic o b̷lȩdach systematycznych czy grubych. Dlatego 

dalsze rozważania bȩd¸a dotyczy̷ly tylko b̷lȩdów przypadkowych. 

Jeżeli mamy do czynienia tylko z b̷lȩdami przypadkowymi wówczas s¸a spe̷lnione za̷lożenia 

centralnego twierdzenia granicznego a wiȩc: 

Rozk̷lad b̷lȩdu przypadkowego to rozk̷lad N(0, σ(e)). 

f(e) = 

p 

1 

2 (e) 

exp( 

e 2 

2 2 (e) ) 

7.1 ROZK̷LAD POMIARÓW OBARCZONYCH B̷LȨDAMI PRZY- 

PADKOWYMI 

Wartość oczekiwana b̷lȩdu przypadkowego jest z definicji równa zero a rozrzut b̷lȩdów 

doko̷la wartości oczekiwanej b̷lȩdu jest określony przez odchylenie standardowe σ(e). 

Wynik pomiaru X różni siȩ od b̷lȩdu e tylko przesuniȩciem skali wspó̷lrzȩdnych o 

X 0 (wartość prawdziw¸a) a wiȩc rozk̷lad wartości mierzonej X jest rozk̷ladem Gaussa 

N(X 0 , σ(e)): 

f(X) = 

p 

1 

2 (e) 

exp( (X X 0) 2 

2 ). 

2 (e) 

WAŻNE WNIOSKI: 

• Wartość prawdziwa mierzonej wielkości jest równa wartości oczekiwanej 

pomiarów (jeżeli s¸a tylko b̷lȩdy przypadkowe). 

• Rozrzut pomiarów doko̷la wartości prawdziwej jest określony przez odchylenie 

standardowe σ(e) rozk̷ladu b̷lȩdów przypadkowych. 

• Miar¸a b̷lȩdu pojedynczego pomiaru jest odchylenie standardowe pomiarów.


Z powyższych faktów wynika, że: 

szukanie prawdziwej wartości mierzonej wielkości i jej b̷lȩdu to estymacja 

wartości oczekiwanej i odchylenia standardowego pomiarów 

OD ’DOBREGO’ ESTYMATORA ŻA¸ DAMY ABY: 

• spe̷lnia̷l mocne prawo wielkich liczb lub by̷l zgodny 

• O ile to możliwe chcemy by by̷l: 

– Nieobci¸ażony, 

– Najbardziej efektywny. 

7.2 ESTYMATOR WARTOŚCI OCZEKIWANEJ 

Jako estymator wartości oczekiwanej T n (E(X)) przyjmuje siȩ średni¸a arytmetyczn¸a 

niezależnych pomiarów wielkości X. Bȩdziemy j¸a oznaczać przez X : 

T n (E(X)) ≡ X = 1 n 

∑ ni=1 

X i 

Estymator ten posiada optymalne w̷lasności: 

1. Ko̷lmogorow pokaza̷l, że X spe̷lnia mocne prawo wielkich liczb a wiȩc oczywiście 

jest zgodny, 

2. Estymator X jest nieobci¸ażony. 

E( n 

1 ∑ 

i X i) = n 

1 ∑ 

i E(X i) = n 1 (n.E(X)) = E(X) c.b.d.o. 

Tu wykorzystano fakt, że wszystkie wartości oczekiwane s¸a równe E(Xi)=E(X). 

3. Można pokazać, że X jest najbardziej efektywnym estymatorem E(X). 

TWIERDZENIE: 

Estymator X wartości oczekiwanej E(X) ma rozk̷lad normalny N(E(X), (X) p n ) 

gdzie ’n’ jest liczb¸a pomiarów w próbie.


WNIOSKI: 

1. Odchylenie standardowe średniej arytmetycznej X jest √ n - krotnie mniejsze od 

odchylenia standardowego pojedynczego pomiaru. 

2. Odchylenie standardowe σ(X) czyli b̷l¸ad średni kwadratowy średniej arytmetycznej 

charakteryzuje dok̷ladność wyznaczenia prawdziwej wartości X w danym 

konkretnym pomiarze sk̷ladaj¸acym siȩ z n niezależnych doświadczeń. 

X 0 = X ± σ(X) 

3. Aby charakteryzować dok̷ladność metody pomiarowej wówczas jako miarȩ dok̷ladności 

podajemy b̷l¸ad pojedynczego pomiaru tj. σ(X) . 

4. W granicach wyznaczonych przez σ(X) powinno leżeć 68.27% wszystkich pomiarów 

a nie wszystkie pomiary. 

7.3 ESTYMATOR ODCHYLENIA STANDARDOWEGO 

(a) S(X) ≡ √ 1 ∑ ni=1 

n (X 

1 i − X) 2 

Jest to zgodny, asymptotycznie nieobci¸ażony estymator 

(b) s(X) ≡ √ 1 

n 

∑ ni=1 

(X i − X) 2 

Jest to zgodny, asymptotycznie nieobci¸ażony i najbardziej efektywny estymator 

(c) 

S(X) ≡ k n S(X) 

gdzie k n = √ n 1 

2 

Γ( n 1 

2 ) 

Γ( n 2 ) 

Jest to zgodny i nieobci¸ażony estymator σ(X).


UWAGA: Wspó̷lczynnik ”k n ”można zast¸apić z niez̷lym przybliżeniem przez wstawienie 

do wzoru na S(X) zamiast 1/(n − 1) czynnika 1/(n − 1.45). 

Poniżej podajemy w tabelce przyk̷ladowe wartości wspó̷lczynnika k n dla różnych ’n’: 

√ 

n k n 1 

n n 1:45 

3 1.1284 1.1359 

4 1.0853 1.0847 

5 1.0640 1.0615 

6 1.0506 1.0482 

7 1.0423 1.0397 

10 1.0280 1.0260 

15 1.0181 1.0165 

20 1.0134 1.0121 

25 1.0104 1.0095 

50 1.0051 1.0046 

UWAGA: 

Najczȩściej używanym estymatorem odchylenia standardowego jest estymator S(X) 

7.4 ZAPIS WYNIKÓW POMIARÓW 

Ponieważ z doświadczenia nie uzyskujemy prawdziwej wartości oczekiwanej E(X) oraz 

odchylenia standardowego σ(X) a tylko ich estymatory wiȩc nie podaje siȩ ich wartości 

z pe̷ln¸a (uzyskan¸a z obliczeń) liczb¸a cyfr znacz¸acych. 

Stosuje siȩ nastȩpuj¸aça konwencjȩ: 

• Pozostawia siȩ tylko dwie cyfry znacz¸ace estymatora b̷lȩdu a jeżeli 

zaokr¸aglenie do jednej cyfry (zaokr¸aglaj¸ac zawsze do góry) nie 

zmieni wyniku wiȩcej niż o 10% to podaje siȩ tylko jedn¸a cyfrȩ. 

• Wynik pomiaru obliczamy o jedno miejsce dziesiȩtne dalej niż 

miejsce dziesiȩtne, na którym zaokr¸aglono b̷l¸ad, a nastȩpnie 

zaokr¸aglamy wg normalnych regu̷l do tego samego miejsca 

dziesiȩtnego, do którego wyznaczono b̷l¸ad.


TWIERDZENIE: Jeżeli prawdopodobieństwo zrealizowania siȩ danego zdarzenia losowego 

w pojedynczym doświadczeniu jest równe p to liczba k zrealizowanych zdarzeń w N 

niezależnych doświadczeniach rz¸adzona jest rozk̷ladem Bernoulliego (dwumianowym, 

binomialnym): 

̷Latwo można pokazać, że 

P (k) = N! 

k!(N k)! pk (1 − p) N k ; k = 0, 1, ..N 

E(k) = √N · p 

σ(k) = N · p · (1 − p) 

W fizyce atomowej, j¸ader atomowych i cz¸astek elementarnych czȩsto zdarza siȩ sytuacja 

gdy N jest bardzo duże, p bardzo ma̷le a wartość oczekiwana rejestrowanych zdarzeń 

E(k) ≡ N · p jest sta̷la. np. N - liczba radioaktywnych j¸ader w badanej próbce, p - prawdopodobieństwo 

rozpadu pojedynczego radioaktywnego j¸adra w jednostce czasu, k - liczba 

rejestrowanych rozpadów w jednostce czasu 

W takiej sytuacji rozk̷lad Bernoulliego przechodzi w rozk̷lad Poissona: 

P (k) = k 

k! exp(−λ) 

Wartość oczekiwana i odchylenie standardowe wyrażaj¸a siȩ wzorem: 

E(k) = λ 

σ(k) = √ λ 

Można pokazać, że dla dla N√ 

⇒ ∞ rozk̷lad Bernoulliego i rozk̷lad Poissona d¸aż¸a do 

rozk̷ladu normalnego N(N.p, N.p.(1 − p)) i N(λ, √ λ) odpowiednio.


7.5 B̷LA¸ D STATYSTYCZNY 

Liczba rejestrowanych w danym okresie czasu zdarzeń k rz¸adzonych powyższymi prawami 

jest zmienn¸a losow¸a a wiȩc ’prawdziwa’ liczba zdarzeń to E(k) a jej ’b̷l¸ad’ to σ(k). 

Ten ’b̷l¸ad’ nazywany jest b̷lȩdem statystycznym. 

ESTYMATOR prawdziwej liczby zdarzeń i b̷lȩdu statystycznego 

Jako estymator prawdziwej liczby zdarzeń przyjmuje siȩ liczbȩ k zarejestrowanych 

zdarzeń podczas pojedynczego pomiaru: 

T n (E(k)) = k 

a jako estymator b̷lȩdu statystycznego: 

T n (σ(k)) = √ k 

POZORNY PARADOKS: Im d̷lużej mierzymy tym b̷l¸ad liczby zarejestrowanych zdarzeń 

jest wiȩkszy. 

WYT̷LUMACZENIE: Istotny jest statystyczny b̷l¸ad wzglȩdny a nie bezwzglȩdny: 

T n ( (k) ) = p 1 

E(k) k 

. 

NOMENKLATURA: Pomiar z ma̷lym statystycznym b̷lȩdem wzglȩdnym to pomiar z 

DOBRA¸ STATYSTYKA¸ a z dużym to pomiar ze Z̷LA¸ STATYSTYKA¸ . 

UWAGA: Zwykle interesuje nas liczba zdarzeń na jednostkȩ czasu a wiȩc k ma wymiar 

odwrotny do czasu. Należy zwracać uwagȩ, że b̷l¸ad statystyczny ma identyczny 

wymiar jak liczba zdarzeń, tj. wymiar odwrotny do czasu mimo, że ilościowo jest 

pierwiastkiem z liczby zdarzeń. 

W praktyce do opisu rejestracji liczby zdarzeń stosujemy rozk̷lad Poissona. Interesuje nas 

jednak nie tylko odpowiedź na pytanie: 

Ile zdarzeń zachodzi w określonym czasie ? 

ale również odpowiedź na inne pytanie: 

Ile zachodzi zdarzeń DANEGO TYPU ? 

PRZYK̷LAD: Rejestrujemy produkty reakcji j¸adrowej. Chcemy wiedzieć nie tylko ile 

reakcji zachodzi ale także ile jest produktów posiadaj¸acych określon¸a energiȩ.


PYTANIA: 

1. Jakim rozk̷ladem rz¸adzona jest liczba zdarzeń w każdym przedziale (’kanale’) energii? 

2. Co by siȩ sta̷lo gdybyśmy dodali liczby zdarzeń z kilku s¸asiednich kana̷lów (dla 

poprawienia ’statystyki’ liczby zdarzeń) ? 

ODPOWIEDZI: 

ad 1 Liczba zdarzeń w każdym kanale jest rz¸adzona rozk̷ladem Poissona ale każdy z tych 

rozk̷ladów ma zwykle różny parametr λ. 

ad 2 Korzystaj¸ac z poniższego twierdzenia: 

TWIERDZENIE 

Rozk̷lad prawdopodobieństwa sumy skończonej liczby niezależnych sk̷ladników, z których 

każdy rz¸adzony jest rozk̷ladem Poissona o parametrze λ i jest również rozk̷ladem 

Poissona ale o nowym parametrze λ = ∑ i λ i . 

stwierdzamy, że liczba zdarzeń w kilku wysumowanych kana̷lach k = ∑ i k i bȩdzie 

dalej rz¸adzona rozk̷ladem Poissona z parametrem λ, którego estymator jest równy 

T n (E(k)) = ∑ i k i. 

7.6 POMIARY POŚREDNIE 

Jeżeli w doświadczeniu mierzymy wielkości X 1 , X 2 , .., X N a nastȩpnie wyliczamy wartość 

funkcji Y = Y(X 1 , X 2 , .., X N ) to tak¸a procedurȩ nazywamy pomiarem pośrednim. 

7.6.1 ESTYMATOR E(Y) POMIARU POŚREDNIEGO Y 

Estymatorem E(Y) jest wartość funkcji Y wyliczona dla argumentów, które s¸a estymatorami 

X 1 , X 2 , ..X N tzn. dla średnich arytmetycznych X 1 , X 2 , ..., X N : 

lub inaczej 

T n (E(Y(X 1 , X 2 , ..X N ))) = Y(X 1 , X 2 , ..., X N ) 

E(Y(X 1 , X 2 , ..X N )) ≈ Y(X 1 , X 2 , ..., X N )


7.6.2 B̷LA¸ D POMIARU POŚREDNIEGO 

Przy za̷lożeniu, że pomiary X 1 , X 2 , .., X N by̷ly wykonywane niezależnie odpowiednio 

n 1 , n 2 , .., n N razy, b̷l¸ad pomiaru pośredniego (b̷l¸ad średni kwadratowy) oszacowuje 

siȩ nastȩpuj¸aco: 

√ 

∑ N 

σ(Y ) ≈ (@X @Y 

i=1 i 

) 2 X i =X · σ 2 (X i i ) 

UWAGA: 

1. X 1 , X 2 , ..X N to różne wielkości a nie kolejne pomiary wielkości ”X”, 

2. Pochodne liczone wzglȩdem ’X i ’ to pochodne cz¸astkowe tzn. liczone przy za̷lożeniu, 

że pozosta̷le zmienne ’X j6=i’ s¸a ustalone, 

3. Zamiast wariancji zmiennej σ 2 (X i ) używa siȩ jej estymatora tzn. S 2 (X i ) 

n i - krotnie mniejszego od estymatora S 2 (X i ). 

Jeżeli pomiary wielkości mierzonych bezpośrednio by̷ly wykonywane jednokrotnie to 

nie możemy oszacować b̷lȩdu średniego kwadratowego wielkości mierzonych bezpośrednio 

(z rozrzutu pomiarów) ani nie możemy oszacować b̷lȩdu średniego kwadratowego wielkości 

mierzonych pośrednio. 

Wtedy szacujemy tylko b̷l¸ad maksymalny !!! 

7.6.3 B̷LA¸ D MAKSYMALNY 

B̷l¸ad maksymalny pomiaru pośredniego liczymy wg poniższego wzoru, tzn. 

różniczki zupe̷lnej. 

metod¸a 

∆(Y ) ≈ N ∑ 

i=1 

| @Y 

@X i 

| · ∆(X i ) 

Tu modu̷ly pochodnych s¸a wyliczane dla jednokrotnie zmierzonych wielkości X i a 

symbol ∆(X i ) oznacza maksymalny b̷l¸ad tej wielkości mierzonej bezpośrednio. 

̷Latwo można pokazać , że b̷l¸ad obliczony metod¸a różniczki zupe̷lnej jest nie mniejszy 

od b̷lȩdu średniego kwadratowego. 

W odróżnieniu od b̷lȩdu średniego kwadratowego szacowanego wzorami podanymi 

powyżej b̷l¸ad maksymalny nie ma interpretacji statystycznej a wiȩc nie można 

go bezpośrednio wyrazić przez b̷l¸ad średni kwadratowy. Niekiedy jednak stosuje siȩ przepis 

wyznaczaj¸acy go jako potrojon¸a wartość odchylenia standardowego (czyli b̷lȩdu średniego 

kwadratowego). Przepis ten wykorzystuje omówion¸a wcześniej w̷lasność rozk̷ladu Gaussa,


że w granicy ±3 · σ doko̷la wartości oczekiwanej leży 99,73 % wszystkich wartości zmiennej. 

Czȩsto interesuje nas zamiast bezwzglȩdnej wartości b̷lȩdu jego stosunek do wartości 

zmierzonej wielkości. Jest to tzw. b̷l¸ad wzglȩdny. Warto pamiȩtać, że w szczególnym 

przypadku gdy szukana wielkość f(X,Y,Z) zależy od mierzonych bezpośrednio wielkości w 

poniższy sposób: 

f(X, Y, Z) = X a · Y b · Z c 

gdzie a,b i c to sta̷le, ̷latwiej jest wyliczyć b̷l¸ad wzglȩdny niż bezwzglȩdny. 

W przypadku b̷lȩdu maksymalnego b̷l¸ad wzglȩdny z̷lożonej wielkości ”f”jest nastȩpuj¸aça 

kombinacj¸a liniow¸a wzglȩdnych b̷lȩdów argumentów: 

∆(f) 

f 

=| a | · ∆(X) 

jXj + | b | · ∆(Y jYj ) + | c | · ∆(Z) 

jZj 

W przypadku b̷lȩdu średniego kwadratowego dostajemy analogiczny wzór: 

√ 

(f) 

f = a 2 · ( (X) 

X )2 + b 2 · ( (Y Y 

) 

)2 + c 2 · ( (Z) 

Z )2 

Wzór ten czȩsto określa siȩ sformu̷lowaniem: ’wzglȩdne b̷lȩdy średnie kwadratowe dodaj¸a 

siȩ w kwadratach’. To sformu̷lowanie jest precyzyjne wtedy gdy wyk̷ladniki potȩg 

’a’,’b’,’c’, ... s¸a równe 1 (lub -1).


8 ESTYMACJA PRZEDZIA̷LOWA 

Podstawy tej metody estymacji opracowa̷l polski statystyk Jerzy Sp̷lawa-Neyman (w literaturze 

zachodniej cytowany zwykle jako Neyman). Ide¸a metody jest tworzenie takiego 

przedzia̷lu liczbowego, o którym można powiedzieć, że z zadanym prawdopodobieństwem 

zawiera w sobie (przekrywa) wartość szacowanego parametru. 

Prawdopodobieństwo to nazywa siȩ poziomem ufności i standardowo oznaczane jest 

symbolem 1 − α . W tych notatkach zamiennie używane jest oznaczenie 1 − α oraz γ. 

Przedzia̷l nazywany jest przedzia̷lem ufności dla parametru θ jeżeli: 

♦ prawdopodobieństwo P( T (1) 

n 

≤ θ ≤T (2) 

n 

) = 1 - α , 

♦ końce przedzia̷lu zależ¸a od wyników doświadczenia i od poziomu istotności a nie zależ¸a 

funkcyjnie od θ. 

UWAGA: 

• Poziom ufności 1 − α ≡ γ przyjmuje siȩ zwykle duży (np. 0,9) ale nie może być 

zbyt duży bo zwiȩkszanie poziomu ufności zwiȩksza d̷lugość przedzia̷lu ufności co 

powoduje, że tracona jest informacja o wartości oszacowanego parametru. 

• Poniższe rozważania s¸a s̷luszne przy za̷lożeniu, że wyniki pomiarów x i ,i=1,..n obarczone 

s¸a tylko b̷lȩdami przypadkowymi a wiȩc rz¸adzone s¸a rozk̷ladem normalnym 

N(E{x}, σ{x}).


8.1 ESTYMACJA E{X} GDY ZNAMY σ{X} 

Jako statystykȩ testow¸a (zmienn¸a losow¸a zależn¸a od wyniku doświadczenia) bierzemy 

zmienn¸a z zdefiniowan¸a poniżej: 

z ≡ 

¯x − E{¯x} 

σ{¯x} 

≡ (¯x − E{x})√ n 

σ{x} 

Ponieważ średnia arytmetyczna “¯x” ma rozk̷lad normalny wiȩc zmienna z, która jest 

standaryzowan¸a średni¸a arytmetyczn¸a, ma 

standardowy rozk̷lad normalny N(0,1). 

Szukamy takiego przedzia̷lu [z min , z max ], że: 

• P (z min ≤ z ≤ z max ) = γ 

• przedzia̷l ten po̷lożony jest tam, gdzie gȩstość prawdopodobieństwa f(z) jest najwiȩksza. 

Ponieważ rozk̷lad standardowy normalny jest symetryczny doko̷la zera i zero jest mod¸a 

rozk̷ladu (funkcja gȩstości ma maksimum) to widać, że przedzia̷l [z min , z max ] powinien 

być po̷lożony symetrycznie doko̷la z = 0: 

z max = −z min . 

Wiedz¸ac, że funkcja gȩstości prawdopodobieństwa jest unormowana do jedności (pole 

pod ca̷lym wykresem funkcji gȩstości jest równe jedności) oraz wiedz¸ac, że pole pod tym 

wykresem dla z leż¸acego w przedziale [z min , z max ] wynosi γ a przedzia̷l leży symetrycznie 

doko̷la z = 0 można brzegi przedzia̷lu wyrazić przez kwantyle z q rozk̷ladu N(0, 1) : 

z min = z 1 

 

2 

oraz z max = z 1+ 

2 

Dodatkowo możemy skorzystać z faktu symetrii rozk̷ladu N(0, 1) doko̷la z = 0, który 

pozwala na wyrażenie obu kwantyli przez siebie: 

z 1 

2 

= −z 1+ 

2 

Dziȩki temu w tablicach podawane s¸a zwykle tylko kwantyle na dużym ( tj. 1+ ) lub 2 

na ma̷lym ( tj. 1 ) poziomie. 

2 

Zamiast korzystać z tablic można oczywiście wyliczać numerycznie kwantyle rozk̷ladu 

N(0, 1). Odpowiednie procedury dla liczenia kwantyli rozk̷ladu standardowego normalnego 

a także innych podstawowych rozk̷ladów statystyki, takich jak rozk̷lad chi-kwadrat,


rozk̷lad Studenta czy też rozk̷lad Fishera-Snedecora można znaleźć np. w ksi¸ażce S. 

Brandta, “Analiza danych” , PWN 1998. 

Definicyjny wzór na zmienn¸a z pokazuje, że zmienna z i średnia arytmetyczna zwi¸azane s¸a 

monotoniczn¸a (liniow¸a) zależności¸a a wiȩc można jednoznacznie przedzia̷lowi [z min , z max ] 

przypisać przedzia̷l wartości zmiennej 

¯X − E{X} = σ{X} √ n 

z. 

co po prostym przekszta̷lceniu da przedzia̷l ufności na E{X}: 

( 

P (z min ≤ z ≤ z max ) ⇔ P ¯X − σ{X} √ z max ≤ E{X} ≤ ¯X − σ{X} ) 

√ z min n n 

Trzeba pamiȩtać, że wartość oczekiwana jest konkretn¸a liczb¸a a nie zmienn¸a losow¸a. 

Zmiennymi s¸a końce przedzia̷lu bo s¸a funkcjami średniej arytmetycznej pomiarów. 

Inaczej mówi¸ac: 

Z prawdopodobieństwem γ przedzia̷l liczbowy wypisany 

powyżej przykrywa sob¸a wartość oczekiwan¸a E{X}. 

Wyrażaj¸ac z min i z max przez kwantyle standardowego rozk̷ladu normalnego dostajemy 

przedzia̷l ufności dla wartości oczekiwanej E{X} na poziomie ufności γ: 

¯X − σ{X} √ n 

U 1+ 

2 

≤ E{X} ≤ ¯X − σ{X} √ U 1 

n 

 

2 

. 

lub 

¯X − σ{X} √ n 

z 1+ 

2 

≤ E{X} ≤ ¯X + σ{X} √ n 

z 1+ 

2 

lub 

¯X + σ{X} √ z 1 

n 

 

2 

≤ E{X} ≤ ¯X − σ{X} √ z 1 

n 

 

2 

S¸a to trzy równoważne formy, przy czym naj̷latwiej chyba zapamiȩtać drug¸a z nich: 

¯X − σ{X} √ n 

z 1+ 

2 

≤ E{X} ≤ ¯X + σ{X} √ n 

z 1+ 

2


8.2 ESTYMACJA E{X} GDY NIE ZNAMY σ{X} 

Jako statystykȩ testow¸a bierzemy zmienn¸a “t” zdefiniowan¸a poniżej: 

t ≡ 

¯x − E{¯x} 

S{¯x} 

≡ (¯x − E{x})√ n 

S{x} 

gdzie statystyka 

1 n∑ 

S{¯x} ≡ √ 

(x i − ¯x) 2 

n(n − 1) i=1 

jest znanym nam estymatorem odchylenia standardowego średniej arytmetycznej “¯x” a 

“n” oznacza liczbȩ pomiarów w próbie. 

Można pokazać, że zmienna t ma rozk̷lad Studenta o (n-1) stopniach swobody. 

Ponieważ rozk̷lad Studenta jest bardzo podobny do standardowego rozk̷ladu normalnego 

wiȩc rozważania podane powyżej dla przypadku przedzia̷lu ufności dla E{X} gdy 

znane jest odchylenie standardowe pomiarów zachowuj¸a sw¸a prawdziwość i dla aktualnej 

sytuacji z tym, że kwantyle rozk̷ladu normalnego musz¸a być zamienione przez odpowiednie 

kwantyle rozk̷ladu Studenta a odchylenie standardowe zast¸apione przez jego estymator: 

¯X − S{X} √ n 

t 1+ 

2 

≤ E{X} ≤ ¯X + S{X} √ n 

t 1+ 

2 

Tu podana jest tylko jedna z trzech równoważnych postaci wzoru na przedzia̷l ufności 

ale oczywiście można również używać obu pozosta̷lych po odpowiednich modyfikacjach. 

UWAGA: 

Dla dużych prób (n > 20 ÷ 30) rozk̷lad Studenta upodabnia siȩ bardzo do rozk̷ladu 

standardowego normalnego i dla wiȩkszości praktycznych zastosowań można pos̷lugiwać 

siȩ kwantylami rozk̷ladu N(0, 1).


8.3 ESTYMACJA PRZEDZIA̷LOWA var(X) i σ(X) 

Jako statystykȩ bierzemy zmienn¸a Y zdefiniowan¸a nastȩpuj¸aco: 

Y = (n − 1)S2 (X) 

σ 2 (X) 

gdzie “n” to liczba pomiarów w próbie, σ 2 (X) to wariancja X a S 2 (X) to estymator 

wariancji zmiennej X: 

S 2 (X) = 1 n∑ 

(x i − ¯x) 2 

n − 1 

i=1 

Wielkość ta ma rozk̷lad chi-kwadrat o (n-1) stopniach swobody. 

Podobnie jak przy szukaniu przedzia̷lu ufności dla wartości oczekiwanej E{X} rozważa siȩ 

przedzia̷l najbardziej prawdopodobnych wartości zmiennej Y. Jednakże przedzia̷l ten nie 

jest symetryczny doko̷la mody bo rozk̷lad chi-kwadrat nie jest symetryczny. 

Dla jednoznacznego określenia przedzia̷lu ufności zak̷lada siȩ, że prawdopodobieństwo 

odchylenia wartości Y poza wybrany przedzia̷l w stronȩ dużych wartości jest takie samo 

jak prawdopodobieństwo odchylenia w stronȩ odwrotn¸a: 

P (Y < Y min ) = P (Y > Y max ) = 1 − γ 

2 

Za̷lożenie to pozwala jednoznacznie określić brzegi przedzia̷lu przez kwantyle rozk̷ladu 

chi-kwadrat : 

Y min = (χ 2 n 1 ) 1 

 

2 

i Y max = (χ 2 n 1 ) 1+ 

2 

Kwantyle te nie s¸a równe i musz¸a być oba wyliczone lub znalezione z tablic. 

Relacja pomiȩdzy estymowanym parametrem, tj. wariancj¸a i statystyk¸a Y jest monotoniczn¸a 

funkcj¸a : 

σ 2 (X) = (n − 1).S2 (X) 

Y 

wiȩc prawdopodobieństwo trafienia statystyki do przedzia̷lu [Y min , Y max ] jest równe prawdopodobieństwu 

tego, że oszacowywana wariancja bȩdzie leża̷la w przedziale: 

(n − 1).S 2 (X) 

Y max 

≤ σ 2 (X) ≤ (n − 1).S2 (X) 

Y min 

, 

co powoduje, że ostatecznie przedzia̷l ufności dla wariancji na poziomie ufności γ to :


(n − 1).S 2 (X) 

(χ 2 n 1 ) 1+ 

2 

≤ σ 2 (X) ≤ (n − 1).S2 (X) 

(χ 2 n 1 ) 1 

2 

Estymacja przedzia̷lowa odchylenia standardowego σ(X) może być przeprowadzona 

przez pierwiastkowanie granic przedzia̷lu ufności dla wariancji. Ten przedzia̷l liczbowy 

bȩdzie przedzia̷lem ufności dla odchylenia standardowego na tym samym poziomie ufności 

γ ≡ 1 − α co startowy przedzia̷l ufności dla wariancji. Dzieje siȩ tak dlatego, że pierwiastkowanie 

- relacja miȩdzy wariancj¸a i odchyleniem standardowym - jest monotoniczn¸a 

funkcj¸a. 

(n − √ 1).S2 (X) 

(χ 2 n 1 ) 1+ 

2 

≤ σ(X) ≤ 

(n − √ 1).S2 (X) 

(χ 2 n 1 ) 1 

2


9 METODY SZUKANIA ESTYMATORÓW 

Omówimy poniżej trzy najczȩściej stosowane ogólne metody poszukiwania estymatorów 

parametrów zapewniaj¸ace otrzymanie estymatorów o poż¸adanych w̷lasnościach. S¸a to: 

• Metoda momentów 

• Metoda najwiȩkszej wiarygodności 

• Metoda najmniejszych kwadratów 

Każda z nich ma swoje zalety i wady. W ogólnym przypadku zalecana jest metoda najwiȩkszej 

wiarygodności ale w przypadku szukania parametrów regresji najbardziej popularn¸a 

jest metoda najmniejszych kwadratów. Z kolei metoda momentów może być bardzo 

wygodna w niektórych przypadkach przedyskutowanych poniżej. 

9.1 METODA MOMENTÓW (“MM”) 

Metoda momentów zaproponowana zosta̷la przez K. Pearsona na prze̷lomie XIX i XX 

wieku. 

Idea metody: Szukamy estymatorów parametrów θ 1; θ 2;::: θ k określaj¸acych ca̷lkowicie 

dystrybuantȩ zmiennej losowej X postȩpuj¸ac w poniższy sposób: 

• Znajdujemy zwi¸azki pomiȩdzy parametrami a momentami rozk̷ladu. 

• Wyliczamy estymatory momentów T n (m i (0)) ≡ M i wg wzoru: 

M i = 1 n∑ 

[x j ] i 

nj=1 

• Wstawiamy powyższe estymatory momentów do wzorów wi¸aż¸acych oszacowywane 

parametry z momentami. 

• Rozwi¸azujemy uk̷lad równań na parametry θ 1; θ 2;::: θ k wyrażaj¸ac je przez estymatory 

momentów M i , i=1,..,k . Te rozwi¸azania s¸a estymatorami odpowiednich 

parametrów T n (θ i ) , i=1,...,k , optymalnymi w sensie metody momentów.


PRZYK̷LAD: 

Szukamy estymatorów parametrów θ 1; (θ 2 ) 2 rozk̷ladu Gaussa: 

f(x) = 1 √ exp{− (x − θ 1) 2 

} 

2πθ 

2 

2 

2θ 2 2 

Znamy zwi¸azki pomiȩdzy parametrami i momentami rozk̷ladu: 

θ 1 =E{x} ≡ m 1 (0) 

(θ 2 ) 2 = var{x} = E{x 2 } − (E{x}) 2 ≡ m 2 (0) − (m 1 (0)) 2 

Liczymy estymatory momentów: 

T n (m 1 (0)) ≡ M 1 = 1 n∑ 

x i 

ni=1 

T n (m 2 (0)) ≡ M 2 = 1 n∑ 

x 2 i 

ni=1 

Z pierwszego równania po wstawieniu średniej arytmetycznej zamiast E{x} 

dostajemy: 

T n (θ 1 ) = 1 n∑ 

x i 

ni=1 

Z drugiego równania (zastȩpuj¸ac momenty ich estymatorami) dostajemy: 

( ) 

T n (θ 2 2 ) = n 

1 n∑ 

x 2 i − 1 

n∑ 2 

n x i = 

i=1 i=1 

= n 

1 n∑ 

x 2 i − 2¯x2 + ¯x 2 = 

i=1 

( ) 

= n 

1 n∑ 

x 2 i − 2¯x. 1 

n∑ 

n x i + 

i=1 

i=1 

= n 

1 n∑ ( 

x 

2 

i − 2¯x.x i + ¯x 2) = 

= 1 n 

i=1 

n∑ 

i=1 

(x i − ¯x) 2 

( 

1 

n 

n∑ 

i=1 

¯x 2 ) 

=


(w drugim wierszu dodany i odjȩty kwadrat średniej arytmetycznej, w trzecim kwadrat 

średniej zapisany jako n-ta czȩść sumy kwadratów średniej a dalej to tylko zwijanie 

kwadratu różnicy). 

Otrzymujemy wiȩc znany nam estymator s 2 (x) jako najlepszy w sensie metody momentów 

estymator wariancji θ 2 2 : 

T n (θ 2 2 ) = 1 n∑ 

(x i − ¯x) 2 ≡ s 2 (x) 

ni=1 

W̷lasności estymatorów metody momentów: 

Estymatory s¸a: 

• asymptotycznie nieobci¸ażone (lub nieobci¸ażone) 

• zgodne 

Wady metody momentów: 

• Uk̷lad równań na estymatory parametrów θ jest zwykle nieliniowy co powoduje, 

że musimy znajdować rozwi¸azania numerycznie i dodatkowo utrudnia oszacowanie 

b̷lȩdów estymatorów. 

• Estymatory metody momentów s¸a zwykle mniej efektywne (tzn. maj¸a wiȩksz¸a wariancjȩ) 

niż estymatory znalezione innymi metodami a w szczególności metod¸a najwiȩkszej 

wiarygodności. 

• Wyznaczanie wyższych momentów z doświadczenia jest ma̷lo dok̷ladne co rzutuje 

na dok̷ladność estymatorów parametrów. 

Optymalna sytuacja dla metody momentów: 

Zachodzi ona wtedy, gdy szukane parametry wystȩpuj¸a jako wspó̷lczynniki rozwiniȩcia 

funkcji gȩstości prawdopodobieństwa na ortonormalny zespó̷l funkcji g k (x), k = 1, .., r: 

f(x, θ) ⃗ r∑ 

= const + θ k g k (x) 

k=1


gdzie “const” jest sta̷l¸a normalizacyjn¸a a funkcje g k spe̷lniaj¸a relacje: 

∫ 

dx g k (x) g j (x) = δ kj 

oraz 

∫ 

dx g k (x) = 0. 

Wtedy możemy napisać nastȩpuj¸aco wzór na wartość oczekiwan¸a funkcji g j (x): 

E{g j (x)} = ∫ dx g j (x) f(x, ⃗ θ) = 

= ∫ dx const g j (x) + r ∑ 

= 0 + θ j 

k=1 

θ k 

∫ dx gk (x) g j (x) = 

Wynika st¸ad, że szukanie estymatora parametru θ j sprowadza siȩ do znalezienia estymatora 

wartości oczekiwanej funkcji g j (x). Zgodnie z zasad¸a metody momentów estymatorem 

tym jest średnia arytmetyczna: 

T n (θ j ) = 1 n∑ 

g j (x i ) 

ni=1 

Wiemy, że średnia arytmetyczna jest zgodnym i nieobci¸ażonym estymatorem. Co wiȩcej, 

wiemy z centralnego twierdzenia granicznego , że asymptotyczny rozk̷lad takiej zmiennej 

jest rozk̷ladem normalnym a wiȩc znamy również przepis na estymator wariancji tego 

estymatora. Takim nieobci¸ażonym i zgodnym estymatorem jest S 2 (¯x), gdzie zamiast 

“x i ” bierzemy funkcjȩ g j (x i ) a zamiast ¯x bierzemy estymator T n (θ j ): 

S 2 (T n (θ j )) = 

1 n∑ 

[g j (x i ) − T n (θ j )] 2 

n(n − 1) i=1


9.2 METODA NAJWIȨKSZEJ WIARYGODNOŚCI (“MNW”) 

Metoda najwiȩkszej wiarygodności zaproponowana zosta̷la przez R.A. Fishera w 1921 

roku. 

Idea metody: 

Zawiera siȩ w za̷lożeniu, że zaobserwowane w próbie wyniki s¸a najbardziej prawdopodobne 

spośród wszystkich możliwych. 

• Szukamy prawdopodobieństwa tego, że próba bȩdzie taka jak¸a zaobserwowaliśmy 

jeżeli parametry ⃗ θ przyjmuj¸a konkretn¸a wartość ⃗ θ 0 . 

Jeżeli próba jest prosta, tzn. pomiary x i , i = 1, .., n s¸a niezależne to szukane 

prawdopodobieństwo próby równe jest iloczynowi prawdopodobieństw warunkowych 

poszczególnych pomiarów. Dla zmiennej ci¸ag̷lej X możemy opuścić iloczyn różniczek 

dx 1 ...dx n i zapisać jedynie iloczyn gȩstości prawdopodobieństw: 

L( θ ⃗ n∏ ∣ ∣∣ 0 ) = f(x i θ0 ⃗ ). 

i=1 

To prawdopodobieństwo (dla zmiennej dyskretnej) lub gȩstość prawdopodobieństwa 

(dla zmiennej ci¸ag̷lej) możemy potraktować jako funkcjȩ szukanych parametrów. 

Funkcjȩ tȩ nazywamy funkcj¸a wiarygodności. 

• Znajdujemy tak¸a wartość parametrów ⃗ θ , która zapewnia maksimum funkcji wiarygodności: 

L(⃗θ) = max . 

Te dwa warunki s̷luż¸a jako przepis na szukanie optymalnych w sensie metody najwiȩkszej 

wiarygodności estymatorów. 

Ponieważ szukanie maksimum funkcji wiarygodności wymaga zwykle różniczkowania 

po parametrach wiȩc bȩdziemy mieć do czynienia z różniczkowaniem iloczynu co 

prowadzi do dość skomplikowanych rachunków. Aby u̷latwić różniczkowanie standardowo 

zamienia siȩ funkcjȩ wiarygodności przez jej logarytm co powoduje, że zamiast 

różniczkowania iloczynu należy różniczkować sumȩ a po̷lożenie maksimum w przestrzeni 

parametrów jest takie samo gdyż logarytm jest funkcj¸a monotoniczn¸a oraz 

∂ ln(L) 

∂θ i 

≡ 

( ) @L 

@ i 

L 

ma taki sam znak jak 

∂L 

∂θ i 

(L jest wiȩksze od zera ). 

Logarytm z funkcji wiarygodności oznaczany jest zwykle przez ma̷l¸a literȩ l.


l ≡ ln(L) 

(chociaż stosuje siȩ również oznaczenie przez duże L) i nazywany jest “logarytmiczn¸a 

funkcj¸a wiarygodności” a czasem również “funkcj¸a wiarygodności”. 

PRZYK̷LAD: 

Dla rozk̷ladu normalnego N(θ 1 ,θ 2 ) : 

wiȩc funkcja wiarygodności: 

f(x) = 

L(θ 1 , θ 2 ) = 

1 

√ 

2π θ2 

exp 

1 

(2π) n 2 θ n 2 

a logarytmiczna funkcja wiarygodności: 

{− (x − θ 1) 2 } 

2θ 2 2 

{ 

exp − 1 

} 

n∑ 

(x i − θ 

2θ2 

2 1 ) 2 

i=1 

l = −n ln((2π) 1 2 ) − n ln(θ2 ) − 1 n∑ 

(x i −θ 

2θ2 

2 1 ) 2 

i=1 

Różniczkuj¸ac po parametrach dostajemy uk̷lad równań na parametry: 

⎧ 

⎪⎨ 

⎪⎩ 

@l 

@ 1 

= 1 

n∑ 

2 

2 i=1 

@l 

@ 2 

= − n 2 

+ 1 

(x i − θ 1 ) = 0 

n∑ 

(x i − θ 1 ) 2 = 0 

2 

3 i=1 

Rozwi¸azanie pierwszego równania daje estymator T n (θ 1 ): 

T n (θ 1 ) = 1 n∑ 

x i 

ni=1 

czyli średni¸a arytmetyczn¸a ¯x, a przekszta̷lcaj¸ac drugie równanie można napisać tak: 

czyli 

n = 1 n∑ 

(x i − T n (θ 

θ2 

2 1 ) 2 

i=1 

T n (θ 2 2 ) = 1 n∑ 

(x i − ¯x) 2 

ni=1


a to jest znany nam estymator wariancji zmiennej x oznaczany symbolem s 2 (x). 

Jak widać metoda najwiȩkszej wiarygodności da̷la w tym przypadku dok̷ladnie te same 

estymatory co metoda momentów. 

Zanim podamy w̷lasności estymatorów MNW wprowadzimy definicjȩ rozk̷ladu regularnego 

i estymatorów regularnych. 

Mówimy, że rozk̷lad f(X, θ) jest rozk̷ladem regularnym gdy ca̷lkowanie wzglȩdem x i 

różniczkowanie wzglȩdem θ s¸a przemienne i istniej¸a wyrażenia: 

oraz 

+1 

@ 2 

@ 2 

≡ +1 

+1 

@ ∫ +1 

@f(xj) 

@ dx f(x|θ) = dx 

1 

∫1 +1 

@ 

@ ln f(xj) 

≡ dx f(x|θ) 

∫1 

@ 

≡ E { @ ln f(xj) 

@ 

+1 

dx f(x|θ) = 

∫1 dx @2 f(xj) 

@ 2 

+1 

@ + 2 

∫ 

1 

∫1 dx f(x|θ) @2 ln f(xj) 

≡ E { @ 2 ln f(xj) 

@ 2 

} 

} 

+ E 

{ [@ ln f(xj) 

@ 

∫1 dx ] f(x|θ)[ @ 2 ln f(xj) 

@ ≡ 

] } 2 

Estymator parametru θ rozk̷ladu regularnego nazywamy estymatorem regularnym. 

Gdy zmienna X jest dyskretna to w powyższych wzorach należy funkcje gȩstości prawdopodobieństwa 

zast¸apić prawdopodobieństwem i ca̷lki sumami. 

UWAGA: 

+1 ∫ 

Ze wzglȩdu na warunek normalizacji gȩstości prawdopodobieństwa dx f(x|θ) = 1 

oba wyrażenia wypisane w definicji rozk̷ladu regularnego s¸a równe zero. 

1 

TWIERDZENIE 

Jeżeli funkcja gȩstości prawdopodobieństwa f(X|θ) (lub rozk̷lad prawdopodobieństwa 

p(X|θ) ) s¸a rozk̷ladami regularnymi i parametr θ jest szacowany na podstawie próby 

prostej to estymator T n (θ) otrzymany przy pomocy MNW ma dla rozmiarów próby 

“n” d¸aż¸acych do nieskończoności nastȩpuj¸ace w̷lasności: 

• jest zgodny 

• jego asymptotyczny rozk̷lad jest normalny


– z wartości¸a oczekiwan¸a E{T n (θ)}=θ 

[ 

+1 

] 

– i wariancj¸a σ 2 ∫ ( ) 1 

(T n (θ))=− n @ ln f(Xj) 2 

@ f(X|θ) dX 

1 

Można pokazać (jest to treści¸a tzw. nierówności Cramera-Rao), że wyrażenie powyższe 

jest doln¸a graniça wariancji dla nieobci¸ażonego estymatora regularnego a 

wiȩc 

MNW daje estymatory: 

- zgodne, 

- asymptotycznie nieobci¸ażone, 

- asymptotycznie najbardziej efektywne 

Dla skończonych rozmiarów próby i regularnych rozk̷ladów MNW daje estymatory 

zgodne ale mog¸a być one obci¸ażone i mog¸a nie być najbardziej efektywne. O ich 

efektywności można wnioskować na podstawie twierdzenia Cramera-Rao zwanego również 

nierówności¸a informacyjn¸a: 

TWIERDZENIE Cramera-Rao: 

Wariancja regularnego estymatora T n (θ) spe̷lnia nierówność 

σ 2 (T n (θ)) ≥ 

{ 

1 + ∂B(θ) 

∂θ 

} ⎡ ⎢ ⎣n 

+1 ∫ 

1 

⎤ 

( ) ∂ ln f(X|θ) 2 

⎥ 

f(X|θ) dX ⎦ 

∂θ 

1 

gdzie 

B(θ) ≡ E{T n (θ)} − θ 

jest obci¸ażeniem estymatora. 

Wyrażenie w nawiasie kwadratowym nazywane jest informacj¸a o parametrze θ zawart¸a 

w próbie (R.A. Fisher) - st¸ad nazwa nierówności. 

Wyrażenie to zosta̷lo tak nazwane gdyż posiada w̷lasności, których wymagamy od informacji: 

• zwiȩksza siȩ wraz z liczb¸a obserwacji, 

• zależy od tego czego chcemy siȩ dowiedzieć (od parametru θ i jego zwi¸azku z mierzonymi 

wielkościami), 

• zwi¸azana jest z dok̷ladności¸a (im wiȩksza informacja tym lepsza dok̷ladność określenia 

wartości parametru)


TWIERDZENIE 

Minimaln¸a wariancjȩ estymatora regularnego (równość w twierdzeniu Cramera-Rao) 

T n (τ (θ)) pewnej funkcji τ (θ) interesuj¸acego nas parametru θ : 

( ) 

@ () 

σ 2 (T n (τ (θ)) = 

@ 

∣ F (θ) ∣ 

uzyskuje siȩ dla skończonych rozmiarów próby “n” wtedy gdy pochodna cz¸astkowa 

funkcji wiarygodności spe̷lnia nastȩpuj¸aça relacjȩ: 

∂ ln L 

∂θ 

= F (θ) ( T n (τ (θ)) − τ (θ)) 

gdzie F(θ) jest pewn¸a funkcj¸a parametru θ ale nie zależy od pomiarów ⃗x. 

○ 

Funkcja wiarygodności ma wtedy nastȩpuj¸aça postać: 

L(⃗x|θ ) = exp { A(θ) B(⃗x) + C(⃗x) + D(θ) } 

gdzie “A” i “D” s¸a funkcjami θ (A jest ca̷lk¸a po dθ z F (θ) ) a “B” i “C” s¸a funkcjami 

zespo̷lu pomiarów (próby). 

Porównuj¸ac wzór na wariancjȩ estymatora T n (τ (θ)) z nierówności¸a Cramera-Rao 

widać natychmiast, że: 

• F (θ) to informacja z próby o funkcji τ (θ), 

• gdy τ (θ)=θ to wariancja wynosi 1/F (θ), 

• istnieje tylko jedna funkcja parametru θ , dla której osi¸agana jest minimalna wariancja 

estymatora określona nierówności¸a Cramera-Rao czyli taka funkcja T n (τ (θ)) 

od której liniowo zależy pochodna po parametrze θ z logarytmicznej funkcji wiarygodności. 

PRZYK̷LAD: Jeżeli parametrem θ jest odchylenie standardowe rozk̷ladu normalnego 

σ(x) to tylko estymator wariancji σ 2 (x) , tzn. estymator s 2 (x) ma minimaln¸a wariancjȩ 

a estymator s(x) już tej w̷lasności nie posiada. Widać to ze wzoru wyprowadzonego w 

przyk̷ladzie zastosowania MNW: 

∂l 

= − n + 1 n∑ 

(x i − θ 

∂θ 2 θ 2 θ2 

3 1 ) 2 = 0 

i=1 

Pochodna po θ 2 jest liniowo zwi¸azana z funkcj¸a s 2 (x) ≡ n 

1 n∑ 

(x i − θ 1 ) 2 a nie z 

i=1 

estymatorem odchylenia standardowego s(x), który jest pierwiastkiem z tego wyrażenia.


9.3 METODA NAJMNIEJSZYCH KWADRATÓW (“MNK”) 

Za autora metody najmniejszych kwadratów uważa siȩ K. Gaussa. 

Idea metody: 

Szukamy estymatora T n (θ) parametru θ wystȩpuj¸acego we wzorze: 

g(Y, θ) = 0, 

który może być ściśle spe̷lniony tylko w wyidealizowanym przypadku, gdy mierzone doświadczalnie 

wielkosci Y i nie s¸a obarczone b̷lȩdami. W obecności b̷lȩdów tak dobieramy parametr θ 

(może być ich wiȩcej) aby funkcja “g” zbliży̷la siȩ do zera tak bardzo jak to tylko jest 

możliwe, tj. ż¸adamy spe̷lnienia warunku: 

n∑ 

i=1 

[g(Y i , θ)] 2 = min 

a w najogólniejszym przypadku (w̷l¸aczaj¸ac wagi pomiarów “w i ”) warunku: 

n∑ 

i=1 

w i· [g(Y i , θ)] 2 = min . 

 

PRZYK̷LAD: 

Szukamy prawdziwej wartości wielkości Y mierzonej bezpośrednio. Gdyby nie by̷lo blȩdów 

wówczas: 

albo inaczej 

θ = Y 

g(Y |θ) ≡ Y − θ = 0. 

W obecności b̷lȩdów,funkcja g(Y |θ) bȩdzie zwykle różna od zera ale MNK podaje przepis 

jak znaleźć estymator T n (θ): 

n∑ 

n∑ 

[g(Y i |θ)] 2 ≡ 

i=1 

i=1 

[Y i − θ] 2 = min 

Aby znaleźć minimum powyższej funkcji ze wzglȩdu na θ należy przyrównać do zera 

pochodn¸a tej funkcji wzglȩdem θ: 

n∑ 

−2 [Y i − θ] = 0 

i=1 

a wiȩc dostajemy znany nam przepis na estymator wartości oczekiwanej:


T n (θ) = 1 n∑ 

Y i 

n i=1 

W̷lasności estymatorów MNK 

Estymatory otrzymane MNK nie maj¸a w ogólnym przypadku optymalnych w̷lasności 

(nawet asymptotycznie)! Istniej¸a jednak dwa ważne wyj¸atki od tej regu̷ly: 

1.) Pomiary Y i maj¸a rozk̷lad normalny i s¸a nieskorelowane, 

2.) Szukane parametry s¸a wspó̷lczynnikami w liniowej funkcji regresji. 

ad 1. Pomiary maj¸a rozk̷lad normalny i s¸a nieskorelowane Odpowiada to sytuacji, 

w której zmienna Y może być przedstawiona nastȩpuj¸aco: 

Y i = h(X i , ⃗ θ) + ε 

gdzie ε to b̷l¸ad przypadkowy. 

Wtedy funkcja wiarygodności ma nastȩpuj¸aça postać: 

L(Y 1 , .., Y n |⃗θ) = 

n∏ 

i=1 

a logarytmiczna funkcja wiarygodności: 

⎧ ( 

1 

⎪⎨ Yi 

√ exp 

2πσi ⎪⎩ − − h(X i , ⃗θ) ) ⎫ 

2 

⎪⎬ 

2σi 

2 ⎪⎭ 

( 

Yi − h(X i , ⃗ θ) ) 2 

l(Y 1 , .., Y n | θ) ⃗ = − 1 2 n ln ( ) ∑ n 

2πσi 

2 − 

i=1 

2σ 2 i 

Funkcja ta bȩdzie mia̷la maksimum (ujemne !) gdy suma kwadratów bȩdzie najmniejsza. 

A wiȩc metoda najmniejszych kwadratów jest wtedy równoważna metodzie 

najwiȩkszej wiarygodności, która zapewnia optymalnośc otrzymywanych estymatorów. 

ad 2. Funkcja regresji jest liniowa ze wzglȩdu na szukane parametry Zmienna 

Y zależy wtedy od zmiennej X w nastȩpuj¸acy sposób: 

k∑ 

Y i = θ j · f j (X i ) 

j=1


gdzie f j (X) jest dowoln¸a funkcj¸a. 

Markow udowodni̷l, że w takiej sytuacji estymatory parametrów posiadaj¸a bardzo 

dobre w̷lasności: 

• s¸a nieobci¸ażone 

• s¸a najbardziej efektywne 

• s¸a liniowymi funkcjami pomiarów Y 1 , ..., Y n . 

Te w̷lasności nie zależ¸a od rozk̷ladu zmiennej Y i spe̷lnione s¸a nawet 

dla niewielkich prób. 

Linowy (ze wzglȩdu na parametry) model funkcji regresji jest bardzo czȩsto stosowany 

w praktyce, ponieważ obok optymalnych w̷lasności estymatorów parametrów zapewnia 

możliwość ścis̷lego rozwi¸azania równań określaj¸acych estymatory parametrów a wiȩc możliwość 

znalezienia jawnych wzorów na estymatory. Tego prawie nigdy nie da siȩ zrobić w przypadku 

pierwszym, tzn. gdy zależność od parametrów jest nieliniowa. Zapiszemy warunek 

metody najmniejszych kwadratów macierzowo stosuj¸ac nastȩpuj¸ace oznaczenia: 

A ij ≡ f j (x i ) i = 1, .., n j = 1, .., r 

B ij i = 1, .., n j = 1, .., n 

Y i i = 1, .., n 

θ i i = 1, .., r 

gdzie A ij to macierz wartości funkcji f j (x i ), B i;j to macierz wag zwykle brana jako 

odwrócona macierz kowariancji pomiarów {cov(y i ,y j )} 1 , Y i - wektor pomiarów, θ i - 

wektor parametrów. Wtedy minimalizowana suma kwadratów może być zapisana w taki 

sposób: 

Q 2 = (⃗Y − A · ⃗θ) T · B · (⃗Y − A · ⃗θ) 

a pochodne wzglȩdem parametrów nastȩpuj¸aco (i=1,...,r): 

∂Q 2 

∂θ i 

= { −2A T · B · (⃗Y − A · ⃗θ) } i = 0· 

Zespó̷l r powyższych równań można zapisać macierzowo i rozwi¸azać formalnie: 

A T · B · (⃗Y − A · ⃗θ) = 0 

A T · B · ⃗Y = A T · B · A · ⃗θ 

a mnoż¸ac lewostronnie przez macierz odwrotn¸a do A T BA, dostaniemy estymatory 

parametrów liniowej funkcji regresji : 

T n ( ⃗ θ) = [ A T · B · A ] 

1 

A 

T · B · ⃗Y


Jest to dok̷ladne i jedyne rozwi¸azanie (pod warunkiem, że macierz A T BA jest nieosobliwa) 

Z powyższego wzoru widać, że estymatory parametrów s¸a liniowymi funkcjami wartości 

pomiarów Y 1 , ..., Y n co pozwala ściśle wyrazić macierz kowariancji estymatorów parametrów 

(a wiȩc i ich b̷lȩdy) przez macierz kowariancji pomiarów C(⃗Y ) stosuj¸ac wzór wyprowadzony 

dla “propagacji b̷lȩdów”. Gdy przyjmiemy macierz wag B jako macierz odwrotn¸a do 

C(⃗Y ) to uzyskamy wyj¸atkowo prost¸a formȩ macierzy kowariancji estymatorów parametrów. 

C(T n ( ⃗ θ)) = 

= 

{ [A ] } 

{ 

T 1 [A ] 

BA A 

T B · C(⃗Y ) · 

T 1 

BA A 

T } T 

B 

{ [A ] } { 

T 1 [A ] 

BA A 

T B · B 1 · 

T 1 

BA A 

T } T 

B 

= [ A T BA ] 1 

A 

T · BB 1 · B T ( [A ] 

A 

T ) 1 T 

BA 

= [ A T BA ] 1 [ ] ( [A 

· A 

T BA · 

T ] T ) 1 

BA 

= ([ A T BA ]) 1 

= [ A T C(⃗Y ) 1 A ] 1 

Ostatecznie macierz kowariancji estymatorów parametrów : 

C(T n ( ⃗ θ)) = [ A T C(⃗Y ) 1 A ] 1 

Warto zauważyć, że 

• Ten wynik jest ścis̷ly 

• Powyższa macierz jest wyliczana dla znalezienia estymatorów parametrów bo to jest 

macierz {A T BA} 1 wystȩpuj¸aca we wzorze na estymatory. 

• Mimo, że wzór jest ścis̷ly i prosty to jego wyliczenie czȩsto napotyka na trudności 

numeryczne gdyż procedura odwracania macierzy {A T BA} 1 jest źle uwarunkowana 

numerycznie (ma̷le zaokr¸aglenia rachunków mog¸a powodować wielkie zmiany 

wyników). Dlatego nieco później omówimy metodȩ pozwalaj¸aça na unikniȩcie tego 

problemu przez zastosowanie wielomianów ortogonalnych na zbiorze punktów.


10 WIELOWYMIAROWE (WEKTOROWE) ZMI- 

ENNE LOSOWE 

Wielowymiarowa zmienna losowa definiowana jest analogicznie jak jednowymiarowa 

(skalarna), tzn. można j¸a traktować jako wektor, którego sk̷ladowe s¸a jednowymiarowymi 

zmiennymi losowymi. 

Dystrybuanta : 

F (x 1 , .., x N ) = P (X 1 < x 1 , ..., X N < x N ) 

Funkcja gȩstości prawdopodobieństwa: 

f(x 1 , ..., x N ).dx 1 ...dx N = P (x 1 ≤ X 1 < x 1 + dx 1 , ..., x N ≤ X N < x N + dx N ) 

Oprócz funkcji gȩstości prawdopodobieństwa dla ca̷lego wektora losowego (X 1 , .., X N ) 

można zdefiniować jeszcze : 

• Rozk̷lad brzegowy gȩstości prawdopodobieństwa i 

• Rozk̷lad warunkowy gȩstości prawdopodobieństwa. 

Brzegowy rozk̷lad gȩstości prawdopodobieństwa 

zmiennej X i ( i – tej sk̷ladowej wektora losowego) to wynik wyca̷lkowania funkcji gȩstości 

prawdopodobieństwa dla ca̷lej wielowymiarowej zmiennej po wszystkich sk̷ladowych z 

wyj¸atkiem X i : 

∫ 

g(X i ) = 

dx 1 ..dx i 1 .dx i+1 ...dx N .f(x 1 , ..., x N ) 

Oczywiście można stworzyć rozk̷lady brzegowe dla dwuwymiarowych zmiennych (jeżeli 

N > 2) ca̷lkuj¸ac po wszystkich zmiennych z wyj¸atkiem tych dwu wybranych,rozk̷lad 

brzegowy dla trzywymiarowych (jeżeli N > 3) ca̷lkuj¸ac po wszystkich z wyj¸atkiem tych 

trzech zmiennych, itd. .


Rozk̷lad warunkowy “f w ” zmiennych (X 1 , .., X i ) pod warunkiem, że zmienne (X i+1 , .., X N ) 

przyjmuj¸a wartość w nieskończenie ma̷lym przedziale (x i+1 ≤ X i+1 < x i+1 , .., x N ≤ 

X N < x N ) definiowany jest nastȩpuj¸aco: 

f w (x 1 , .., x i |x i+1 , .., x N ) = f(x 1, .., x N ) 

f b (x i+1 , .., x N ) 

Rozk̷lad ten nie jest określony, gdy rozk̷lad brzegowy wystȩpuj¸acy w mianowniku zeruje 

siȩ. Wskaźniki “w” i “b” zosta̷ly użyte w tym wzorze aby podkreślić, że postać funkcyjna 

tych rozk̷ladów jest w ogólności inna niż rozk̷ladu f(x 1 , .., x N ). 

Rozk̷lad warunkowy można tworzyć dla różnych zespo̷lów sk̷ladowych wektora losowego, 

np. moglibyśmy zdefiniować rozk̷lad warunkowy pojedynczej zmiennej “X N ” pod warunkiem, 

że pozosta̷le zmienne przyjmuj¸a określone wartości. 

Rozk̷lad prawdopodobieństwa wielowymiarowej dyskretnej zmiennej losowej jest 

oczywistym uogólnieniem rozk̷ladu jednowymiarowego, a brzegowy rozk̷lad prawdopodobieństwa 

i warunkowy rozk̷lad prawdopodobieństwa tworzy siȩ tak jak ich 

odpowiedniki dla zmiennej ci¸ag̷lej zastȩpuj¸ac ca̷lkowanie sumowaniem po wartościach 

odpowiednich sk̷ladowych. 

Warto również pamiȩtać, że można tworzyć brzegow¸a dystrybuantȩ i warunkow¸a 

dystrybuantȩ (zarówno dla zmiennej ci¸ag̷lej jak i skokowej). 

Niezależne zmienne losowe to takie, że rozk̷lad warunkowy jednej zmiennej (może 

to być wielowymiarowa zmienna) pod warunkiem, że druga zmienna przyjmuje konkretne 

wartości (ta zmienna też może być wielowymiarowa) równy jest rozk̷ladowi brzegowemu: 

f w (⃗x 1 |⃗x 2 

) = f(⃗x 1 ) 

Warunkiem koniecznym i wystarczaj¸acym niezależności zmiennych losowych jest 

aby ich wspólna funkcja gȩstości prawdopodobieństwa (dla zmiennej ci¸ag̷lej) lub ich 

wspólny rozk̷lad prawdopodobieństwa (dla zmiennej dyskretnej) faktoryzowa̷ly siȩ tzn. 

f(x 1 , ...x N ) = f 1 (x 1 ).f 2 (x 2 )....f N (x N )


Przyk̷lad dla 2-wymiarowej zmiennej losowej: 

Wspólna funkcja gȩstości prawdopodobieństwa X 1 i X 2 jest sta̷la (wynosi 1 / 2 ) w 

kwadracie o wierzcho̷lkach {(-1,0),(0,1),(1,0) i (0,-1)} a zeruje siȩ poza kwadratem. 

Rozk̷lad brzegowy X 1 : 

⎧ 

⎪⎨ 

f b (X 1 ) = 

⎪⎩ 

0 dla X 1 ≤ −1 

X 1 + 1 dla −1 ≤ X 1 ≤ 0 

−X 1 + 1 dla 0 ≤ X 1 ≤ +1 

0 dla X 1 ≥ +1 

Jest to rozk̷lad trójk¸atny zwany “rozk̷ladem Simpsona”. Można wyobrazić sobie 

pogl¸adowo, że w powyższym przyk̷ladzie liczenie rozk̷ladu brzegowego jest równoważne 

“zsypywaniu” punktów jednorodnego rozk̷ladu w kwadracie na oś X 1 co powoduje, że 

rozk̷lad brzegowy ma kszta̷lt trójk¸ata (w kwadracie zmiennych X 1 , X 2 najwiȩcej punktów 

ma wspó̷lrzȩdn¸a X 1 blisk¸a zeru a ilość punktów z wiȩkszymi lub mniejszymi wartościami 

tej wspó̷lrzȩdnej maleje liniowo. 

Rozk̷lad warunkowy X 1 pod warunkiem X 2 . 

f w (X 1 |X 2 ) = 

1 

2 

f b (X 2 ) 

Wzór ten ważny jest dla nastȩpuj¸acego przedzia̷lu zmiennej X 1 : 

−X 2 − 1 ≤ X 1 ≤ +X 2 + 1 gdy − 1 ≤ X 2 ≤ 0 

+X 2 − 1 ≤ X 1 ≤ −X 2 + 1 gdy 0 ≤ X 2 ≤ +1 

Wyznaczanie rozk̷ladu warunkowego f w (X 1 |X 2 ) można sobie wyobrazić jako ogl¸adanie 

(patrz¸ac wzd̷luż osi X 2 ) przekroju prostopad̷lościanu przy czym ze wzglȩdu na normalizacjȩ 

pole tego przekroju musi być równe jedności – st¸ad pojawia siȩ sta̷la normalizacyjna 

1/f b (X 2 ) (różna dla różnych wartości X 2 ). 

Ponieważ f w (X 1 |X 2 ) ≠ f b (X 1 ) to zmienne X 1 i X 2 s¸a zależne !


10.1 MOMENTY ROZK̷LADU WIELOWYMIAROWEJ 

ZMIENNEJ LOSOWEJ 

Momentem wielowymiarowej zmiennej losowej X (X 1 ,...,X N ) rzȩdu k 1 +...+k N wzglȩdem 

punktu X 0 (X 01 ,...,X 0N ) nazywamy wielkość zdefiniowan¸a wzorem: 

∫ 

m k1 +:::+k N (X 01 , ..., X 0N ) = 

dX 1 ...dX N .f(X 1 , ..., X N ).(X 1 −X 01 ) k 1 

...(X N −X 0N ) k N 

Ten wzór jest s̷luszny dla zmiennej ci¸ag̷lej a dla dyskretnej trzeba ca̷lkȩ zamienić na sumȩ 

i funkcjȩ gȩstości prawdopodobieństwa na rozk̷lad prawdopodobieństwa. 

Najważniejsze momenty dla celów analizy statystycznej danych to: 

Wartość oczekiwana czyli pierwszy moment wzglȩdem pocz¸atku uk̷ladu wspó̷lrzȩdnych: 

czyli 

E{ ⃗X} = (m 10:::0 (0, .., 0), ..., m 0:::01 (0, ..., 0)) 

E{ ⃗X} = (E{X 1 }, E{X 2 }, ...E{X N }) 

Wariancja czyli drugi moment wzglȩdem wartości oczekiwanej: 

var{X 1 } = m 20:::0 (E{X 1 }, ..., E{X N }) 

............. 

var{X N } = m 00:::2 (E{X 1 }, ..., E{X N }) 

Kowariancja czyli drugi moment mieszany wzglȩdem wartości oczekiwanej: 

cov{X 1 , X 2 } = m 1100::0 (E{X 1 }, .., E{X N }), 

cov{X 1 , X 3 } = m 1010::0 (E{X 1 }, .., E{X N }), 

.....


Ponieważ wariancjȩ można uważać za kowariancjȩ policzon¸a dla dwukrotnie powtórzonej 

zmiennej: var{X i } = cov{X i , X i } to wygodnie jest zgromadzić wariancje i kowariancje 

w jeden zespó̷l wielkości zwany macierz¸a kowariancji. Na g̷lównej przek¸atnej macierzy 

znajduj¸a siȩ wariancje a poza przek¸atn¸a kowariancje. Macierz kowariancji jest: rzeczywista, 

symetryczna i dodatnio określona. Można j¸a wiȩc zawsze zdiagonalizować 

przez liniow¸a transformacjȩ zmiennych pozostawiaj¸ac jedynie wariancje na diagonali. 

Czȩsto zamiast macierzy kowariancji tworzy siȩ macierz korelacji. 

Macierz ta sk̷lada siȩ ze wspó̷lczynników korelacji ρ(X i ,X j ) zdefiniowanych nastȩpuj¸aco: 

ρ(X i , X j ) = 

cov{X i , X j } 

√ 

var{Xi }.var{X j } 

Oczywiście diagonalne elementy macierzy korelacji to jedynki a pozadiagonalne to odpowiednie 

wspó̷lczynniki korelacji. 

W̷lasności wspó̷lczynnika korelacji 

○ Wspó̷lczynnik korelacji przyjmuje wartości z przedzia̷lu [-1,+1] 

○ Jeżeli zmienne s¸a niezależne to wspó̷lczynnik korelacji jest równy zero. 

○ Gdy wspó̷lczynnik korelacji równy jest zero (mówimy wtedy, że zmienne s¸a 

nieskorelowane) to zmienne s¸a niezależne liniowo ale mog¸a być zależne i to nawet 

funkcyjnie. 

○ Jeżeli zmienne X i Y s¸a zwi¸azane funkcyjnym zwi¸azkiem liniowym; Y= 

aX+b to wspó̷lczynnik korelacji jest równy jedności co do modu̷lu a jego znak jest taki 

sam jak znak wspó̷lczynnika kierunkowego prostej. 

○ Jeżeli modu̷l wspó̷lczynnika korelacji jest równy jedności to X i Y zwi¸azane 

s¸a funkcyjnym zwi¸azkiem liniowym Y= aX+b a znak wspó̷lczynnika kierunkowego prostej 

jest taki sam jak znak wspó̷lczynnika korelacji. 

Estymator wspó̷lczynnika korelacji T n (ρ(X, Y )) ≡,,r” (symbole ¯x i ȳ oznaczaj¸a średnie 

arytmetyczne pomiarów): 

r ≡ T n (ρ(X, Y )) = 

n∑ 

(x i − ¯x)(y i − ȳ) 

i=1 

( n √ 

∑ 

) ( ) 

n∑ 

(x i − ¯x) 2 (y j − ȳ) 2 

i=1 

j=1


Interpretacja kwadratu estymatora ,,r 2 ” 

Można pokazać, że kwadrat estymatora wspó̷lczynnika korelacji pokazuje na ile dobre jest 

przybliżenie liniowe zależności y(x) czyli jak dobra jest regresja drugiego rodzaju (patrz 

niżej). 

r 2 = 

∑ 

i (ax i + b − ȳ) 2 

∑ 

i (y i − ȳ) 2 

Wyrażenie w liczniku to tzw. wyjaśniona przez regresjȩ suma kwadratów a wyrażenie w 

mianowniku to ca̷lkowita suma kwadratów. Jak widać im bliższy jedności jest kwadrat 

estymatora wspó̷lczynnika korelacji tym lepszym przybliżeniem zależności y(x) jest linia 

prosta. Zwykle uważa siȩ, że przybliżenie jest dobre gdy wartości r 2 s¸a bliskie 0.9 ale w 

praktyce sami musimy zdecydować, czy odchylenia rzȩdu 10% s¸a już zadowalaj¸aco ma̷le. 

Regresj¸a (lub regresj¸a pierwszego rodzaju ) zmiennej Y wzglȩdem X nazywamy warunkow¸a 

wartość oczekiwan¸a E{Y |X} traktowan¸a jako funkcja zmiennej X. Oczywiście warunkow¸a 

wartość oczekiwan¸a E{X|Y } nazywamy regresj¸a pierwszego rodzaju zmiennej X wzglȩdem 

Y. 

Podstawowa w̷lasność funkcji regresji E{Y |X}: polega na tym, że wartość oczekiwana 

kwadratu odchyleń zmiennej losowej Y od dowolnej funkcji u(X) jest minimalna, gdy jako 

tȩ funkcjȩ przyjmiemy funkcjȩ regresji E{Y |X}: 

E { (Y − u(X)) 2} ≥ E { (Y − E{Y |X}) 2} 

Dowód: 

E { (Y − u(X)) 2} = ∫ dX · dY · f(X, Y ) · (Y − u(X)) 2 

= ∫ dX · f 1 (X) ∫ dY · f 2 (Y |X) · (Y − u(X)) 2 

Wewnȩtrzna ca̷lka jest wartości¸a oczekiwan¸a kwadratu odchylenia zmiennej Y od pewnej 

sta̷lej (u(X) jest sta̷l¸a jeżeli idzie o ca̷lkowanie wzglȩdem zmiennej Y). Możemy wiȩc 

zapisać tȩ ca̷lkȩ nastȩpuj¸aco (oznaczamy u(X) ≡ c): 

∫ dY · f2 (Y |X) · (Y − u(X)) 2 = 

= E{(Y − c) 2 } = 

= E{(Y − E{Y } + E{Y } − c) 2 = 

= E{(Y − E{Y }) 2 + 2(Y − E{Y })(E{Y } − c) + (E{Y } − c) 2 } = 

= E{(Y − E{Y }) 2 } + 2E{Y − E{Y })(E{Y } − c) + E{(E{Y } − c) 2 } = 

= E{(Y − E{Y }) 2 + 0 + E{(E{Y } − c) 2 }.


Drugi wyraz znikn¸a̷l bo E{Y-E{Y}} ≡ 0 a pozosta̷la suma wartości oczekiwanych z 

kwadratów (Y-E{Y}) 2 i (E{Y}-c) 2 bȩdzie mia̷la minimum gdy E{Y } ≡ c tj. E{Y } = 

E{Y |X}. 

c.b.d.o. 

UWAGI: 

• W tym wyprowadzeniu oczywiście należy odczytywać E{Y} jako warunkow¸a wartość 

oczekiwan¸a, tj. E{Y|X} a sta̷l¸a c jako dowoln¸a funkcjȩ u(X). 

• Metoda estymacji parametrów oparta na omówionej powyżej w̷lasności funkcji regresji 

nazywana jest metod¸a najmniejszych kwadratów 

Regresja liniowa zwana również regresj¸a drugiego rodzaju to linia prosta przybliżaj¸aca 

zależność regresji E{Y|X} od X, przy czym parametry tej prostej dobiera siȩ tak aby by̷la 

spe̷lniona podstawowa w̷lasność regresji tzn. aby wartość oczekiwana sumy kwadratów 

odchyleń wartości Y od linii prostej by̷la minimalna. 

W szczególnym przypadku dwuwymiarowego rozk̷ladu normalnego funkcja regresji E{Y|X} 

jest lini¸a prost¸a a wiȩc funkcja regresji drugiego rodzaju jest również funkcj¸a regresji pierwszego 

rodzaju. 

Regresja krzywoliniowa to funkcja nieliniowa argumentu X przybliżaj¸aca regresjȩ E{Y|X} 

przy czym parametry funkcji dobierane s¸a metod¸a najmniejszych kwadratów. W tym 

przypadku należy rozróżnić dwie sytuacje: 

• Parametry wchodz¸a liniowo do funkcji, np. przybliżenie E{Y|X} przez szereg wielomianów 

lub innych funkcji tworz¸acych uk̷lad zupe̷lny. Odpowiada to tzw. 

liniowej metodzie najmniejszych kwadratów i pozwala znaleźć wartości parametrów 

jako rozwi¸azania uk̷ladu równań liniowych przy czym dla unikniȩcia niestabilności 

numerycznych zalecane jest stosowanie funkcji, które s¸a ortogonalne na danym odcinku 

lub na zbiorze wartości zmiennej X. 

W szczególności można pos̷lużyć siȩ 

wielomianami ortogonalnymi na zbiorze wartości zmiennej X. 

• Parametry wchodz¸a nieliniowo do formu̷l. Wtedy optymalne wartości parametrów s¸a 

rozwi¸azaniami uk̷ladu równań nieliniowych, które rozwi¸azuje siȩ różnymi sposobami. 

Jedn¸a z popularnych metod jest szukanie rozwi¸azań iteracyjnie znajduj¸ac w kolejnych 

iteracjach poprawki do startowych parametrów w sposób analogiczny jak dla 

liniowego przypadku metody najmniejszych kwadratów. Osi¸aga siȩ to rozwijaj¸ac 

nieliniow¸a formu̷lȩ w szereg Taylora doko̷la startowych wartości parametrów i obcina 

siȩ szereg na wyrazach liniowych. Dla zapewnienia zbieżności procedury iteracyjnej 

uzupe̷lnia siȩ tȩ metodȩ o szereg pragmatycznych regu̷l przyśpieszaj¸acych zbieżność 

i określaj¸acych kiedy należy przerwać poszukiwanie wartości parametrów.


10.2 ESTYMACJA PUNKTOWA WARTOŚCI OCZEKIWANEJ 

E{⃗Y ( ⃗X)} I MACIERZY KOWARIANCJI ⃗Y ( ⃗X) 

Estymator wartości oczekiwanej: 

T n {E(⃗Y )} = ⃗Y (T n {E(X 1 )}, T n {E(X 2 )}, ..T n {E(X n )}) 

Estymator macierzy kowariancji: 

T n {cov(Y k , Y q )} = ∑ ( ( ∂Yk ∂Yq 

T 

i;j 

n {cov(X i , X j )} 

∂X i 

)~x=E(~x) ∂X j 

)~x=E(~x) 

W powyższych wzorach wartości oczekiwane E{X i } oraz cov{X i ,X j } s¸a zastȩpowane 

swoimi estymatorami, tzn. odpowiednimi średnimi arytmetycznymi oraz estymatorem 

kowariancji wektora ⃗X: 

T n (cov{X i , X j }) = 1 

n − 1 

n∑ 

((X i ) k − ¯X i )((X j ) k − ¯X j ) 

k=1 

Symbol (X i ) k oznacza ”k-ty”pomiar zmiennej X i . 

Wprowadzaj¸ac oznaczenia macierzowe: 

C ij (X) = T n {cov{X i , X j }} 

C ij (Y ) = T n {cov{Y i , Y j }} 

T ij = ( @Y i 

@X j 

)~x=Ef~xg 

możemy wyrazić estymator kowariancji zmiennej ⃗Y przez estymator kowariancji zmiennej 

⃗X w nastȩpuj¸acy sposób (nazywany propagacj¸a b̷lȩdów): 

C(Y ) = T C(X)T T


Wyprowadzenie: 

• Rozwijamy w szereg Taylora sk̷ladowe wektora ⃗Y doko̷la wektora E{ ⃗X} obcinaj¸ac 

rozwiniȩcie na wyrazach liniowych 

Y i ≈ Y i (E{ ⃗X}) + ∑ j( @Y i 

@X j 

) · (X j − E{X j }). 

• Ponieważ wartość oczekiwana z różnicy ⃗X − E{ ⃗X} tożsamościowo znika wiȩc 

wartość oczekiwana wektora ⃗Y równa jest Y (E{ ⃗X}), tzn. dostajemy podany 

wyżej wzór na wartość oczekiwan¸a Y (E{ ⃗X}). 

Estymator wartości oczekiwanej E{⃗Y } otrzymujemy wstawiaj¸ac estymatory 

(średnie arytmetyczne) zamiast sk̷ladowych wektora E{ ⃗X} . 

• Z tego również wynika, że Y i − Y i (E{ ⃗X}) = ∑ j( @Y i 

@X j 

) · (X j − E{X j }) 

a wiȩc kowariancja Y k i Y q , która jest wartości¸a oczekiwan¸a 

E{(Y k − E{Y k }) · (Y q − E{Y q })} 

liczona jest jako wartość oczekiwana iloczynu analogicznych sum zawieraj¸acych 

pochodne i wyrażenia X j −E{X j } co po prostym przeliczeniu daje powyższy wzór . 

Estymator kowariancji otrzymujemy zastȩpuj¸ac wartości oczekiwane przez odpowiednie 

średnie arytmetyczne a także licz¸ac wartości pochodnych cz¸astkowych nie dla 

wartości oczekiwanych Y i ale dla odpowiednich średnich arytmetycznych. 

Gdy zmienne X i , i = 1, ..n s¸a niezależne macierz kowariancji sk̷ladowych wektora ⃗X 

jest diagonalna czyli pozostaj¸a niezerowe jedynie wariancje: 

cov{X i , X j } = δ ij · var{X i } 

Wzór na kowariancjȩ cov(Y k , Y q ) gdy X i , i = 1, ..n s¸a niezależne sprowadza siȩ do 

poniższej postaci: 

cov(Y k , Y q ) = ∑ ( ( ∂Yk ∂Yq 

var(X 

i 

i ) 

∂X i 

)~x=E(~x) ∂X i 

)~x=E(~x) 

co w szczególności daje znany nam wzór na b̷l¸ad średni kwadratowy : 

σ(Y k ) ≡ 

√ 

var(Y k ) = 

√ ∑ ( ∂Yk 

i 

) 2 

var(X i ) 

∂X i ~x=E(~x)


Należy pamiȩtać, że 

• B̷l¸ad średni kwadratowy Y k może być policzony wg wzoru powyżej (bez kowariancji) 

tylko wtedy gdy zmienne X i s¸a niezależne. W praktyce E(X i ) zastȩpowana 

jest przez średni¸a arytmetyczn¸a ¯X i a var(X j ) przez kwadrat b̷lȩdu średniej arytmetycznej 

(a nie samej zmiennej X i ). 

• Macierz kowariancji zmiennych Y i , i=1,..n jest zwykle niediagonalna 

nawet wtedy gdy zmienne X i s¸a niezależne (macierz kowariancji X i jest diagonalna) 

czyli zmienne Y i , i=1,..n s¸a zwykle zależne. Jeżeli wiȩc bȩdziemy chcieli 

znaleźć macierz kowariancji wektora losowego ⃗Z, który jest z kolei funkcj¸a wektora 

⃗Y to musimy korzystać z ogólnego wzoru zawieraj¸acego kowariancje (zastȩpuj¸ac 

oczywiście ⃗Y przez ⃗Z a ⃗X przez ⃗Y ). 

• Wzory powyższe s¸a wzorami przybliżonymi, tzn. na tyle s¸a dobre na ile rozwiniȩcie 

⃗Y ( ⃗X) w szereg Taylora doko̷la E{ ⃗X} z obciȩciem na liniowych wyrazach jest dobrym 

przybliżeniem funkcji ⃗Y ( ⃗X). 

Mimo to praktycznie wszȩdzie stosuje siȩ te wzory, czȩsto zapominaj¸ac o 

tym, że s¸a one ścis̷le tylko dla liniowego zwi¸azku pomiȩdzy ⃗Y i ⃗X.


10.3 REGRESJA LINIOWA 

Definicja regresji liniowej by̷la już omawiana powyżej ale powtórzymy j¸a dla przypomnienia: 

DEFINICJA 

Regresja liniowa zmiennej Y wzglȩdem zmiennej X to linia prosta 

Y = a · X + b 

z parametrami a i b dobranymi tak aby minimalizować sumȩ kwadratów odchyleń wspó̷lrzȩdnych 

(y i , i = 1, 2, ..n) zespo̷lu n punktów o wspó̷lrzȩdnych (x 1 , y 1 ),(x 2 , y 2 ),... (x n , y n ) od 

tej linii: 

n∑ 

Q 2 = (y i − a · x i − b) 2 

i=1 

UWAGA: 

Regresja liniowa X wzglȩdem Y tj. prosta X = c · Y + d pokrywa siȩ z regresj¸a liniow¸a 

Y wzglȩdem X tj. prost¸a Y = a · X + b znalezion¸a dla tego samego zespo̷lu punktów 

doświadczalnych tylko wtedy gdy zwi¸azek pomiȩdzy X i Y jest funkcyjnym zwi¸azkiem 

liniowym (a nie zależności¸a statystyczn¸a). 

Rozważymy tu specyficzn¸a sytuacjȩ polegaj¸aça na tym, że: 

• zmienna X ma zaniedbywalnie ma̷le b̷lȩdy 

(mówimy wtedy, że X jest zmienn¸a kontrolowan¸a) 

• b̷l¸ad zmiennej Y jest taki sam dla wszystkich punktów i wynosi σ(Y ). 

Wtedy dostajemy proste, analityczne wzory na estymatory parametrów regresji: 

T n (b) = (∑ i x i 2 ) · ( ∑ i y i ) − ( ∑ i x i ) · ( ∑ i x i · y i ) 

W 

T n (a) = n · (∑ i x i · y i ) − ( ∑ i x i ) · ( ∑ i y i ) 

W 

W ≡ n · ∑ 

x 2 i − (∑ x i ) 2 

i i


Wskaźnik sumowania i przebiega wartości od 1 do n. 

B̷lȩdy estymatorów parametrów a i b również wyrażaj¸a siȩ analitycznymi wzorami: 

√ ∑ 

i x 2 i 

T n (σ(b)) = σ(Y ) · 

W 

√ n 

T n (σ(a)) = σ(Y ) · 

W 

Możemy również podać wzór na b̷l¸ad wartości Y przewidzianej przez liniȩ regresji 

(zależny od x): 

T n (σ(Y (x))) = σ(Y ) · √ 1 n 

+ 

(x − x)2 

∑ 

i (x i − x) 2 

• T n (σ(Y (x))) to estymator b̷lȩdu wartości Y (x) przewidzianej przez regresjȩ, 

• σ(Y ) to b̷l¸ad pomiaru wspó̷lrzȩdnej Y i z za̷lożenia taki sam dla wszystkich punktów. 

Gdy go nie znamy wpisujemy tu (i do wzorów na b̷lȩdy parametrów ’a’ i ’b’) estymator 

T n (σ(Y )), 

• x to średnia arytmetyczna wartości zmiennej kontrolowanej wyliczona ze wspó̷lrzȩdnych 

punktów x 1 , x 2 , ...x n , 

• x - to wartość zmiennej kontrolowanej X, dla której wyliczamy wartość regresji 

liniowej Y (x) i estymator b̷lȩdu regresji liniowej T n (σ(Y (x))). 

UWAGA: Aby podj¸ać decyzjȩ, czy regresja liniowa zadawalaj¸aco dobrze odtwarza zależność 

y od x można zastosować jedn¸a wymienionych poniżej metod: 

• Przy poprawnym odtwarzaniu zależności y(x) przez prost¸a regresji y = a · x + b 

wielkość Q 2 ma rozk̷lad chi - kwadrat o n − 2 stopniach swobody a wiȩc jej wartość 

oczekiwana i odchylenie standardowe spe̷lniaj¸a nastȩpuj¸ace relacje: 

E{Q 2 } = n − 2 

√ 

σ{Q 2 } = 2(n − 2)


• Wspó̷lczynnik korelacji zmiennych x i y powinien być równy jeden (co do modu̷lu), 

a wiȩc można sprawdzać hipotezȩ statystyczn¸a H 0 : E{r} = 1 

lub H 0 : E{r 2 } = 1, gdzie r jest estymatorem wspó̷lczynnika korelacji x i y. 

• Można zastosować tzw. analizȩ wariancji. Zarówno ten jak i poprzedni sposób 

zostanie omówiony przy okazji badania hipotez statytsycznych.


10.4 REGRESJA PRZY POMOCY WIELOMIANÓW ORTOG- 

ONALNYCH 

Tu omówiona zostanie regresja krzywoliniowa ze wzglȩdu na postać zależności dopasowanych 

funkcji od argumentu ale liniowa ze wzglȩdu na zależność od dobieranych 

parametrów. W takiej sytuacji wartości parametrów można znaleźć przez rozwi¸azanie 

uk̷ladu równań liniowych (podobnie jak poprzednio dla parametrów linii prostej). Równania 

te s¸a jednakże czȩsto numerycznie niestabilne, tzn. ma̷le zmiany wartości wspó̷lczynników 

uk̷ladu równań powoduj¸a drastyczne zmiany rozwi¸azań. Wygodn¸a metod¸a unikniȩcia tych 

problemów jest zastosowanie wielomianów ortogonalnych. 

10.4.1 REGRESJA PRZY POMOCY WIELOMIANÓW ORTOGONALNYCH 

NA ZBIORZE WARTOŚCI ZMIENNEJ KONTROLOWANEJ x i , i = 

1, ...n 

Przedstawiamy zmienn¸a y jako rozwiniȩcie w szereg wielomianów ortogonalnych P r (x) 

na zbiorze wartości argumentów x i , i = 1, ...n: 

m∑ 

y(x) = θ r · P r (x) 

r=0 

gdzie 

parametry θ r , (r = 1, ..., m) należy wyznaczyć metod¸a najmniejszych kwadratów przyrównuj¸ac 

powyższe wyrażenie na y(x) do zespo̷lu punktów (x i , y i ), (i = 1, 2, ..., n) 

a wielomiany P r (x), (r = 1, 2, ..., m) s¸a określone przez zbiór wartości argumentu 

x i ; (i = 1, 2, .., n) na którym maj¸a być ortogonalne oraz - ewentualnie - przez zbiór wag 

w i , (i = 1, 2, ..., n) przypisanych poszczególnym punktom (x i , y i ), (i = 1, 2, ..., n). 

Stosowanie wielomianów ortogonalnych ma nastȩpuj¸ace zalety: 

1. parametry θ r , (r = 1, ..., m) można wyliczyć analitycznie ponieważ pojawiaj¸a 

siȩ jako wspó̷lczynniki przy wielomianach a wiȩc mamy do czynienia z liniowym 

przypadkiem metody najmniejszych kwadratów (MNK). 

2. Obliczenie parametrów odbywa siȩ przy pomocy prostych wzorów podanych poniżej. 

Nie wymaga to odwracania macierzy - jak to ma miejsce w ogólnym przypadku 

ogólnej liniowej MNK. Dziȩki temu unika siȩ problemów numerycznych gdyż odwracanie 

typowych macierzy pojawiaj¸acych siȩ w MNK jest niestabiln¸a numerycznie 

procedur¸a. 

3. Parametr θ r+1 jest wyznaczany niezależnie od parametrów θ 1 , θ 2 , ...θ r , tzn. dodanie 

nastȩpnego wyrazu do szeregu nie wp̷lywa na parametry przy wielomianach 

niższego stopnia). Oznacza to również, że macierz kowariancji estymatorów parametrów 

θ jest diagonalna.


Ortogonalność wielomianów P r (X) na zbiorze X i , i = 1, 2, ...n 

oznacza spe̷lnienie poniższych warunków: 

n∑ 

P l (x i ) · P k (x i ) = 0 dla l ≠ k 

i=1 

n∑ 

[P l (x i )] 2 ≠ 0 

i=1 

Powyższe w̷lasności wielomianów ortogonalnych wykorzystujemy nastȩpuj¸aco: 

Mnożymy równanie określaj¸ace y(x) jako rozwiniȩcie w szereg wielomianów ortogonalnych 

przez dany wielomian P k (x i ) i sumujemy po i co dziȩki ortogonalności wielomianów 

prowadzi do wzoru: 

n∑ 

∑ n 

y i · P k (x i ) = θ k [P k (x i )] 2 

i=1 i=1 

a wiȩc otrzymujemy analityczny wzór na estymator parametru θ k : 

T n (θ k ) = 

n∑ 

i=1 

n∑ 

i=1 

y i · P k (x i ) 

[P k (x i )] 2 

Oczywiście można wprowadzić wielomiany ortogonalne z pewn¸a wag¸a ’w i ’, które 

spe̷lniaj¸a równanie analogiczne do wielomianów ortogonalnych z wag¸a jednostkow¸a określonych 

powyżej: 

n∑ 

w i · P l (x i ) · P k (x i ) = 0 dla l ≠ k 

i=1 

n∑ 

w i · [P l (x i )] 2 ≠ 0 

i=1 

wtedy 

T n (θ k ) = 

n∑ 

i=1 

n∑ 

i=1 

w i · y i · P k (x i ) 

w i · [P k (x i )] 2


Jako wagi w i bierze siȩ zwykle kwadraty odwrotności b̷lȩdów mierzonych wielkości Y i , 

gdyż to bardzo upraszcza rachunki: 

w i = 1 

σ 2 (y i ) 

Przede wszystkim należy zauważyć, że estymatory parametrów θ k zależ¸a liniowo od 

danych y 1 , y 2 , ...y n a wiȩc macierz kowariancji estymatorów można wyliczyć 

ściśle stosuj¸ac wzór na transformacjȩ macierzy kowariancji (”przenoszenie 

b̷lȩdów”) znaj¸ac macierz kowariancji danych y 1 , y 2 , ...y n . Co wiȩcej wiadomo, 

że macierz kowariancji parametrów jest diagonalna (bo estymator parametru θ k jest 

wyliczany niezależnie od estymatorów pozosta̷lych parametrów) a wiȩc pozostaje nam 

znalezienie wariancji tych estymatorów. 

var(T n (θ k )) = 

n∑ 

[w i · P k (x i )] 2 σ 2 (y i ) 

i=1 

∑ 

[ n w i · Pk 2(x i)] 2 

i=1 

Gdy przyjmiemy (tak bȩdziemy robić w nastȩpnych wzorach) w i ≡ 1 

2 (y i ) 

to 

n∑ 

i=1 

[w i · P k (x i )] 2 · σ 2 (y i ) = 

= 

n∑ 

wi 2 · P k 2 (x i) · 

i=1 

n∑ 

w i · Pk 2 (x i) 

i=1 

1 

w i 

a wiȩc wariancja estymatora parametru θ k wyraża siȩ analitycznym wzorem: 

var(T n (θ k )) = 

n∑ 

i=1 

1 

w i · P 2 k (x i) 

Równie ̷latwo można (ścisle) znaleźć wariancjȩ (wiȩc i b̷l¸ad) formu̷ly interpolacyjnej na 

y(x): 

m∑ 

var(y(x)) = [P r (x)] 2 · var(T n (θ r )) 

r=0


czyli 

m∑ 

var(y(x)) = 

n∑ 

r=0 

i=1 

[P r (x)] 2 

w i · P 2 r (x i) 

Jakość dopasowania może być oceniana przez policzenie wartości wyrażenia: 

n∑ m∑ 

Q 2 (m) = w i·[y i − T n (θ r )·P r (x i )] 2 , 

i=1 r=0 

które przy adekwatności modelu powinno mieć rozk̷lad chi-kwadrat o (n-(m+1)) stopniach 

swobody. 

Wiedz¸ac o tym możemy wartość tego wyrażenia używać jako kryterium doboru najwyższego 

stopnia wielomianu w rozwiniȩciu (m), gdyż √ wiemy, że Q 2 (m) powinno mieć wartość 

oczekiwan¸a równ¸a (n − m − 1) z b̷lȩdem 2(n − m − 1). 

Czȩsto zamiast Q 2 (m) stosuje siȩ unormowan¸a sumȩ kwadratów odchyleń: 

Q 2 (m) 

n − m − 1 . 

Wartość oczekiwana tej wielkości jest równa jedności a b̷l¸ad √ 2 

n m 1 . 

10.4.2 KONSTRUKCJA ZESPO̷LU WIELOMIANÓW ORTOGONALNYCH 

NA ZBIORZE WARTOŚCI ARGUMENTU 

Zak̷ladamy, że maj¸a to być wielomiany ortogonalne z wagami w 1 , w 2 , ...w n na zbiorze 

wartości argumentu x 1 , x 2 , ...x n , posiadaj¸ace jednostkowy wspó̷lczynnik przy najwyższej 

potȩdze argumentu x. Można pokazać, że wielomiany ortogonalne P 0 (x), P 1 (x), ...P m (x) 

spe̷lniaj¸a poniższe formu̷ly rekurencyjne, które mog¸a być efektywnie zastosowane do ich 

wyliczenia:


P r+1 (x) = [x + β r+1 ] · P r (x) + γ r+1 · P r 1 (x) 

n∑ 

w i · Pr 2(x i) · x i 

i=1 

β r+1 = − n∑ 

w i · Pr 2(x i) 

γ r+1 = − 

i=1 

n∑ 

i=1 

n∑ 

i=1 

w i · P 2 r (x i) 

w i · P 2 r 1 (x i) 

przy czym startowe wielomiany, tzn. P 0 (x) i P 1 (x) określa siȩ nastȩpuj¸aco: 

P 0 (x) = 1 

P 1 (x) = x − 

n∑ 

i=1 

n∑ 

w i · x i 

i=1 

w i 

Warto zauważyć, że sumy typu ∑ i w i·Pr 2(x i) wystȩpuj¸a zarówno w mianowniku wzorów 

na γ r+2 , β r+1 , T n (θ r ), var(y) jak i w liczniku wzoru na γ r+1 . Dziȩki temu przy 

programowaniu wzorów można te sumy wykorzystać wielokrotnie.


11 METODA MONTE CARLO 

Metoda ta polega na przyporz¸adkowaniu problemowi matematycznemu lub przyrodniczemu 

równoważnego problemu statystycznego i rozwi¸azaniu go metodami statystyki. Szczególnie 

pożyteczna okaza̷la siȩ w przypadkach, gdy szczegó̷ly badanego problemu s¸a zrozumia̷le 

i da̷lyby siȩ rozwi¸azać analitycznie ale rachunki takie s¸a zbyt czasoch̷lonne, np. policzenie 

ca̷lek wielokrotnych gdy wymiar przestrzeni ca̷lkowania jest duży czy też śledzenie 

losu neutronów przechodz¸acych przez niejednorodne środowisko – takie jak w reaktorze 

j¸adrowym i jego obudowie. Ten ostatni przyk̷lad, tj. śledzenie losu neutronów przy 

̷lańcuchowej reakcji rozszczepienia prowadz¸acej do wybuchu bomby atomowej by̷l pierwszym 

zastosowaniem tej metody zaproponowanej przez J. von Neumanna i S. Ulama. 

Zwykle udaje siȩ zast¸apić poszukiwanie rozwi¸azania oryginalnego problemu przez 

estymacjȩ wartości oczekiwanej pewnej funkcji na podstawie próby statystycznej 

sk̷ladaj¸acej siȩ z zespo̷lu wartości tej funkcji obliczonego dla wylosowanych wartości argumentu. 

W zwi¸azku z tym pojawiaj¸a siȩ nastȩpuj¸ace pytania: 

1. Jak sformu̷lować problem statystyczny, tzn. jak ma wygl¸adać funkcja dla której 

poszukujemy wartości oczekiwanej ? Bierzemy przy tym pod uwagȩ: 

• Jak zminimalizować bl¸ad estymacji przy ustalonym rozmiarze próby statystycznej 

? 

• Z jakim rozk̷ladem prawdopodobieństwa (gȩstości prawdopodobieństwa) należy 

losować wartości argumentu funkcji ? 

2. W jaki sposób przeprowadzić generacjȩ liczb losowych ? 

Odpowiedzi na te pytania zależ¸a od rozwi¸azywanego problemu. Poniżej bȩd¸a przedstawione 

przyk̷lady jak można dobierać postać funkcji i jakie pojawiaj¸a siȩ wtedy rozk̷lady 

prawdopodobieństwa gdy stosuje siȩ metodȩ Monte Carlo do liczenia ca̷lek. 

11.1 LICZENIE CA̷LEK METODA¸ MONTE CARLO 

Ca̷lkȩ 

∫ b 

I ≡ 

a f(x)dx 

możemy zapisać w równoważnej postaci 

∫b 

g(x) 

I = · f(x) · dx 

a 

g(x) 

∫ 

gdzie funkcja g(x) > 0 oraz b g(x)dx = 1 - czyli g(x) jest pewn¸a funkcj¸a gȩstości 

a 

prawdopodobieństwa na odcinku [a,b]).


Porównuj¸ac drugi wzór na ca̷lkȩ I ze wzorem na wartość oczekiwan¸a funkcji f(x) 

g(x) : 

{ } f(x) 

∫b 

( ) f(x) 

E ≡ dx · g(x) · 

g(x) 

a 

g(x) 

dla gȩstości praw- 

widać, że ca̷lka jest po prostu wartości¸a oczekiwan¸a funkcji 

dopodobieństwa g(x). 

f(x) 

g(x) 

W szczególności jako funkcjȩ g(x) możemy wzi¸ać funkcjȩ gȩstości prawdopodobieństwa 

rozk̷ladu jednorodnego na odcinku [a,b] i dostaniemy: 

∫b 

I = (b − a) · 

a 

f(x)dx 

b − a 

Estymatorem powyższej wartości oczekiwanej jest średnia arytmetyczna 

T n (I) = (b − a) · 1 n∑ 

f(x i ) 

ni=1 

gdzie argumenty x i s¸a losowane z rozk̷ladem jednorodnym (równomiernym) na odcinku 

[a,b]. Jest to tzw. podstawowa metoda liczenia ca̷lki metod¸a Monte Carlo. 

Dla wygody rozważa siȩ zwykle ca̷lki liczone na odcinku [0,1] bo wtedy nie 

musimy jawnie wypisywać d̷lugości przedzia̷lu ca̷lkowania a można zawsze 

przez liniow¸a zmianȩ zmiennych przejść do dowolnego odcinka [a,b]. W 

poniższych rozważaniach bȩdziemy stosować tȩ konwencjȩ. 

Wzór na estymator ca̷lki jest wtedy po prostu średni¸a arytmetyczn¸a wartości funkcji 

podca̷lkowej gdzie argumenty x i s¸a losowane z rozk̷ladem jednorodnym na przedziale [0,1]. 

B̷l¸ad estymatora ca̷lki to b̷l¸ad średniej arytmetycznej : 

σ{I} = 

= 

{ } 

1 √ n∑ 

σ 2 f(x i ) 

ni=1 

√ 1 ∑ n 

σ 2 {f(x i )} 

n 2 i=1 

= 

√ 

1 

n 2 σ2 {f} 

= 1 √ n 

σ{f}


Niestety ten wzór nie może być w praktyce stosowany bo liczenie σ{f} wymaga̷loby 

znajomości wartości szukanej ca̷lki: 

σ 2 {f} = 

= 

∫1 

⎡ 

∫1 

⎤2 

f 2 (x)dx − ⎣ f(x)dx⎦ 

0 

∫1 

0 

0 

f 2 (x)dx − I 2 

Dlatego dla liczenia estymatora b̷lȩdu ca̷lki S(I) zamiast σ{f} używa siȩ estymatora 

S{f} liczonego wg wzoru: 

S (f) = 

√ 1 n∑ 

[f(x i ) − T n (I)] 2 

n − 1 i=1 

S (I) = 1 √ n 

S (f) 

gdzie należy zauważyć, że T n (I) jest równe (ze wzglȩdu na jednostkow¸a d̷lugość przedzia̷lu 

ca̷lkowania) średniej arytmetycznej z wartości funkcji f(x) 

Ponieważ przy liczeniu ca̷lek chcielibyśmy wiedzieć nie tylko jakie jest odchylenie standardowe 

estymatora ca̷lki, lecz chcielibyśmy określić przedzia̷l gdzie “prawie na pewno” 

bȩdzie znajdować siȩ prawdziwa wartość ca̷lki to przyjȩ̷lo siȩ jako “b̷l¸ad ca̷lki” brać po̷lowȩ 

przedzia̷lu ufności na poziomie ufności 0,9545, który równy jest podwojonej wartości odchylenia 

standardowego przy za̷lożeniu, że średnia arytmetyczna ma rozk̷lad normalny. 

A wiȩc jako “b̷l¸ad ca̷lki” bierzemy wielkość: 

2S(f) 

√ n 

11.2 ZMNIEJSZANIE B̷LȨDU CA̷LKI 

Podstawow¸a metod¸a stosowan¸a w tym celu jest tzw. ”metoda średniej ważonej” (zwana 

po angielsku “importance sampling”). Polega ona na tym, że zamiast losować argument 

funkcji podca̷lkowej z rozk̷ladem jednorodnym losuje siȩ go z rozk̷ladem g(x) możliwie 

podobnym do funkcji podca̷lkowej. Wtedy estymatorem ca̷lki na przedziale [0,1] z funkcji 

f(x) jest średnia ważona:


T n (I) = 1 n∑ f(x i ) 

n i=1 g(x i ) 

gdzie argumenty x i losowane s¸a czȩściej tam gdzie funkcja f(x) jest duża a wiȩc przyczynki 

do ca̷lki s¸a znacz¸ace – st¸ad angielska nazwa “losowanie istotne”. 

Można pokazać, że zastosowanie tej metody zawsze daje mniejszy b̷l¸ad ca̷lki niż otrzymywany 

w metodzie podstawowej. 

Inn¸a metod¸a jest tzw. “losowanie warstwowe” polegaj¸ace na rozbiciu przedzia̷lu 

ca̷lkowania na mniejsze przedzia̷ly, w których funkcja podca̷lkowa zmienia siȩ możliwie 

ma̷lo – jest prawie sta̷la. Wtedy użycie najprostszej metody – podstawowej – w każdym 

z przedzia̷lów zdecydowanie zmniejsza wariancjȩ (b̷l¸ad) ca̷lki. Widać to ewidentnie dla 

funkcji przedzia̷lami sta̷lej. Tam metoda warstwowa daje b̷l¸ad równy zeru (!). 

Tu także można pokazać, że b̷l¸ad ca̷lki jest zawsze mniejszy lub równy od b̷lȩdu metody 

podstawowej. 

“Metoda zmiennych kontrolnych” to szukanie funkcji h(x) podobnej do f(x) ale 

takiej, że ca̷lka z h(x) na przedziale [0,1] jest znana. Wtedy możemy liczyć podstawow¸a 

metod¸a Monte Carlo ca̷lkȩ z różnicy f(x)-h(x). Jest to op̷lacalne jeżeli liczenie funkcji h(x) 

nie jest zbyt pracoch̷lonne. Zwykle przyjmuje siȩ, że wspó̷lczynnik korelacji pomiȩdzy 

funkcjami f(x) i h(x) powinien spe̷lniać relacjȩ: ρ(f(x), h(x)) ≥ √ 1 − k 1 gdzie “k” 

oznacza ile razy bardziej pracoch̷lonne jest policzenie różnicy f(x)-h(x) od policzenia samej 

funkcji f(x). 

“Metoda zmiennych antytetycznych” 

Jeżeli f 1 (ξ) i f 2 (η) s¸a dwoma estymatorami liczonej powyżej ca̷lki to ich średnia 

arytmetyczna g 2 też bȩdzie estymatorem ca̷lki: 

g 2 ≡ 1 2 (f 1 + f 2 ), 

przy czym jeżeli oba estymatory f 1 i f 2 s¸a nieobci¸ażone to i estymator g 2 jest nieobci¸ażony. 

Z drugiej strony wariancja estymatora g 2 bȩdzie zależeć nie tylko od wariancji estymatorów 

f 1 i f 2 ale także od ich kowariancji: 

σ 2 (g 2 ) ≡ 1 4 (σ2 (f 1 ) + σ 2 (f 2 )) + 1 2 cov(f 1, f 2 ). 

Jeżeli kowariancja estymatorów bȩdzie ujemna i duża co do modu̷lu, to wariancja estymatora 

g 2 może być mniejsza od wariancji każdego z estymatorów f 1 i f 2 . Powyższe 

rozumowanie można oczywiście rozszerzyć na średni¸a m estymatorów ca̷lki.


PRZYK̷LAD: 

Jeżeli funkcja podca̷lkowa f(x) jest monotoniczna to jako dwa wyżej omawiane estymatory 

możemy wzi¸ać nastȩpuj¸ace funkcje: f 1 = f(x) i f 2 = f(1 − x). Wtedy estymator 

g 2 bȩdzie bardziej zbliżony do sta̷lej na odcinku [0,1] niż każdy z dwu sk̷ladników. 

To spowoduje, że jego wariancja bȩdzie mniejsza od wariancji każdego ze sk̷ladników a o 

to nam chodzi. 

Dla funkcji monotonicznej na ca̷lym przedziale ca̷lkowania można dobrać inny wygodny 

estymator g 2 , który bȩdzie średni¸a ważon¸a a nie średni¸a arytmetyczn¸a a wagi dobierze siȩ 

tak aby najbardziej zmniejszyć wariancjȩ estymatora g 2 : 

g 2 ≡ α · f(αx) + (1 − α) · f(1 − (1 − α)x) gdzie 0 < α < 1. 

Znalezienie optymalnej wartości wspó̷lczynnika α może być bardzo trudne, wiȩc czȩsto 

zadawalamy siȩ zastosowaniem nastȩpuj¸acego, prostszego przepisu, który zwykle daje 

porównywalnie ma̷l¸a wariancjȩ ca̷lki jak optymalna wartość α. Jest to rozwi¸azanie równania: 

f(α) = (1 − α) · f(1) + α · f(0) 

Powyższe przyk̷lady liczenia ca̷lki metod¸a Monte Carlo nie wyczerpuj¸a wszystkich 

stosowanych wariantów tej metody lecz s̷luż¸a raczej do ilustracji na czym polega problem 

doboru funkcji, dla której szukamy wartości oczekiwanej. Nie pokazuj¸a jednak na czym 

polega przewaga metody Monte Carlo nad innymi metodami liczenia ca̷lki. 

W przypadku ca̷lki jednokrotnej taka przewaga nie ujawnia siȩ bo istnieje wiele innych 

metod numerycznych takich jak np. metoda Simpsona, Romberga czy Gaussa, które s¸a 

bardziej precyzyjne od metody Monte Carlo przy tej samej liczbie wyliczonych wartości 

funkcji podca̷lkowej. Jednakże gdybyśmy chcieli zastosować któr¸aś z tych metod do 

ca̷lki wielokrotnej to okaże siȩ, że otrzymanie ma̷lego b̷lȩdu ca̷lki wymaga przy zwiȩkszaniu 

wymiaru przestrzeni argumentów zwiȩkszania liczby obliczeń funkcji podca̷lkowej w sposób 

proporcjonalny do n w , gdzie n jest liczb¸a wartości jednego argumentu a w jest wymiarem 

przestrzeni argumentów. W odróżnieniu od tych metod wielkość b̷lȩdu estymatora ca̷lki 

uzyskanego metod¸a Monte Carlo maleje tak jak b̷l¸ad średniej arytmetycznej czyli proporcjonalnie 

do 1/ √ n niezależnie od wymiaru przestrzeni argumentów. A wiȩc 

zwiȩkszanie wymiaru przestrzeni argumentów funkcji podca̷lkowej nie musi przed̷lużać 

czasu obliczenia ca̷lki. 

Rozważmy prosty przyk̷lad: do obliczenia ca̷lki 10 – krotnej, wyliczaj¸ac funkcjȩ podca̷lkow¸a 

10 razy dla każdego wymiaru musielibyśmy obliczyć funkcjȩ podca̷lkow¸a 10 10 razy. Jeżeli 

potrafimy w ci¸agu sekundy obliczyć funkcjȩ podca̷lkow¸a 10 000 razy to znalezienie wartości 

ca̷lki wymaga̷loby 1000 000 sekund czyli oko̷lo 12 dni i nocy. Tymczasem stosuj¸ac metodȩ 

Monte Carlo, możemy oszacować wartość ca̷lki z dok̷ladności¸a kilku procent wyliczaj¸ac 

np. 1000 000 razy funkcjȩ podca̷lkow¸a tzn. skracaj¸ac czas obliczeń do 100 sekund.


11.3 GENERACJA LICZB LOSOWYCH 

Przy obliczeniach metod¸a Monte Carlo konieczna jest generacja liczb losowych o poż¸adanym 

rozk̷ladzie (gȩstości) prawdopodobieństwa. Liczby te w praktyce znajduje siȩ przy pomocy 

odpowiednich programów komputerowych co powoduje, że ci¸agi liczb losowych otrzymane 

z tych samych startowych parametrów s¸a powtarzalne a wiȩc nie s¸a naprawdȩ losowe. Z 

tej przyczyny używa siȩ czȩsto określenia liczby pseudolosowe. 

Najważniejszym ze stosowanych rozk̷ladów jest rozk̷lad jednorodny(równomierny, 

jednostajny), gdyż przy jego użyciu można wygenerować liczby pseudolosowe o innych 

poż¸adanych rozk̷ladach prawdopodobieństwa. Jak bȩdzie pokazane poniżej istniej¸a 

metody pozwalaj¸ace na stworzenie prostych i krótkich programów komputerowych do 

generacji liczb pseudolosowych o rozk̷ladzie jednorodnym. Można wiȩc samemu napisać 

taki program. Okazuje siȩ jednak, że bezpieczniej jest korzystać z gotowych, o- 

pracowanych przez specjalistów procedur, gdyż spe̷lniaj¸a one nie tylko podstawowe 

wymagania narzucane na liczby pseudolosowe ale uwzglȩdniaj¸a także bardziej zaawansowane 

warunki, które musz¸a być zapewnione przy niektórych obliczeniach. Takimi godnymi 

polecenia generatorami liczb losowych s¸a procedury RANLUX i RANMAR z 

biblioteki procedur CERN. Pierwszy z nich zosta̷l napisany przez F. Jamesa (Comp. Phys. 

Comm. 79 (1994) 111) i oznaczony jest symbolem V115 w bibliotece procedur CERN a 

drugi (stworzony w oparciu o raport G. Marsaglia, A. Zaman, and W.W. Tsang, Towards a 

Universal Random Number Generator, Supercomputer Computations Research Institute, 

Florida State University technical report FSU-SCRI-87-50 (1987)) przez F. Carminati i 

F. Jamesa i wystȩpuje jako procedura V113 w bibliotece procedur CERN. 

11.3.1 Generacja liczb o rozk̷ladzie równomiernym 

W olbrzymiej wiȩkszości przypadków ci¸agi liczb pseudolosowych tworzone s¸a przy pomocy 

zwi¸azków rekurencyjnych. Najlepiej zbadanym algorytmem jest tzw. metoda kongruencyjna, 

która generuje kolejn¸a liczbȩ pseudolosow¸a w oparciu o k + 1 poprzednich wg 

wzoru: 

x n+1 = (a 0 x n + a 1 x n 1 + . . . + a k x n k )(modM), 

gdzie zapis a(mod b) należy rozumieć jako resztȩ z dzielenia liczby a przez liczbȩ b. 

Liczba M a także wszystkie liczby a i oraz x i s¸a liczbami ca̷lkowitymi z przedzia̷lu [0, M). 

Generatory stanowi¸ace szczególne przypadki powyższego wzoru maj¸a swoje specjalne 

nazwy. Generatory stosuj¸ace wzór: 

x n+1 = x n + x n 1 (modM) 

nazywane s¸a generatorami Fibonacciego, 

te, które używaj¸a relacji: 

x n+1 = a 0 x n (modM) 

określa siȩ mianem generatorów multiplikatywnych a oparte o wyrażenie: 

x n+1 = (a 0 x n + a 1 )(modM)


nosz¸a nazwȩ generatorów mieszanych. 

Wszystkie ci¸agi liczb pseudolosowych s¸a ci¸agami okresowymi. Dobry generator powinien 

mieć możliwie d̷lugi okres, tak d̷lugi aby w czasie wykonywania prac obliczeniowych wykorzystywać 

tylko niewielk¸a czȩść okresu. Maksymalny możliwy okres ci¸agu liczb losowych 

otrzymanych ogóln¸a metod¸a kongruencyjn¸a nie może przekroczyć M k+1 . A wiȩc maksymalny 

okres generatora Fibonacciego to M 2 a generatora multiplikatywnego i mieszanego 

nie przekracza M. Te maksymalne wartości s¸a osi¸agane tylko przy odpowiednim doborze 

wspó̷lczynników formu̷ly rekurencyjnej. Na przyk̷lad, można pokazać, że d̷lugość okresu 

ci¸agu liczb losowych generatora mieszanego wynosi M wtedy i tylko wtedy, gdy spe̷lnione 

s¸a nastȩpuj¸ace warunki: 

• a 1 i M nie maj¸a wspólnych dzielników, 

• (a 0 − 1) jest wielokrotności¸a liczby pierwszej, która jest dzielnikiem liczby M, 

• (a 0 − 1) jest wielokrotności¸a liczby 4, o ile M jest też wielokrotności¸a liczby 4. 

Od dobrego generatora, ż¸adamy również aby można by̷lo kolejne liczby pseudolosowe 

uważać za niezależne. W szczególności powinny być niezależne liniowo. Możemy to 

sprawdzić licz¸ac wspó̷lczynniki korelacji pomiȩdzy parami liczb: 

ϱ j ≡ ϱ(x i , x i+j ). 

Wspó̷lczynniki korelacji ϱ j ,j=1,2,... powinny być równe zero. 

Zamiast liczyć wspó̷lczynniki korelacji można niezależność liniow¸a generowanych liczb 

sprawdzać przez wykonanie pewnych kontrolnych zadań rachunkowych. Jednym z najprostszych 

zadań jest liczenie metod¸a Monte Carlo (np. podstawow¸a metod¸a szukania 

ca̷lki) objȩtości kuli o jednostkowym promieniu w przestrzeni N-wymiarowej. Objȩtość 

kuli wynosi: 

V N = 2 π N=2 

N Γ(N/2) , 

gdzie Γ(N/2) to funkcja gamma Eulera. Funkcja ta przyjmuje wartość √ π dla argumentu 

1/2 i może być liczona rekurencyjnie wg wzoru Γ(z + 1) = z · Γ(z). Nawet 

niewielka korelacja pomiȩdzy generowanymi liczbami pseudolosowymi odbija siȩ wyraźnie 

na wynikach obliczeń dyskredytuj¸ac stosowany generator. 

Inn¸a, bardzo ważn¸a cech¸a generatora liczb pseudolosowych jest aby te liczby pokrywa̷ly 

przedzia̷l (0,1) odpowiednio gȩsto. 

Aby to prosto wyjaśnić weźmy pod uwagȩ rekurencyjny algorytm, w którym nastȩpna 

liczba generowana jest przy pomocy poprzedniej: x n+1 = f(x n ). Jeżeli wykreślimy 

na powierzchni jednostkowego kwadratu (czyli kwadratu o wierzcho̷lkach (0,0),(1,0),(1,1) 

i (0,1) po̷lożenia punktów o wspó̷lrzȩdnych (x = x n , y = x n+1 ) to w przypadku 

prawdziwych losowych liczb x n i x n+1 powinny one pokrywać równomiernie powierzchniȩ 

kwadratu. Natomiast dla pseudolosowych liczb dostaniemy punkty leż¸ace na krzywej 

y = f(x). A wiȩc krzywa y = f(x) musi wielokrotnie i to w ma̷lych odleg̷lościach 

przechodzić przez powierzchniȩ kwadratu aby zapewnić w miarȩ równomierne pokrycie


powierzchni kwadratu. Ten warunek podobnie jak i inne powyżej wymienione jest jedynie 

warunkiem koniecznym aby generator móg̷l być uznany za zadawalaj¸acy generator. 

Dla surowego testowania generatorów wymyślono ca̷ly zestaw testów, które powinny 

być spe̷lniane przez dobre generatory (np. G. Marsaglia, A Current View of Random 

Number Generators, Computer Science and Statistics: 16th Symposium on the Interface, 

Elsevier (1985)). Wspomniane na wstȩpie generatory RANLUX, RANMAR przesz̷ly 

pomyślnie ten zestaw testów. 

11.3.2 Generacja liczb losowych o dowolnych rozk̷ladach prawdopodobieństwa 

Jeżeli dysponujemy już dobrym generatorem liczb pseudolosowych o rozk̷ladzie równomiernym 

na odcinku [0,1] to możemy przyst¸apić do generacji liczb o dowolnych rozk̷ladach prawdopodobieństwa. 

Zacznijmy od generacji zmiennej dyskretnej przyjmuj¸acej n wartości 

z zadanym rozk̷ladem prawdopodobieństwa: 

P (x = x i ) = p i , 

dla i = 1, 2, ...n 

W tym celu podzielmy przedzia̷l [0,1] na n przedzia̷lów o d̷lugości ∆ i = p i . Liter¸a γ 

oznaczać bȩdziemy wygenerowan¸a zmienn¸a o rozk̷ladzie równomiernym w przedziale [0,1]. 

Wtedy ̷latwo udowodnić nastȩpuj¸ace twierdzenie: 

TWIERDZENIE 

Losowa wielkość x określona formu̷l¸a 

x = x i 

gdy γ ∈ ∆ i 

ma poszukiwany rozk̷lad dyskretny. 

DOWÓD: 

♦ 

P (x = x i ) = P (γ ∈ ∆ i ) = ∆ i = p i 

UWAGA 1: Powyższe twierdzenie można uogólnić na przypadek zmiennej dyskretnej 

przyjmuj¸acej nieskończenie wiele wartości. Wtedy zarówno wartości zmiennej 

x i jak i prawdopodobieństwa p i określone s¸a wzorami określaj¸acymi ich zależność od 

wskaźnika i. Dla efektywnego losowania wybiera siȩ pewne n max tak duże, że suma 

prawdopodobieństw 

n∑ 

max 

p i = 1 − ε 

i=1 

jest bliska jedności (tj. ε > 0 jest odpowiednio ma̷le) i dla wskaźników i = 1, ..., n max 

wylicza siȩ przed generacj¸a x i i p i (przechowuj¸ac je nastȩpnie w pamiȩci komputera) a


obliczenia wg zadanych wzorów wykonuje siȩ tylko przy generacji ma̷lo prawdopodobnych 

wartości x i (dla i > n max ). 

♦ 

UWAGA 2: Czȩsto przy symulacji zjawisk przyrodniczych spotykamy siȩ z sytuacj¸a, 

w której musimy zdecydować jakie zdarzenie spośród wszystkich możliwych i wykluczaj¸acych 

siȩ zdarzeń (A 1 , A 2 , ..., A n ) zachodzi w danym momencie jeżeli znamy 

prawdopodobieństwa tych zdarzeń. Taka sytuacja dok̷ladnie odpowiada schematowi 

wyboru wartości zmiennej dyskretnej tożsamej ze wskaźnikiem i danego zdarzenia A i o 

znanym rozk̷ladzie prawdopodobieństw p i , i = 1, ..., n. 

♦ 

Generacja zmiennej ci¸ag̷lej z zadan¸a funkcj¸a gȩstości prawdopodobieństwa f(x). 

Za̷lóżmy, że zmienna losowa x ma funkcjȩ gȩstości prawdopodobieństwa f(x) > 0 w 

skończonym lub nieskończonym przedziale [a,b]. Wtedy dystrybuanta zmiennej x opisywana 

jest wzorem: 

∫x 

F (x) = f(t)dt 

a 

i jest silnie rosn¸aça funkcj¸a. 

TWIERDZENIE 

Przy tych za̷lożeniach losowa wielkość x określona formu̷l¸a 

F (x) = γ 

ma funkcjȩ gȩstości prawdopodobieństwa f(x). 

DOWÓD: 

Dla silnie rosn¸acej dystrybuanty F (x) możemy napisać nastȩpuj¸acy zespó̷l równań (przez 

Y oznaczamy dystrybuantȩ traktowan¸a jako zmienna losowa): 

sk¸ad wynika, że 

P (y < Y < y + dy) = P (x < X < x + dx) 

P (y < Y < y + dy) ≡ g(y)dy 

P (x < X < x + dx) ≡ f(x)dx 

Z definicji dystrybuanty wiadomo, że: 

g(y)dy = f(x)dx 

g(F (x))dF (x) = f(x)dx. 

dF (x) = f(x)dx,


a wiȩc 

g(F (x)) = 1, 

czyli dystrybuanta ma rozk̷lad równomierny w przedziale [0,1]. 

St¸ad generuj¸ac wartość liczby losowej γ określamy jednoznacznie wartość dystrybuanty 

F(x) a co za tym idzie wartość zmiennej x o funkcji gȩstości prawdopodobieństwa f(x): 

x = F 

1 (γ), 

gdzie F 

♦ 

1 (x) oznacza funkcjȩ odwrotn¸a do dystrybuanty. 

UWAGA 1: Jeżeli funkcja gȩstości prawdopodobieństwa f(x) zeruje siȩ na pewnych odcinkach 

wartości argumentu to dystrybuanta F(x) nie jest funkcj¸a silnie rosn¸aça i wtedy 

rozwi¸azanie równania F (x) = γ nie jest jednoznaczne (F(x) nie ma funkcji odwrotnej). 

Można temu jednak zapobiec zastȩpuj¸ac funkcjȩ odwrotn¸a do dystrybuanty F 

1 (x) przez 

funkcjȩ G(y) zdefiniowan¸a nastȩpuj¸aco: 

G(y) ≡ 

inf x 

fxjy


Dystrybuanta: 

∫x 

F (x) = C · exp[−C(t − x 0 )] · dt = 1 − exp[−C(x − x 0 )]. 

x 0 

Rozwi¸azujemy ze wzglȩdu na x równanie F (x) = γ, gdzie γ jest pseudolosow¸a liczb¸a 

o rozk̷ladzie równomiernym w [0,1]. Wstawiaj¸ac jawn¸a postać dystrybuanty dostajemy: 

1 − exp[−C(x − x 0 )] = γ. Rozwi¸azanie równania to: 

x = x 0 − 1 C 

· ln(1 − γ). 

♦ 

Szukanie funkcji odwrotnej do dystrybuanty może być trudne ze wzglȩdów numerycznych. 

Wtedy czȩsto daje siȩ uprościć generacjȩ stosuj¸ac tzw. metodȩ superpozycji. Używa siȩ 

jej wtedy gdy dystrybuantȩ zmiennej, któr¸a chcemy generować udaje siȩ przedstawić 

w postaci kombinacji liniowej dystrybuant o prostszej postaci, takich dla których ̷latwo 

znaleźć funkcje odwrotne. Istotne jest, że wspó̷lczynniki kombinacji liniowej (o skończonej 

lub nieskończonej liczbie wyrazów) powinny mieć wartości należ¸ace do przedzia̷lu (0,1) 

a ich suma ma być równa jedności, tak aby można je by̷lo interpretować jako prawdopodobieństwa. 

Wtedy kombinacjȩ liniow¸a można interpretować jako formu̷lȩ pe̷lnego 

prawdopodobieństwa: 

F (x) = N ∑ 

N∑ 

k=1 

k=1 

c k · F k (x) 

c k = 1, 0 < c k < 1 

W metodzie superpozycji generujemy dwie niezależne liczby losowe o rozk̷ladzie jednorodnym 

w [0,1]: γ 1 i γ 2 . Pierwsz¸a z nich stosujemy do losowego wyboru wartości wskaźnika k 

(zgodnie z przepisem podanym wyżej dla generacji wartości dyskretnej zmiennej) a drug¸a 

do generacji wartości zmiennej x posiadaj¸acej dystrybuantȩ F k (x). 

PRZYK̷LAD: 

Chcemy generować wartości zmiennej x o funkcji gȩstości prawdopodobieństwa: 

Dystrybuanta zmiennej x ma postać: 

f(x) = 5 12 · [1 + (x − 1)4 ] dla x ∈ (0, 2). 

F (x) = 1 5 · [(x − 1)5 + 1] dla ∈ (0, 2)


co powoduje, że dla generacji metod¸a funkcji odwrotnych musielibyśmy rozwi¸azać równanie 

pi¸atego stopnia: 

1 ( 

(x − 1) 5 + 5x + 1 ) = γ. 

12 

Gdy przedstawimy funkcjȩ gȩstości prawdopodobieństwa jako kombinacjȩ liniow¸a o 

wspó̷lczynnikach c 1 = (5/6) i c 2 = (1/6) dwu funkcji gȩstości prawdopodobieństwa: 

f(x) = 

( 5 

6) 

· 1 ( ) 1 

2 + 6 

to dystrybuanta też bȩdzie kombinacj¸a liniow¸a postaci: 

F (x) = 

( 5 

6) 

· 5 (x − 1)4 

2 

· x ( ) 1 

2 + · 1 

6 2 [(x − 1)5 + 1]. 

Wtedy generacja metod¸a funkcji odwrotnej dla obu prostszych dystrybuant daje jawne 

wzory na funkcje odwrotne i dostajemy nastȩpuj¸acy przepis na wyliczenie x: 

♦ 

x = 2γ 2 gdy γ 1 < 5/6 

= 1 + 5 √2γ 2 − 1 gdy γ 1 ≥ 5/6. 

Obok metody funkcji odwrotnych używa siȩ dla generacji liczb losowych również inne 

metody, spośród których najbardziej popularna jest metoda eliminacji zaproponowana 

przez J. von Neumanna lub metody wykorzystuj¸ace wzory typu: x = g(γ 1 , γ 2 , ..., γ n ). 

Omówimy je poniżej. 

Metodȩ eliminacji stosuje siȩ gdy zmienna x ma rozk̷lad o gȩstości prawdopodobieństwa 

opisany funkcj¸a f(x) w przedziale [a,b] i równy zero poza przedzia̷lem, oraz f(x) jest 

ograniczona od góry: f(x) ≤ c. Postȩpuje siȩ wtedy wg nastȩpuj¸acej procedury: 

1. Generujemy wartość zmiennej x wg wzoru: x = (b − a)γ 1 + a z rozk̷ladem 

jednorodnym w przedziale [a,b]. 

2. Generujemy wartość zmiennej y wg wzoru: y = cγ 2 z rozk̷ladem jednorodnym w 

przedziale [0,c]. 

3. Sprawdzamy, czy y ≤ f(x). Jeżeli tak, to akceptujemy wartość x, w przeciwnym 

przypadku para (x,y) jest eliminowana i generacjȩ powtarza siȩ od nowa.


Metody wykorzystuj¸ace przekszta̷lcenie x = g(γ 1 , γ 2 , ..., γ n ) 

PRZYK̷LAD Pokażemy, że zmienn¸a o rozk̷ladzie gȩstości prawdopodobieństwa: 

czyli o dystrybuancie 

f(x) = n · x n 1 dla x ∈ [0, 1] 

F (x) = x n dla x ∈ [0, 1] 

można generować stosuj¸ac wzór: x = max(γ 1 , ..., γ n ). 

Dowód: 

Wprowadźmy funkcjȩ schodkow¸a zdefiniowan¸a nastȩpuj¸aco: 

{ 

0 dla z ≤ 0 

θ(z) = 

1 dla z > 0. 

Zmienna losowa g(γ 1 , ..., γ n ) bȩdzie mia̷la dystrybuantȩ F (x) wtedy i tylko wtedy gdy 

∫ 1 

0 

∫ 1 

. . . 

0 

dy 1 . . . dy n θ(x − g(γ 1 , ..., γ n )) = F (x). 

Jest oczywiste, że θ(x− max 

1in y i) nie równa jest zero wtedy i tylko wtedy gdy równocześnie 

y 1 < x, y 2 < x , ..., y n < x. A wiȩc ca̷lka 

może być zapisana jako: 

∫1 

0 

∫1 

. . . 

0 

dy 1 . . . dy n θ(x − max 

1in y i) 

∫x ∫x 

. . . dy 1 . . . dy n = x n 

0 

0 

a to jest w̷laśnie taka dystrybuanta zmiennej x jak¸a chcielibyśmy uzyskać. 

♦ 

UWAGA 

Zmienn¸a losow¸a o dystrybuancie F (x) = x n dla x ∈ [0, 1] można generować metod¸a 

funkcji odwrotnych, z której dostajemy: 

x = n√ γ. 

Porównuj¸ac ten wynik z poprzednim dostajemy zaskakuj¸acy wniosek, że można 

zast¸apić obliczanie pierwiastka n-tego stopnia z liczby losowej o rozk̷ladzie 

równomiernym w [0,1] przez obliczanie maksimum n liczb losowych o takim 

rozk̷ladzie.


11.3.3 Generacja wielowymiarowych zmiennych losowych 

Metoda eliminacji może być ̷latwo uogólniona na przypadek zmiennych wielowymiarowych. 

Jeżeli f(x 1 , x 2 , ..., x n ) jest gȩstości¸a prawdopodobieństwa dla n-wymiarowej 

zmiennej losowej (x 1 , x 2 , ...x n ), która znika poza kostk¸a n-wymiarow¸a: a i ≤ b i , i = 

1, 2, .., n i ograniczon¸a przez liczbȩ c to przeprowadzamy generacjȩ w nastȩpuj¸acy sposób: 

1. Generujemy wartość zmiennej x 1 , x 2 , ...x n+1 wg wzoru: 

x i = (b i − a i )γ i + a i , i = 1, 2, ..., n oraz x n+1 = cγ n+1 

z rozk̷ladem równomiernym w przedziale (a 1 ≤ x 1 ≤ b 1 , ..., a n ≤ x n ≤ b n ) i 

ograniczon¸a przez liczbȩ c: (0 ≤ x n+1 ≤ c) 

2. Sprawdzamy, czy x n+1 ≤ f(x 1 , x 2 , ..., x n ). Jeżeli tak, to akceptujemy punkt 

x 1 , x 2 , ..., x n , w przeciwnym przypadku punkt ten jest eliminowany i generacjȩ 

powtarza siȩ od nowa. 

Wielowymiarowe zmienne losowe możemy również generować metod¸a funkcji odwrotnych. 

Należy rozważyć oddzielnie dwa przypadki: 

1. Gdy poszczególne sk̷ladowe wielowymiarowej zmiennej s¸a niezależne to każd¸a z nich 

generuje siȩ niezależnie jedn¸a z metod omawianych dla jednowymiarowych zmiennych 

losowych. 

2. Gdy sk̷ladowe s¸a zależne to korzystamy z poniższego twierdzenia: 

TWIERDZENIE 

Gdy γ 1 , γ 2 , ..., γ n s¸a niezależnymi liczbami losowymi o rozk̷ladzie równomiernym w 

przedziale [0,1) to zbiór liczb x 1 , x 2 , ..., x n otrzymanych jako rozwi¸azania nastȩpuj¸acego 

uk̷ladu równań: 

F 1 (x 1 ) = γ 1 

F 2 (x 2 |x 1 ) = γ 2 

· · · 

F n (x n |x 1 , ..., x n 1 ) = γ n 

ma poż¸adan¸a gȩstość prawdopodobieństwa f(x 1 , x 2 , ..., x n ). 

♦


12 TESTOWANIE HIPOTEZ STATYSTYCZNYCH 

12.1 Definicje elementarnych pojȩć 

Poniżej podamy definicje elementarnych pojȩć stosowanych przy testowaniu hipotez. 

Hipotez¸a statystyczn¸a nazywamy hipotezȩ odnosz¸aça siȩ do rozk̷ladu prawdopodobieństwa 

zmiennej losowej (funkcji gȩstości prawdopodobieństwa, itp.) lub do parametrów rozk̷ladu 

prawdopodobieństwa. 

Hipoteza prosta to taka, która jednoznacznie określa dystrybuantȩ (rozk̷lad) zmiennej 

losowej, tzn. podana jest postać rozk̷ladu i wartości wszystkich parametrów. 

Hipoteza z̷lożona to taka, która nie jest prosta, np. podana jest postać rozk̷ladu a 

nie s¸a znane wartości niektórych parametrów. 

Hipoteza parametryczna to hipoteza odnosz¸aca siȩ do wartości parametrów rozk̷ladu. 

Inne hipotezy nazywaj¸a siȩ hipotezami nieparametrycznymi i z natury s¸a hipotezami 

z̷lożonymi. 

Hipoteza zerowa ” 

H 0 ” to sprawdzana hipoteza. 

Hipoteza alternatywna H ” 1 ” to hipoteza, któr¸a bylibyśmy sk̷lonni przyj¸ać gdy 

” H 0” jest nieprawdziwa. 

UWAGA: 

” H 1” nie musi być prostym zaprzeczeniem H ” 0 ” 

B̷l¸ad pierwszego rodzaju to odrzucenie prawdziwej ” 

H 0 ”. 

Poziomem istotności ” 

α” nazywamy prawdopodobieństwo pope̷lnienia b̷lȩdu pierwszego 

rodzaju. Przyjmuje siȩ zwykle ” 

α” ∈ [0.1−0.001] – konkretny wybór oczywiście 

zależy od tego jak kosztowne bȩd¸a skutki pope̷lnienia b̷lȩdu pierwszego rodzaju. 

B̷l¸ad drugiego rodzaju to przyjȩcie nieprawdziwej ” 

H 0 ”. 

UWAGA: Przez sformu̷lowanie ” 

przyjȩcie hipotezy” należy rozumieć stwierdzenie, że ” 

nie 

mamy podstaw do odrzucenia hipotezy H 0 ”. Inaczej mówi¸ac pomiaru, którego wynik 

nie przeczy hipotezie nie można uważać za dowód prawdziwości hipotezy !!! 

Moça testu nazywamy prawdopodobieństwo odrzucenia fa̷lszywej ” 

H 0 ”, tzn. prawdopodobieństwo 

tego, że nie pope̷lnimy b̷lȩdu II rodzaju. Moc testu oznacza siȩ zwykle 

przez ” 

1 − β” gdzie ” 

β” oznacza prawdopodobieństwo pope̷lnienia b̷lȩdu II rodzaju. 

Tablica 1: Wyniki podejmowania decyzji przy testowaniu hipotez 

H 0 prawdziwa H 1 prawdziwa 

Przyjȩcie H 0 Decyzja prawid̷lowa B̷l¸ad II rodzaju 

Przyjȩcie H 1 B̷l¸ad I rodzaju Decyzja prawid̷lowa


12.2 Test normalności rozk̷ladu 

Wiȩkszość metod statystyki jest dobrze opracowana matematycznie dla zmiennych o 

rozk̷ladzie normalnym natomiast nie jest oczywiste, że dadz¸a siȩ zastosować bez modyfikacji 

dla zmiennych o innych rozk̷ladach. Z tej przyczyny przed rozpoczȩciem bardziej 

zaawansowanych rozważań statystycznych należy siȩ upewnić, że badana zmienna podlega 

rozk̷ladowi normalnemu. Sprawdzana hipoteza zerowa polega na stwierdzeniu, że rozk̷lad 

badanej zmiennej jest rozk̷ladem normalnym. W zależności od testu zak̷lada siȩ znajomość 

parametrów rozk̷ladu jak np. w teście lambda Ko̷lmogorowa lub też nie jest 

to niezbȩdne jak np. w badaniu wykresu normalnego. 

12.2.1 Test zerowania siȩ wspó̷lczynnika asymetrii i kurtozy 

Test ten polega na sprawdzeniu, czy spe̷lnione s¸a warunki konieczne do tego aby rozk̷lad 

badanej zmiennej móg̷l być rozk̷ladem normalnym. Wiadomo, że dla rozk̷ladu normalnego 

wspó̷lczynnik asymetrii i kurtoza (wspó̷lczynnik przewyższenia) znikaj¸a niezależnie od 

tego jaka jest wartość oczekiwana i wariancja rozk̷ladu. A wiȩc 

• Hipoteza zerowa, H 0 : 

(γ 1 = 0) ∧ (γ 2 = 0) 

• Statystyka testowa: 

Q 1 = 

Q 2 = 

√ n · g1 

√ 

6 

√ n · g2 

√ 

24 

gdzie g 1 i g 2 to estymatory wspó̷lczynnika asymetrii γ 1 i kurtozy γ 2 : 

γ 1 ≡ E ((x − E(x))3 ) 

σ 3 (x) 

γ 1 ≡ E ((x − E(x))4 ) 

σ 4 (x) 

− 3


opisane poniższymi wzorami: 

g 1 = M 3 

√ 

M 

3 

2 

, g 2 = M 4 

M 2 2 

UWAGA: 

Wielkości M 2 , M 3 i M 4 to nie s¸a momenty liczone wzglȩdem pocz¸atku uk̷ladu 

lecz estymatory momentów centralnych odpowiednio drugiego, trzeciego i czwartego 

rzȩdu: 

M 2 ≡ 1 n 

M 3 ≡ 1 n 

M 4 ≡ 1 n 

n∑ 

i=1 

n∑ 

i=1 

n∑ 

i=1 

(x i − ¯x) 2 

(x i − ¯x) 3 

(x i − ¯x) 4 

Jeżeli hipoteza zerowa jest prawdziwa oraz próba jest bardzo duża to statystyki 

g 1 i g 2 maj¸a rozk̷lady normalne o wartościach oczekiwanych 

i odchyleniach standardowych: 

− 3 

E(g 1 ) ≈ 0 E(g 2 ) ≈ 0 

σ(g 1 ) ≈ 

√ 

6 

n 

σ(g 2 ) ≈ 

√ 

24 

n 

Wtedy estymatory Q 1 i Q 2 maj¸a standardowe rozk̷lady normalne N(0,1). 

• Hipoteza alternatywna to zaprzeczenie H 0 : 

prawdziwe wartości γ 1 i γ 2 nie s¸a równe 0. 

• Obszar krytyczny dwustronny. Brzegi określone przez kwantyl rozk̷ladu N(0,1): 

| Q 1 |> U 1 

 

2 

⋃ 

| Q2 |> U 1 

 

2 

Jeżeli rozmiary próby nie s¸a bardzo duże to rozk̷lad statystyk Q 1 i Q 2 nie przyjmuje 

swej asymptotycznej postaci; N(0,1) ale wartości oczekiwane i wariancje tych zmiennych 

s¸a bliskie odpowiednio zeru i jedności. Można to wykorzystać do stworzenia obszaru 

krytycznego w oparciu o nierówność Czebyszewa . Jako obszar krytyczny przyjmuje siȩ 

⋃ 

wartości ( | Q 1 |> 3 | Q2 |> 3 ) tj. poziom istotności równy α = 1/9.


Należy zwrócić uwagȩ na fakt, że powyższy test pozwala zwykle w uzasadniony sposób 

odrzucić hipotezȩ zerow¸a (gdy Q 1 lub Q 2 trafia do obszaru krytycznego) natomiast fakt, 

że wartości tych statystyk nie s¸a sprzeczne z hipotez¸a zerow¸a nie wyklucza możliwości, że 

mamy do czynienia z rozk̷ladem różnym od normalnego. 

12.2.2 Test zgodności λ - Ko̷lmogorowa 

Ten test stosowany jest do porównania rozk̷ladu prawdopodobieństwa z próby ze znanym 

(teoretycznym) rozk̷ladem. Tu wykorzystujemy go do testowania normalności rozk̷ladu 

ale można go stosować do dowolnych teoretycznych rozk̷ladów ci¸ag̷lej zmiennej 

losowej. Parametry rozk̷ladu powinny być określone w hipotezie zerowej. 

Pomiary z próby x 1 , x 2 , x 3 , ...x n porz¸adkujemy wg wzrastajacej wartości otrzymuj¸ac 

nastȩpujacy ci¸ag: 

x 

1 ≤ x 

2 ≤ x 

3 ≤ ... x n 

Zmienn¸a losow¸a X m , tak¸a, że jej realizacja x m zajmuje w ci¸agu m − te miejsce nazywamy 

statystyk¸a pozycyjn¸a rzȩdu m w próbie n-elementowej. 

Tworzymy empiryczn¸a dystrybuantȩ F n (x) obserwowanej w próbie zmiennej losowej X: 

⎧ 

⎪⎨ 

F n (x) = 

⎪⎩ 

0 gdy x ≤ x 

1 

m 

n gdy x m < x ≤ x 

m+1 

, 1 ≤ m ≤ n − 1 

1 gdy x > x n 

Empiryczna dystrybuanta jest zwyk̷l¸a funkcj¸a argumentu x ale jest równocześnie 

statystyk¸a bo jest definiowana przez wszystkie wielkości x 

1 , ..., x n z próby. 

Można pokazać, że wartość oczekiwana empirycznej dystrybuanty jest równa oszacowywanej 

wielkości teoretycznej dystrybuanty 

E(F n (x)) = F (x) 

a jej wariancja d¸aży do zera gdy rozmiary próby d¸aż¸a do nieskończoności 

σ 2 (F n (x)) = 1 n 

· F (x) · (1 − F (x)) → 0. 

St¸ad F n (x) jest nieobci¸ażonym i zgodnym estymatorem F(x).


• Hipoteza zerowa 

Dystrybuanta obserwowanej zmiennej losowej jest dystrybuant¸a rozk̷ladu normalnego 

o parametrach E(x) = x 0 , σ(x) = σ: 

E(F n(x)) = 

∫ x 

1 dx · 1 

√ 

2πσ · exp(− (x − x 0) 2 

2σ 2 ) 


w oryginalnej wersji - zaproponowanej przez Ko̷lmogorowa: 

D n = sup x 

| F n (x) − F (x) | 

Smirnow zaproponowa̷l dwie inne definicje statystyki testowej (st¸ad czȩsto używana 

nazwa test Ko̷lmogorowa-Smirnowa): 

D + n = sup x (F n(x) − F (x)) 

D n = − inf 

x (F n(x) − F (x)) 

Dla praktycznych rachunków wykorzystuje siȩ nieco inne wzory, które wymagaj¸a 

znajomości teoretycznej dystrybuanty tylko dla zmierzonych wartości zmiennej 

X: 

D + n = max 

1mn ( m n − F (x m ) ) 

D n = max 

1mn ( F (x m ) − m − 1 

n 

D n = max( D n + , D n ) 

) 

• Obszar krytyczny: prawostronny (duże wartości D n , tzn. D n > D n (1 − α)) 

Granicȩ obszaru krytycznego, tj. kwantyl D n (1 − α) można dla n ≥ 10 oraz 

dla poziomu istotności α ≥ 0, 01 wyliczyć z przybliżonego wzoru (dok̷ladność nie 

gorsza niż 3 cyfry znacz¸ace) 

D n (1 − α) ≈ 

√ 

1 

2n · (y − 2y2 − 4y − 1 

) − 1 

18n 6n 

y ≡ − ln(0, 5 · α)


Po wyliczeniu z próby wartości statystyki D n porównujemy j¸a z kwantylem D n (1 − α) 

znalezionym z tablic lub wyliczonym z podanego wzoru (W praktyce możemy wyliczać ten 

kwantyl wg wzoru ponieważ zarówno typowe poziomy istotności α ≥ 0, 01 jak i liczebność 

próby n ≥ 10 odpowiadaj¸a warunkom stosowania tego wzoru.) 

Gdy D n > D n (1−α) odrzucamy hipotezȩ zerow¸a, tzn. stwierdzamy, że dane doświadczalne 

wykluczaj¸a to aby rozk̷lad prawdopodobieństwa populacji by̷l rozk̷ladem normalnym z 

parametrami E(x) = x 0 i σ(x) = σ, przy czym nasz wniosek może być b̷lȩdny z 

prawdopodobieństwem α. 

UWAGA: 

1. Statystyka D n powinna być liczona ze szczegó̷lowego szeregu statystycznego ( tj. z 

indywidualnych pomiarów ) a nie może być liczona z szeregu rozdzielczego (danych 

pogrupowanych)!! 

2. Statystyka D n testu Ko̷lmogorowa - Smirnowa ma dla n d¸aż¸acego do nieskończoności 

rozk̷lad niezależny od postaci porównywanych rozk̷ladów: 

To jest wielk¸a zalet¸a testu ale jest również pewn¸a s̷labości¸a bo przez to jest stosunkowo 

ma̷lo czu̷ly na postać ogonów rozk̷ladu. Aby to poprawić stosuje siȩ 

specjaln¸a odmianȩ tego testu tzw. test Andersona - Darlinga, który przy liczeniu 

wartości krytycznych testu wykorzystuje specyfikȩ badanych rozk̷ladów. Te wartości 

liczone s¸a przy pomocy specjalnych programów komputerowych. 

3. Dla poprawnego stosowania testu Ko̷lmogorowa - Smirnowa niezbȩdna jest znajomość 

wartości parametrów teoretycznego rozk̷ladu. Jeżeli nie znamy tych parametrów 

- musimy je wcześniej oszacować, np. przy pomocy metody najwiȩkszej wiarygodności. 

Istniej¸a programy, które dokonuj¸a automatycznie takiego oszacowania 

(np. w pakiecie STATISTICA ta wersja testu nazywa siȩ 

testem Ko̷lmogorowa -Smirnowa z poprawk¸a Lillieforsa . 

12.2.3 Test zgodności Andersona-Darlinga 

Jak to wspomniano wyżej ten test jest modyfikacj¸a testu Ko̷lmogorowa-Smirnowa wykorzystuj¸aça 

do liczenia wartości krytycznych w̷lasności badanego rozk̷ladu (tu - rozk̷ladu 

normalnego). Test ten jest bardziej czu̷ly na kszta̷lt ”ogonów” rozk̷ladu. 


Dystrybuanta obserwowanej zmiennej losowej jest dystrybuant¸a rozk̷ladu normalnego. 

• Hipoteza alternatywna 

Zaprzeczenie hipotezy zerowej.


• Statystyka testowa 

A 2 = −n − S gdzie 

S = n ∑ 

i=1 

(2i 1) 

n 

{ 

ln F (x i ) + ln[1 − F (x 

n+1 i )] } 

F (x i ) − dystrybuanta danego rozkladu normalnego 

x i − statystyka pozycyjna 

• Obszar krytyczny 

Prawostronny (duże wartości statystyki testowej): A 2 > A 2 1 . 

Typowe wartości krytyczne testu: 

A 2 0:9 = 1.062 

A 2 0:95 = 1.321 

A 2 0:975 = 1.591 

A 2 0:99 = 1.959 

UWAGA: Te kwantyle s¸a policzone przy za̷lożeniu, że badany rozk̷lad jest normalny. 

Nie mog¸a wiȩc być stosowane dla testowania czy dane maj¸a inny rozk̷lad. 

12.2.4 Test zgodności χ 2 - Pearsona 

Podobnie jak test λ Ko̷lmogorowa tak i ten test stosowany jest do porównania rozk̷ladu 

prawdopodobieństwa z próby ze znanym (teoretycznym) rozk̷ladem. Tu wykorzystujemy 

go do testowania normalności rozk̷ladu ale można go stosować do dowolnych teoretycznych 

rozk̷ladów ci¸ag̷lej lub dyskretnej zmiennej losowej ale 

pomiary musz¸a być pogrupowane (szereg rozdzielczy) - wprost przeciwnie niż w przypadku 

testu Ko̷lmogorowa. 


Dystrybuanta obserwowanej zmiennej losowej jest dystrybuant¸a rozk̷ladu normalnego: 

∫ x 

E(F n(x)) = 

1 dx · 1 

√ · exp(− (x − x 0) 2 

) 

2πσ 2σ 2 


k∑ 

X 2 (n i − n · π i ) 2 

= 

nπ i 

i=1


gdzie 

– k to liczba przedzia̷lów w szeregu rozdzielczym (przynajmniej kilka), 

– n i to liczebność i − tego przedzia̷lu (n i ≥ 5), 

– π i to prawdopodobieństwo zaobserwowania pomiarów w przedziale i − tym 

jeżeli prawdziwa jest hipoteza zerowa, 

– n to liczba wszystkich pomiarów. 

Dowodzi siȩ, że asymptotycznie (tzn. dla n → ∞) statystyka X 2 ma rozk̷lad 

χ 2 k r 1 

, gdzie r jest liczb¸a nieznanych parametrów teoretycznego rozk̷ladu (dla 

rozk̷ladu normalnego r = 2) oszacowywanych wstȩpnie z próby metod¸a najwiȩkszej 

wiarygodności. 

• Obszar krytyczny to duże wartości X 2 (X 2 > χ 2 k r 1 

(1 − α)), gdzie w naszym 

przypadku testowania normalności rozk̷ladu χ 2 k r 1 

(1 − α) jest kwantylem rzȩdu 

1 − α rozk̷ladu χ 2 k 1 

(gdy znamy E(x) i σ(x) rozk̷ladu normalnego) lub rozk̷ladu 

χ 2 k 3 

(gdy musimy oszacować przed testowaniem normalności E(x) i σ(x) ). 

Test χ 2 również nie wymaga skomplikowanych obliczeń i dlatego może być przeprowadzony 

bez użycia komputera ale kwantyle tego rozk̷ladu nie dadz¸a siȩ policzyć tak prosto 

jak dla testu Ko̷lmogorowa. Musimy korzystać z tablic statystycznych. 

12.2.5 Wykres normalny 

Wykres ten jest szczególnym przypadkiem wykresu kwantyl - kwantyl, na którym przedstawia 

siȩ estymatory kwantyli dla rozk̷ladu zmiennej z próby w funkcji kwantyli teoretycznego 

rozk̷ladu. Jako kwantyle teoretycznego rozk̷ladu bierze siȩ kwantyle standardowego 

rozk̷ladu normalnego. Jako kwantyle doświadczalne bierzemy kolejne wartości pozycyjnej 

statystyki z próby. Jeżeli hipoteza zerowa (normalność rozk̷ladu mierzonej wielkości X) 

jest prawdziwa to tak otrzymany wykres powinien być lini¸a prost¸a. Odstȩpstwa od prostoliniowości 

s¸a argumentem za odrzuceniem hipotezy zerowej. 


Dystrybuanta obserwowanej zmiennej losowej jest dystrybuant¸a rozk̷ladu normalnego, 

przy czym dla tego testu nie jest wymagana znajomość parametrów rozk̷ladu. 

• Statystyka testowa 

Jako statystykȩ testow¸a można wzi¸ać estymator wspólczynnika korelacji r pomiȩdzy 

doświadczalnymi i teoretycznymi kwantylami. 

Postȩpujemy nastȩpuj¸aco: 

1. Porz¸adkujemy pomiary {x k } tak aby utworzy̷ly ci¸ag rosnacy {x k } czyli statystykȩ 

pozycyjn¸a. Statystykȩ pozycyjn¸a rzȩdu k z n - elementowej próby traktujemy 

jako estymator kwantyla na poziomie k/(n + 1). 

2. Szukamy z k , tj. teoretycznego kwantyla standardowego rozk̷ladu normalnego 

na poziomie k/(n + 1) wykorzystuj¸ac relacjȩ:


F (z k ) = 

k 

( ) k 

n + 1 ⇒ z k = F 1 n + 1 

3. Rysujemy pary {z k , x k }. Gdy wykres wyraźnie różni siȩ od linii prostej to 

odrzucamy H 0 , w przeciwnym wypadku liczymy estymator wspó̷lczynnika korelacji 

r(z k , x k ) i przeprowadzamy bardziej ilościowe rozważania. 

• Obszar krytyczny to ma̷le wartości estymatora r wspó̷lczynnika korelacji ϱ(z k , x k ), 

tj. mniejsze od odpowiednich wartości krytycznych r n (α) zależnych od poziomu istotności 

α (test lewostronny). Wartości te można znaleźć w tablicach lub zastosować 

przybliżone wzory podane poniżej: 

r n (α = 0.05) ≈ 1 − 0.5669 

n , r n(α = 0.01) ≈ 1 − 0.3867 

2=3 n 2=3 

Wzory te daj¸a krytyczne wartości wspó̷lczynnika korelacji r n (α) dla dwu 

poziomów istotności α z dok̷ladności¸a nie gorsz¸a niż 1% jeżeli rozmiar próby n leży 

w przedziale 5 < n < 1000. 

UWAGA: 

Jeżeli linia prosta jest dobrym przybliżeniem, to wspó̷lczynnik kierunkowy prostej 

{z k , x k } równy jest parametrowi skali (tj. odchyleniu standardowemu) a wspó̷lrzȩdna 

przeciȩcia prostej z osi¸a x k równa jest wspó̷lczynnikowi tendencji centralnej (wartości 

oczekiwanej X). W ten sposób można oszacować parametry rozk̷ladu normalnego, rz¸adz¸acego 

wartościami zmiennej z próby.


12.3 HIPOTEZY DOTYCZA¸ CE WARTOŚCI OCZEKIWANEJ 

Zajmujemy siȩ zmiennymi o rozk̷ladzie normalnym. S¸a dwie podstawowe hipotezy, które 

bada siȩ najczȩściej: 

• Porównanie E(X) z liczb¸a: 

H 0 : E(X) = x 0 , oraz 

• Porównanie wartości oczekiwanych dwu populacji: 

H 0 : E(X) = E(Y ) 

Każda z tych hipotez może oczywiście być formu̷lowana jako nierówność, np. H 0 : 

E(X) > X 0 ale wtedy hipoteza zerowa jest z̷lożona a wiȩc nie mamy jednoznacznie 

zdefiniowanego rozk̷ladu X. Z tego powodu wygodniej jest zawsze brać jako hipotezȩ 

zerow¸a równość E(X) z dan¸a liczb¸a lub E(Y) a interesuj¸aça nas hipotezȩ traktować jako 

hipotezȩ alternatywn¸a. 

12.3.1 PORÓWNANIE E(X) Z LICZBA¸ (H 0 : E(X)=X 0 ) 

Musimy rozróżnić dwa przypadki: 

• gdy znamy σ(X), wtedy jako statystykȩ testow¸a T n (X) bierzemy poniższ¸a statystykȩ 

z o rozk̷ladzie standardowym normalnym N(0,1): 

z = 

(x − E(X)) 

σ(X) 

• gdy nie znamy σ(X), to jako statystykȩ T n (X) bierzemy analogiczn¸a funkcjȩ ”t”, 

w której σ zast¸apiona jest estymatorem S(X): 

t = 

(x − E(X)) 

. 

S(X) 

Statystyka t ma rozk̷lad Studenta o (n-1) stopniach swobody. 

Oczywiście odchylenie standardowe średniej arytmetycznej σ(X) podobnie jak jego 

estymator S(X) równe s¸a odpowiednim wartościom dla samej zmiennej X podzielonym 

przez √ n: 

σ(X) = σ(X) √ n


Tablica 2: Obszar krytyczny dla hipotez dotycz¸acych E(X) 

Hipoteza H 1 Obszar krytyczny Obszar krytyczny 

gdy znamy σ(X) gdy nie znamy σ(X) 

E(X) ≠ X 0 | z | > z 1 

 

2 

| t | > t 1 

 

2 

E(X) > X 0 z > z 1 t > t 1 

E(X) < X 0 z < z t < t 

Sposób określenia obszaru krytycznego dla poszczególnych hipotez alternatywnych 

podany jest w tabeli (2). 

z oraz t to odpowiednio fraktyle standardowego rozk̷ladu normalnego N(0,1) i rozk̷ladu 

Studenta o (n-1) stopniach swobody. Oba te rozk̷lady s¸a symetryczne wzglȩdem zera a 

wiȩc można wykorzystać nastȩpuj¸aça symetriȩ kwantyli: 

z = −z 1 

t = −t 1 

12.3.2 WARTOŚCI OCZEKIWANE DWU POPULACJI (H 0 : E(X) = E(Y )) 

Tutaj trzeba odróżnić trzy sytuacje: 

1.) σ(X) i σ(Y ) znane, 

2.) σ(X) i σ(Y ) nieznane ale σ(X) = σ(Y ), 

3.) σ(X) i σ(Y ) nieznane oraz σ(X) ≠ σ(Y ),


ad 1.) Jako statystykȩ testow¸a bierze siȩ zmienn¸a z: 

z = 

X − Y 

√ 

2 (X) 

n x 

+ 2 (Y ) 

n y 

Zmienna ta ma rozk̷lad standardowy normalny N(0,1). 

ad 2.) Po stwierdzeniu (przy pomocy testu Fishera-Snedecora), że wariancje zmiennej X 

i zmiennej Y można uznać za równe, stosujemy test Studenta ze zmienn¸a t zdefiniowan¸a 

nastȩpuj¸aco: 

t = 

S(X, Y ) = 

X − Y 

√ 

S(X, Y ) · nx+ny 

n x n y 

√ (n x − 1) ∗ S 2 (X) + (n y − 1) ∗ S 2 (Y ) 

n x + n y − 2 

Zmienna t ma rozk̷lad Studenta o (n x + n y − 2) stopniach swobody. 

ad 3.) Jeżeli test F pokaza̷l, że wariancje zmiennych X i Y s¸a istotnie różne to jako 

statystykȩ testow¸a używa siȩ zmodyfikowanej zmiennej t: 

t = 

X − Y 

√ 

S 2 (X) 

n x 

+ S2 (Y ) 

n y 

Zmienna t ma rozk̷lad, który można przybliżyć rozk̷ladem Studenta o efektywnej 

liczbie stopni swobody n ef : 

n ef = 

( S2 (X) 

n x 

+ S2 (Y ) 

n y 

) 2 

(S 2 (X)=n x ) 2 

n x 

+ (S2 (Y )=n y) 

2 − 2 

+1 n y +1


Ponieważ efektywna liczba stopni swobody n ef zwykle nie jest liczb¸a ca̷lkowit¸a to 

szukaj¸ac w tablicach musimy zaokr¸aglać j¸a do liczby ca̷lkowitej (bezpieczniej zaokr¸aglać 

w dó̷l - wtedy efektywnie zwiȩkszamy nieco poziom istotności). 

W tabeli przytoczonej poniżej zdefiniowane s¸a obszary krytyczne dla tych trzech przypadków 

przy zastosowaniu dwu różnych hipotez alternatywnych H 1 . 

Hipoteza H 1 Obszar krytyczny Obszar krytyczny Obszar krytyczny 

σ(X) i σ(Y ) σ(X) = σ(Y ) σ(X) ≠ σ(Y ) 

znane nieznane nieznane 

E(X) ≠ E(Y ) | z | > z 1 

 

2 

| t | > t nx +n y 2(1 − 2 ) | t | > t n ef 

(1 − 2 ) 

E(X) > E(Y ) z > z 1 t > t nx +n y 2(1 − α) t > t nef (1 − α) 

Oczywiście statystyki testowe z i t to statystyki zdefiniowane powyżej a fraktyle należy 

brać odpowiednio dla rozk̷ladu standardowego normalnego N(0,1) oraz rozk̷ladów Studenta 

o odpowiedniej liczbie stopni swobody.


12.4 HIPOTEZY DOTYCZA¸ CE WARIANCJI 

Najważniejsze to hipotezy porównuj¸ace wariancjȩ zmiennej X z liczb¸a oraz hipoteza 

porównuj¸aca wariancje dwu populacji. Zak̷ladamy, podobnie jak w przypadku hipotez 

odnosz¸acych siȩ do wartości oczekiwanych, że zmienne losowe pochodz¸a z populacji normalnych. 

12.4.1 PORÓWNANIE WARIANCJI X Z LICZBA¸ (H 0 : σ 2 (X) = σ 2 0 ) 

Dla testowania takiej hipotezy używa siȩ statystyki testowej Q 2 zdefiniowanej nastȩpuj¸aco: 

Q 2 = (n − 1) · S2 (X) 

σ 2 0 

Przy prawdziwości H 0 ta statystyka ma rozk̷lad χ 2 n 1 

, gdzie n to liczba pomiarów w próbie 

a S 2 (X) to estymator wariancji. 

Obszary krytyczne dla różnych hipotez alternatywnych s¸a wymienione w tabeli poniżej: 

Hipoteza H 1 

Obszar krytyczny 

σ 2 (X) ≠ σ 2 0 

Q 2 < χ 2 

2 

lub Q 2 > χ 2 1 2 

σ 2 (X) > σ 2 0 

Q 2 > χ 2 1 

σ 2 (X) < σ 2 0 

Q 2 < χ 2 

12.4.2 PORÓWNANIE WARIANCJI DWU POPULACJI 

Hipoteza zerowa H 0 : σ 2 (X) = σ 2 (Y ) 

Dla testowania tej hipotezy używa siȩ testu F Fishera-Snedecora. Zarówno zmienn¸a 

jak i rozk̷lad prawdopodobieństwa oznacza siȩ liter¸a F z dwoma wskaźnikami n 1 , n 2 : 

F(n 1 , n 2 ). Zmienna F(n 1 , n 2 ) to stosunek dwu zmiennych o rozk̷ladach chikwadrat 

podzielonych przez ich liczby stopni swobody, przy czym zmienna w 

liczniku ma n 1 a zmienna w mianowniku n 2 stopni swobody:


F (n 1 , n 2 ) ≡ (2 n 1 

n 1 

) 

( 2 n 2 

n 2 

) 

Zmienna ta przyjmuje, jako stosunek dwu nieujemnych liczb, tylko wartości nieujemne 

a kszta̷lt jej rozk̷ladu jest podobny do kszta̷ltu rozk̷ladu χ 2 . 

Jako statystykȩ testow¸a F bierze siȩ iloraz estymatora S 2 (X) i estymatora S 2 (Y): 

F ≡ S2 (X) 

S 2 (Y ) 

̷Latwo pokazać, że statystyka F ma rozk̷lad F(n x − 1, n y − 1): 

Wiemy z rozważań dotycz¸acych porównania wariancji z liczb¸a, że zmienna Q 2 obliczona 

dla próby sk̷ladaj¸acej siȩ z n elementów ma rozk̷lad χ 2 n 1 . Po podzieleniu jej przez 

liczbȩ stopni swobody (n − 1) otrzymujemy iloraz S2 

. Jeżeli prawdziwa jest hipoteza zerowa 

g̷losz¸aca, że wariancje licznika i mianownika s¸a równe, to stosunek statystyk S 2 (X) 

2 

(licznika) i S 2 (Y ) (mianownika) jest równy stosunkowi Q2 (X) 

n i Q2 (Y ) 

x 1 n y 

czyli równy jest 

1 

zmiennej F (n x − 1, n y − 1). 

Jako hipotezȩ alternatywn¸a k̷ladzie siȩ brak równości obu wariancji lub to, że wariancja 

licznika jest wiȩksza od wariancji mianownika: 

Hipoteza H 1 

σ 2 (X) ≠ σ 2 (Y ) 

Obszar krytyczny 

F < F 

2 (n x − 1, n y − 1) lub F > F 1 

 

2 (n x − 1, n y − 1) 

σ 2 (X) > σ 2 (Y ) F > F 1 (n x − 1, n y − 1) 

Jeżeli w tablicach podane s¸a tylko kwantyle rozk̷ladu F na dużym poziomie lub tylko 

na ma̷lym poziomie, to korzysta siȩ z oczywistej równości: 

F =2 (n 1 , n 2 ) = 1/F 1 =2 (n 2 , n 1 )


12.5 HIPOTEZA JEDNORODNOŚCI WARIANCJI (KILKU 

POPULACJI 

Zajmujemy siȩ zmiennymi o rozk̷ladzie normalnym. Sprawdzamy czy wariancje kilku 

populacji s¸a takie same (np. czy dok̷ladność kilku różnych serii pomiarów jest taka 

sama). Ta w̷lasność - zwana jednorodności¸a wariancji - może być interesuj¸aca sama w 

sobie a dodatkowo jest niezbȩdna jeżeli chcemy badać równość wartości oczekiwanych 

kilku populacji przez zastosowanie tzw. analizy wariancji (ANOVA). 

12.5.1 TEST BARTLETTA 

Badamy k populacji normalnych. Z każdej populacji i = 1, .., k bierzemy n i obserwacji 

(w sumie n = ∑ n 

i=1 

n i wyników). 

• Hipoteza zerowa H 0 : Wszystkie wariancje s¸a sobie równe: 

σ 2 1 = σ2 2 = ·· = σ2 k 

• Hipoteza alternatywna H 1 : Przynajmniej jedna wariancja jest wiȩksza od pozosta̷lych: 


σ 2 j > σ2 1 = · · σ2 j 

1 = σ2 j+1 = ·· = σ2 k 

⎧ 

⎪⎨ 

M = 

⎪⎩ 

− k ∑ 

i=1 

1 + 1 

3(k 1) 

( ) S 

2 

(n i − 1) · ln i 

S 2 

[ 

∑ k 

1 

n − 1 

i 1 n k 

i=1 

⎫ 

⎪⎬ 

] 

⎪⎭ 

gdzie S 2 i 

jest estymatorem wariancji dla i-tej próby: 

S 2 i = 1 

n i 1 

n i ∑ 

j=1 

(x ji − ¯x i ) 2 oraz S 2 = 1 

n k 

k∑ 

i=1 

(n i − 1) · S 2 i . 

Bartlett pokaza̷l, że zmienna M zdefiniowana powyżej ma rozk̷lad, który bardzo 

szybko d¸aży do rozk̷ladu chi-kwadrat o k-1 stopniach swobody. Wystarcza już 

warunek n i > 3 dla wszystkich prób i. 

• Obszar krytyczny: prawostronny.


12.5.2 TEST COCHRANA 

Można go stosować dla k populacji normalnych jeżeli liczebność wszystkich prób n i , 

i=1,..,k jest identyczna. 

• Hipoteza zerowa H 0 : Wszystkie wariancje s¸a sobie równe: 

σ 2 1 = σ2 2 = ·· = σ2 k 

• Hipoteza alternatywna H 1 : Przynajmniej jedna wariancja jest wiȩksza od pozosta̷lych: 

σ 2 j > σ2 2 = · · σ2 j 

1 = σ2 j+1 = ·· = σ2 k 


G = 

max S 2 

i i 

k∑ 

Si 

2 

i=1 

gdzie S 2 i 

jest estymatorem wariancji dla i-tej próby. 

• Obszar krytyczny: prawostronny. Należy korzystać ze specjalnych tablic testu Cochrana.


12.6 ANALIZA WARIANCJI - klasyfikacja jednoczynnikowa 

Analiza wariancji - zaproponowana przez R. A. Fishera - to metoda s̷luż¸aca w swojej 

najprostszej wersji do porównania wartości oczekiwanych kilku populacji normalnych. 

Poniżej zostanie wyjaśniona idea tej metody na przyk̷ladzie tego zastosowania. 

Należy podkreślić, że analiza wariancji zwana czȩsto ANOVA (ANalysis Of VAriance) 

ma bardzo szerokie zastosowanie w naukach biologicznych i medycznych gdyż czynnik 

odróżniaj¸acy populacje może być zmienn¸a jakościow¸a. 

ZA̷LOŻENIA: 

1. Badamy k populacji normalnych zmiennych X 1 , ...X k , 

2. Wszystkie populacje maj¸a równe wariancje, 

Jeżeli nie mamy z góry zagwarantowanego spe̷lnienia tych za̷lożeń to musimy przeprowadzić 

odpowiednie testy statystyczne (np. Test λ-Ko̷lmogorowa, test χ 2 Pearsona lub inne dla 

sprawdzenia normalności populacji oraz test Bartletta lub Cochrana dla sprawdzenia identyczności 

wariancji - nazywanej jednorodności¸a wariancji - dla różnych populacji). 

• Hipoteza zerowa: H 0 : E(X 1 ) = E(X 2 ) = ... = E(X k ) 

• Hipoteza alternatywna: H 1 : 

Niektóre E(X i ) s¸a różne. 


Wprowadzamy nastȩpuj¸ace oznaczenia: 

– x ij to i-ty pomiar z j-tej próby (j-tej populacji) 

– n j to liczebność j-tej próby, przy czym k ∑ 

j=1 

– ¯xj to średnia arytmetyczna dla j-tej próby: 

¯xj = n 1 ∑ n j 

∑ n j 

j 

x ij czyli x ij = n j · ¯xj 

i=1 

i=1 

n j = N 

– ¯x to średnia arytmetyczna wszystkich pomiarów: 

¯x = N 

1 k∑ ∑ n j 

x ij = 1 k∑ 

N n j · ¯xj 

j=1 i=1 j=1 

– s 2 b ≡ 1 

(k 1) 

k∑ 

n j ∑ 

j=1 i=1 

(¯xj − ¯x) 2 = 1 

(k 1) 

k∑ 

j=1 

n j · (¯xj − ¯x) 2 

to estymator wariancji ca̷lkowitego zbioru danych liczony z rozrzutu średnich 

arytmetycznych poszczególnych prób j = 1, .., k. Kwadrat odchylenia j-tej


średniej ¯xj od ogólnej średniej wchodzi do wzoru z wag¸a równ¸a liczebności j- 

tej próby. Ponieważ ogólna średnia narzuca jeden warunek na zespó̷l k średnich 

grupowych to suma s 2 b ma (k − 1) stopni swobody. 

Wskaźnik ”b”pochodzi od angielskiego s̷lowa ”between”(pomiȩdzy) i s 2 b nazywany 

jest estymatorem ”wariancji miȩdzygrupowej”. 

– s 2 w ≡ 1 

(N k) 

k∑ 

n j ∑ 

j=1 i=1 

(x ij − ¯xj) 2 

to estymator wariancji ca̷lkowitego zbioru danych liczony z rozrzutu pomiarów 

wewn¸atrz każdej próby j = 1, .., k. Liczba stopni swobody dla sumy kwadratów 

wewn¸atrz j-tej grupy to (n j − 1). Liczba stopni swobody dla sumy kwadratów 

po wszystkich k grupach to: 

∑ 

(n 1 − 1) + (n 2 − 1) + .. + (n k − 1) = k n j − k = N − k. 

St¸ad liczba stopni swobody tej sumy wynosi (N − k). 

Wskaźnik ”w” pochodzi od angielskiego s̷lowa ”within” (wewn¸atrz) i dlatego 

estymator s 2 w nazywany jest estymatorem ”wariancji wewn¸atrzgrupowej”. 

j=1 

TWIERDZENIE: 

Można pokazać, że przy równości wariancji wszystkich populacji 

σ 2 1 = σ2 2 = . . . = σ2 k ≡ σ2 zachodz¸a nastȩpuj¸ace relacje: 

E{s 2 w } = σ2 

E{s 2 b } = σ2 + 

( k∑ 

) 

(Efx j g Efxg) 2 

j=1 

k 1 

· 

( 

N 

k ∑ 

j=1 

k 1 

) 

n 2 j 

N 

gdzie E{x j } i E{x} to wartość oczekiwana dla j -tej populacji i postulowana przez 

hipotezȩ zerow¸a wspólna wartość oczekiwana wszystkich populacji. 

Jak widać, estymator s 2 w jest zawsze nieobci¸ażonym estymatorem wariancji 

(niezależnie od prawdziwości H 0 ), natomiast estymator s 2 b jest 

nieobci¸ażony tylko wtedy, gdy H 0 jest prawdziwa natomiast ma dodatnie 

obci¸ażenie, gdy tak nie jest (kwadrat sumy dodatnich liczb N 2 ∑ 

≡ ( k n j ) 2 

jest zawsze wiȩkszy od sumy ich kwadratów). 

Jako statystykȩ testow¸a bierzemy wielkość: 

j=1 

s 2 b /s2 w 

= F (k − 1, N − k) 

Powyższy wzór przedstawia stosunek dwu estymatorów wariancji, który przy prawdziwości 

hipotezy zerowej powinien być zmienn¸a o rozk̷ladzie F Fishera - Snedecora.


• Obszar krytyczny 

Jeżeli hipoteza zerowa nie jest prawdziwa to statystyka testowa powinna być wiȩksza 

niż przewiduje to rozk̷lad F (k − 1, N − k) bo wtedy s 2 b jest dodatnio obci¸ażony, 

a wiȩc obszar krytyczny odpowiada dużym wartościom statystyki testowej (test 

prawostronny). 

UWAGI: 

1. Gdy odrzucamy hipotezȩ zerow¸a, czyli stwierdzamy że nie wszystkie populacje maj¸a 

równe wartości oczekiwane badanej wielkości X, pojawia siȩ problem oszacowania 

tych wartości oczekiwanych. Jako estymator wartości oczekiwanej j-tej populacji 

przyjmuje siȩ definiowan¸a wyżej wielkość ¯xj. 

2. Jednoczynnikowa analiza wariancji bierze sw¸a nazwȩ z faktu podzia̷lu ca̷lej populacji 

wartości zmiennej X na k populacji różni¸acych siȩ wartości¸a lub poziomem jednego 

klasyfikuj¸acego czynnika. W szczególności ten czynnik może być zmienn¸a 

jakościow¸a a wiȩc zamiast wartości czynnika klasyfikuj¸acego (zmiennej ilościowej) 

mog¸a to być kategorie lub poziomy czynnika jakościowego. Na przyk̷lad, zmienn¸a 

X może być temperatura cia̷la leczonych pacjentów a czynnikiem klasyfikuj¸acym 

rodzaj podanego lekarstwa. 

Dziȩki takim możliwościom analiza wariancji jest czȩsto stosowana w naukach 

biologicznych, medycznych i spo̷lecznych a wiȩc tam gdzie używa siȩ zmiennych 

jakościowych. 

3. Warunkiem stosowalności analizy wariancji jest normalność analizowanej zmiennej 

oraz jednorodność wariancji (równość wariancji) dla wszystkich porównywanych 

populacji. Z doświadczenia wiadomo, że drugi warunek jest znacznie 

ważniejszy, tzn. niejednorodność wariancji wp̷lywa silniej na wyniki analizy wariancji 

niż niewielkie odstȩpstwa od normalności rozk̷ladu zmiennej X. 

W przypadku, gdy wariancja zmienia siȩ regularnie wraz z wartości¸a oczekiwan¸a 

(co stwierdzamy porównuj¸ac średnie poszczególnych prób i estymatory s 2 dla tych 

prób) można zastosować przekszta̷lcenia zmiennych takie jak pierwiastkowanie 

lub logarytmowanie, a nastȩpnie przeprowadzić analizȩ wariancji dla tak przekszta̷lconych 

danych. Tak¸a procedurȩ postȩpowania, nazywa siȩ stabilizacj¸a wariancji. 

4. Rachunki zwi¸azane z analiz¸a wariancji należy prowadzić z możliwie 

duż¸a dok̷ladności¸a, gdyż pozornie niewielkie zaokr¸aglenia mog¸a silnie zniekszta̷lcić 

wyniki.


Sumy kwadratów wystȩpuj¸ace w definicjach s 2 b i s2 w 

przytoczonych w prawej kolumnie poniżej: 

zaleca siȩ liczyć wg wzorów 

SS b ≡ (k − 1) · s 2 b = 

SS w ≡ (N − k) · s 2 w = 

SS ≡ (N − 1) · 

k∑ 

k ∑ 

j=1 

n j ∑ 

j=1 i=1 

n j ¯x 2 :j − N ¯x2 :: 

k ∑ 

n j ∑ 

j=1 i=1 

x 2 ij − k ∑ 

j=1 

(x ij − ¯x :: ) 2 = k ∑ 

n j ¯x 2 :j 

n j ∑ 

j=1 i=1 

x 2 ij − N ¯x2 :: 

gdzie suma kwadratów SS jest obliczana jako sprawdzian bo musi zachodzić: 

SS = SS b + SS w . 

Zwykle cz¸astkowe wyniki zapisuje siȩ w postaci tabeli analizy wariancji jednoczynnikowej: 

Rodzaj wariancji SS≡ sum of squares DF≡ degrees of freedom MS≡ mean square F - statystyka 

(suma kwadratów) (liczba stopni swobody) (średni kwadrat) testowa 

Pomiȩdzy grupami SS b k − 1 s 2 b = SS b/(k − 1) 

Wewn¸atrz grup SS w N − k s 2 w = SS w/(N − k) 

Ca̷lkowita SS N − 1 s 2 = SS/(N − 1) F = s 2 b /s2 w


12.7 ANALIZA WARIANCJI - dla regresji liniowej 

Analiza wariancji polega na podziale sumy kwadratów odchyleń na czȩść wyjaśnion¸a przez 

regresjȩ i czȩść niewyjaśnion¸a (definicja tych pojȩć podana jest poniżej). Zapisuj¸ac regresjȩ 

liniow¸a w postaci R(x) = b + ax możemy przedstawić sumȩ kwadratów odchyleń 

poszczególnych pomiarów y i od wartości średniej ȳ jako sumȩ: 

∑ 

(y i − ȳ) 2 = ∑ 

i 

i 

((y i − R(x i )) + (R(x i ) − ȳ)) 2 . 

Pierwszy z wewnȩtrznych nawiasów opisuje odchylenie pomiarów od prostej regresji a 

drugi odchylenie regresji od średniej arytmetycznej wszystkich pomiarów. 

Dalej bȩdziemy używać uproszczonego zapisu polegaj¸acego na opuszczaniu wskaźników 

przy symbolu sumy i przy sumowanych elementach oraz na opuszczaniu argumentu x w 

funkcji regresji liniowej. Wtedy powyższy wzór bȩdzie zapisany nastȩpuj¸aco: 

∑ 

(y − ȳ) 2 = ∑ ((y − R) + (R − ȳ)) 2 . 

Sumȩ tȩ możemy rozpisać tak: 

∑ 

(y − ȳ) 2 = ∑ (y − R) 2 + 2 ∑ (y − R) (R − ȳ) + ∑ (R − ȳ) 2 , 

a wykorzystuj¸ac fakt, że drugi wyraz jest równy zero przedstawić jako dwie sumy kwadratów: 

∑ 

(y − ȳ) 2 = ∑ (y − R) 2 + ∑ (R − ȳ) 2 . 

Pierwsza z sum po prawej stronie równania nazywana jest niewyjaśnion¸a (przez 

regresjȩ) sum¸a kwadratów a druga wyjaśnion¸a (przez regresjȩ) sum¸a kwadratów. 

Nazwy te staj¸a siȩ oczywiste gdy zależność y od x jest liniow¸a zależności¸a funkcyjn¸a a 

nie zależności¸a losow¸a. Wtedy pierwsza suma znika a ca̷la zmienność y pojawiaj¸aca siȩ 

jako odchylenie od średniej wartości ȳ opisana jest przez regresjȩ. 

Niewyjaśniona przez regresjȩ suma kwadratów ∑ (y − R) 2 może być traktowana jako 

miara rozrzutu zmiennej y doko̷la prostej regresji a wiȩc zwi¸azana jest bezpośrednio z estymatorem 

wariancji y doko̷la regresji (która z definicji jest warunkow¸a wartości¸a oczekiwan¸a 

y; R = E{y|x} zmiennej y dla ustalonej zmiennej x): 

S 2 y=x = 

n∑ 

i=1 

(y i − R(x i )) 2 

n − 2 

gdzie (n−2) jest liczb¸a stopni swobody (mniejsz¸a o 2 od n gdyż dla uzyskania parametrów 

prostej musieliśmy użyć dwu równań zwi¸azuj¸acych ze sob¸a wartości danych). 

Wyjaśniona przez regresjȩ suma kwadratów ∑ (R − ȳ) 2 może być wyrażona w inny 

sposób przy wykorzystaniu estymatora r wspó̷lczynnika korelacji ρ.


r = 

∑ (x − ¯x)(y − ȳ) 

√[ ∑ (x − ¯x) 2 ][ ∑ (y − ȳ) 2 ] . 

Wprowadzimy teraz dodatkow¸a konwencjȩ zapisu polegaj¸aça na oznaczaniu odchylenia 

zmiennych od średniej arytmetycznej przez odpowiednie duże litery: 

X ≡ x − ¯x, Y ≡ y − ȳ. 

Korzystaj¸ac z tego, że wspó̷lczynnik a we wzorach R = ax + b oraz ȳ = a¯x + b da 

siȩ zapisać jako 

a = ∑ XY / ∑ X 2 

(można to sprawdzić przekszta̷lcaj¸ac wzory na parametry linii prostej podane wcześniej - 

w rozdziale o regresji liniowej) dostajemy: 

∑ 

(R − ȳ) 

2 

= 

= a 2 ∑ (x − ¯x) 2 

≡ a 2 ∑ X 2 

= (∑ XY ) 2 

( ∑ X 2 ) 2 (∑ 

X 

2 ) 

( ∑ XY ) 2 (∑ 

= 

) 

( ∑ X 2 ) ( ∑ Y 

2 

Y 2 ) 

= r ( 2 ∑ ) 

Y 

2 

≡ r 2 ( ∑ 

(y − ȳ) 

2 ) 

W ten sposób pokazano, że kwadrat estymatora wspó̷lczynnika korelacji równy 

jest stosunkowi sumy kwadratów odchyleń wyjaśnionych przez regresjȩ do 

ca̷lkowitej sumy kwadratów odchyleń: 

r 2 = 

∑ (R − ȳ) 

2 

∑ (y − ȳ) 

2 . 

Daje to nam prost¸a interpretacjȩ kwadratu wspó̷lczynnika korelacji: gdy r 2 bliskie jest 

jedności to regresja odpowiada za prawie ca̷ly rozrzut obserwowanych wartości y i (dla 

wszystkich x i ) a ca̷la reszta rozrzutu może być przypisana istnieniu b̷lȩdów y i .


Sumȩ kwadratów wyjaśnion¸a przez regresjȩ i niewyjaśnion¸a przez regresjȩ można 

zwi¸azać z odpowiednimi estymatorami wariancji. Jeżeli zmienna y i x s¸a niezależne liniowo 

to obie te wariancje powinny być sobie równe (liczenie regresji nie wnosi nic nowego). 

A wiȩc sprawdzenie metod¸a analizy wariancji hipotezy, że obie wariancje s¸a 

równe możemy uznać za równoważne do testowania hipotezy g̷losz¸acej, że 

zmienne x i y s¸a liniowo niezależne tzn. 

H 0 : ρ(x, y) = 0. 

Uporz¸adkujmy dotychczasowe informacje w tabeli analizy wariancji: 

Suma 

Kwadratów 

Stopnie 

swobody 

Estymator 

wariancji 

Statystyka testowa 

Ca̷lkowita 

∑ (y − ȳ) 

2 

N − 1 

Wyjaśniona 

przez regresjȩ 

r 2 ∑ (y − ȳ) 2 1 r 2 ∑ (y − ȳ) 2 

1 

Niewyjaśniona 

przez regresjȩ 

(1 − r 2 ) ∑ (y − ȳ) 2 N − 2 (1 − r 2 ) ∑ (y − ȳ) 2 

N − 2 

F (1,N−2) = r2 (N − 2) 

(1 − r 2 ) 

Liczby stopni swobody skojarzone z odpowiednimi sumami kwadratów wynosz¸a odpowiednio: 

• N −1 dla ca̷lkowitej wariancji (liczba pomiarów minus jeden zwi¸azek wykorzystany 

na liczenie średniej arytmetycznej ȳ), 

• 1 dla sumy ∑ (R − ȳ) 2 (bo równanie regresji jednoznacznie określa jaki jest rozrzut 

punktów leż¸acych na prostej wzglȩdem średniej arytmetycznej) i 

• N − 2 dla sumy ∑ (y − R) 2 (bo dwa równania na parametry prostej ograniczaj¸a 

swobodȩ zmiany N wartości y i ). 

Dla sprawdzenia czy wariancja wyjaśniona przez regresjȩ jest taka sama jak wariancja 

niewyjaśniona przez regresjȩ stosuje siȩ test F Fishera, używaj¸ac jako statystyki testowej 

ilorazu estymatorów tych wariancji a wiȩc dwu zmiennych o rozk̷ladach chi-kwadrat χ 2 1 i 

χ 2 N 2 

podzielonych przez odpowiednie liczby stopni swobody a wiȩc zmiennej: 

F (1, N − 2), 

analogicznie jak robi siȩ przy porównaniu wariancji dwu populacji normalnych. 

Obszar krytyczny jest obszarem prawostronnym (wartości statystyki testowej wiȩksze 

od krytycznej wartości tj. kwantyla F 1 (1, N − 2) ).


12.8 TESTY NIEPARAMETRYCZNE 

HIPOTEZ PORÓWNUJA¸ CYCH POPULACJE 

Do tej pory rozważaliśmy testy sprawdzaj¸ace hipotezy g̷losz¸ace równość wartości oczekiwanych 

dwu zmiennych a także równość wariancji dwu zmiennych. Testy te dotyczy̷ly 

jedynie zmiennych o rozk̷ladach normalnych. Teraz omówimy testy odnosz¸ace siȩ do 

hipotez g̷losz¸acych identyczność dystrybuant dwu populacji; H 0 : F (X) = G(X) 

niezależnie od postaci rozk̷ladu. Dystrybuanty oznaczono różnymi literami aby podkreślić, 

że odnosz¸a siȩ do dwu różnych populacji ale badamy tȩ sam¸a zmienn¸a losow¸a 

X dla obu populacji bior¸ac próbȩ liczebności n 1 z pierwszej populacji i liczebności n 2 z 

drugiej populacji. 

12.8.1 TEST SMIRNOWA 

• Hipoteza zerowa H 0 : F (X) ≡ G(X) 

gdzie zmienna X jest zmienn¸a ci¸ag̷l¸a. 

F (X) i G(X) s¸a odpowiednio dystrybuantami zmiennej X dla pierwszej i drugiej 

populacji . 

• Hipoteza alternatywna H 1 : zaprzeczenie H 0 

• Statystyka testowa D n1 ;n 2 

: 

D n1 ;n 2 

= sup x 

| F n1 (x) − G n2 (x) | 

gdzie F n1 (x) i G n2 (x) to empiryczne dystrybuanty zbudowane na podstawie prób 

o liczebności odpowiednio n 1 i n 2 , zdefiniowane tak jak dla rozk̷ladu Ko̷lmogorowa. 

Należy zauważyć, że obie dystrybuanty s¸a od tej samej wartości argumentu. 

Ponieważ spe̷lniona jest relacja: 

D n1 ;n 2 

= D n2 ;n 1 

wiȩc bez ograniczenia ogólności wniosków można rozważać tylko 

D n1 ;n 2 

zak̷ladaj¸ac, że 

n 1 ≤ n 2 .


W praktycznych rachunkach używa siȩ nastȩpuj¸acych wzorów na D n1 ;n 2 

, gdzie 

obliczenia wykonuje siȩ tylko dla wartości argumentów zaobserwowanych w obu 

próbach i dla rozróżnienia prób stosuje siȩ symbole x 

1 ...x 

n1 

i y 

1 ....y n2 

na statystyki 

pozycyjne odpowiednio z pierwszej i drugiej próby: 

( 

D n + 1 ;n 2 

= max i 

1in 1 

n 1 

− G n2 (x i ) ) ( 

= max Fn1 

1jn 2 

(y j ) − j ) 

n 1 

2 

D n1 ;n 2 

= max 

1in 1 

( 

Gn2 (x i ) − i 1 

n 1 

) 

= 

D n1 ;n 2 

= max ( D + n 1 ;n 2 

, D n1 ;n 2 

) 

max 

1jn 2 

( j 

n2 

− F n1 (y j ) ) 

TWIERDZENIE (Smirnow): 

Gdy H 0 jest prawdziwa oraz liczby pomiarów n 1 i n 2 d¸aż¸a do nieskończoności to 

zmienna 

√ 

n1 · n 2 

D n1 ;n 2 

· 

n 1 + n 2 

d¸aży do rozk̷ladu λ (Ko̷lmogorowa). 

♦ 

Dystrybuanta rozk̷ladu Ko̷lmogorowa wyraża siȩ nastȩpuj¸acym wzorem: 

1∑ 

K(y) = 

k= 1 (−1)k exp[−2k 2 y 2 ] 

St¸ad można znaleźć kwantyle tego rozk̷ladu. Przytoczymy tylko trzy najczȩściej 

stosowane: y 0;95 = 1, 36, y 0;99 = 1, 63 i y 0;999 = 1, 95. 

Jeżeli obie próby s¸a odpowiednio duże (n i > 150) to można już z rozs¸adnym 

przybliżeniem stosować asymptotyczne wzory, tj. 

D n1 ;n 2 

(1 − α) ≈ 

√ 

n1 + n 2 

n 1 · n 2 

· y 1


Gdy n 1 i n 2 s¸a ma̷le, trzeba stosować dok̷ladny rozk̷lad statystyki D n1 ;n 2 

znaleziony 

przez Masseya (F.J.Massey, AMS 23 (1952) 435-441). 

• Obszar krytyczny: prawostronny (duże wartości statystyki testowej)


12.8.2 TEST ZNAKÓW 

Test znaków s̷luży do sprawdzenia hipotezy zerowej g̷losz¸acej, że dystrybuanty dwu ci¸ag̷lych 

zmiennych losowych X i Y s¸a identyczne: 

• Hipoteza zerowa H 0 : G(X) = F (Y ). 

Przy prawdziwości H 0 prawdopodobieństwo P (X > Y ) tego, że zajdzie zdarzenie 

losowe X > Y , jest równe prawdopodobieństwu P (X < Y ) tego, że X < Y . 

Ze wzglȩdu na za̷lożenie ci¸ag̷lości zmiennych prawdopodobieństwo równości X i Y 

jest równe zero; P (X = Y ) = 0 a ponieważ te trzy zdarzenia s¸a roz̷l¸aczne i 

wyczerpuj¸a wszystkie możliwości wiȩc ostatecznie: 

P (X < Y ) = P (X > Y ) = 1/2 

• Hipoteza alternatywna H 1 : G(X) ≠ F (Y ). 

• Statystyka testowa to liczba k takich par, że x i > y i wśród n niezależnych par 

(x i , y i ). Rozk̷lad prawdopodobieństwa tej statystyki przy prawdziwości H 0 to 

rozk̷lad Bernoulliego z parametrem p = 1/2 : 

P (k) = ( n k ) · 1 

2 k · 

1 

2 (n = (n k) k ) · 1 

2 n 

• Obszar krytyczny to bardzo ma̷la (k ≈ 0) i bardzo duża (k ≈ n) liczba par 

(x i , y i ), takich że x i > y i (obszar dwustronny). Jeżeli mamy wskazówki, że prawdopodobieństwo 

pojawienia siȩ wartości X wiȩkszych od Y jest wiȩksze niż 1/2 to 

należy przyj¸ać prawostronny obszar krytyczny (k > k p ) a gdy prawdopodobieństwo 

X wiȩkszych od Y jest mniejsze od 1/2 to lewostronny obszar krytyczny (k < k l ). 

Brzeg prawostronnego obszaru krytycznego k p szukamy z warunku: 

P (k ≥ k p ) = 2 n n∑ 

· ( n i ) = α 

i=k p


Brzeg lewostronnego obszaru krytycznego k l szukamy z warunku: 

P (k ≤ k l ) = 2 n · 

∑ k l 

( n i ) = α 

i=0 

a brzegi dwustronnego obszaru krytycznego z obu powyższych wzorów, w których 

zast¸api siȩ α przez α/2. 

UWAGA: 

Tu zak̷ladaliśmy milcz¸aco, że nie bȩd¸a siȩ pojawia̷ly pary (x i = y i ) ponieważ obie 

zmienne s¸a ci¸ag̷le a wiȩc prawdopodobieństwo takich par wynosi zero. W praktyce 

obliczenia wykonywane s¸a zawsze ze skończon¸a dok̷ladności¸a a to powoduje pojawianie 

siȩ powyższych par. Jeżeli ich liczba jest niewielka w porównaniu do liczby wszystkich 

par to można je po prostu pomin¸ać. W przeciwnym wypadku stosuje siȩ losowanie , które 

(z prawdopodobieństwem 0,5 ) określa czy dan¸a parȩ zaliczyć do par, w których x i > y i 

czy odwrotnie. 

12.8.3 TEST SERII WALDA - WOLFOWITZA 

Seri¸a nazywamy każdy podci¸ag ci¸agu z̷lożonego z elementów A i B maj¸acy tȩ w̷lasność, 

że należ¸a do niego elementy tego samego typu (A lub B). 

Liczba serii n s spe̷lnia warunek: 

2 ≤ n s ≤ 2 · min(n A , n B ) + 1 

gdzie n A i n B to odpowiednio liczby elementów typu A i typu B w ca̷lym ci¸agu. 

Test serii Walda-Wolfowitza s̷luży do sprawdzania hipotezy g̷losz¸acej, że dystrybuanty 

dwu zmiennych ci¸ag̷lych X i Y s¸a identyczne: 

• Hipoteza zerowa H 0 : F 1 (X) = F 2 (Y ) 

• Hipoteza alternatywna H 1 : F 1 (X) ≠ F 2 (Y )


• Statystyka testowa n s (liczba serii). 

Mamy próbȩ sk̷ladaj¸aça siȩ z n A wartości zmiennej X oraz z n B wartości zmiennej 

Y . Zapisujemy te n A + n B wartości w jeden niemalej¸acy ci¸ag i sprawdzamy ile jest 

serii typu A (tzn. sk̷ladaj¸acych siȩ z elementów X) i ile jest serii typu B (tzn. 

sk̷ladaj¸acych siȩ z elementów Y ). Jeżeli zdarzy siȩ, że dwie wartości s¸a identyczne 

to musimy losować (z prawdopodobieństwem 0,5), która z nich ma być pierwsza w 

ci¸agu. 

• Obszar krytyczny - lewostronny: n s ≤ n s (α) 

Gdy hipoteza zerowa jest s̷luszna to możemy siȩ spodziewać, że wartości X s¸a 

przemieszane z wartościami Y a wiȩc liczba serii bȩdzie duża. Jeżeli dystrybuanty 

zmiennych X i Y s¸a różne to spodziewamy siȩ, że systematycznie jedna z tych 

zmiennych bȩdzie wiȩksza od drugiej (przynajmniej na pewnym odcinku wartości) 

a wiȩc liczba serii bȩdzie ma̷la. St¸ad ma̷la liczba serii w próbie bȩdzie świadczyć 

przeciw hipotezie zerowej. 

Rozk̷lad liczby serii n s jest znany przy prawdziwości H 0 i wyraża siȩ analitycznym 

wzorem: 

⎧ 

⎛ ⎞⎛ 

⎞ 

⎪⎩ 

2⎜ 

⎝ 

nA − 1 

nB − 1 

⎟⎜ 

⎟ 

⎠⎝ 

n s 

2 

− 1 

n 

⎠ 

s 

2 

− 1 

⎛ 

⎞ 

nA + nB 

⎜ 

⎟ 

⎝ 

⎠ 

⎪⎨ 

nA 

p(ns) = ⎛ ⎞⎛ 

⎞ ⎛ ⎞⎛ 

⎞ 

nA − 1 

nB − 1 

⎜ ⎟⎜ 

⎟ 

⎝ 

n s 

2 

− 1 ⎠⎝ 

n s 

2 2 

− 3 ⎠ + nA − 1 

nB − 1 

⎜ ⎟⎜ 

⎟ 

⎝ 

n s 

2 

2 

− 3 ⎠⎝ 

n s 

2 2 

− 1 ⎠ 

2 

⎛ 

⎞ 

nA + nB 

⎜ 

⎟ 

⎝ 

⎠ 

nA 

dla ns parzystego 

a wiȩc można znaleźć (numerycznie) wartości krytyczne statystyki testowej. 

dla ns nieparzystego 

UWAGA: 

Warto zauważyć, że w przypadku odrzucenia hipotezy zerowej, tj. zaobserwowania ma̷lej 

liczby serii, można próbować uzyskać informacjȩ o relacji pomiȩdzy wartościami oczekiwanymi 

E(X) i E(Y ) sprawdzaj¸ac czy na pocz¸atku ca̷lego ci¸agu przeważaj¸a wartości 

typu A (tj. wartości zmiennej X) czy typu B(wartości zmiennej Y ). 

Jeżeli na pocz¸atku mamy przewagȩ wartości typu A a potem typu B to możemy uważać, 

że E(X) < E(Y ). W przypadku odwrotnym spodziewamy siȩ, że E(X) > E(Y ).


12.8.4 TEST SUMY RANG WILCOXONA - MANNA - WHITNEYA 

Test ten zosta̷l opracowany przez F. Wilcoxona dla dwu równie licznych prób a później 

uogólniony przez H.B. Manna i D.R. Whitneya na dwie próby o dowolnej liczebności. 

Można wiȩc spotkać siȩ z nazw¸a test Wilcoxona lub test Wilcoxona-Manna-Whitneya. 

Przez rangȩ obserwacji rozumie siȩ liczbȩ naturaln¸a równ¸a numerowi miejsca, który ta 

obserwacja zajmuje w uporz¸adkowanym ci¸agu niemalej¸acym obserwacji w próbie (numer 

danej statystyki pozycyjnej). Jeżeli dwie lub wiȩcej obserwacji ma tȩ sam¸a wartość to 

ich rangi s¸a równe średniej arytmetycznej rang, które posiada̷lyby gdyby siȩ minimalnie 

różni̷ly (tzn. różni̷lyby siȩ tak ma̷lo, że nie zmieni̷lyby po̷lożenia w ci¸agu w stosunku do 

innych obserwacji). 

• Hipoteza zerowa H 0 : F 1 (X) = F 2 (Y ) 

• Hipoteza alternatywna H 1 : F 1 (X) ≠ F 2 (Y ) 

Można jednak postawić inne hipotezy alternatywne: 

– H 1 : P (X > Y ) > 0, 5 lub 

– H 1 : P (X > Y ) < 0, 5 


w = 

n min ∑ 

i=1 

ranga(i) 

n min oznacza liczebność mniejszej próby a ranga(i) to ranga kolejnej obserwacji 

z mniej licznej próby ale w ci¸agu utworzonym z obserwacji obu prób. 

• Obszar krytyczny: Dla prostego zaprzeczenia - obustronny, a dla dwu pozosta̷lych 

hipotez alternatywnych jest odpowiednio prawo- i lewostronny (przy za̷lożeniu, że 

prób¸a mniej liczn¸a jest próba ’X’). Wartości krytyczne trzeba brać z odpowiednich 

tablic.

Teoria prawdopodobieÅstwa i statystyka dla fizyki komputerowej

Create successful ePaper yourself

Delete template?

Save as template?

Teoria prawdopodobieÅstwa i statystyka dla fizyki komputerowej