Statistica - notite de curs - Universitatea de Vest din Timisoara

Cuprins 

Statisticǎ - notit¸e de curs 

S¸tefan Balint, Loredana Tǎnasie 

1 Ce este statistica? 3 

2 Not¸iuni de bazǎ 5 

3 Colectarea datelor 7 

4 Determinarea frecvent¸ei ¸si gruparea datelor 11 

5 Prezentarea datelor 14 

6 Parametrii ¸si statistici ai tendint¸ei centrale 19 

7 Parametrii ¸si statistici ai dispersiei 22 

8 Parametrii ¸si statistici factoriali ai variant¸ei 25 

9 Parametrii ¸si statistici ale pozit¸iei 26 

10 Seria de distribut¸ie a statisticilor 

de e¸santioane 28 

11 Teorema limitǎ centralǎ 32 

12 O aplicat¸ie a teoremei limitǎ centralǎ 35 

13 Estimarea punctualǎ a unui parametru; intervalul de încredere 36 

14 Generalitǎt¸i privind ipotezele statistice ¸si problema verificǎrii ipotezelor 

statistice 38 

1

15 Verificarea ipotezelor statistice: variantǎ clasicǎ 41 

16 Verificarea ipotezelor statistice: varianta probabilistǎ 48 

17 Inferent¸ǎ statisticǎ privind media populat¸iei dacǎ nu se cunoa¸ste 

abaterea standard a populat¸iei 52 

18 Inferent¸ǎ relativǎ la variant¸ǎ ¸si estimarea variant¸ei 59 

19 Generalitǎt¸i despre corelat¸ie. Corelat¸ie liniarǎ 65 

20 Analizǎ de corelat¸ie liniarǎ 73 

21 Inferent¸ǎ privind coeficientul de corelat¸ie liniarǎ 76 

22 Regresie liniarǎ 80 

23 Analiza de regresie liniarǎ 83 

24 Inferent¸ǎ referitoare la panta unei drepte de regresie liniarǎ 87 

2

1 Ce este statistica? 

Definit¸ia 1.1. Statistica este ¸stiint¸a colectǎrii, clasificǎrii, prezentǎrii, interpretǎrii 

datelor numerice ¸si a folosirii acestora pentru a formula concluzii ¸si a lua decizii. 

Definit¸ia 1.2. Statistica descriptivǎ se ocupǎ cu colectarea, clasificarea ¸si prezentarea 

datelor numerice. 

Definit¸ia 1.3. Statistica inferent¸ialǎ (inferential statistics) se ocupǎ cu interpretarea 

datelor oferite de statistica descriptivǎ ¸si cu folosirea acestora pentru a formula concluzii 

¸si lua decizii. 

Problema 1.1. Universitatea de Vest din Timi¸soara dore¸ste sǎ facǎ un plan de dezvoltare 

a facilitǎt¸ilor de cazare. Pentru a trece la act¸iune consiliul de administrat¸ie hotǎrǎ¸ste cǎ 

este necesar sǎ se rǎspundǎ la urmǎtoarea întrebare: Cât¸i student¸i vor trebui cazat¸i în 

urmǎtorii zece ani? 

Pentru a rǎspunde la aceastǎ întrebare trebuie sǎ cunoa¸stem rǎspunsul la cel put¸in 

urmǎtoarele douǎ întrebǎri: Cât¸i absolvent¸i de liceu vor fi? Cât¸i vor sǎ vinǎ la 

universitate? (S¸i altele poate). 

Pentru a rǎspunde la aceste douǎ întrebǎri e nevoie de date referitoare la numǎrul de 

absolvent¸i de liceu în urmǎtorii zece ani ¸si de date care indicǎ procentul acelor absolvent¸i 

de liceu care doresc sǎ devinǎ student¸i la U.V.T. în urmǎtorii zece ani. 

O cale de a obt¸ine date refritoare la numǎrul de absolvent¸i de liceu în urmǎtorii zece ani 

este de a vedea care a fost acest numǎr în ultimii zece ani ¸si a extrapola acest numǎr. 

Trebuie remarcat cǎ aceastǎ idee presupune cǎ existǎ o legǎturǎ dintre trecut ¸si viitor. 

Acest lucru nu este întotdeauna adevǎrat. O întrebare suplimentarǎ care se pune în acest 

context este dacǎ va trebui sǎ numǎrǎm tot¸i absolvent¸ii de liceu din toate ¸scolile din 

ultimii zece ani sau ne putem limita sǎ numǎrǎm doar la anumite ¸scoli? Altfel spus, dacǎ 

putem considera doar e¸santioane? 

O cale de a obt¸ine date referitoare la procentul acelor absolvent¸i care doresc sǎ devinǎ 

student¸i la U.V.T. este aceea de a vedea aceste procente în ultimii zece ani ¸si de a 

extrapola. 

Alte întrebǎri care se pun sunt: Cum interpretǎm aceste date? Cum formulǎm o concluzie 

pe baza acestor date? Cum se ia o decizie pe baza acestor date? 

Nu am terminat cu enumerarea întrebǎrilor care pot fi relevante. La acest moment ceea 

ce este important este sǎ începem sǎ ne gândim la asemenea probleme ¸si la întrebǎrile 

care trebuiesc lǎmurite pentru a obt¸ine un rǎspuns. 

Remarca 1.1. Relat¸ia dintre statisticǎ ¸si probabilitǎt¸i 

Statistica ¸si probabilitǎt¸ile sunt douǎ domenii strâns legate, dar distincte ale matematicii. 

Se spune cǎ ”probabilitǎt¸ile sunt vehiculul statisticii”. Aceasta este adevǎrat în sensul 

cǎ dacǎ nu ar fi legile probabiliste teoria statisticǎ nu ar fi posibilǎ. Pentru a ilustra 

însǎ diferent¸a dintre probabilitǎt¸i ¸si statisticǎ sǎ considerǎm douǎ urne: una probabilistǎ 

¸si una statisticǎ. În cazul urnei probabiliste se ¸stie cǎ urna cont¸ine 5 bile albe, 5 bile 

negre ¸si 5 bile ro¸sii; problema de probabilitate este dacǎ scoatem o bilǎ, care este ¸sansa 

ca aceasta sǎ fie albǎ? 

În cazul unei urne statistice nu cunoa¸stem care este combinat¸ia 

de bile din urnǎ. Extragem un e¸santion ¸si din acest e¸santion conjecturǎm ce credem cǎ 

se gǎse¸ste în urnǎ. Trebuie ret¸inutǎ deosebirea: probabilitatea pune întrebarea ¸sansei 

ca ceva (un eveniment) sǎ se întâmple atunci când se cunosc posibilitǎt¸ile (se cunoa¸ste 

3

populat¸ia). Statistica ne cere sǎ facem un e¸santion, sǎ analizǎm e¸santionul ¸si pe urmǎ sǎ 

facem predict¸ie asupra populat¸iei pe baza informat¸iei gǎsite în e¸santion. 

Remarca 1.2. Folosirea corectǎ ¸si folosirea gre¸sitǎ a statisticii 

Utilizarea statisticii este nelimitatǎ. Este greu de gǎsit un domeniu în care statistica nu 

se folose¸ste. Iatǎ câteva exemple, unde ¸si cum este folositǎ statistica: 

• în educat¸ie; statistica descriptivǎ este adesea folositǎ pentru a prezenta rezultatele; 

• în ¸stiint¸ǎ; rezultatele experimentale trebuiesc colectate ¸si analizate; 

• guvernele; adunǎ diferite date statistice tot timpul. 

Mult¸i oameni sunt indiferent¸i fat¸ǎ de descrierea statisticǎ, alt¸ii cred cǎ statisticile sunt 

minciuni. Majoritatea minciunilor statistice sunt inocente ¸si rezultǎ din folosirea unei 

statistici neadecvate sau date obt¸inute dintr-un e¸santion nepotrivit. Toate acestea conduc 

la o înt¸elegere gre¸sitǎ a informat¸iei din partea consumatorului. Folosirea gre¸sitǎ a 

statisticii duce uneori la încurcǎturi. 

Remarca 1.3. Statistica ¸si calculatorul 

În ultimul deceniu calculatorul a avut un rol important în aproape toate aspectele viet¸ii. 

Domeniul statististicii nu face except¸ie. Statistica folose¸ste multe tehnici care au o 

naturǎ repetitivǎ; formule pentru a calcula statistici descriptive, proceduri de urmat 

pentru a formula predict¸ii. Calculatorul este foarte bun pentru a face asemenea operat¸ii 

repetitive. Dacǎ calculatorul are un soft standard statistic este mult mai u¸soarǎ analiza 

unor date statistice. Cele mai cunoscute softuri statistice sunt: Minitab, Biomed (program 

biomedical), SAS (Sistem de analizǎ statisticǎ), IBM Scientific Subroutine Packages ¸si 

SPSS (pachet statistic pentru ¸stiint¸e sociale). 

4

2 Not¸iuni de bazǎ 

Definit¸ia 2.1. Populat¸ia este o colect¸ie (mult¸ime) de indivizi, obiecte sau date numerice 

obt¸inute prin mǎsurǎtori ale cǎrei proprietǎt¸i trebuiesc analizate. 

Remarca 2.1. Populat¸ia este colect¸ia completǎ de indivizi, obiecte sau date numerice 

obt¸inute prin mǎsurǎtori care prezintǎ interes (pentru cel care colecteazǎ e¸santionul). 

Conceptul de populat¸ie este fundamental în statisticǎ. Populat¸ia trebuie definitǎ cu grijǎ 

¸si se considerǎ complet definitǎ dacǎ lista membrilor este specificatǎ. Mult¸imea student¸ilor 

Facultǎt¸ii de Matematicǎ ¸si Informaticǎ este o populat¸ie bine definitǎ. 

Dacǎ auzim cuvântul populat¸ie de obicei ne gândim la o mult¸ime de oameni. 

În statisticǎ 

populat¸ia poate fi o mult¸ime de animale, de obiecte fabricate sau de date numerice 

obt¸inute prin mǎsurǎtori. De exemplu mult¸imea ”înǎlt¸imilor” student¸ilor facultǎt¸ii de 

Matematicǎ ¸si Informaticǎ este o populat¸ie. 

Definit¸ia 2.2. E¸santionul este o submult¸ime a unei populat¸ii. 

Remarca 2.2. Un e¸santion constǎ din indivizi, obiecte sau date mǎsurate selectate din 

populat¸ie (de cǎtre colectorul de e¸santion). 

Definit¸ia 2.3. O variabilǎ de rǎspuns (simplu variabilǎ) este o caracteristicǎ (de 

obicei numericǎ) care prezintǎ interes în cazul fiecǎrui element (individ) al unei populat¸ii. 

Remarca 2.3. Vârsta studentului, media lui, culoarea pǎrului, înǎlt¸imea, greutatea 

¸s.a.m.d. sunt variabile de rǎspuns în cazul populat¸iei: student¸ii de la Facultatea de 

Matematicǎ ¸si Informaticǎ. 

Definit¸ia 2.4. O datǎ (la singular) este ”valoarea” unei variabile de rǎspuns în cazul 

unui element al populat¸iei sau e¸santionului. 

Exemplul 2.1. Popescu Nicolae are vîrsta de ”19 ani”, media 8.50, pǎrul lui este 

”castaniu”, înǎlt¸imea lui este ”1 m ¸si 75 cm”, iar greutatea lui este ”65 kg”. Aceste cinci 

”valori” ale celor cinci variabile de rǎspuns (Remarca 2.3) în cazul lui Popescu Nicolae 

sunt ”cinci” date. 

Definit¸ia 2.5. ”Valorile” unei variabile de rǎspuns în cazul unei populat¸ii sau a unui 

e¸santion constituie un set de date . Într-un set de date aceea¸si datǎ apare de atâtea ori 

de câte ori variabila are aceastǎ ”valoare”. 

Exemplul 2.2. Cele 25 de înǎlt¸imi în cazul unui e¸santion de 25 de student¸i este un set 

de 25 de date nu neapǎrat diferite. 

Definit¸ia 2.6. O activitate planificatǎ în urma cǎreia se obt¸ine un set de date se nume¸ste 

experiment sau sondaj. 

Definit¸ia 2.7. Parametru este o caracteristicǎ numericǎ a unei populat¸ii. 

Exemplul 2.3. Procentul de student¸i de la Facultatea de Matematicǎ ¸si Informaticǎ care 

au promovat toate examenele la sesiunea din iarnǎ este un exemplu de parametru în cazul 

populat¸iei: student¸ii de la Facultatea de Matematicǎ ¸si Informaticǎ. 

Remarca 2.4. Parametrul este o valoare numericǎ care se referǎ la întreaga populat¸ie. 

În statisticǎ se obi¸snuie¸ste ca parametrul sǎ fie notat cu literǎ greceascǎ. 

5

Definit¸ia 2.8. O statisticǎ este o caracteristicǎ numericǎ a unui e¸santion 

Exemplul 2.4. Înǎlt¸imea medie gǎsitǎ folosind cele 25 de înǎlt¸imi în cazul unui e¸santion 

de 25 de student¸i este un exemplu de statisticǎ (de e¸santion). 

Remarca 2.5. O statisticǎ este o valoare numericǎ care se referǎ la un e¸santion. 

Statisticile (de e¸santion) se noteazǎ cu literele alfabetului latin. 

6

3 Colectarea datelor 

Prima problemǎ a statisticianului este colectarea unui set de date. Aceasta presupune 

definirea prealabilǎ a obiectivelor sondajului (experimentului) a populat¸iei ¸si a variabilei. 

Exemple de obiective: 

a) Compararea eficacitǎt¸ii unui medicament nou cu eficacitatea unui medicament 

standard; 

b) Estimarea venitului mediu al unei familii din judet¸. 

Exemple de populat¸ii ¸si variabile corespunzǎtoare: 

a) pacient¸ii care suferǎ de o boalǎ care se trateazǎ cu medicamentul considerat 

reprezintǎ populat¸ia, iar timpul de recuperare reprezintǎ variabila; 

b) familiile din judet¸ reprezintǎ populat¸ia, iar venitul total al unei familii din judet¸ 

reprezintǎ variabila. 

Tot înainte de colectarea setului de date trebuie hotǎrât dacǎ setul de date se constituie 

pentru întreaga populat¸ie sau doar pentru un e¸santion. Dacǎ setul de date se constituie 

pentru întreaga populat¸ie atunci se face un recensǎmânt. 

Definit¸ia 3.1. Un recensǎmânt este o enumerare sau o listare a fiecǎrui element al 

populat¸iei împreunǎ cu data (valoarea variabilei) corespunzǎtoare elementului. 

În cazul unei populat¸ii mari, constituirea unui set de date la nivelul populat¸iei este dificil 

¸si costisitor. De aceea, în cazul în care nu este posibilǎ realizarea unui recensǎmânt, 

setul de date se constituie doar pentru o parte a populat¸iei, pentru un e¸santion. Select¸ia 

elementelor pentru e¸santion se face dintr-un cadru de e¸santionare. 

Definit¸ia 3.2. Cadrul de e¸santionare este o listǎ de elemente care apart¸in populat¸iei, 

din care va fi extras e¸santionul. 

Remarca 3.1. Deoarece numai elementele din cadrul e¸santionului au ¸sansa sǎ fie selectate 

pentru e¸santion, din perspectiva variabilei de rǎspuns cadrul de e¸santion trebuie sǎ fie 

reprezentativ pentru populat¸ie. 

Remarca 3.2. În cazul unei populat¸ii de indivizi listele de alegǎtori sau cǎrt¸ile de telefon 

sunt folosite adesea drept cadru de e¸santion. În funct¸ie de variabila de rǎspuns acestea 

pot fi cadre de e¸santion potrivite sau nepotrivite. 

Remarca 3.3. Dupǎ definirea cadrului e¸santionului se trece la stabilirea modului de 

alegere a elementelor e¸santionului. Acest proces se nume¸ste proiectarea e¸santionului. 

Definit¸ia 3.3. Proiectarea e¸santionului înseamnǎ stabilirea procedurii de alegere a 

elementelor e¸santionului din cadrul e¸santionului. 

Existǎ mai multe procedee de alegere a elementelor e¸santionului. În mare aceste procedee 

împreunǎ cu e¸santioanele corespunzǎtoare se împart în douǎ categorii: procedee bazate 

pe reprezentativitate ¸si procedee probabiliste. 

7

Definit¸ia 3.4. E¸santioane bazate pe reprezentativitate sunt acelea pentru care 

elementele se aleg astfel încât din perspectiva variabilei de rǎspuns, elementul ales sǎ fie 

reprezentativ pentru populat¸ie. 

Exemplul 3.1. Din perspectiva variabilei de rǎspuns: ”cursul A este util sau nu în 

formarea dumneavoastrǎ profesionalǎ?”, student¸ii din cadrul unui e¸santion care nu au 

frecventat cursul nu sunt reprezentativi. Deci nu sunt ale¸si în e¸santion. 

Definit¸ia 3.5. Un e¸santion pentru care elementele sunt selectate pe bazǎ probabilistǎ; 

oricare element din cadrul e¸santionului are o anumitǎ ¸sansǎ nenulǎ sǎ fie selectat; se 

nume¸ste e¸santion probabilist. 

Remarca 3.4. Inferent¸e statistice cer ca e¸santionul sǎ fie probabilist. E¸santioanele 

probabiliste aleatoare sunt cele mai familiare e¸santioane probabiliste. 

Definit¸ia 3.6. Un e¸santion de mǎrimea n este e¸santion probabilist aleator dacǎ orice 

e¸santion de mǎrimea n ales din acela¸si cadru are aceea¸si probabilitate sǎ fie ales. 

Remarca 3.5. Cea mai rǎspânditǎ metodǎ de a colecta date folose¸ste e¸santion aleator 

simplu. 

Definit¸ia 3.7. Un e¸santion probabilist aleator pentru care elementele sunt selectate dintrun 

cadru în care elementele au aceea¸si probabilitate sǎ fie alese se nume¸ste e¸santion 

aleator simplu. 

Remarca 3.6. Atunci când se construie¸ste un e¸santion probabilist aleator simplu trebuie 

avutǎ grijǎ ca fiecare element din cadrul e¸santionului sǎ aibe aceea¸si probabilitate sǎ fie 

selectat. Adesea se fac gre¸seli pentru cǎ termenul ”aleator” este confundat cu ”ales 

la întâmplare”. Un procedeu corect de selectare a unui e¸santion probabilist aleator 

simplu este acela care folose¸ste un generator de numere aleatoare sau o tabelǎ de numere 

aleatoare. Prima oarǎ se numeroteazǎ elementele din cadrul de e¸santionare. Dupǎ aceasta 

în tabelul cu numere aleatoare se aleg atâtea numere câte sunt necesare pentru e¸santion. 

Fiecare element din cadrul de e¸santionare, al cǎrui numǎr coincide cu un numǎr selectat 

din tabelul de numere aleatoare va fi ales pentru e¸santion. 

Exemplul 3.2. Dacǎ cadrul e¸santionului este o listǎ de 4265 de student¸i atunci ei sunt 

numerotat¸i de la 0001; 0002; ...; 4265. Pentru un e¸santion de 50 de student¸i se aleg 50 de 

numere aleatoare cu patru cifre ¸si se identificǎ student¸ii din cadrul e¸santionului. 

Definit¸ia 3.8. E¸santionul sistematic se construie¸ste alegând fiecare al k-lea element 

din cadrul e¸santionului. 

Remarca 3.7. În aceastǎ select¸ie se folose¸ste tabela de numere aleatoare o singurǎ datǎ, 

pentru a determina punctul de plecare. 

Exemplul 3.3. Dacǎ se considerǎ un cadru de e¸santion de 245 de student¸i ai Facultǎt¸ii 

de Matematicǎ ¸si Informaticǎ ¸si se dore¸ste un e¸santion sistematic format din 15 student¸i 

atunci: 

1) asociem fiecǎrui student un numǎr de la 1 la 245; 

8

2) se calculeazǎ k (pasul de numǎrare) folosind urmǎtoarea relat¸ie: 

� � � � 

numǎrul de elemente din cadrul e¸santionului 245 

k = 

= = 16 

numǎrul de elemente din e¸santion 

15 

3) se alege punctul de plecare între 1 ¸si numǎrul k cu ajutorul unui tabel de numere 

aleatoare. 

Dacǎ acest numǎr este 10, atunci obt¸inem e¸santionul: 

10, 16, 32, 48, 64, 80, 96, 112, 128, 144, 160, 176, 192, 208, 234. 

Deoarece k = 245 

= 16, 33, nu este un numǎr întreg, pasul de numǎrare poate fi ¸si 17. În 

15 

acest caz e¸santionul sistematic obt¸inut este de numai 14 elemente. 

Remarca 3.8. Este o procedurǎ bunǎ pentru a e¸santiona un procentaj în cazul 

populat¸iilor mari. Pentru a selecta un e¸santion sistematic de x% dintr-o populat¸ie, un 

element din 100/x va fi selectat (dacǎ 100/x nu este întreg se ia partea întreagǎ). 

Remarca 3.9. Folosirea e¸santionului sistematic nu este potrivitǎ dacǎ populat¸ia este 

repetitivǎ sau ciclicǎ în naturǎ.(din perspectiva variabilei de rǎspuns) 

Exemplul 3.4. Dacǎ se dore¸ste estimarea numǎrului student¸ilor admi¸si la Facultatea de 

Matematicǎ ¸si Informaticǎ care au depǎ¸sit vârsta de 20 de ani ¸si se folose¸ste e¸santionarea 

sistematicǎ extrǎgând din lista candidat¸ilor admi¸si numai pe cei de pe pozit¸iile care sunt 

multiplu de 5, existǎ posibilitatea ca tot¸i candidat¸ii admi¸si pe pozit¸iile respective sǎ aibǎ 

sub 20 de ani. Un asemenea e¸santion spune ca nu au fost admi¸si candidat¸i peste 20 de 

ani, ceea ce nu poate fi sust¸inut. 

Când se e¸santioneazǎ populat¸ii foarte mari, atunci când este posibil se împarte populat¸ia 

în douǎ subpopulat¸ii pe baza unor caracteristici. Aceste subpopulat¸ii se numesc straturi, 

iar straturile sunt e¸santionate separat. 

Definit¸ia 3.9. Un e¸santion obt¸inut în urma stratificǎrii cadrului e¸santionului ¸si prin 

selectarea unui numǎr dat de elemente din fiecare strat se nume¸ste e¸santion stratificat. 

Remarca 3.10. Când se proiecteazǎ un e¸santion stratificat, cadrul se împarte în douǎ sau 

mai multe straturi ¸si în fiecare strat se proiecteazǎ un sube¸santion. Aceste sube¸santioane 

pot fi aleatoare, sistematice sau de alt gen. Dupǎ aceea sube¸santioanele sunt asamblate 

într-un singur e¸santion pentru a colecta un set de date. 

Exemplul 3.5. Pentru studierea unei caracteristici a populat¸iei student¸ilor din Facultatea 

de Matematicǎ ¸si Informaticǎ, aceastǎ populat¸ie poate fi împǎrt¸itǎ: 

- pe domenii: informaticǎ, matematicǎ 

- pe ani de studiu. 

Definit¸ia 3.10. E¸santion cotǎ (sau e¸santion proport¸ional) este un 

e¸santion stratificat care se construie¸ste prin selectarea unui numǎr de elemente din fiecare 

strat dupǎ o anumitǎ cotǎ sau proport¸ional cu mǎrimea stratului. 

9

Exemplul 3.6. Dacǎ se dore¸ste construirea unui e¸santion de 150 de student¸i din populat¸ia 

student¸ilor Facultǎt¸ii de Matematicǎ ¸si Informaticǎ putem face stratificarea dupǎ anii de 

studiu. În acest caz, numǎrul de student¸i ce va fi selectat din fiecare an ce va fi selectat 

va fi proport¸ional cu numǎrul total de student¸i din anul respectiv: 

Anul de studiu Numǎr student¸i Cota Nr. student¸i 

selectat în e¸santion: 

Anul I 431 36.49% 54 

Anul II 303 25.65% 40 

Anul III 206 17.44% 26 

Anul IV 240 20.40% 30 

E¸santionul va fi format din 54 de student¸i din anul I, 40 de student¸i din anul II, 26 de 

student¸i din anul III ¸si 30 de student¸i din anul IV. 

O altǎ metodǎ de e¸santionare care pleacǎ de la stratificarea populat¸iei este e¸santionul 

ciorchine. 

Definit¸ia 3.11. E¸santionul ciorchine este un e¸santion stratificat care se construie¸ste 

prin selectarea de e¸santioane din anumite straturi (nu din toate). 

Exemplul 3.7. Dacǎ se dore¸ste realizarea unui e¸santion ciorchine format din student¸ii 

Universitǎt¸ii de Vest din Timi¸soara, aceastǎ populat¸ie poate fi startificatǎ în funct¸ie 

de specializarea pe care au ales-o student¸ii select¸ionând e¸santioane doar de la câteva 

specializǎri (nu de la toate). 

Remarca 3.11. E¸santionul ciorchine se obt¸ine folosind numere aleatoare sau o metodǎ 

sistematicǎ pentru identificarea straturilor (ciorchine) care trebuiesc e¸santionate, dupǎ 

care fiecare din aceste straturi este e¸santionat. Sube¸santioanele asamblate formeazǎ un 

e¸santion ciorchine. 

Într-un caz concret procedeul de e¸santionare care se folose¸ste depinde de populat¸ie de 

variabilǎ de dificultatea e¸santionǎrii ¸si de cost. Dupǎ determinarea e¸santionului se poate 

trece la colectarea setului de date. 

10

4 Determinarea frecvent¸ei ¸si gruparea datelor 

Dupǎ colectarea unui set de date urmeazǎ prelucrarea primarǎ a datelor. Determinarea 

frecvent¸ei ¸si gruparea datelor este un procedeu de prelucrae primarǎ a datelor ¸si este 

utilizat atunci când numǎrul datelor este mare. 

Pentru a prezenta conceptul de frecvent¸ǎ sǎ considerǎm urmǎtorul set de date: 

3 2 2 3 2 

4 4 1 2 2 

4 3 2 0 2 

2 1 3 3 1 

Valoarea 0 apare în acest set o singurǎ datǎ prin urmare frecvent¸a pentru 0 este unu. 

Valoarea 1 apare în acest set de trei ori prin urmare frecvent¸a pentru 1 este trei. 

Valoarea 2 apare în acest set de opt ori prin urmare frecvent¸a pentru 2 este opt. 

Valoarea 3 apare în acest set cinci ori prin urmare frecvent¸a pentru 3 este cinci. 

Valoarea 4 apare în acest set de douǎ ori prin urmare frecvent¸a pentru 4 este doi. 

Frecvent¸a datelor 0,1,2,3,4 care apar în setul de date este redatǎ în tabelul urmǎtor: 

x f 

0 1 

1 3 

2 8 

3 5 

4 3 

Definit¸ia 4.1. Frecvent¸a f (din coloana a doua) aratǎ de câte ori apare valoarea variabilei 

x în setul de date. 

Atunci când într-un set de date multe sunt distincte (în loc de câteva ca în cazul precedent) 

se grupeazǎ datele în clase ¸si apoi se construiesc frecvent¸e pentru clase. 

Pentru a ilustra acest procedeu considerǎm urmǎtorul set de date: 

82 74 88 66 58 

62 68 72 92 86 

74 78 84 96 76 

76 52 76 82 78 

Vom pune în aceea¸si clasǎ toate datele la care prima cifrǎ este aceea¸si ¸si obt¸inem 

urmǎtoarele cinci clase: 

50 − 59; 60 − 69; 70 − 79; 80 − 89; 90 − 99 

(50 − 59 este clasa formatǎ cu toate datele la care prima cifrǎ este 5, ¸s.a.m.d.). 

Aceste clase nu se intersecteazǎ (nu existǎ date care sǎ apart¸inǎ la douǎ clase) ¸si oricare 

din date apart¸ine unei clase. 

Limitele inferioare ale claselor sunt 50, 60, 70, 80, 90, iar limitele superioare sunt 59, 69, 79, 89, 99. 

Datele care apart¸in unei clase sunt mai mari decât limita inferioarǎ a clasei ¸si mai mici 

decât limita superioarǎ a clasei. 

11

Definit¸ia 4.2. Lǎt¸imea unei clase definitǎ ca diferent¸a dintre limita inferioarǎ a clasei 

urmǎtoare ¸si limita inferioarǎ a clasei (este egalǎ cu 10 ¸si este aceea¸si pentru toate clasele 

în exemplul de mai sus) lǎt¸imea clasei nu este egalǎ cu diferent¸a dintre limita superioarǎ 

¸si limita inferioarǎ a clasei. 

Definit¸ia 4.3. Frontierele unei clase definite ca media aritmeticǎ dintre limita superioarǎ 

a clasei ¸si limita inferioarǎ a clasei urmǎtoare sunt: 

49, 5; 59, 5; 69, 5; 79, 5; 89, 5; 99, 5. 

Definit¸ia 4.4. Marca unei clase definitǎ ca media aritmeticǎ dintre limita superioarǎ ¸si 

limita inferioarǎ a clasei, în acest caz este: 

54.5 = 

64.5 = 

74.5 = 

84.5 = 

50 + 59 

2 

60 + 69 

2 

70 + 79 

2 

80 + 89 

2 

în cazul clasei 50 − 59 




90 + 99 

94.5 = 

2 


Frecvent¸a în acest caz este numǎrul de date dintr-o clasǎ. Frecvent¸a datelor pe clase este: 

în cazul clasei 50 − 59 2 date 





În general, în cazul grupǎrii datelor pe clase ¸si a determinǎrii frecvent¸ei trebuiesc 

respectate urmǎtoarele reguli: 

1) Clasele nu trebuie sǎ se intersecteze ¸si fiecare datǎ din setul de date trebuie sǎ 

apart¸inǎ la o clasǎ; 

2) Fiecare clasǎ trebuie sǎ aibe aceea¸si lǎt¸ime. 

Procedeul concret de grupare este urmǎtorul: 

12

i) Se identificǎ cea mai mare datǎ H ¸si cea mai micǎ datǎ L ¸si se determinǎ plaja: 

R = H − L. 

ii) Se alege numǎrul de clase m ¸si lǎt¸imea clasei c (dacǎ se poate numǎr impar) astfel 

ca produsul m · c sǎ fie put¸in mai mare ca plaja R. 

iii) Se alege un punct de plecare I care este put¸in mai mic decât cea mai micǎ datǎ L. 

Adǎugǎm la I multiplii lui c (c este lǎt¸imea clasei) ¸si obt¸inem numerele: 

I, I + c, I + 2c, I + 3c, ..., I + (m − 1)c 

Aceste numere sunt limitele inferioare ale claselor. 

iv) Limitele superioare se stabilesc astfel încât sǎ fie respectate condit¸iile 1) ¸si 2). 

v) Se determinǎ frecvent¸a fiecǎrei clase numǎrând elementele din fiecare clasǎ. 

13

5 Prezentarea datelor 

Prezentarea unui set de date poate fi fǎcutǎ sub diferite forme ¸si face parte din prelucrarea 

primarǎ a datelor. 

Prezentarea datelor sub formǎ de serii 

Definit¸ia 5.1. Seria de distribut¸ie este un ansamblu de douǎ ¸siruri finite dintre care 

primul este ¸sirul elementelor distincte din setul de date statistice sau ¸sirul claselor obt¸inute 

prin gruparea elementelor din setul de date statistice, iar cel de-al doilea este ¸sirul de 

frecvent¸e corespunzǎtoare. 

Exemplul 5.1. 

seria de distribut¸ie este: 

În cazul setului de date statistice: 

X 

3 2 2 3 2 

4 4 1 2 2 

4 3 2 0 2 

2 1 3 3 1 

� 0 1 2 3 4 

1 3 8 5 3 

Exemplul 5.2. În cazul claselor 50 − 59; 60 − 69; 70 − 79; 80 − 89; 90 − 99 obt¸inute prin 

gruparea datelor din setul de date: 

82 74 88 66 58 74 78 84 96 76 

62 68 72 92 86 76 52 76 82 78 

seria de distribut¸ie este: 

� 

50 − 59 

X 

2 

60 − 69 

3 

70 − 79 

8 

80 − 89 

5 

� 

90 − 99 

2 

În general, o serie de distribut¸ie aratǎ în felul urmǎtor: 

� 

x1 

X 

x2 x3 · · · xn 

� 

� 

f1 f2 f3 · · · fn 

¸si oricare ar fi nivelul de grupare al datelor, xi având frecvent¸a fi, se nume¸ste termenul 

seriei de distribut¸ie. 

Remarca 5.1. Adesea în prezentarea seriilor de distribut¸ie în locul frecvent¸ei fi se 

folose¸ste frecvent¸a relativǎ: 

sau sub formǎ procentualǎ: 

f ′ i = fi 

n� 

j=1 

fj 

f ′′ 

i = f ′ i · 100 

14

Definit¸ia 5.2. Valoarea datei care apare cu cea mai mare frecvent¸ǎ într-o serie de 

distribut¸ie de date statistice se nume¸ste mod. 

Definit¸ia 5.3. Clasa cu cea mai mare frecvent¸ǎ într-o serie de distribut¸ie de date grupate 

se nume¸ste clasǎ modalǎ. 

Definit¸ia 5.4. Serie bimodalǎ este o serie de distribut¸ie de date grupate în care apar 

douǎ clase modale, separate de clase cu frecvent¸ǎ mai joasǎ. 

Definit¸ia 5.5. Frecvent¸a cumulatǎ a unei clase este suma frecvent¸elor tutror claselor 

cu valori mai mici (marca mai micǎ). 

Definit¸ia 5.6. Seria dinamicǎ (temporalǎ, cronologicǎ) este un ¸sir dublu dintre 

care primul este ¸sirul de valori ale variabilei de rǎspuns, iar cel de-al doilea ¸sir este ¸sirul 

de momente de timp la care variabila are aceste valori. 

(temporalǎ) se noteazǎ astfel: 

În general, o serie dinamicǎ 

� 

x1 

X 

x2 x3 · · · xn 

� 

t1 t2 t3 · · · tn 

Prezentarea datelor sub formǎ de tabele statistice 

Tabelele statistice sunt foarte variate ¸si se folosesc pentru ordonarea datelor statistice 

dintr-un set de date în vederea aplicǎrii metodelor de calcul ¸si de interpretare statisticǎ. 

În funct¸ie de numǎrul de caracteristici prezentate în tabel existǎ tabele simple, tabele cu 

dublǎ intrare, tabele pe grupe, etc. 

Prezentarea datelor sub formǎ graficǎ 

Existǎ mai multe metode de prezentare graficǎ a unui set de date statistice. Metoda 

de prezentare graficǎ este determinatǎ de tipul de date ¸si de ideea de prezentare. De 

la început trebuie sǎ fie clar cǎ existǎ mai multe cǎi de a dispune grafic anumite date 

statistice. Judecata analistului ¸si circumstant¸ele din jurul problemei joacǎ un rol major 

în alegerea modului de dispunere graficǎ a datelor statistice. 

Definit¸ia 5.7. Graficele de reprezentare a seriilor statistice fǎrǎ grupare se numesc 

diagrame. 

Definit¸ia 5.8. Diagrama cerc a seriei de distribut¸ie (fǎrǎ grupare) 

� 

x1 

X 

x2 x3 · · · xn 

� 

f1 f2 f3 · · · fn 

este un cerc împǎrt¸it în n sectoare de cerc S1, S2, ..., Sn astfel încât aria sectorului Si este 

egalǎ cu 

procente din aria cercului. 

f ′′ 

i = fi 

n� 

j=1 

15 

fj 

· 100

Exemplul 5.3. În cazul seriei de distribut¸ie din exemplul 5.1 

� 

0 

X 

1 

1 

3 

2 

8 

3 

5 

� 

4 

3 

cercul se împarte în cinci sectoare având ariile egale cu 5%, , 15%, 40%, 25%, 15% din 

aria cercului 

Definit¸ia 5.9. Diagrama coloanǎ a seriei de distribut¸ie (fǎrǎ grupare): 

� 

x1 

X 

x2 x3 · · · xn 

� 

f1 f2 f3 · · · fn 

este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale ¸si sunt a¸sezate pe 

axa Ox, iar înǎlt¸imile lor sunt f1, f2, ..., fn 

Exemplul 5.4. 

diagrama coloanǎ este: 

În cazul seriei de distribut¸ie din exemplul 5.1: 

� 

0 

X 

1 

1 

3 

2 

8 

3 

5 

� 

4 

3 

16

Definit¸ia 5.10. Diagrama linie (ramurǎ-frunzǎ) a seriei de distribut¸ie (fǎrǎ grupare) 

� 

x1 

X 

x2 x3 · · · xn 

� 

f1 f2 f3 · · · fn 

este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale ¸si sunt a¸sezate pe 

axa Oy, iar lungimile lor sunt f1, f2, ..., fn. 

Exemplul 5.5. 

diagrama linie este: 

În cazul seriei de distribut¸ie din exemplul 5.1: 

� 

0 

X 

1 

1 

3 

2 

8 

3 

5 

� 

4 

3 

Definit¸ia 5.11. Histograma seriei de distribut¸ie cu grupare 

� 

x1 

X 

x2 x3 · · · xn 

� 

f1 f2 f3 · · · fn 

este un set de n dreptunghiuri care reprezintǎ clasele. Bazele acestor dreptunghiuri 

sunt egale (clasele au aceea¸si lǎt¸ime) ¸si sunt a¸sezate pe axa Ox, iar înǎlt¸imile lor sunt 

f1, f2, ..., fn. 

Exemplul 5.6. În cazul seriei de distribut¸ie din exemplul 5.2: 

� 

50 − 59 

X 

2 

60 − 69 

3 

70 − 79 

8 

80 − 89 

5 

� 

90 − 99 

2 

histograma este: 

17

Remarca 5.2. În cazul histogramei o coloanǎ reprezintǎ un numǎr de date diferite spre 

deosebire de diagrama coloanǎ. 

Remarca 5.3. O histogramǎ are urmǎtoarele componente: 

i) Un titlu care identificǎ populat¸ia la care se referǎ; 

ii) O scarǎ orizontalǎ pe care se identificǎ variabila X, valorile limitelor claselor, 

frontierele claselor, mǎrcile claselor. 

iii) O scarǎ verticalǎ pe care se identificǎ frecvent¸ele pentru fiecare clasǎ. 

Definit¸ia 5.12. O histogramǎ de frecvent¸e relative este o histogramǎ obt¸inutǎ dintro 

histogramǎ înlocuind frecvent¸ele cu frecvent¸e relative. 

Frecvent¸a relativǎ (este o mǎsurǎ proport¸ionalǎ cu frecvent¸a în cauzǎ) se obt¸ine prin 

împǎrt¸irea frecvent¸ei clasei la numǎrul total de elemente din setul de date. 

Definit¸ia 5.13. Ogiva unei serii de distribut¸ie de clase cu frecvent¸e relative cumulate 

este un set de dreptunghiuri. Bazele dreptunghiurilor sunt egale ¸si a¸sezate pe axa Ox, iar 

înǎt¸imile lor sunt frecvent¸ele relative cumulate. 

Ogiva are urmǎtoarele componente: 

1. Un titlu care identificǎ populat¸ia. 

2. O scarǎ orizontalǎ pe care sunt marcate frontierele superioare ale claselor. 

3. O scarǎ verticalǎ pe care sunt marcate frecvent¸ele relative cumulate pentru fiecare 

clasǎ. 

18

6 Parametrii ¸si statistici ai tendint¸ei centrale 

O categorie de caracteristici numerici asociat¸i unui set de date statistice sunt: parametrii 

tendint¸ei centrale în cazul populat¸iilor ¸si statistici ale tendint¸ei centrale în cazul 

e¸santioanelor. Întrucât ace¸stia au definit¸ii analoage vom prezenta doar statistici ale 

tendint¸ei centrale. 

Definit¸ia 6.1. Statistici ale tendint¸ei centrale sunt valori numerice asociate unui set 

de date statistice care localizeazǎ într-un anumit sens mijlocul mult¸imii de date statistice. 

Definit¸ia 6.2. Media aritmeticǎ a setului de date statistice {x1, x2, ..., xn} este prin 

definit¸ie suma acestor date împǎrt¸itǎ la numǎrul datelor 

x = 

n� 

i=1 

Remarca 6.1. Atunci când datele sunt prezentate sub forma unei serii de distribut¸ie 

(fǎrǎ grupare în clase), media aritmeticǎ se gǎse¸ste cu formula: 

x = 

m� 

j=1 

n 

xi 

xj · fj 

m� 

j=1 

Remarca 6.2. În cazul unei serii de distribut¸ie (cu grupare în clase) formula de calcul a 

mediei este: 

x = 

� 

x · fx 

fj 

� fx 

în care x reprezintǎ marca clasei ¸si fx frecvent¸a corespunzǎtoare, iar suma se extinde pe 

ansamblul claselor. 

Definit¸ia 6.3. Media pǎtraticǎ a setului de date statistice {x1, x2, ..., xn} este prin 

definit¸ie numǎrul: 

� 

� n� � 

� x 

� 

i=1 

xp = 

2 i 

n 

Remarca 6.3. Dacǎ datele sunt prezentate sub forma unei serii de distribut¸ie (fǎrǎ 

grupare în clase), media pǎtraticǎ se gǎse¸ste cu formula: 

� 

� m� � 

� x 

� 

� j=1 

xp = � 

� 

� 

2 j · fj 

m� 

19 

j=1 

fj

Remarca 6.4. În cazul unei serii de distribut¸ie cu grupare în clase media pǎtraticǎ este 

prin definit¸ie: 

� 

�� 

� 2 

� x · fx 

xp = � 

� fx 



Definit¸ia 6.4. Media armonicǎ a setului de date statistice {x1, x2, ..., xn} este prin 


xh = n 

n� 1 


grupare în clase), media armonicǎ se gǎse¸ste cu formula: 

xh = 

m� 

i=1 

m� 

j=1 

1 

xj 

j=1 

Remarca 6.6. În cazul unei serii de distribut¸ie cu grupare în clase media armonicǎ este 

prin definit¸ie: 

n� 

xh = 

i=1 

n� 

i=1 

xi 

fj 

fx 

· fj 

1 

· fx 

x 



Definit¸ia 6.5. Media geometicǎ a setului de date statistice {x1, x2, ..., xn} este prin 


xp = n 

� 

� 

� 

� n � 


grupare în clase), media geometricǎ se gǎse¸ste cu formula: 

Remarca 6.8. În cazul unei serii de distribut¸ie cu grupare în clase media geometricǎ este 

prin definit¸ie: în care x reprezintǎ marca clasei ¸si fx frecvent¸a corespunzǎtoare, iar suma 

se extinde pe ansamblul claselor. 

20 

i=1 

xi

Definit¸ia 6.6. Mediana me a unui set de date statistice distincte ordonate dupǎ mǎrime 

x1 < x2 < ... < xn este numǎrul care împarte setul de date în douǎ grupe egale ca numǎr: 

- dacǎ n = 2 · k + 1, atunci me este valoarea de rangul k + 1: me = xk+1; 

- dacǎ n = 2 · k, atunci orice numǎr între valorile xk ¸si xk+1 satisface condit¸ia din 

definit¸ia lui me. În acest caz se convine ca me sǎ fie media aritmeticǎ a valorilor 

xk ¸si xk+1: me = xk + xk+1 

. 

2 

Exemplul 6.1. 


mediana este me = 26. 


mediana este me = 

12 + 26 

2 

= 19. 

4 7 12 26 32 38 59 

4 7 12 26 32 38 

Remarca 6.9. Mediana me în acest caz are proprietatea cǎ suma frecvent¸elor valorilor 

mai mari decât me este egalǎ cu suma frecvent¸elor valorilor mai mici decât me. 

Remarca 6.10. Dacǎ datele pot fi egale, atunci proprietatea din Remarca 6.9 a medianei 

poate sǎ nu fie adevǎratǎ. În cazul setului de date statistice: 

Seria de distribut¸ie corespunzǎtoare este: 

1 1 1 2 3 3 4 

1 2 3 4 

3 1 2 1 

Conform definit¸iei lui me în acest caz me = 2, 5. Aceastǎ valoare a lui me nu rǎspunde 

cerint¸ei cǎ me este o valoare cu proprietatea cǎ valorile mai mari sau mai mici decât ea 

apar cu frecvent¸e cumulate egale; frecvent¸a celor mai mici este 4, iar frecvenǎ celor mai 

mari este 3. 

Remarca 6.11. Când datele sunt prezentate sub forma unei serii de distribut¸ie cu sau fǎrǎ 

grupare me se calculeazǎ prin procedeul interpolǎrii liniare, bazate pe ipoteza repartit¸iei 

uniforme a frecvent¸elor în intervalul median. 

Definit¸ia 6.7. Mijlocul plajei este prin definit¸ie numǎrul: 

Mr = 

L + H 

2 

unde L este cea mai micǎ valoare, iar H este cea mai mare valoare a variabilei X 

21

7 Parametrii ¸si statistici ai dispersiei 

Dupǎ ce ”mijlocul” unui set de date a fost stabilit urmǎtoarea întrebare naturalǎ este: 

care sunt parametrii ¸si statisticile care caracterizeazǎ dispersia (împrǎ¸stierea) datelor. 

Parametrii ¸si statisticile dispersiei sunt: plaja, deviat¸ia medie absolutǎ, variant¸a, deviat¸ia 

standard ¸si coeficientul de variat¸ie. Aceste valori numerice descriu mǎrimea împrǎ¸stierii 

ori a variabilitǎt¸ilor datelor. Datele strâns grupate vor avea împrǎ¸stiere micǎ, iar cele 

care nu sunt grupate (sunt împrǎ¸stiate) vor avea o dispersie mai mare. 

Definit¸ia 7.1. Plaja P este diferent¸a dintre cea mai mare (H) ¸si cea mai micǎ (L) valoare 

a valorilor xi dintr-un set de date: 

P = H − L 

Deviat¸ia medie absolutǎ, variant¸a ¸si deviat¸ia standard mǎsoarǎ dispersia fat¸ǎ de media 

aritmeticǎ. 

Definit¸ia 7.2. Deviat¸ia fat¸ǎ de media aritmeticǎ x a valorii xi a variabilei X este 

di = xi − x. 

Deviat¸ia este zero dacǎ ¸si numai dacǎ xi = x. 

Deviat¸ia este pozitivǎ dacǎ ¸si numai dacǎ xi > x. 

Deviat¸ia este negativǎ dacǎ ¸si numai dacǎ xi < x. 

n� 

S-ar putea crede cǎ suma deviat¸ilor (xi − x) poate servi ca mǎsurǎ a dispersiei fat¸ǎ de 

media aritmeticǎ. Dar aceastǎ sumǎ este zero întotdeauna: 

n� 

(xi − x) = 

i=1 

i=1 

n� 

xi − n · x = n · x − n · x = 0 

i=1 

Reducerea deviat¸iilor poate fi eliminatǎ prin folosirea valorii absolute a deviat¸iilor: xi −x. 

Definit¸ia 7.3. Deviat¸ia medie absolutǎ a setului de date statistice distincte {x1, x2, ..., xn} 

este prin definit¸ie: 

n� 

|xi − x| 

d = 

i=1 

Remarca 7.1. Deviat¸ia medie absolutǎ, în cazul în care datele sunt prezentate sub forma 

unei serii de distribut¸ie fǎrǎ grupare de date se calculeazǎ cu formula: 

d = 

n 

m� 

|xj − x| · fj 

j=1 

m� 

j=1 

22 

fj

Remarca 7.2. Deviat¸ia medie absolutǎ, în cazul în care datele sunt prezentate sub forma 

unei serii de distribut¸ie cu grupare de date se calculeazǎ cu formula: 

� 

|x − x| · fx 

d = 

� fx 



Cu toate cǎ acest parametru al împrǎ¸stierii nu se folose¸ste frecvent, el este o mǎsurǎ a 

împrǎ¸stierii ¸si aratǎ distant¸a medie la care se aflǎ o valoare a variabilei X fat¸ǎ de media 

aritmeticǎ. 

Mai existǎ o cale de eliminare a reducerii deviat¸iilor. Ridicând la pǎtrat deviat¸iile 

individuale acestea devin pozitive (sau zero). Când aceste pǎtrate sunt adunate rezultatul 

n� 

este pozitiv. Suma pǎtratelor deviat¸iilor fat¸ǎ de media aritmeticǎ (xi−x) 2 este folositǎ 

în definirea variant¸ei. 

Definit¸ia 7.4. Variant¸a s2 a setului de date statistice distincte {x1, x2, ..., xn} este prin 

definit¸ie: 

n� 

(xi − x) 2 

i=1 

s 2 = 

n 

Remarca 7.3. Dacǎ setul de date este prezentat sub forma unei serii de distribut¸ie fǎrǎ 

grupare de date variant¸a s2 se calculeazǎ cu formula: 

m� 

(xj − x) 2 · fj 

s 2 = 

j=1 

m� 

j=1 

Remarca 7.4. Dacǎ setul de date este prezentat sub forma unei serii de distribut¸ie cu 

grupare de date variant¸a s2 se calculeazǎ cu formula: 

s 2 � 

2 

(x − x) · fx 

= 

fj 

� fx 



Definit¸ia 7.5. Deviat¸ia standard (abaterea standard) s a setului de date statistice 

distincte {x1, x2, ..., xn} este prin definit¸ie: 

⎡ 

⎢ 

s = ⎢ 

⎣ 

n� 

(xi − x) 2 

⎤ 

1 

2 

⎥ 

n ⎥ 

⎦ 

i=1 

23 

i=1

Remarca 7.5. Dacǎ setul de date este prezentat sub forma unei serii de distribut¸ie fǎrǎ 

grupare de date deviat¸ia standard s se calculeazǎ cu formula: 

⎡ m� 

⎢ (xj − x) 

⎢ j=1 

s = ⎢ 

⎣ 

2 1 

⎤ 

2 

· fj ⎥ 

m� ⎥ 

⎦ 

j=1 

Remarca 7.6. Dacǎ setul de date este prezentat sub forma unei serii de distribut¸ie cu 

grupare de date deviat¸ia standard s se calculeazǎ cu formula: 

fj 

⎡� 

⎤ 

1 

2 

(x − x) · fx 2 

s = ⎣ 

⎦ 

� fx 



Remarca 7.7. Deviat¸ia standard a fost definitǎ cu o formulǎ. Se poate pune întrebarea 

ce reprezintǎ ea în realitate? Un rǎspuns la aceastǎ întrebare poate fi dat cu inegalitatea 

lui Cebî¸sev din care rezultǎ cǎ pentru orice serie de distribut¸ie fract¸iunea de date situatǎ 

la cel mult k unitǎt¸i de deviat¸ie standard fat¸ǎ de medie este cel put¸in 1 − 1 

k2 , unde k este 

un numǎr pozitiv oarecare mai mare ca 1. Rezultǎ în particular cǎ pentru orice serie de 

distribut¸ie fract¸iunea de date situatǎ la cel mult k = 2 unitǎt¸i de deviat¸ie standard fat¸ǎ de 

medie este de cel put¸in 75% din totalul de date. Dacǎ k = 3 atunci este 89% din totalul 

de date. 

Conform regulii empirice dacǎ o serie de repartit¸ie este normalǎ atunci fract¸iunea de date 

situate la cel mult o unitate de deviat¸ie standard σ fat¸a de medie este aproximativ 68%, 

iar fract¸iunea de date situate la cel mult douǎ unitǎt¸i de deviat¸ie standard σ fat¸ǎ de medie 

este aproximativ 95%. 

Definit¸ia 7.6. Coeficientul de variat¸ie V este prin definit¸ie: 

V = s 

· 100 

x 

Remarca 7.8. Coeficientul de variat¸ie este o statisticǎ relativǎ a dispersiei ¸si se folose¸ste 

la compararea dispersiei diferitelor variabile (caracteristici). 

Remarca 7.9. V poate lua valori între 0 ¸si 100%. Dacǎ V este aproape de zero 

(V < 35%), atunci populat¸ia studiatǎ statistic este omogenǎ ¸si media x este reprezentativǎ 

pentru aceastǎ populat¸ie. Dacǎ V este aproape de 100% (V > 75%), atunci populat¸ia 

studiatǎ statistic este eterogenǎ ¸si media x nu este reprezentativǎ. De cele mai multe 

ori în asemenea cazuri este necesarǎ separarea populat¸iei statistice în mai multe grupe 

omogene, care se studiazǎ separat. 

24

8 Parametrii ¸si statistici factoriali ai variant¸ei 

În analiza variant¸ei unui set de date statistice se folosesc urmǎtorii parametrii factoriali 

ai variant¸ei: 

- variant¸a de grupǎ (part¸ialǎ) s 2 j 

- media variant¸elor de grupǎ s 2 

- variant¸a mediilor de grupǎ fat¸ǎ de media generalǎ δ 2 

- variant¸a totalǎ (generalǎ) s 2 . 

Definit¸ia 8.1. Pentru o grupǎ de m date x1, x2, ..., xm, variant¸a de grupǎ este definitǎ 

cu formula: 

m� 

s 2 j = 

i=1 

(xi − xj) 2 · nij 

m� 

i=1 

în care j este indicele grupei, xj este media grupei, xi sunt datele din grupa j având 

frecvent¸ele nij 

Remarca 8.1. Variant¸ele de grupǎ sunt mai mici decât variant¸a ¸si au valori mai mari 

sau mai mici în funct¸ie de eterogenitatea grupei. 

Definit¸ia 8.2. Prin definit¸ie media variant¸elor de grupǎ este: 

în care k este numǎrul de grupe, nj = 

s 2 = 

k� 

j=1 

nij 

s 2 j · nj 

k� 

j=1 

nj 

m� 

nij este numǎrul de date din grupǎ. 

i=1 

Definit¸ia 8.3. Variant¸a mediilor de grupǎ fat¸ǎ de media generalǎ este prin 


k� 

δ 2 = 

j=1 

(xj − x) 2 · nj 

k� 

j=1 

25 

nj

9 Parametrii ¸si statistici ale pozit¸iei 

Parametrii ¸si statistici ai pozit¸iei se folosesc pentru a descrie locat¸ia unei date în raport 

cu celelalte date. 

Definit¸ia 9.1. Quantilele sunt valori numerice care împart setul de date în q grupe 

egale. Constanta q se nume¸ste ordinul quantilei. 

Mediana este quantila de ordinul doi. 

Quantilele de ordinul patru împart setul de date în patru grupe egale ¸si se numesc 

quartile. Quartilele sunt în numǎr de trei, notate de obicei cu Q1, Q2, Q3. 

Quartila Q1 este un numǎr cu proprietatea cǎ o pǎtrime din date au valori mai mici decât 

Q1 ¸si trei pǎtrimi din date au valori mai mari decât Q1. 

Quartila Q2 este un numǎr cu proprietatea cǎ jumǎtate din date au valori mai mici decât 

Q2 ¸si jumǎtate din date au valori mai mari decât Q2. Quartila Q2 este chiar mediana. 

Quartila Q3 este un numǎr cu proprietatea cǎ trei pǎtrimi din date au valori mai mici 

decât Q3 ¸si o pǎtrime din date au valori mai mari decât Q3. 

Alte categorii de quantile folosite sunt: 

- decilele care împart setul de date în 10 grupe egale. 

- centilele care împart setul de date în 100 grupe egale. 

- promilele care împart setul de date în 1000 grupe egale. 

Orice set de date are 99 de centile Pk, k = 1..99. Centila Pk este o valoare numericǎ cu 

proprietatea cǎ k% din date are valori mai mici decât Pk, iar (100 − k)% din date au 

valori mai mari decât Pk. 

Remarca 9.1. Q1 = P25; Q3 = P75; me = Q2 = P50 

Remarca 9.2. Procedeul de determinare a centilei Pk este urmǎtorul: 

1) datele se ordoneazǎ crescǎtor; 

2) trebuie gǎsitǎ pozit¸ia i a centilei k. Prima oarǎ se determinǎ numǎrul 

n este numǎrul de date. Dacǎ 

n · k 

întreg urmǎtor ( 

n · k 

este 

100 

i = 23.5). 

100 

+ 0.5 (n · k 

100 

n · k 

100 

n · k 

= 17.2 → i = 18). Dacǎ 

100 

= 23 → 

n · k 

, unde 

100 

nu este un numǎr întreg, atunci i este numǎrul 

este un numǎr întreg, atunci i 

3) localizarea valorii Pk: se numǎrǎ de la valoarea L (cea mai micǎ valoare a datelor) i 

valori dacǎ i este întreg. Dacǎ i nu este întreg atunci este un întreg plus o jumǎtate. 

n · k n · k 

În acest caz valoarea Pk este semisuma datelor de pe locurile ¸si + 1 

100 100 

O statisticǎ adit¸ionalǎ a pozit¸iei este scorul standard sau z-scor. 

26

Definit¸ia 9.2. Scorul standard sau z-scorul este pozit¸ia valorii x fat¸ǎ de mediana x 

în unitǎt¸i de deviat¸ie standard: 

x − x 

z = 

s 

27

10 Seria de distribut¸ie a statisticilor 

de e¸santioane 

Pentru a face inferent¸ǎ (predict¸ie) asupra parametrilor populat¸iei, este necesar sǎ analizǎm 

statisticile de e¸santioane. Media x în cazul unui e¸santion nu este neaparat egalǎ cu media µ 

a populat¸iei. Suntem însǎ mult¸umit¸i dacǎ media x este apropiatǎ de µ. Dacǎ se considerǎ 

media x′ în cazul unui al doilea e¸santion aceasta poate sǎ fie diferitǎ de x ¸si de µ. Ceea ce 

putem spera este ca aceasta sǎ fie apropiatǎ de valoarea µ ¸si de x. Valabilitatea acestui 

tip de comportament intereseazǎ pentru orice populat¸ie ¸si orice statisticǎ. 

Întrebarea care se na¸ste în mod natural este ce înseamnǎ aproape? Cum se mǎsoarǎ ¸si se 

determinǎ aceastǎ apropiere? Care este seria de distribut¸ie a statisticilor de e¸santioane? 

Definit¸ia 10.1. Seria de distribut¸ie a statisticilor de e¸santioane este seria de 

distribut¸ie a statisticilor de un anumit tip obt¸inute pentru e¸santioane de aceea¸si mǎrime. 

Tipul de statisticǎ poate fi oricare din statisticile prezentate în sect¸iunile 6 ¸si 7. 

Exemplul 10.1. Se considerǎ o populat¸ie de N elemente de la care se pot obt¸ine 

urmǎtoarele date statistice distincte: {0, 2, 4, 6, 8}. În cazul acestei populat¸ii formǎm 

e¸santioane de mǎrime 2 de la care putem avea urmǎtoarele date statistice: 

Pentru aceste e¸santioane mediile x sunt: 

(0, 0) (2, 0) (4, 0) (6, 0) (8, 0) 

(0, 2) (2, 2) (4, 2) (6, 2) (8, 2) 

(0, 4) (2, 4) (4, 4) (6, 4) (8, 4) 

(0, 6) (2, 6) (4, 6) (6, 6) (8, 6) 

(0, 8) (2, 8) (4, 8) (6, 8) (8, 8) 

0 1 2 3 4 

1 2 3 4 5 

2 3 4 5 6 

3 4 5 6 7 

4 5 6 7 8 

E¸santioanele fiind aleatoare fiecare e¸santion, are probabilitatea 1/25 sǎ fie ales ¸si seria de 

distribut¸ie a mediilor acestor e¸santioane este: 

x f ′ (x) 

0 0.04 

1 0.08 

2 0.12 

3 0.16 

4 0.20 

5 0.16 

6 0.12 

7 0.08 

8 0.04 

unde f ′ (x) este frecvent¸a relativǎ a mediei x. Diagrama coloanǎ a mediilor e¸santioanelor 

este: 

28

Pentru acela¸si set de 25 de e¸santioane putem determina seria de distribut¸ie a plajelor R 

a acestor e¸santioane. 

Plajele R ale e¸santioanelor sunt date în tabelul urmǎtor: 

0 2 4 6 8 

2 0 2 4 6 

4 2 0 2 4 

6 4 2 0 2 

8 6 4 2 0 

Seria de distribut¸ie a plajelor acestor e¸santioane este: 

R f ′ (R) 

0 0.20 

2 0.32 

4 0.24 

6 0.16 

8 0.08 

iar diagrama coloanǎ a plajei e¸santioanelor este: 

29

Exemplul 10.2. În cazul aruncǎrii zarului de un numǎr de N ori, setul de date statistice 

care se referǎ la numǎrul de pe fat¸ǎ care apare este 1, 2, 3, 4, 5, 6. 

Formǎm e¸santioane care constau din 5 aruncǎri. Fiecare din aceste e¸santioane are media 

x. Considerǎm 30 de e¸santioane de acest fel (înseamnǎ 30 × 5 = 150 aruncǎri) ¸si într-un 

tabel reprezentǎm rezultatele precum ¸si mediile corespunzǎtoare: 

Încercare E¸santion x Încercare E¸santion x 

1 1 2 3 2 2 2.0 16 5 2 1 3 5 3.2 

2 4 5 5 4 5 4.6 17 6 1 3 3 5 3.6 

3 3 1 5 2 4 3.0 18 6 5 5 2 6 4.8 

4 5 6 6 4 2 4.6 19 1 3 5 5 6 4.0 

5 5 4 1 6 4 4.0 20 3 1 5 3 1 2.6 

6 3 5 6 1 5 4.0 21 5 1 1 4 3 2.8 

7 2 3 6 3 2 3.2 22 4 6 3 1 2 3.2 

8 5 3 4 6 2 4.0 23 1 5 3 4 5 3.6 

9 1 5 5 3 4 3.6 24 3 4 1 3 3 2.8 

10 4 1 5 2 6 3.6 25 1 2 4 1 4 2.4 

11 5 1 3 3 2 2.8 26 5 2 1 6 3 3.4 

12 1 5 2 3 1 2.4 27 4 2 5 6 3 4.0 

13 2 1 1 5 3 2.4 28 4 3 1 3 4 3.0 

14 5 1 4 4 6 4.0 29 2 6 5 3 3 3.8 

15 5 5 6 3 3 4.4 30 6 3 5 1 1 3.2 

Histograma seriei de distribut¸ie a mediilor celor 30 de e¸santioane este reprezentatǎ în 

figura urmǎtoare: 

30

Aceastǎ lege de repartit¸ie pare sǎ aibe caracteristicile unei legi de repartit¸ie normalǎ; este 

maxim ¸si este simetric fat¸ǎ de media proprie 3.5. 

31

11 Teorema limitǎ centralǎ 

În sect¸iunea precedentǎ am prezentat seria de distribut¸ie a mediei ¸si plajei unui set de 

e¸santioane. Media este statistica folositǎ cel mai frecvent în cazul e¸santioanelor ¸si de aceea 

este foarte importantǎ. Teorema limitǎ centralǎ se referǎ la seria de distribut¸ie a mediei 

tuturor e¸santioanelor aleatoare de aceea¸si mǎrime n. 

Sǎ formulǎm ce anume intereseazǎ în cazul acestei serii de distribut¸ie: 

1) Unde este centrul datelor? 

2) Cât de mare este dispersia datelor? 

3) Care este caracterul seriei de distribut¸ie? 

Teorema limitǎ centralǎ oferǎ rǎspuns la aceste trei întrebǎri. 

Teorema 11.1. Teorema limitǎ centralǎ 

Fie µ media ¸si σ deviat¸ia standard a unei variabile în cazul unei populat¸ii. Dacǎ se 

considerǎ toate e¸santioanele aleatoare de mǎrime n din aceastǎ populat¸ie, atunci seria de 

distribut¸ie a mediilor acestor e¸santioane are urmǎtoarele proprietǎt¸i: 

a) media µx a acestei serii de distribut¸ie este egalǎ cu µ; 

b) deviat¸ia standard σx a acestei serii de distribut¸ie este σ √ n . 

c) dacǎ seria de distribut¸ie a variabilei în cazul populat¸iei este normalǎ, atunci seria 

de distribut¸ie a mediilor e¸santioanelor este normalǎ; dacǎ seria de distribut¸iei a 

variabilei în cazul populat¸iei nu este normalǎ, atunci seria de distribut¸ie a mediilor 

e¸santioanelor este aproximativ normalǎ pentru e¸santioane de mǎrime mai mare ca 

30. Tendint¸a cǎtre o serie de distribut¸ie normalǎ cre¸ste dacǎ mǎrimea e¸santionului 

cre¸ste. 

Pe scurt, teorema limitǎ centralǎ stabile¸ste urmǎtoarele: 

1) µx = µ, unde x este media e¸santionului x; 

2) σx = σ/ √ n, deviat¸ia standard a mediei este egalǎ cu deviat¸ia standard a populat¸iei 

împǎt¸itǎ cu rǎdǎcina pǎtratǎ a mǎrimii e¸santionului. 

3) seria de distribut¸iei a mediei e¸santioanelor este aproximativ normalǎ indiferent de 

seria de distribut¸iei a variabilei în cazul populat¸iei. 

Remarca 11.1. Deviat¸ia standard σx a seriei de distribut¸ie a mediilor e¸santioanelor 

este deviat¸ia standard a mediilor e¸santioanelor fat¸ǎ de media seriei de distribut¸ie a 

e¸santioanelor. 

Nu vom face demonstrat¸ie teoremei limitǎ centralǎ. Vom ilustra însǎ validitatea ei 

examinând un caz ilustrativ. 

32

Considerǎm o populat¸ie pentru care seria de distribut¸ie de date statistice cu frecvent¸e 

relative în cazul variabilei X este: 

� 

2 

X : 

1/3 

4 

1/3 

� 

6 

1/3 

Media µ ¸si deviat¸ia standard σ pentru aceastǎ variabilǎ sunt: 

3� 

µ = xj · f ′ � 

� 

� 

xj σ = � 3 � 

x 2 j · f ′ xj − 

� 

3� 

xj · f ′ �2 xj 

j=1 

µ = 12 

3 

j=1 

= 4 σ = 1, 63 

În cazul acestei populat¸ii oricare e¸santion de mǎrime doi are urmǎtoarele date posibile: 

E¸santioanele au urmǎtoarele medii: 

(2, 2) (2, 4) (2, 6) 

(4, 2) (4, 4) (4, 6) 

(6, 2) (6, 4) (6, 6) 

2 3 4 

3 4 5 

4 5 6 

E¸santion Media 

(2,2) 2 

(2,4) 3 

(2,6) 4 

(4,2) 3 

(4,4) 4 

(4,6) 5 

(6,2) 4 

(6,4) 5 

(6,6) 6 

E¸santioanele fiind aleatoare fiecare e¸santion are probabilitatea 1 

sǎ fie ales ¸si seria de 

9 

distribut¸ie a mediilor e¸santioanelor este: 

� � 

2 3 4 5 6 

X 

1/9 2/9 3/9 2/9 1/9 

Media seriei de distribut¸ie a mediilor e¸santioanelor µx este µx = 36/9 = 4, 0. Prin urmare 

µ = µx, iar deviat¸ia standard a repartit¸iilor mediilor e¸santioanelor este: 

� 

� 

� 

σx = � 5 � 

x 2 j · f ′ xj − 

� 

5� 

xj · f ′ � � 2 

156 

xj = 

9 − 

� �2 36 

= 1, 15 

9 

σ 

√ n = 

j=1 

1, 63 

√ 2 = 

1, 63 

1, 44 

j=1 

= 1, 15 = σx 

Reprezentând seria de distribut¸ie a mediilor e¸santioanelor obt¸inem: 

33 

j=1

Aceastǎ diagramǎ aratǎ cǎ seria de distribut¸ie a mediilor e¸santioanelor este normalǎ. 

34

12 O aplicat¸ie a teoremei limitǎ centralǎ 

Teorema limitǎ centralǎ oferǎ informat¸ii asupra seriei de distribut¸ie a mediilor e¸santioanelor 

descriind forma repartit¸iei mediilor tuturor e¸santioanelor (aproape normalǎ). 

Ea stabile¸ste relat¸ia dintre media µ a populat¸iei ¸si media µx a seriei de distribut¸ie a 

mediilor tuturor e¸santioanelor ¸si relat¸ia dintre deviat¸ia standard σ a populat¸iei ¸si deviat¸ia 

standard σx a seriei de distribut¸ie a mediilor e¸santioanelor. Deoarece seria de distribut¸ie 

a mediilor e¸santioanelor este aproape normalǎ putem stabili legǎturi probabiliste dintre 

media populat¸iei ¸si media unui e¸santion. 

Exemplul 12.1. Considerǎm o populat¸ie normalǎ cu µ = 100 ¸si σ = 20. Dacǎ se alege 

un e¸santion aleator de mǎrime n = 16 care este probabilitatea ca valoarea medie a acestui 

e¸santion sǎ fie între 90 ¸si 110? Altfel spus, cât este P (90 < x < 110)? 

Solut¸ie: Conform teoremei limitǎ centralǎ repartit¸ia valorilor medii ale e¸santioanelor 

este normalǎ. Prin urmare va trebui sǎ transformǎm condit¸ia P (90 < x < 110) într-o 

condit¸ie care sǎ permitǎ folosirea tabelului de distribut¸ie normalǎ standard. Aceasta se 

face scriind: 

� � � � 

110 − µx 90 − µx 

P (90 < x < 110) = Φ 

− Φ 

= 

unde Φ(X) = 1 

√ 2π 

� � � � � � � � 

110 − 100 −10 

10 

10 

= Φ 

− Φ = 2 · Φ − 1 = F 

�X 

−∞ 

σx 

σx 

σx 

e − 

1 

2 t2 

dt ¸si F (X) = Φ(X) − 1 

2 . 

Deoarece σx = σ √ n , avem σx = 20 

√ 16 = 5 ¸si astfel obt¸inem: 

P (90 < x < 110) = 2 · Φ(2) − 1 = 2F (2) = 0.9544 

Efectul cre¸sterii dimensiunii n a e¸santionului nu afecteazǎ µx = µ ¸si mic¸soreazǎ σx. Prin 

urmare P (90 < x < 110) cre¸ste, dacǎ n cre¸ste. 

Exemplul 12.2. Înǎlt¸imea copiilor la o grǎdinit¸ǎ are o distribut¸ie normalǎ având o medie 

µ = 100 cm cu o deviat¸ie standard de 12, 5 cm. Pentru un e¸santion aleator de 25 de copii 

se determinǎ media x. Care este probabilitatea ca aceastǎ medie sǎ fie între 90 cm ¸si 110 

cm? 

Solut¸ie: 

� � 

10 

P (90 < x < 110) = 2 · Φ − 1 = 2 · Φ(4) − 1 = 2 · F (4) = 2 · 0.499968 

σx 

35 

σx 

σx 

σx

13 Estimarea punctualǎ a unui parametru; intervalul 

de încredere 

Considerǎm o populat¸ie a cǎrei medie µ nu o cunoa¸stem ¸si ne punem problema s-o gǎsim. 

Pentru acest scop considerǎm un e¸santion aleator de dimensiune n pentru care determinǎm 

media x. Media x a e¸santionului este o estimare punctualǎ a mediei µ a populat¸iei. 

Definit¸ia 13.1. O estimare punctualǎ a parametrului γ a unei populat¸ii este o 

valoare g a unei statistici corespunzǎtoare. 

Remarca 13.1. Dacǎ x este media e¸santioanului cu care estimǎm media necunoscutǎ µ 

a populat¸iei, aceasta nu înseamnǎ cǎ x = µ. În general, x �= µ ¸si la ceea ce ne putem 

a¸stepta este ca x sǎ fie aproape de µ. Aceastǎ apropiere poate fi fixatǎ prin specificarea 

unui interval (centrat în µ) numit interval de estimare. 

Definit¸ia 13.2. Un interval mǎrginit (a, b) folosit pentru a estima valoarea unui anumit 

parametru γ a populat¸iei se nume¸ste interval de estimare. Valorile a, b (capetele 

intervalului) sunt calculate din e¸santion care este folosit pentru estimare. 

Cum anume se poate specifica un interval centrat în µ care este necunoscut folosind doar 

date furnizate de un e¸santion va fi lǎmurit în continuare. 

Exemplul 13.1. Considerǎm o populat¸ie având o deviat¸ie standard σ cunoscutǎ, o medie 

µ necunoscutǎ ¸si un e¸santion aleator simplu de mǎrime n ¸si medie x cunoscute. Condit¸ia 

x ∈ (µ − 1, µ + 1) înseamnǎ cǎ scorul standard z (pentru mediile e¸santioanelor) dat de: 

sǎ verifice: 

z = 

x − µx 

σx 

= x − µ 

σ 

√ n 

z ∈ (− 1 √n σ , 1 √ 

n 

√n σ ) = (− 

σ , 

√ 

n 

σ ) 

Astfel 

√ 

în termenii 

√ 

scorului standard intervalul de estimare este intervalul (a, b) cu a = 

n n 

− ¸si b = 

σ σ . 

Mai general condit¸ia x ∈ (µ − δ, µ + δ), înseamnǎ cǎ scorul standard z (pentru mediile 

e¸santioanelor) dat de: 

x − µx 

z = = x − µ 

sǎ verifice: 

Intervalul de estimare este (− δ · √ n 

σ 

σx 

z ∈ (− δ · √ n 

σ 

, δ · √ n 

). 

σ 

σ 

√ n 

, δ · √ n 

) 

σ 

Definit¸ia 13.3. Nivelul de neîncredere α este probabilitatea ca statistica e¸santionului 

sǎ aibe valoarea în afara intervalului de estimare. 

36

Conform teoremei de limitǎ centralǎ, repartit¸ia lui x este normalǎ sau aproape normalǎ 

¸si avem: 

� √ √ � 

n n 

P (µ − 1 < x < µ + 1) = P − < z < = 

σ σ 

� √ � �√ � 

n 

n 

2 · P 0 < z < = 2 · F 

σ 

σ 

unde F (z) = 1 

�z 

√ 

2 · π 

e − 

1 

2 t2 

dt. 

0 

�√ � 

n 

Deci nivelul de neîncredere α este 1 − 2 · F . 

σ 

Definit¸ia 13.4. Nivelul de încredere (coeficient de încredere) 1−α este probabilitatea 

ca statistica e¸santionului sǎ se afle în intervalul de estimare ales. 

Definit¸ia 13.5. Intervalul de încredere este un interval de estimare cu un nivel de 

încredere 1 − α specificat. 

� √ 

n 

Exemplul 13.2. În cazul exemplului 13.1, intervalul de estimare − 

σ , 

√ � 

n 

este un 

�√ � 

σ 

n 

interval de încredere cu coeficientul de încredere 1 − α = 2 · F . 

σ 

Definit¸ia 13.6. Eroarea maximǎ de estimare este jumǎtatea lungimii intervalului de 

încredere cu nivelul de încredere 1 − α. 

În termen de scor standard aceastǎ eroare se exprimǎ cu formula: 

� 

α 

� 

E = z · 

2 

σ √ 

n 

� 

α 

� 

1 − α 

unde z este solut¸ia ecuat¸iei F (z) = , iar intervalul de încredere 1 − α pentru µ 

2 

2 

este: � � 

α 

� 

x − z · 

2 

σ � 

α 

� 

√ , x + z · 

n 2 

σ � 

√ 

n 

� 

α 

� 

x−z · 

2 

σ � 

α 

� 

√ este limita inferioarǎ de încredere, iar x+z · 

n 2 

σ √ este limita superioarǎ 

n 

de încredere. 

37

14 Generalitǎt¸i privind ipotezele statistice ¸si problema 

verificǎrii ipotezelor statistice 

Pentru a ilustra analiza care precede luarea unei decizii în privint¸a credibilitǎt¸ii unei 

asert¸iuni (numitǎ verificarea ipotezelor statistice) sǎ considerǎm urmǎtorul exemplu: 

Candidatul la admitere Popescu Nicolae trebuie sǎ completeze un formular test cu zece 

întrebǎri. Fiecare întrebare are cinci rǎspunsuri dintre care doar unul este corect. Popescu 

Nicolae a completat formularul ¸si din cele zece întrebǎri el a rǎspuns corect la ¸sapte. El 

sust¸ine cǎ a completat formularul fǎrǎ sǎ citeascǎ întrebǎrile ¸si rǎspunsurile la ele ¸si a 

marcat rǎspunsurile aleator. 

Întrebarea este în ce mǎsurǎ putem da crezare spuselor cǎ el a marcat rǎspunsurile aleator? 

O asemenea întrebare ne determinǎ sǎ analizǎm ¸si sǎ hotǎrâm: este sau nu este rezonabil 

ca Popescu Nicolae sǎ obt¸inǎ ¸sapte rǎspunsuri corecte alegând aleator rǎspunsurile la 

întrebǎri? Descriem în cele ce urmeazǎ o analizǎ, care se nume¸ste verificarea ipotezelor 

statistice ¸si care conduce la formularea unei concluzii. 

Verificarea ipotezelor statistice, în general, este un procedeu care are 5 etape. Fiecare din 

aceste etape va fi prezentatǎ ¸si ilustratǎ în cazul exemplului considerat. 

Etapa 1. Formularea ipotezei nule H0 

Prin ipotezǎ înt¸elegem o afirmat¸ie care sust¸ine cǎ ceva este adevǎrat. În 

general, ipoteza nulǎ este o afirmat¸ie relativǎ la un parametru al unei 

populat¸ii ¸si afirmǎ cǎ parametrul are o valoare datǎ. Adesea expresia 

”nu diferǎ” este folositǎ în formularea ei, de aici vine numele de ipotezǎ 

nulǎ. (diferent¸a este nulǎ) 

Etapa 2. Formularea ipotezei alternative Ha 

Ipoteza alternativǎ Ha este o afirmat¸ie relativǎ la acela¸si parametru al 

populat¸iei care apare în ipoteza nulǎ H0. În ipoteza Ha se afirmǎ cǎ 

parametrul are o valoare diferitǎ de cea sust¸inutǎ în H0. 

Ipoteza H0 ¸si ipoteza Ha se formuleazǎ dupǎ o analizǎ a asert¸iunii care trebuie investigatǎ. 

În cazul exemplului considerat, asert¸iunea care trebuie analizatǎ este: Popescu a completat 

formularul aleator. 

Populat¸ia este o mult¸ime de 510 elemente (distincte). Un element este un sistem ordonat 

de 10 rǎspunsuri (R ′ i1 , R′ i2 , . . . , R′ i10 ), i1, i1, . . . , i10 ∈ {1, 2, 3, 4, 5}; R ′ i1 este unul din cele 

cinci rǎspunsuri posibile la prima întrebare, . . . , R ′ i10 este unul din cele cinci rǎspunsuri 

posibile la cea de-a zecea întrebare. 

Pentru o persoanǎ care marcheazǎ rǎspunsurile aleator (fǎrǎ sǎ le citeascǎ), toate 

rǎspunsurile sunt egal posibile. Altfel spus fiecare din cele cinci rǎspunsuri la o întrebare 

are aceea¸si ¸sansǎ ca sǎ fie corect. Din afirmat¸ia lui Popescu Nicolae rezultǎ cǎ el a marcat 

rǎspunsurile aleator, deci a admis cǎ probabilitatea (parametrul p) este 1 

pentru fiecare 

510 element al populat¸iei. 

Analiza afirmat¸iei lui Popescu Nicolae conduce la urmǎtoarea formulare a ipotezei nule: 

H0 : p(X) = 1 

= p pentru orice Popescu Nicolae a completat 

510 element X al populat¸iei ⇔ formularul aleator. 

38

Ipoteza alternativǎ este: 

Ha : existǎ douǎ elemente X1, X2 în populat¸ie Popescu Nicolae nu a completat 

pentru care p(X1) �= p(X2) ⇔ formularul aleator 

De la acest punct începând se admite cǎ ipoteza nulǎ este adevǎratǎ. Situat¸ia poate fi 

comparatǎ cu un proces la judecǎtorie, în care acuzatul este presupus nevinovat pânǎ 

când se dovede¸ste contrariul. 

Doar în etapa a 5-a a verificǎrii ipotezelor, vom lua una din cele douǎ decizii posibile: 

vom decide în concordant¸ǎ cu ipoteza nulǎ H0 ¸si spunem cǎ acceptǎm H0 sau decidem în 

concordant¸ǎ cu Ha ¸si spunem cǎ respingem ipoteza H0. 

În funct¸ie de valoarea de adevǎr a ipotezei H0 ¸si de respingerea sau nerespingerea ei 

deciziile care se iau sunt prezentate în tabelul urmǎtor: 

Decizia Ipoteza H0 este 

Adevǎratǎ Falsǎ 

Nu respingem H0 decizie eroare 

(acceptǎm) corectǎ 

Tip A Tip II 

Respingem H0 eroare decizie 

corectǎ 

Tip I Tip B 

O decizie corectǎ de tip A: apare când H0 este adevǎratǎ ¸si nu respingem H0 

O decizie corectǎ de tip B: apare când H0 este falsǎ ¸si respingem H0 

O eroare de tip I: apare când H0 este adevǎratǎ ¸si H0 este respinsǎ 

O eroare tip II: apare când H0 este falsǎ ¸si H0 nu este respinsǎ 

Ar fi foarte frumos ca de fiecare datǎ când luǎm decizii sǎ luǎm decizii corecte, dar aceasta 

este statistic imposibil pentru cǎ ne bazǎm pe informat¸ii furnizate de e¸santioane. Cel mai 

bun lucru la ce putem spera este sǎ controlǎm riscul sau probabilitatea de a comite o 

eroare. 

Probabilitatea asignatǎ limitǎrii comiterii unei erori de tip I se noteazǎ cu α ¸si cea asignatǎ 

comiterii unei erori de tip II cu β: 

Eroarea Tipul de eroare Probabilitate 

Respingerea unei ipoteze adevǎrate I α 

Acceptarea unei ipoteze false II β 

Etapa 3 Metodologia de verificare a ipotezelor: aceasta constǎ din (1) 

identificarea unui test statistic; (2) specificarea valorii lui α; (3) determinarea 

regiunii critice. 

(1) Un test statistic este o variabilǎ aleatoare folositǎ pentru a respinge 

sau nu ipoteza H0. Testul statistic este o statisticǎ de e¸santioane sau 

alte valori rezultate dintr-un e¸santion. Probabilitǎt¸ile care apar în acest 

test statistic sunt determinate presupunând cǎ H0 este adevǎratǎ. 

39

În cazul exemplului considerat, variabila aleatoare ”X= numǎrul de rǎspunsuri corecte” 

este folosit ca test statistic. Probabilitǎt¸ile pentru fiecare valoare x ale variabilei X în 

ipoteza cǎ H0 este adevǎratǎ sunt date în tabelul urmǎtor: 

X 0 1 2 3 4 5 

P(X) 0.1074 0.2684 0.302 0.20133 0.0881 0.0264 

X 6 7 8 9 10 

P(X) 0.0055 7.92·10 −4 7.38·10 −5 4.098·10 −6 1.02·10 −7 

Aceastǎ repartit¸ie aratǎ cǎ probabilitatea sǎ ghice¸sti rǎspunsul corect la 5 sau mai multe 

întrebǎri este 0.0327, iar la 4 sau mai put¸in decât 4 întrebǎri este 0.9673. Putem spune 

cǎ aparit¸ia valorilor 5, 6, 7, 8, 9, 10 nu sust¸ine ipoteza H0. Dacǎ cineva spune cǎ a ghicit 

rǎspunsul corect la 0, 1, 2, 3, 4 întrebǎri, spunem cǎ este foarte probabil. Dacǎ cineva spune 

cǎ a ghicit rǎspunsul corect la 5, 6, 7, 8, 9, 10 întrebǎri spunem cǎ este put¸in probabil. 

Nivelul de semnificat¸ie este probabilitatea α de a face o eroare de tip I, adicǎ de a 

respinge H0 adevǎrat. În mod curent α se dǎ la început ¸si acesta determinǎ regiunea 

criticǎ. 

În cazul exemplului, dacǎ α = 0.033, atunci din P (x ≥ 5) = 0.0327 rezultǎ 

regiunea criticǎ x = 5, 6, 7, 8, 9, 10. 

Regiunea criticǎ: este mult¸imea de valori (W ) pentru care P (X ∈ W ) ≤ α ¸si care ne 

determinǎ sǎ respingem ipoteza H0. (nu sust¸in ipoteza H0) 

Valoarea criticǎ: este prima valoare din regiunea criticǎ. 

Dacǎ pentru un e¸santion valoarea testului statistic X depǎ¸se¸ste valoarea criticǎ ipoteza 

H0 este respinsǎ. 

Dupǎ ce Etapa 3 a fost epuizatǎ, putem trece la Etapa 4. 

Etapa 4. Determinarea valorii testului statistic 

Dupǎ ce am parcurs etapele 1,2,3 observǎm sau calculǎm valoarea x a 

testului statistic. 

În cazul exemplului x = 7 (numǎrul de rǎspunsuri corecte) este valoarea testului statistic 

¸si este dat. Uzual valoarea testului statistic se calculeazǎ pe baza informat¸iilor 

oferite de e¸santion. 

Etapa 5. Luarea unei decizii ¸si interpretarea ei 

Decizia se ia comparând valoarea testului statistic determinatǎ la Etapa 

4 cu regiunea criticǎ gǎsitǎ la Etapa 3. 

Regula de decizie: Dacǎ valoarea testului statistic este în regiunea 

criticǎ respingem ipoteza H0, dacǎ nu, atunci acceptǎm ipoteza H0. 

Ansamblul de valori ale testului statistic care nu sunt în regiunea criticǎ 

formeazǎ regiunea de acceptabilitate. Testul este terminat prin luarea 

¸si justificarea deciziei luate. 

În cazul exemplului: x = 7 este în regiunea criticǎ ¸si respingem ipoteza H0. 

Remarca 14.1. Cu aceasta nu am demonstrat cǎ Popescu Nicolae nu a ghicit cele 7 

rǎspunsuri. Am arǎtat doar cǎ dacǎ el le-a ghicit este foarte norocos pentru cǎ acesta 

este un eveniment rar ¸si are probabilitatea cel mult 0.033. 

40

15 Verificarea ipotezelor statistice: 

variantǎ clasicǎ 

În sect¸iunea precedentǎ am prezentat generalitǎt¸i privind verificarea ipotezelor statistice. 

În aceastǎ sect¸iune trecem la prezentarea verificǎrii ipotezelor statistice în cazul 

asert¸iunilor referitoare la media µ a unei populat¸ii. Pentru a simplifica aceastǎ prezentare 

la început presupunem cǎ deviat¸ia standard σ a populat¸iei este cunoscutǎ. 

Urmǎtoarele trei exemple se referǎ la diferite formulǎri ale ipotezei H0 ¸si a ipotezei Ha. 

Exemplul 15.1. Un ecologist sust¸ine cǎ ora¸sul Timi¸soara are o problemǎ privind poluarea 

aerului. Concret, el sust¸ine ca nivelul mediu al monoxidului de carbon în aer în centrul 

ora¸sului depǎ¸se¸ste valoarea 4, 9/10 6 = valoarea medie normalǎ. 

Pentru a formula în acest caz, ipotezele H0 ¸si Ha, trebuie sǎ identificǎm: populat¸ia, 

parametrul populat¸iei în cauzǎ ¸si valoarea cu care aceasta urmeazǎ sǎ fie comparatǎ. 

Populat¸ia în acest caz poate fi mult¸imea locurilor din centrul ora¸sului Timi¸soara. Variabila 

X este concentrat¸ia monoxidului de carbon ale cǎrei valori x variazǎ în funct¸ie de loc, 

iar parametrul populat¸iei este valoarea medie µ a acestei variabile. Valoarea specificǎ cu 

care aceastǎ medie trebuie comparatǎ este 4, 9/10 6 egalǎ cu valoarea (medie) normalǎ. 

Ecologistul face o asert¸iune privind valorea lui µ. Aceastǎ valoare poate fi: µ < 4, 9/10 6 

sau µ = 4, 9/10 6 sau µ > 4, 9/10 6 . Cele trei situat¸ii pot fi cuprinse în douǎ afirmat¸ii dintre 

care una exprimǎ ceea ce ecologistul sust¸ine, iar cealaltǎ exprimǎ contrariul. 

Inegalitatea µ > 4, 9/10 6 este afirmat¸ia: ”valoarea medie este mai mare ca 4, 9/10 6 ”. 

Inegalitatea µ ≤ 4, 9/10 6 este echivalentǎ cu ”µ < 4, 9/10 6 sau µ = 4, 9/10 6 ” ¸si este 

afirmat¸ia contrarǎ: ”valoarea medie nu este mai mare ca 4, 9/10 6 ”. 

Ecologistul sust¸ine cǎ µ > 4, 9/10 6 . Pentru a formula ipoteza H0 ¸si ipoteza Ha reamintim 

cǎ: 

1) În general, ipoteza H0 sust¸ine cǎ media µ (parametrul în chestiune) are o valoare 

specificǎ anume. 

2) Inferent¸a privind media µ a populat¸iei se bazeazǎ pe media unui e¸santion ¸si mediile 

e¸santioanelor au o distribut¸ie aproximativ normalǎ. (conform teoremei limitǎ 

centralǎ). 

3) O distribut¸ie normalǎ este complet determinatǎ dacǎ valoarea medie ¸si deviat¸ia 

standard a distribut¸iei sunt cunoscute. 

Cele de mai sus sugereazǎ cǎ afirmat¸ia µ = 4, 9/10 6 ar trebui sǎ fie ipoteza nulǎ ¸si afirmat¸ia 

µ > 4, 9/10 6 ar trebui sǎ fie ipoteza alternativǎ: 

H0 : µ = 4, 9/10 6 

Ha : µ > 4, 9/10 6 

Reamintim cǎ dupǎ ce ipoteza nulǎ H0 este formulatǎ, în testul statistic identificat se 

presupune cǎ H0 este adevǎratǎ. Aceasta înseamnǎ cǎ µ = 4, 9/10 6 este egalǎ cu media 

41

distribut¸iei mediilor e¸santioanelor µx ¸si este o rat¸iune în plus pentru care ipoteza H0 

trebuie scrisǎ doar cu semnul egal 

H0 : µ = 4, 9/10 6 . 

Dacǎ admitem cǎ afirmat¸ia ”µ = 4, 9/10 6 sau µ < 4, 9/10 6 ” este ipoteza nulǎ H0, atunci: 

H0 : µ ≤ 4, 9/10 6 

Ha : µ > 4, 9/10 6 . 

Remarca 15.1. Semnul egal trebuie sǎ fie inclus totdeauna în ipoteza nulǎ. În acest 

exemplu asert¸iunea ecologistului este exprimatǎ de fapt în Ha ¸si aceasta este analizat. 

Exemplul 15.2. Vom considera acum o a doua asert¸iune; de exemplu al Camerei de 

Comert¸, care sust¸ine cǎ nivelul mediu al monoxidului de carbon în centrul ora¸sului 

Timi¸soara este mai mic decât 4, 9/10 6 (valoare normalǎ). Aceasta este o reclamǎ bunǎ 

pentru turism. 

S¸i în acest caz parametrul este media µ a repartit¸iei monoxidului de carbon. Valoarea 

specificǎ este 4, 9/10 6 care este valoare normalǎ. 

”µ < 4, 9/10 6 ” ⇔ ”valoarea medie este mai micǎ decât valoarea medie normalǎ” 

”µ ≥ 4, 9/10 6 ” ⇔ ”valoarea medie este mai mare sau egalǎ decât valoarea 

medie normalǎ” 

H0, Ha pot fi formulate astfel: 

H0 : µ ≥ 4, 9/10 6 

Ha : µ < 4, 9/10 6 

S¸i de data aceasta asert¸iunea Camerei de Comert¸ este exprimatǎ în Ha ¸si aceasta trebuie 

analizatǎ. 

Exemplul 15.3. O a treia asert¸iune (mai neutrǎ) sust¸ine doar cǎ nivelul mediu µ al 

monoxidului de carbon în aerul din centrul ora¸sului Timi¸soara este diferit de 4, 9/10 6 

(valoarea normalǎ diferitǎ de µ). 

În acest caz: 

H0 : µ = 4.9/10 6 ¸si Ha : µ �= 4, 9/10 6 

Cele trei exemple aratǎ cǎ asert¸iunea care trebuie analizatǎ determinǎ într-un anumit sens 

formularea ipotezelor H0, Ha. Mai exact: în aceste cazuri asert¸iunea sust¸ine cǎ valoarea 

parametrului µ este diferitǎ de cea normalǎ, iar ipoteza nulǎ sust¸ine cǎ este aceea¸si (nu 

diferǎ). 

În cazul acestor exemple, cei care î¸si formuleazǎ asert¸iunea se a¸steaptǎ la respingerea 

ipotezei nule H0 ¸si la acceptarea ipotezei alternative Ha care este o afirmat¸ie conformǎ cu 

asert¸iunea lor. 

Situat¸iile de la procesele juridice prezintǎ o oarecare asemǎnare cu cele relatate. Dacǎ 

procurorul nu crede în vinovǎt¸ia inculpatului nu intenteazǎ proces (ipoteza H0 prezumt¸ia 

de nevinovǎt¸ie este presupusǎ adevǎratǎ). Procesul se declan¸seazǎ doar dacǎ procurorul 

are suficiente probe pentru a face proces. 

42

S¸i în statisticǎ dacǎ ”experimantatorul” crede în ipoteza H0 nu face test pentru investigarea 

lui H0. El testeazǎ ipoteza nulǎ doar dacǎ dore¸ste sǎ arate cǎ Ha este corectǎ. 

Exemplul care urmeazǎ ilustreazǎ toate cele cinci etape de verificare a ipotezelor statistice 

în cazul unei asert¸iuni care se referǎ la media unei populat¸ii. 

Exemplul 15.4. Un profesor a înregistrat pe mai mult¸i ani rezultatul elevilor ¸si media 

µ a acestor rezultate este 72 ¸si abaterea standard este σ = 12. Clasa de 36 de elevi pe 

care-i învat¸ǎ la momentul actual are o medie x = 75, 2 (mai ridicatǎ decât media µ = 72) 

¸si profesorul afirmǎ cǎ aceastǎ clasǎ este superioarǎ celor de pânǎ acum. 

Întrebarea este 

dacǎ media clasei x = 75, 2 este un argument suficient pentru a sust¸ine afirmat¸ia profesorului 

la nivelul de semnificat¸ie α = 0, 05. 

Ment¸ionǎm cǎ pentru ca aceastǎ clasǎ sǎ fie superioarǎ trebuie sǎ aibe o medie mai mare 

decât toate clasele dinainte. Dacǎ media ei este egalǎ sau mai micǎ decât media unei 

clase anterioare, atunci ea nu este superioarǎ. 

Dacǎ se considerǎ e¸santioane aleatoare de mǎrime n = 36 dintr-o populat¸ie cu media 

µ = 72, multe e¸santioane vor avea media x aproape de 72, de exemplu 71; 71, 8; 72; 72, 5; 73. 

Doar medii x care sunt considerabil mai mari decât 72 vor sust¸ine afirmat¸ia profesorului. 

De aceea: 

Etapa 1. H0 : µx = µ = 72 ⇔ clasa nu este superioarǎ 

Etapa 2. Ha : µx = µ > 72 ⇔ clasa este superioarǎ 

Etapa 3. - Atunci când în ipoteza nulǎ H0 media populat¸iei ¸si deviat¸ia 

standard sunt cunoscute scorul standard z este folosit ca ¸si test 

statistic. 

- Nivelul de semnificat¸ie α = 0, 05 este dat; 

- Reamintim cǎ în baza teoremei limitǎ centralǎ distribut¸ia 

mediilor e¸santioanelor este aproape normalǎ. Prin urmare, 

distribut¸ia normalǎ va fi folositǎ pentru determinarea regiunii 

critice. Regiunea criticǎ este egalǎ cu mult¸imea valorilor 

scorului standard z care determinǎ respingerea ipotezei 

H0 ¸si este situatǎ la extremitatea dreaptǎ a distribut¸iei normale. 

Regiunea criticǎ este la dreapta deoarece valori mari 

ale mediei e¸santionului sust¸in ipoteza H0 în timp ce valori 

apropiate ori sub 72 sust¸in ipoteza nulǎ. 

Figura 1: 

43

Valoarea criticǎ ce desparte zona valorilor ”nu este superior” de zona valorilor ”este superior” 

este determinatǎ de probabilitatea α de a comite o eroare de tip I. α = 0, 05 a 

fost datǎ. Astfel regiunea criticǎ ha¸suratǎ pe Figura 2. are aria 0, 05 ¸si valoarea criticǎ 

�∞ 

1 

1, 65 este solut¸ia ecuat¸iei: √ e 

2 · π 

− 

t2 2 dt = 0, 05. 

z 

Figura 2: 

Etapa 4. Valoarea testului statistic este dat de: 

z ∗ = 

x − µ 

σ 

√ n 

= 75, 2 − 72 

12/6 

= 1, 6 

Etapa 5. Comparǎm valoarea gǎsitǎ 1, 6 cu valoarea criticǎ 1, 65 ¸si gǎsim 1, 6 < 

1, 65. Decizia este cǎ nu putem respinge ipoteza H0. Testul se încheie 

cu formularea concluziei. 

Concluzie: Probele nu sunt suficiente pentru a sust¸ine cǎ actuala clasǎ 

este superioarǎ claselor anterioare. 

Pare aceastǎ concluzie realistǎ în condit¸iile în care în mod evident, 75, 2 este mai mare 

ca 72. Nu trebuie sǎ uitǎm x = 75, 2 este media unui e¸santion de 36 de indivizi extras 

dintr-o populat¸ie cu media µ = 72 ¸si deviat¸ia standard σ = 12 ¸si analiza aratǎ cǎ probabilitatea 

ca media e¸santionului sǎ fie mai mare decât mediile tuturor e¸santioanelor este 

mai mare decât riscul α cu care noi acceptǎm o eroare de tip I. 

Exemplul 15.5. La un colegiu s-a stabilit cǎ greutatea medie a studentelor este µ = 54, 4 

kg, iar abaterea standard σ = 5, 4 kg. Profesorul de sport nu crede aceastǎ afirmat¸ie. 

Pentru a face un test select¸ioneazǎ un e¸santion aleator de 100 de studente ¸si gǎse¸ste cǎ 

media x = 53, 75 kg. Este aceasta suficient pentru a respinge afirmat¸ia la nivelul de 

semnificat¸ie α = 0, 05? 

Etapa 1. H0 : µ = 54, 4 kg 

Etapa 2. Ha : µ �= 54, 4 kg 

44

Etapa 3. - deoarece folosim o distribut¸ie de medii de e¸santioane testul statistic 

va fi scorul standard. 

- nivelul α = 0, 05 este dat; 

- media e¸santionului este o estimare a mediei populat¸iei. Ipoteza 

alternativǎ ”nu este egal” este sust¸inutǎ de medii de e¸santioane 

considerabil mai mari sau considerabil mai mici ca 54, 4. ipoteza nulǎ 

este sust¸inutǎ de medii de e¸santioane în jurul valorii 54, 4. Regiunea 

criticǎ este formatǎ din douǎ pǎrt¸i egale situate la cele douǎ extremitǎt¸i 

ale distribut¸iei normale. Aria corespunzǎtoare fiecǎrei port¸iuni este 

α 

¸si probabilitatea fiecǎrei pǎrt¸i a regiunii critice este 0, 025. Rezultǎ 

2 

z 

⎛ 

� 

� 

⎜ α 

� 

�∞ 

1 

= 1, 96 ⎝z este solut¸ia ecuat¸iei: √ 

2 

2 · π 

� α 

2 

Figura 3: 

Etapa 4. Se determinǎ valoarea testului statistic: 

z ∗ = 

x − µ 

σ 

√ n 

= −1, 204 

a cǎrei locat¸ie este datǎ pe figura urmǎtoare: 

45 

z 

e − 

t2 ⎞ 

2 dt = α⎟ 

⎠. 

2

Figura 4: 

Reamintim: Dacǎ valoarea testului statistic este în regiunea criticǎ respingem ipoteza 

H0 dacǎ nu, nu putem respinge ipoteza H0. 

Etapa 5. Valoarea testului statistic nu este în regiunea criticǎ. 

Decizia: Nu respingem ipoteza H0. 

Justificarea deciziei: Valoarea testului nu este în dezacord cu H0 la 

nivel de risc α = 0, 05. Aceasta nu înseamnǎ cǎ H0 este adevǎratǎ. 

Concluzie: Media x gǎsitǎ de profesor nu contravine ipotezei cǎ media µ este 54,4 

kg, când dispersia σ este 5, 4 kg. 

O decizie de respingere a lui H0 înseamnǎ cǎ valoarea testului implicǎ cǎ H0 este falsǎ ¸si 

indicǎ Ha. 

Rezumat privind verificarea ipotezelor statistice asupra mediei în variantǎ 

clasicǎ: 

1. Ipoteza H0 specificǎ o valoare particularǎ a mediei populat¸iei. 

2. Ipoteza Ha are trei forme. Fiecare dintre acestea determinǎ o locat¸ie specificǎ a 

regiunii critice a¸sa cum apare în tabelul de mai jos: 

Semne în ipoteza < �= > 

alternativǎ 

Regiunea criticǎ O regiune Douǎ regiuni O regiune 

la stânga de fiecare la dreapta 

parte câte una 

test unilateral test bilateral test unilateral 

stânga dreapta 

3. Pentru multe cazuri semnul din ipoteza Ha indicǎ direct¸ia în care regiunea criticǎ 

se gǎse¸ste 

Valoarea lui α se nume¸ste nivel de semnificat¸ie ¸si reprezintǎ riscul (probabilitatea) 

respingerii lui H0 atunci când aceasta estea adevǎratǎ. Nu putem determina 

46

dacǎ ipoteza H0 este adevǎratǎ sau falsǎ. Putem doar decide cǎ o respingem 

sau cǎ o acceptǎm. 

Probabilitatea cu care respingem ipoteza adevǎratǎ este α, dar nu ¸stim probabilitatea cu 

care facem o decizie eronatǎ. O eroare de tip I ¸si o eroare în decizie sunt lucruri diferite. 

47

16 Verificarea ipotezelor statistice: 

varianta probabilistǎ 

În sect¸iunea precedentǎ am descris varianta clasicǎ de verificare a ipotezelor statistice 

în cazul asert¸iunilor referitoare la media µ a unei populat¸ii. O variantǎ probabilistǎ 

constǎ în determinarea unei probabilitǎt¸i numitǎ p-valoarea (prob-valoare) referitoare 

la o statisticǎ observatǎ, care este comparatǎ cu nivelul de semnificat¸ie α dat. 

Definit¸ia 16.1. P-valoarea unui test statistic este cea mai micǎ valoare a nivelului 

de semnificat¸ie α pentru care informat¸ia extrasǎ din e¸santion este semnificativǎ (H0 

adevǎratǎ se respinge). 

Considerǎm din nou exemplul 15.4 din sect¸iunea precedentǎ ¸si-l analizǎm din acest punct 

de vedere. 

Exemplul 16.1. Un profesor a înregistrat pe mai mult¸i ani rezultatul elevilor ¸si media 

µ a acestor rezultate este 72 ¸si dispersia σ = 12. Clasa de 36 de elevi pe care-i învat¸ǎ 

la momentul actual are o medie x = 75, 2 . Aceastǎ medie fiind mai ridicatǎ decât 72 

profesorul vrea sǎ arate cǎ aceastǎ clasǎ este superioarǎ celor de pânǎ acum. Întrebarea 

este dacǎ media clasei x = 75, 2 este un argument suficient pentru a sust¸ine afirmat¸ia 

profesorului la nivelul de semnificat¸ie α = 0, 05? 

Precizǎm cǎ pentru a putea sust¸ine cǎ actuala clasǎ este mai bunǎ decât toate celelalte 

clase anterioare trebuie ca media clasei actuale sǎ fie mai mare decât media oricǎrei clase 

dinainte. Dacǎ media clasei actuale este mai micǎ sau egalǎ cu media unei clase anterioare, 

atunci clasa actualǎ nu este mai bunǎ decât toate celelalte. 

Etapa 1. Formularea ipotezei H0: H0 : µx = µ = 72. 

Aceastǎ ipotezǎ corespunde asert¸iunii cǎ actuala clasǎ nu este superioarǎ 

celorlalte clase. 

Etapa 2. Formularea ipotezei alternative Ha: Ha : µx = µ > 72. 

Aceastǎ ipotezǎ corespunde asert¸iunii cǎ actuala clasǎ este superioarǎ 

celorlalte clase. 

Remarcǎm faptul cǎ etapele 1 ¸si 2 sunt acelea¸si în variantǎ probabilistǎ ca ¸si în variantǎ 

clasicǎ de verificare a ipotezelor statistice. 

Etapa 3. Specificarea nivelului de semnificat¸ie α, a probabilitǎt¸ii erorii de tip I: 

α = 0, 005. 

Etapa 4. Folosind formula scorului standard (z-scorului) ¸si media x = 75, 2 a 

e¸santionului de mǎrime n = 36 se determinǎ valoarea testului statistic: 

z ∗ = 

x − µ 

σ 

√ n 

= 1, 60 

Remarcǎm aici cǎ Etapa 4 în varianta probabilistǎ este aceea¸si ca ¸si 

varianta clasicǎ de verificare a ipotezelor statistice. 

48

Etapa 5. Se reprezintǎ distribut¸ia normalǎ a mediilor (testul statistic) în acest 

caz ¸si se localizeazǎ valoarea z ∗ determinatǎ în Etapa 4 (care împarte 

distribut¸ia în douǎ pǎrt¸i) ¸si se determinǎ care parte a distribut¸iei 

reprezintǎ p−valoarea. 

Dupǎ care se determinǎ p−valoarea. Ipoteza alternativǎ Ha aratǎ cǎ în 

cazul nostru: 

p = P (z > z ∗ ) = P (z > 1, 6) = 0, 0548 

Etapa 6. p-valoarea în cazul nostru este 0, 0548. Prin urmare pentru 

orice nivel de semnificat¸ie α ≤ 0, 0548 nu putem respinge 

ipoteza nulǎ ¸si concluzia este cǎ nu avem probe suficiente pentru 

a demonstra superioritatea clasei actuale. Dacǎ însǎ nivelul de 

semnificat¸ie α fixat la început este mai mare ca 0, 0548 (de ex. α = 0, 1) 

atunci decizia noastrǎ va fi de respingere a ipotezei H0 ¸si concluzia de 

superioritate a clasei actuale. 

Figura 5: 

Înainte sǎ trecem la un al doilea exemplu recapitulǎm câteva detalii privind verificarea 

ipotezelor statistice în varianta probabilistǎ: 

1. Ipotezele H0 ¸si Ha se formuleazǎ în aceea¸si manierǎ ca ¸si în varianta clasicǎ. 

2. Se specificǎ nivelul de semnificat¸ie α care va fi folosit. 

3. Valoarea testului statistic se calculeazǎ în Etapa 4 de aceea¸si manierǎ ca în varianta 

clasicǎ. 

4. P-valoarea este aria aflatǎ între curba de densitate de probabilitate axa Oz ¸si z = z ∗ . 

Existǎ trei cazuri posibile: douǎ unilaterale ¸si unul bilateral. Direct¸ia (sau semnul) 

în ipoteza Ha este indiciul: 

Cazul 1. Dacǎ Ha este unilateralǎ la dreapta (” > ”) atunci p = P (z > z ∗ ) ¸si aria este 

în dreapta lui z ∗ . 

Cazul 2. Dacǎ Ha este unilateralǎ stânga (” < ”), atunci p = P (z < z ∗ ) este aria din 

stânga lui z ∗ . 

Cazul 3. Dacǎ Ha este bilateralǎ (” �= ”), atunci p = P (z < −|z ∗ |) + P (z > |z ∗ |) = 

2 · P (z > |z ∗ |) 

49

5. Decizia se ia comparând P -valoarea cu nivelul de semnificat¸ie α: 

a) Dacǎ P ≤ α atunci H0 se respinge; 

b) Dacǎ P > α atunci H0 se acceptǎ. 

6. Concluzia se formuleazǎ de aceea¸si manierǎ ca ¸si în varianta clasicǎ. 

Considerǎm acum un exemplu în care Ha este bilateral. 

Exemplul 16.2. Companii mari folosesc agent¸ii specializate pentru a testa candidat¸ii 

care doresc sǎ fie angajat¸i. Agent¸ia A folose¸ste un test de select¸ie pentru care în decursul 

timpului s-a stabilit o medie de 82 ¸si o deviat¸ie standard de 8. Agent¸ia B a dezvoltat 

o nouǎ metodǎ de testare care este mai rapidǎ, mai u¸sor de aplicat ¸si costǎ mai put¸in. 

Agent¸ia B sust¸ine cǎ testul lor dǎ acelea¸si rezultate ca ¸si testul agent¸iei A. 

Mai multe companii, pentru a reduce costul, se gândesc sǎ treacǎ de la agent¸ia A la 

agent¸ia B, dar ei nu doresc sǎ facǎ aceastǎ trecere dacǎ media cu teste B diferǎ de cea 

cu teste A. O agent¸ie independentǎ C a testat cu noul test 36 de indivizi ¸si a obt¸inut o 

medie de 80. 

Care este p−valoarea asociatǎ acestui test? 

Rezultatul testului agent¸iei B este acela¸si dacǎ µ = 82 ¸si este diferit dacǎ µ �= 82. Prin 

urmare: 

Etapa 1. H0 : µ = 82 (testele au aceea¸si medie) 

Etapa 2. Ha : µ �= 82 (testele au medii diferite) 

Etapa 3. Este omisǎ dacǎ se cere p-valoarea fǎrǎ luarea unei decizii. 

Etapa 4. Informat¸ia din e¸santion: n = 36 ¸si x = 80: 

z ∗ = 

x − µ 

σ 

√ n 

= −2 

8 

6 

= − 12 

8 

= −3 

2 

= −1.5 

Etapa 5. Se localizeazǎ z ∗ pe o distribut¸ie normalǎ ¸si deoarece Ha este bilateral 

vom considera P (z < −|z ∗ |) ¸si P (z > |z ∗ |) ¸si obt¸inem: 

p = P (z < −1, 50) + P (z > 1, 50) 

= 0, 5 − 0, 4332 + 0, 5 − 0, 4332 = 0, 1336 

deci p− valoarea este 0, 1336. 

50

Figura 6: 

Fiecare companie va lua propria decizie: a) continuǎ cu A sau b) schimbǎ ¸si trece la 

B. Fiecare va trebui sǎ stabileascǎ propriul nivel de semnificat¸ie ¸si sǎ ia o decizie în 

consecint¸ǎ. 

51

17 Inferent¸ǎ statisticǎ privind media populat¸iei dacǎ 

nu se cunoa¸ste abaterea standard a populat¸iei 

Pânǎ acum am prezentat douǎ tipuri de inferent¸ǎ statisticǎ privind media populat¸iei: 

evaluarea intervalului de încredere ¸si verificarea ipotezelor statistice. În cele douǎ 

tipuri de inferent¸e statistice abaterea standard σ este consideratǎ cunoscutǎ. În general 

însǎ abaterea standard σ nu este cunoscutǎ. Subiectul acestei sect¸iuni este inferent¸a 

statisticǎ privind media µ dacǎ abaterea standard σ nu este cunoscutǎ. 

Dacǎ dimensiunea e¸santionului este suficient de mare (în general vorbind, e¸santioane 

a cǎror mǎrimi este mai mare decât n = 30 de date sunt considerate suficient de mari), 

deviat¸ia standard s a e¸santionului este o estimare bunǎ a deviat¸iei standard a populat¸iei ¸si 

putem susbstitui σ cu s în procedura discutatǎ deja. Dacǎ populat¸ia pe care o investigǎm 

este aproape normalǎ ¸si n ≤ 30, atunci procedeul se bazeazǎ pe distribut¸ia Student t. 

Distribut¸ia Student t (sau simplu t distribut¸ia) este distribut¸ia statisticii t, definitǎ prin: 

t = 

x − µ 

s 

√ n 

În anul 1908 W.S. Gosset un funct¸ionar la o fabricǎ de bere în Irlanda a publicat o 

lucrare relativǎ la aceastǎ distribut¸ie sub pseudonimul ”Student”. În lucrarea lui Gosset 

se presupune cǎ populat¸ia este normalǎ. Aceastǎ restrict¸ie s-a dovedit ulterior restrictivǎ, 

întrucât se obt¸in rezultate satisfǎcǎtoare ¸si pentru multe populat¸ii care nu sunt normale. 

Ecuat¸ia care define¸ste distribut¸ia t nu o dǎm aici, doar dǎm câteva proprietǎt¸i ale lui t: 

1) distribut¸ia t are media 0; 

2) distribut¸ia t este simetricǎ fat¸ǎ de medie; 

3) distribut¸ia t are variant¸a supraunitarǎ, dar dacǎ dimensiunea e¸santionului cre¸ste, 

variant¸a tinde la 1; 

4) distribut¸ia t în jurul mediei este sub ¸si departe de medie este deasupra distribut¸iei 

normale; 

5) fiecǎrei mǎrimi de e¸santion îi corespunde o distribut¸ie t separatǎ care depinde de 

mǎrimea e¸santionului. Dacǎ mǎrimea e¸santionului cre¸ste atunci t- distribut¸ia tinde 

la distribut¸ia normalǎ. 

52

Figura 7: 

Cu toate cǎ pentru fiecare mǎrime de e¸santion (n=2,3,4,...) avem o distribut¸ie t separatǎ 

completǎ, în practicǎ doar anumite valori critice ale lui t sunt folosite. Aceste valori critice 

aflate în dreapta mediei sunt redate în tabelul urmǎtor: 

α 0,40 0,30 0.25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005 

df 

1 0,325 0,727 1,000 1,376 3,078 6,314 12,71 31,82 63,66 318,3 636,6 

2 0,289 0,617 0,816 1,061 1,886 2,920 4,303 6,965 9,925 22,33 31,60 

3 0,277 0,584 0,765 0,978 1,638 2,353 3,182 4,541 5,841 10,22 12,94 

4 0,271 0,569 0,741 0,941 1,533 2,132 2,776 3,747 4,604 7,173 8,610 

5 0,267 0,559 0,727 0,920 1,476 2,015 2,571 3,365 4,032 5,893 6,859 

6 0,265 0,553 0,718 0,906 1,440 1,943 2,447 3,143 3,707 5,208 5,959 

7 0,263 0,549 0,711 0,896 1,415 1,895 2,365 2,998 3,499 4,785 5,405 

8 0,262 0,546 0,706 0,889 1,397 1,860 2,306 2,896 3,355 4,501 5,041 

9 0,261 0,543 0,703 0,883 1,383 1,833 2,262 2,821 3,250 4,297 4,781 

10 0,260 0,542 0,700 0,879 1,372 1,812 2,228 2,764 3,169 4,144 4,587 

11 0,260 0,540 0,697 0,876 1,363 1,796 2,201 2,718 3,106 4,025 4,437 

12 0,259 0,539 0,695 0,873 1,356 1,782 2,179 2,681 3,055 3,930 4,318 

13 0,259 0,538 0,694 0,870 1,350 1,771 2,160 2,650 3,012 3,852 4,221 

14 0,258 0,537 0,692 0,868 1,345 1,761 2,145 2,624 2,977 3,787 4,140 

15 0,258 0,536 0,691 0,866 1,341 1,753 2,131 2,602 2,947 3,733 4,073 

16 0,258 0,535 0,690 0,865 l,337 1,746 2,120 2,583 2,921 3,686 4,015 

53

α 0,40 0,30 0,25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005 

df 

17 0,257 0,534 0,689 0,863 1,333 1,740 2,110 2,567 2,898 3,646 3,965 

18 0,257 0,534 0,688 0,862 1,330 1,734 2,101 2,552 2,878 3,611 3,922 

19 0,257 0,533 0,688 0,861 1,328 1,729 2,093 2,539 2,861 3,579 3,883 

20 0,257 0,533 0,687 0,860 1,325 1,725 2,086 2,528 2,845 3,552 3,850 

21 0,257 0,532 0,686 0,859 1,323 1,721 2,080 2,518 2,831 3,527 3,819 

22 0,256 0,532 0,686 0,858 1,321 1,717 2,074 2,508 2,819 3,505 3,792 

23 0,256 0,532 0,685 0,858 1,319 1,714 2,069 2,500 2,807 3,485 3,767 

24 0,256 0,531 0,685 0,857 1,318 1,711 2,064 2,492 2,797 3,467 3,745 

25 0,256 0,531 0,684 0,856 1,316 1,708 2,060 2,485 2,787 3,450 3,725 

26 0,256 0,531 0,684 0,856 1,315 1,706 2,056 2,479 2,779 3,435 3,707 

27 0,256 0,531 0,684 0,855 1,314 1,703 2,052 2,473 2,771 3,421 3,690 

28 0,256 0,530 0,683 0,855 1,313 1,701 2,048 2,467 2,763 3,408 3,674 

29 0,256 0,530 0,683 0,854 1,311 1,699 2,045 2,462 2,756 3,396 3,659 

z 0,256 0,530 0,674 0,854 1,310 1,697 2,042 2,457 2,750 3,385 3,646 

Figura 8: 

În acest tabel df are valorile de la 1 la 29 ¸si este numǎrul gradelor de libertate. 

Apropierea valorilor din liniile corespunzǎtoare lui df = 29 ¸si z se datoreazǎ faptului 

cǎ dacǎ n ≥ 30 distribut¸ia t este cea normalǎ (teorema limitǎ centralǎ). 

Gradul de libertate df este un parametru statistic care este greu de definit. El este un 

indice care se folose¸ste pentru a identifica distribut¸ia care trebuie folositǎ. În considerat¸iile 

noastre df = n − 1, unde n este mǎrimea e¸santionului. Valoarea criticǎ a testului t care 

trebuie folositǎ în estimarea intervalului de încredere precum ¸si în verificarea ipotezelor 

statistice se obt¸ine din tabelul prezentat. Pentru a obt¸ine aceastǎ valoare este nevoie de 

a cunoa¸ste: 

1) df - numǎrul gradelor de libertate; 

2) α aria determinatǎ de curba de repartit¸ie aflatǎ în dreapta valorii critice. Aceastǎ 

valoare este notatǎ t(df, α). 

54

Exemplul 17.1. Determinat¸i t(10, 0.05) din tabel. Avem df = 10 ¸si α = 0.05, deci 

t(10, 0.05) = 1.81. 

Valorile critice ale testului statistic t aflate în stânga mediei se obt¸in cu formula: −t(df, α), 

t¸inând seama de simetria distribut¸iei t. 

Figura 9: 

Se observǎ u¸sor cǎ −t(df, α) = t(df, 1 − α). Astfel: −t(df; 0, 05) = t(df; 0, 95). 

Exemplul 17.2. Determinat¸i t(15; 0, 95). Avem: t(15; 0, 95) = −t(15; 0, 05) = −1, 75. 

Figura 10: 

Statistica t este folositǎ în verificarea ipotezelor statistice privind asert¸iuni relative la 

media µ de aceea¸si manierǎ ca ¸si statistica z. 

Exemplul 17.3. Revenim la exemplul relativ la poluarea aerului; punctul de vedere al 

ecologistului este: ”nivelul monoxidului de carbon în aer este mai mare decât 4, 9/10 6 ”. 

Un e¸santion de 25 de determinǎri cu media x = 5, 1/10 6 ¸si s = 2, 1/10 6 este un argument 

suficient pentru a sust¸ine afirmat¸ia? Se folose¸ste nivelul de semnificat¸ie α = 0, 05. 

Etapa 1. H0 : µ = 4, 9/10 6 

Etapa 2. Ha : µ > 4, 9/10 6 

55

Etapa 3. α = 0, 05; df = 25 − 1 = 24 ¸si t(24; 0, 05) = 1, 71 din tabel. 

Etapa 4. 

t ∗ = 

x − µ 

s 

√ n 

= 5, 1 − 4, 9 

2, 1/ √ 25 

= 0, 20 

0, 42 

= 0, 476 � 0, 48 

Etapa 5. Decizia: Nu putem respinge H0 (t ∗ nu este în regiunea criticǎ). 

Concluzie: Nu avem suficiente argumente pentru ca sǎ respingem 

ipoteza cǎ nivelul monoxidului de carbon este 4, 96/10 6 . 

Figura 11: 

Remarca 17.1. Dacǎ valoarea df (df = n − 1) este mai mare ca 29, atunci valoarea 

criticǎ a lui t(df, α) este foarte apropiatǎ de z(α) (scorul z este listat la capǎtul tabelului) 

¸si prin urmare în loc de t(df, α) se folose¸ste z(α). Deoarece tabelul considerat cont¸ine doar 

valorile critice ale distribut¸iei t, p-valoarea nu poate fi gǎsitǎ din tabel în cazul verificǎrii 

ipotezei statistice pentru cǎ aceasta necesitǎ distribut¸ia t completǎ. P-valoarea poate fi 

însǎ estimatǎ folosind tabelul. 

Exemplul 17.4. Sǎ revenim la exemplul 17.3. Ret¸inem t ∗ = 0, 48, df = 24 ¸si Ha : µ > 49. 

Astfel pentru a rezolva problema folosind varianta probabilistǎ pentru Etapa 5 cu pvaloarea 

avem: 

p = P (t > 0, 48, ¸stiind df = 24) 

56

Figura 12: 

Rândul df = 24 din tabel aratǎ cǎ p-valoarea este mai mare ca 0, 25. Valoarea 0, 685 din 

tabel aratǎ cǎ P (t > 0, 685) = 0, 25 a¸sa cum aratǎ figura urmǎtoare: 

Figura 13: 

Comparând t ∗ = 0, 48, vedem cǎ p− valoarea este mai mare ca 0, 25. 

Exemplul 17.5. Sǎ se determine p−valoarea pentru urmǎtoarea ipotezǎ statisticǎ: 

în condit¸iile în care df = 15 ¸si t ∗ = −1, 84. 

H0 : µ = 55 

Ha : µ �= 55 

Solut¸ie: p = P (t < −1, 84) + P (t > 1, 84) = 2 · P (t > 1, 84). Rândul df = 15 din tabel 

aratǎ cǎ P (t > 1, 84) este între 0, 025 ¸si 0, 05. Prin urmare avem: 0, 05 

Media populat¸iei poate fi estimatǎ dacǎ σ este necunoscut de o manierǎ similarǎ cu cazul 

σ cunoscut. Diferent¸a este cǎ se folose¸ste distribut¸ia t în loc de distribut¸ia z ¸si deviat¸ia 

standard s ca estimare a lui σ. Formula pentru intervalul de încredere 1 − α este: 

� 

x − t(df, α s 

) · √ , x + t(df, 

2 n α 

� 

s 

) · √ 

2 n 

57

unde df = n − 1. 

Figura 14: 

Exemplul 17.6. În cazul unui e¸santion aleator de 20 de noi nǎscut¸i, media greutǎt¸ii lor 

este 3, 4 kg ¸si deviat¸ia standard este 0, 9 kg. Sǎ se estimeze cu o încredere de 95% media 

greutǎt¸ii noilor nǎscut¸i. 

Solut¸ie: x = 3, 4 kg, s = 0, 9 kg ¸si n = 20, iar 1 − α = 0, 95, implicǎ: α = 0, 05; df = 19, 

iar din tabel gǎsim: t(19; 0, 025) = 2, 09. Capetele intervalului sunt: 

x ± t(19; 0, 025) · s 

0, 9 

√ = 3, 4 ± 2, 09 · √ 

n 20 

3, 4 ± 2, 09 · 

0, 9 

4, 472 

Intervalul de încredere de 95% este (2, 94; 3, 86). 

58 

= 3, 4 ± 0, 46

18 Inferent¸ǎ relativǎ la variant¸ǎ ¸si estimarea variant¸ei 

Adesea se pun probleme care cer sǎ facem inferent¸ǎ asupra variant¸ei. De exemplu, o 

companie de produse rǎcoritoare are o ma¸sinǎ de îmbuteliat, care umple cu rǎcoritoare 

butelii de 0, 32 l= 32 cl. Cantitatea medie pusǎ în fiecare butelie este importantǎ, dar 

cantitatea medie corectǎ nu asigurǎ cǎ ma¸sina lucreazǎ corect. Dacǎ variant¸a este mare, 

vor fi multe butelii care sunt prea umplute ¸si multe butelii care nu sunt bine umplute. 

De aceea, compania dore¸ste sǎ controleze variant¸a σ 2 a cantitǎt¸ii x de rǎcoritoare pusǎ în 

fiecare butelie ¸si sǎ ment¸inǎ variant¸a la un nivel cât mai scǎzut posibil. 

Vom prezenta în aceastǎ sect¸iune o inferent¸ǎ privind variant¸a unei populat¸ii. Adesea în 

cazul acestei inferent¸e se vorbe¸ste despre deviat¸ia standard în loc de variant¸ǎ. Trebuie sǎ 

subliniem cǎ deviat¸ia standard este rǎdǎcinǎ pǎtratǎ a variant¸ei; a¸sadar a vorbi despre 

variant¸ǎ este comparabil cu a vorbi despre deviat¸ie standard. 

Sǎ revenim la exemplul companiei de produse rǎcoritoare. Sǎ ne imaginǎm cǎ aceastǎ 

companie dore¸ste sǎ detecteze când variabilitatea cantitǎt¸ii de rǎcoritoare pusǎ în fiecare 

butelie scapǎ de sub control. O variant¸ǎ de 0, 0004 este consideratǎ acceptabilǎ ¸si 

compania va regla ma¸sina de îmbuteliat dacǎ variant¸a devine mai mare decât aceastǎ 

valoare. Decizia va fi luatǎ folosind verificarea ipotezelor statistice. Ipoteza H0 este cǎ 

variant¸a are valoarea 0, 0004, iar ipoteza Ha este cǎ variant¸a depǎ¸se¸ste valoarea 0, 0004: 

H0 : σ 2 = 0, 0004 (variant¸a este controlatǎ) 

Ha : σ 2 > 0, 0004 (variant¸a nu este controlatǎ) 

Testul statistic care va fi folosit pentru a lua o decizie asupra ipotezei H0 este testul χ 2 . 

Valoarea calculatǎ a lui χ 2 se va obt¸ine folosind formula: 

χ 2 = 

n · s2 

σ 2 

unde s 2 este variant¸a e¸santionului, n este mǎrimea e¸santionului, iar σ 2 este valoarea 

specificatǎ în ipoteza nulǎ. 

Dacǎ se iau e¸santioane de mǎrime n dintr-o populat¸ie normalǎ, având variantǎ σ 2 , atunci 

cantitatea n·s 2 /σ 2 are o distribut¸ie care se nume¸ste distribut¸ia χ 2 . Formula care define¸ste 

distribut¸ia χ 2 nu o vom da aici, dar pentru a folosi distribut¸ia χ 2 , prezentǎm urmǎtoarele 

proprietǎt¸i ale acesteia: 

1. distribut¸ia χ 2 are valori nenegative, este zero sau este pozitivǎ; 

2. distribut¸ia χ 2 nu este simetricǎ, este asimetricǎ la dreapta; 

3. existǎ mai multe repartit¸ii χ 2 . Ca ¸si pentru distribut¸iile t existǎ o distribut¸ie χ 2 

pentru fiecare grad de libertate. Inferent¸a pe care o discutǎm aici se referǎ la cazul 

df = n − 1. 

Valorile critice ale lui χ 2 sunt date în tabelul urmǎtor: 

59

df/α 0.995 0.990 0.975 0.950 0.900 0.10 0.05 0.025 0.01 0.005 

2 0.01 0.020 0.050 0.103 0.211 4.61 6.0 7.38 9.21 10.6 

3 0.071 0.115 0.216 0.352 0.584 6.25 7.82 9.35 11.4 12.9 

4 0.207 0.297 0.484 0.711 1.06 7.78 9.50 11.1 13.3 14.9 

5 0.412 0.554 0.831 1.15 1.61 9.24 11.1 12.8 15.1 16.8 

6 0.676 0.872 1.24 1.64 2.20 10.6 12.6 14.5 16.8 18.6 

7 0.990 1.24 1.69 2.17 2.83 12.0 14.1 16.0 18.5 20.3 

8 1.34 1.65 2.18 2.73 3.49 13.4 15.5 17.5 20.1 22.0 

9 1.73 2.09 2.70 3.33 4.17 14.7 17.0 19.0 21.7 23.6 

10 2.16 2.56 3.25 3.94 4.87 16.0 18.3 20.5 23.2 25.2 

11 2.60 3.05 3.82 4.58 5.58 17.2 19.7 21.9 24.7 26.8 

12 3.07 3.57 4.40 5.23 6.30 18.6 21.0 23.3 26.2 28.3 

13 3.57 4.11 5.01 5.90 7.04 19.8 22.4 24.7 27.7 29.8 

14 4.07 4.66 5.63 6.57 7.79 21.1 23.7 26.1 29.1 31.3 

15 4.60 5.23 6.26 7.26 8.55 22.3 25.0 27.5 30.6 32.8 

16 5.14 5.81 6.91 7.96 9.31 23.5 26.3 28.9 32.0 34.3 

17 5.70 6.41 7.56 8.67 10.1 24.8 27.6 30.2 33.4 35.7 

18 6.26 7.01 8.23 9.39 10.9 26.0 28.9 31.5 34.8 37.2 

19 6.84 7.63 8.91 10.1 11.7 27.2 30.1 32.9 36.2 38.6 

20 7.43 8.26 9.59 10.9 12.4 28.4 31.41 34.2 37.6 40.0 

21 8.03 8.90 10.3 11.6 13.2 29.6 32.7 35.5 39.0 41.4 

22 8.64 9.54 11.0 12.3 14.0 30.8 33.9 36.8 40.3 42.8 

23 9.26 10.2 11.0 13.1 14.9 32.0 35.2 38.1 41.6 44.2 

24 9.89 10.9 12.4 13.9 15.7 33.2 36.4 39.4 43.0 45.6 

25 10.5 11.5 13.1 14.6 16.5 34.4 37.7 40.7 44.3 46.9 

26 11.2 12.2 13.8 15.4 17.3 35.6 38.9 41.9 45.6 48.3 

27 11.8 12.9 14.6 16.2 18.1 36.7 40.1 43.2 47.0 49.7 

28 12.5 13.6 15.3 16.9 18.9 37.9 41.3 44.5 48.3 51.0 

29 13.1 14.3 16.1 17.7 19.8 39.1 42.6 45.7 49.6 52.3 

30 13.8 15.0 16.8 18.5 20.6 40.3 43.8 47.0 50.9 53.7 

40 20.7 22.2 24.4 26.5 29.1 51.8 55.8 59.3 63.7 66.8 

50 28.0 29.7 32.4 34.8 37.7 63.2 67.5 71.4 76.2 79.5 

60 5.5 37.5 40.5 43.2 46.5 74.4 79.1 83.3 88.4 92.0 

70 43.3 45.4 48.8 51.8 55.3 85.5 90.5 95.0 100.0 104.0 

80 51.2 53.5 57.2 60.4 64.3 96.6 102.0 107.0 112.0 116.0 

90 59.2 61.8 65.7 69.1 73.3 108.0 113.0 118.0 124.0 128.0 

100 67.3 70.1 74.2 77.9 82.4 114.0 124.0 130.0 136.0 140.0 

60

Figura 15: 

Valorile critice vor fi identificate prin douǎ valori: grade de libertate ¸si aria situatǎ sub 

curbǎ în dreapta valorii critice. Astfel χ 2 (df, α) este simbolul folosit pentru identificarea 

valorii critice χ 2 cu df grade de libertate ¸si cu aria α sub grafic ¸si în dreapta, a¸sa cum 

este prezentat pe figura urmǎtoare: 

Figura 16: 

Exemplul 18.1. Folosind tabelul determinat¸i χ 2 (20; 0, 05) ¸si χ 2 (14; 0, 90). 

Din tabel se obt¸ine: χ 2 (20; 0, 05) = 31, 4 ¸si χ 2 (14; 0, 90) = 7, 79. 

Remarca 18.1. Dacǎ df > 2 valoarea medie a lui χ 2 este df. Valoarea medie este 

localizatǎ în dreapta modului (locul în care curba atinge valoarea maximǎ). 

61

Figura 17: 

Exemplul 18.2. Reluǎm cazul companiei de produse rǎcoritoare care doresc sǎ controleze 

variant¸a ca sǎ nu depǎ¸seascǎ 0, 0004. Un e¸santion de mǎrime 28 cu o variant¸ǎ de 0, 0010 

indicǎ oare la nivelul de semnificat¸ie 0, 05 cǎ procesul de îmbuteliere nu este sub control 

(referitor la variant¸ǎ)? 

Solut¸ie: 

Etapa 1. H0 : σ 2 = 0, 0004 (procesul este sub control) 

Etapa 2. H0 : σ 2 > 0, 0004 (procesul nu este sub control) 

Etapa 3. α = 0, 05, n = 28, df = 27 ¸si obt¸inem din tabel: 

Etapa 4. 

Etapa 5. Luarea deciziei. 

χ 2 ∗ = 

χ 2 (27; 0, 005) = 40, 1. 

n · s2 

σ 2 

Figura 18: 

62 

28 · 0, 0010 

= = 70 

0, 0004

Concluzia: Procesul de îmbuteliere este sub control în ceea ce prive¸ste variant¸a. 

Exemplul 18.3. Specificat¸iile unui anumit medicament indicǎ cǎ fiecare comprimat 

trebuie sǎ cont¸inǎ 2,5 g de substant¸ǎ activǎ. 100 de comprimate alese la întâmplare 

din product¸ie sunt analizate. Ele cont¸in în media 2,6 g de substant¸ǎ activǎ cu o deviat¸ia 

standard de s = 0, 4g. 

Se poate spune cǎ medicamentul respectǎ specificat¸iile (α = 0, 05)? 

Etapa 1. Ipoteza H0 este ca medicamentul respectǎ specificat¸iile: 

H0 : µ = 2, 5 

Etapa 2. Ipoteza Ha este ca medicamentul nu respectǎ specificat¸iile: 

H0 : µ �= 2, 5 

Etapa 3. Statistica folositǎ este media x, iar nivelul de semnificat¸ie este α = 0, 05. 

Regiunea criticǎ este: 

Etapa 4. Testul statistic este: 

z = 

x − µ 

s 

√ n 

= 2, 6 − 2, 5 

0, 4 

10 

= 0, 1 

0, 04 

= 2, 5 

Valoarea lui z în tabel este: z0,975 = 1, 96 < 2, 5. 

Etapa 5. Ipoteza H0 este respinsǎ, a¸sadar nu putem spune cǎ medicamentul 

respectǎ specificat¸iile. 

Abordarea probabilistǎ a inferent¸ei statistice asupra variant¸ei, p-valoarea poate fi estimatǎ 

pentru verificarea ipotezelor statistice folosind tabelul statistic χ 2 de aceea¸si manierǎ ca 

¸si în cazul testului Student. 

Exemplul 18.4. Sǎ se determine p-valoarea în cazul urmǎtoarelor ipoteze statistice: 

Se cunosc: df = 18 ¸si χ 2 ∗ = 32, 7. 

H0 : σ 2 = 150 

Ha : σ 2 > 150 

Solut¸ie: p = P (χ 2 > 32, 7) ∈ (0, 010; 0, 025) (date citite din tabel). 

Exemplul 18.5. Un parametru folosit în determinarea utilitǎt¸ii unui examen ca mǎsurǎ 

a abilitǎt¸ii student¸ilor este ”împrǎ¸stierea” rezultatelor. Un set de rezultate al unui test 

are valoare micǎ dacǎ plaja notelor este micǎ. Din contrǎ dacǎ plaja notelor este mare, 

este o diferent¸ǎ mare între rezultatul cel mai bun ¸si rezultatul cel mai slab, atunci testul 

are valoare mai mare. La un test la care nota maximǎ este de 100 de puncte s-a pretins 

cǎ o deviat¸ie standard de 12 puncte este de dorit. Pentru a vedea dacǎ un anume test 

de o orǎ a fost sau nu un test bun din acest punct de vedere un profesor verificǎ aceastǎ 

ipotezǎ statisticǎ la nivelul de semnificat¸ie α = 0, 05 folosind rezultatele obt¸inute de clasǎ. 

Au fost 28 de rezultate ¸si deviat¸ia standard gǎsitǎ a fost 10, 5. Constituie aceasta o probǎ 

la nivelul de semnificat¸ie α = 0, 05 cǎ examenul nu are deviat¸ia standard specificatǎ? 

Solut¸ie: n = 28, s = 10, 5 ¸si α = 0, 05 

Etapa 1. H0 : σ = 12 

63

Etapa 2. H0 : σ �= 12 

Etapa 3. α = 0, 05, df = 27 ¸si obt¸inem valorile critice din tabel: 

Etapa 4. 

χ 2 1(27; 0, 975) = 14, 6 ¸si χ 2 2(27; 0, 025) = 43, 2. 

χ 2 ∗ = 

n · s2 

σ 2 

28 · (10, 5)2 

= 

(12) 2 

= 3087 

144 

Etapa 5. Nu se poate respinge H0. 

Concluzie: Nu avem probe suficiente pentru a respinge ipoteza H0 

64 

= 21, 43

19 Generalitǎt¸i despre corelat¸ie. 

Corelat¸ie liniarǎ 

În statisticǎ adesea apar probleme de genul urmǎtor: pentru aceea¸si populat¸ie avem douǎ 

seturi de date corespunzǎtoare la douǎ variabile distincte ¸si se pune întrebarea dacǎ între 

cele douǎ variabile existǎ vreo legǎturǎ (relat¸ie)? Dacǎ da, care este aceastǎ relat¸ie? Cum 

sunt aceste variabile corelate? Relat¸iile pe care le discutǎm aici nu sunt neapǎrat de tip 

cauzǎ-efect. Ele sunt relat¸ii matematice care permit anticiparea comportamentului unei 

variabile în funct¸ie de comportamentul celeilalte. Iatǎ câteva exemple: 

Exemplul 19.1. 

- În general o persoanǎ care cre¸ste în înalt¸ime cre¸ste ¸si în greutate. Se pune întrebarea: 

existǎ vreo relat¸ie între înalt¸ime ¸si greutate? 

- Student¸ii î¸si petrec timpul la universitate învǎt¸ând sau dând examene. Se pune 

întrebarea: studiind mai mult, obt¸ii note mai mari? 

- Doctorii care testeazǎ un nou medicament prescriu cantitǎt¸i diferite ¸si observǎ 

rǎspunsul pacient¸ilor; se pune întrebarea: cantitatea de medicament prescrisǎ 

determinǎ oare timpul de însǎnǎto¸sire al pacientului? 

Problemele din exemplul precedent cer analiza corelat¸iei dintre douǎ variabile. 

În cazul în care pentru o populat¸ie avem douǎ seturi de date corespunzǎtoare la douǎ 

variabile distincte se formeazǎ perechile de date (x, y), în care x este valoarea primei 

variabile ¸si y este valoarea celei de-a doua variabile. De exemplu, x este înǎt¸imea ¸si y este 

greutatea. 

O pereche ordonatǎ de date (x, y) se nume¸ste datǎ bidimensionalǎ. 

În mod tradit¸ional, variabila X (având valorile x) se nume¸ste variabilǎ de intrare 

(variabilǎ independentǎ), iar variabila Y (având valorile y) se nume¸ste variabilǎ de 

ie¸sire (variabilǎ dependentǎ). 

Variabila de intrare X este cea mǎsuratǎ sau controlatǎ pentru a prezice variabila Y . 

În cazul testǎrii medicamentului doctorii (mǎsoarǎ) controleazǎ cantitatea de medicament 

prescrisǎ ¸si deci aceastǎ cantitate x este valoarea variabilei de intrare (independentǎ) X. 

Timpul de recuperare y este valoarea variabilei de ie¸sire (dependente) Y . 

În cazul înǎlt¸imii ¸si greutǎt¸ii oricare din variabile poate fi atât variabilǎ de intrare cât ¸si 

variabilǎ de ie¸sire. Rezultatele analizei vor fi însǎ funct¸ie de alegerea fǎcutǎ. 

În cazul problemelor de analizǎ a corelat¸iei dintre douǎ variabile datele e¸santionului se 

prezintǎ sub forma unei diagrame de împrǎ¸stiere. 

Definit¸ia 19.1. O diagramǎ de împrǎ¸stiere sau nor de puncte este reprezentarea 

graficǎ a perechilor de date într-un sistem de coordonate ortogonal. Valorile x ale variabilei 

de intrare X sunt reprezentate pe axa Ox, iar valorile y ale variabilei de ie¸sire Y sunt 

reprezentate pe axa Oy. 

65

Exemplul 19.2. Pentru un e¸santion de 15 student¸i urmǎtorul tabel de date reprezintǎ 

numǎrul de ore de studiu x pentru un examen ¸si nota y obt¸inutǎ la acel examen: 

x 2 3 3 4 4 5 5 6 6 6 7 7 7 8 8 

y 5 5 7 5 7 7 8 6 9 8 7 9 10 8 9 

Diagrama de împrǎ¸stiere în acest caz este: 

Exemplul 19.3. Diagrama de împrǎ¸stiere în cazul tabelului de date: 

este: 

x 2 12 4 6 9 4 11 3 10 11 3 1 13 12 14 7 2 8 

y 4 8 10 9 10 8 8 5 10 9 8 3 9 8 8 11 6 9 

Analiza de corelat¸ie are ca obiectiv sǎ stabileascǎ legǎtura dintre cele douǎ variabile. 

Vom prezenta câteva diagrame de împrǎ¸stiere pentru a ilustra corelat¸ii posibile dintre 

variabila de intrare X ¸si variabila de ie¸sire Y . 

Definit¸ia 19.2. Dacǎ pentru valorile x crescânde ale variabilei de intrare X nu existǎ o 

deplasare clarǎ (bine definitǎ) ale valorilor y ale variabilei Y , atunci zicem cǎ nu avem 

corelat¸ie sau cǎ nu existǎ legǎturǎ între X ¸si Y . 

66

Diagrama de împrǎ¸stiere în cazul în care nu avem corelat¸ie este urmǎtoarea: 

Definit¸ia 19.3. Dacǎ pentru valorile x crescânde ale variabilei de intrare X existǎ o 

deplasare clarǎ (bine definitǎ) ale valorilor y ale variabilei Y zicem cǎ avem o corelat¸ie. 

Zicem cǎ avem o corelat¸ie pozitivǎ dacǎ y tinde sǎ creascǎ ¸si avem o corelat¸ie 

negativǎ dacǎ y tinde sǎ descreascǎ odatǎ cu cre¸sterea lui x. 

Precizia schimbǎrii lui y atunci când x cre¸ste determinǎ cât de puternicǎ este corelat¸ia. 

Diagramele de împrǎ¸stiere care urmeazǎ ilustreazǎ aceste idei: 

Figura 19: Diagramǎ de împrǎ¸stiere în cazul unei corelat¸ii pozitive 

67

Figura 20: Diagramǎ de împrǎ¸stiere în cazul unei corelat¸ii pozitive strânse 

Figura 21: Diagramǎ de împrǎ¸stiere în cazul unei corelat¸ii negative 

Figura 22: Diagramǎ de împrǎ¸stiere în cazul unei corelat¸ii negative strânse 

Definit¸ia 19.4. Dacǎ perechile (x, y) tind sǎ urmeze o dreaptǎ zicem cǎ avem o corelat¸ie 

liniarǎ. 

Definit¸ia 19.5. Dacǎ toate perechile (x, y) se gǎsesc pe o dreaptǎ (care nu este nici 

orizontalǎ nici verticalǎ) atunci zicem cǎ avem o corelat¸ie liniarǎ perfectǎ. 

68

Figura 23: Diagramǎ de împrǎ¸stiere în cazul unei corelat¸ii pozitive liniare perfecte 

Remarca 19.1. Dacǎ toate perechile (x, y) se gǎsesc pe o dreaptǎ orizontalǎ sau verticalǎ 

nu existǎ corelat¸ie intre cele douǎ variabile. Aceasta întrucât schimbarea uneia nu 

afecteazǎ valoarea celeilalte variabile. 

Remarca 19.2. Diagramele de împrǎ¸stiere nu sunt totdeauna de genul celor prezentate 

pânǎ acum ¸si sugereazǎ corelat¸ii care sunt de altǎ naturǎ. 

Figura 24: Diagramǎ de împrǎ¸stiere în cazul unei corelat¸ii neliniare 

Definit¸ia 19.6. Coeficientul de corelat¸ie liniarǎ r mǎsoarǎ cât de puternicǎ este 

corelat¸ia liniarǎ dintre cele douǎ variabile. Reflectǎ consistent¸a efectului pe care-l are 

schimbarea valorii variabilei independente X asupra variabilei dependente Y . 

Remarca 19.3. Valoarea coeficientului de corelat¸ie liniarǎ r permite sǎ se formuleze 

un rǎspuns la întrebarea: existǎ o corelat¸ie liniarǎ între cele douǎ variabile considerate? 

Coeficientul de corelat¸ie liniarǎ r are valoarea între −1 ¸si +1. Valoarea r = +1 înseamnǎ 

o corelat¸ie liniarǎ pozitivǎ perfectǎ, iar valoarea r = −1 înseamnǎ o corelat¸ie liniarǎ 

negativǎ perfectǎ. 

Dacǎ pentru x crescând rezultǎ o cre¸stere generalǎ a valorilor lui y, atunci r indicǎ o 

corelat¸ie liniarǎ pozitivǎ. 

De exemplu, în cazul copiilor dacǎ x este vârsta ¸si y este înǎlt¸imea, atunci ne a¸steptǎm ca 

r sǎ fie pozitiv, pentru cǎ în mod natural, înǎt¸imea copilului cre¸ste o datǎ cu vârsta. În 

69

cazul automobilelor de serie, dacǎ x este vârsta, iar y este valoarea, atunci ne a¸steptǎm 

ca r sǎ fie negativ pentru cǎ în mod uzual valoarea automobilului descre¸ste cu vârsta lui. 

Definit¸ia 19.7. Coeficientul de corelat¸ie liniarǎ r în cazul unui e¸santion este prin 


� 

(x − x) · (y − y) 

r = 

n · sx · sy 

în care sx, sy sunt deviat¸iile standard ale variabilelor x, y, iar n este numǎrul de perechi 

(x, y). 

Remarca 19.4. Pentru a calcula r de obicei se folose¸ste o formulǎ alternativǎ echivalentǎ: 

unde: SS(x) = � x2 − 1 

n · 

� 1 

x · y − 

n · 

�� 

x · y . 

r = 

SS(x, y) 

� SS(x) · SS(Y ) 

�� 2 x , SS(y) = � y2 − 1 

n · 

�� 2 y , SS(x, y) = 

Exemplul 19.4. Sǎ se determine coeficientul de corelat¸ie liniarǎ r în cazul unui e¸santion 

aleator de mǎrime 10, dacǎ tabelul de date este: 

Folosind aceste date avem: 

de unde gǎsim: 

x 27 22 15 35 30 52 35 55 40 40 

y 30 26 25 42 38 40 32 54 50 43 

SS(x) = 1396, 9 SS(y) = 858, 0 SS(x, y) = 919, 0 

r = 

919, 0 

� (1396, 9) · (858, 0) = 0, 8394 ≈ 0, 84. 

Remarca 19.5. Dacǎ valoarea calculatǎ r este apropiatǎ de 0, atunci nu existǎ corelat¸ie 

liniarǎ. 

Dacǎ valoarea calculatǎ r este aproape de +1 sau −1, atunci bǎnuim cǎ între cele douǎ 

variabile exista corelat¸ie liniarǎ. 

Între 0 ¸si 1 existǎ o valoare numitǎ punct de decizie care indicǎ dacǎ existǎ sau nu existǎ 

corelat¸ie liniarǎ. Un punct simetric existǎ ¸si între −1 ¸si 0. Valoarea punctului de decizie 

depinde de mǎrimea e¸santionului. 

În tabelul urmǎtor sunt trecute puncte de decizie pozitive pentru diferite mǎrimi de 

e¸santionare cuprinse între 5 ¸si 100. 

70

n punct de n punct de n punct de n punct de 

decizie decizie decizie decizie 

5 0,878 12 0,576 19 0,456 30 0,301 

6 0,811 13 0,553 20 0,444 40 0,312 

7 0,754 14 0,532 22 0,423 50 0,279 

8 0,707 15 0,514 24 0,404 60 0,254 

9 0,666 16 0,497 26 0,388 80 0,220 

10 0,632 17 0,482 28 0,374 100 0,196 

11 0,602 18 0,468 

Tabelul 1:Punctele de decizie pozitive pentru corelat¸ie liniarǎ 

Valorile punctelor de decizie descresc dacǎ n cre¸ste. 

Dacǎ r se gǎse¸ste între punctul de decizie negativ ¸si cel pozitiv nu avem argumente ca sǎ 

sust¸inem cǎ între cele douǎ variabile existǎ o corelat¸ie liniarǎ. 

Dacǎ r este mai mare decât punctul de decizie pozitiv sau mai mic decât punctul de 

decizie negativ atunci între cele douǎ variabile existǎ o corelat¸ie liniarǎ. 

Existent¸a unei corelat¸ii între cele douǎ variabile nu înseamnǎ cǎ existǎ o relat¸ie 

cauzǎ efect. Astfel, de exemplu, dacǎ X este alocat¸ia pentru copii în ultimii 10 ani ¸si 

Y este consumul de bǎuturi alcoolice în ultimii 10 ani, un e¸santion de aceste date aratǎ 

o corelat¸ie pozitivǎ strânsǎ fǎrǎ ca alocat¸ia pentru copii sǎ fie cauza vânzǎrii bǎuturilor 

alcoolice sau viceversa. 

O metodǎ rapidǎ de estimare a coeficientului de corelat¸ie liniarǎ r în cazul unui e¸santion 

este urmǎtoarea: 

a) Se deseneazǎ o curbǎ închisǎ în jurul valorii mult¸imii de perechi (x, y): 

71

) Se determinǎ lungimea D a diametrului maxim: 

c) Se determinǎ lungimea diametrului minim d: 

� 

d) Valoarea r se estimeazǎ cu ± 1 − d 

orientarea diametrului D: 

D 

� 

, în care semnul se alege în funct¸ie de 

Trebuie subliniat cǎ aceastǎ estimare este grosierǎ. Este foarte sensibilǎ la împrǎ¸stiere. 

Cu toate acestea dacǎ plaja de valori a lui X este aproximativ aceea¸si ca plaja de valori 

a lui Y aproximat¸ia este utilǎ. 

72

20 Analizǎ de corelat¸ie liniarǎ 

În sect¸iunea 20 am vǎzut care este formula coeficientului de corelat¸ie liniarǎ r între douǎ 

variabile X, Y menit sǎ mǎsoare cât de strânsǎ este relat¸ia de dependent¸ǎ liniarǎ dintre 

cele douǎ variabile. 

În cele ce urmeazǎ vom prezenta o analizǎ mai amǎnunt¸itǎ a acestei formule. Considerǎm 

pentru ilustrat¸ie urmǎtorul set de date bidimensionale: 

Diagrama de împrǎ¸stiere în acest caz este: 

x 2 3 6 8 11 12 

y 1 5 3 2 6 1 

Media x a variabilei x este 7: x = 7, iar media variabilei y este 3: y = 3. 

Punctul (x, y) este punctul (7, 3) ¸si se nume¸ste centroid al datelor: 

73

Dacǎ prin punctul de coordonate (x, y) se duc paralele la axele de coordonate, setul de 

date se împarte în patru submult¸imi. Fiecare datǎ (x, y) se gǎse¸ste la o anumitǎ distant¸ǎ 

de aceste linii; x − x este distant¸a cu semn de la (x, y) la paralela la axa Oy ¸si y − y 

este distant¸ǎ cu semn de la (x, y) la paralela Ox. distant¸ele cu semn sunt pozitive sau 

negative în funct¸ie de pozit¸ia lui (x, y) fat¸ǎ de (x, y). 

O mǎsurǎ a dependent¸ei liniare ar putea fi covariant¸a. Covariant¸a dintre X ¸si Y este 

definitǎ ca suma produselor distant¸elor cu semn x−x ¸si y −y a tuturor datelor la centroid 

împǎrt¸itǎ la n: 

n� 

(xi − x) · (yi − y) 

covar(x, y) = 

n 

Covariant¸a în cazul tabelului de date considerate este 0, 6. 

i=1 

Covariant¸a pozitivǎ înseamnǎ cǎ diagrama de dispersie este dominatǎ de date care se 

gǎsesc deasupra ¸si în dreapta centroidului sau dedesubt ¸si în stânga acestuia. Aceasta 

întrucât produsele (x − x) · (y − y) în puncte din aceste regiuni sunt pozitive. 

Dacǎ diagrama de dispersie este dominatǎ de date care se gǎsesc deasupra ¸si în stânga sau 

dedesubt ¸si în dreapta centroidului atunci covariant¸a este negativǎ pentru cǎ produsele 

(x − x) · (y − y) pentru puncte din aceste regiuni sunt negative. 

Covariant¸a însǎ nu este convenabilǎ pentru a mǎsura cât este de strânsǎ relat¸ia de 

dependent¸ǎ liniarǎ între douǎ variabile fiindcǎ depinde de unitǎt¸ile de mǎsurǎ ale datelor. 

Covariant¸a nu are o unitate de mǎsurǎ standardizatǎ ¸si împrǎ¸stierea datelor influent¸eazǎ 

foarte mult mǎrimea covariant¸ei. 

Astfel de exemplu dacǎ înmult¸im datele din tabelul considerat anterior cu 10 obt¸inem 

tabelul de date: 

x 20 30 60 80 110 120 

y 10 50 30 20 60 10 

Covariant¸a în cazul acestui tabel de date este 60, dar aceasta nu înseamnǎ nicidecum cǎ 

relat¸ia de dependent¸ǎ liniarǎ între X, Y este mai strânsǎ. Relat¸ia de dependent¸ǎ liniarǎ 

74

este aceea¸si ¸si doar datele sunt mai împrǎ¸stiate. Aceasta este problema cu covariant¸a 

atunci când vrem sǎ mǎsurǎm cu ajutorul ei dependent¸a liniarǎ între douǎ variabile. 

Trebuie sǎ gǎsim o cale de eliminare a efectului împrǎ¸stierii datelor atunci când mǎsurǎm 

dependent¸a. 

Dacǎ standardizǎm X ¸si Y împǎrt¸ind deviat¸ia fiecǎreia de la media sa cu deviat¸ia 

standard: 

x ′ x − x 

= ¸si y ′ y − y 

= 

sx 

¸si calculǎm covariant¸a lui X ′ ¸si Y ′ , vom avea o covariant¸ǎ care nu mai este influent¸atǎ de 

împrǎ¸stierea datelor. Exact acest lucru este realizat prin introducerea coeficientului de 

corelat¸ie liniar r. Astfel coeficientul de corelat¸ie liniar este: 

r = covar(X ′ , Y ′ ) = 

sy 

covar(X, Y ) 

sx · sy 

Coeficientul de corelat¸ie liniarǎ standardizeazǎ mǎsura dependent¸ei ¸si ne permite sǎ comparǎm 

cât de strânsǎ este dependent¸a liniarǎ a diferitelor seturi de date bidimensionale. 

Formula coeficientului de corelat¸ie liniarǎ adesea poartǎ denumirea de momentul produs 

Pearson. 

Valoarea coeficientului de corelat¸ie liniarǎ r în cazul setului de date considerat la început 

este: 

0, 6 

r = 

= 0, 07 

(4, 099) · (2, 098) 

Pentru cǎ determinarea coeficientului de corelat¸ie liniarǎ cu ajutorul formulei: 

r = 

covarX, Y 

sx · sy 

este greoaie, în locul ei se folose¸ste una practicǎ: 

r = 

SS(X, Y ) 

� SS(X) · SS(Y ) 

Aceasta din urmǎ formulǎ evitǎ calculul separat al lui x, y, sx, sy precum ¸si calculul 

deviat¸iilor de la medie. 

75

21 Inferent¸ǎ privind coeficientul de corelat¸ie liniarǎ 

Dupǎ ce coeficientul de corelat¸ie liniarǎ r a fost calculat pentru un e¸santion se pune în 

mod natural întrebarea: valoarea lui r indicǎ oare cǎ existǎ o dependent¸ǎ liniarǎ între 

cele douǎ variabile în cazul populat¸iei din care e¸santioanele au fost luate? 

Pentru a rǎspunde la aceastǎ întrebare facem o verificare a ipotezelor statistice. 

Etapa 1. Formularea ipotezei nule H0: 

”Cele douǎ variabile sunt liniar necorelate.” 

Aceasta înseamnǎ ρ = 0, ρ fiind coeficientul de corelat¸ie pentru 

populat¸ie. 

Etapa 2. Formularea ipotezei alternative. 

Aceasta poate fi unilateralǎ sau bilateralǎ. Cel mai frecvent este 

bilateralǎ ρ �= 0. Cu toate acestea dacǎ suspectǎm cǎ avem doar o 

singurǎ corelat¸ie pozitivǎ ori o singurǎ corelat¸ie negativǎ trebuie sǎ 

folosim test unilateral. Ipoteza alternativǎ în cazul testului unilateral 

este: ρ > 0 sau ρ < 0. 

Etapa 3. Regiunea criticǎ pentru testul statistic este în partea dreaptǎ dacǎ ne 

a¸steptǎm la o corelat¸ie pozitivǎ ¸si este în stânga dacǎ ne a¸steptǎm la o 

corelat¸ie negativǎ. 

Testul statistic folosit pentru testarea ipotezei nule este scorul standard ¸si valoarea testului 

statistic este valoarea lui r calculatǎ din e¸santion. Valorile critice pentru r se gǎsesc 

în urmǎtorul tabel la intersect¸ia coloanei corespunzǎtoare valorii lui α ¸si a liniei corespunzǎtoare 

gradului de libertate df = n − 2: 

76

Valorile critice pentru r dacǎ ρ = 0 

df|α 0,10 0,05 0,02 0,01 

1 0,988 0,997 1,000 1,000 

2 0,900 0,950 0,980 0,980 

3 0,805 0,878 0,934 0,959 

4 0,729 0,811 0,882 0,917 

5 0,669 0,754 0,833 0,874 

6 0,662 0,707 0,789 0,834 

7 0,582 0,666 0,750 0,798 

8 0,549 0,632 0,716 0,765 

9 0,521 0,602 0,685 0,735 

10 0,497 0,576 0,658 0,708 

11 0,476 0,553 0,634 0,684 

12 0,458 0,532 0,612 0,661 

13 0,441 0,514 0,592 0,641 

14 0,426 0,497 0,574 0,623 

15 0,412 0,482 0,558 0,606 

16 0,400 0,468 0,542 0,590 

17 0,389 0,456 0,528 0,575 

18 0,378 0,444 0,516 0,561 

19 0,369 0,433 0,503 0,549 

20 0,360 0,423 0,492 0,537 

25 0,323 0,381 0,445 0,487 

30 0,296 0,349 0,409 0,449 

35 0,275 0,325 0,381 0,418 

40 0,257 0,304 0,358 0,393 

45 0,243 0,288 0,338 0,372 

50 0,231 0,273 0,322 0,354 

60 0,211 0,250 0,295 0,325 

70 0,195 0,232 0,274 0,302 

80 0,183 0,217 0,256 0,283 

90 0,173 0,205 0,242 0,267 

100 0,164 0,195 0,230 0,254 

Valorile din acest tabel sunt valori critice pentru r pentru un test bilateral. 

Pentru un test unilateral valoarea lui α este dublul valorii lui α ce se folose¸ste în verificarea 

ipotezelor statistice. 

Etapa 4. Se determinǎ r din e¸santion. 

Etapa 5. Se determinǎ dacǎ r este în regiunea criticǎ sau nu. 

Neacceptarea ipotezei nule înseamnǎ cǎ existǎ o probǎ a dependent¸ei dintre cele douǎ 

variabile ale populat¸iei 

Ment¸iune: Aceasta nu înseamnǎ cǎ am stabilit o relat¸ie de tip cauzǎ efect ci 

doar o relat¸ie matematicǎ care permite sǎ se prezicǎ comportamentul variabilei 

77

de ie¸sire Y din comportamentul variabilei de intrare X. 

Exemplul 21.1. 

În cazul tabelului de date: 

x 2 3 6 8 11 12 

y 1 5 3 2 6 1 

avem n = 6, iar r = 0, 07. Întrebarea este dacǎ aceastǎ valoare a lui r diferǎ de zero în 

mod semnificativ dacǎ nivelul de semnificat¸ie este α = 0, 02? 

Etapa 1. H0 : ρ = 0 

Etapa 2. H0 : ρ �= 0 

Etapa 3. Avem α = 0, 02 ¸si df = n − 2 = 6 − 2 = 4. Valorile critice din tabel 

sunt: −0, 882 ¸si 0, 882. 

Etapa 4. Valoarea calculatǎ a lui r este r ∗ = 0, 07 

Etapa 5. Se acceptǎ H0. 

Concluzie: Nu am putut arǎta cǎ X, Y sunt corelate. Dacǎ acceptǎm ipoteza nulǎ 

înseamnǎ cǎ independent¸a liniarǎ dintre cele douǎ variabile a fost arǎtatǎ. 

Ca ¸si în alte probleme, uneori se cere estimarea unui interval de încredere pentru 

coeficientul de corelat¸ie ρ. Este posibilǎ estimarea coeficientului de corelat¸ie ρ folosind 

un tabel care ne dǎ centuri de încredere. Tabelul urmǎtor reprezintǎ asemenea centuri 

de încredere pentru intervale de încredere de 95%: Exemplul urmǎtor aratǎ cum trebuie 

citit un asemenea tabel. 

Exemplul 21.2. Pentru un e¸santion de 15 perechi de date o valoare calculatǎ a lui r este 

r = 0, 35. Sǎ se determine intervalul de încredere 95% pentru coeficientul de corelat¸ie 

liniar ρ a populat¸iei? 

1) Se localizeazǎ 0, 35 pe axa orizontalǎ (axa coeficientului de corelat¸ie liniarǎ) ¸si se 

duce linia verticalǎ. 

78

2) Se determinǎ intersect¸ia liniei verticale cu centurile corespunzǎtoare mǎrimii 

e¸santionului (aceasta fiind 15) ¸si se obt¸in douǎ puncte pe linia verticalǎ. 

3) Intervalul de încredere este intervalul determinat de ordonatele acestor puncte 

(−0, 20, −0, 72) (axa ordonatelor este axa coeficientului de corelat¸ie a populat¸iei). 

79

22 Regresie liniarǎ 

Dacǎ valoarea coeficientului de corelat¸ie liniarǎ r indicǎ o corelat¸ie liniarǎ strânsǎ atunci se 

pune problema stabilirii unei relat¸ii numerice exacte. Aceastǎ relat¸ie exactǎ este obt¸inutǎ 

prin regresie liniarǎ. 

În general statisticianul cautǎ o ecuat¸ie care exprimǎ relat¸ia dintre douǎ variabile. Ecuat¸ia 

aleasǎ este cea mai bunǎ fitare a diagramei de dispersie. Ecuat¸iile gǎsite se numesc ecuat¸ii 

de predict¸ie, iar în continuare sunt prezentate câteva asemenea ecuat¸ii: 

y = b0 + b1 · x - liniarǎ 

y = a + b · x + c · x 2 - pǎtraticǎ 

y = a · b x - exponent¸ialǎ 

y = a · log b x - logaritmicǎ. 

Obiectivul final este ca folosind ecuat¸ii sǎ se facǎ predict¸ii. În general valoarea exactǎ a 

variabilei Y nu este prezisǎ. Ne mult¸umim dacǎ predict¸ia este suficient de apropiatǎ. 

Definit¸ia 22.1. Regresia liniarǎ stabile¸ste dependent¸a liniarǎ în medie a lui y în funct¸ie 

de x. 

Vom descrie în continuare cum se stabile¸ste cea mai bunǎ dependent¸ǎ liniarǎ pentru un 

set de date (x, y). 

Dacǎ relat¸ia de dependent¸ǎ liniarǎ pare potrivitǎ, cea mai bunǎ relat¸ie liniarǎ se stabile¸ste 

cu metoda celor mai mici pǎtrate. 

Sǎ presupunem cǎ ˆy = b0 + b1 · x este cea mai bunǎ relat¸ie liniarǎ. Metoda celor mai mici 

pǎtrate cere ca b0 ¸si b1 sǎ fie astfel încât � (y − ˆy) 2 sǎ fie minimǎ. 

Din teorema lui Fermat rezultǎ cǎ valorile minime ale funct¸iei: 

se obt¸in pentru 

b1 = 

F (b0, b1) = � (y − b0 − b1 · x) 2 

� 

(x − x) · (y − y) 

� , b0 = 

(x − x) 2 1 

n · 

�� 

y − b1 · � � 

x 

b1 este panta dreptei, iar b0 este ordonata la origine. 

Pentru determinarea pantei b1 de obicei se folose¸ste formula echivalentǎ: 

b1 = 

SS(x, y) 

SS(x) 

�� 2 x ¸si SS(x, y) = � x · y − 1 

�� 

x · y . 

unde: SS(x) = � x2 − 1 

n · 

n · 

Ment¸ionǎm aici cǎ expresiile SS(x, y) ¸si SS(x) apar ¸si în formula de calcul al coeficientului 

de corelat¸ie liniarǎ. De aceea în momentul calculǎrii lui r putem afla ¸si valoarea pantei 

b1. 

80

Exemplul 22.1. În cazul unui e¸santion de 10 indivizi considerǎm urmǎtorul set de date. 

x 27 22 15 35 30 52 35 55 40 40 

y 30 26 25 42 38 40 32 54 50 43 

Pentru a determina cea mai bunǎ relat¸ie liniarǎ ˆy = b0 + b1 · x se calculeazǎ SS(x, y) ¸si 

SS(x) ¸si se obt¸ine: 

SS(x, y) = 919, 0 ¸si SS(x) = 1396, 9 

de unde panta b1 este: 

b1 = 

919, 0 

1396, 9 

= 0, 6599 ≈ 0, 66. 

Pentru a determina ordonata în origine b0 se folose¸ste formula de calcul a acesteia ¸si 

rezultǎ: 

b0 = 1 

[380 − 0, 65 · 351] = 14, 9077 ≈ 14, 9 

10 

Astfel cea mai bunǎ relat¸ie liniarǎ este: 

Remarca 22.1. 

ˆy = 14, 9 + 0, 66 · x 

a) Panta b1 reprezintǎ schimbarea prezisǎ a variabilei y corespunzǎtoare unei cre¸steri 

cu o unitate a variabilei x. 

b) Ordonata b0 reprezintǎ valoarea lui y în x = 0. Doar dacǎ x = 0 este în domeniul 

de date putem spune cǎ b0 este valoarea prezisǎ a lui y pentru x = 0. 

c) Cea mai bunǎ relat¸ie liniarǎ este o dreaptǎ ce trece prin punctul de coordonate 

(x, y). Acest fapt poate fi utilizat ca verificare atunci când se traseazǎ graficul celei 

mai bune relat¸ii liniare. 

Exemplul 22.2. În cazul unui e¸santion aleator de 8 indivizi considerǎm urmǎtorul tabel 

de date 

x 65 65 62 67 69 65 61 67 

y 105 125 11 120 140 135 95 130 

Diagrama de împrǎ¸stiere a acestui set de date sugereazǎ o corelat¸ie liniarǎ. 

81

Pentru a gǎsi cea mai bunǎ relat¸ie de dependent¸ǎ liniarǎ calculǎm SS(x, y) ¸si SS(x) ¸si 

gǎsim: 

SS(x, y) = 230, 0 ¸si SS(x) = 48, 875 

De aici avem: 

de unde: 

b0 = 1 

n 

b1 = 

230, 0 

48, 875 

= 4, 706 ≈ 4, 71. 

�� 

y − b1 · � � 

x = −186, 478 ≈ 186, 5 

ˆy = −186, 5 + 4, 71 · x 

Remarca 22.2. O estimare ”grosierǎ” a celei mai bune relat¸ii de dependent¸ǎ liniarǎ se 

poate face în felul urmǎtor: 

- ca ¸si în cazul aproximǎrii coeficientului de corelat¸ie r se considerǎ o curbǎ închisǎ 

în jurul mult¸imii de perechi (x, y); 

- diametrul maxim al mult¸imii este o aproximare a graficului de dependent¸ǎ liniarǎ; 

- se scrie ecuat¸ia de dependent¸ǎ liniarǎ ca ecuat¸ia unei drepte ce trece prin douǎ 

puncte de pe acest diametru; 

- ca ¸si în cazul estimǎrii lui r aceastǎ estimare este una grosierǎ ¸si trebuie folositǎ ca 

atare. 

82

23 Analizǎ de regresie liniarǎ 

Modelul liniar folosit pentru a explica dependent¸a liniarǎ a douǎ variabile referitoare la 

aceea¸si populat¸ie este definit de ecuat¸ia: 

y = β0 + β1 · x + ε 

Aceastǎ ecuat¸ie reprezintǎ relat¸ia liniarǎ dintre douǎ variabile x ¸si y într-o populat¸ie. În 

aceastǎ relat¸ie: 

- β0 este ordonata la origine; 

- β1 este panta; 

- y este valoarea observatǎ la o valoare datǎ a lui x; 

- β0 + β · x este media lui y pentru valoarea datǎ a lui x 

Remarcǎm cǎ eroarea ε depinde de x. Pentru valorile x1, x2, . . . , xn ale lui x modelul liniar 

se scrie: 

yi = β0 + β1 · xi + εi, i = 1, 2, . . . , n 

- ε este eroarea aleatoare a valorii observate y la o valoare datǎ a lui x care reprezintǎ 

deviat¸ia valorii observate y de la medie. 

Dreapta de regresie liniarǎ obt¸inutǎ ˆy = b0 + b1 · x pe baza datelor (xi, yi), i = 1, 2, . . . , n 

ne dǎ b0 care este o estimare pentru β0 ¸si b1 care este o estimare pentru β1. Atunci vom 

putea scrie yi = b0 + b · xi + ei. Erorile sunt estimate prin yi − ˆyi care este diferent¸a 

dintre valoarea observatǎ yi ¸si valoarea prezisǎ ˆyi a lui y la o valoare datǎ a lui x. Fiindcǎ 

ˆyi = b0 + b1 · xi avem cǎ: 

ei = yi − ˆyi 

Erorile ei sunt cunoscute sub numele de reziduuri. 

Variabila aleatoare e are urmǎtoarele proprietǎt¸i: 

• e > 0 ⇐⇒ y > ˆy; 

• e < 0 ⇐⇒ y < ˆy; 

• pentru un x dat suma erorilor (reziduurilor) pentru diferite valori ale lui i este zero; 

aceasta este o consecint¸ǎ a metodei celor mai mici pǎtrate; ¸si astfel media erorilor 

n� 

experimentale este zero: ei = 0. 

i=1 

Notǎm cu σ 2 ε variant¸a erorilor aleatoare a datelor observate ¸si ne propunem sǎ estimǎm 

aceastǎ variant¸ǎ. 

Înainte însǎ sǎ trecem la estimarea variant¸ei σ 2 ε sǎ analizǎm put¸in ce reprezintǎ eroarea 

ε? ε reprezintǎ diferent¸a dintre valoarea observatǎ y ¸si valoarea medie a lui y pentru o 

valoare datǎ a lui x. Întrucât nu cunoa¸stem valoarea medie a lui y, vom folosi ecuat¸ia de 

regresie, iar valoarea medie a lui y pentru un x dat, o vom estima cu ˆy valoarea prezisǎ 

de ecuat¸ia de regresie a lui y pentru acest x. Astfel estimarea lui ε este e = y − ˆy. 

83

Dacǎ pentru o valoare datǎ x avem mai multe valori observate y acestea pot fi reprezentate 

pe verticala în x pe axa Ox. 

O distribut¸ie similarǎ apare la fiecare valoare a lui x. Valoarea medie a datelor y observate 

depinde de x ¸si se estimeazǎ cu ˆy. 

Altfel spus, deviat¸ia standard a distribut¸iei datelor y de la medie este aceea¸si pentru orice 

x: 

84

Reamintim cǎ variant¸a s2 a unui set de date statistice x1, x2, . . . , xn a fost definitǎ cu 

formula: 

s 2 = 1 

n� 

(xi − x) 

n 

2 

i=1 

Determinarea variant¸ei setului de date y introduce o complicat¸ie pentru cǎ media datelor 

y diferǎ de la un x la altul. Pentru fiecare x media este estimatǎ prin valoarea prezisǎ ˆy ce 

corespunde la x prin dreapta de regresie. Astfel variant¸a erorii ε se estimeazǎ cu formula: 

s 2 ε = 1 

n 

n� 

(yi − ˆyi) 2 

i=1 

care aratǎ cǎ variant¸a erorii ε este variant¸a variabilei y în jurul dreptei de regresie. 

Variant¸a erorii s 2 ε poate fi scrisǎ sub forma: 

s 2 ε = 1 

n 

¸si este o estimare a lui σ 2 ε 

� (y − b0 − b1 · xi) 2 = 1 

n 

�� y 2 i − b0 · � y − b1 · xi · yi 

Exemplul 23.1. O persoanǎ care se mutǎ la Timi¸soara ¸si se angajeazǎ la o companie 

dore¸ste sǎ ¸stie în cât timp poate sǎ ajungǎ dimineat¸a cu ma¸sina de la locuint¸ǎ la locul de 

muncǎ. Pentru a gǎsi un rǎspuns la aceastǎ întrebare el întreabǎ un numǎr de 15 colegi la 

ce distant¸ǎ stau de locul de muncǎ ¸si în cât timp ajung la serviciu ¸si întocme¸ste urmǎtorul 

tabel de date statistice: 

coleg 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 

x - distant¸a 

(în km) 3 5 7 8 10 11 12 12 13 15 15 16 18 19 20 

y - timpul 

(în min) 7 20 20 15 25 17 20 35 26 25 35 32 44 37 45 

Pentru a gǎsi un rǎspuns la problemǎ persoana în cauzǎ trebuie sǎ determine dreapta de 

regresie ¸si variant¸a s 2 e. 

Folosind formulele de calcul el gǎse¸ste: 

SS(x) = 2, 616 − (184)2 

15 

85 

= 358, 9333 

�

(184) · (403) 

SS(x, y) = 5, 623 − 

b1 = 

15 

= 679, 53333 

358, 9333 

= 1, 893202 ≈ 1, 89 

679, 53333 

b0 = 1 

[403 − (1, 893202) · (184)] = 3, 643387 ≈ 3, 64 

15 

ˆy = 3, 64 + 1, 89 · x. 

Aceasta este formula pe care o va folosi pentru a estima timpul mediu necesar pentru a 

ajunge la serviciu în funct¸ie de distant¸a x la care locuie¸ste. 

Pentru a gǎsi abaterea standard de la valoarea estimatǎ el va trebui sǎ calculeze ¸si variant¸a 

s 2 ε. Folosind formulele de calcul el gǎse¸ste: s 2 ε = 29, 17. 

86

24 Inferent¸ǎ referitoare la panta unei drepte de regresie 

liniarǎ 

Dupǎ ce ecuat¸ia dreptei de regresie liniarǎ a fost determinatǎ ne întrebǎm când putem 

folosi aceastǎ ecuat¸ie pentru a prezice valorile variabilei y în funct¸ie de x? 

Rǎspunsul la întrebare îl vom da parcurgând procedeul de verificare a ipotezelor statistice. 

Înainte de a face inferent¸ǎ privind dreapta de regresie facem urmǎtoarele ipoteze: 

- pentru fiecare x distribut¸ia datelor y observate este aproximativ normalǎ; 

- pentru fiecare x variant¸a distribut¸iei datelor y observate este aceea¸si. 

Înainte sǎ trecem la parcurgerea celor cinci etape (care constituie verificarea ipotezelor 

statistice) sǎ analizǎm distribut¸ia pantelor ce se obt¸in pentru e¸santioane aleatoare de 

mǎrime n. Aceste pante b1 au o distribut¸ie aproape normalǎ având media β1 panta în 

cazul populat¸iei ¸si variant¸a σ2 datǎ de: 

b1 

σ 2 b1 = 

σ 2 ε 

� (x − x) 2 

Un estimator adecvat s 2 b1 a lui σ2 b1 se obt¸ine prin înlocuirea lui σ2 ε cu s 2 e: 

s 2 b1 = 

Aceastǎ formulǎ poate fi scrisǎ sub forma: 

s 2 b1 = s2 e 

SS(x) = 

s 2 e 

� (x − x) 2 

s 2 e 

� x − � ( � x) 2 /n � 

Eroarea standard a regresiei (pantei) este σb1 ¸si este estimatǎ prin sb1. 

Putem trece acum la verificarea ipotezelor statistice: 

Etapa 1. Formularea ipotezei H0. Ipoteza nulǎ va fi β1 = 0. Dacǎ β1 = 0 

atunci ecuat¸ia liniarǎ nu poate fi folositǎ pentru a prezice valoarea lui 

y aceasta înseamnǎ cǎ: ˆy = y. 

Etapa 2. Ipoteza alternativǎ poate fi unilateralǎ sau bilateralǎ. Dacǎ bǎnuiala 

este cǎ panta este pozitivǎ atunci un test unilateral este potrivit: 

Ha : β1 > 0. 

Etapa 3. Ca test statistic folosim testul t. Numǎrul gradelor de libertate pentru 

test este df = n − 2. În cazul Exemplului 23.1 care se referǎ la timpul 

necesar pentru a ajunge cu ma¸sina la servici df = 15−2 = 13. La nivelul 

de semnificat¸ie α = 0, 05, valoarea criticǎ a lui t este t(13; 0, 05) = 1, 77. 

Formula de calcul folosit pentru valoarea testului statistic t pentru 

inferent¸ǎ este: 

t ∗ = b1 − β1 

sb1 

87

Etapa 4. Având în vedere egalitatea s2 b1 = s2e în cazul exemplului considerat 

SS(X) 

gǎsim cǎ valoarea testului statistic este: 

t ∗ = b1 − β1 

sb1 

= 1, 89 − 0 

√ 0, 0813 = 6, 629 ≈ 6, 63 

Etapa 5. Decizie: ipoteza H0 se respinge pentru cǎ t ∗ este în regiunea criticǎ. 

Concluzie: Panta dreptei de cea mai bunǎ aproximat¸ie este mai mare 

ca zero. Probele statistice aratǎ cǎ existǎ o relat¸ie liniarǎ între distant¸a 

locuint¸ǎ-serviciu ¸si perioada de timp necesarǎ pentru a ajunge cu ma¸sina 

la serviciu ¸si aceastǎ perioadǎ de timp este predictibilǎ. 

Panta β1 a dreptei de regresie liniarǎ a populat¸iei poate fi estimatǎ cu ajutorul intervalului 

de încredere. Capetele acestui interval de încredere sunt date de formula: 

b1 ± t(n − 2; α 

) · sb1 

2 

În cazul Exemplului 23.1 la nivelul de semnificat¸ie α = 0, 05: 

1, 89 ± 2, 16 · � 0, 0813 = 1, 89 ± 0, 62 

capetele intervalului de încredere sunt 1, 27 ¸si 2, 51. 

Deci intervalul de încredere pentru β1 este (1, 27; 2, 51) la nivelul de semnificat¸ie 0, 05. 

88

BIBLIOGRAFIE 

[1] Johnson Robert, Elementary Statistics, Duxbury Press, 1984, Boston 

[2] Andrei Tudorel, Stancu Andrei, Statisticǎ - teorie ¸si aplicat¸ii, Editura All, 1995, 

Bucure¸sti 

[3] Thomas H. Wonacott, Ronald J. Wonacott: Statistique, Economica, 4me dition, 

1991,Paris 

[4] Constantin Gheorghe, Surulescu Nicolae, Zaharie Daniela, Lect¸ii de statisticǎ descriptivǎ, 

Universitatea de Vest, 1998, Timi¸soara 

[5] Boc¸san Gheorghe, Estimarea parametrilor modelelor statistice, Universitatea de Vest, 

1995, Timi¸soara 

[6] Yule G. Udny, Kendall, M.G., Introducere în teoria statisticii, Editura S¸tiint¸ificǎ, 

1969, Bucure¸sti 

89

Statistica - notite de curs - Universitatea de Vest din Timisoara

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?