06.01.2013 Views

Statistica - notite de curs - Universitatea de Vest din Timisoara

Statistica - notite de curs - Universitatea de Vest din Timisoara

Statistica - notite de curs - Universitatea de Vest din Timisoara

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Cuprins<br />

Statisticǎ - notit¸e <strong>de</strong> <strong>curs</strong><br />

S¸tefan Balint, Loredana Tǎnasie<br />

1 Ce este statistica? 3<br />

2 Not¸iuni <strong>de</strong> bazǎ 5<br />

3 Colectarea datelor 7<br />

4 Determinarea frecvent¸ei ¸si gruparea datelor 11<br />

5 Prezentarea datelor 14<br />

6 Parametrii ¸si statistici ai ten<strong>din</strong>t¸ei centrale 19<br />

7 Parametrii ¸si statistici ai dispersiei 22<br />

8 Parametrii ¸si statistici factoriali ai variant¸ei 25<br />

9 Parametrii ¸si statistici ale pozit¸iei 26<br />

10 Seria <strong>de</strong> distribut¸ie a statisticilor<br />

<strong>de</strong> e¸santioane 28<br />

11 Teorema limitǎ centralǎ 32<br />

12 O aplicat¸ie a teoremei limitǎ centralǎ 35<br />

13 Estimarea punctualǎ a unui parametru; intervalul <strong>de</strong> încre<strong>de</strong>re 36<br />

14 Generalitǎt¸i privind ipotezele statistice ¸si problema verificǎrii ipotezelor<br />

statistice 38<br />

1


15 Verificarea ipotezelor statistice: variantǎ clasicǎ 41<br />

16 Verificarea ipotezelor statistice: varianta probabilistǎ 48<br />

17 Inferent¸ǎ statisticǎ privind media populat¸iei dacǎ nu se cunoa¸ste<br />

abaterea standard a populat¸iei 52<br />

18 Inferent¸ǎ relativǎ la variant¸ǎ ¸si estimarea variant¸ei 59<br />

19 Generalitǎt¸i <strong>de</strong>spre corelat¸ie. Corelat¸ie liniarǎ 65<br />

20 Analizǎ <strong>de</strong> corelat¸ie liniarǎ 73<br />

21 Inferent¸ǎ privind coeficientul <strong>de</strong> corelat¸ie liniarǎ 76<br />

22 Regresie liniarǎ 80<br />

23 Analiza <strong>de</strong> regresie liniarǎ 83<br />

24 Inferent¸ǎ referitoare la panta unei drepte <strong>de</strong> regresie liniarǎ 87<br />

2


1 Ce este statistica?<br />

Definit¸ia 1.1. <strong>Statistica</strong> este ¸stiint¸a colectǎrii, clasificǎrii, prezentǎrii, interpretǎrii<br />

datelor numerice ¸si a folosirii acestora pentru a formula concluzii ¸si a lua <strong>de</strong>cizii.<br />

Definit¸ia 1.2. <strong>Statistica</strong> <strong>de</strong>scriptivǎ se ocupǎ cu colectarea, clasificarea ¸si prezentarea<br />

datelor numerice.<br />

Definit¸ia 1.3. <strong>Statistica</strong> inferent¸ialǎ (inferential statistics) se ocupǎ cu interpretarea<br />

datelor oferite <strong>de</strong> statistica <strong>de</strong>scriptivǎ ¸si cu folosirea acestora pentru a formula concluzii<br />

¸si lua <strong>de</strong>cizii.<br />

Problema 1.1. <strong>Universitatea</strong> <strong>de</strong> <strong>Vest</strong> <strong>din</strong> Timi¸soara dore¸ste sǎ facǎ un plan <strong>de</strong> <strong>de</strong>zvoltare<br />

a facilitǎt¸ilor <strong>de</strong> cazare. Pentru a trece la act¸iune consiliul <strong>de</strong> administrat¸ie hotǎrǎ¸ste cǎ<br />

este necesar sǎ se rǎspundǎ la urmǎtoarea întrebare: Cât¸i stu<strong>de</strong>nt¸i vor trebui cazat¸i în<br />

urmǎtorii zece ani?<br />

Pentru a rǎspun<strong>de</strong> la aceastǎ întrebare trebuie sǎ cunoa¸stem rǎspunsul la cel put¸in<br />

urmǎtoarele douǎ întrebǎri: Cât¸i absolvent¸i <strong>de</strong> liceu vor fi? Cât¸i vor sǎ vinǎ la<br />

universitate? (S¸i altele poate).<br />

Pentru a rǎspun<strong>de</strong> la aceste douǎ întrebǎri e nevoie <strong>de</strong> date referitoare la numǎrul <strong>de</strong><br />

absolvent¸i <strong>de</strong> liceu în urmǎtorii zece ani ¸si <strong>de</strong> date care indicǎ procentul acelor absolvent¸i<br />

<strong>de</strong> liceu care doresc sǎ <strong>de</strong>vinǎ stu<strong>de</strong>nt¸i la U.V.T. în urmǎtorii zece ani.<br />

O cale <strong>de</strong> a obt¸ine date refritoare la numǎrul <strong>de</strong> absolvent¸i <strong>de</strong> liceu în urmǎtorii zece ani<br />

este <strong>de</strong> a ve<strong>de</strong>a care a fost acest numǎr în ultimii zece ani ¸si a extrapola acest numǎr.<br />

Trebuie remarcat cǎ aceastǎ i<strong>de</strong>e presupune cǎ existǎ o legǎturǎ <strong>din</strong>tre trecut ¸si viitor.<br />

Acest lucru nu este întot<strong>de</strong>auna a<strong>de</strong>vǎrat. O întrebare suplimentarǎ care se pune în acest<br />

context este dacǎ va trebui sǎ numǎrǎm tot¸i absolvent¸ii <strong>de</strong> liceu <strong>din</strong> toate ¸scolile <strong>din</strong><br />

ultimii zece ani sau ne putem limita sǎ numǎrǎm doar la anumite ¸scoli? Altfel spus, dacǎ<br />

putem consi<strong>de</strong>ra doar e¸santioane?<br />

O cale <strong>de</strong> a obt¸ine date referitoare la procentul acelor absolvent¸i care doresc sǎ <strong>de</strong>vinǎ<br />

stu<strong>de</strong>nt¸i la U.V.T. este aceea <strong>de</strong> a ve<strong>de</strong>a aceste procente în ultimii zece ani ¸si <strong>de</strong> a<br />

extrapola.<br />

Alte întrebǎri care se pun sunt: Cum interpretǎm aceste date? Cum formulǎm o concluzie<br />

pe baza acestor date? Cum se ia o <strong>de</strong>cizie pe baza acestor date?<br />

Nu am terminat cu enumerarea întrebǎrilor care pot fi relevante. La acest moment ceea<br />

ce este important este sǎ începem sǎ ne gândim la asemenea probleme ¸si la întrebǎrile<br />

care trebuiesc lǎmurite pentru a obt¸ine un rǎspuns.<br />

Remarca 1.1. Relat¸ia <strong>din</strong>tre statisticǎ ¸si probabilitǎt¸i<br />

<strong>Statistica</strong> ¸si probabilitǎt¸ile sunt douǎ domenii strâns legate, dar distincte ale matematicii.<br />

Se spune cǎ ”probabilitǎt¸ile sunt vehiculul statisticii”. Aceasta este a<strong>de</strong>vǎrat în sensul<br />

cǎ dacǎ nu ar fi legile probabiliste teoria statisticǎ nu ar fi posibilǎ. Pentru a ilustra<br />

însǎ diferent¸a <strong>din</strong>tre probabilitǎt¸i ¸si statisticǎ sǎ consi<strong>de</strong>rǎm douǎ urne: una probabilistǎ<br />

¸si una statisticǎ. În cazul urnei probabiliste se ¸stie cǎ urna cont¸ine 5 bile albe, 5 bile<br />

negre ¸si 5 bile ro¸sii; problema <strong>de</strong> probabilitate este dacǎ scoatem o bilǎ, care este ¸sansa<br />

ca aceasta sǎ fie albǎ?<br />

În cazul unei urne statistice nu cunoa¸stem care este combinat¸ia<br />

<strong>de</strong> bile <strong>din</strong> urnǎ. Extragem un e¸santion ¸si <strong>din</strong> acest e¸santion conjecturǎm ce cre<strong>de</strong>m cǎ<br />

se gǎse¸ste în urnǎ. Trebuie ret¸inutǎ <strong>de</strong>osebirea: probabilitatea pune întrebarea ¸sansei<br />

ca ceva (un eveniment) sǎ se întâmple atunci când se cunosc posibilitǎt¸ile (se cunoa¸ste<br />

3


populat¸ia). <strong>Statistica</strong> ne cere sǎ facem un e¸santion, sǎ analizǎm e¸santionul ¸si pe urmǎ sǎ<br />

facem predict¸ie asupra populat¸iei pe baza informat¸iei gǎsite în e¸santion.<br />

Remarca 1.2. Folosirea corectǎ ¸si folosirea gre¸sitǎ a statisticii<br />

Utilizarea statisticii este nelimitatǎ. Este greu <strong>de</strong> gǎsit un domeniu în care statistica nu<br />

se folose¸ste. Iatǎ câteva exemple, un<strong>de</strong> ¸si cum este folositǎ statistica:<br />

• în educat¸ie; statistica <strong>de</strong>scriptivǎ este a<strong>de</strong>sea folositǎ pentru a prezenta rezultatele;<br />

• în ¸stiint¸ǎ; rezultatele experimentale trebuiesc colectate ¸si analizate;<br />

• guvernele; adunǎ diferite date statistice tot timpul.<br />

Mult¸i oameni sunt indiferent¸i fat¸ǎ <strong>de</strong> <strong>de</strong>scrierea statisticǎ, alt¸ii cred cǎ statisticile sunt<br />

minciuni. Majoritatea minciunilor statistice sunt inocente ¸si rezultǎ <strong>din</strong> folosirea unei<br />

statistici nea<strong>de</strong>cvate sau date obt¸inute <strong>din</strong>tr-un e¸santion nepotrivit. Toate acestea conduc<br />

la o înt¸elegere gre¸sitǎ a informat¸iei <strong>din</strong> partea consumatorului. Folosirea gre¸sitǎ a<br />

statisticii duce uneori la încurcǎturi.<br />

Remarca 1.3. <strong>Statistica</strong> ¸si calculatorul<br />

În ultimul <strong>de</strong>ceniu calculatorul a avut un rol important în aproape toate aspectele viet¸ii.<br />

Domeniul statististicii nu face except¸ie. <strong>Statistica</strong> folose¸ste multe tehnici care au o<br />

naturǎ repetitivǎ; formule pentru a calcula statistici <strong>de</strong>scriptive, proceduri <strong>de</strong> urmat<br />

pentru a formula predict¸ii. Calculatorul este foarte bun pentru a face asemenea operat¸ii<br />

repetitive. Dacǎ calculatorul are un soft standard statistic este mult mai u¸soarǎ analiza<br />

unor date statistice. Cele mai cunoscute softuri statistice sunt: Minitab, Biomed (program<br />

biomedical), SAS (Sistem <strong>de</strong> analizǎ statisticǎ), IBM Scientific Subroutine Packages ¸si<br />

SPSS (pachet statistic pentru ¸stiint¸e sociale).<br />

4


2 Not¸iuni <strong>de</strong> bazǎ<br />

Definit¸ia 2.1. Populat¸ia este o colect¸ie (mult¸ime) <strong>de</strong> indivizi, obiecte sau date numerice<br />

obt¸inute prin mǎsurǎtori ale cǎrei proprietǎt¸i trebuiesc analizate.<br />

Remarca 2.1. Populat¸ia este colect¸ia completǎ <strong>de</strong> indivizi, obiecte sau date numerice<br />

obt¸inute prin mǎsurǎtori care prezintǎ interes (pentru cel care colecteazǎ e¸santionul).<br />

Conceptul <strong>de</strong> populat¸ie este fundamental în statisticǎ. Populat¸ia trebuie <strong>de</strong>finitǎ cu grijǎ<br />

¸si se consi<strong>de</strong>rǎ complet <strong>de</strong>finitǎ dacǎ lista membrilor este specificatǎ. Mult¸imea stu<strong>de</strong>nt¸ilor<br />

Facultǎt¸ii <strong>de</strong> Matematicǎ ¸si Informaticǎ este o populat¸ie bine <strong>de</strong>finitǎ.<br />

Dacǎ auzim cuvântul populat¸ie <strong>de</strong> obicei ne gândim la o mult¸ime <strong>de</strong> oameni.<br />

În statisticǎ<br />

populat¸ia poate fi o mult¸ime <strong>de</strong> animale, <strong>de</strong> obiecte fabricate sau <strong>de</strong> date numerice<br />

obt¸inute prin mǎsurǎtori. De exemplu mult¸imea ”înǎlt¸imilor” stu<strong>de</strong>nt¸ilor facultǎt¸ii <strong>de</strong><br />

Matematicǎ ¸si Informaticǎ este o populat¸ie.<br />

Definit¸ia 2.2. E¸santionul este o submult¸ime a unei populat¸ii.<br />

Remarca 2.2. Un e¸santion constǎ <strong>din</strong> indivizi, obiecte sau date mǎsurate selectate <strong>din</strong><br />

populat¸ie (<strong>de</strong> cǎtre colectorul <strong>de</strong> e¸santion).<br />

Definit¸ia 2.3. O variabilǎ <strong>de</strong> rǎspuns (simplu variabilǎ) este o caracteristicǎ (<strong>de</strong><br />

obicei numericǎ) care prezintǎ interes în cazul fiecǎrui element (individ) al unei populat¸ii.<br />

Remarca 2.3. Vârsta stu<strong>de</strong>ntului, media lui, culoarea pǎrului, înǎlt¸imea, greutatea<br />

¸s.a.m.d. sunt variabile <strong>de</strong> rǎspuns în cazul populat¸iei: stu<strong>de</strong>nt¸ii <strong>de</strong> la Facultatea <strong>de</strong><br />

Matematicǎ ¸si Informaticǎ.<br />

Definit¸ia 2.4. O datǎ (la singular) este ”valoarea” unei variabile <strong>de</strong> rǎspuns în cazul<br />

unui element al populat¸iei sau e¸santionului.<br />

Exemplul 2.1. Popescu Nicolae are vîrsta <strong>de</strong> ”19 ani”, media 8.50, pǎrul lui este<br />

”castaniu”, înǎlt¸imea lui este ”1 m ¸si 75 cm”, iar greutatea lui este ”65 kg”. Aceste cinci<br />

”valori” ale celor cinci variabile <strong>de</strong> rǎspuns (Remarca 2.3) în cazul lui Popescu Nicolae<br />

sunt ”cinci” date.<br />

Definit¸ia 2.5. ”Valorile” unei variabile <strong>de</strong> rǎspuns în cazul unei populat¸ii sau a unui<br />

e¸santion constituie un set <strong>de</strong> date . Într-un set <strong>de</strong> date aceea¸si datǎ apare <strong>de</strong> atâtea ori<br />

<strong>de</strong> câte ori variabila are aceastǎ ”valoare”.<br />

Exemplul 2.2. Cele 25 <strong>de</strong> înǎlt¸imi în cazul unui e¸santion <strong>de</strong> 25 <strong>de</strong> stu<strong>de</strong>nt¸i este un set<br />

<strong>de</strong> 25 <strong>de</strong> date nu neapǎrat diferite.<br />

Definit¸ia 2.6. O activitate planificatǎ în urma cǎreia se obt¸ine un set <strong>de</strong> date se nume¸ste<br />

experiment sau sondaj.<br />

Definit¸ia 2.7. Parametru este o caracteristicǎ numericǎ a unei populat¸ii.<br />

Exemplul 2.3. Procentul <strong>de</strong> stu<strong>de</strong>nt¸i <strong>de</strong> la Facultatea <strong>de</strong> Matematicǎ ¸si Informaticǎ care<br />

au promovat toate examenele la sesiunea <strong>din</strong> iarnǎ este un exemplu <strong>de</strong> parametru în cazul<br />

populat¸iei: stu<strong>de</strong>nt¸ii <strong>de</strong> la Facultatea <strong>de</strong> Matematicǎ ¸si Informaticǎ.<br />

Remarca 2.4. Parametrul este o valoare numericǎ care se referǎ la întreaga populat¸ie.<br />

În statisticǎ se obi¸snuie¸ste ca parametrul sǎ fie notat cu literǎ greceascǎ.<br />

5


Definit¸ia 2.8. O statisticǎ este o caracteristicǎ numericǎ a unui e¸santion<br />

Exemplul 2.4. Înǎlt¸imea medie gǎsitǎ folosind cele 25 <strong>de</strong> înǎlt¸imi în cazul unui e¸santion<br />

<strong>de</strong> 25 <strong>de</strong> stu<strong>de</strong>nt¸i este un exemplu <strong>de</strong> statisticǎ (<strong>de</strong> e¸santion).<br />

Remarca 2.5. O statisticǎ este o valoare numericǎ care se referǎ la un e¸santion.<br />

Statisticile (<strong>de</strong> e¸santion) se noteazǎ cu literele alfabetului latin.<br />

6


3 Colectarea datelor<br />

Prima problemǎ a statisticianului este colectarea unui set <strong>de</strong> date. Aceasta presupune<br />

<strong>de</strong>finirea prealabilǎ a obiectivelor sondajului (experimentului) a populat¸iei ¸si a variabilei.<br />

Exemple <strong>de</strong> obiective:<br />

a) Compararea eficacitǎt¸ii unui medicament nou cu eficacitatea unui medicament<br />

standard;<br />

b) Estimarea venitului mediu al unei familii <strong>din</strong> ju<strong>de</strong>t¸.<br />

Exemple <strong>de</strong> populat¸ii ¸si variabile corespunzǎtoare:<br />

a) pacient¸ii care suferǎ <strong>de</strong> o boalǎ care se trateazǎ cu medicamentul consi<strong>de</strong>rat<br />

reprezintǎ populat¸ia, iar timpul <strong>de</strong> recuperare reprezintǎ variabila;<br />

b) familiile <strong>din</strong> ju<strong>de</strong>t¸ reprezintǎ populat¸ia, iar venitul total al unei familii <strong>din</strong> ju<strong>de</strong>t¸<br />

reprezintǎ variabila.<br />

Tot înainte <strong>de</strong> colectarea setului <strong>de</strong> date trebuie hotǎrât dacǎ setul <strong>de</strong> date se constituie<br />

pentru întreaga populat¸ie sau doar pentru un e¸santion. Dacǎ setul <strong>de</strong> date se constituie<br />

pentru întreaga populat¸ie atunci se face un recensǎmânt.<br />

Definit¸ia 3.1. Un recensǎmânt este o enumerare sau o listare a fiecǎrui element al<br />

populat¸iei împreunǎ cu data (valoarea variabilei) corespunzǎtoare elementului.<br />

În cazul unei populat¸ii mari, constituirea unui set <strong>de</strong> date la nivelul populat¸iei este dificil<br />

¸si costisitor. De aceea, în cazul în care nu este posibilǎ realizarea unui recensǎmânt,<br />

setul <strong>de</strong> date se constituie doar pentru o parte a populat¸iei, pentru un e¸santion. Select¸ia<br />

elementelor pentru e¸santion se face <strong>din</strong>tr-un cadru <strong>de</strong> e¸santionare.<br />

Definit¸ia 3.2. Cadrul <strong>de</strong> e¸santionare este o listǎ <strong>de</strong> elemente care apart¸in populat¸iei,<br />

<strong>din</strong> care va fi extras e¸santionul.<br />

Remarca 3.1. Deoarece numai elementele <strong>din</strong> cadrul e¸santionului au ¸sansa sǎ fie selectate<br />

pentru e¸santion, <strong>din</strong> perspectiva variabilei <strong>de</strong> rǎspuns cadrul <strong>de</strong> e¸santion trebuie sǎ fie<br />

reprezentativ pentru populat¸ie.<br />

Remarca 3.2. În cazul unei populat¸ii <strong>de</strong> indivizi listele <strong>de</strong> alegǎtori sau cǎrt¸ile <strong>de</strong> telefon<br />

sunt folosite a<strong>de</strong>sea drept cadru <strong>de</strong> e¸santion. În funct¸ie <strong>de</strong> variabila <strong>de</strong> rǎspuns acestea<br />

pot fi cadre <strong>de</strong> e¸santion potrivite sau nepotrivite.<br />

Remarca 3.3. Dupǎ <strong>de</strong>finirea cadrului e¸santionului se trece la stabilirea modului <strong>de</strong><br />

alegere a elementelor e¸santionului. Acest proces se nume¸ste proiectarea e¸santionului.<br />

Definit¸ia 3.3. Proiectarea e¸santionului înseamnǎ stabilirea procedurii <strong>de</strong> alegere a<br />

elementelor e¸santionului <strong>din</strong> cadrul e¸santionului.<br />

Existǎ mai multe proce<strong>de</strong>e <strong>de</strong> alegere a elementelor e¸santionului. În mare aceste proce<strong>de</strong>e<br />

împreunǎ cu e¸santioanele corespunzǎtoare se împart în douǎ categorii: proce<strong>de</strong>e bazate<br />

pe reprezentativitate ¸si proce<strong>de</strong>e probabiliste.<br />

7


Definit¸ia 3.4. E¸santioane bazate pe reprezentativitate sunt acelea pentru care<br />

elementele se aleg astfel încât <strong>din</strong> perspectiva variabilei <strong>de</strong> rǎspuns, elementul ales sǎ fie<br />

reprezentativ pentru populat¸ie.<br />

Exemplul 3.1. Din perspectiva variabilei <strong>de</strong> rǎspuns: ”<strong>curs</strong>ul A este util sau nu în<br />

formarea dumneavoastrǎ profesionalǎ?”, stu<strong>de</strong>nt¸ii <strong>din</strong> cadrul unui e¸santion care nu au<br />

frecventat <strong>curs</strong>ul nu sunt reprezentativi. Deci nu sunt ale¸si în e¸santion.<br />

Definit¸ia 3.5. Un e¸santion pentru care elementele sunt selectate pe bazǎ probabilistǎ;<br />

oricare element <strong>din</strong> cadrul e¸santionului are o anumitǎ ¸sansǎ nenulǎ sǎ fie selectat; se<br />

nume¸ste e¸santion probabilist.<br />

Remarca 3.4. Inferent¸e statistice cer ca e¸santionul sǎ fie probabilist. E¸santioanele<br />

probabiliste aleatoare sunt cele mai familiare e¸santioane probabiliste.<br />

Definit¸ia 3.6. Un e¸santion <strong>de</strong> mǎrimea n este e¸santion probabilist aleator dacǎ orice<br />

e¸santion <strong>de</strong> mǎrimea n ales <strong>din</strong> acela¸si cadru are aceea¸si probabilitate sǎ fie ales.<br />

Remarca 3.5. Cea mai rǎspânditǎ metodǎ <strong>de</strong> a colecta date folose¸ste e¸santion aleator<br />

simplu.<br />

Definit¸ia 3.7. Un e¸santion probabilist aleator pentru care elementele sunt selectate <strong>din</strong>trun<br />

cadru în care elementele au aceea¸si probabilitate sǎ fie alese se nume¸ste e¸santion<br />

aleator simplu.<br />

Remarca 3.6. Atunci când se construie¸ste un e¸santion probabilist aleator simplu trebuie<br />

avutǎ grijǎ ca fiecare element <strong>din</strong> cadrul e¸santionului sǎ aibe aceea¸si probabilitate sǎ fie<br />

selectat. A<strong>de</strong>sea se fac gre¸seli pentru cǎ termenul ”aleator” este confundat cu ”ales<br />

la întâmplare”. Un proce<strong>de</strong>u corect <strong>de</strong> selectare a unui e¸santion probabilist aleator<br />

simplu este acela care folose¸ste un generator <strong>de</strong> numere aleatoare sau o tabelǎ <strong>de</strong> numere<br />

aleatoare. Prima oarǎ se numeroteazǎ elementele <strong>din</strong> cadrul <strong>de</strong> e¸santionare. Dupǎ aceasta<br />

în tabelul cu numere aleatoare se aleg atâtea numere câte sunt necesare pentru e¸santion.<br />

Fiecare element <strong>din</strong> cadrul <strong>de</strong> e¸santionare, al cǎrui numǎr coinci<strong>de</strong> cu un numǎr selectat<br />

<strong>din</strong> tabelul <strong>de</strong> numere aleatoare va fi ales pentru e¸santion.<br />

Exemplul 3.2. Dacǎ cadrul e¸santionului este o listǎ <strong>de</strong> 4265 <strong>de</strong> stu<strong>de</strong>nt¸i atunci ei sunt<br />

numerotat¸i <strong>de</strong> la 0001; 0002; ...; 4265. Pentru un e¸santion <strong>de</strong> 50 <strong>de</strong> stu<strong>de</strong>nt¸i se aleg 50 <strong>de</strong><br />

numere aleatoare cu patru cifre ¸si se i<strong>de</strong>ntificǎ stu<strong>de</strong>nt¸ii <strong>din</strong> cadrul e¸santionului.<br />

Definit¸ia 3.8. E¸santionul sistematic se construie¸ste alegând fiecare al k-lea element<br />

<strong>din</strong> cadrul e¸santionului.<br />

Remarca 3.7. În aceastǎ select¸ie se folose¸ste tabela <strong>de</strong> numere aleatoare o singurǎ datǎ,<br />

pentru a <strong>de</strong>termina punctul <strong>de</strong> plecare.<br />

Exemplul 3.3. Dacǎ se consi<strong>de</strong>rǎ un cadru <strong>de</strong> e¸santion <strong>de</strong> 245 <strong>de</strong> stu<strong>de</strong>nt¸i ai Facultǎt¸ii<br />

<strong>de</strong> Matematicǎ ¸si Informaticǎ ¸si se dore¸ste un e¸santion sistematic format <strong>din</strong> 15 stu<strong>de</strong>nt¸i<br />

atunci:<br />

1) asociem fiecǎrui stu<strong>de</strong>nt un numǎr <strong>de</strong> la 1 la 245;<br />

8


2) se calculeazǎ k (pasul <strong>de</strong> numǎrare) folosind urmǎtoarea relat¸ie:<br />

� � � �<br />

numǎrul <strong>de</strong> elemente <strong>din</strong> cadrul e¸santionului 245<br />

k =<br />

= = 16<br />

numǎrul <strong>de</strong> elemente <strong>din</strong> e¸santion<br />

15<br />

3) se alege punctul <strong>de</strong> plecare între 1 ¸si numǎrul k cu ajutorul unui tabel <strong>de</strong> numere<br />

aleatoare.<br />

Dacǎ acest numǎr este 10, atunci obt¸inem e¸santionul:<br />

10, 16, 32, 48, 64, 80, 96, 112, 128, 144, 160, 176, 192, 208, 234.<br />

Deoarece k = 245<br />

= 16, 33, nu este un numǎr întreg, pasul <strong>de</strong> numǎrare poate fi ¸si 17. În<br />

15<br />

acest caz e¸santionul sistematic obt¸inut este <strong>de</strong> numai 14 elemente.<br />

Remarca 3.8. Este o procedurǎ bunǎ pentru a e¸santiona un procentaj în cazul<br />

populat¸iilor mari. Pentru a selecta un e¸santion sistematic <strong>de</strong> x% <strong>din</strong>tr-o populat¸ie, un<br />

element <strong>din</strong> 100/x va fi selectat (dacǎ 100/x nu este întreg se ia partea întreagǎ).<br />

Remarca 3.9. Folosirea e¸santionului sistematic nu este potrivitǎ dacǎ populat¸ia este<br />

repetitivǎ sau ciclicǎ în naturǎ.(<strong>din</strong> perspectiva variabilei <strong>de</strong> rǎspuns)<br />

Exemplul 3.4. Dacǎ se dore¸ste estimarea numǎrului stu<strong>de</strong>nt¸ilor admi¸si la Facultatea <strong>de</strong><br />

Matematicǎ ¸si Informaticǎ care au <strong>de</strong>pǎ¸sit vârsta <strong>de</strong> 20 <strong>de</strong> ani ¸si se folose¸ste e¸santionarea<br />

sistematicǎ extrǎgând <strong>din</strong> lista candidat¸ilor admi¸si numai pe cei <strong>de</strong> pe pozit¸iile care sunt<br />

multiplu <strong>de</strong> 5, existǎ posibilitatea ca tot¸i candidat¸ii admi¸si pe pozit¸iile respective sǎ aibǎ<br />

sub 20 <strong>de</strong> ani. Un asemenea e¸santion spune ca nu au fost admi¸si candidat¸i peste 20 <strong>de</strong><br />

ani, ceea ce nu poate fi sust¸inut.<br />

Când se e¸santioneazǎ populat¸ii foarte mari, atunci când este posibil se împarte populat¸ia<br />

în douǎ subpopulat¸ii pe baza unor caracteristici. Aceste subpopulat¸ii se numesc straturi,<br />

iar straturile sunt e¸santionate separat.<br />

Definit¸ia 3.9. Un e¸santion obt¸inut în urma stratificǎrii cadrului e¸santionului ¸si prin<br />

selectarea unui numǎr dat <strong>de</strong> elemente <strong>din</strong> fiecare strat se nume¸ste e¸santion stratificat.<br />

Remarca 3.10. Când se proiecteazǎ un e¸santion stratificat, cadrul se împarte în douǎ sau<br />

mai multe straturi ¸si în fiecare strat se proiecteazǎ un sube¸santion. Aceste sube¸santioane<br />

pot fi aleatoare, sistematice sau <strong>de</strong> alt gen. Dupǎ aceea sube¸santioanele sunt asamblate<br />

într-un singur e¸santion pentru a colecta un set <strong>de</strong> date.<br />

Exemplul 3.5. Pentru studierea unei caracteristici a populat¸iei stu<strong>de</strong>nt¸ilor <strong>din</strong> Facultatea<br />

<strong>de</strong> Matematicǎ ¸si Informaticǎ, aceastǎ populat¸ie poate fi împǎrt¸itǎ:<br />

- pe domenii: informaticǎ, matematicǎ<br />

- pe ani <strong>de</strong> studiu.<br />

Definit¸ia 3.10. E¸santion cotǎ (sau e¸santion proport¸ional) este un<br />

e¸santion stratificat care se construie¸ste prin selectarea unui numǎr <strong>de</strong> elemente <strong>din</strong> fiecare<br />

strat dupǎ o anumitǎ cotǎ sau proport¸ional cu mǎrimea stratului.<br />

9


Exemplul 3.6. Dacǎ se dore¸ste construirea unui e¸santion <strong>de</strong> 150 <strong>de</strong> stu<strong>de</strong>nt¸i <strong>din</strong> populat¸ia<br />

stu<strong>de</strong>nt¸ilor Facultǎt¸ii <strong>de</strong> Matematicǎ ¸si Informaticǎ putem face stratificarea dupǎ anii <strong>de</strong><br />

studiu. În acest caz, numǎrul <strong>de</strong> stu<strong>de</strong>nt¸i ce va fi selectat <strong>din</strong> fiecare an ce va fi selectat<br />

va fi proport¸ional cu numǎrul total <strong>de</strong> stu<strong>de</strong>nt¸i <strong>din</strong> anul respectiv:<br />

Anul <strong>de</strong> studiu Numǎr stu<strong>de</strong>nt¸i Cota Nr. stu<strong>de</strong>nt¸i<br />

selectat în e¸santion:<br />

Anul I 431 36.49% 54<br />

Anul II 303 25.65% 40<br />

Anul III 206 17.44% 26<br />

Anul IV 240 20.40% 30<br />

E¸santionul va fi format <strong>din</strong> 54 <strong>de</strong> stu<strong>de</strong>nt¸i <strong>din</strong> anul I, 40 <strong>de</strong> stu<strong>de</strong>nt¸i <strong>din</strong> anul II, 26 <strong>de</strong><br />

stu<strong>de</strong>nt¸i <strong>din</strong> anul III ¸si 30 <strong>de</strong> stu<strong>de</strong>nt¸i <strong>din</strong> anul IV.<br />

O altǎ metodǎ <strong>de</strong> e¸santionare care pleacǎ <strong>de</strong> la stratificarea populat¸iei este e¸santionul<br />

ciorchine.<br />

Definit¸ia 3.11. E¸santionul ciorchine este un e¸santion stratificat care se construie¸ste<br />

prin selectarea <strong>de</strong> e¸santioane <strong>din</strong> anumite straturi (nu <strong>din</strong> toate).<br />

Exemplul 3.7. Dacǎ se dore¸ste realizarea unui e¸santion ciorchine format <strong>din</strong> stu<strong>de</strong>nt¸ii<br />

Universitǎt¸ii <strong>de</strong> <strong>Vest</strong> <strong>din</strong> Timi¸soara, aceastǎ populat¸ie poate fi startificatǎ în funct¸ie<br />

<strong>de</strong> specializarea pe care au ales-o stu<strong>de</strong>nt¸ii select¸ionând e¸santioane doar <strong>de</strong> la câteva<br />

specializǎri (nu <strong>de</strong> la toate).<br />

Remarca 3.11. E¸santionul ciorchine se obt¸ine folosind numere aleatoare sau o metodǎ<br />

sistematicǎ pentru i<strong>de</strong>ntificarea straturilor (ciorchine) care trebuiesc e¸santionate, dupǎ<br />

care fiecare <strong>din</strong> aceste straturi este e¸santionat. Sube¸santioanele asamblate formeazǎ un<br />

e¸santion ciorchine.<br />

Într-un caz concret proce<strong>de</strong>ul <strong>de</strong> e¸santionare care se folose¸ste <strong>de</strong>pin<strong>de</strong> <strong>de</strong> populat¸ie <strong>de</strong><br />

variabilǎ <strong>de</strong> dificultatea e¸santionǎrii ¸si <strong>de</strong> cost. Dupǎ <strong>de</strong>terminarea e¸santionului se poate<br />

trece la colectarea setului <strong>de</strong> date.<br />

10


4 Determinarea frecvent¸ei ¸si gruparea datelor<br />

Dupǎ colectarea unui set <strong>de</strong> date urmeazǎ prelucrarea primarǎ a datelor. Determinarea<br />

frecvent¸ei ¸si gruparea datelor este un proce<strong>de</strong>u <strong>de</strong> prelucrae primarǎ a datelor ¸si este<br />

utilizat atunci când numǎrul datelor este mare.<br />

Pentru a prezenta conceptul <strong>de</strong> frecvent¸ǎ sǎ consi<strong>de</strong>rǎm urmǎtorul set <strong>de</strong> date:<br />

3 2 2 3 2<br />

4 4 1 2 2<br />

4 3 2 0 2<br />

2 1 3 3 1<br />

Valoarea 0 apare în acest set o singurǎ datǎ prin urmare frecvent¸a pentru 0 este unu.<br />

Valoarea 1 apare în acest set <strong>de</strong> trei ori prin urmare frecvent¸a pentru 1 este trei.<br />

Valoarea 2 apare în acest set <strong>de</strong> opt ori prin urmare frecvent¸a pentru 2 este opt.<br />

Valoarea 3 apare în acest set cinci ori prin urmare frecvent¸a pentru 3 este cinci.<br />

Valoarea 4 apare în acest set <strong>de</strong> douǎ ori prin urmare frecvent¸a pentru 4 este doi.<br />

Frecvent¸a datelor 0,1,2,3,4 care apar în setul <strong>de</strong> date este redatǎ în tabelul urmǎtor:<br />

x f<br />

0 1<br />

1 3<br />

2 8<br />

3 5<br />

4 3<br />

Definit¸ia 4.1. Frecvent¸a f (<strong>din</strong> coloana a doua) aratǎ <strong>de</strong> câte ori apare valoarea variabilei<br />

x în setul <strong>de</strong> date.<br />

Atunci când într-un set <strong>de</strong> date multe sunt distincte (în loc <strong>de</strong> câteva ca în cazul prece<strong>de</strong>nt)<br />

se grupeazǎ datele în clase ¸si apoi se construiesc frecvent¸e pentru clase.<br />

Pentru a ilustra acest proce<strong>de</strong>u consi<strong>de</strong>rǎm urmǎtorul set <strong>de</strong> date:<br />

82 74 88 66 58<br />

62 68 72 92 86<br />

74 78 84 96 76<br />

76 52 76 82 78<br />

Vom pune în aceea¸si clasǎ toate datele la care prima cifrǎ este aceea¸si ¸si obt¸inem<br />

urmǎtoarele cinci clase:<br />

50 − 59; 60 − 69; 70 − 79; 80 − 89; 90 − 99<br />

(50 − 59 este clasa formatǎ cu toate datele la care prima cifrǎ este 5, ¸s.a.m.d.).<br />

Aceste clase nu se intersecteazǎ (nu existǎ date care sǎ apart¸inǎ la douǎ clase) ¸si oricare<br />

<strong>din</strong> date apart¸ine unei clase.<br />

Limitele inferioare ale claselor sunt 50, 60, 70, 80, 90, iar limitele superioare sunt 59, 69, 79, 89, 99.<br />

Datele care apart¸in unei clase sunt mai mari <strong>de</strong>cât limita inferioarǎ a clasei ¸si mai mici<br />

<strong>de</strong>cât limita superioarǎ a clasei.<br />

11


Definit¸ia 4.2. Lǎt¸imea unei clase <strong>de</strong>finitǎ ca diferent¸a <strong>din</strong>tre limita inferioarǎ a clasei<br />

urmǎtoare ¸si limita inferioarǎ a clasei (este egalǎ cu 10 ¸si este aceea¸si pentru toate clasele<br />

în exemplul <strong>de</strong> mai sus) lǎt¸imea clasei nu este egalǎ cu diferent¸a <strong>din</strong>tre limita superioarǎ<br />

¸si limita inferioarǎ a clasei.<br />

Definit¸ia 4.3. Frontierele unei clase <strong>de</strong>finite ca media aritmeticǎ <strong>din</strong>tre limita superioarǎ<br />

a clasei ¸si limita inferioarǎ a clasei urmǎtoare sunt:<br />

49, 5; 59, 5; 69, 5; 79, 5; 89, 5; 99, 5.<br />

Definit¸ia 4.4. Marca unei clase <strong>de</strong>finitǎ ca media aritmeticǎ <strong>din</strong>tre limita superioarǎ ¸si<br />

limita inferioarǎ a clasei, în acest caz este:<br />

54.5 =<br />

64.5 =<br />

74.5 =<br />

84.5 =<br />

50 + 59<br />

2<br />

60 + 69<br />

2<br />

70 + 79<br />

2<br />

80 + 89<br />

2<br />

în cazul clasei 50 − 59<br />

în cazul clasei 60 − 69<br />

în cazul clasei 70 − 79<br />

în cazul clasei 80 − 89<br />

90 + 99<br />

94.5 =<br />

2<br />

în cazul clasei 90 − 99<br />

Frecvent¸a în acest caz este numǎrul <strong>de</strong> date <strong>din</strong>tr-o clasǎ. Frecvent¸a datelor pe clase este:<br />

în cazul clasei 50 − 59 2 date<br />

în cazul clasei 60 − 69 3 date<br />

în cazul clasei 70 − 79 8 date<br />

în cazul clasei 80 − 89 5 date<br />

în cazul clasei 90 − 99 2 date<br />

În general, în cazul grupǎrii datelor pe clase ¸si a <strong>de</strong>terminǎrii frecvent¸ei trebuiesc<br />

respectate urmǎtoarele reguli:<br />

1) Clasele nu trebuie sǎ se intersecteze ¸si fiecare datǎ <strong>din</strong> setul <strong>de</strong> date trebuie sǎ<br />

apart¸inǎ la o clasǎ;<br />

2) Fiecare clasǎ trebuie sǎ aibe aceea¸si lǎt¸ime.<br />

Proce<strong>de</strong>ul concret <strong>de</strong> grupare este urmǎtorul:<br />

12


i) Se i<strong>de</strong>ntificǎ cea mai mare datǎ H ¸si cea mai micǎ datǎ L ¸si se <strong>de</strong>terminǎ plaja:<br />

R = H − L.<br />

ii) Se alege numǎrul <strong>de</strong> clase m ¸si lǎt¸imea clasei c (dacǎ se poate numǎr impar) astfel<br />

ca produsul m · c sǎ fie put¸in mai mare ca plaja R.<br />

iii) Se alege un punct <strong>de</strong> plecare I care este put¸in mai mic <strong>de</strong>cât cea mai micǎ datǎ L.<br />

Adǎugǎm la I multiplii lui c (c este lǎt¸imea clasei) ¸si obt¸inem numerele:<br />

I, I + c, I + 2c, I + 3c, ..., I + (m − 1)c<br />

Aceste numere sunt limitele inferioare ale claselor.<br />

iv) Limitele superioare se stabilesc astfel încât sǎ fie respectate condit¸iile 1) ¸si 2).<br />

v) Se <strong>de</strong>terminǎ frecvent¸a fiecǎrei clase numǎrând elementele <strong>din</strong> fiecare clasǎ.<br />

13


5 Prezentarea datelor<br />

Prezentarea unui set <strong>de</strong> date poate fi fǎcutǎ sub diferite forme ¸si face parte <strong>din</strong> prelucrarea<br />

primarǎ a datelor.<br />

Prezentarea datelor sub formǎ <strong>de</strong> serii<br />

Definit¸ia 5.1. Seria <strong>de</strong> distribut¸ie este un ansamblu <strong>de</strong> douǎ ¸siruri finite <strong>din</strong>tre care<br />

primul este ¸sirul elementelor distincte <strong>din</strong> setul <strong>de</strong> date statistice sau ¸sirul claselor obt¸inute<br />

prin gruparea elementelor <strong>din</strong> setul <strong>de</strong> date statistice, iar cel <strong>de</strong>-al doilea este ¸sirul <strong>de</strong><br />

frecvent¸e corespunzǎtoare.<br />

Exemplul 5.1.<br />

seria <strong>de</strong> distribut¸ie este:<br />

În cazul setului <strong>de</strong> date statistice:<br />

X<br />

3 2 2 3 2<br />

4 4 1 2 2<br />

4 3 2 0 2<br />

2 1 3 3 1<br />

� 0 1 2 3 4<br />

1 3 8 5 3<br />

Exemplul 5.2. În cazul claselor 50 − 59; 60 − 69; 70 − 79; 80 − 89; 90 − 99 obt¸inute prin<br />

gruparea datelor <strong>din</strong> setul <strong>de</strong> date:<br />

82 74 88 66 58 74 78 84 96 76<br />

62 68 72 92 86 76 52 76 82 78<br />

seria <strong>de</strong> distribut¸ie este:<br />

�<br />

50 − 59<br />

X<br />

2<br />

60 − 69<br />

3<br />

70 − 79<br />

8<br />

80 − 89<br />

5<br />

�<br />

90 − 99<br />

2<br />

În general, o serie <strong>de</strong> distribut¸ie aratǎ în felul urmǎtor:<br />

�<br />

x1<br />

X<br />

x2 x3 · · · xn<br />

�<br />

�<br />

f1 f2 f3 · · · fn<br />

¸si oricare ar fi nivelul <strong>de</strong> grupare al datelor, xi având frecvent¸a fi, se nume¸ste termenul<br />

seriei <strong>de</strong> distribut¸ie.<br />

Remarca 5.1. A<strong>de</strong>sea în prezentarea seriilor <strong>de</strong> distribut¸ie în locul frecvent¸ei fi se<br />

folose¸ste frecvent¸a relativǎ:<br />

sau sub formǎ procentualǎ:<br />

f ′ i = fi<br />

n�<br />

j=1<br />

fj<br />

f ′′<br />

i = f ′ i · 100<br />

14


Definit¸ia 5.2. Valoarea datei care apare cu cea mai mare frecvent¸ǎ într-o serie <strong>de</strong><br />

distribut¸ie <strong>de</strong> date statistice se nume¸ste mod.<br />

Definit¸ia 5.3. Clasa cu cea mai mare frecvent¸ǎ într-o serie <strong>de</strong> distribut¸ie <strong>de</strong> date grupate<br />

se nume¸ste clasǎ modalǎ.<br />

Definit¸ia 5.4. Serie bimodalǎ este o serie <strong>de</strong> distribut¸ie <strong>de</strong> date grupate în care apar<br />

douǎ clase modale, separate <strong>de</strong> clase cu frecvent¸ǎ mai joasǎ.<br />

Definit¸ia 5.5. Frecvent¸a cumulatǎ a unei clase este suma frecvent¸elor tutror claselor<br />

cu valori mai mici (marca mai micǎ).<br />

Definit¸ia 5.6. Seria <strong>din</strong>amicǎ (temporalǎ, cronologicǎ) este un ¸sir dublu <strong>din</strong>tre<br />

care primul este ¸sirul <strong>de</strong> valori ale variabilei <strong>de</strong> rǎspuns, iar cel <strong>de</strong>-al doilea ¸sir este ¸sirul<br />

<strong>de</strong> momente <strong>de</strong> timp la care variabila are aceste valori.<br />

(temporalǎ) se noteazǎ astfel:<br />

În general, o serie <strong>din</strong>amicǎ<br />

�<br />

x1<br />

X<br />

x2 x3 · · · xn<br />

�<br />

t1 t2 t3 · · · tn<br />

Prezentarea datelor sub formǎ <strong>de</strong> tabele statistice<br />

Tabelele statistice sunt foarte variate ¸si se folosesc pentru ordonarea datelor statistice<br />

<strong>din</strong>tr-un set <strong>de</strong> date în ve<strong>de</strong>rea aplicǎrii meto<strong>de</strong>lor <strong>de</strong> calcul ¸si <strong>de</strong> interpretare statisticǎ.<br />

În funct¸ie <strong>de</strong> numǎrul <strong>de</strong> caracteristici prezentate în tabel existǎ tabele simple, tabele cu<br />

dublǎ intrare, tabele pe grupe, etc.<br />

Prezentarea datelor sub formǎ graficǎ<br />

Existǎ mai multe meto<strong>de</strong> <strong>de</strong> prezentare graficǎ a unui set <strong>de</strong> date statistice. Metoda<br />

<strong>de</strong> prezentare graficǎ este <strong>de</strong>terminatǎ <strong>de</strong> tipul <strong>de</strong> date ¸si <strong>de</strong> i<strong>de</strong>ea <strong>de</strong> prezentare. De<br />

la început trebuie sǎ fie clar cǎ existǎ mai multe cǎi <strong>de</strong> a dispune grafic anumite date<br />

statistice. Ju<strong>de</strong>cata analistului ¸si circumstant¸ele <strong>din</strong> jurul problemei joacǎ un rol major<br />

în alegerea modului <strong>de</strong> dispunere graficǎ a datelor statistice.<br />

Definit¸ia 5.7. Graficele <strong>de</strong> reprezentare a seriilor statistice fǎrǎ grupare se numesc<br />

diagrame.<br />

Definit¸ia 5.8. Diagrama cerc a seriei <strong>de</strong> distribut¸ie (fǎrǎ grupare)<br />

�<br />

x1<br />

X<br />

x2 x3 · · · xn<br />

�<br />

f1 f2 f3 · · · fn<br />

este un cerc împǎrt¸it în n sectoare <strong>de</strong> cerc S1, S2, ..., Sn astfel încât aria sectorului Si este<br />

egalǎ cu<br />

procente <strong>din</strong> aria cercului.<br />

f ′′<br />

i = fi<br />

n�<br />

j=1<br />

15<br />

fj<br />

· 100


Exemplul 5.3. În cazul seriei <strong>de</strong> distribut¸ie <strong>din</strong> exemplul 5.1<br />

�<br />

0<br />

X<br />

1<br />

1<br />

3<br />

2<br />

8<br />

3<br />

5<br />

�<br />

4<br />

3<br />

cercul se împarte în cinci sectoare având ariile egale cu 5%, , 15%, 40%, 25%, 15% <strong>din</strong><br />

aria cercului<br />

Definit¸ia 5.9. Diagrama coloanǎ a seriei <strong>de</strong> distribut¸ie (fǎrǎ grupare):<br />

�<br />

x1<br />

X<br />

x2 x3 · · · xn<br />

�<br />

f1 f2 f3 · · · fn<br />

este un set <strong>de</strong> n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale ¸si sunt a¸sezate pe<br />

axa Ox, iar înǎlt¸imile lor sunt f1, f2, ..., fn<br />

Exemplul 5.4.<br />

diagrama coloanǎ este:<br />

În cazul seriei <strong>de</strong> distribut¸ie <strong>din</strong> exemplul 5.1:<br />

�<br />

0<br />

X<br />

1<br />

1<br />

3<br />

2<br />

8<br />

3<br />

5<br />

�<br />

4<br />

3<br />

16


Definit¸ia 5.10. Diagrama linie (ramurǎ-frunzǎ) a seriei <strong>de</strong> distribut¸ie (fǎrǎ grupare)<br />

�<br />

x1<br />

X<br />

x2 x3 · · · xn<br />

�<br />

f1 f2 f3 · · · fn<br />

este un set <strong>de</strong> n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale ¸si sunt a¸sezate pe<br />

axa Oy, iar lungimile lor sunt f1, f2, ..., fn.<br />

Exemplul 5.5.<br />

diagrama linie este:<br />

În cazul seriei <strong>de</strong> distribut¸ie <strong>din</strong> exemplul 5.1:<br />

�<br />

0<br />

X<br />

1<br />

1<br />

3<br />

2<br />

8<br />

3<br />

5<br />

�<br />

4<br />

3<br />

Definit¸ia 5.11. Histograma seriei <strong>de</strong> distribut¸ie cu grupare<br />

�<br />

x1<br />

X<br />

x2 x3 · · · xn<br />

�<br />

f1 f2 f3 · · · fn<br />

este un set <strong>de</strong> n dreptunghiuri care reprezintǎ clasele. Bazele acestor dreptunghiuri<br />

sunt egale (clasele au aceea¸si lǎt¸ime) ¸si sunt a¸sezate pe axa Ox, iar înǎlt¸imile lor sunt<br />

f1, f2, ..., fn.<br />

Exemplul 5.6. În cazul seriei <strong>de</strong> distribut¸ie <strong>din</strong> exemplul 5.2:<br />

�<br />

50 − 59<br />

X<br />

2<br />

60 − 69<br />

3<br />

70 − 79<br />

8<br />

80 − 89<br />

5<br />

�<br />

90 − 99<br />

2<br />

histograma este:<br />

17


Remarca 5.2. În cazul histogramei o coloanǎ reprezintǎ un numǎr <strong>de</strong> date diferite spre<br />

<strong>de</strong>osebire <strong>de</strong> diagrama coloanǎ.<br />

Remarca 5.3. O histogramǎ are urmǎtoarele componente:<br />

i) Un titlu care i<strong>de</strong>ntificǎ populat¸ia la care se referǎ;<br />

ii) O scarǎ orizontalǎ pe care se i<strong>de</strong>ntificǎ variabila X, valorile limitelor claselor,<br />

frontierele claselor, mǎrcile claselor.<br />

iii) O scarǎ verticalǎ pe care se i<strong>de</strong>ntificǎ frecvent¸ele pentru fiecare clasǎ.<br />

Definit¸ia 5.12. O histogramǎ <strong>de</strong> frecvent¸e relative este o histogramǎ obt¸inutǎ <strong>din</strong>tro<br />

histogramǎ înlocuind frecvent¸ele cu frecvent¸e relative.<br />

Frecvent¸a relativǎ (este o mǎsurǎ proport¸ionalǎ cu frecvent¸a în cauzǎ) se obt¸ine prin<br />

împǎrt¸irea frecvent¸ei clasei la numǎrul total <strong>de</strong> elemente <strong>din</strong> setul <strong>de</strong> date.<br />

Definit¸ia 5.13. Ogiva unei serii <strong>de</strong> distribut¸ie <strong>de</strong> clase cu frecvent¸e relative cumulate<br />

este un set <strong>de</strong> dreptunghiuri. Bazele dreptunghiurilor sunt egale ¸si a¸sezate pe axa Ox, iar<br />

înǎt¸imile lor sunt frecvent¸ele relative cumulate.<br />

Ogiva are urmǎtoarele componente:<br />

1. Un titlu care i<strong>de</strong>ntificǎ populat¸ia.<br />

2. O scarǎ orizontalǎ pe care sunt marcate frontierele superioare ale claselor.<br />

3. O scarǎ verticalǎ pe care sunt marcate frecvent¸ele relative cumulate pentru fiecare<br />

clasǎ.<br />

18


6 Parametrii ¸si statistici ai ten<strong>din</strong>t¸ei centrale<br />

O categorie <strong>de</strong> caracteristici numerici asociat¸i unui set <strong>de</strong> date statistice sunt: parametrii<br />

ten<strong>din</strong>t¸ei centrale în cazul populat¸iilor ¸si statistici ale ten<strong>din</strong>t¸ei centrale în cazul<br />

e¸santioanelor. Întrucât ace¸stia au <strong>de</strong>finit¸ii analoage vom prezenta doar statistici ale<br />

ten<strong>din</strong>t¸ei centrale.<br />

Definit¸ia 6.1. Statistici ale ten<strong>din</strong>t¸ei centrale sunt valori numerice asociate unui set<br />

<strong>de</strong> date statistice care localizeazǎ într-un anumit sens mijlocul mult¸imii <strong>de</strong> date statistice.<br />

Definit¸ia 6.2. Media aritmeticǎ a setului <strong>de</strong> date statistice {x1, x2, ..., xn} este prin<br />

<strong>de</strong>finit¸ie suma acestor date împǎrt¸itǎ la numǎrul datelor<br />

x =<br />

n�<br />

i=1<br />

Remarca 6.1. Atunci când datele sunt prezentate sub forma unei serii <strong>de</strong> distribut¸ie<br />

(fǎrǎ grupare în clase), media aritmeticǎ se gǎse¸ste cu formula:<br />

x =<br />

m�<br />

j=1<br />

n<br />

xi<br />

xj · fj<br />

m�<br />

j=1<br />

Remarca 6.2. În cazul unei serii <strong>de</strong> distribut¸ie (cu grupare în clase) formula <strong>de</strong> calcul a<br />

mediei este:<br />

x =<br />

�<br />

x · fx<br />

fj<br />

� fx<br />

în care x reprezintǎ marca clasei ¸si fx frecvent¸a corespunzǎtoare, iar suma se extin<strong>de</strong> pe<br />

ansamblul claselor.<br />

Definit¸ia 6.3. Media pǎtraticǎ a setului <strong>de</strong> date statistice {x1, x2, ..., xn} este prin<br />

<strong>de</strong>finit¸ie numǎrul:<br />

�<br />

� n� �<br />

� x<br />

�<br />

i=1<br />

xp =<br />

2 i<br />

n<br />

Remarca 6.3. Dacǎ datele sunt prezentate sub forma unei serii <strong>de</strong> distribut¸ie (fǎrǎ<br />

grupare în clase), media pǎtraticǎ se gǎse¸ste cu formula:<br />

�<br />

� m� �<br />

� x<br />

�<br />

� j=1<br />

xp = �<br />

�<br />

�<br />

2 j · fj<br />

m�<br />

19<br />

j=1<br />

fj


Remarca 6.4. În cazul unei serii <strong>de</strong> distribut¸ie cu grupare în clase media pǎtraticǎ este<br />

prin <strong>de</strong>finit¸ie:<br />

�<br />

��<br />

� 2<br />

� x · fx<br />

xp = �<br />

� fx<br />

în care x reprezintǎ marca clasei ¸si fx frecvent¸a corespunzǎtoare, iar suma se extin<strong>de</strong> pe<br />

ansamblul claselor.<br />

Definit¸ia 6.4. Media armonicǎ a setului <strong>de</strong> date statistice {x1, x2, ..., xn} este prin<br />

<strong>de</strong>finit¸ie numǎrul:<br />

xh = n<br />

n� 1<br />

Remarca 6.5. Dacǎ datele sunt prezentate sub forma unei serii <strong>de</strong> distribut¸ie (fǎrǎ<br />

grupare în clase), media armonicǎ se gǎse¸ste cu formula:<br />

xh =<br />

m�<br />

i=1<br />

m�<br />

j=1<br />

1<br />

xj<br />

j=1<br />

Remarca 6.6. În cazul unei serii <strong>de</strong> distribut¸ie cu grupare în clase media armonicǎ este<br />

prin <strong>de</strong>finit¸ie:<br />

n�<br />

xh =<br />

i=1<br />

n�<br />

i=1<br />

xi<br />

fj<br />

fx<br />

· fj<br />

1<br />

· fx<br />

x<br />

în care x reprezintǎ marca clasei ¸si fx frecvent¸a corespunzǎtoare, iar suma se extin<strong>de</strong> pe<br />

ansamblul claselor.<br />

Definit¸ia 6.5. Media geometicǎ a setului <strong>de</strong> date statistice {x1, x2, ..., xn} este prin<br />

<strong>de</strong>finit¸ie numǎrul:<br />

xp = n<br />

�<br />

�<br />

�<br />

� n �<br />

Remarca 6.7. Dacǎ datele sunt prezentate sub forma unei serii <strong>de</strong> distribut¸ie (fǎrǎ<br />

grupare în clase), media geometricǎ se gǎse¸ste cu formula:<br />

Remarca 6.8. În cazul unei serii <strong>de</strong> distribut¸ie cu grupare în clase media geometricǎ este<br />

prin <strong>de</strong>finit¸ie: în care x reprezintǎ marca clasei ¸si fx frecvent¸a corespunzǎtoare, iar suma<br />

se extin<strong>de</strong> pe ansamblul claselor.<br />

20<br />

i=1<br />

xi


Definit¸ia 6.6. Mediana me a unui set <strong>de</strong> date statistice distincte ordonate dupǎ mǎrime<br />

x1 < x2 < ... < xn este numǎrul care împarte setul <strong>de</strong> date în douǎ grupe egale ca numǎr:<br />

- dacǎ n = 2 · k + 1, atunci me este valoarea <strong>de</strong> rangul k + 1: me = xk+1;<br />

- dacǎ n = 2 · k, atunci orice numǎr între valorile xk ¸si xk+1 satisface condit¸ia <strong>din</strong><br />

<strong>de</strong>finit¸ia lui me. În acest caz se convine ca me sǎ fie media aritmeticǎ a valorilor<br />

xk ¸si xk+1: me = xk + xk+1<br />

.<br />

2<br />

Exemplul 6.1.<br />

În cazul setului <strong>de</strong> date statistice:<br />

mediana este me = 26.<br />

În cazul setului <strong>de</strong> date statistice:<br />

mediana este me =<br />

12 + 26<br />

2<br />

= 19.<br />

4 7 12 26 32 38 59<br />

4 7 12 26 32 38<br />

Remarca 6.9. Mediana me în acest caz are proprietatea cǎ suma frecvent¸elor valorilor<br />

mai mari <strong>de</strong>cât me este egalǎ cu suma frecvent¸elor valorilor mai mici <strong>de</strong>cât me.<br />

Remarca 6.10. Dacǎ datele pot fi egale, atunci proprietatea <strong>din</strong> Remarca 6.9 a medianei<br />

poate sǎ nu fie a<strong>de</strong>vǎratǎ. În cazul setului <strong>de</strong> date statistice:<br />

Seria <strong>de</strong> distribut¸ie corespunzǎtoare este:<br />

1 1 1 2 3 3 4<br />

1 2 3 4<br />

3 1 2 1<br />

Conform <strong>de</strong>finit¸iei lui me în acest caz me = 2, 5. Aceastǎ valoare a lui me nu rǎspun<strong>de</strong><br />

cerint¸ei cǎ me este o valoare cu proprietatea cǎ valorile mai mari sau mai mici <strong>de</strong>cât ea<br />

apar cu frecvent¸e cumulate egale; frecvent¸a celor mai mici este 4, iar frecvenǎ celor mai<br />

mari este 3.<br />

Remarca 6.11. Când datele sunt prezentate sub forma unei serii <strong>de</strong> distribut¸ie cu sau fǎrǎ<br />

grupare me se calculeazǎ prin proce<strong>de</strong>ul interpolǎrii liniare, bazate pe ipoteza repartit¸iei<br />

uniforme a frecvent¸elor în intervalul median.<br />

Definit¸ia 6.7. Mijlocul plajei este prin <strong>de</strong>finit¸ie numǎrul:<br />

Mr =<br />

L + H<br />

2<br />

un<strong>de</strong> L este cea mai micǎ valoare, iar H este cea mai mare valoare a variabilei X<br />

21


7 Parametrii ¸si statistici ai dispersiei<br />

Dupǎ ce ”mijlocul” unui set <strong>de</strong> date a fost stabilit urmǎtoarea întrebare naturalǎ este:<br />

care sunt parametrii ¸si statisticile care caracterizeazǎ dispersia (împrǎ¸stierea) datelor.<br />

Parametrii ¸si statisticile dispersiei sunt: plaja, <strong>de</strong>viat¸ia medie absolutǎ, variant¸a, <strong>de</strong>viat¸ia<br />

standard ¸si coeficientul <strong>de</strong> variat¸ie. Aceste valori numerice <strong>de</strong>scriu mǎrimea împrǎ¸stierii<br />

ori a variabilitǎt¸ilor datelor. Datele strâns grupate vor avea împrǎ¸stiere micǎ, iar cele<br />

care nu sunt grupate (sunt împrǎ¸stiate) vor avea o dispersie mai mare.<br />

Definit¸ia 7.1. Plaja P este diferent¸a <strong>din</strong>tre cea mai mare (H) ¸si cea mai micǎ (L) valoare<br />

a valorilor xi <strong>din</strong>tr-un set <strong>de</strong> date:<br />

P = H − L<br />

Deviat¸ia medie absolutǎ, variant¸a ¸si <strong>de</strong>viat¸ia standard mǎsoarǎ dispersia fat¸ǎ <strong>de</strong> media<br />

aritmeticǎ.<br />

Definit¸ia 7.2. Deviat¸ia fat¸ǎ <strong>de</strong> media aritmeticǎ x a valorii xi a variabilei X este<br />

di = xi − x.<br />

Deviat¸ia este zero dacǎ ¸si numai dacǎ xi = x.<br />

Deviat¸ia este pozitivǎ dacǎ ¸si numai dacǎ xi > x.<br />

Deviat¸ia este negativǎ dacǎ ¸si numai dacǎ xi < x.<br />

n�<br />

S-ar putea cre<strong>de</strong> cǎ suma <strong>de</strong>viat¸ilor (xi − x) poate servi ca mǎsurǎ a dispersiei fat¸ǎ <strong>de</strong><br />

media aritmeticǎ. Dar aceastǎ sumǎ este zero întot<strong>de</strong>auna:<br />

n�<br />

(xi − x) =<br />

i=1<br />

i=1<br />

n�<br />

xi − n · x = n · x − n · x = 0<br />

i=1<br />

Reducerea <strong>de</strong>viat¸iilor poate fi eliminatǎ prin folosirea valorii absolute a <strong>de</strong>viat¸iilor: xi −x.<br />

Definit¸ia 7.3. Deviat¸ia medie absolutǎ a setului <strong>de</strong> date statistice distincte {x1, x2, ..., xn}<br />

este prin <strong>de</strong>finit¸ie:<br />

n�<br />

|xi − x|<br />

d =<br />

i=1<br />

Remarca 7.1. Deviat¸ia medie absolutǎ, în cazul în care datele sunt prezentate sub forma<br />

unei serii <strong>de</strong> distribut¸ie fǎrǎ grupare <strong>de</strong> date se calculeazǎ cu formula:<br />

d =<br />

n<br />

m�<br />

|xj − x| · fj<br />

j=1<br />

m�<br />

j=1<br />

22<br />

fj


Remarca 7.2. Deviat¸ia medie absolutǎ, în cazul în care datele sunt prezentate sub forma<br />

unei serii <strong>de</strong> distribut¸ie cu grupare <strong>de</strong> date se calculeazǎ cu formula:<br />

�<br />

|x − x| · fx<br />

d =<br />

� fx<br />

în care x reprezintǎ marca clasei ¸si fx frecvent¸a corespunzǎtoare, iar suma se extin<strong>de</strong> pe<br />

ansamblul claselor.<br />

Cu toate cǎ acest parametru al împrǎ¸stierii nu se folose¸ste frecvent, el este o mǎsurǎ a<br />

împrǎ¸stierii ¸si aratǎ distant¸a medie la care se aflǎ o valoare a variabilei X fat¸ǎ <strong>de</strong> media<br />

aritmeticǎ.<br />

Mai existǎ o cale <strong>de</strong> eliminare a reducerii <strong>de</strong>viat¸iilor. Ridicând la pǎtrat <strong>de</strong>viat¸iile<br />

individuale acestea <strong>de</strong>vin pozitive (sau zero). Când aceste pǎtrate sunt adunate rezultatul<br />

n�<br />

este pozitiv. Suma pǎtratelor <strong>de</strong>viat¸iilor fat¸ǎ <strong>de</strong> media aritmeticǎ (xi−x) 2 este folositǎ<br />

în <strong>de</strong>finirea variant¸ei.<br />

Definit¸ia 7.4. Variant¸a s2 a setului <strong>de</strong> date statistice distincte {x1, x2, ..., xn} este prin<br />

<strong>de</strong>finit¸ie:<br />

n�<br />

(xi − x) 2<br />

i=1<br />

s 2 =<br />

n<br />

Remarca 7.3. Dacǎ setul <strong>de</strong> date este prezentat sub forma unei serii <strong>de</strong> distribut¸ie fǎrǎ<br />

grupare <strong>de</strong> date variant¸a s2 se calculeazǎ cu formula:<br />

m�<br />

(xj − x) 2 · fj<br />

s 2 =<br />

j=1<br />

m�<br />

j=1<br />

Remarca 7.4. Dacǎ setul <strong>de</strong> date este prezentat sub forma unei serii <strong>de</strong> distribut¸ie cu<br />

grupare <strong>de</strong> date variant¸a s2 se calculeazǎ cu formula:<br />

s 2 �<br />

2<br />

(x − x) · fx<br />

=<br />

fj<br />

� fx<br />

în care x reprezintǎ marca clasei ¸si fx frecvent¸a corespunzǎtoare, iar suma se extin<strong>de</strong> pe<br />

ansamblul claselor.<br />

Definit¸ia 7.5. Deviat¸ia standard (abaterea standard) s a setului <strong>de</strong> date statistice<br />

distincte {x1, x2, ..., xn} este prin <strong>de</strong>finit¸ie:<br />

⎡<br />

⎢<br />

s = ⎢<br />

⎣<br />

n�<br />

(xi − x) 2<br />

⎤<br />

1<br />

2<br />

⎥<br />

n ⎥<br />

⎦<br />

i=1<br />

23<br />

i=1


Remarca 7.5. Dacǎ setul <strong>de</strong> date este prezentat sub forma unei serii <strong>de</strong> distribut¸ie fǎrǎ<br />

grupare <strong>de</strong> date <strong>de</strong>viat¸ia standard s se calculeazǎ cu formula:<br />

⎡ m�<br />

⎢ (xj − x)<br />

⎢ j=1<br />

s = ⎢<br />

⎣<br />

2 1<br />

⎤<br />

2<br />

· fj ⎥<br />

m� ⎥<br />

⎦<br />

j=1<br />

Remarca 7.6. Dacǎ setul <strong>de</strong> date este prezentat sub forma unei serii <strong>de</strong> distribut¸ie cu<br />

grupare <strong>de</strong> date <strong>de</strong>viat¸ia standard s se calculeazǎ cu formula:<br />

fj<br />

⎡�<br />

⎤<br />

1<br />

2<br />

(x − x) · fx 2<br />

s = ⎣<br />

⎦<br />

� fx<br />

în care x reprezintǎ marca clasei ¸si fx frecvent¸a corespunzǎtoare, iar suma se extin<strong>de</strong> pe<br />

ansamblul claselor.<br />

Remarca 7.7. Deviat¸ia standard a fost <strong>de</strong>finitǎ cu o formulǎ. Se poate pune întrebarea<br />

ce reprezintǎ ea în realitate? Un rǎspuns la aceastǎ întrebare poate fi dat cu inegalitatea<br />

lui Cebî¸sev <strong>din</strong> care rezultǎ cǎ pentru orice serie <strong>de</strong> distribut¸ie fract¸iunea <strong>de</strong> date situatǎ<br />

la cel mult k unitǎt¸i <strong>de</strong> <strong>de</strong>viat¸ie standard fat¸ǎ <strong>de</strong> medie este cel put¸in 1 − 1<br />

k2 , un<strong>de</strong> k este<br />

un numǎr pozitiv oarecare mai mare ca 1. Rezultǎ în particular cǎ pentru orice serie <strong>de</strong><br />

distribut¸ie fract¸iunea <strong>de</strong> date situatǎ la cel mult k = 2 unitǎt¸i <strong>de</strong> <strong>de</strong>viat¸ie standard fat¸ǎ <strong>de</strong><br />

medie este <strong>de</strong> cel put¸in 75% <strong>din</strong> totalul <strong>de</strong> date. Dacǎ k = 3 atunci este 89% <strong>din</strong> totalul<br />

<strong>de</strong> date.<br />

Conform regulii empirice dacǎ o serie <strong>de</strong> repartit¸ie este normalǎ atunci fract¸iunea <strong>de</strong> date<br />

situate la cel mult o unitate <strong>de</strong> <strong>de</strong>viat¸ie standard σ fat¸a <strong>de</strong> medie este aproximativ 68%,<br />

iar fract¸iunea <strong>de</strong> date situate la cel mult douǎ unitǎt¸i <strong>de</strong> <strong>de</strong>viat¸ie standard σ fat¸ǎ <strong>de</strong> medie<br />

este aproximativ 95%.<br />

Definit¸ia 7.6. Coeficientul <strong>de</strong> variat¸ie V este prin <strong>de</strong>finit¸ie:<br />

V = s<br />

· 100<br />

x<br />

Remarca 7.8. Coeficientul <strong>de</strong> variat¸ie este o statisticǎ relativǎ a dispersiei ¸si se folose¸ste<br />

la compararea dispersiei diferitelor variabile (caracteristici).<br />

Remarca 7.9. V poate lua valori între 0 ¸si 100%. Dacǎ V este aproape <strong>de</strong> zero<br />

(V < 35%), atunci populat¸ia studiatǎ statistic este omogenǎ ¸si media x este reprezentativǎ<br />

pentru aceastǎ populat¸ie. Dacǎ V este aproape <strong>de</strong> 100% (V > 75%), atunci populat¸ia<br />

studiatǎ statistic este eterogenǎ ¸si media x nu este reprezentativǎ. De cele mai multe<br />

ori în asemenea cazuri este necesarǎ separarea populat¸iei statistice în mai multe grupe<br />

omogene, care se studiazǎ separat.<br />

24


8 Parametrii ¸si statistici factoriali ai variant¸ei<br />

În analiza variant¸ei unui set <strong>de</strong> date statistice se folosesc urmǎtorii parametrii factoriali<br />

ai variant¸ei:<br />

- variant¸a <strong>de</strong> grupǎ (part¸ialǎ) s 2 j<br />

- media variant¸elor <strong>de</strong> grupǎ s 2<br />

- variant¸a mediilor <strong>de</strong> grupǎ fat¸ǎ <strong>de</strong> media generalǎ δ 2<br />

- variant¸a totalǎ (generalǎ) s 2 .<br />

Definit¸ia 8.1. Pentru o grupǎ <strong>de</strong> m date x1, x2, ..., xm, variant¸a <strong>de</strong> grupǎ este <strong>de</strong>finitǎ<br />

cu formula:<br />

m�<br />

s 2 j =<br />

i=1<br />

(xi − xj) 2 · nij<br />

m�<br />

i=1<br />

în care j este indicele grupei, xj este media grupei, xi sunt datele <strong>din</strong> grupa j având<br />

frecvent¸ele nij<br />

Remarca 8.1. Variant¸ele <strong>de</strong> grupǎ sunt mai mici <strong>de</strong>cât variant¸a ¸si au valori mai mari<br />

sau mai mici în funct¸ie <strong>de</strong> eterogenitatea grupei.<br />

Definit¸ia 8.2. Prin <strong>de</strong>finit¸ie media variant¸elor <strong>de</strong> grupǎ este:<br />

în care k este numǎrul <strong>de</strong> grupe, nj =<br />

s 2 =<br />

k�<br />

j=1<br />

nij<br />

s 2 j · nj<br />

k�<br />

j=1<br />

nj<br />

m�<br />

nij este numǎrul <strong>de</strong> date <strong>din</strong> grupǎ.<br />

i=1<br />

Definit¸ia 8.3. Variant¸a mediilor <strong>de</strong> grupǎ fat¸ǎ <strong>de</strong> media generalǎ este prin<br />

<strong>de</strong>finit¸ie:<br />

k�<br />

δ 2 =<br />

j=1<br />

(xj − x) 2 · nj<br />

k�<br />

j=1<br />

25<br />

nj


9 Parametrii ¸si statistici ale pozit¸iei<br />

Parametrii ¸si statistici ai pozit¸iei se folosesc pentru a <strong>de</strong>scrie locat¸ia unei date în raport<br />

cu celelalte date.<br />

Definit¸ia 9.1. Quantilele sunt valori numerice care împart setul <strong>de</strong> date în q grupe<br />

egale. Constanta q se nume¸ste or<strong>din</strong>ul quantilei.<br />

Mediana este quantila <strong>de</strong> or<strong>din</strong>ul doi.<br />

Quantilele <strong>de</strong> or<strong>din</strong>ul patru împart setul <strong>de</strong> date în patru grupe egale ¸si se numesc<br />

quartile. Quartilele sunt în numǎr <strong>de</strong> trei, notate <strong>de</strong> obicei cu Q1, Q2, Q3.<br />

Quartila Q1 este un numǎr cu proprietatea cǎ o pǎtrime <strong>din</strong> date au valori mai mici <strong>de</strong>cât<br />

Q1 ¸si trei pǎtrimi <strong>din</strong> date au valori mai mari <strong>de</strong>cât Q1.<br />

Quartila Q2 este un numǎr cu proprietatea cǎ jumǎtate <strong>din</strong> date au valori mai mici <strong>de</strong>cât<br />

Q2 ¸si jumǎtate <strong>din</strong> date au valori mai mari <strong>de</strong>cât Q2. Quartila Q2 este chiar mediana.<br />

Quartila Q3 este un numǎr cu proprietatea cǎ trei pǎtrimi <strong>din</strong> date au valori mai mici<br />

<strong>de</strong>cât Q3 ¸si o pǎtrime <strong>din</strong> date au valori mai mari <strong>de</strong>cât Q3.<br />

Alte categorii <strong>de</strong> quantile folosite sunt:<br />

- <strong>de</strong>cilele care împart setul <strong>de</strong> date în 10 grupe egale.<br />

- centilele care împart setul <strong>de</strong> date în 100 grupe egale.<br />

- promilele care împart setul <strong>de</strong> date în 1000 grupe egale.<br />

Orice set <strong>de</strong> date are 99 <strong>de</strong> centile Pk, k = 1..99. Centila Pk este o valoare numericǎ cu<br />

proprietatea cǎ k% <strong>din</strong> date are valori mai mici <strong>de</strong>cât Pk, iar (100 − k)% <strong>din</strong> date au<br />

valori mai mari <strong>de</strong>cât Pk.<br />

Remarca 9.1. Q1 = P25; Q3 = P75; me = Q2 = P50<br />

Remarca 9.2. Proce<strong>de</strong>ul <strong>de</strong> <strong>de</strong>terminare a centilei Pk este urmǎtorul:<br />

1) datele se ordoneazǎ crescǎtor;<br />

2) trebuie gǎsitǎ pozit¸ia i a centilei k. Prima oarǎ se <strong>de</strong>terminǎ numǎrul<br />

n este numǎrul <strong>de</strong> date. Dacǎ<br />

n · k<br />

întreg urmǎtor (<br />

n · k<br />

este<br />

100<br />

i = 23.5).<br />

100<br />

+ 0.5 (n · k<br />

100<br />

n · k<br />

100<br />

n · k<br />

= 17.2 → i = 18). Dacǎ<br />

100<br />

= 23 →<br />

n · k<br />

, un<strong>de</strong><br />

100<br />

nu este un numǎr întreg, atunci i este numǎrul<br />

este un numǎr întreg, atunci i<br />

3) localizarea valorii Pk: se numǎrǎ <strong>de</strong> la valoarea L (cea mai micǎ valoare a datelor) i<br />

valori dacǎ i este întreg. Dacǎ i nu este întreg atunci este un întreg plus o jumǎtate.<br />

n · k n · k<br />

În acest caz valoarea Pk este semisuma datelor <strong>de</strong> pe locurile ¸si + 1<br />

100 100<br />

O statisticǎ adit¸ionalǎ a pozit¸iei este scorul standard sau z-scor.<br />

26


Definit¸ia 9.2. Scorul standard sau z-scorul este pozit¸ia valorii x fat¸ǎ <strong>de</strong> mediana x<br />

în unitǎt¸i <strong>de</strong> <strong>de</strong>viat¸ie standard:<br />

x − x<br />

z =<br />

s<br />

27


10 Seria <strong>de</strong> distribut¸ie a statisticilor<br />

<strong>de</strong> e¸santioane<br />

Pentru a face inferent¸ǎ (predict¸ie) asupra parametrilor populat¸iei, este necesar sǎ analizǎm<br />

statisticile <strong>de</strong> e¸santioane. Media x în cazul unui e¸santion nu este neaparat egalǎ cu media µ<br />

a populat¸iei. Suntem însǎ mult¸umit¸i dacǎ media x este apropiatǎ <strong>de</strong> µ. Dacǎ se consi<strong>de</strong>rǎ<br />

media x′ în cazul unui al doilea e¸santion aceasta poate sǎ fie diferitǎ <strong>de</strong> x ¸si <strong>de</strong> µ. Ceea ce<br />

putem spera este ca aceasta sǎ fie apropiatǎ <strong>de</strong> valoarea µ ¸si <strong>de</strong> x. Valabilitatea acestui<br />

tip <strong>de</strong> comportament intereseazǎ pentru orice populat¸ie ¸si orice statisticǎ.<br />

Întrebarea care se na¸ste în mod natural este ce înseamnǎ aproape? Cum se mǎsoarǎ ¸si se<br />

<strong>de</strong>terminǎ aceastǎ apropiere? Care este seria <strong>de</strong> distribut¸ie a statisticilor <strong>de</strong> e¸santioane?<br />

Definit¸ia 10.1. Seria <strong>de</strong> distribut¸ie a statisticilor <strong>de</strong> e¸santioane este seria <strong>de</strong><br />

distribut¸ie a statisticilor <strong>de</strong> un anumit tip obt¸inute pentru e¸santioane <strong>de</strong> aceea¸si mǎrime.<br />

Tipul <strong>de</strong> statisticǎ poate fi oricare <strong>din</strong> statisticile prezentate în sect¸iunile 6 ¸si 7.<br />

Exemplul 10.1. Se consi<strong>de</strong>rǎ o populat¸ie <strong>de</strong> N elemente <strong>de</strong> la care se pot obt¸ine<br />

urmǎtoarele date statistice distincte: {0, 2, 4, 6, 8}. În cazul acestei populat¸ii formǎm<br />

e¸santioane <strong>de</strong> mǎrime 2 <strong>de</strong> la care putem avea urmǎtoarele date statistice:<br />

Pentru aceste e¸santioane mediile x sunt:<br />

(0, 0) (2, 0) (4, 0) (6, 0) (8, 0)<br />

(0, 2) (2, 2) (4, 2) (6, 2) (8, 2)<br />

(0, 4) (2, 4) (4, 4) (6, 4) (8, 4)<br />

(0, 6) (2, 6) (4, 6) (6, 6) (8, 6)<br />

(0, 8) (2, 8) (4, 8) (6, 8) (8, 8)<br />

0 1 2 3 4<br />

1 2 3 4 5<br />

2 3 4 5 6<br />

3 4 5 6 7<br />

4 5 6 7 8<br />

E¸santioanele fiind aleatoare fiecare e¸santion, are probabilitatea 1/25 sǎ fie ales ¸si seria <strong>de</strong><br />

distribut¸ie a mediilor acestor e¸santioane este:<br />

x f ′ (x)<br />

0 0.04<br />

1 0.08<br />

2 0.12<br />

3 0.16<br />

4 0.20<br />

5 0.16<br />

6 0.12<br />

7 0.08<br />

8 0.04<br />

un<strong>de</strong> f ′ (x) este frecvent¸a relativǎ a mediei x. Diagrama coloanǎ a mediilor e¸santioanelor<br />

este:<br />

28


Pentru acela¸si set <strong>de</strong> 25 <strong>de</strong> e¸santioane putem <strong>de</strong>termina seria <strong>de</strong> distribut¸ie a plajelor R<br />

a acestor e¸santioane.<br />

Plajele R ale e¸santioanelor sunt date în tabelul urmǎtor:<br />

0 2 4 6 8<br />

2 0 2 4 6<br />

4 2 0 2 4<br />

6 4 2 0 2<br />

8 6 4 2 0<br />

Seria <strong>de</strong> distribut¸ie a plajelor acestor e¸santioane este:<br />

R f ′ (R)<br />

0 0.20<br />

2 0.32<br />

4 0.24<br />

6 0.16<br />

8 0.08<br />

iar diagrama coloanǎ a plajei e¸santioanelor este:<br />

29


Exemplul 10.2. În cazul aruncǎrii zarului <strong>de</strong> un numǎr <strong>de</strong> N ori, setul <strong>de</strong> date statistice<br />

care se referǎ la numǎrul <strong>de</strong> pe fat¸ǎ care apare este 1, 2, 3, 4, 5, 6.<br />

Formǎm e¸santioane care constau <strong>din</strong> 5 aruncǎri. Fiecare <strong>din</strong> aceste e¸santioane are media<br />

x. Consi<strong>de</strong>rǎm 30 <strong>de</strong> e¸santioane <strong>de</strong> acest fel (înseamnǎ 30 × 5 = 150 aruncǎri) ¸si într-un<br />

tabel reprezentǎm rezultatele precum ¸si mediile corespunzǎtoare:<br />

Încercare E¸santion x Încercare E¸santion x<br />

1 1 2 3 2 2 2.0 16 5 2 1 3 5 3.2<br />

2 4 5 5 4 5 4.6 17 6 1 3 3 5 3.6<br />

3 3 1 5 2 4 3.0 18 6 5 5 2 6 4.8<br />

4 5 6 6 4 2 4.6 19 1 3 5 5 6 4.0<br />

5 5 4 1 6 4 4.0 20 3 1 5 3 1 2.6<br />

6 3 5 6 1 5 4.0 21 5 1 1 4 3 2.8<br />

7 2 3 6 3 2 3.2 22 4 6 3 1 2 3.2<br />

8 5 3 4 6 2 4.0 23 1 5 3 4 5 3.6<br />

9 1 5 5 3 4 3.6 24 3 4 1 3 3 2.8<br />

10 4 1 5 2 6 3.6 25 1 2 4 1 4 2.4<br />

11 5 1 3 3 2 2.8 26 5 2 1 6 3 3.4<br />

12 1 5 2 3 1 2.4 27 4 2 5 6 3 4.0<br />

13 2 1 1 5 3 2.4 28 4 3 1 3 4 3.0<br />

14 5 1 4 4 6 4.0 29 2 6 5 3 3 3.8<br />

15 5 5 6 3 3 4.4 30 6 3 5 1 1 3.2<br />

Histograma seriei <strong>de</strong> distribut¸ie a mediilor celor 30 <strong>de</strong> e¸santioane este reprezentatǎ în<br />

figura urmǎtoare:<br />

30


Aceastǎ lege <strong>de</strong> repartit¸ie pare sǎ aibe caracteristicile unei legi <strong>de</strong> repartit¸ie normalǎ; este<br />

maxim ¸si este simetric fat¸ǎ <strong>de</strong> media proprie 3.5.<br />

31


11 Teorema limitǎ centralǎ<br />

În sect¸iunea prece<strong>de</strong>ntǎ am prezentat seria <strong>de</strong> distribut¸ie a mediei ¸si plajei unui set <strong>de</strong><br />

e¸santioane. Media este statistica folositǎ cel mai frecvent în cazul e¸santioanelor ¸si <strong>de</strong> aceea<br />

este foarte importantǎ. Teorema limitǎ centralǎ se referǎ la seria <strong>de</strong> distribut¸ie a mediei<br />

tuturor e¸santioanelor aleatoare <strong>de</strong> aceea¸si mǎrime n.<br />

Sǎ formulǎm ce anume intereseazǎ în cazul acestei serii <strong>de</strong> distribut¸ie:<br />

1) Un<strong>de</strong> este centrul datelor?<br />

2) Cât <strong>de</strong> mare este dispersia datelor?<br />

3) Care este caracterul seriei <strong>de</strong> distribut¸ie?<br />

Teorema limitǎ centralǎ oferǎ rǎspuns la aceste trei întrebǎri.<br />

Teorema 11.1. Teorema limitǎ centralǎ<br />

Fie µ media ¸si σ <strong>de</strong>viat¸ia standard a unei variabile în cazul unei populat¸ii. Dacǎ se<br />

consi<strong>de</strong>rǎ toate e¸santioanele aleatoare <strong>de</strong> mǎrime n <strong>din</strong> aceastǎ populat¸ie, atunci seria <strong>de</strong><br />

distribut¸ie a mediilor acestor e¸santioane are urmǎtoarele proprietǎt¸i:<br />

a) media µx a acestei serii <strong>de</strong> distribut¸ie este egalǎ cu µ;<br />

b) <strong>de</strong>viat¸ia standard σx a acestei serii <strong>de</strong> distribut¸ie este σ √ n .<br />

c) dacǎ seria <strong>de</strong> distribut¸ie a variabilei în cazul populat¸iei este normalǎ, atunci seria<br />

<strong>de</strong> distribut¸ie a mediilor e¸santioanelor este normalǎ; dacǎ seria <strong>de</strong> distribut¸iei a<br />

variabilei în cazul populat¸iei nu este normalǎ, atunci seria <strong>de</strong> distribut¸ie a mediilor<br />

e¸santioanelor este aproximativ normalǎ pentru e¸santioane <strong>de</strong> mǎrime mai mare ca<br />

30. Ten<strong>din</strong>t¸a cǎtre o serie <strong>de</strong> distribut¸ie normalǎ cre¸ste dacǎ mǎrimea e¸santionului<br />

cre¸ste.<br />

Pe scurt, teorema limitǎ centralǎ stabile¸ste urmǎtoarele:<br />

1) µx = µ, un<strong>de</strong> x este media e¸santionului x;<br />

2) σx = σ/ √ n, <strong>de</strong>viat¸ia standard a mediei este egalǎ cu <strong>de</strong>viat¸ia standard a populat¸iei<br />

împǎt¸itǎ cu rǎdǎcina pǎtratǎ a mǎrimii e¸santionului.<br />

3) seria <strong>de</strong> distribut¸iei a mediei e¸santioanelor este aproximativ normalǎ indiferent <strong>de</strong><br />

seria <strong>de</strong> distribut¸iei a variabilei în cazul populat¸iei.<br />

Remarca 11.1. Deviat¸ia standard σx a seriei <strong>de</strong> distribut¸ie a mediilor e¸santioanelor<br />

este <strong>de</strong>viat¸ia standard a mediilor e¸santioanelor fat¸ǎ <strong>de</strong> media seriei <strong>de</strong> distribut¸ie a<br />

e¸santioanelor.<br />

Nu vom face <strong>de</strong>monstrat¸ie teoremei limitǎ centralǎ. Vom ilustra însǎ validitatea ei<br />

examinând un caz ilustrativ.<br />

32


Consi<strong>de</strong>rǎm o populat¸ie pentru care seria <strong>de</strong> distribut¸ie <strong>de</strong> date statistice cu frecvent¸e<br />

relative în cazul variabilei X este:<br />

�<br />

2<br />

X :<br />

1/3<br />

4<br />

1/3<br />

�<br />

6<br />

1/3<br />

Media µ ¸si <strong>de</strong>viat¸ia standard σ pentru aceastǎ variabilǎ sunt:<br />

3�<br />

µ = xj · f ′ �<br />

�<br />

�<br />

xj σ = � 3 �<br />

x 2 j · f ′ xj −<br />

�<br />

3�<br />

xj · f ′ �2 xj<br />

j=1<br />

µ = 12<br />

3<br />

j=1<br />

= 4 σ = 1, 63<br />

În cazul acestei populat¸ii oricare e¸santion <strong>de</strong> mǎrime doi are urmǎtoarele date posibile:<br />

E¸santioanele au urmǎtoarele medii:<br />

(2, 2) (2, 4) (2, 6)<br />

(4, 2) (4, 4) (4, 6)<br />

(6, 2) (6, 4) (6, 6)<br />

2 3 4<br />

3 4 5<br />

4 5 6<br />

E¸santion Media<br />

(2,2) 2<br />

(2,4) 3<br />

(2,6) 4<br />

(4,2) 3<br />

(4,4) 4<br />

(4,6) 5<br />

(6,2) 4<br />

(6,4) 5<br />

(6,6) 6<br />

E¸santioanele fiind aleatoare fiecare e¸santion are probabilitatea 1<br />

sǎ fie ales ¸si seria <strong>de</strong><br />

9<br />

distribut¸ie a mediilor e¸santioanelor este:<br />

� �<br />

2 3 4 5 6<br />

X<br />

1/9 2/9 3/9 2/9 1/9<br />

Media seriei <strong>de</strong> distribut¸ie a mediilor e¸santioanelor µx este µx = 36/9 = 4, 0. Prin urmare<br />

µ = µx, iar <strong>de</strong>viat¸ia standard a repartit¸iilor mediilor e¸santioanelor este:<br />

�<br />

�<br />

�<br />

σx = � 5 �<br />

x 2 j · f ′ xj −<br />

�<br />

5�<br />

xj · f ′ � � 2<br />

156<br />

xj =<br />

9 −<br />

� �2 36<br />

= 1, 15<br />

9<br />

σ<br />

√ n =<br />

j=1<br />

1, 63<br />

√ 2 =<br />

1, 63<br />

1, 44<br />

j=1<br />

= 1, 15 = σx<br />

Reprezentând seria <strong>de</strong> distribut¸ie a mediilor e¸santioanelor obt¸inem:<br />

33<br />

j=1


Aceastǎ diagramǎ aratǎ cǎ seria <strong>de</strong> distribut¸ie a mediilor e¸santioanelor este normalǎ.<br />

34


12 O aplicat¸ie a teoremei limitǎ centralǎ<br />

Teorema limitǎ centralǎ oferǎ informat¸ii asupra seriei <strong>de</strong> distribut¸ie a mediilor e¸santioanelor<br />

<strong>de</strong>scriind forma repartit¸iei mediilor tuturor e¸santioanelor (aproape normalǎ).<br />

Ea stabile¸ste relat¸ia <strong>din</strong>tre media µ a populat¸iei ¸si media µx a seriei <strong>de</strong> distribut¸ie a<br />

mediilor tuturor e¸santioanelor ¸si relat¸ia <strong>din</strong>tre <strong>de</strong>viat¸ia standard σ a populat¸iei ¸si <strong>de</strong>viat¸ia<br />

standard σx a seriei <strong>de</strong> distribut¸ie a mediilor e¸santioanelor. Deoarece seria <strong>de</strong> distribut¸ie<br />

a mediilor e¸santioanelor este aproape normalǎ putem stabili legǎturi probabiliste <strong>din</strong>tre<br />

media populat¸iei ¸si media unui e¸santion.<br />

Exemplul 12.1. Consi<strong>de</strong>rǎm o populat¸ie normalǎ cu µ = 100 ¸si σ = 20. Dacǎ se alege<br />

un e¸santion aleator <strong>de</strong> mǎrime n = 16 care este probabilitatea ca valoarea medie a acestui<br />

e¸santion sǎ fie între 90 ¸si 110? Altfel spus, cât este P (90 < x < 110)?<br />

Solut¸ie: Conform teoremei limitǎ centralǎ repartit¸ia valorilor medii ale e¸santioanelor<br />

este normalǎ. Prin urmare va trebui sǎ transformǎm condit¸ia P (90 < x < 110) într-o<br />

condit¸ie care sǎ permitǎ folosirea tabelului <strong>de</strong> distribut¸ie normalǎ standard. Aceasta se<br />

face scriind:<br />

� � � �<br />

110 − µx 90 − µx<br />

P (90 < x < 110) = Φ<br />

− Φ<br />

=<br />

un<strong>de</strong> Φ(X) = 1<br />

√ 2π<br />

� � � � � � � �<br />

110 − 100 −10<br />

10<br />

10<br />

= Φ<br />

− Φ = 2 · Φ − 1 = F<br />

�X<br />

−∞<br />

σx<br />

σx<br />

σx<br />

e −<br />

1<br />

2 t2<br />

dt ¸si F (X) = Φ(X) − 1<br />

2 .<br />

Deoarece σx = σ √ n , avem σx = 20<br />

√ 16 = 5 ¸si astfel obt¸inem:<br />

P (90 < x < 110) = 2 · Φ(2) − 1 = 2F (2) = 0.9544<br />

Efectul cre¸sterii dimensiunii n a e¸santionului nu afecteazǎ µx = µ ¸si mic¸soreazǎ σx. Prin<br />

urmare P (90 < x < 110) cre¸ste, dacǎ n cre¸ste.<br />

Exemplul 12.2. Înǎlt¸imea copiilor la o grǎ<strong>din</strong>it¸ǎ are o distribut¸ie normalǎ având o medie<br />

µ = 100 cm cu o <strong>de</strong>viat¸ie standard <strong>de</strong> 12, 5 cm. Pentru un e¸santion aleator <strong>de</strong> 25 <strong>de</strong> copii<br />

se <strong>de</strong>terminǎ media x. Care este probabilitatea ca aceastǎ medie sǎ fie între 90 cm ¸si 110<br />

cm?<br />

Solut¸ie:<br />

� �<br />

10<br />

P (90 < x < 110) = 2 · Φ − 1 = 2 · Φ(4) − 1 = 2 · F (4) = 2 · 0.499968<br />

σx<br />

35<br />

σx<br />

σx<br />

σx


13 Estimarea punctualǎ a unui parametru; intervalul<br />

<strong>de</strong> încre<strong>de</strong>re<br />

Consi<strong>de</strong>rǎm o populat¸ie a cǎrei medie µ nu o cunoa¸stem ¸si ne punem problema s-o gǎsim.<br />

Pentru acest scop consi<strong>de</strong>rǎm un e¸santion aleator <strong>de</strong> dimensiune n pentru care <strong>de</strong>terminǎm<br />

media x. Media x a e¸santionului este o estimare punctualǎ a mediei µ a populat¸iei.<br />

Definit¸ia 13.1. O estimare punctualǎ a parametrului γ a unei populat¸ii este o<br />

valoare g a unei statistici corespunzǎtoare.<br />

Remarca 13.1. Dacǎ x este media e¸santioanului cu care estimǎm media necunoscutǎ µ<br />

a populat¸iei, aceasta nu înseamnǎ cǎ x = µ. În general, x �= µ ¸si la ceea ce ne putem<br />

a¸stepta este ca x sǎ fie aproape <strong>de</strong> µ. Aceastǎ apropiere poate fi fixatǎ prin specificarea<br />

unui interval (centrat în µ) numit interval <strong>de</strong> estimare.<br />

Definit¸ia 13.2. Un interval mǎrginit (a, b) folosit pentru a estima valoarea unui anumit<br />

parametru γ a populat¸iei se nume¸ste interval <strong>de</strong> estimare. Valorile a, b (capetele<br />

intervalului) sunt calculate <strong>din</strong> e¸santion care este folosit pentru estimare.<br />

Cum anume se poate specifica un interval centrat în µ care este necunoscut folosind doar<br />

date furnizate <strong>de</strong> un e¸santion va fi lǎmurit în continuare.<br />

Exemplul 13.1. Consi<strong>de</strong>rǎm o populat¸ie având o <strong>de</strong>viat¸ie standard σ cunoscutǎ, o medie<br />

µ necunoscutǎ ¸si un e¸santion aleator simplu <strong>de</strong> mǎrime n ¸si medie x cunoscute. Condit¸ia<br />

x ∈ (µ − 1, µ + 1) înseamnǎ cǎ scorul standard z (pentru mediile e¸santioanelor) dat <strong>de</strong>:<br />

sǎ verifice:<br />

z =<br />

x − µx<br />

σx<br />

= x − µ<br />

σ<br />

√ n<br />

z ∈ (− 1 √n σ , 1 √<br />

n<br />

√n σ ) = (−<br />

σ ,<br />

√<br />

n<br />

σ )<br />

Astfel<br />

√<br />

în termenii<br />

√<br />

scorului standard intervalul <strong>de</strong> estimare este intervalul (a, b) cu a =<br />

n n<br />

− ¸si b =<br />

σ σ .<br />

Mai general condit¸ia x ∈ (µ − δ, µ + δ), înseamnǎ cǎ scorul standard z (pentru mediile<br />

e¸santioanelor) dat <strong>de</strong>:<br />

x − µx<br />

z = = x − µ<br />

sǎ verifice:<br />

Intervalul <strong>de</strong> estimare este (− δ · √ n<br />

σ<br />

σx<br />

z ∈ (− δ · √ n<br />

σ<br />

, δ · √ n<br />

).<br />

σ<br />

σ<br />

√ n<br />

, δ · √ n<br />

)<br />

σ<br />

Definit¸ia 13.3. Nivelul <strong>de</strong> neîncre<strong>de</strong>re α este probabilitatea ca statistica e¸santionului<br />

sǎ aibe valoarea în afara intervalului <strong>de</strong> estimare.<br />

36


Conform teoremei <strong>de</strong> limitǎ centralǎ, repartit¸ia lui x este normalǎ sau aproape normalǎ<br />

¸si avem:<br />

� √ √ �<br />

n n<br />

P (µ − 1 < x < µ + 1) = P − < z < =<br />

σ σ<br />

� √ � �√ �<br />

n<br />

n<br />

2 · P 0 < z < = 2 · F<br />

σ<br />

σ<br />

un<strong>de</strong> F (z) = 1<br />

�z<br />

√<br />

2 · π<br />

e −<br />

1<br />

2 t2<br />

dt.<br />

0<br />

�√ �<br />

n<br />

Deci nivelul <strong>de</strong> neîncre<strong>de</strong>re α este 1 − 2 · F .<br />

σ<br />

Definit¸ia 13.4. Nivelul <strong>de</strong> încre<strong>de</strong>re (coeficient <strong>de</strong> încre<strong>de</strong>re) 1−α este probabilitatea<br />

ca statistica e¸santionului sǎ se afle în intervalul <strong>de</strong> estimare ales.<br />

Definit¸ia 13.5. Intervalul <strong>de</strong> încre<strong>de</strong>re este un interval <strong>de</strong> estimare cu un nivel <strong>de</strong><br />

încre<strong>de</strong>re 1 − α specificat.<br />

� √<br />

n<br />

Exemplul 13.2. În cazul exemplului 13.1, intervalul <strong>de</strong> estimare −<br />

σ ,<br />

√ �<br />

n<br />

este un<br />

�√ �<br />

σ<br />

n<br />

interval <strong>de</strong> încre<strong>de</strong>re cu coeficientul <strong>de</strong> încre<strong>de</strong>re 1 − α = 2 · F .<br />

σ<br />

Definit¸ia 13.6. Eroarea maximǎ <strong>de</strong> estimare este jumǎtatea lungimii intervalului <strong>de</strong><br />

încre<strong>de</strong>re cu nivelul <strong>de</strong> încre<strong>de</strong>re 1 − α.<br />

În termen <strong>de</strong> scor standard aceastǎ eroare se exprimǎ cu formula:<br />

�<br />

α<br />

�<br />

E = z ·<br />

2<br />

σ √<br />

n<br />

�<br />

α<br />

�<br />

1 − α<br />

un<strong>de</strong> z este solut¸ia ecuat¸iei F (z) = , iar intervalul <strong>de</strong> încre<strong>de</strong>re 1 − α pentru µ<br />

2<br />

2<br />

este: � �<br />

α<br />

�<br />

x − z ·<br />

2<br />

σ �<br />

α<br />

�<br />

√ , x + z ·<br />

n 2<br />

σ �<br />

√<br />

n<br />

�<br />

α<br />

�<br />

x−z ·<br />

2<br />

σ �<br />

α<br />

�<br />

√ este limita inferioarǎ <strong>de</strong> încre<strong>de</strong>re, iar x+z ·<br />

n 2<br />

σ √ este limita superioarǎ<br />

n<br />

<strong>de</strong> încre<strong>de</strong>re.<br />

37


14 Generalitǎt¸i privind ipotezele statistice ¸si problema<br />

verificǎrii ipotezelor statistice<br />

Pentru a ilustra analiza care prece<strong>de</strong> luarea unei <strong>de</strong>cizii în privint¸a credibilitǎt¸ii unei<br />

asert¸iuni (numitǎ verificarea ipotezelor statistice) sǎ consi<strong>de</strong>rǎm urmǎtorul exemplu:<br />

Candidatul la admitere Popescu Nicolae trebuie sǎ completeze un formular test cu zece<br />

întrebǎri. Fiecare întrebare are cinci rǎspunsuri <strong>din</strong>tre care doar unul este corect. Popescu<br />

Nicolae a completat formularul ¸si <strong>din</strong> cele zece întrebǎri el a rǎspuns corect la ¸sapte. El<br />

sust¸ine cǎ a completat formularul fǎrǎ sǎ citeascǎ întrebǎrile ¸si rǎspunsurile la ele ¸si a<br />

marcat rǎspunsurile aleator.<br />

Întrebarea este în ce mǎsurǎ putem da crezare spuselor cǎ el a marcat rǎspunsurile aleator?<br />

O asemenea întrebare ne <strong>de</strong>terminǎ sǎ analizǎm ¸si sǎ hotǎrâm: este sau nu este rezonabil<br />

ca Popescu Nicolae sǎ obt¸inǎ ¸sapte rǎspunsuri corecte alegând aleator rǎspunsurile la<br />

întrebǎri? Descriem în cele ce urmeazǎ o analizǎ, care se nume¸ste verificarea ipotezelor<br />

statistice ¸si care conduce la formularea unei concluzii.<br />

Verificarea ipotezelor statistice, în general, este un proce<strong>de</strong>u care are 5 etape. Fiecare <strong>din</strong><br />

aceste etape va fi prezentatǎ ¸si ilustratǎ în cazul exemplului consi<strong>de</strong>rat.<br />

Etapa 1. Formularea ipotezei nule H0<br />

Prin ipotezǎ înt¸elegem o afirmat¸ie care sust¸ine cǎ ceva este a<strong>de</strong>vǎrat. În<br />

general, ipoteza nulǎ este o afirmat¸ie relativǎ la un parametru al unei<br />

populat¸ii ¸si afirmǎ cǎ parametrul are o valoare datǎ. A<strong>de</strong>sea expresia<br />

”nu diferǎ” este folositǎ în formularea ei, <strong>de</strong> aici vine numele <strong>de</strong> ipotezǎ<br />

nulǎ. (diferent¸a este nulǎ)<br />

Etapa 2. Formularea ipotezei alternative Ha<br />

Ipoteza alternativǎ Ha este o afirmat¸ie relativǎ la acela¸si parametru al<br />

populat¸iei care apare în ipoteza nulǎ H0. În ipoteza Ha se afirmǎ cǎ<br />

parametrul are o valoare diferitǎ <strong>de</strong> cea sust¸inutǎ în H0.<br />

Ipoteza H0 ¸si ipoteza Ha se formuleazǎ dupǎ o analizǎ a asert¸iunii care trebuie investigatǎ.<br />

În cazul exemplului consi<strong>de</strong>rat, asert¸iunea care trebuie analizatǎ este: Popescu a completat<br />

formularul aleator.<br />

Populat¸ia este o mult¸ime <strong>de</strong> 510 elemente (distincte). Un element este un sistem ordonat<br />

<strong>de</strong> 10 rǎspunsuri (R ′ i1 , R′ i2 , . . . , R′ i10 ), i1, i1, . . . , i10 ∈ {1, 2, 3, 4, 5}; R ′ i1 este unul <strong>din</strong> cele<br />

cinci rǎspunsuri posibile la prima întrebare, . . . , R ′ i10 este unul <strong>din</strong> cele cinci rǎspunsuri<br />

posibile la cea <strong>de</strong>-a zecea întrebare.<br />

Pentru o persoanǎ care marcheazǎ rǎspunsurile aleator (fǎrǎ sǎ le citeascǎ), toate<br />

rǎspunsurile sunt egal posibile. Altfel spus fiecare <strong>din</strong> cele cinci rǎspunsuri la o întrebare<br />

are aceea¸si ¸sansǎ ca sǎ fie corect. Din afirmat¸ia lui Popescu Nicolae rezultǎ cǎ el a marcat<br />

rǎspunsurile aleator, <strong>de</strong>ci a admis cǎ probabilitatea (parametrul p) este 1<br />

pentru fiecare<br />

510 element al populat¸iei.<br />

Analiza afirmat¸iei lui Popescu Nicolae conduce la urmǎtoarea formulare a ipotezei nule:<br />

H0 : p(X) = 1<br />

= p pentru orice Popescu Nicolae a completat<br />

510 element X al populat¸iei ⇔ formularul aleator.<br />

38


Ipoteza alternativǎ este:<br />

Ha : existǎ douǎ elemente X1, X2 în populat¸ie Popescu Nicolae nu a completat<br />

pentru care p(X1) �= p(X2) ⇔ formularul aleator<br />

De la acest punct începând se admite cǎ ipoteza nulǎ este a<strong>de</strong>vǎratǎ. Situat¸ia poate fi<br />

comparatǎ cu un proces la ju<strong>de</strong>cǎtorie, în care acuzatul este presupus nevinovat pânǎ<br />

când se dove<strong>de</strong>¸ste contrariul.<br />

Doar în etapa a 5-a a verificǎrii ipotezelor, vom lua una <strong>din</strong> cele douǎ <strong>de</strong>cizii posibile:<br />

vom <strong>de</strong>ci<strong>de</strong> în concordant¸ǎ cu ipoteza nulǎ H0 ¸si spunem cǎ acceptǎm H0 sau <strong>de</strong>ci<strong>de</strong>m în<br />

concordant¸ǎ cu Ha ¸si spunem cǎ respingem ipoteza H0.<br />

În funct¸ie <strong>de</strong> valoarea <strong>de</strong> a<strong>de</strong>vǎr a ipotezei H0 ¸si <strong>de</strong> respingerea sau nerespingerea ei<br />

<strong>de</strong>ciziile care se iau sunt prezentate în tabelul urmǎtor:<br />

Decizia Ipoteza H0 este<br />

A<strong>de</strong>vǎratǎ Falsǎ<br />

Nu respingem H0 <strong>de</strong>cizie eroare<br />

(acceptǎm) corectǎ<br />

Tip A Tip II<br />

Respingem H0 eroare <strong>de</strong>cizie<br />

corectǎ<br />

Tip I Tip B<br />

O <strong>de</strong>cizie corectǎ <strong>de</strong> tip A: apare când H0 este a<strong>de</strong>vǎratǎ ¸si nu respingem H0<br />

O <strong>de</strong>cizie corectǎ <strong>de</strong> tip B: apare când H0 este falsǎ ¸si respingem H0<br />

O eroare <strong>de</strong> tip I: apare când H0 este a<strong>de</strong>vǎratǎ ¸si H0 este respinsǎ<br />

O eroare tip II: apare când H0 este falsǎ ¸si H0 nu este respinsǎ<br />

Ar fi foarte frumos ca <strong>de</strong> fiecare datǎ când luǎm <strong>de</strong>cizii sǎ luǎm <strong>de</strong>cizii corecte, dar aceasta<br />

este statistic imposibil pentru cǎ ne bazǎm pe informat¸ii furnizate <strong>de</strong> e¸santioane. Cel mai<br />

bun lucru la ce putem spera este sǎ controlǎm riscul sau probabilitatea <strong>de</strong> a comite o<br />

eroare.<br />

Probabilitatea asignatǎ limitǎrii comiterii unei erori <strong>de</strong> tip I se noteazǎ cu α ¸si cea asignatǎ<br />

comiterii unei erori <strong>de</strong> tip II cu β:<br />

Eroarea Tipul <strong>de</strong> eroare Probabilitate<br />

Respingerea unei ipoteze a<strong>de</strong>vǎrate I α<br />

Acceptarea unei ipoteze false II β<br />

Etapa 3 Metodologia <strong>de</strong> verificare a ipotezelor: aceasta constǎ <strong>din</strong> (1)<br />

i<strong>de</strong>ntificarea unui test statistic; (2) specificarea valorii lui α; (3) <strong>de</strong>terminarea<br />

regiunii critice.<br />

(1) Un test statistic este o variabilǎ aleatoare folositǎ pentru a respinge<br />

sau nu ipoteza H0. Testul statistic este o statisticǎ <strong>de</strong> e¸santioane sau<br />

alte valori rezultate <strong>din</strong>tr-un e¸santion. Probabilitǎt¸ile care apar în acest<br />

test statistic sunt <strong>de</strong>terminate presupunând cǎ H0 este a<strong>de</strong>vǎratǎ.<br />

39


În cazul exemplului consi<strong>de</strong>rat, variabila aleatoare ”X= numǎrul <strong>de</strong> rǎspunsuri corecte”<br />

este folosit ca test statistic. Probabilitǎt¸ile pentru fiecare valoare x ale variabilei X în<br />

ipoteza cǎ H0 este a<strong>de</strong>vǎratǎ sunt date în tabelul urmǎtor:<br />

X 0 1 2 3 4 5<br />

P(X) 0.1074 0.2684 0.302 0.20133 0.0881 0.0264<br />

X 6 7 8 9 10<br />

P(X) 0.0055 7.92·10 −4 7.38·10 −5 4.098·10 −6 1.02·10 −7<br />

Aceastǎ repartit¸ie aratǎ cǎ probabilitatea sǎ ghice¸sti rǎspunsul corect la 5 sau mai multe<br />

întrebǎri este 0.0327, iar la 4 sau mai put¸in <strong>de</strong>cât 4 întrebǎri este 0.9673. Putem spune<br />

cǎ aparit¸ia valorilor 5, 6, 7, 8, 9, 10 nu sust¸ine ipoteza H0. Dacǎ cineva spune cǎ a ghicit<br />

rǎspunsul corect la 0, 1, 2, 3, 4 întrebǎri, spunem cǎ este foarte probabil. Dacǎ cineva spune<br />

cǎ a ghicit rǎspunsul corect la 5, 6, 7, 8, 9, 10 întrebǎri spunem cǎ este put¸in probabil.<br />

Nivelul <strong>de</strong> semnificat¸ie este probabilitatea α <strong>de</strong> a face o eroare <strong>de</strong> tip I, adicǎ <strong>de</strong> a<br />

respinge H0 a<strong>de</strong>vǎrat. În mod curent α se dǎ la început ¸si acesta <strong>de</strong>terminǎ regiunea<br />

criticǎ.<br />

În cazul exemplului, dacǎ α = 0.033, atunci <strong>din</strong> P (x ≥ 5) = 0.0327 rezultǎ<br />

regiunea criticǎ x = 5, 6, 7, 8, 9, 10.<br />

Regiunea criticǎ: este mult¸imea <strong>de</strong> valori (W ) pentru care P (X ∈ W ) ≤ α ¸si care ne<br />

<strong>de</strong>terminǎ sǎ respingem ipoteza H0. (nu sust¸in ipoteza H0)<br />

Valoarea criticǎ: este prima valoare <strong>din</strong> regiunea criticǎ.<br />

Dacǎ pentru un e¸santion valoarea testului statistic X <strong>de</strong>pǎ¸se¸ste valoarea criticǎ ipoteza<br />

H0 este respinsǎ.<br />

Dupǎ ce Etapa 3 a fost epuizatǎ, putem trece la Etapa 4.<br />

Etapa 4. Determinarea valorii testului statistic<br />

Dupǎ ce am par<strong>curs</strong> etapele 1,2,3 observǎm sau calculǎm valoarea x a<br />

testului statistic.<br />

În cazul exemplului x = 7 (numǎrul <strong>de</strong> rǎspunsuri corecte) este valoarea testului statistic<br />

¸si este dat. Uzual valoarea testului statistic se calculeazǎ pe baza informat¸iilor<br />

oferite <strong>de</strong> e¸santion.<br />

Etapa 5. Luarea unei <strong>de</strong>cizii ¸si interpretarea ei<br />

Decizia se ia comparând valoarea testului statistic <strong>de</strong>terminatǎ la Etapa<br />

4 cu regiunea criticǎ gǎsitǎ la Etapa 3.<br />

Regula <strong>de</strong> <strong>de</strong>cizie: Dacǎ valoarea testului statistic este în regiunea<br />

criticǎ respingem ipoteza H0, dacǎ nu, atunci acceptǎm ipoteza H0.<br />

Ansamblul <strong>de</strong> valori ale testului statistic care nu sunt în regiunea criticǎ<br />

formeazǎ regiunea <strong>de</strong> acceptabilitate. Testul este terminat prin luarea<br />

¸si justificarea <strong>de</strong>ciziei luate.<br />

În cazul exemplului: x = 7 este în regiunea criticǎ ¸si respingem ipoteza H0.<br />

Remarca 14.1. Cu aceasta nu am <strong>de</strong>monstrat cǎ Popescu Nicolae nu a ghicit cele 7<br />

rǎspunsuri. Am arǎtat doar cǎ dacǎ el le-a ghicit este foarte norocos pentru cǎ acesta<br />

este un eveniment rar ¸si are probabilitatea cel mult 0.033.<br />

40


15 Verificarea ipotezelor statistice:<br />

variantǎ clasicǎ<br />

În sect¸iunea prece<strong>de</strong>ntǎ am prezentat generalitǎt¸i privind verificarea ipotezelor statistice.<br />

În aceastǎ sect¸iune trecem la prezentarea verificǎrii ipotezelor statistice în cazul<br />

asert¸iunilor referitoare la media µ a unei populat¸ii. Pentru a simplifica aceastǎ prezentare<br />

la început presupunem cǎ <strong>de</strong>viat¸ia standard σ a populat¸iei este cunoscutǎ.<br />

Urmǎtoarele trei exemple se referǎ la diferite formulǎri ale ipotezei H0 ¸si a ipotezei Ha.<br />

Exemplul 15.1. Un ecologist sust¸ine cǎ ora¸sul Timi¸soara are o problemǎ privind poluarea<br />

aerului. Concret, el sust¸ine ca nivelul mediu al monoxidului <strong>de</strong> carbon în aer în centrul<br />

ora¸sului <strong>de</strong>pǎ¸se¸ste valoarea 4, 9/10 6 = valoarea medie normalǎ.<br />

Pentru a formula în acest caz, ipotezele H0 ¸si Ha, trebuie sǎ i<strong>de</strong>ntificǎm: populat¸ia,<br />

parametrul populat¸iei în cauzǎ ¸si valoarea cu care aceasta urmeazǎ sǎ fie comparatǎ.<br />

Populat¸ia în acest caz poate fi mult¸imea locurilor <strong>din</strong> centrul ora¸sului Timi¸soara. Variabila<br />

X este concentrat¸ia monoxidului <strong>de</strong> carbon ale cǎrei valori x variazǎ în funct¸ie <strong>de</strong> loc,<br />

iar parametrul populat¸iei este valoarea medie µ a acestei variabile. Valoarea specificǎ cu<br />

care aceastǎ medie trebuie comparatǎ este 4, 9/10 6 egalǎ cu valoarea (medie) normalǎ.<br />

Ecologistul face o asert¸iune privind valorea lui µ. Aceastǎ valoare poate fi: µ < 4, 9/10 6<br />

sau µ = 4, 9/10 6 sau µ > 4, 9/10 6 . Cele trei situat¸ii pot fi cuprinse în douǎ afirmat¸ii <strong>din</strong>tre<br />

care una exprimǎ ceea ce ecologistul sust¸ine, iar cealaltǎ exprimǎ contrariul.<br />

Inegalitatea µ > 4, 9/10 6 este afirmat¸ia: ”valoarea medie este mai mare ca 4, 9/10 6 ”.<br />

Inegalitatea µ ≤ 4, 9/10 6 este echivalentǎ cu ”µ < 4, 9/10 6 sau µ = 4, 9/10 6 ” ¸si este<br />

afirmat¸ia contrarǎ: ”valoarea medie nu este mai mare ca 4, 9/10 6 ”.<br />

Ecologistul sust¸ine cǎ µ > 4, 9/10 6 . Pentru a formula ipoteza H0 ¸si ipoteza Ha reamintim<br />

cǎ:<br />

1) În general, ipoteza H0 sust¸ine cǎ media µ (parametrul în chestiune) are o valoare<br />

specificǎ anume.<br />

2) Inferent¸a privind media µ a populat¸iei se bazeazǎ pe media unui e¸santion ¸si mediile<br />

e¸santioanelor au o distribut¸ie aproximativ normalǎ. (conform teoremei limitǎ<br />

centralǎ).<br />

3) O distribut¸ie normalǎ este complet <strong>de</strong>terminatǎ dacǎ valoarea medie ¸si <strong>de</strong>viat¸ia<br />

standard a distribut¸iei sunt cunoscute.<br />

Cele <strong>de</strong> mai sus sugereazǎ cǎ afirmat¸ia µ = 4, 9/10 6 ar trebui sǎ fie ipoteza nulǎ ¸si afirmat¸ia<br />

µ > 4, 9/10 6 ar trebui sǎ fie ipoteza alternativǎ:<br />

H0 : µ = 4, 9/10 6<br />

Ha : µ > 4, 9/10 6<br />

Reamintim cǎ dupǎ ce ipoteza nulǎ H0 este formulatǎ, în testul statistic i<strong>de</strong>ntificat se<br />

presupune cǎ H0 este a<strong>de</strong>vǎratǎ. Aceasta înseamnǎ cǎ µ = 4, 9/10 6 este egalǎ cu media<br />

41


distribut¸iei mediilor e¸santioanelor µx ¸si este o rat¸iune în plus pentru care ipoteza H0<br />

trebuie scrisǎ doar cu semnul egal<br />

H0 : µ = 4, 9/10 6 .<br />

Dacǎ admitem cǎ afirmat¸ia ”µ = 4, 9/10 6 sau µ < 4, 9/10 6 ” este ipoteza nulǎ H0, atunci:<br />

H0 : µ ≤ 4, 9/10 6<br />

Ha : µ > 4, 9/10 6 .<br />

Remarca 15.1. Semnul egal trebuie sǎ fie inclus tot<strong>de</strong>auna în ipoteza nulǎ. În acest<br />

exemplu asert¸iunea ecologistului este exprimatǎ <strong>de</strong> fapt în Ha ¸si aceasta este analizat.<br />

Exemplul 15.2. Vom consi<strong>de</strong>ra acum o a doua asert¸iune; <strong>de</strong> exemplu al Camerei <strong>de</strong><br />

Comert¸, care sust¸ine cǎ nivelul mediu al monoxidului <strong>de</strong> carbon în centrul ora¸sului<br />

Timi¸soara este mai mic <strong>de</strong>cât 4, 9/10 6 (valoare normalǎ). Aceasta este o reclamǎ bunǎ<br />

pentru turism.<br />

S¸i în acest caz parametrul este media µ a repartit¸iei monoxidului <strong>de</strong> carbon. Valoarea<br />

specificǎ este 4, 9/10 6 care este valoare normalǎ.<br />

”µ < 4, 9/10 6 ” ⇔ ”valoarea medie este mai micǎ <strong>de</strong>cât valoarea medie normalǎ”<br />

”µ ≥ 4, 9/10 6 ” ⇔ ”valoarea medie este mai mare sau egalǎ <strong>de</strong>cât valoarea<br />

medie normalǎ”<br />

H0, Ha pot fi formulate astfel:<br />

H0 : µ ≥ 4, 9/10 6<br />

Ha : µ < 4, 9/10 6<br />

S¸i <strong>de</strong> data aceasta asert¸iunea Camerei <strong>de</strong> Comert¸ este exprimatǎ în Ha ¸si aceasta trebuie<br />

analizatǎ.<br />

Exemplul 15.3. O a treia asert¸iune (mai neutrǎ) sust¸ine doar cǎ nivelul mediu µ al<br />

monoxidului <strong>de</strong> carbon în aerul <strong>din</strong> centrul ora¸sului Timi¸soara este diferit <strong>de</strong> 4, 9/10 6<br />

(valoarea normalǎ diferitǎ <strong>de</strong> µ).<br />

În acest caz:<br />

H0 : µ = 4.9/10 6 ¸si Ha : µ �= 4, 9/10 6<br />

Cele trei exemple aratǎ cǎ asert¸iunea care trebuie analizatǎ <strong>de</strong>terminǎ într-un anumit sens<br />

formularea ipotezelor H0, Ha. Mai exact: în aceste cazuri asert¸iunea sust¸ine cǎ valoarea<br />

parametrului µ este diferitǎ <strong>de</strong> cea normalǎ, iar ipoteza nulǎ sust¸ine cǎ este aceea¸si (nu<br />

diferǎ).<br />

În cazul acestor exemple, cei care î¸si formuleazǎ asert¸iunea se a¸steaptǎ la respingerea<br />

ipotezei nule H0 ¸si la acceptarea ipotezei alternative Ha care este o afirmat¸ie conformǎ cu<br />

asert¸iunea lor.<br />

Situat¸iile <strong>de</strong> la procesele juridice prezintǎ o oarecare asemǎnare cu cele relatate. Dacǎ<br />

procurorul nu cre<strong>de</strong> în vinovǎt¸ia inculpatului nu intenteazǎ proces (ipoteza H0 prezumt¸ia<br />

<strong>de</strong> nevinovǎt¸ie este presupusǎ a<strong>de</strong>vǎratǎ). Procesul se <strong>de</strong>clan¸seazǎ doar dacǎ procurorul<br />

are suficiente probe pentru a face proces.<br />

42


S¸i în statisticǎ dacǎ ”experimantatorul” cre<strong>de</strong> în ipoteza H0 nu face test pentru investigarea<br />

lui H0. El testeazǎ ipoteza nulǎ doar dacǎ dore¸ste sǎ arate cǎ Ha este corectǎ.<br />

Exemplul care urmeazǎ ilustreazǎ toate cele cinci etape <strong>de</strong> verificare a ipotezelor statistice<br />

în cazul unei asert¸iuni care se referǎ la media unei populat¸ii.<br />

Exemplul 15.4. Un profesor a înregistrat pe mai mult¸i ani rezultatul elevilor ¸si media<br />

µ a acestor rezultate este 72 ¸si abaterea standard este σ = 12. Clasa <strong>de</strong> 36 <strong>de</strong> elevi pe<br />

care-i învat¸ǎ la momentul actual are o medie x = 75, 2 (mai ridicatǎ <strong>de</strong>cât media µ = 72)<br />

¸si profesorul afirmǎ cǎ aceastǎ clasǎ este superioarǎ celor <strong>de</strong> pânǎ acum.<br />

Întrebarea este<br />

dacǎ media clasei x = 75, 2 este un argument suficient pentru a sust¸ine afirmat¸ia profesorului<br />

la nivelul <strong>de</strong> semnificat¸ie α = 0, 05.<br />

Ment¸ionǎm cǎ pentru ca aceastǎ clasǎ sǎ fie superioarǎ trebuie sǎ aibe o medie mai mare<br />

<strong>de</strong>cât toate clasele <strong>din</strong>ainte. Dacǎ media ei este egalǎ sau mai micǎ <strong>de</strong>cât media unei<br />

clase anterioare, atunci ea nu este superioarǎ.<br />

Dacǎ se consi<strong>de</strong>rǎ e¸santioane aleatoare <strong>de</strong> mǎrime n = 36 <strong>din</strong>tr-o populat¸ie cu media<br />

µ = 72, multe e¸santioane vor avea media x aproape <strong>de</strong> 72, <strong>de</strong> exemplu 71; 71, 8; 72; 72, 5; 73.<br />

Doar medii x care sunt consi<strong>de</strong>rabil mai mari <strong>de</strong>cât 72 vor sust¸ine afirmat¸ia profesorului.<br />

De aceea:<br />

Etapa 1. H0 : µx = µ = 72 ⇔ clasa nu este superioarǎ<br />

Etapa 2. Ha : µx = µ > 72 ⇔ clasa este superioarǎ<br />

Etapa 3. - Atunci când în ipoteza nulǎ H0 media populat¸iei ¸si <strong>de</strong>viat¸ia<br />

standard sunt cunoscute scorul standard z este folosit ca ¸si test<br />

statistic.<br />

- Nivelul <strong>de</strong> semnificat¸ie α = 0, 05 este dat;<br />

- Reamintim cǎ în baza teoremei limitǎ centralǎ distribut¸ia<br />

mediilor e¸santioanelor este aproape normalǎ. Prin urmare,<br />

distribut¸ia normalǎ va fi folositǎ pentru <strong>de</strong>terminarea regiunii<br />

critice. Regiunea criticǎ este egalǎ cu mult¸imea valorilor<br />

scorului standard z care <strong>de</strong>terminǎ respingerea ipotezei<br />

H0 ¸si este situatǎ la extremitatea dreaptǎ a distribut¸iei normale.<br />

Regiunea criticǎ este la dreapta <strong>de</strong>oarece valori mari<br />

ale mediei e¸santionului sust¸in ipoteza H0 în timp ce valori<br />

apropiate ori sub 72 sust¸in ipoteza nulǎ.<br />

Figura 1:<br />

43


Valoarea criticǎ ce <strong>de</strong>sparte zona valorilor ”nu este superior” <strong>de</strong> zona valorilor ”este superior”<br />

este <strong>de</strong>terminatǎ <strong>de</strong> probabilitatea α <strong>de</strong> a comite o eroare <strong>de</strong> tip I. α = 0, 05 a<br />

fost datǎ. Astfel regiunea criticǎ ha¸suratǎ pe Figura 2. are aria 0, 05 ¸si valoarea criticǎ<br />

�∞<br />

1<br />

1, 65 este solut¸ia ecuat¸iei: √ e<br />

2 · π<br />

−<br />

t2 2 dt = 0, 05.<br />

z<br />

Figura 2:<br />

Etapa 4. Valoarea testului statistic este dat <strong>de</strong>:<br />

z ∗ =<br />

x − µ<br />

σ<br />

√ n<br />

= 75, 2 − 72<br />

12/6<br />

= 1, 6<br />

Etapa 5. Comparǎm valoarea gǎsitǎ 1, 6 cu valoarea criticǎ 1, 65 ¸si gǎsim 1, 6 <<br />

1, 65. Decizia este cǎ nu putem respinge ipoteza H0. Testul se încheie<br />

cu formularea concluziei.<br />

Concluzie: Probele nu sunt suficiente pentru a sust¸ine cǎ actuala clasǎ<br />

este superioarǎ claselor anterioare.<br />

Pare aceastǎ concluzie realistǎ în condit¸iile în care în mod evi<strong>de</strong>nt, 75, 2 este mai mare<br />

ca 72. Nu trebuie sǎ uitǎm x = 75, 2 este media unui e¸santion <strong>de</strong> 36 <strong>de</strong> indivizi extras<br />

<strong>din</strong>tr-o populat¸ie cu media µ = 72 ¸si <strong>de</strong>viat¸ia standard σ = 12 ¸si analiza aratǎ cǎ probabilitatea<br />

ca media e¸santionului sǎ fie mai mare <strong>de</strong>cât mediile tuturor e¸santioanelor este<br />

mai mare <strong>de</strong>cât riscul α cu care noi acceptǎm o eroare <strong>de</strong> tip I.<br />

Exemplul 15.5. La un colegiu s-a stabilit cǎ greutatea medie a stu<strong>de</strong>ntelor este µ = 54, 4<br />

kg, iar abaterea standard σ = 5, 4 kg. Profesorul <strong>de</strong> sport nu cre<strong>de</strong> aceastǎ afirmat¸ie.<br />

Pentru a face un test select¸ioneazǎ un e¸santion aleator <strong>de</strong> 100 <strong>de</strong> stu<strong>de</strong>nte ¸si gǎse¸ste cǎ<br />

media x = 53, 75 kg. Este aceasta suficient pentru a respinge afirmat¸ia la nivelul <strong>de</strong><br />

semnificat¸ie α = 0, 05?<br />

Etapa 1. H0 : µ = 54, 4 kg<br />

Etapa 2. Ha : µ �= 54, 4 kg<br />

44


Etapa 3. - <strong>de</strong>oarece folosim o distribut¸ie <strong>de</strong> medii <strong>de</strong> e¸santioane testul statistic<br />

va fi scorul standard.<br />

- nivelul α = 0, 05 este dat;<br />

- media e¸santionului este o estimare a mediei populat¸iei. Ipoteza<br />

alternativǎ ”nu este egal” este sust¸inutǎ <strong>de</strong> medii <strong>de</strong> e¸santioane<br />

consi<strong>de</strong>rabil mai mari sau consi<strong>de</strong>rabil mai mici ca 54, 4. ipoteza nulǎ<br />

este sust¸inutǎ <strong>de</strong> medii <strong>de</strong> e¸santioane în jurul valorii 54, 4. Regiunea<br />

criticǎ este formatǎ <strong>din</strong> douǎ pǎrt¸i egale situate la cele douǎ extremitǎt¸i<br />

ale distribut¸iei normale. Aria corespunzǎtoare fiecǎrei port¸iuni este<br />

α<br />

¸si probabilitatea fiecǎrei pǎrt¸i a regiunii critice este 0, 025. Rezultǎ<br />

2<br />

z<br />

⎛<br />

�<br />

�<br />

⎜ α<br />

�<br />

�∞<br />

1<br />

= 1, 96 ⎝z este solut¸ia ecuat¸iei: √<br />

2<br />

2 · π<br />

� α<br />

2<br />

Figura 3:<br />

Etapa 4. Se <strong>de</strong>terminǎ valoarea testului statistic:<br />

z ∗ =<br />

x − µ<br />

σ<br />

√ n<br />

= −1, 204<br />

a cǎrei locat¸ie este datǎ pe figura urmǎtoare:<br />

45<br />

z<br />

e −<br />

t2 ⎞<br />

2 dt = α⎟<br />

⎠.<br />

2


Figura 4:<br />

Reamintim: Dacǎ valoarea testului statistic este în regiunea criticǎ respingem ipoteza<br />

H0 dacǎ nu, nu putem respinge ipoteza H0.<br />

Etapa 5. Valoarea testului statistic nu este în regiunea criticǎ.<br />

Decizia: Nu respingem ipoteza H0.<br />

Justificarea <strong>de</strong>ciziei: Valoarea testului nu este în <strong>de</strong>zacord cu H0 la<br />

nivel <strong>de</strong> risc α = 0, 05. Aceasta nu înseamnǎ cǎ H0 este a<strong>de</strong>vǎratǎ.<br />

Concluzie: Media x gǎsitǎ <strong>de</strong> profesor nu contravine ipotezei cǎ media µ este 54,4<br />

kg, când dispersia σ este 5, 4 kg.<br />

O <strong>de</strong>cizie <strong>de</strong> respingere a lui H0 înseamnǎ cǎ valoarea testului implicǎ cǎ H0 este falsǎ ¸si<br />

indicǎ Ha.<br />

Rezumat privind verificarea ipotezelor statistice asupra mediei în variantǎ<br />

clasicǎ:<br />

1. Ipoteza H0 specificǎ o valoare particularǎ a mediei populat¸iei.<br />

2. Ipoteza Ha are trei forme. Fiecare <strong>din</strong>tre acestea <strong>de</strong>terminǎ o locat¸ie specificǎ a<br />

regiunii critice a¸sa cum apare în tabelul <strong>de</strong> mai jos:<br />

Semne în ipoteza < �= ><br />

alternativǎ<br />

Regiunea criticǎ O regiune Douǎ regiuni O regiune<br />

la stânga <strong>de</strong> fiecare la dreapta<br />

parte câte una<br />

test unilateral test bilateral test unilateral<br />

stânga dreapta<br />

3. Pentru multe cazuri semnul <strong>din</strong> ipoteza Ha indicǎ direct¸ia în care regiunea criticǎ<br />

se gǎse¸ste<br />

Valoarea lui α se nume¸ste nivel <strong>de</strong> semnificat¸ie ¸si reprezintǎ riscul (probabilitatea)<br />

respingerii lui H0 atunci când aceasta estea a<strong>de</strong>vǎratǎ. Nu putem <strong>de</strong>termina<br />

46


dacǎ ipoteza H0 este a<strong>de</strong>vǎratǎ sau falsǎ. Putem doar <strong>de</strong>ci<strong>de</strong> cǎ o respingem<br />

sau cǎ o acceptǎm.<br />

Probabilitatea cu care respingem ipoteza a<strong>de</strong>vǎratǎ este α, dar nu ¸stim probabilitatea cu<br />

care facem o <strong>de</strong>cizie eronatǎ. O eroare <strong>de</strong> tip I ¸si o eroare în <strong>de</strong>cizie sunt lucruri diferite.<br />

47


16 Verificarea ipotezelor statistice:<br />

varianta probabilistǎ<br />

În sect¸iunea prece<strong>de</strong>ntǎ am <strong>de</strong>scris varianta clasicǎ <strong>de</strong> verificare a ipotezelor statistice<br />

în cazul asert¸iunilor referitoare la media µ a unei populat¸ii. O variantǎ probabilistǎ<br />

constǎ în <strong>de</strong>terminarea unei probabilitǎt¸i numitǎ p-valoarea (prob-valoare) referitoare<br />

la o statisticǎ observatǎ, care este comparatǎ cu nivelul <strong>de</strong> semnificat¸ie α dat.<br />

Definit¸ia 16.1. P-valoarea unui test statistic este cea mai micǎ valoare a nivelului<br />

<strong>de</strong> semnificat¸ie α pentru care informat¸ia extrasǎ <strong>din</strong> e¸santion este semnificativǎ (H0<br />

a<strong>de</strong>vǎratǎ se respinge).<br />

Consi<strong>de</strong>rǎm <strong>din</strong> nou exemplul 15.4 <strong>din</strong> sect¸iunea prece<strong>de</strong>ntǎ ¸si-l analizǎm <strong>din</strong> acest punct<br />

<strong>de</strong> ve<strong>de</strong>re.<br />

Exemplul 16.1. Un profesor a înregistrat pe mai mult¸i ani rezultatul elevilor ¸si media<br />

µ a acestor rezultate este 72 ¸si dispersia σ = 12. Clasa <strong>de</strong> 36 <strong>de</strong> elevi pe care-i învat¸ǎ<br />

la momentul actual are o medie x = 75, 2 . Aceastǎ medie fiind mai ridicatǎ <strong>de</strong>cât 72<br />

profesorul vrea sǎ arate cǎ aceastǎ clasǎ este superioarǎ celor <strong>de</strong> pânǎ acum. Întrebarea<br />

este dacǎ media clasei x = 75, 2 este un argument suficient pentru a sust¸ine afirmat¸ia<br />

profesorului la nivelul <strong>de</strong> semnificat¸ie α = 0, 05?<br />

Precizǎm cǎ pentru a putea sust¸ine cǎ actuala clasǎ este mai bunǎ <strong>de</strong>cât toate celelalte<br />

clase anterioare trebuie ca media clasei actuale sǎ fie mai mare <strong>de</strong>cât media oricǎrei clase<br />

<strong>din</strong>ainte. Dacǎ media clasei actuale este mai micǎ sau egalǎ cu media unei clase anterioare,<br />

atunci clasa actualǎ nu este mai bunǎ <strong>de</strong>cât toate celelalte.<br />

Etapa 1. Formularea ipotezei H0: H0 : µx = µ = 72.<br />

Aceastǎ ipotezǎ corespun<strong>de</strong> asert¸iunii cǎ actuala clasǎ nu este superioarǎ<br />

celorlalte clase.<br />

Etapa 2. Formularea ipotezei alternative Ha: Ha : µx = µ > 72.<br />

Aceastǎ ipotezǎ corespun<strong>de</strong> asert¸iunii cǎ actuala clasǎ este superioarǎ<br />

celorlalte clase.<br />

Remarcǎm faptul cǎ etapele 1 ¸si 2 sunt acelea¸si în variantǎ probabilistǎ ca ¸si în variantǎ<br />

clasicǎ <strong>de</strong> verificare a ipotezelor statistice.<br />

Etapa 3. Specificarea nivelului <strong>de</strong> semnificat¸ie α, a probabilitǎt¸ii erorii <strong>de</strong> tip I:<br />

α = 0, 005.<br />

Etapa 4. Folosind formula scorului standard (z-scorului) ¸si media x = 75, 2 a<br />

e¸santionului <strong>de</strong> mǎrime n = 36 se <strong>de</strong>terminǎ valoarea testului statistic:<br />

z ∗ =<br />

x − µ<br />

σ<br />

√ n<br />

= 1, 60<br />

Remarcǎm aici cǎ Etapa 4 în varianta probabilistǎ este aceea¸si ca ¸si<br />

varianta clasicǎ <strong>de</strong> verificare a ipotezelor statistice.<br />

48


Etapa 5. Se reprezintǎ distribut¸ia normalǎ a mediilor (testul statistic) în acest<br />

caz ¸si se localizeazǎ valoarea z ∗ <strong>de</strong>terminatǎ în Etapa 4 (care împarte<br />

distribut¸ia în douǎ pǎrt¸i) ¸si se <strong>de</strong>terminǎ care parte a distribut¸iei<br />

reprezintǎ p−valoarea.<br />

Dupǎ care se <strong>de</strong>terminǎ p−valoarea. Ipoteza alternativǎ Ha aratǎ cǎ în<br />

cazul nostru:<br />

p = P (z > z ∗ ) = P (z > 1, 6) = 0, 0548<br />

Etapa 6. p-valoarea în cazul nostru este 0, 0548. Prin urmare pentru<br />

orice nivel <strong>de</strong> semnificat¸ie α ≤ 0, 0548 nu putem respinge<br />

ipoteza nulǎ ¸si concluzia este cǎ nu avem probe suficiente pentru<br />

a <strong>de</strong>monstra superioritatea clasei actuale. Dacǎ însǎ nivelul <strong>de</strong><br />

semnificat¸ie α fixat la început este mai mare ca 0, 0548 (<strong>de</strong> ex. α = 0, 1)<br />

atunci <strong>de</strong>cizia noastrǎ va fi <strong>de</strong> respingere a ipotezei H0 ¸si concluzia <strong>de</strong><br />

superioritate a clasei actuale.<br />

Figura 5:<br />

Înainte sǎ trecem la un al doilea exemplu recapitulǎm câteva <strong>de</strong>talii privind verificarea<br />

ipotezelor statistice în varianta probabilistǎ:<br />

1. Ipotezele H0 ¸si Ha se formuleazǎ în aceea¸si manierǎ ca ¸si în varianta clasicǎ.<br />

2. Se specificǎ nivelul <strong>de</strong> semnificat¸ie α care va fi folosit.<br />

3. Valoarea testului statistic se calculeazǎ în Etapa 4 <strong>de</strong> aceea¸si manierǎ ca în varianta<br />

clasicǎ.<br />

4. P-valoarea este aria aflatǎ între curba <strong>de</strong> <strong>de</strong>nsitate <strong>de</strong> probabilitate axa Oz ¸si z = z ∗ .<br />

Existǎ trei cazuri posibile: douǎ unilaterale ¸si unul bilateral. Direct¸ia (sau semnul)<br />

în ipoteza Ha este indiciul:<br />

Cazul 1. Dacǎ Ha este unilateralǎ la dreapta (” > ”) atunci p = P (z > z ∗ ) ¸si aria este<br />

în dreapta lui z ∗ .<br />

Cazul 2. Dacǎ Ha este unilateralǎ stânga (” < ”), atunci p = P (z < z ∗ ) este aria <strong>din</strong><br />

stânga lui z ∗ .<br />

Cazul 3. Dacǎ Ha este bilateralǎ (” �= ”), atunci p = P (z < −|z ∗ |) + P (z > |z ∗ |) =<br />

2 · P (z > |z ∗ |)<br />

49


5. Decizia se ia comparând P -valoarea cu nivelul <strong>de</strong> semnificat¸ie α:<br />

a) Dacǎ P ≤ α atunci H0 se respinge;<br />

b) Dacǎ P > α atunci H0 se acceptǎ.<br />

6. Concluzia se formuleazǎ <strong>de</strong> aceea¸si manierǎ ca ¸si în varianta clasicǎ.<br />

Consi<strong>de</strong>rǎm acum un exemplu în care Ha este bilateral.<br />

Exemplul 16.2. Companii mari folosesc agent¸ii specializate pentru a testa candidat¸ii<br />

care doresc sǎ fie angajat¸i. Agent¸ia A folose¸ste un test <strong>de</strong> select¸ie pentru care în <strong>de</strong><strong>curs</strong>ul<br />

timpului s-a stabilit o medie <strong>de</strong> 82 ¸si o <strong>de</strong>viat¸ie standard <strong>de</strong> 8. Agent¸ia B a <strong>de</strong>zvoltat<br />

o nouǎ metodǎ <strong>de</strong> testare care este mai rapidǎ, mai u¸sor <strong>de</strong> aplicat ¸si costǎ mai put¸in.<br />

Agent¸ia B sust¸ine cǎ testul lor dǎ acelea¸si rezultate ca ¸si testul agent¸iei A.<br />

Mai multe companii, pentru a reduce costul, se gân<strong>de</strong>sc sǎ treacǎ <strong>de</strong> la agent¸ia A la<br />

agent¸ia B, dar ei nu doresc sǎ facǎ aceastǎ trecere dacǎ media cu teste B diferǎ <strong>de</strong> cea<br />

cu teste A. O agent¸ie in<strong>de</strong>pen<strong>de</strong>ntǎ C a testat cu noul test 36 <strong>de</strong> indivizi ¸si a obt¸inut o<br />

medie <strong>de</strong> 80.<br />

Care este p−valoarea asociatǎ acestui test?<br />

Rezultatul testului agent¸iei B este acela¸si dacǎ µ = 82 ¸si este diferit dacǎ µ �= 82. Prin<br />

urmare:<br />

Etapa 1. H0 : µ = 82 (testele au aceea¸si medie)<br />

Etapa 2. Ha : µ �= 82 (testele au medii diferite)<br />

Etapa 3. Este omisǎ dacǎ se cere p-valoarea fǎrǎ luarea unei <strong>de</strong>cizii.<br />

Etapa 4. Informat¸ia <strong>din</strong> e¸santion: n = 36 ¸si x = 80:<br />

z ∗ =<br />

x − µ<br />

σ<br />

√ n<br />

= −2<br />

8<br />

6<br />

= − 12<br />

8<br />

= −3<br />

2<br />

= −1.5<br />

Etapa 5. Se localizeazǎ z ∗ pe o distribut¸ie normalǎ ¸si <strong>de</strong>oarece Ha este bilateral<br />

vom consi<strong>de</strong>ra P (z < −|z ∗ |) ¸si P (z > |z ∗ |) ¸si obt¸inem:<br />

p = P (z < −1, 50) + P (z > 1, 50)<br />

= 0, 5 − 0, 4332 + 0, 5 − 0, 4332 = 0, 1336<br />

<strong>de</strong>ci p− valoarea este 0, 1336.<br />

50


Figura 6:<br />

Fiecare companie va lua propria <strong>de</strong>cizie: a) continuǎ cu A sau b) schimbǎ ¸si trece la<br />

B. Fiecare va trebui sǎ stabileascǎ propriul nivel <strong>de</strong> semnificat¸ie ¸si sǎ ia o <strong>de</strong>cizie în<br />

consecint¸ǎ.<br />

51


17 Inferent¸ǎ statisticǎ privind media populat¸iei dacǎ<br />

nu se cunoa¸ste abaterea standard a populat¸iei<br />

Pânǎ acum am prezentat douǎ tipuri <strong>de</strong> inferent¸ǎ statisticǎ privind media populat¸iei:<br />

evaluarea intervalului <strong>de</strong> încre<strong>de</strong>re ¸si verificarea ipotezelor statistice. În cele douǎ<br />

tipuri <strong>de</strong> inferent¸e statistice abaterea standard σ este consi<strong>de</strong>ratǎ cunoscutǎ. În general<br />

însǎ abaterea standard σ nu este cunoscutǎ. Subiectul acestei sect¸iuni este inferent¸a<br />

statisticǎ privind media µ dacǎ abaterea standard σ nu este cunoscutǎ.<br />

Dacǎ dimensiunea e¸santionului este suficient <strong>de</strong> mare (în general vorbind, e¸santioane<br />

a cǎror mǎrimi este mai mare <strong>de</strong>cât n = 30 <strong>de</strong> date sunt consi<strong>de</strong>rate suficient <strong>de</strong> mari),<br />

<strong>de</strong>viat¸ia standard s a e¸santionului este o estimare bunǎ a <strong>de</strong>viat¸iei standard a populat¸iei ¸si<br />

putem susbstitui σ cu s în procedura discutatǎ <strong>de</strong>ja. Dacǎ populat¸ia pe care o investigǎm<br />

este aproape normalǎ ¸si n ≤ 30, atunci proce<strong>de</strong>ul se bazeazǎ pe distribut¸ia Stu<strong>de</strong>nt t.<br />

Distribut¸ia Stu<strong>de</strong>nt t (sau simplu t distribut¸ia) este distribut¸ia statisticii t, <strong>de</strong>finitǎ prin:<br />

t =<br />

x − µ<br />

s<br />

√ n<br />

În anul 1908 W.S. Gosset un funct¸ionar la o fabricǎ <strong>de</strong> bere în Irlanda a publicat o<br />

lucrare relativǎ la aceastǎ distribut¸ie sub pseudonimul ”Stu<strong>de</strong>nt”. În lucrarea lui Gosset<br />

se presupune cǎ populat¸ia este normalǎ. Aceastǎ restrict¸ie s-a dovedit ulterior restrictivǎ,<br />

întrucât se obt¸in rezultate satisfǎcǎtoare ¸si pentru multe populat¸ii care nu sunt normale.<br />

Ecuat¸ia care <strong>de</strong>fine¸ste distribut¸ia t nu o dǎm aici, doar dǎm câteva proprietǎt¸i ale lui t:<br />

1) distribut¸ia t are media 0;<br />

2) distribut¸ia t este simetricǎ fat¸ǎ <strong>de</strong> medie;<br />

3) distribut¸ia t are variant¸a supraunitarǎ, dar dacǎ dimensiunea e¸santionului cre¸ste,<br />

variant¸a tin<strong>de</strong> la 1;<br />

4) distribut¸ia t în jurul mediei este sub ¸si <strong>de</strong>parte <strong>de</strong> medie este <strong>de</strong>asupra distribut¸iei<br />

normale;<br />

5) fiecǎrei mǎrimi <strong>de</strong> e¸santion îi corespun<strong>de</strong> o distribut¸ie t separatǎ care <strong>de</strong>pin<strong>de</strong> <strong>de</strong><br />

mǎrimea e¸santionului. Dacǎ mǎrimea e¸santionului cre¸ste atunci t- distribut¸ia tin<strong>de</strong><br />

la distribut¸ia normalǎ.<br />

52


Figura 7:<br />

Cu toate cǎ pentru fiecare mǎrime <strong>de</strong> e¸santion (n=2,3,4,...) avem o distribut¸ie t separatǎ<br />

completǎ, în practicǎ doar anumite valori critice ale lui t sunt folosite. Aceste valori critice<br />

aflate în dreapta mediei sunt redate în tabelul urmǎtor:<br />

α 0,40 0,30 0.25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005<br />

df<br />

1 0,325 0,727 1,000 1,376 3,078 6,314 12,71 31,82 63,66 318,3 636,6<br />

2 0,289 0,617 0,816 1,061 1,886 2,920 4,303 6,965 9,925 22,33 31,60<br />

3 0,277 0,584 0,765 0,978 1,638 2,353 3,182 4,541 5,841 10,22 12,94<br />

4 0,271 0,569 0,741 0,941 1,533 2,132 2,776 3,747 4,604 7,173 8,610<br />

5 0,267 0,559 0,727 0,920 1,476 2,015 2,571 3,365 4,032 5,893 6,859<br />

6 0,265 0,553 0,718 0,906 1,440 1,943 2,447 3,143 3,707 5,208 5,959<br />

7 0,263 0,549 0,711 0,896 1,415 1,895 2,365 2,998 3,499 4,785 5,405<br />

8 0,262 0,546 0,706 0,889 1,397 1,860 2,306 2,896 3,355 4,501 5,041<br />

9 0,261 0,543 0,703 0,883 1,383 1,833 2,262 2,821 3,250 4,297 4,781<br />

10 0,260 0,542 0,700 0,879 1,372 1,812 2,228 2,764 3,169 4,144 4,587<br />

11 0,260 0,540 0,697 0,876 1,363 1,796 2,201 2,718 3,106 4,025 4,437<br />

12 0,259 0,539 0,695 0,873 1,356 1,782 2,179 2,681 3,055 3,930 4,318<br />

13 0,259 0,538 0,694 0,870 1,350 1,771 2,160 2,650 3,012 3,852 4,221<br />

14 0,258 0,537 0,692 0,868 1,345 1,761 2,145 2,624 2,977 3,787 4,140<br />

15 0,258 0,536 0,691 0,866 1,341 1,753 2,131 2,602 2,947 3,733 4,073<br />

16 0,258 0,535 0,690 0,865 l,337 1,746 2,120 2,583 2,921 3,686 4,015<br />

53


α 0,40 0,30 0,25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005<br />

df<br />

17 0,257 0,534 0,689 0,863 1,333 1,740 2,110 2,567 2,898 3,646 3,965<br />

18 0,257 0,534 0,688 0,862 1,330 1,734 2,101 2,552 2,878 3,611 3,922<br />

19 0,257 0,533 0,688 0,861 1,328 1,729 2,093 2,539 2,861 3,579 3,883<br />

20 0,257 0,533 0,687 0,860 1,325 1,725 2,086 2,528 2,845 3,552 3,850<br />

21 0,257 0,532 0,686 0,859 1,323 1,721 2,080 2,518 2,831 3,527 3,819<br />

22 0,256 0,532 0,686 0,858 1,321 1,717 2,074 2,508 2,819 3,505 3,792<br />

23 0,256 0,532 0,685 0,858 1,319 1,714 2,069 2,500 2,807 3,485 3,767<br />

24 0,256 0,531 0,685 0,857 1,318 1,711 2,064 2,492 2,797 3,467 3,745<br />

25 0,256 0,531 0,684 0,856 1,316 1,708 2,060 2,485 2,787 3,450 3,725<br />

26 0,256 0,531 0,684 0,856 1,315 1,706 2,056 2,479 2,779 3,435 3,707<br />

27 0,256 0,531 0,684 0,855 1,314 1,703 2,052 2,473 2,771 3,421 3,690<br />

28 0,256 0,530 0,683 0,855 1,313 1,701 2,048 2,467 2,763 3,408 3,674<br />

29 0,256 0,530 0,683 0,854 1,311 1,699 2,045 2,462 2,756 3,396 3,659<br />

z 0,256 0,530 0,674 0,854 1,310 1,697 2,042 2,457 2,750 3,385 3,646<br />

Figura 8:<br />

În acest tabel df are valorile <strong>de</strong> la 1 la 29 ¸si este numǎrul gra<strong>de</strong>lor <strong>de</strong> libertate.<br />

Apropierea valorilor <strong>din</strong> liniile corespunzǎtoare lui df = 29 ¸si z se datoreazǎ faptului<br />

cǎ dacǎ n ≥ 30 distribut¸ia t este cea normalǎ (teorema limitǎ centralǎ).<br />

Gradul <strong>de</strong> libertate df este un parametru statistic care este greu <strong>de</strong> <strong>de</strong>finit. El este un<br />

indice care se folose¸ste pentru a i<strong>de</strong>ntifica distribut¸ia care trebuie folositǎ. În consi<strong>de</strong>rat¸iile<br />

noastre df = n − 1, un<strong>de</strong> n este mǎrimea e¸santionului. Valoarea criticǎ a testului t care<br />

trebuie folositǎ în estimarea intervalului <strong>de</strong> încre<strong>de</strong>re precum ¸si în verificarea ipotezelor<br />

statistice se obt¸ine <strong>din</strong> tabelul prezentat. Pentru a obt¸ine aceastǎ valoare este nevoie <strong>de</strong><br />

a cunoa¸ste:<br />

1) df - numǎrul gra<strong>de</strong>lor <strong>de</strong> libertate;<br />

2) α aria <strong>de</strong>terminatǎ <strong>de</strong> curba <strong>de</strong> repartit¸ie aflatǎ în dreapta valorii critice. Aceastǎ<br />

valoare este notatǎ t(df, α).<br />

54


Exemplul 17.1. Determinat¸i t(10, 0.05) <strong>din</strong> tabel. Avem df = 10 ¸si α = 0.05, <strong>de</strong>ci<br />

t(10, 0.05) = 1.81.<br />

Valorile critice ale testului statistic t aflate în stânga mediei se obt¸in cu formula: −t(df, α),<br />

t¸inând seama <strong>de</strong> simetria distribut¸iei t.<br />

Figura 9:<br />

Se observǎ u¸sor cǎ −t(df, α) = t(df, 1 − α). Astfel: −t(df; 0, 05) = t(df; 0, 95).<br />

Exemplul 17.2. Determinat¸i t(15; 0, 95). Avem: t(15; 0, 95) = −t(15; 0, 05) = −1, 75.<br />

Figura 10:<br />

<strong>Statistica</strong> t este folositǎ în verificarea ipotezelor statistice privind asert¸iuni relative la<br />

media µ <strong>de</strong> aceea¸si manierǎ ca ¸si statistica z.<br />

Exemplul 17.3. Revenim la exemplul relativ la poluarea aerului; punctul <strong>de</strong> ve<strong>de</strong>re al<br />

ecologistului este: ”nivelul monoxidului <strong>de</strong> carbon în aer este mai mare <strong>de</strong>cât 4, 9/10 6 ”.<br />

Un e¸santion <strong>de</strong> 25 <strong>de</strong> <strong>de</strong>terminǎri cu media x = 5, 1/10 6 ¸si s = 2, 1/10 6 este un argument<br />

suficient pentru a sust¸ine afirmat¸ia? Se folose¸ste nivelul <strong>de</strong> semnificat¸ie α = 0, 05.<br />

Etapa 1. H0 : µ = 4, 9/10 6<br />

Etapa 2. Ha : µ > 4, 9/10 6<br />

55


Etapa 3. α = 0, 05; df = 25 − 1 = 24 ¸si t(24; 0, 05) = 1, 71 <strong>din</strong> tabel.<br />

Etapa 4.<br />

t ∗ =<br />

x − µ<br />

s<br />

√ n<br />

= 5, 1 − 4, 9<br />

2, 1/ √ 25<br />

= 0, 20<br />

0, 42<br />

= 0, 476 � 0, 48<br />

Etapa 5. Decizia: Nu putem respinge H0 (t ∗ nu este în regiunea criticǎ).<br />

Concluzie: Nu avem suficiente argumente pentru ca sǎ respingem<br />

ipoteza cǎ nivelul monoxidului <strong>de</strong> carbon este 4, 96/10 6 .<br />

Figura 11:<br />

Remarca 17.1. Dacǎ valoarea df (df = n − 1) este mai mare ca 29, atunci valoarea<br />

criticǎ a lui t(df, α) este foarte apropiatǎ <strong>de</strong> z(α) (scorul z este listat la capǎtul tabelului)<br />

¸si prin urmare în loc <strong>de</strong> t(df, α) se folose¸ste z(α). Deoarece tabelul consi<strong>de</strong>rat cont¸ine doar<br />

valorile critice ale distribut¸iei t, p-valoarea nu poate fi gǎsitǎ <strong>din</strong> tabel în cazul verificǎrii<br />

ipotezei statistice pentru cǎ aceasta necesitǎ distribut¸ia t completǎ. P-valoarea poate fi<br />

însǎ estimatǎ folosind tabelul.<br />

Exemplul 17.4. Sǎ revenim la exemplul 17.3. Ret¸inem t ∗ = 0, 48, df = 24 ¸si Ha : µ > 49.<br />

Astfel pentru a rezolva problema folosind varianta probabilistǎ pentru Etapa 5 cu pvaloarea<br />

avem:<br />

p = P (t > 0, 48, ¸stiind df = 24)<br />

56


Figura 12:<br />

Rândul df = 24 <strong>din</strong> tabel aratǎ cǎ p-valoarea este mai mare ca 0, 25. Valoarea 0, 685 <strong>din</strong><br />

tabel aratǎ cǎ P (t > 0, 685) = 0, 25 a¸sa cum aratǎ figura urmǎtoare:<br />

Figura 13:<br />

Comparând t ∗ = 0, 48, ve<strong>de</strong>m cǎ p− valoarea este mai mare ca 0, 25.<br />

Exemplul 17.5. Sǎ se <strong>de</strong>termine p−valoarea pentru urmǎtoarea ipotezǎ statisticǎ:<br />

în condit¸iile în care df = 15 ¸si t ∗ = −1, 84.<br />

H0 : µ = 55<br />

Ha : µ �= 55<br />

Solut¸ie: p = P (t < −1, 84) + P (t > 1, 84) = 2 · P (t > 1, 84). Rândul df = 15 <strong>din</strong> tabel<br />

aratǎ cǎ P (t > 1, 84) este între 0, 025 ¸si 0, 05. Prin urmare avem: 0, 05 < p < 0, 10.<br />

Media populat¸iei poate fi estimatǎ dacǎ σ este necunoscut <strong>de</strong> o manierǎ similarǎ cu cazul<br />

σ cunoscut. Diferent¸a este cǎ se folose¸ste distribut¸ia t în loc <strong>de</strong> distribut¸ia z ¸si <strong>de</strong>viat¸ia<br />

standard s ca estimare a lui σ. Formula pentru intervalul <strong>de</strong> încre<strong>de</strong>re 1 − α este:<br />

�<br />

x − t(df, α s<br />

) · √ , x + t(df,<br />

2 n α<br />

�<br />

s<br />

) · √<br />

2 n<br />

57


un<strong>de</strong> df = n − 1.<br />

Figura 14:<br />

Exemplul 17.6. În cazul unui e¸santion aleator <strong>de</strong> 20 <strong>de</strong> noi nǎscut¸i, media greutǎt¸ii lor<br />

este 3, 4 kg ¸si <strong>de</strong>viat¸ia standard este 0, 9 kg. Sǎ se estimeze cu o încre<strong>de</strong>re <strong>de</strong> 95% media<br />

greutǎt¸ii noilor nǎscut¸i.<br />

Solut¸ie: x = 3, 4 kg, s = 0, 9 kg ¸si n = 20, iar 1 − α = 0, 95, implicǎ: α = 0, 05; df = 19,<br />

iar <strong>din</strong> tabel gǎsim: t(19; 0, 025) = 2, 09. Capetele intervalului sunt:<br />

x ± t(19; 0, 025) · s<br />

0, 9<br />

√ = 3, 4 ± 2, 09 · √<br />

n 20<br />

3, 4 ± 2, 09 ·<br />

0, 9<br />

4, 472<br />

Intervalul <strong>de</strong> încre<strong>de</strong>re <strong>de</strong> 95% este (2, 94; 3, 86).<br />

58<br />

= 3, 4 ± 0, 46


18 Inferent¸ǎ relativǎ la variant¸ǎ ¸si estimarea variant¸ei<br />

A<strong>de</strong>sea se pun probleme care cer sǎ facem inferent¸ǎ asupra variant¸ei. De exemplu, o<br />

companie <strong>de</strong> produse rǎcoritoare are o ma¸sinǎ <strong>de</strong> îmbuteliat, care umple cu rǎcoritoare<br />

butelii <strong>de</strong> 0, 32 l= 32 cl. Cantitatea medie pusǎ în fiecare butelie este importantǎ, dar<br />

cantitatea medie corectǎ nu asigurǎ cǎ ma¸sina lucreazǎ corect. Dacǎ variant¸a este mare,<br />

vor fi multe butelii care sunt prea umplute ¸si multe butelii care nu sunt bine umplute.<br />

De aceea, compania dore¸ste sǎ controleze variant¸a σ 2 a cantitǎt¸ii x <strong>de</strong> rǎcoritoare pusǎ în<br />

fiecare butelie ¸si sǎ ment¸inǎ variant¸a la un nivel cât mai scǎzut posibil.<br />

Vom prezenta în aceastǎ sect¸iune o inferent¸ǎ privind variant¸a unei populat¸ii. A<strong>de</strong>sea în<br />

cazul acestei inferent¸e se vorbe¸ste <strong>de</strong>spre <strong>de</strong>viat¸ia standard în loc <strong>de</strong> variant¸ǎ. Trebuie sǎ<br />

subliniem cǎ <strong>de</strong>viat¸ia standard este rǎdǎcinǎ pǎtratǎ a variant¸ei; a¸sadar a vorbi <strong>de</strong>spre<br />

variant¸ǎ este comparabil cu a vorbi <strong>de</strong>spre <strong>de</strong>viat¸ie standard.<br />

Sǎ revenim la exemplul companiei <strong>de</strong> produse rǎcoritoare. Sǎ ne imaginǎm cǎ aceastǎ<br />

companie dore¸ste sǎ <strong>de</strong>tecteze când variabilitatea cantitǎt¸ii <strong>de</strong> rǎcoritoare pusǎ în fiecare<br />

butelie scapǎ <strong>de</strong> sub control. O variant¸ǎ <strong>de</strong> 0, 0004 este consi<strong>de</strong>ratǎ acceptabilǎ ¸si<br />

compania va regla ma¸sina <strong>de</strong> îmbuteliat dacǎ variant¸a <strong>de</strong>vine mai mare <strong>de</strong>cât aceastǎ<br />

valoare. Decizia va fi luatǎ folosind verificarea ipotezelor statistice. Ipoteza H0 este cǎ<br />

variant¸a are valoarea 0, 0004, iar ipoteza Ha este cǎ variant¸a <strong>de</strong>pǎ¸se¸ste valoarea 0, 0004:<br />

H0 : σ 2 = 0, 0004 (variant¸a este controlatǎ)<br />

Ha : σ 2 > 0, 0004 (variant¸a nu este controlatǎ)<br />

Testul statistic care va fi folosit pentru a lua o <strong>de</strong>cizie asupra ipotezei H0 este testul χ 2 .<br />

Valoarea calculatǎ a lui χ 2 se va obt¸ine folosind formula:<br />

χ 2 =<br />

n · s2<br />

σ 2<br />

un<strong>de</strong> s 2 este variant¸a e¸santionului, n este mǎrimea e¸santionului, iar σ 2 este valoarea<br />

specificatǎ în ipoteza nulǎ.<br />

Dacǎ se iau e¸santioane <strong>de</strong> mǎrime n <strong>din</strong>tr-o populat¸ie normalǎ, având variantǎ σ 2 , atunci<br />

cantitatea n·s 2 /σ 2 are o distribut¸ie care se nume¸ste distribut¸ia χ 2 . Formula care <strong>de</strong>fine¸ste<br />

distribut¸ia χ 2 nu o vom da aici, dar pentru a folosi distribut¸ia χ 2 , prezentǎm urmǎtoarele<br />

proprietǎt¸i ale acesteia:<br />

1. distribut¸ia χ 2 are valori nenegative, este zero sau este pozitivǎ;<br />

2. distribut¸ia χ 2 nu este simetricǎ, este asimetricǎ la dreapta;<br />

3. existǎ mai multe repartit¸ii χ 2 . Ca ¸si pentru distribut¸iile t existǎ o distribut¸ie χ 2<br />

pentru fiecare grad <strong>de</strong> libertate. Inferent¸a pe care o discutǎm aici se referǎ la cazul<br />

df = n − 1.<br />

Valorile critice ale lui χ 2 sunt date în tabelul urmǎtor:<br />

59


df/α 0.995 0.990 0.975 0.950 0.900 0.10 0.05 0.025 0.01 0.005<br />

2 0.01 0.020 0.050 0.103 0.211 4.61 6.0 7.38 9.21 10.6<br />

3 0.071 0.115 0.216 0.352 0.584 6.25 7.82 9.35 11.4 12.9<br />

4 0.207 0.297 0.484 0.711 1.06 7.78 9.50 11.1 13.3 14.9<br />

5 0.412 0.554 0.831 1.15 1.61 9.24 11.1 12.8 15.1 16.8<br />

6 0.676 0.872 1.24 1.64 2.20 10.6 12.6 14.5 16.8 18.6<br />

7 0.990 1.24 1.69 2.17 2.83 12.0 14.1 16.0 18.5 20.3<br />

8 1.34 1.65 2.18 2.73 3.49 13.4 15.5 17.5 20.1 22.0<br />

9 1.73 2.09 2.70 3.33 4.17 14.7 17.0 19.0 21.7 23.6<br />

10 2.16 2.56 3.25 3.94 4.87 16.0 18.3 20.5 23.2 25.2<br />

11 2.60 3.05 3.82 4.58 5.58 17.2 19.7 21.9 24.7 26.8<br />

12 3.07 3.57 4.40 5.23 6.30 18.6 21.0 23.3 26.2 28.3<br />

13 3.57 4.11 5.01 5.90 7.04 19.8 22.4 24.7 27.7 29.8<br />

14 4.07 4.66 5.63 6.57 7.79 21.1 23.7 26.1 29.1 31.3<br />

15 4.60 5.23 6.26 7.26 8.55 22.3 25.0 27.5 30.6 32.8<br />

16 5.14 5.81 6.91 7.96 9.31 23.5 26.3 28.9 32.0 34.3<br />

17 5.70 6.41 7.56 8.67 10.1 24.8 27.6 30.2 33.4 35.7<br />

18 6.26 7.01 8.23 9.39 10.9 26.0 28.9 31.5 34.8 37.2<br />

19 6.84 7.63 8.91 10.1 11.7 27.2 30.1 32.9 36.2 38.6<br />

20 7.43 8.26 9.59 10.9 12.4 28.4 31.41 34.2 37.6 40.0<br />

21 8.03 8.90 10.3 11.6 13.2 29.6 32.7 35.5 39.0 41.4<br />

22 8.64 9.54 11.0 12.3 14.0 30.8 33.9 36.8 40.3 42.8<br />

23 9.26 10.2 11.0 13.1 14.9 32.0 35.2 38.1 41.6 44.2<br />

24 9.89 10.9 12.4 13.9 15.7 33.2 36.4 39.4 43.0 45.6<br />

25 10.5 11.5 13.1 14.6 16.5 34.4 37.7 40.7 44.3 46.9<br />

26 11.2 12.2 13.8 15.4 17.3 35.6 38.9 41.9 45.6 48.3<br />

27 11.8 12.9 14.6 16.2 18.1 36.7 40.1 43.2 47.0 49.7<br />

28 12.5 13.6 15.3 16.9 18.9 37.9 41.3 44.5 48.3 51.0<br />

29 13.1 14.3 16.1 17.7 19.8 39.1 42.6 45.7 49.6 52.3<br />

30 13.8 15.0 16.8 18.5 20.6 40.3 43.8 47.0 50.9 53.7<br />

40 20.7 22.2 24.4 26.5 29.1 51.8 55.8 59.3 63.7 66.8<br />

50 28.0 29.7 32.4 34.8 37.7 63.2 67.5 71.4 76.2 79.5<br />

60 5.5 37.5 40.5 43.2 46.5 74.4 79.1 83.3 88.4 92.0<br />

70 43.3 45.4 48.8 51.8 55.3 85.5 90.5 95.0 100.0 104.0<br />

80 51.2 53.5 57.2 60.4 64.3 96.6 102.0 107.0 112.0 116.0<br />

90 59.2 61.8 65.7 69.1 73.3 108.0 113.0 118.0 124.0 128.0<br />

100 67.3 70.1 74.2 77.9 82.4 114.0 124.0 130.0 136.0 140.0<br />

60


Figura 15:<br />

Valorile critice vor fi i<strong>de</strong>ntificate prin douǎ valori: gra<strong>de</strong> <strong>de</strong> libertate ¸si aria situatǎ sub<br />

curbǎ în dreapta valorii critice. Astfel χ 2 (df, α) este simbolul folosit pentru i<strong>de</strong>ntificarea<br />

valorii critice χ 2 cu df gra<strong>de</strong> <strong>de</strong> libertate ¸si cu aria α sub grafic ¸si în dreapta, a¸sa cum<br />

este prezentat pe figura urmǎtoare:<br />

Figura 16:<br />

Exemplul 18.1. Folosind tabelul <strong>de</strong>terminat¸i χ 2 (20; 0, 05) ¸si χ 2 (14; 0, 90).<br />

Din tabel se obt¸ine: χ 2 (20; 0, 05) = 31, 4 ¸si χ 2 (14; 0, 90) = 7, 79.<br />

Remarca 18.1. Dacǎ df > 2 valoarea medie a lui χ 2 este df. Valoarea medie este<br />

localizatǎ în dreapta modului (locul în care curba atinge valoarea maximǎ).<br />

61


Figura 17:<br />

Exemplul 18.2. Reluǎm cazul companiei <strong>de</strong> produse rǎcoritoare care doresc sǎ controleze<br />

variant¸a ca sǎ nu <strong>de</strong>pǎ¸seascǎ 0, 0004. Un e¸santion <strong>de</strong> mǎrime 28 cu o variant¸ǎ <strong>de</strong> 0, 0010<br />

indicǎ oare la nivelul <strong>de</strong> semnificat¸ie 0, 05 cǎ procesul <strong>de</strong> îmbuteliere nu este sub control<br />

(referitor la variant¸ǎ)?<br />

Solut¸ie:<br />

Etapa 1. H0 : σ 2 = 0, 0004 (procesul este sub control)<br />

Etapa 2. H0 : σ 2 > 0, 0004 (procesul nu este sub control)<br />

Etapa 3. α = 0, 05, n = 28, df = 27 ¸si obt¸inem <strong>din</strong> tabel:<br />

Etapa 4.<br />

Etapa 5. Luarea <strong>de</strong>ciziei.<br />

χ 2 ∗ =<br />

χ 2 (27; 0, 005) = 40, 1.<br />

n · s2<br />

σ 2<br />

Figura 18:<br />

62<br />

28 · 0, 0010<br />

= = 70<br />

0, 0004


Concluzia: Procesul <strong>de</strong> îmbuteliere este sub control în ceea ce prive¸ste variant¸a.<br />

Exemplul 18.3. Specificat¸iile unui anumit medicament indicǎ cǎ fiecare comprimat<br />

trebuie sǎ cont¸inǎ 2,5 g <strong>de</strong> substant¸ǎ activǎ. 100 <strong>de</strong> comprimate alese la întâmplare<br />

<strong>din</strong> product¸ie sunt analizate. Ele cont¸in în media 2,6 g <strong>de</strong> substant¸ǎ activǎ cu o <strong>de</strong>viat¸ia<br />

standard <strong>de</strong> s = 0, 4g.<br />

Se poate spune cǎ medicamentul respectǎ specificat¸iile (α = 0, 05)?<br />

Etapa 1. Ipoteza H0 este ca medicamentul respectǎ specificat¸iile:<br />

H0 : µ = 2, 5<br />

Etapa 2. Ipoteza Ha este ca medicamentul nu respectǎ specificat¸iile:<br />

H0 : µ �= 2, 5<br />

Etapa 3. <strong>Statistica</strong> folositǎ este media x, iar nivelul <strong>de</strong> semnificat¸ie este α = 0, 05.<br />

Regiunea criticǎ este:<br />

Etapa 4. Testul statistic este:<br />

z =<br />

x − µ<br />

s<br />

√ n<br />

= 2, 6 − 2, 5<br />

0, 4<br />

10<br />

= 0, 1<br />

0, 04<br />

= 2, 5<br />

Valoarea lui z în tabel este: z0,975 = 1, 96 < 2, 5.<br />

Etapa 5. Ipoteza H0 este respinsǎ, a¸sadar nu putem spune cǎ medicamentul<br />

respectǎ specificat¸iile.<br />

Abordarea probabilistǎ a inferent¸ei statistice asupra variant¸ei, p-valoarea poate fi estimatǎ<br />

pentru verificarea ipotezelor statistice folosind tabelul statistic χ 2 <strong>de</strong> aceea¸si manierǎ ca<br />

¸si în cazul testului Stu<strong>de</strong>nt.<br />

Exemplul 18.4. Sǎ se <strong>de</strong>termine p-valoarea în cazul urmǎtoarelor ipoteze statistice:<br />

Se cunosc: df = 18 ¸si χ 2 ∗ = 32, 7.<br />

H0 : σ 2 = 150<br />

Ha : σ 2 > 150<br />

Solut¸ie: p = P (χ 2 > 32, 7) ∈ (0, 010; 0, 025) (date citite <strong>din</strong> tabel).<br />

Exemplul 18.5. Un parametru folosit în <strong>de</strong>terminarea utilitǎt¸ii unui examen ca mǎsurǎ<br />

a abilitǎt¸ii stu<strong>de</strong>nt¸ilor este ”împrǎ¸stierea” rezultatelor. Un set <strong>de</strong> rezultate al unui test<br />

are valoare micǎ dacǎ plaja notelor este micǎ. Din contrǎ dacǎ plaja notelor este mare,<br />

este o diferent¸ǎ mare între rezultatul cel mai bun ¸si rezultatul cel mai slab, atunci testul<br />

are valoare mai mare. La un test la care nota maximǎ este <strong>de</strong> 100 <strong>de</strong> puncte s-a pretins<br />

cǎ o <strong>de</strong>viat¸ie standard <strong>de</strong> 12 puncte este <strong>de</strong> dorit. Pentru a ve<strong>de</strong>a dacǎ un anume test<br />

<strong>de</strong> o orǎ a fost sau nu un test bun <strong>din</strong> acest punct <strong>de</strong> ve<strong>de</strong>re un profesor verificǎ aceastǎ<br />

ipotezǎ statisticǎ la nivelul <strong>de</strong> semnificat¸ie α = 0, 05 folosind rezultatele obt¸inute <strong>de</strong> clasǎ.<br />

Au fost 28 <strong>de</strong> rezultate ¸si <strong>de</strong>viat¸ia standard gǎsitǎ a fost 10, 5. Constituie aceasta o probǎ<br />

la nivelul <strong>de</strong> semnificat¸ie α = 0, 05 cǎ examenul nu are <strong>de</strong>viat¸ia standard specificatǎ?<br />

Solut¸ie: n = 28, s = 10, 5 ¸si α = 0, 05<br />

Etapa 1. H0 : σ = 12<br />

63


Etapa 2. H0 : σ �= 12<br />

Etapa 3. α = 0, 05, df = 27 ¸si obt¸inem valorile critice <strong>din</strong> tabel:<br />

Etapa 4.<br />

χ 2 1(27; 0, 975) = 14, 6 ¸si χ 2 2(27; 0, 025) = 43, 2.<br />

χ 2 ∗ =<br />

n · s2<br />

σ 2<br />

28 · (10, 5)2<br />

=<br />

(12) 2<br />

= 3087<br />

144<br />

Etapa 5. Nu se poate respinge H0.<br />

Concluzie: Nu avem probe suficiente pentru a respinge ipoteza H0<br />

64<br />

= 21, 43


19 Generalitǎt¸i <strong>de</strong>spre corelat¸ie.<br />

Corelat¸ie liniarǎ<br />

În statisticǎ a<strong>de</strong>sea apar probleme <strong>de</strong> genul urmǎtor: pentru aceea¸si populat¸ie avem douǎ<br />

seturi <strong>de</strong> date corespunzǎtoare la douǎ variabile distincte ¸si se pune întrebarea dacǎ între<br />

cele douǎ variabile existǎ vreo legǎturǎ (relat¸ie)? Dacǎ da, care este aceastǎ relat¸ie? Cum<br />

sunt aceste variabile corelate? Relat¸iile pe care le discutǎm aici nu sunt neapǎrat <strong>de</strong> tip<br />

cauzǎ-efect. Ele sunt relat¸ii matematice care permit anticiparea comportamentului unei<br />

variabile în funct¸ie <strong>de</strong> comportamentul celeilalte. Iatǎ câteva exemple:<br />

Exemplul 19.1.<br />

- În general o persoanǎ care cre¸ste în înalt¸ime cre¸ste ¸si în greutate. Se pune întrebarea:<br />

existǎ vreo relat¸ie între înalt¸ime ¸si greutate?<br />

- Stu<strong>de</strong>nt¸ii î¸si petrec timpul la universitate învǎt¸ând sau dând examene. Se pune<br />

întrebarea: studiind mai mult, obt¸ii note mai mari?<br />

- Doctorii care testeazǎ un nou medicament prescriu cantitǎt¸i diferite ¸si observǎ<br />

rǎspunsul pacient¸ilor; se pune întrebarea: cantitatea <strong>de</strong> medicament prescrisǎ<br />

<strong>de</strong>terminǎ oare timpul <strong>de</strong> însǎnǎto¸sire al pacientului?<br />

Problemele <strong>din</strong> exemplul prece<strong>de</strong>nt cer analiza corelat¸iei <strong>din</strong>tre douǎ variabile.<br />

În cazul în care pentru o populat¸ie avem douǎ seturi <strong>de</strong> date corespunzǎtoare la douǎ<br />

variabile distincte se formeazǎ perechile <strong>de</strong> date (x, y), în care x este valoarea primei<br />

variabile ¸si y este valoarea celei <strong>de</strong>-a doua variabile. De exemplu, x este înǎt¸imea ¸si y este<br />

greutatea.<br />

O pereche ordonatǎ <strong>de</strong> date (x, y) se nume¸ste datǎ bidimensionalǎ.<br />

În mod tradit¸ional, variabila X (având valorile x) se nume¸ste variabilǎ <strong>de</strong> intrare<br />

(variabilǎ in<strong>de</strong>pen<strong>de</strong>ntǎ), iar variabila Y (având valorile y) se nume¸ste variabilǎ <strong>de</strong><br />

ie¸sire (variabilǎ <strong>de</strong>pen<strong>de</strong>ntǎ).<br />

Variabila <strong>de</strong> intrare X este cea mǎsuratǎ sau controlatǎ pentru a prezice variabila Y .<br />

În cazul testǎrii medicamentului doctorii (mǎsoarǎ) controleazǎ cantitatea <strong>de</strong> medicament<br />

prescrisǎ ¸si <strong>de</strong>ci aceastǎ cantitate x este valoarea variabilei <strong>de</strong> intrare (in<strong>de</strong>pen<strong>de</strong>ntǎ) X.<br />

Timpul <strong>de</strong> recuperare y este valoarea variabilei <strong>de</strong> ie¸sire (<strong>de</strong>pen<strong>de</strong>nte) Y .<br />

În cazul înǎlt¸imii ¸si greutǎt¸ii oricare <strong>din</strong> variabile poate fi atât variabilǎ <strong>de</strong> intrare cât ¸si<br />

variabilǎ <strong>de</strong> ie¸sire. Rezultatele analizei vor fi însǎ funct¸ie <strong>de</strong> alegerea fǎcutǎ.<br />

În cazul problemelor <strong>de</strong> analizǎ a corelat¸iei <strong>din</strong>tre douǎ variabile datele e¸santionului se<br />

prezintǎ sub forma unei diagrame <strong>de</strong> împrǎ¸stiere.<br />

Definit¸ia 19.1. O diagramǎ <strong>de</strong> împrǎ¸stiere sau nor <strong>de</strong> puncte este reprezentarea<br />

graficǎ a perechilor <strong>de</strong> date într-un sistem <strong>de</strong> coordonate ortogonal. Valorile x ale variabilei<br />

<strong>de</strong> intrare X sunt reprezentate pe axa Ox, iar valorile y ale variabilei <strong>de</strong> ie¸sire Y sunt<br />

reprezentate pe axa Oy.<br />

65


Exemplul 19.2. Pentru un e¸santion <strong>de</strong> 15 stu<strong>de</strong>nt¸i urmǎtorul tabel <strong>de</strong> date reprezintǎ<br />

numǎrul <strong>de</strong> ore <strong>de</strong> studiu x pentru un examen ¸si nota y obt¸inutǎ la acel examen:<br />

x 2 3 3 4 4 5 5 6 6 6 7 7 7 8 8<br />

y 5 5 7 5 7 7 8 6 9 8 7 9 10 8 9<br />

Diagrama <strong>de</strong> împrǎ¸stiere în acest caz este:<br />

Exemplul 19.3. Diagrama <strong>de</strong> împrǎ¸stiere în cazul tabelului <strong>de</strong> date:<br />

este:<br />

x 2 12 4 6 9 4 11 3 10 11 3 1 13 12 14 7 2 8<br />

y 4 8 10 9 10 8 8 5 10 9 8 3 9 8 8 11 6 9<br />

Analiza <strong>de</strong> corelat¸ie are ca obiectiv sǎ stabileascǎ legǎtura <strong>din</strong>tre cele douǎ variabile.<br />

Vom prezenta câteva diagrame <strong>de</strong> împrǎ¸stiere pentru a ilustra corelat¸ii posibile <strong>din</strong>tre<br />

variabila <strong>de</strong> intrare X ¸si variabila <strong>de</strong> ie¸sire Y .<br />

Definit¸ia 19.2. Dacǎ pentru valorile x crescân<strong>de</strong> ale variabilei <strong>de</strong> intrare X nu existǎ o<br />

<strong>de</strong>plasare clarǎ (bine <strong>de</strong>finitǎ) ale valorilor y ale variabilei Y , atunci zicem cǎ nu avem<br />

corelat¸ie sau cǎ nu existǎ legǎturǎ între X ¸si Y .<br />

66


Diagrama <strong>de</strong> împrǎ¸stiere în cazul în care nu avem corelat¸ie este urmǎtoarea:<br />

Definit¸ia 19.3. Dacǎ pentru valorile x crescân<strong>de</strong> ale variabilei <strong>de</strong> intrare X existǎ o<br />

<strong>de</strong>plasare clarǎ (bine <strong>de</strong>finitǎ) ale valorilor y ale variabilei Y zicem cǎ avem o corelat¸ie.<br />

Zicem cǎ avem o corelat¸ie pozitivǎ dacǎ y tin<strong>de</strong> sǎ creascǎ ¸si avem o corelat¸ie<br />

negativǎ dacǎ y tin<strong>de</strong> sǎ <strong>de</strong>screascǎ odatǎ cu cre¸sterea lui x.<br />

Precizia schimbǎrii lui y atunci când x cre¸ste <strong>de</strong>terminǎ cât <strong>de</strong> puternicǎ este corelat¸ia.<br />

Diagramele <strong>de</strong> împrǎ¸stiere care urmeazǎ ilustreazǎ aceste i<strong>de</strong>i:<br />

Figura 19: Diagramǎ <strong>de</strong> împrǎ¸stiere în cazul unei corelat¸ii pozitive<br />

67


Figura 20: Diagramǎ <strong>de</strong> împrǎ¸stiere în cazul unei corelat¸ii pozitive strânse<br />

Figura 21: Diagramǎ <strong>de</strong> împrǎ¸stiere în cazul unei corelat¸ii negative<br />

Figura 22: Diagramǎ <strong>de</strong> împrǎ¸stiere în cazul unei corelat¸ii negative strânse<br />

Definit¸ia 19.4. Dacǎ perechile (x, y) tind sǎ urmeze o dreaptǎ zicem cǎ avem o corelat¸ie<br />

liniarǎ.<br />

Definit¸ia 19.5. Dacǎ toate perechile (x, y) se gǎsesc pe o dreaptǎ (care nu este nici<br />

orizontalǎ nici verticalǎ) atunci zicem cǎ avem o corelat¸ie liniarǎ perfectǎ.<br />

68


Figura 23: Diagramǎ <strong>de</strong> împrǎ¸stiere în cazul unei corelat¸ii pozitive liniare perfecte<br />

Remarca 19.1. Dacǎ toate perechile (x, y) se gǎsesc pe o dreaptǎ orizontalǎ sau verticalǎ<br />

nu existǎ corelat¸ie intre cele douǎ variabile. Aceasta întrucât schimbarea uneia nu<br />

afecteazǎ valoarea celeilalte variabile.<br />

Remarca 19.2. Diagramele <strong>de</strong> împrǎ¸stiere nu sunt tot<strong>de</strong>auna <strong>de</strong> genul celor prezentate<br />

pânǎ acum ¸si sugereazǎ corelat¸ii care sunt <strong>de</strong> altǎ naturǎ.<br />

Figura 24: Diagramǎ <strong>de</strong> împrǎ¸stiere în cazul unei corelat¸ii neliniare<br />

Definit¸ia 19.6. Coeficientul <strong>de</strong> corelat¸ie liniarǎ r mǎsoarǎ cât <strong>de</strong> puternicǎ este<br />

corelat¸ia liniarǎ <strong>din</strong>tre cele douǎ variabile. Reflectǎ consistent¸a efectului pe care-l are<br />

schimbarea valorii variabilei in<strong>de</strong>pen<strong>de</strong>nte X asupra variabilei <strong>de</strong>pen<strong>de</strong>nte Y .<br />

Remarca 19.3. Valoarea coeficientului <strong>de</strong> corelat¸ie liniarǎ r permite sǎ se formuleze<br />

un rǎspuns la întrebarea: existǎ o corelat¸ie liniarǎ între cele douǎ variabile consi<strong>de</strong>rate?<br />

Coeficientul <strong>de</strong> corelat¸ie liniarǎ r are valoarea între −1 ¸si +1. Valoarea r = +1 înseamnǎ<br />

o corelat¸ie liniarǎ pozitivǎ perfectǎ, iar valoarea r = −1 înseamnǎ o corelat¸ie liniarǎ<br />

negativǎ perfectǎ.<br />

Dacǎ pentru x crescând rezultǎ o cre¸stere generalǎ a valorilor lui y, atunci r indicǎ o<br />

corelat¸ie liniarǎ pozitivǎ.<br />

De exemplu, în cazul copiilor dacǎ x este vârsta ¸si y este înǎlt¸imea, atunci ne a¸steptǎm ca<br />

r sǎ fie pozitiv, pentru cǎ în mod natural, înǎt¸imea copilului cre¸ste o datǎ cu vârsta. În<br />

69


cazul automobilelor <strong>de</strong> serie, dacǎ x este vârsta, iar y este valoarea, atunci ne a¸steptǎm<br />

ca r sǎ fie negativ pentru cǎ în mod uzual valoarea automobilului <strong>de</strong>scre¸ste cu vârsta lui.<br />

Definit¸ia 19.7. Coeficientul <strong>de</strong> corelat¸ie liniarǎ r în cazul unui e¸santion este prin<br />

<strong>de</strong>finit¸ie:<br />

�<br />

(x − x) · (y − y)<br />

r =<br />

n · sx · sy<br />

în care sx, sy sunt <strong>de</strong>viat¸iile standard ale variabilelor x, y, iar n este numǎrul <strong>de</strong> perechi<br />

(x, y).<br />

Remarca 19.4. Pentru a calcula r <strong>de</strong> obicei se folose¸ste o formulǎ alternativǎ echivalentǎ:<br />

un<strong>de</strong>: SS(x) = � x2 − 1<br />

n ·<br />

� 1<br />

x · y −<br />

n ·<br />

�� � �<br />

x · y .<br />

r =<br />

SS(x, y)<br />

� SS(x) · SS(Y )<br />

�� �2 x , SS(y) = � y2 − 1<br />

n ·<br />

�� �2 y , SS(x, y) =<br />

Exemplul 19.4. Sǎ se <strong>de</strong>termine coeficientul <strong>de</strong> corelat¸ie liniarǎ r în cazul unui e¸santion<br />

aleator <strong>de</strong> mǎrime 10, dacǎ tabelul <strong>de</strong> date este:<br />

Folosind aceste date avem:<br />

<strong>de</strong> un<strong>de</strong> gǎsim:<br />

x 27 22 15 35 30 52 35 55 40 40<br />

y 30 26 25 42 38 40 32 54 50 43<br />

SS(x) = 1396, 9 SS(y) = 858, 0 SS(x, y) = 919, 0<br />

r =<br />

919, 0<br />

� (1396, 9) · (858, 0) = 0, 8394 ≈ 0, 84.<br />

Remarca 19.5. Dacǎ valoarea calculatǎ r este apropiatǎ <strong>de</strong> 0, atunci nu existǎ corelat¸ie<br />

liniarǎ.<br />

Dacǎ valoarea calculatǎ r este aproape <strong>de</strong> +1 sau −1, atunci bǎnuim cǎ între cele douǎ<br />

variabile exista corelat¸ie liniarǎ.<br />

Între 0 ¸si 1 existǎ o valoare numitǎ punct <strong>de</strong> <strong>de</strong>cizie care indicǎ dacǎ existǎ sau nu existǎ<br />

corelat¸ie liniarǎ. Un punct simetric existǎ ¸si între −1 ¸si 0. Valoarea punctului <strong>de</strong> <strong>de</strong>cizie<br />

<strong>de</strong>pin<strong>de</strong> <strong>de</strong> mǎrimea e¸santionului.<br />

În tabelul urmǎtor sunt trecute puncte <strong>de</strong> <strong>de</strong>cizie pozitive pentru diferite mǎrimi <strong>de</strong><br />

e¸santionare cuprinse între 5 ¸si 100.<br />

70


n punct <strong>de</strong> n punct <strong>de</strong> n punct <strong>de</strong> n punct <strong>de</strong><br />

<strong>de</strong>cizie <strong>de</strong>cizie <strong>de</strong>cizie <strong>de</strong>cizie<br />

5 0,878 12 0,576 19 0,456 30 0,301<br />

6 0,811 13 0,553 20 0,444 40 0,312<br />

7 0,754 14 0,532 22 0,423 50 0,279<br />

8 0,707 15 0,514 24 0,404 60 0,254<br />

9 0,666 16 0,497 26 0,388 80 0,220<br />

10 0,632 17 0,482 28 0,374 100 0,196<br />

11 0,602 18 0,468<br />

Tabelul 1:Punctele <strong>de</strong> <strong>de</strong>cizie pozitive pentru corelat¸ie liniarǎ<br />

Valorile punctelor <strong>de</strong> <strong>de</strong>cizie <strong>de</strong>scresc dacǎ n cre¸ste.<br />

Dacǎ r se gǎse¸ste între punctul <strong>de</strong> <strong>de</strong>cizie negativ ¸si cel pozitiv nu avem argumente ca sǎ<br />

sust¸inem cǎ între cele douǎ variabile existǎ o corelat¸ie liniarǎ.<br />

Dacǎ r este mai mare <strong>de</strong>cât punctul <strong>de</strong> <strong>de</strong>cizie pozitiv sau mai mic <strong>de</strong>cât punctul <strong>de</strong><br />

<strong>de</strong>cizie negativ atunci între cele douǎ variabile existǎ o corelat¸ie liniarǎ.<br />

Existent¸a unei corelat¸ii între cele douǎ variabile nu înseamnǎ cǎ existǎ o relat¸ie<br />

cauzǎ efect. Astfel, <strong>de</strong> exemplu, dacǎ X este alocat¸ia pentru copii în ultimii 10 ani ¸si<br />

Y este consumul <strong>de</strong> bǎuturi alcoolice în ultimii 10 ani, un e¸santion <strong>de</strong> aceste date aratǎ<br />

o corelat¸ie pozitivǎ strânsǎ fǎrǎ ca alocat¸ia pentru copii sǎ fie cauza vânzǎrii bǎuturilor<br />

alcoolice sau viceversa.<br />

O metodǎ rapidǎ <strong>de</strong> estimare a coeficientului <strong>de</strong> corelat¸ie liniarǎ r în cazul unui e¸santion<br />

este urmǎtoarea:<br />

a) Se <strong>de</strong>seneazǎ o curbǎ închisǎ în jurul valorii mult¸imii <strong>de</strong> perechi (x, y):<br />

71


) Se <strong>de</strong>terminǎ lungimea D a diametrului maxim:<br />

c) Se <strong>de</strong>terminǎ lungimea diametrului minim d:<br />

�<br />

d) Valoarea r se estimeazǎ cu ± 1 − d<br />

orientarea diametrului D:<br />

D<br />

�<br />

, în care semnul se alege în funct¸ie <strong>de</strong><br />

Trebuie subliniat cǎ aceastǎ estimare este grosierǎ. Este foarte sensibilǎ la împrǎ¸stiere.<br />

Cu toate acestea dacǎ plaja <strong>de</strong> valori a lui X este aproximativ aceea¸si ca plaja <strong>de</strong> valori<br />

a lui Y aproximat¸ia este utilǎ.<br />

72


20 Analizǎ <strong>de</strong> corelat¸ie liniarǎ<br />

În sect¸iunea 20 am vǎzut care este formula coeficientului <strong>de</strong> corelat¸ie liniarǎ r între douǎ<br />

variabile X, Y menit sǎ mǎsoare cât <strong>de</strong> strânsǎ este relat¸ia <strong>de</strong> <strong>de</strong>pen<strong>de</strong>nt¸ǎ liniarǎ <strong>din</strong>tre<br />

cele douǎ variabile.<br />

În cele ce urmeazǎ vom prezenta o analizǎ mai amǎnunt¸itǎ a acestei formule. Consi<strong>de</strong>rǎm<br />

pentru ilustrat¸ie urmǎtorul set <strong>de</strong> date bidimensionale:<br />

Diagrama <strong>de</strong> împrǎ¸stiere în acest caz este:<br />

x 2 3 6 8 11 12<br />

y 1 5 3 2 6 1<br />

Media x a variabilei x este 7: x = 7, iar media variabilei y este 3: y = 3.<br />

Punctul (x, y) este punctul (7, 3) ¸si se nume¸ste centroid al datelor:<br />

73


Dacǎ prin punctul <strong>de</strong> coordonate (x, y) se duc paralele la axele <strong>de</strong> coordonate, setul <strong>de</strong><br />

date se împarte în patru submult¸imi. Fiecare datǎ (x, y) se gǎse¸ste la o anumitǎ distant¸ǎ<br />

<strong>de</strong> aceste linii; x − x este distant¸a cu semn <strong>de</strong> la (x, y) la paralela la axa Oy ¸si y − y<br />

este distant¸ǎ cu semn <strong>de</strong> la (x, y) la paralela Ox. distant¸ele cu semn sunt pozitive sau<br />

negative în funct¸ie <strong>de</strong> pozit¸ia lui (x, y) fat¸ǎ <strong>de</strong> (x, y).<br />

O mǎsurǎ a <strong>de</strong>pen<strong>de</strong>nt¸ei liniare ar putea fi covariant¸a. Covariant¸a <strong>din</strong>tre X ¸si Y este<br />

<strong>de</strong>finitǎ ca suma produselor distant¸elor cu semn x−x ¸si y −y a tuturor datelor la centroid<br />

împǎrt¸itǎ la n:<br />

n�<br />

(xi − x) · (yi − y)<br />

covar(x, y) =<br />

n<br />

Covariant¸a în cazul tabelului <strong>de</strong> date consi<strong>de</strong>rate este 0, 6.<br />

i=1<br />

Covariant¸a pozitivǎ înseamnǎ cǎ diagrama <strong>de</strong> dispersie este dominatǎ <strong>de</strong> date care se<br />

gǎsesc <strong>de</strong>asupra ¸si în dreapta centroidului sau <strong>de</strong><strong>de</strong>subt ¸si în stânga acestuia. Aceasta<br />

întrucât produsele (x − x) · (y − y) în puncte <strong>din</strong> aceste regiuni sunt pozitive.<br />

Dacǎ diagrama <strong>de</strong> dispersie este dominatǎ <strong>de</strong> date care se gǎsesc <strong>de</strong>asupra ¸si în stânga sau<br />

<strong>de</strong><strong>de</strong>subt ¸si în dreapta centroidului atunci covariant¸a este negativǎ pentru cǎ produsele<br />

(x − x) · (y − y) pentru puncte <strong>din</strong> aceste regiuni sunt negative.<br />

Covariant¸a însǎ nu este convenabilǎ pentru a mǎsura cât este <strong>de</strong> strânsǎ relat¸ia <strong>de</strong><br />

<strong>de</strong>pen<strong>de</strong>nt¸ǎ liniarǎ între douǎ variabile fiindcǎ <strong>de</strong>pin<strong>de</strong> <strong>de</strong> unitǎt¸ile <strong>de</strong> mǎsurǎ ale datelor.<br />

Covariant¸a nu are o unitate <strong>de</strong> mǎsurǎ standardizatǎ ¸si împrǎ¸stierea datelor influent¸eazǎ<br />

foarte mult mǎrimea covariant¸ei.<br />

Astfel <strong>de</strong> exemplu dacǎ înmult¸im datele <strong>din</strong> tabelul consi<strong>de</strong>rat anterior cu 10 obt¸inem<br />

tabelul <strong>de</strong> date:<br />

x 20 30 60 80 110 120<br />

y 10 50 30 20 60 10<br />

Covariant¸a în cazul acestui tabel <strong>de</strong> date este 60, dar aceasta nu înseamnǎ nici<strong>de</strong>cum cǎ<br />

relat¸ia <strong>de</strong> <strong>de</strong>pen<strong>de</strong>nt¸ǎ liniarǎ între X, Y este mai strânsǎ. Relat¸ia <strong>de</strong> <strong>de</strong>pen<strong>de</strong>nt¸ǎ liniarǎ<br />

74


este aceea¸si ¸si doar datele sunt mai împrǎ¸stiate. Aceasta este problema cu covariant¸a<br />

atunci când vrem sǎ mǎsurǎm cu ajutorul ei <strong>de</strong>pen<strong>de</strong>nt¸a liniarǎ între douǎ variabile.<br />

Trebuie sǎ gǎsim o cale <strong>de</strong> eliminare a efectului împrǎ¸stierii datelor atunci când mǎsurǎm<br />

<strong>de</strong>pen<strong>de</strong>nt¸a.<br />

Dacǎ standardizǎm X ¸si Y împǎrt¸ind <strong>de</strong>viat¸ia fiecǎreia <strong>de</strong> la media sa cu <strong>de</strong>viat¸ia<br />

standard:<br />

x ′ x − x<br />

= ¸si y ′ y − y<br />

=<br />

sx<br />

¸si calculǎm covariant¸a lui X ′ ¸si Y ′ , vom avea o covariant¸ǎ care nu mai este influent¸atǎ <strong>de</strong><br />

împrǎ¸stierea datelor. Exact acest lucru este realizat prin introducerea coeficientului <strong>de</strong><br />

corelat¸ie liniar r. Astfel coeficientul <strong>de</strong> corelat¸ie liniar este:<br />

r = covar(X ′ , Y ′ ) =<br />

sy<br />

covar(X, Y )<br />

sx · sy<br />

Coeficientul <strong>de</strong> corelat¸ie liniarǎ standardizeazǎ mǎsura <strong>de</strong>pen<strong>de</strong>nt¸ei ¸si ne permite sǎ comparǎm<br />

cât <strong>de</strong> strânsǎ este <strong>de</strong>pen<strong>de</strong>nt¸a liniarǎ a diferitelor seturi <strong>de</strong> date bidimensionale.<br />

Formula coeficientului <strong>de</strong> corelat¸ie liniarǎ a<strong>de</strong>sea poartǎ <strong>de</strong>numirea <strong>de</strong> momentul produs<br />

Pearson.<br />

Valoarea coeficientului <strong>de</strong> corelat¸ie liniarǎ r în cazul setului <strong>de</strong> date consi<strong>de</strong>rat la început<br />

este:<br />

0, 6<br />

r =<br />

= 0, 07<br />

(4, 099) · (2, 098)<br />

Pentru cǎ <strong>de</strong>terminarea coeficientului <strong>de</strong> corelat¸ie liniarǎ cu ajutorul formulei:<br />

r =<br />

covarX, Y<br />

sx · sy<br />

este greoaie, în locul ei se folose¸ste una practicǎ:<br />

r =<br />

SS(X, Y )<br />

� SS(X) · SS(Y )<br />

Aceasta <strong>din</strong> urmǎ formulǎ evitǎ calculul separat al lui x, y, sx, sy precum ¸si calculul<br />

<strong>de</strong>viat¸iilor <strong>de</strong> la medie.<br />

75


21 Inferent¸ǎ privind coeficientul <strong>de</strong> corelat¸ie liniarǎ<br />

Dupǎ ce coeficientul <strong>de</strong> corelat¸ie liniarǎ r a fost calculat pentru un e¸santion se pune în<br />

mod natural întrebarea: valoarea lui r indicǎ oare cǎ existǎ o <strong>de</strong>pen<strong>de</strong>nt¸ǎ liniarǎ între<br />

cele douǎ variabile în cazul populat¸iei <strong>din</strong> care e¸santioanele au fost luate?<br />

Pentru a rǎspun<strong>de</strong> la aceastǎ întrebare facem o verificare a ipotezelor statistice.<br />

Etapa 1. Formularea ipotezei nule H0:<br />

”Cele douǎ variabile sunt liniar necorelate.”<br />

Aceasta înseamnǎ ρ = 0, ρ fiind coeficientul <strong>de</strong> corelat¸ie pentru<br />

populat¸ie.<br />

Etapa 2. Formularea ipotezei alternative.<br />

Aceasta poate fi unilateralǎ sau bilateralǎ. Cel mai frecvent este<br />

bilateralǎ ρ �= 0. Cu toate acestea dacǎ suspectǎm cǎ avem doar o<br />

singurǎ corelat¸ie pozitivǎ ori o singurǎ corelat¸ie negativǎ trebuie sǎ<br />

folosim test unilateral. Ipoteza alternativǎ în cazul testului unilateral<br />

este: ρ > 0 sau ρ < 0.<br />

Etapa 3. Regiunea criticǎ pentru testul statistic este în partea dreaptǎ dacǎ ne<br />

a¸steptǎm la o corelat¸ie pozitivǎ ¸si este în stânga dacǎ ne a¸steptǎm la o<br />

corelat¸ie negativǎ.<br />

Testul statistic folosit pentru testarea ipotezei nule este scorul standard ¸si valoarea testului<br />

statistic este valoarea lui r calculatǎ <strong>din</strong> e¸santion. Valorile critice pentru r se gǎsesc<br />

în urmǎtorul tabel la intersect¸ia coloanei corespunzǎtoare valorii lui α ¸si a liniei corespunzǎtoare<br />

gradului <strong>de</strong> libertate df = n − 2:<br />

76


Valorile critice pentru r dacǎ ρ = 0<br />

df|α 0,10 0,05 0,02 0,01<br />

1 0,988 0,997 1,000 1,000<br />

2 0,900 0,950 0,980 0,980<br />

3 0,805 0,878 0,934 0,959<br />

4 0,729 0,811 0,882 0,917<br />

5 0,669 0,754 0,833 0,874<br />

6 0,662 0,707 0,789 0,834<br />

7 0,582 0,666 0,750 0,798<br />

8 0,549 0,632 0,716 0,765<br />

9 0,521 0,602 0,685 0,735<br />

10 0,497 0,576 0,658 0,708<br />

11 0,476 0,553 0,634 0,684<br />

12 0,458 0,532 0,612 0,661<br />

13 0,441 0,514 0,592 0,641<br />

14 0,426 0,497 0,574 0,623<br />

15 0,412 0,482 0,558 0,606<br />

16 0,400 0,468 0,542 0,590<br />

17 0,389 0,456 0,528 0,575<br />

18 0,378 0,444 0,516 0,561<br />

19 0,369 0,433 0,503 0,549<br />

20 0,360 0,423 0,492 0,537<br />

25 0,323 0,381 0,445 0,487<br />

30 0,296 0,349 0,409 0,449<br />

35 0,275 0,325 0,381 0,418<br />

40 0,257 0,304 0,358 0,393<br />

45 0,243 0,288 0,338 0,372<br />

50 0,231 0,273 0,322 0,354<br />

60 0,211 0,250 0,295 0,325<br />

70 0,195 0,232 0,274 0,302<br />

80 0,183 0,217 0,256 0,283<br />

90 0,173 0,205 0,242 0,267<br />

100 0,164 0,195 0,230 0,254<br />

Valorile <strong>din</strong> acest tabel sunt valori critice pentru r pentru un test bilateral.<br />

Pentru un test unilateral valoarea lui α este dublul valorii lui α ce se folose¸ste în verificarea<br />

ipotezelor statistice.<br />

Etapa 4. Se <strong>de</strong>terminǎ r <strong>din</strong> e¸santion.<br />

Etapa 5. Se <strong>de</strong>terminǎ dacǎ r este în regiunea criticǎ sau nu.<br />

Neacceptarea ipotezei nule înseamnǎ cǎ existǎ o probǎ a <strong>de</strong>pen<strong>de</strong>nt¸ei <strong>din</strong>tre cele douǎ<br />

variabile ale populat¸iei<br />

Ment¸iune: Aceasta nu înseamnǎ cǎ am stabilit o relat¸ie <strong>de</strong> tip cauzǎ efect ci<br />

doar o relat¸ie matematicǎ care permite sǎ se prezicǎ comportamentul variabilei<br />

77


<strong>de</strong> ie¸sire Y <strong>din</strong> comportamentul variabilei <strong>de</strong> intrare X.<br />

Exemplul 21.1.<br />

În cazul tabelului <strong>de</strong> date:<br />

x 2 3 6 8 11 12<br />

y 1 5 3 2 6 1<br />

avem n = 6, iar r = 0, 07. Întrebarea este dacǎ aceastǎ valoare a lui r diferǎ <strong>de</strong> zero în<br />

mod semnificativ dacǎ nivelul <strong>de</strong> semnificat¸ie este α = 0, 02?<br />

Etapa 1. H0 : ρ = 0<br />

Etapa 2. H0 : ρ �= 0<br />

Etapa 3. Avem α = 0, 02 ¸si df = n − 2 = 6 − 2 = 4. Valorile critice <strong>din</strong> tabel<br />

sunt: −0, 882 ¸si 0, 882.<br />

Etapa 4. Valoarea calculatǎ a lui r este r ∗ = 0, 07<br />

Etapa 5. Se acceptǎ H0.<br />

Concluzie: Nu am putut arǎta cǎ X, Y sunt corelate. Dacǎ acceptǎm ipoteza nulǎ<br />

înseamnǎ cǎ in<strong>de</strong>pen<strong>de</strong>nt¸a liniarǎ <strong>din</strong>tre cele douǎ variabile a fost arǎtatǎ.<br />

Ca ¸si în alte probleme, uneori se cere estimarea unui interval <strong>de</strong> încre<strong>de</strong>re pentru<br />

coeficientul <strong>de</strong> corelat¸ie ρ. Este posibilǎ estimarea coeficientului <strong>de</strong> corelat¸ie ρ folosind<br />

un tabel care ne dǎ centuri <strong>de</strong> încre<strong>de</strong>re. Tabelul urmǎtor reprezintǎ asemenea centuri<br />

<strong>de</strong> încre<strong>de</strong>re pentru intervale <strong>de</strong> încre<strong>de</strong>re <strong>de</strong> 95%: Exemplul urmǎtor aratǎ cum trebuie<br />

citit un asemenea tabel.<br />

Exemplul 21.2. Pentru un e¸santion <strong>de</strong> 15 perechi <strong>de</strong> date o valoare calculatǎ a lui r este<br />

r = 0, 35. Sǎ se <strong>de</strong>termine intervalul <strong>de</strong> încre<strong>de</strong>re 95% pentru coeficientul <strong>de</strong> corelat¸ie<br />

liniar ρ a populat¸iei?<br />

1) Se localizeazǎ 0, 35 pe axa orizontalǎ (axa coeficientului <strong>de</strong> corelat¸ie liniarǎ) ¸si se<br />

duce linia verticalǎ.<br />

78


2) Se <strong>de</strong>terminǎ intersect¸ia liniei verticale cu centurile corespunzǎtoare mǎrimii<br />

e¸santionului (aceasta fiind 15) ¸si se obt¸in douǎ puncte pe linia verticalǎ.<br />

3) Intervalul <strong>de</strong> încre<strong>de</strong>re este intervalul <strong>de</strong>terminat <strong>de</strong> ordonatele acestor puncte<br />

(−0, 20, −0, 72) (axa ordonatelor este axa coeficientului <strong>de</strong> corelat¸ie a populat¸iei).<br />

79


22 Regresie liniarǎ<br />

Dacǎ valoarea coeficientului <strong>de</strong> corelat¸ie liniarǎ r indicǎ o corelat¸ie liniarǎ strânsǎ atunci se<br />

pune problema stabilirii unei relat¸ii numerice exacte. Aceastǎ relat¸ie exactǎ este obt¸inutǎ<br />

prin regresie liniarǎ.<br />

În general statisticianul cautǎ o ecuat¸ie care exprimǎ relat¸ia <strong>din</strong>tre douǎ variabile. Ecuat¸ia<br />

aleasǎ este cea mai bunǎ fitare a diagramei <strong>de</strong> dispersie. Ecuat¸iile gǎsite se numesc ecuat¸ii<br />

<strong>de</strong> predict¸ie, iar în continuare sunt prezentate câteva asemenea ecuat¸ii:<br />

y = b0 + b1 · x - liniarǎ<br />

y = a + b · x + c · x 2 - pǎtraticǎ<br />

y = a · b x - exponent¸ialǎ<br />

y = a · log b x - logaritmicǎ.<br />

Obiectivul final este ca folosind ecuat¸ii sǎ se facǎ predict¸ii. În general valoarea exactǎ a<br />

variabilei Y nu este prezisǎ. Ne mult¸umim dacǎ predict¸ia este suficient <strong>de</strong> apropiatǎ.<br />

Definit¸ia 22.1. Regresia liniarǎ stabile¸ste <strong>de</strong>pen<strong>de</strong>nt¸a liniarǎ în medie a lui y în funct¸ie<br />

<strong>de</strong> x.<br />

Vom <strong>de</strong>scrie în continuare cum se stabile¸ste cea mai bunǎ <strong>de</strong>pen<strong>de</strong>nt¸ǎ liniarǎ pentru un<br />

set <strong>de</strong> date (x, y).<br />

Dacǎ relat¸ia <strong>de</strong> <strong>de</strong>pen<strong>de</strong>nt¸ǎ liniarǎ pare potrivitǎ, cea mai bunǎ relat¸ie liniarǎ se stabile¸ste<br />

cu metoda celor mai mici pǎtrate.<br />

Sǎ presupunem cǎ ˆy = b0 + b1 · x este cea mai bunǎ relat¸ie liniarǎ. Metoda celor mai mici<br />

pǎtrate cere ca b0 ¸si b1 sǎ fie astfel încât � (y − ˆy) 2 sǎ fie minimǎ.<br />

Din teorema lui Fermat rezultǎ cǎ valorile minime ale funct¸iei:<br />

se obt¸in pentru<br />

b1 =<br />

F (b0, b1) = � (y − b0 − b1 · x) 2<br />

�<br />

(x − x) · (y − y)<br />

� , b0 =<br />

(x − x) 2 1<br />

n ·<br />

��<br />

y − b1 · � �<br />

x<br />

b1 este panta dreptei, iar b0 este ordonata la origine.<br />

Pentru <strong>de</strong>terminarea pantei b1 <strong>de</strong> obicei se folose¸ste formula echivalentǎ:<br />

b1 =<br />

SS(x, y)<br />

SS(x)<br />

�� �2 x ¸si SS(x, y) = � x · y − 1<br />

�� � �<br />

x · y .<br />

un<strong>de</strong>: SS(x) = � x2 − 1<br />

n ·<br />

n ·<br />

Ment¸ionǎm aici cǎ expresiile SS(x, y) ¸si SS(x) apar ¸si în formula <strong>de</strong> calcul al coeficientului<br />

<strong>de</strong> corelat¸ie liniarǎ. De aceea în momentul calculǎrii lui r putem afla ¸si valoarea pantei<br />

b1.<br />

80


Exemplul 22.1. În cazul unui e¸santion <strong>de</strong> 10 indivizi consi<strong>de</strong>rǎm urmǎtorul set <strong>de</strong> date.<br />

x 27 22 15 35 30 52 35 55 40 40<br />

y 30 26 25 42 38 40 32 54 50 43<br />

Pentru a <strong>de</strong>termina cea mai bunǎ relat¸ie liniarǎ ˆy = b0 + b1 · x se calculeazǎ SS(x, y) ¸si<br />

SS(x) ¸si se obt¸ine:<br />

SS(x, y) = 919, 0 ¸si SS(x) = 1396, 9<br />

<strong>de</strong> un<strong>de</strong> panta b1 este:<br />

b1 =<br />

919, 0<br />

1396, 9<br />

= 0, 6599 ≈ 0, 66.<br />

Pentru a <strong>de</strong>termina ordonata în origine b0 se folose¸ste formula <strong>de</strong> calcul a acesteia ¸si<br />

rezultǎ:<br />

b0 = 1<br />

[380 − 0, 65 · 351] = 14, 9077 ≈ 14, 9<br />

10<br />

Astfel cea mai bunǎ relat¸ie liniarǎ este:<br />

Remarca 22.1.<br />

ˆy = 14, 9 + 0, 66 · x<br />

a) Panta b1 reprezintǎ schimbarea prezisǎ a variabilei y corespunzǎtoare unei cre¸steri<br />

cu o unitate a variabilei x.<br />

b) Ordonata b0 reprezintǎ valoarea lui y în x = 0. Doar dacǎ x = 0 este în domeniul<br />

<strong>de</strong> date putem spune cǎ b0 este valoarea prezisǎ a lui y pentru x = 0.<br />

c) Cea mai bunǎ relat¸ie liniarǎ este o dreaptǎ ce trece prin punctul <strong>de</strong> coordonate<br />

(x, y). Acest fapt poate fi utilizat ca verificare atunci când se traseazǎ graficul celei<br />

mai bune relat¸ii liniare.<br />

Exemplul 22.2. În cazul unui e¸santion aleator <strong>de</strong> 8 indivizi consi<strong>de</strong>rǎm urmǎtorul tabel<br />

<strong>de</strong> date<br />

x 65 65 62 67 69 65 61 67<br />

y 105 125 11 120 140 135 95 130<br />

Diagrama <strong>de</strong> împrǎ¸stiere a acestui set <strong>de</strong> date sugereazǎ o corelat¸ie liniarǎ.<br />

81


Pentru a gǎsi cea mai bunǎ relat¸ie <strong>de</strong> <strong>de</strong>pen<strong>de</strong>nt¸ǎ liniarǎ calculǎm SS(x, y) ¸si SS(x) ¸si<br />

gǎsim:<br />

SS(x, y) = 230, 0 ¸si SS(x) = 48, 875<br />

De aici avem:<br />

<strong>de</strong> un<strong>de</strong>:<br />

b0 = 1<br />

n<br />

b1 =<br />

230, 0<br />

48, 875<br />

= 4, 706 ≈ 4, 71.<br />

��<br />

y − b1 · � �<br />

x = −186, 478 ≈ 186, 5<br />

ˆy = −186, 5 + 4, 71 · x<br />

Remarca 22.2. O estimare ”grosierǎ” a celei mai bune relat¸ii <strong>de</strong> <strong>de</strong>pen<strong>de</strong>nt¸ǎ liniarǎ se<br />

poate face în felul urmǎtor:<br />

- ca ¸si în cazul aproximǎrii coeficientului <strong>de</strong> corelat¸ie r se consi<strong>de</strong>rǎ o curbǎ închisǎ<br />

în jurul mult¸imii <strong>de</strong> perechi (x, y);<br />

- diametrul maxim al mult¸imii este o aproximare a graficului <strong>de</strong> <strong>de</strong>pen<strong>de</strong>nt¸ǎ liniarǎ;<br />

- se scrie ecuat¸ia <strong>de</strong> <strong>de</strong>pen<strong>de</strong>nt¸ǎ liniarǎ ca ecuat¸ia unei drepte ce trece prin douǎ<br />

puncte <strong>de</strong> pe acest diametru;<br />

- ca ¸si în cazul estimǎrii lui r aceastǎ estimare este una grosierǎ ¸si trebuie folositǎ ca<br />

atare.<br />

82


23 Analizǎ <strong>de</strong> regresie liniarǎ<br />

Mo<strong>de</strong>lul liniar folosit pentru a explica <strong>de</strong>pen<strong>de</strong>nt¸a liniarǎ a douǎ variabile referitoare la<br />

aceea¸si populat¸ie este <strong>de</strong>finit <strong>de</strong> ecuat¸ia:<br />

y = β0 + β1 · x + ε<br />

Aceastǎ ecuat¸ie reprezintǎ relat¸ia liniarǎ <strong>din</strong>tre douǎ variabile x ¸si y într-o populat¸ie. În<br />

aceastǎ relat¸ie:<br />

- β0 este ordonata la origine;<br />

- β1 este panta;<br />

- y este valoarea observatǎ la o valoare datǎ a lui x;<br />

- β0 + β · x este media lui y pentru valoarea datǎ a lui x<br />

Remarcǎm cǎ eroarea ε <strong>de</strong>pin<strong>de</strong> <strong>de</strong> x. Pentru valorile x1, x2, . . . , xn ale lui x mo<strong>de</strong>lul liniar<br />

se scrie:<br />

yi = β0 + β1 · xi + εi, i = 1, 2, . . . , n<br />

- ε este eroarea aleatoare a valorii observate y la o valoare datǎ a lui x care reprezintǎ<br />

<strong>de</strong>viat¸ia valorii observate y <strong>de</strong> la medie.<br />

Dreapta <strong>de</strong> regresie liniarǎ obt¸inutǎ ˆy = b0 + b1 · x pe baza datelor (xi, yi), i = 1, 2, . . . , n<br />

ne dǎ b0 care este o estimare pentru β0 ¸si b1 care este o estimare pentru β1. Atunci vom<br />

putea scrie yi = b0 + b · xi + ei. Erorile sunt estimate prin yi − ˆyi care este diferent¸a<br />

<strong>din</strong>tre valoarea observatǎ yi ¸si valoarea prezisǎ ˆyi a lui y la o valoare datǎ a lui x. Fiindcǎ<br />

ˆyi = b0 + b1 · xi avem cǎ:<br />

ei = yi − ˆyi<br />

Erorile ei sunt cunoscute sub numele <strong>de</strong> reziduuri.<br />

Variabila aleatoare e are urmǎtoarele proprietǎt¸i:<br />

• e > 0 ⇐⇒ y > ˆy;<br />

• e < 0 ⇐⇒ y < ˆy;<br />

• pentru un x dat suma erorilor (reziduurilor) pentru diferite valori ale lui i este zero;<br />

aceasta este o consecint¸ǎ a meto<strong>de</strong>i celor mai mici pǎtrate; ¸si astfel media erorilor<br />

n�<br />

experimentale este zero: ei = 0.<br />

i=1<br />

Notǎm cu σ 2 ε variant¸a erorilor aleatoare a datelor observate ¸si ne propunem sǎ estimǎm<br />

aceastǎ variant¸ǎ.<br />

Înainte însǎ sǎ trecem la estimarea variant¸ei σ 2 ε sǎ analizǎm put¸in ce reprezintǎ eroarea<br />

ε? ε reprezintǎ diferent¸a <strong>din</strong>tre valoarea observatǎ y ¸si valoarea medie a lui y pentru o<br />

valoare datǎ a lui x. Întrucât nu cunoa¸stem valoarea medie a lui y, vom folosi ecuat¸ia <strong>de</strong><br />

regresie, iar valoarea medie a lui y pentru un x dat, o vom estima cu ˆy valoarea prezisǎ<br />

<strong>de</strong> ecuat¸ia <strong>de</strong> regresie a lui y pentru acest x. Astfel estimarea lui ε este e = y − ˆy.<br />

83


Dacǎ pentru o valoare datǎ x avem mai multe valori observate y acestea pot fi reprezentate<br />

pe verticala în x pe axa Ox.<br />

O distribut¸ie similarǎ apare la fiecare valoare a lui x. Valoarea medie a datelor y observate<br />

<strong>de</strong>pin<strong>de</strong> <strong>de</strong> x ¸si se estimeazǎ cu ˆy.<br />

Altfel spus, <strong>de</strong>viat¸ia standard a distribut¸iei datelor y <strong>de</strong> la medie este aceea¸si pentru orice<br />

x:<br />

84


Reamintim cǎ variant¸a s2 a unui set <strong>de</strong> date statistice x1, x2, . . . , xn a fost <strong>de</strong>finitǎ cu<br />

formula:<br />

s 2 = 1<br />

n�<br />

(xi − x)<br />

n<br />

2<br />

i=1<br />

Determinarea variant¸ei setului <strong>de</strong> date y introduce o complicat¸ie pentru cǎ media datelor<br />

y diferǎ <strong>de</strong> la un x la altul. Pentru fiecare x media este estimatǎ prin valoarea prezisǎ ˆy ce<br />

corespun<strong>de</strong> la x prin dreapta <strong>de</strong> regresie. Astfel variant¸a erorii ε se estimeazǎ cu formula:<br />

s 2 ε = 1<br />

n<br />

n�<br />

(yi − ˆyi) 2<br />

i=1<br />

care aratǎ cǎ variant¸a erorii ε este variant¸a variabilei y în jurul dreptei <strong>de</strong> regresie.<br />

Variant¸a erorii s 2 ε poate fi scrisǎ sub forma:<br />

s 2 ε = 1<br />

n<br />

¸si este o estimare a lui σ 2 ε<br />

� (y − b0 − b1 · xi) 2 = 1<br />

n<br />

�� y 2 i − b0 · � y − b1 · xi · yi<br />

Exemplul 23.1. O persoanǎ care se mutǎ la Timi¸soara ¸si se angajeazǎ la o companie<br />

dore¸ste sǎ ¸stie în cât timp poate sǎ ajungǎ dimineat¸a cu ma¸sina <strong>de</strong> la locuint¸ǎ la locul <strong>de</strong><br />

muncǎ. Pentru a gǎsi un rǎspuns la aceastǎ întrebare el întreabǎ un numǎr <strong>de</strong> 15 colegi la<br />

ce distant¸ǎ stau <strong>de</strong> locul <strong>de</strong> muncǎ ¸si în cât timp ajung la serviciu ¸si întocme¸ste urmǎtorul<br />

tabel <strong>de</strong> date statistice:<br />

coleg 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15<br />

x - distant¸a<br />

(în km) 3 5 7 8 10 11 12 12 13 15 15 16 18 19 20<br />

y - timpul<br />

(în min) 7 20 20 15 25 17 20 35 26 25 35 32 44 37 45<br />

Pentru a gǎsi un rǎspuns la problemǎ persoana în cauzǎ trebuie sǎ <strong>de</strong>termine dreapta <strong>de</strong><br />

regresie ¸si variant¸a s 2 e.<br />

Folosind formulele <strong>de</strong> calcul el gǎse¸ste:<br />

SS(x) = 2, 616 − (184)2<br />

15<br />

85<br />

= 358, 9333<br />


(184) · (403)<br />

SS(x, y) = 5, 623 −<br />

b1 =<br />

15<br />

= 679, 53333<br />

358, 9333<br />

= 1, 893202 ≈ 1, 89<br />

679, 53333<br />

b0 = 1<br />

[403 − (1, 893202) · (184)] = 3, 643387 ≈ 3, 64<br />

15<br />

ˆy = 3, 64 + 1, 89 · x.<br />

Aceasta este formula pe care o va folosi pentru a estima timpul mediu necesar pentru a<br />

ajunge la serviciu în funct¸ie <strong>de</strong> distant¸a x la care locuie¸ste.<br />

Pentru a gǎsi abaterea standard <strong>de</strong> la valoarea estimatǎ el va trebui sǎ calculeze ¸si variant¸a<br />

s 2 ε. Folosind formulele <strong>de</strong> calcul el gǎse¸ste: s 2 ε = 29, 17.<br />

86


24 Inferent¸ǎ referitoare la panta unei drepte <strong>de</strong> regresie<br />

liniarǎ<br />

Dupǎ ce ecuat¸ia dreptei <strong>de</strong> regresie liniarǎ a fost <strong>de</strong>terminatǎ ne întrebǎm când putem<br />

folosi aceastǎ ecuat¸ie pentru a prezice valorile variabilei y în funct¸ie <strong>de</strong> x?<br />

Rǎspunsul la întrebare îl vom da parcurgând proce<strong>de</strong>ul <strong>de</strong> verificare a ipotezelor statistice.<br />

Înainte <strong>de</strong> a face inferent¸ǎ privind dreapta <strong>de</strong> regresie facem urmǎtoarele ipoteze:<br />

- pentru fiecare x distribut¸ia datelor y observate este aproximativ normalǎ;<br />

- pentru fiecare x variant¸a distribut¸iei datelor y observate este aceea¸si.<br />

Înainte sǎ trecem la parcurgerea celor cinci etape (care constituie verificarea ipotezelor<br />

statistice) sǎ analizǎm distribut¸ia pantelor ce se obt¸in pentru e¸santioane aleatoare <strong>de</strong><br />

mǎrime n. Aceste pante b1 au o distribut¸ie aproape normalǎ având media β1 panta în<br />

cazul populat¸iei ¸si variant¸a σ2 datǎ <strong>de</strong>:<br />

b1<br />

σ 2 b1 =<br />

σ 2 ε<br />

� (x − x) 2<br />

Un estimator a<strong>de</strong>cvat s 2 b1 a lui σ2 b1 se obt¸ine prin înlocuirea lui σ2 ε cu s 2 e:<br />

s 2 b1 =<br />

Aceastǎ formulǎ poate fi scrisǎ sub forma:<br />

s 2 b1 = s2 e<br />

SS(x) =<br />

s 2 e<br />

� (x − x) 2<br />

s 2 e<br />

� x − � ( � x) 2 /n �<br />

Eroarea standard a regresiei (pantei) este σb1 ¸si este estimatǎ prin sb1.<br />

Putem trece acum la verificarea ipotezelor statistice:<br />

Etapa 1. Formularea ipotezei H0. Ipoteza nulǎ va fi β1 = 0. Dacǎ β1 = 0<br />

atunci ecuat¸ia liniarǎ nu poate fi folositǎ pentru a prezice valoarea lui<br />

y aceasta înseamnǎ cǎ: ˆy = y.<br />

Etapa 2. Ipoteza alternativǎ poate fi unilateralǎ sau bilateralǎ. Dacǎ bǎnuiala<br />

este cǎ panta este pozitivǎ atunci un test unilateral este potrivit:<br />

Ha : β1 > 0.<br />

Etapa 3. Ca test statistic folosim testul t. Numǎrul gra<strong>de</strong>lor <strong>de</strong> libertate pentru<br />

test este df = n − 2. În cazul Exemplului 23.1 care se referǎ la timpul<br />

necesar pentru a ajunge cu ma¸sina la servici df = 15−2 = 13. La nivelul<br />

<strong>de</strong> semnificat¸ie α = 0, 05, valoarea criticǎ a lui t este t(13; 0, 05) = 1, 77.<br />

Formula <strong>de</strong> calcul folosit pentru valoarea testului statistic t pentru<br />

inferent¸ǎ este:<br />

t ∗ = b1 − β1<br />

sb1<br />

87


Etapa 4. Având în ve<strong>de</strong>re egalitatea s2 b1 = s2e în cazul exemplului consi<strong>de</strong>rat<br />

SS(X)<br />

gǎsim cǎ valoarea testului statistic este:<br />

t ∗ = b1 − β1<br />

sb1<br />

= 1, 89 − 0<br />

√ 0, 0813 = 6, 629 ≈ 6, 63<br />

Etapa 5. Decizie: ipoteza H0 se respinge pentru cǎ t ∗ este în regiunea criticǎ.<br />

Concluzie: Panta dreptei <strong>de</strong> cea mai bunǎ aproximat¸ie este mai mare<br />

ca zero. Probele statistice aratǎ cǎ existǎ o relat¸ie liniarǎ între distant¸a<br />

locuint¸ǎ-serviciu ¸si perioada <strong>de</strong> timp necesarǎ pentru a ajunge cu ma¸sina<br />

la serviciu ¸si aceastǎ perioadǎ <strong>de</strong> timp este predictibilǎ.<br />

Panta β1 a dreptei <strong>de</strong> regresie liniarǎ a populat¸iei poate fi estimatǎ cu ajutorul intervalului<br />

<strong>de</strong> încre<strong>de</strong>re. Capetele acestui interval <strong>de</strong> încre<strong>de</strong>re sunt date <strong>de</strong> formula:<br />

b1 ± t(n − 2; α<br />

) · sb1<br />

2<br />

În cazul Exemplului 23.1 la nivelul <strong>de</strong> semnificat¸ie α = 0, 05:<br />

1, 89 ± 2, 16 · � 0, 0813 = 1, 89 ± 0, 62<br />

capetele intervalului <strong>de</strong> încre<strong>de</strong>re sunt 1, 27 ¸si 2, 51.<br />

Deci intervalul <strong>de</strong> încre<strong>de</strong>re pentru β1 este (1, 27; 2, 51) la nivelul <strong>de</strong> semnificat¸ie 0, 05.<br />

88


BIBLIOGRAFIE<br />

[1] Johnson Robert, Elementary Statistics, Duxbury Press, 1984, Boston<br />

[2] Andrei Tudorel, Stancu Andrei, Statisticǎ - teorie ¸si aplicat¸ii, Editura All, 1995,<br />

Bucure¸sti<br />

[3] Thomas H. Wonacott, Ronald J. Wonacott: Statistique, Economica, 4me dition,<br />

1991,Paris<br />

[4] Constantin Gheorghe, Surulescu Nicolae, Zaharie Daniela, Lect¸ii <strong>de</strong> statisticǎ <strong>de</strong>scriptivǎ,<br />

<strong>Universitatea</strong> <strong>de</strong> <strong>Vest</strong>, 1998, Timi¸soara<br />

[5] Boc¸san Gheorghe, Estimarea parametrilor mo<strong>de</strong>lelor statistice, <strong>Universitatea</strong> <strong>de</strong> <strong>Vest</strong>,<br />

1995, Timi¸soara<br />

[6] Yule G. Udny, Kendall, M.G., Introducere în teoria statisticii, Editura S¸tiint¸ificǎ,<br />

1969, Bucure¸sti<br />

89

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!