Statistica - notite de curs - Universitatea de Vest din Timisoara
Statistica - notite de curs - Universitatea de Vest din Timisoara
Statistica - notite de curs - Universitatea de Vest din Timisoara
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Cuprins<br />
Statisticǎ - notit¸e <strong>de</strong> <strong>curs</strong><br />
S¸tefan Balint, Loredana Tǎnasie<br />
1 Ce este statistica? 3<br />
2 Not¸iuni <strong>de</strong> bazǎ 5<br />
3 Colectarea datelor 7<br />
4 Determinarea frecvent¸ei ¸si gruparea datelor 11<br />
5 Prezentarea datelor 14<br />
6 Parametrii ¸si statistici ai ten<strong>din</strong>t¸ei centrale 19<br />
7 Parametrii ¸si statistici ai dispersiei 22<br />
8 Parametrii ¸si statistici factoriali ai variant¸ei 25<br />
9 Parametrii ¸si statistici ale pozit¸iei 26<br />
10 Seria <strong>de</strong> distribut¸ie a statisticilor<br />
<strong>de</strong> e¸santioane 28<br />
11 Teorema limitǎ centralǎ 32<br />
12 O aplicat¸ie a teoremei limitǎ centralǎ 35<br />
13 Estimarea punctualǎ a unui parametru; intervalul <strong>de</strong> încre<strong>de</strong>re 36<br />
14 Generalitǎt¸i privind ipotezele statistice ¸si problema verificǎrii ipotezelor<br />
statistice 38<br />
1
15 Verificarea ipotezelor statistice: variantǎ clasicǎ 41<br />
16 Verificarea ipotezelor statistice: varianta probabilistǎ 48<br />
17 Inferent¸ǎ statisticǎ privind media populat¸iei dacǎ nu se cunoa¸ste<br />
abaterea standard a populat¸iei 52<br />
18 Inferent¸ǎ relativǎ la variant¸ǎ ¸si estimarea variant¸ei 59<br />
19 Generalitǎt¸i <strong>de</strong>spre corelat¸ie. Corelat¸ie liniarǎ 65<br />
20 Analizǎ <strong>de</strong> corelat¸ie liniarǎ 73<br />
21 Inferent¸ǎ privind coeficientul <strong>de</strong> corelat¸ie liniarǎ 76<br />
22 Regresie liniarǎ 80<br />
23 Analiza <strong>de</strong> regresie liniarǎ 83<br />
24 Inferent¸ǎ referitoare la panta unei drepte <strong>de</strong> regresie liniarǎ 87<br />
2
1 Ce este statistica?<br />
Definit¸ia 1.1. <strong>Statistica</strong> este ¸stiint¸a colectǎrii, clasificǎrii, prezentǎrii, interpretǎrii<br />
datelor numerice ¸si a folosirii acestora pentru a formula concluzii ¸si a lua <strong>de</strong>cizii.<br />
Definit¸ia 1.2. <strong>Statistica</strong> <strong>de</strong>scriptivǎ se ocupǎ cu colectarea, clasificarea ¸si prezentarea<br />
datelor numerice.<br />
Definit¸ia 1.3. <strong>Statistica</strong> inferent¸ialǎ (inferential statistics) se ocupǎ cu interpretarea<br />
datelor oferite <strong>de</strong> statistica <strong>de</strong>scriptivǎ ¸si cu folosirea acestora pentru a formula concluzii<br />
¸si lua <strong>de</strong>cizii.<br />
Problema 1.1. <strong>Universitatea</strong> <strong>de</strong> <strong>Vest</strong> <strong>din</strong> Timi¸soara dore¸ste sǎ facǎ un plan <strong>de</strong> <strong>de</strong>zvoltare<br />
a facilitǎt¸ilor <strong>de</strong> cazare. Pentru a trece la act¸iune consiliul <strong>de</strong> administrat¸ie hotǎrǎ¸ste cǎ<br />
este necesar sǎ se rǎspundǎ la urmǎtoarea întrebare: Cât¸i stu<strong>de</strong>nt¸i vor trebui cazat¸i în<br />
urmǎtorii zece ani?<br />
Pentru a rǎspun<strong>de</strong> la aceastǎ întrebare trebuie sǎ cunoa¸stem rǎspunsul la cel put¸in<br />
urmǎtoarele douǎ întrebǎri: Cât¸i absolvent¸i <strong>de</strong> liceu vor fi? Cât¸i vor sǎ vinǎ la<br />
universitate? (S¸i altele poate).<br />
Pentru a rǎspun<strong>de</strong> la aceste douǎ întrebǎri e nevoie <strong>de</strong> date referitoare la numǎrul <strong>de</strong><br />
absolvent¸i <strong>de</strong> liceu în urmǎtorii zece ani ¸si <strong>de</strong> date care indicǎ procentul acelor absolvent¸i<br />
<strong>de</strong> liceu care doresc sǎ <strong>de</strong>vinǎ stu<strong>de</strong>nt¸i la U.V.T. în urmǎtorii zece ani.<br />
O cale <strong>de</strong> a obt¸ine date refritoare la numǎrul <strong>de</strong> absolvent¸i <strong>de</strong> liceu în urmǎtorii zece ani<br />
este <strong>de</strong> a ve<strong>de</strong>a care a fost acest numǎr în ultimii zece ani ¸si a extrapola acest numǎr.<br />
Trebuie remarcat cǎ aceastǎ i<strong>de</strong>e presupune cǎ existǎ o legǎturǎ <strong>din</strong>tre trecut ¸si viitor.<br />
Acest lucru nu este întot<strong>de</strong>auna a<strong>de</strong>vǎrat. O întrebare suplimentarǎ care se pune în acest<br />
context este dacǎ va trebui sǎ numǎrǎm tot¸i absolvent¸ii <strong>de</strong> liceu <strong>din</strong> toate ¸scolile <strong>din</strong><br />
ultimii zece ani sau ne putem limita sǎ numǎrǎm doar la anumite ¸scoli? Altfel spus, dacǎ<br />
putem consi<strong>de</strong>ra doar e¸santioane?<br />
O cale <strong>de</strong> a obt¸ine date referitoare la procentul acelor absolvent¸i care doresc sǎ <strong>de</strong>vinǎ<br />
stu<strong>de</strong>nt¸i la U.V.T. este aceea <strong>de</strong> a ve<strong>de</strong>a aceste procente în ultimii zece ani ¸si <strong>de</strong> a<br />
extrapola.<br />
Alte întrebǎri care se pun sunt: Cum interpretǎm aceste date? Cum formulǎm o concluzie<br />
pe baza acestor date? Cum se ia o <strong>de</strong>cizie pe baza acestor date?<br />
Nu am terminat cu enumerarea întrebǎrilor care pot fi relevante. La acest moment ceea<br />
ce este important este sǎ începem sǎ ne gândim la asemenea probleme ¸si la întrebǎrile<br />
care trebuiesc lǎmurite pentru a obt¸ine un rǎspuns.<br />
Remarca 1.1. Relat¸ia <strong>din</strong>tre statisticǎ ¸si probabilitǎt¸i<br />
<strong>Statistica</strong> ¸si probabilitǎt¸ile sunt douǎ domenii strâns legate, dar distincte ale matematicii.<br />
Se spune cǎ ”probabilitǎt¸ile sunt vehiculul statisticii”. Aceasta este a<strong>de</strong>vǎrat în sensul<br />
cǎ dacǎ nu ar fi legile probabiliste teoria statisticǎ nu ar fi posibilǎ. Pentru a ilustra<br />
însǎ diferent¸a <strong>din</strong>tre probabilitǎt¸i ¸si statisticǎ sǎ consi<strong>de</strong>rǎm douǎ urne: una probabilistǎ<br />
¸si una statisticǎ. În cazul urnei probabiliste se ¸stie cǎ urna cont¸ine 5 bile albe, 5 bile<br />
negre ¸si 5 bile ro¸sii; problema <strong>de</strong> probabilitate este dacǎ scoatem o bilǎ, care este ¸sansa<br />
ca aceasta sǎ fie albǎ?<br />
În cazul unei urne statistice nu cunoa¸stem care este combinat¸ia<br />
<strong>de</strong> bile <strong>din</strong> urnǎ. Extragem un e¸santion ¸si <strong>din</strong> acest e¸santion conjecturǎm ce cre<strong>de</strong>m cǎ<br />
se gǎse¸ste în urnǎ. Trebuie ret¸inutǎ <strong>de</strong>osebirea: probabilitatea pune întrebarea ¸sansei<br />
ca ceva (un eveniment) sǎ se întâmple atunci când se cunosc posibilitǎt¸ile (se cunoa¸ste<br />
3
populat¸ia). <strong>Statistica</strong> ne cere sǎ facem un e¸santion, sǎ analizǎm e¸santionul ¸si pe urmǎ sǎ<br />
facem predict¸ie asupra populat¸iei pe baza informat¸iei gǎsite în e¸santion.<br />
Remarca 1.2. Folosirea corectǎ ¸si folosirea gre¸sitǎ a statisticii<br />
Utilizarea statisticii este nelimitatǎ. Este greu <strong>de</strong> gǎsit un domeniu în care statistica nu<br />
se folose¸ste. Iatǎ câteva exemple, un<strong>de</strong> ¸si cum este folositǎ statistica:<br />
• în educat¸ie; statistica <strong>de</strong>scriptivǎ este a<strong>de</strong>sea folositǎ pentru a prezenta rezultatele;<br />
• în ¸stiint¸ǎ; rezultatele experimentale trebuiesc colectate ¸si analizate;<br />
• guvernele; adunǎ diferite date statistice tot timpul.<br />
Mult¸i oameni sunt indiferent¸i fat¸ǎ <strong>de</strong> <strong>de</strong>scrierea statisticǎ, alt¸ii cred cǎ statisticile sunt<br />
minciuni. Majoritatea minciunilor statistice sunt inocente ¸si rezultǎ <strong>din</strong> folosirea unei<br />
statistici nea<strong>de</strong>cvate sau date obt¸inute <strong>din</strong>tr-un e¸santion nepotrivit. Toate acestea conduc<br />
la o înt¸elegere gre¸sitǎ a informat¸iei <strong>din</strong> partea consumatorului. Folosirea gre¸sitǎ a<br />
statisticii duce uneori la încurcǎturi.<br />
Remarca 1.3. <strong>Statistica</strong> ¸si calculatorul<br />
În ultimul <strong>de</strong>ceniu calculatorul a avut un rol important în aproape toate aspectele viet¸ii.<br />
Domeniul statististicii nu face except¸ie. <strong>Statistica</strong> folose¸ste multe tehnici care au o<br />
naturǎ repetitivǎ; formule pentru a calcula statistici <strong>de</strong>scriptive, proceduri <strong>de</strong> urmat<br />
pentru a formula predict¸ii. Calculatorul este foarte bun pentru a face asemenea operat¸ii<br />
repetitive. Dacǎ calculatorul are un soft standard statistic este mult mai u¸soarǎ analiza<br />
unor date statistice. Cele mai cunoscute softuri statistice sunt: Minitab, Biomed (program<br />
biomedical), SAS (Sistem <strong>de</strong> analizǎ statisticǎ), IBM Scientific Subroutine Packages ¸si<br />
SPSS (pachet statistic pentru ¸stiint¸e sociale).<br />
4
2 Not¸iuni <strong>de</strong> bazǎ<br />
Definit¸ia 2.1. Populat¸ia este o colect¸ie (mult¸ime) <strong>de</strong> indivizi, obiecte sau date numerice<br />
obt¸inute prin mǎsurǎtori ale cǎrei proprietǎt¸i trebuiesc analizate.<br />
Remarca 2.1. Populat¸ia este colect¸ia completǎ <strong>de</strong> indivizi, obiecte sau date numerice<br />
obt¸inute prin mǎsurǎtori care prezintǎ interes (pentru cel care colecteazǎ e¸santionul).<br />
Conceptul <strong>de</strong> populat¸ie este fundamental în statisticǎ. Populat¸ia trebuie <strong>de</strong>finitǎ cu grijǎ<br />
¸si se consi<strong>de</strong>rǎ complet <strong>de</strong>finitǎ dacǎ lista membrilor este specificatǎ. Mult¸imea stu<strong>de</strong>nt¸ilor<br />
Facultǎt¸ii <strong>de</strong> Matematicǎ ¸si Informaticǎ este o populat¸ie bine <strong>de</strong>finitǎ.<br />
Dacǎ auzim cuvântul populat¸ie <strong>de</strong> obicei ne gândim la o mult¸ime <strong>de</strong> oameni.<br />
În statisticǎ<br />
populat¸ia poate fi o mult¸ime <strong>de</strong> animale, <strong>de</strong> obiecte fabricate sau <strong>de</strong> date numerice<br />
obt¸inute prin mǎsurǎtori. De exemplu mult¸imea ”înǎlt¸imilor” stu<strong>de</strong>nt¸ilor facultǎt¸ii <strong>de</strong><br />
Matematicǎ ¸si Informaticǎ este o populat¸ie.<br />
Definit¸ia 2.2. E¸santionul este o submult¸ime a unei populat¸ii.<br />
Remarca 2.2. Un e¸santion constǎ <strong>din</strong> indivizi, obiecte sau date mǎsurate selectate <strong>din</strong><br />
populat¸ie (<strong>de</strong> cǎtre colectorul <strong>de</strong> e¸santion).<br />
Definit¸ia 2.3. O variabilǎ <strong>de</strong> rǎspuns (simplu variabilǎ) este o caracteristicǎ (<strong>de</strong><br />
obicei numericǎ) care prezintǎ interes în cazul fiecǎrui element (individ) al unei populat¸ii.<br />
Remarca 2.3. Vârsta stu<strong>de</strong>ntului, media lui, culoarea pǎrului, înǎlt¸imea, greutatea<br />
¸s.a.m.d. sunt variabile <strong>de</strong> rǎspuns în cazul populat¸iei: stu<strong>de</strong>nt¸ii <strong>de</strong> la Facultatea <strong>de</strong><br />
Matematicǎ ¸si Informaticǎ.<br />
Definit¸ia 2.4. O datǎ (la singular) este ”valoarea” unei variabile <strong>de</strong> rǎspuns în cazul<br />
unui element al populat¸iei sau e¸santionului.<br />
Exemplul 2.1. Popescu Nicolae are vîrsta <strong>de</strong> ”19 ani”, media 8.50, pǎrul lui este<br />
”castaniu”, înǎlt¸imea lui este ”1 m ¸si 75 cm”, iar greutatea lui este ”65 kg”. Aceste cinci<br />
”valori” ale celor cinci variabile <strong>de</strong> rǎspuns (Remarca 2.3) în cazul lui Popescu Nicolae<br />
sunt ”cinci” date.<br />
Definit¸ia 2.5. ”Valorile” unei variabile <strong>de</strong> rǎspuns în cazul unei populat¸ii sau a unui<br />
e¸santion constituie un set <strong>de</strong> date . Într-un set <strong>de</strong> date aceea¸si datǎ apare <strong>de</strong> atâtea ori<br />
<strong>de</strong> câte ori variabila are aceastǎ ”valoare”.<br />
Exemplul 2.2. Cele 25 <strong>de</strong> înǎlt¸imi în cazul unui e¸santion <strong>de</strong> 25 <strong>de</strong> stu<strong>de</strong>nt¸i este un set<br />
<strong>de</strong> 25 <strong>de</strong> date nu neapǎrat diferite.<br />
Definit¸ia 2.6. O activitate planificatǎ în urma cǎreia se obt¸ine un set <strong>de</strong> date se nume¸ste<br />
experiment sau sondaj.<br />
Definit¸ia 2.7. Parametru este o caracteristicǎ numericǎ a unei populat¸ii.<br />
Exemplul 2.3. Procentul <strong>de</strong> stu<strong>de</strong>nt¸i <strong>de</strong> la Facultatea <strong>de</strong> Matematicǎ ¸si Informaticǎ care<br />
au promovat toate examenele la sesiunea <strong>din</strong> iarnǎ este un exemplu <strong>de</strong> parametru în cazul<br />
populat¸iei: stu<strong>de</strong>nt¸ii <strong>de</strong> la Facultatea <strong>de</strong> Matematicǎ ¸si Informaticǎ.<br />
Remarca 2.4. Parametrul este o valoare numericǎ care se referǎ la întreaga populat¸ie.<br />
În statisticǎ se obi¸snuie¸ste ca parametrul sǎ fie notat cu literǎ greceascǎ.<br />
5
Definit¸ia 2.8. O statisticǎ este o caracteristicǎ numericǎ a unui e¸santion<br />
Exemplul 2.4. Înǎlt¸imea medie gǎsitǎ folosind cele 25 <strong>de</strong> înǎlt¸imi în cazul unui e¸santion<br />
<strong>de</strong> 25 <strong>de</strong> stu<strong>de</strong>nt¸i este un exemplu <strong>de</strong> statisticǎ (<strong>de</strong> e¸santion).<br />
Remarca 2.5. O statisticǎ este o valoare numericǎ care se referǎ la un e¸santion.<br />
Statisticile (<strong>de</strong> e¸santion) se noteazǎ cu literele alfabetului latin.<br />
6
3 Colectarea datelor<br />
Prima problemǎ a statisticianului este colectarea unui set <strong>de</strong> date. Aceasta presupune<br />
<strong>de</strong>finirea prealabilǎ a obiectivelor sondajului (experimentului) a populat¸iei ¸si a variabilei.<br />
Exemple <strong>de</strong> obiective:<br />
a) Compararea eficacitǎt¸ii unui medicament nou cu eficacitatea unui medicament<br />
standard;<br />
b) Estimarea venitului mediu al unei familii <strong>din</strong> ju<strong>de</strong>t¸.<br />
Exemple <strong>de</strong> populat¸ii ¸si variabile corespunzǎtoare:<br />
a) pacient¸ii care suferǎ <strong>de</strong> o boalǎ care se trateazǎ cu medicamentul consi<strong>de</strong>rat<br />
reprezintǎ populat¸ia, iar timpul <strong>de</strong> recuperare reprezintǎ variabila;<br />
b) familiile <strong>din</strong> ju<strong>de</strong>t¸ reprezintǎ populat¸ia, iar venitul total al unei familii <strong>din</strong> ju<strong>de</strong>t¸<br />
reprezintǎ variabila.<br />
Tot înainte <strong>de</strong> colectarea setului <strong>de</strong> date trebuie hotǎrât dacǎ setul <strong>de</strong> date se constituie<br />
pentru întreaga populat¸ie sau doar pentru un e¸santion. Dacǎ setul <strong>de</strong> date se constituie<br />
pentru întreaga populat¸ie atunci se face un recensǎmânt.<br />
Definit¸ia 3.1. Un recensǎmânt este o enumerare sau o listare a fiecǎrui element al<br />
populat¸iei împreunǎ cu data (valoarea variabilei) corespunzǎtoare elementului.<br />
În cazul unei populat¸ii mari, constituirea unui set <strong>de</strong> date la nivelul populat¸iei este dificil<br />
¸si costisitor. De aceea, în cazul în care nu este posibilǎ realizarea unui recensǎmânt,<br />
setul <strong>de</strong> date se constituie doar pentru o parte a populat¸iei, pentru un e¸santion. Select¸ia<br />
elementelor pentru e¸santion se face <strong>din</strong>tr-un cadru <strong>de</strong> e¸santionare.<br />
Definit¸ia 3.2. Cadrul <strong>de</strong> e¸santionare este o listǎ <strong>de</strong> elemente care apart¸in populat¸iei,<br />
<strong>din</strong> care va fi extras e¸santionul.<br />
Remarca 3.1. Deoarece numai elementele <strong>din</strong> cadrul e¸santionului au ¸sansa sǎ fie selectate<br />
pentru e¸santion, <strong>din</strong> perspectiva variabilei <strong>de</strong> rǎspuns cadrul <strong>de</strong> e¸santion trebuie sǎ fie<br />
reprezentativ pentru populat¸ie.<br />
Remarca 3.2. În cazul unei populat¸ii <strong>de</strong> indivizi listele <strong>de</strong> alegǎtori sau cǎrt¸ile <strong>de</strong> telefon<br />
sunt folosite a<strong>de</strong>sea drept cadru <strong>de</strong> e¸santion. În funct¸ie <strong>de</strong> variabila <strong>de</strong> rǎspuns acestea<br />
pot fi cadre <strong>de</strong> e¸santion potrivite sau nepotrivite.<br />
Remarca 3.3. Dupǎ <strong>de</strong>finirea cadrului e¸santionului se trece la stabilirea modului <strong>de</strong><br />
alegere a elementelor e¸santionului. Acest proces se nume¸ste proiectarea e¸santionului.<br />
Definit¸ia 3.3. Proiectarea e¸santionului înseamnǎ stabilirea procedurii <strong>de</strong> alegere a<br />
elementelor e¸santionului <strong>din</strong> cadrul e¸santionului.<br />
Existǎ mai multe proce<strong>de</strong>e <strong>de</strong> alegere a elementelor e¸santionului. În mare aceste proce<strong>de</strong>e<br />
împreunǎ cu e¸santioanele corespunzǎtoare se împart în douǎ categorii: proce<strong>de</strong>e bazate<br />
pe reprezentativitate ¸si proce<strong>de</strong>e probabiliste.<br />
7
Definit¸ia 3.4. E¸santioane bazate pe reprezentativitate sunt acelea pentru care<br />
elementele se aleg astfel încât <strong>din</strong> perspectiva variabilei <strong>de</strong> rǎspuns, elementul ales sǎ fie<br />
reprezentativ pentru populat¸ie.<br />
Exemplul 3.1. Din perspectiva variabilei <strong>de</strong> rǎspuns: ”<strong>curs</strong>ul A este util sau nu în<br />
formarea dumneavoastrǎ profesionalǎ?”, stu<strong>de</strong>nt¸ii <strong>din</strong> cadrul unui e¸santion care nu au<br />
frecventat <strong>curs</strong>ul nu sunt reprezentativi. Deci nu sunt ale¸si în e¸santion.<br />
Definit¸ia 3.5. Un e¸santion pentru care elementele sunt selectate pe bazǎ probabilistǎ;<br />
oricare element <strong>din</strong> cadrul e¸santionului are o anumitǎ ¸sansǎ nenulǎ sǎ fie selectat; se<br />
nume¸ste e¸santion probabilist.<br />
Remarca 3.4. Inferent¸e statistice cer ca e¸santionul sǎ fie probabilist. E¸santioanele<br />
probabiliste aleatoare sunt cele mai familiare e¸santioane probabiliste.<br />
Definit¸ia 3.6. Un e¸santion <strong>de</strong> mǎrimea n este e¸santion probabilist aleator dacǎ orice<br />
e¸santion <strong>de</strong> mǎrimea n ales <strong>din</strong> acela¸si cadru are aceea¸si probabilitate sǎ fie ales.<br />
Remarca 3.5. Cea mai rǎspânditǎ metodǎ <strong>de</strong> a colecta date folose¸ste e¸santion aleator<br />
simplu.<br />
Definit¸ia 3.7. Un e¸santion probabilist aleator pentru care elementele sunt selectate <strong>din</strong>trun<br />
cadru în care elementele au aceea¸si probabilitate sǎ fie alese se nume¸ste e¸santion<br />
aleator simplu.<br />
Remarca 3.6. Atunci când se construie¸ste un e¸santion probabilist aleator simplu trebuie<br />
avutǎ grijǎ ca fiecare element <strong>din</strong> cadrul e¸santionului sǎ aibe aceea¸si probabilitate sǎ fie<br />
selectat. A<strong>de</strong>sea se fac gre¸seli pentru cǎ termenul ”aleator” este confundat cu ”ales<br />
la întâmplare”. Un proce<strong>de</strong>u corect <strong>de</strong> selectare a unui e¸santion probabilist aleator<br />
simplu este acela care folose¸ste un generator <strong>de</strong> numere aleatoare sau o tabelǎ <strong>de</strong> numere<br />
aleatoare. Prima oarǎ se numeroteazǎ elementele <strong>din</strong> cadrul <strong>de</strong> e¸santionare. Dupǎ aceasta<br />
în tabelul cu numere aleatoare se aleg atâtea numere câte sunt necesare pentru e¸santion.<br />
Fiecare element <strong>din</strong> cadrul <strong>de</strong> e¸santionare, al cǎrui numǎr coinci<strong>de</strong> cu un numǎr selectat<br />
<strong>din</strong> tabelul <strong>de</strong> numere aleatoare va fi ales pentru e¸santion.<br />
Exemplul 3.2. Dacǎ cadrul e¸santionului este o listǎ <strong>de</strong> 4265 <strong>de</strong> stu<strong>de</strong>nt¸i atunci ei sunt<br />
numerotat¸i <strong>de</strong> la 0001; 0002; ...; 4265. Pentru un e¸santion <strong>de</strong> 50 <strong>de</strong> stu<strong>de</strong>nt¸i se aleg 50 <strong>de</strong><br />
numere aleatoare cu patru cifre ¸si se i<strong>de</strong>ntificǎ stu<strong>de</strong>nt¸ii <strong>din</strong> cadrul e¸santionului.<br />
Definit¸ia 3.8. E¸santionul sistematic se construie¸ste alegând fiecare al k-lea element<br />
<strong>din</strong> cadrul e¸santionului.<br />
Remarca 3.7. În aceastǎ select¸ie se folose¸ste tabela <strong>de</strong> numere aleatoare o singurǎ datǎ,<br />
pentru a <strong>de</strong>termina punctul <strong>de</strong> plecare.<br />
Exemplul 3.3. Dacǎ se consi<strong>de</strong>rǎ un cadru <strong>de</strong> e¸santion <strong>de</strong> 245 <strong>de</strong> stu<strong>de</strong>nt¸i ai Facultǎt¸ii<br />
<strong>de</strong> Matematicǎ ¸si Informaticǎ ¸si se dore¸ste un e¸santion sistematic format <strong>din</strong> 15 stu<strong>de</strong>nt¸i<br />
atunci:<br />
1) asociem fiecǎrui stu<strong>de</strong>nt un numǎr <strong>de</strong> la 1 la 245;<br />
8
2) se calculeazǎ k (pasul <strong>de</strong> numǎrare) folosind urmǎtoarea relat¸ie:<br />
� � � �<br />
numǎrul <strong>de</strong> elemente <strong>din</strong> cadrul e¸santionului 245<br />
k =<br />
= = 16<br />
numǎrul <strong>de</strong> elemente <strong>din</strong> e¸santion<br />
15<br />
3) se alege punctul <strong>de</strong> plecare între 1 ¸si numǎrul k cu ajutorul unui tabel <strong>de</strong> numere<br />
aleatoare.<br />
Dacǎ acest numǎr este 10, atunci obt¸inem e¸santionul:<br />
10, 16, 32, 48, 64, 80, 96, 112, 128, 144, 160, 176, 192, 208, 234.<br />
Deoarece k = 245<br />
= 16, 33, nu este un numǎr întreg, pasul <strong>de</strong> numǎrare poate fi ¸si 17. În<br />
15<br />
acest caz e¸santionul sistematic obt¸inut este <strong>de</strong> numai 14 elemente.<br />
Remarca 3.8. Este o procedurǎ bunǎ pentru a e¸santiona un procentaj în cazul<br />
populat¸iilor mari. Pentru a selecta un e¸santion sistematic <strong>de</strong> x% <strong>din</strong>tr-o populat¸ie, un<br />
element <strong>din</strong> 100/x va fi selectat (dacǎ 100/x nu este întreg se ia partea întreagǎ).<br />
Remarca 3.9. Folosirea e¸santionului sistematic nu este potrivitǎ dacǎ populat¸ia este<br />
repetitivǎ sau ciclicǎ în naturǎ.(<strong>din</strong> perspectiva variabilei <strong>de</strong> rǎspuns)<br />
Exemplul 3.4. Dacǎ se dore¸ste estimarea numǎrului stu<strong>de</strong>nt¸ilor admi¸si la Facultatea <strong>de</strong><br />
Matematicǎ ¸si Informaticǎ care au <strong>de</strong>pǎ¸sit vârsta <strong>de</strong> 20 <strong>de</strong> ani ¸si se folose¸ste e¸santionarea<br />
sistematicǎ extrǎgând <strong>din</strong> lista candidat¸ilor admi¸si numai pe cei <strong>de</strong> pe pozit¸iile care sunt<br />
multiplu <strong>de</strong> 5, existǎ posibilitatea ca tot¸i candidat¸ii admi¸si pe pozit¸iile respective sǎ aibǎ<br />
sub 20 <strong>de</strong> ani. Un asemenea e¸santion spune ca nu au fost admi¸si candidat¸i peste 20 <strong>de</strong><br />
ani, ceea ce nu poate fi sust¸inut.<br />
Când se e¸santioneazǎ populat¸ii foarte mari, atunci când este posibil se împarte populat¸ia<br />
în douǎ subpopulat¸ii pe baza unor caracteristici. Aceste subpopulat¸ii se numesc straturi,<br />
iar straturile sunt e¸santionate separat.<br />
Definit¸ia 3.9. Un e¸santion obt¸inut în urma stratificǎrii cadrului e¸santionului ¸si prin<br />
selectarea unui numǎr dat <strong>de</strong> elemente <strong>din</strong> fiecare strat se nume¸ste e¸santion stratificat.<br />
Remarca 3.10. Când se proiecteazǎ un e¸santion stratificat, cadrul se împarte în douǎ sau<br />
mai multe straturi ¸si în fiecare strat se proiecteazǎ un sube¸santion. Aceste sube¸santioane<br />
pot fi aleatoare, sistematice sau <strong>de</strong> alt gen. Dupǎ aceea sube¸santioanele sunt asamblate<br />
într-un singur e¸santion pentru a colecta un set <strong>de</strong> date.<br />
Exemplul 3.5. Pentru studierea unei caracteristici a populat¸iei stu<strong>de</strong>nt¸ilor <strong>din</strong> Facultatea<br />
<strong>de</strong> Matematicǎ ¸si Informaticǎ, aceastǎ populat¸ie poate fi împǎrt¸itǎ:<br />
- pe domenii: informaticǎ, matematicǎ<br />
- pe ani <strong>de</strong> studiu.<br />
Definit¸ia 3.10. E¸santion cotǎ (sau e¸santion proport¸ional) este un<br />
e¸santion stratificat care se construie¸ste prin selectarea unui numǎr <strong>de</strong> elemente <strong>din</strong> fiecare<br />
strat dupǎ o anumitǎ cotǎ sau proport¸ional cu mǎrimea stratului.<br />
9
Exemplul 3.6. Dacǎ se dore¸ste construirea unui e¸santion <strong>de</strong> 150 <strong>de</strong> stu<strong>de</strong>nt¸i <strong>din</strong> populat¸ia<br />
stu<strong>de</strong>nt¸ilor Facultǎt¸ii <strong>de</strong> Matematicǎ ¸si Informaticǎ putem face stratificarea dupǎ anii <strong>de</strong><br />
studiu. În acest caz, numǎrul <strong>de</strong> stu<strong>de</strong>nt¸i ce va fi selectat <strong>din</strong> fiecare an ce va fi selectat<br />
va fi proport¸ional cu numǎrul total <strong>de</strong> stu<strong>de</strong>nt¸i <strong>din</strong> anul respectiv:<br />
Anul <strong>de</strong> studiu Numǎr stu<strong>de</strong>nt¸i Cota Nr. stu<strong>de</strong>nt¸i<br />
selectat în e¸santion:<br />
Anul I 431 36.49% 54<br />
Anul II 303 25.65% 40<br />
Anul III 206 17.44% 26<br />
Anul IV 240 20.40% 30<br />
E¸santionul va fi format <strong>din</strong> 54 <strong>de</strong> stu<strong>de</strong>nt¸i <strong>din</strong> anul I, 40 <strong>de</strong> stu<strong>de</strong>nt¸i <strong>din</strong> anul II, 26 <strong>de</strong><br />
stu<strong>de</strong>nt¸i <strong>din</strong> anul III ¸si 30 <strong>de</strong> stu<strong>de</strong>nt¸i <strong>din</strong> anul IV.<br />
O altǎ metodǎ <strong>de</strong> e¸santionare care pleacǎ <strong>de</strong> la stratificarea populat¸iei este e¸santionul<br />
ciorchine.<br />
Definit¸ia 3.11. E¸santionul ciorchine este un e¸santion stratificat care se construie¸ste<br />
prin selectarea <strong>de</strong> e¸santioane <strong>din</strong> anumite straturi (nu <strong>din</strong> toate).<br />
Exemplul 3.7. Dacǎ se dore¸ste realizarea unui e¸santion ciorchine format <strong>din</strong> stu<strong>de</strong>nt¸ii<br />
Universitǎt¸ii <strong>de</strong> <strong>Vest</strong> <strong>din</strong> Timi¸soara, aceastǎ populat¸ie poate fi startificatǎ în funct¸ie<br />
<strong>de</strong> specializarea pe care au ales-o stu<strong>de</strong>nt¸ii select¸ionând e¸santioane doar <strong>de</strong> la câteva<br />
specializǎri (nu <strong>de</strong> la toate).<br />
Remarca 3.11. E¸santionul ciorchine se obt¸ine folosind numere aleatoare sau o metodǎ<br />
sistematicǎ pentru i<strong>de</strong>ntificarea straturilor (ciorchine) care trebuiesc e¸santionate, dupǎ<br />
care fiecare <strong>din</strong> aceste straturi este e¸santionat. Sube¸santioanele asamblate formeazǎ un<br />
e¸santion ciorchine.<br />
Într-un caz concret proce<strong>de</strong>ul <strong>de</strong> e¸santionare care se folose¸ste <strong>de</strong>pin<strong>de</strong> <strong>de</strong> populat¸ie <strong>de</strong><br />
variabilǎ <strong>de</strong> dificultatea e¸santionǎrii ¸si <strong>de</strong> cost. Dupǎ <strong>de</strong>terminarea e¸santionului se poate<br />
trece la colectarea setului <strong>de</strong> date.<br />
10
4 Determinarea frecvent¸ei ¸si gruparea datelor<br />
Dupǎ colectarea unui set <strong>de</strong> date urmeazǎ prelucrarea primarǎ a datelor. Determinarea<br />
frecvent¸ei ¸si gruparea datelor este un proce<strong>de</strong>u <strong>de</strong> prelucrae primarǎ a datelor ¸si este<br />
utilizat atunci când numǎrul datelor este mare.<br />
Pentru a prezenta conceptul <strong>de</strong> frecvent¸ǎ sǎ consi<strong>de</strong>rǎm urmǎtorul set <strong>de</strong> date:<br />
3 2 2 3 2<br />
4 4 1 2 2<br />
4 3 2 0 2<br />
2 1 3 3 1<br />
Valoarea 0 apare în acest set o singurǎ datǎ prin urmare frecvent¸a pentru 0 este unu.<br />
Valoarea 1 apare în acest set <strong>de</strong> trei ori prin urmare frecvent¸a pentru 1 este trei.<br />
Valoarea 2 apare în acest set <strong>de</strong> opt ori prin urmare frecvent¸a pentru 2 este opt.<br />
Valoarea 3 apare în acest set cinci ori prin urmare frecvent¸a pentru 3 este cinci.<br />
Valoarea 4 apare în acest set <strong>de</strong> douǎ ori prin urmare frecvent¸a pentru 4 este doi.<br />
Frecvent¸a datelor 0,1,2,3,4 care apar în setul <strong>de</strong> date este redatǎ în tabelul urmǎtor:<br />
x f<br />
0 1<br />
1 3<br />
2 8<br />
3 5<br />
4 3<br />
Definit¸ia 4.1. Frecvent¸a f (<strong>din</strong> coloana a doua) aratǎ <strong>de</strong> câte ori apare valoarea variabilei<br />
x în setul <strong>de</strong> date.<br />
Atunci când într-un set <strong>de</strong> date multe sunt distincte (în loc <strong>de</strong> câteva ca în cazul prece<strong>de</strong>nt)<br />
se grupeazǎ datele în clase ¸si apoi se construiesc frecvent¸e pentru clase.<br />
Pentru a ilustra acest proce<strong>de</strong>u consi<strong>de</strong>rǎm urmǎtorul set <strong>de</strong> date:<br />
82 74 88 66 58<br />
62 68 72 92 86<br />
74 78 84 96 76<br />
76 52 76 82 78<br />
Vom pune în aceea¸si clasǎ toate datele la care prima cifrǎ este aceea¸si ¸si obt¸inem<br />
urmǎtoarele cinci clase:<br />
50 − 59; 60 − 69; 70 − 79; 80 − 89; 90 − 99<br />
(50 − 59 este clasa formatǎ cu toate datele la care prima cifrǎ este 5, ¸s.a.m.d.).<br />
Aceste clase nu se intersecteazǎ (nu existǎ date care sǎ apart¸inǎ la douǎ clase) ¸si oricare<br />
<strong>din</strong> date apart¸ine unei clase.<br />
Limitele inferioare ale claselor sunt 50, 60, 70, 80, 90, iar limitele superioare sunt 59, 69, 79, 89, 99.<br />
Datele care apart¸in unei clase sunt mai mari <strong>de</strong>cât limita inferioarǎ a clasei ¸si mai mici<br />
<strong>de</strong>cât limita superioarǎ a clasei.<br />
11
Definit¸ia 4.2. Lǎt¸imea unei clase <strong>de</strong>finitǎ ca diferent¸a <strong>din</strong>tre limita inferioarǎ a clasei<br />
urmǎtoare ¸si limita inferioarǎ a clasei (este egalǎ cu 10 ¸si este aceea¸si pentru toate clasele<br />
în exemplul <strong>de</strong> mai sus) lǎt¸imea clasei nu este egalǎ cu diferent¸a <strong>din</strong>tre limita superioarǎ<br />
¸si limita inferioarǎ a clasei.<br />
Definit¸ia 4.3. Frontierele unei clase <strong>de</strong>finite ca media aritmeticǎ <strong>din</strong>tre limita superioarǎ<br />
a clasei ¸si limita inferioarǎ a clasei urmǎtoare sunt:<br />
49, 5; 59, 5; 69, 5; 79, 5; 89, 5; 99, 5.<br />
Definit¸ia 4.4. Marca unei clase <strong>de</strong>finitǎ ca media aritmeticǎ <strong>din</strong>tre limita superioarǎ ¸si<br />
limita inferioarǎ a clasei, în acest caz este:<br />
54.5 =<br />
64.5 =<br />
74.5 =<br />
84.5 =<br />
50 + 59<br />
2<br />
60 + 69<br />
2<br />
70 + 79<br />
2<br />
80 + 89<br />
2<br />
în cazul clasei 50 − 59<br />
în cazul clasei 60 − 69<br />
în cazul clasei 70 − 79<br />
în cazul clasei 80 − 89<br />
90 + 99<br />
94.5 =<br />
2<br />
în cazul clasei 90 − 99<br />
Frecvent¸a în acest caz este numǎrul <strong>de</strong> date <strong>din</strong>tr-o clasǎ. Frecvent¸a datelor pe clase este:<br />
în cazul clasei 50 − 59 2 date<br />
în cazul clasei 60 − 69 3 date<br />
în cazul clasei 70 − 79 8 date<br />
în cazul clasei 80 − 89 5 date<br />
în cazul clasei 90 − 99 2 date<br />
În general, în cazul grupǎrii datelor pe clase ¸si a <strong>de</strong>terminǎrii frecvent¸ei trebuiesc<br />
respectate urmǎtoarele reguli:<br />
1) Clasele nu trebuie sǎ se intersecteze ¸si fiecare datǎ <strong>din</strong> setul <strong>de</strong> date trebuie sǎ<br />
apart¸inǎ la o clasǎ;<br />
2) Fiecare clasǎ trebuie sǎ aibe aceea¸si lǎt¸ime.<br />
Proce<strong>de</strong>ul concret <strong>de</strong> grupare este urmǎtorul:<br />
12
i) Se i<strong>de</strong>ntificǎ cea mai mare datǎ H ¸si cea mai micǎ datǎ L ¸si se <strong>de</strong>terminǎ plaja:<br />
R = H − L.<br />
ii) Se alege numǎrul <strong>de</strong> clase m ¸si lǎt¸imea clasei c (dacǎ se poate numǎr impar) astfel<br />
ca produsul m · c sǎ fie put¸in mai mare ca plaja R.<br />
iii) Se alege un punct <strong>de</strong> plecare I care este put¸in mai mic <strong>de</strong>cât cea mai micǎ datǎ L.<br />
Adǎugǎm la I multiplii lui c (c este lǎt¸imea clasei) ¸si obt¸inem numerele:<br />
I, I + c, I + 2c, I + 3c, ..., I + (m − 1)c<br />
Aceste numere sunt limitele inferioare ale claselor.<br />
iv) Limitele superioare se stabilesc astfel încât sǎ fie respectate condit¸iile 1) ¸si 2).<br />
v) Se <strong>de</strong>terminǎ frecvent¸a fiecǎrei clase numǎrând elementele <strong>din</strong> fiecare clasǎ.<br />
13
5 Prezentarea datelor<br />
Prezentarea unui set <strong>de</strong> date poate fi fǎcutǎ sub diferite forme ¸si face parte <strong>din</strong> prelucrarea<br />
primarǎ a datelor.<br />
Prezentarea datelor sub formǎ <strong>de</strong> serii<br />
Definit¸ia 5.1. Seria <strong>de</strong> distribut¸ie este un ansamblu <strong>de</strong> douǎ ¸siruri finite <strong>din</strong>tre care<br />
primul este ¸sirul elementelor distincte <strong>din</strong> setul <strong>de</strong> date statistice sau ¸sirul claselor obt¸inute<br />
prin gruparea elementelor <strong>din</strong> setul <strong>de</strong> date statistice, iar cel <strong>de</strong>-al doilea este ¸sirul <strong>de</strong><br />
frecvent¸e corespunzǎtoare.<br />
Exemplul 5.1.<br />
seria <strong>de</strong> distribut¸ie este:<br />
În cazul setului <strong>de</strong> date statistice:<br />
X<br />
3 2 2 3 2<br />
4 4 1 2 2<br />
4 3 2 0 2<br />
2 1 3 3 1<br />
� 0 1 2 3 4<br />
1 3 8 5 3<br />
Exemplul 5.2. În cazul claselor 50 − 59; 60 − 69; 70 − 79; 80 − 89; 90 − 99 obt¸inute prin<br />
gruparea datelor <strong>din</strong> setul <strong>de</strong> date:<br />
82 74 88 66 58 74 78 84 96 76<br />
62 68 72 92 86 76 52 76 82 78<br />
seria <strong>de</strong> distribut¸ie este:<br />
�<br />
50 − 59<br />
X<br />
2<br />
60 − 69<br />
3<br />
70 − 79<br />
8<br />
80 − 89<br />
5<br />
�<br />
90 − 99<br />
2<br />
În general, o serie <strong>de</strong> distribut¸ie aratǎ în felul urmǎtor:<br />
�<br />
x1<br />
X<br />
x2 x3 · · · xn<br />
�<br />
�<br />
f1 f2 f3 · · · fn<br />
¸si oricare ar fi nivelul <strong>de</strong> grupare al datelor, xi având frecvent¸a fi, se nume¸ste termenul<br />
seriei <strong>de</strong> distribut¸ie.<br />
Remarca 5.1. A<strong>de</strong>sea în prezentarea seriilor <strong>de</strong> distribut¸ie în locul frecvent¸ei fi se<br />
folose¸ste frecvent¸a relativǎ:<br />
sau sub formǎ procentualǎ:<br />
f ′ i = fi<br />
n�<br />
j=1<br />
fj<br />
f ′′<br />
i = f ′ i · 100<br />
14
Definit¸ia 5.2. Valoarea datei care apare cu cea mai mare frecvent¸ǎ într-o serie <strong>de</strong><br />
distribut¸ie <strong>de</strong> date statistice se nume¸ste mod.<br />
Definit¸ia 5.3. Clasa cu cea mai mare frecvent¸ǎ într-o serie <strong>de</strong> distribut¸ie <strong>de</strong> date grupate<br />
se nume¸ste clasǎ modalǎ.<br />
Definit¸ia 5.4. Serie bimodalǎ este o serie <strong>de</strong> distribut¸ie <strong>de</strong> date grupate în care apar<br />
douǎ clase modale, separate <strong>de</strong> clase cu frecvent¸ǎ mai joasǎ.<br />
Definit¸ia 5.5. Frecvent¸a cumulatǎ a unei clase este suma frecvent¸elor tutror claselor<br />
cu valori mai mici (marca mai micǎ).<br />
Definit¸ia 5.6. Seria <strong>din</strong>amicǎ (temporalǎ, cronologicǎ) este un ¸sir dublu <strong>din</strong>tre<br />
care primul este ¸sirul <strong>de</strong> valori ale variabilei <strong>de</strong> rǎspuns, iar cel <strong>de</strong>-al doilea ¸sir este ¸sirul<br />
<strong>de</strong> momente <strong>de</strong> timp la care variabila are aceste valori.<br />
(temporalǎ) se noteazǎ astfel:<br />
În general, o serie <strong>din</strong>amicǎ<br />
�<br />
x1<br />
X<br />
x2 x3 · · · xn<br />
�<br />
t1 t2 t3 · · · tn<br />
Prezentarea datelor sub formǎ <strong>de</strong> tabele statistice<br />
Tabelele statistice sunt foarte variate ¸si se folosesc pentru ordonarea datelor statistice<br />
<strong>din</strong>tr-un set <strong>de</strong> date în ve<strong>de</strong>rea aplicǎrii meto<strong>de</strong>lor <strong>de</strong> calcul ¸si <strong>de</strong> interpretare statisticǎ.<br />
În funct¸ie <strong>de</strong> numǎrul <strong>de</strong> caracteristici prezentate în tabel existǎ tabele simple, tabele cu<br />
dublǎ intrare, tabele pe grupe, etc.<br />
Prezentarea datelor sub formǎ graficǎ<br />
Existǎ mai multe meto<strong>de</strong> <strong>de</strong> prezentare graficǎ a unui set <strong>de</strong> date statistice. Metoda<br />
<strong>de</strong> prezentare graficǎ este <strong>de</strong>terminatǎ <strong>de</strong> tipul <strong>de</strong> date ¸si <strong>de</strong> i<strong>de</strong>ea <strong>de</strong> prezentare. De<br />
la început trebuie sǎ fie clar cǎ existǎ mai multe cǎi <strong>de</strong> a dispune grafic anumite date<br />
statistice. Ju<strong>de</strong>cata analistului ¸si circumstant¸ele <strong>din</strong> jurul problemei joacǎ un rol major<br />
în alegerea modului <strong>de</strong> dispunere graficǎ a datelor statistice.<br />
Definit¸ia 5.7. Graficele <strong>de</strong> reprezentare a seriilor statistice fǎrǎ grupare se numesc<br />
diagrame.<br />
Definit¸ia 5.8. Diagrama cerc a seriei <strong>de</strong> distribut¸ie (fǎrǎ grupare)<br />
�<br />
x1<br />
X<br />
x2 x3 · · · xn<br />
�<br />
f1 f2 f3 · · · fn<br />
este un cerc împǎrt¸it în n sectoare <strong>de</strong> cerc S1, S2, ..., Sn astfel încât aria sectorului Si este<br />
egalǎ cu<br />
procente <strong>din</strong> aria cercului.<br />
f ′′<br />
i = fi<br />
n�<br />
j=1<br />
15<br />
fj<br />
· 100
Exemplul 5.3. În cazul seriei <strong>de</strong> distribut¸ie <strong>din</strong> exemplul 5.1<br />
�<br />
0<br />
X<br />
1<br />
1<br />
3<br />
2<br />
8<br />
3<br />
5<br />
�<br />
4<br />
3<br />
cercul se împarte în cinci sectoare având ariile egale cu 5%, , 15%, 40%, 25%, 15% <strong>din</strong><br />
aria cercului<br />
Definit¸ia 5.9. Diagrama coloanǎ a seriei <strong>de</strong> distribut¸ie (fǎrǎ grupare):<br />
�<br />
x1<br />
X<br />
x2 x3 · · · xn<br />
�<br />
f1 f2 f3 · · · fn<br />
este un set <strong>de</strong> n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale ¸si sunt a¸sezate pe<br />
axa Ox, iar înǎlt¸imile lor sunt f1, f2, ..., fn<br />
Exemplul 5.4.<br />
diagrama coloanǎ este:<br />
În cazul seriei <strong>de</strong> distribut¸ie <strong>din</strong> exemplul 5.1:<br />
�<br />
0<br />
X<br />
1<br />
1<br />
3<br />
2<br />
8<br />
3<br />
5<br />
�<br />
4<br />
3<br />
16
Definit¸ia 5.10. Diagrama linie (ramurǎ-frunzǎ) a seriei <strong>de</strong> distribut¸ie (fǎrǎ grupare)<br />
�<br />
x1<br />
X<br />
x2 x3 · · · xn<br />
�<br />
f1 f2 f3 · · · fn<br />
este un set <strong>de</strong> n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale ¸si sunt a¸sezate pe<br />
axa Oy, iar lungimile lor sunt f1, f2, ..., fn.<br />
Exemplul 5.5.<br />
diagrama linie este:<br />
În cazul seriei <strong>de</strong> distribut¸ie <strong>din</strong> exemplul 5.1:<br />
�<br />
0<br />
X<br />
1<br />
1<br />
3<br />
2<br />
8<br />
3<br />
5<br />
�<br />
4<br />
3<br />
Definit¸ia 5.11. Histograma seriei <strong>de</strong> distribut¸ie cu grupare<br />
�<br />
x1<br />
X<br />
x2 x3 · · · xn<br />
�<br />
f1 f2 f3 · · · fn<br />
este un set <strong>de</strong> n dreptunghiuri care reprezintǎ clasele. Bazele acestor dreptunghiuri<br />
sunt egale (clasele au aceea¸si lǎt¸ime) ¸si sunt a¸sezate pe axa Ox, iar înǎlt¸imile lor sunt<br />
f1, f2, ..., fn.<br />
Exemplul 5.6. În cazul seriei <strong>de</strong> distribut¸ie <strong>din</strong> exemplul 5.2:<br />
�<br />
50 − 59<br />
X<br />
2<br />
60 − 69<br />
3<br />
70 − 79<br />
8<br />
80 − 89<br />
5<br />
�<br />
90 − 99<br />
2<br />
histograma este:<br />
17
Remarca 5.2. În cazul histogramei o coloanǎ reprezintǎ un numǎr <strong>de</strong> date diferite spre<br />
<strong>de</strong>osebire <strong>de</strong> diagrama coloanǎ.<br />
Remarca 5.3. O histogramǎ are urmǎtoarele componente:<br />
i) Un titlu care i<strong>de</strong>ntificǎ populat¸ia la care se referǎ;<br />
ii) O scarǎ orizontalǎ pe care se i<strong>de</strong>ntificǎ variabila X, valorile limitelor claselor,<br />
frontierele claselor, mǎrcile claselor.<br />
iii) O scarǎ verticalǎ pe care se i<strong>de</strong>ntificǎ frecvent¸ele pentru fiecare clasǎ.<br />
Definit¸ia 5.12. O histogramǎ <strong>de</strong> frecvent¸e relative este o histogramǎ obt¸inutǎ <strong>din</strong>tro<br />
histogramǎ înlocuind frecvent¸ele cu frecvent¸e relative.<br />
Frecvent¸a relativǎ (este o mǎsurǎ proport¸ionalǎ cu frecvent¸a în cauzǎ) se obt¸ine prin<br />
împǎrt¸irea frecvent¸ei clasei la numǎrul total <strong>de</strong> elemente <strong>din</strong> setul <strong>de</strong> date.<br />
Definit¸ia 5.13. Ogiva unei serii <strong>de</strong> distribut¸ie <strong>de</strong> clase cu frecvent¸e relative cumulate<br />
este un set <strong>de</strong> dreptunghiuri. Bazele dreptunghiurilor sunt egale ¸si a¸sezate pe axa Ox, iar<br />
înǎt¸imile lor sunt frecvent¸ele relative cumulate.<br />
Ogiva are urmǎtoarele componente:<br />
1. Un titlu care i<strong>de</strong>ntificǎ populat¸ia.<br />
2. O scarǎ orizontalǎ pe care sunt marcate frontierele superioare ale claselor.<br />
3. O scarǎ verticalǎ pe care sunt marcate frecvent¸ele relative cumulate pentru fiecare<br />
clasǎ.<br />
18
6 Parametrii ¸si statistici ai ten<strong>din</strong>t¸ei centrale<br />
O categorie <strong>de</strong> caracteristici numerici asociat¸i unui set <strong>de</strong> date statistice sunt: parametrii<br />
ten<strong>din</strong>t¸ei centrale în cazul populat¸iilor ¸si statistici ale ten<strong>din</strong>t¸ei centrale în cazul<br />
e¸santioanelor. Întrucât ace¸stia au <strong>de</strong>finit¸ii analoage vom prezenta doar statistici ale<br />
ten<strong>din</strong>t¸ei centrale.<br />
Definit¸ia 6.1. Statistici ale ten<strong>din</strong>t¸ei centrale sunt valori numerice asociate unui set<br />
<strong>de</strong> date statistice care localizeazǎ într-un anumit sens mijlocul mult¸imii <strong>de</strong> date statistice.<br />
Definit¸ia 6.2. Media aritmeticǎ a setului <strong>de</strong> date statistice {x1, x2, ..., xn} este prin<br />
<strong>de</strong>finit¸ie suma acestor date împǎrt¸itǎ la numǎrul datelor<br />
x =<br />
n�<br />
i=1<br />
Remarca 6.1. Atunci când datele sunt prezentate sub forma unei serii <strong>de</strong> distribut¸ie<br />
(fǎrǎ grupare în clase), media aritmeticǎ se gǎse¸ste cu formula:<br />
x =<br />
m�<br />
j=1<br />
n<br />
xi<br />
xj · fj<br />
m�<br />
j=1<br />
Remarca 6.2. În cazul unei serii <strong>de</strong> distribut¸ie (cu grupare în clase) formula <strong>de</strong> calcul a<br />
mediei este:<br />
x =<br />
�<br />
x · fx<br />
fj<br />
� fx<br />
în care x reprezintǎ marca clasei ¸si fx frecvent¸a corespunzǎtoare, iar suma se extin<strong>de</strong> pe<br />
ansamblul claselor.<br />
Definit¸ia 6.3. Media pǎtraticǎ a setului <strong>de</strong> date statistice {x1, x2, ..., xn} este prin<br />
<strong>de</strong>finit¸ie numǎrul:<br />
�<br />
� n� �<br />
� x<br />
�<br />
i=1<br />
xp =<br />
2 i<br />
n<br />
Remarca 6.3. Dacǎ datele sunt prezentate sub forma unei serii <strong>de</strong> distribut¸ie (fǎrǎ<br />
grupare în clase), media pǎtraticǎ se gǎse¸ste cu formula:<br />
�<br />
� m� �<br />
� x<br />
�<br />
� j=1<br />
xp = �<br />
�<br />
�<br />
2 j · fj<br />
m�<br />
19<br />
j=1<br />
fj
Remarca 6.4. În cazul unei serii <strong>de</strong> distribut¸ie cu grupare în clase media pǎtraticǎ este<br />
prin <strong>de</strong>finit¸ie:<br />
�<br />
��<br />
� 2<br />
� x · fx<br />
xp = �<br />
� fx<br />
în care x reprezintǎ marca clasei ¸si fx frecvent¸a corespunzǎtoare, iar suma se extin<strong>de</strong> pe<br />
ansamblul claselor.<br />
Definit¸ia 6.4. Media armonicǎ a setului <strong>de</strong> date statistice {x1, x2, ..., xn} este prin<br />
<strong>de</strong>finit¸ie numǎrul:<br />
xh = n<br />
n� 1<br />
Remarca 6.5. Dacǎ datele sunt prezentate sub forma unei serii <strong>de</strong> distribut¸ie (fǎrǎ<br />
grupare în clase), media armonicǎ se gǎse¸ste cu formula:<br />
xh =<br />
m�<br />
i=1<br />
m�<br />
j=1<br />
1<br />
xj<br />
j=1<br />
Remarca 6.6. În cazul unei serii <strong>de</strong> distribut¸ie cu grupare în clase media armonicǎ este<br />
prin <strong>de</strong>finit¸ie:<br />
n�<br />
xh =<br />
i=1<br />
n�<br />
i=1<br />
xi<br />
fj<br />
fx<br />
· fj<br />
1<br />
· fx<br />
x<br />
în care x reprezintǎ marca clasei ¸si fx frecvent¸a corespunzǎtoare, iar suma se extin<strong>de</strong> pe<br />
ansamblul claselor.<br />
Definit¸ia 6.5. Media geometicǎ a setului <strong>de</strong> date statistice {x1, x2, ..., xn} este prin<br />
<strong>de</strong>finit¸ie numǎrul:<br />
xp = n<br />
�<br />
�<br />
�<br />
� n �<br />
Remarca 6.7. Dacǎ datele sunt prezentate sub forma unei serii <strong>de</strong> distribut¸ie (fǎrǎ<br />
grupare în clase), media geometricǎ se gǎse¸ste cu formula:<br />
Remarca 6.8. În cazul unei serii <strong>de</strong> distribut¸ie cu grupare în clase media geometricǎ este<br />
prin <strong>de</strong>finit¸ie: în care x reprezintǎ marca clasei ¸si fx frecvent¸a corespunzǎtoare, iar suma<br />
se extin<strong>de</strong> pe ansamblul claselor.<br />
20<br />
i=1<br />
xi
Definit¸ia 6.6. Mediana me a unui set <strong>de</strong> date statistice distincte ordonate dupǎ mǎrime<br />
x1 < x2 < ... < xn este numǎrul care împarte setul <strong>de</strong> date în douǎ grupe egale ca numǎr:<br />
- dacǎ n = 2 · k + 1, atunci me este valoarea <strong>de</strong> rangul k + 1: me = xk+1;<br />
- dacǎ n = 2 · k, atunci orice numǎr între valorile xk ¸si xk+1 satisface condit¸ia <strong>din</strong><br />
<strong>de</strong>finit¸ia lui me. În acest caz se convine ca me sǎ fie media aritmeticǎ a valorilor<br />
xk ¸si xk+1: me = xk + xk+1<br />
.<br />
2<br />
Exemplul 6.1.<br />
În cazul setului <strong>de</strong> date statistice:<br />
mediana este me = 26.<br />
În cazul setului <strong>de</strong> date statistice:<br />
mediana este me =<br />
12 + 26<br />
2<br />
= 19.<br />
4 7 12 26 32 38 59<br />
4 7 12 26 32 38<br />
Remarca 6.9. Mediana me în acest caz are proprietatea cǎ suma frecvent¸elor valorilor<br />
mai mari <strong>de</strong>cât me este egalǎ cu suma frecvent¸elor valorilor mai mici <strong>de</strong>cât me.<br />
Remarca 6.10. Dacǎ datele pot fi egale, atunci proprietatea <strong>din</strong> Remarca 6.9 a medianei<br />
poate sǎ nu fie a<strong>de</strong>vǎratǎ. În cazul setului <strong>de</strong> date statistice:<br />
Seria <strong>de</strong> distribut¸ie corespunzǎtoare este:<br />
1 1 1 2 3 3 4<br />
1 2 3 4<br />
3 1 2 1<br />
Conform <strong>de</strong>finit¸iei lui me în acest caz me = 2, 5. Aceastǎ valoare a lui me nu rǎspun<strong>de</strong><br />
cerint¸ei cǎ me este o valoare cu proprietatea cǎ valorile mai mari sau mai mici <strong>de</strong>cât ea<br />
apar cu frecvent¸e cumulate egale; frecvent¸a celor mai mici este 4, iar frecvenǎ celor mai<br />
mari este 3.<br />
Remarca 6.11. Când datele sunt prezentate sub forma unei serii <strong>de</strong> distribut¸ie cu sau fǎrǎ<br />
grupare me se calculeazǎ prin proce<strong>de</strong>ul interpolǎrii liniare, bazate pe ipoteza repartit¸iei<br />
uniforme a frecvent¸elor în intervalul median.<br />
Definit¸ia 6.7. Mijlocul plajei este prin <strong>de</strong>finit¸ie numǎrul:<br />
Mr =<br />
L + H<br />
2<br />
un<strong>de</strong> L este cea mai micǎ valoare, iar H este cea mai mare valoare a variabilei X<br />
21
7 Parametrii ¸si statistici ai dispersiei<br />
Dupǎ ce ”mijlocul” unui set <strong>de</strong> date a fost stabilit urmǎtoarea întrebare naturalǎ este:<br />
care sunt parametrii ¸si statisticile care caracterizeazǎ dispersia (împrǎ¸stierea) datelor.<br />
Parametrii ¸si statisticile dispersiei sunt: plaja, <strong>de</strong>viat¸ia medie absolutǎ, variant¸a, <strong>de</strong>viat¸ia<br />
standard ¸si coeficientul <strong>de</strong> variat¸ie. Aceste valori numerice <strong>de</strong>scriu mǎrimea împrǎ¸stierii<br />
ori a variabilitǎt¸ilor datelor. Datele strâns grupate vor avea împrǎ¸stiere micǎ, iar cele<br />
care nu sunt grupate (sunt împrǎ¸stiate) vor avea o dispersie mai mare.<br />
Definit¸ia 7.1. Plaja P este diferent¸a <strong>din</strong>tre cea mai mare (H) ¸si cea mai micǎ (L) valoare<br />
a valorilor xi <strong>din</strong>tr-un set <strong>de</strong> date:<br />
P = H − L<br />
Deviat¸ia medie absolutǎ, variant¸a ¸si <strong>de</strong>viat¸ia standard mǎsoarǎ dispersia fat¸ǎ <strong>de</strong> media<br />
aritmeticǎ.<br />
Definit¸ia 7.2. Deviat¸ia fat¸ǎ <strong>de</strong> media aritmeticǎ x a valorii xi a variabilei X este<br />
di = xi − x.<br />
Deviat¸ia este zero dacǎ ¸si numai dacǎ xi = x.<br />
Deviat¸ia este pozitivǎ dacǎ ¸si numai dacǎ xi > x.<br />
Deviat¸ia este negativǎ dacǎ ¸si numai dacǎ xi < x.<br />
n�<br />
S-ar putea cre<strong>de</strong> cǎ suma <strong>de</strong>viat¸ilor (xi − x) poate servi ca mǎsurǎ a dispersiei fat¸ǎ <strong>de</strong><br />
media aritmeticǎ. Dar aceastǎ sumǎ este zero întot<strong>de</strong>auna:<br />
n�<br />
(xi − x) =<br />
i=1<br />
i=1<br />
n�<br />
xi − n · x = n · x − n · x = 0<br />
i=1<br />
Reducerea <strong>de</strong>viat¸iilor poate fi eliminatǎ prin folosirea valorii absolute a <strong>de</strong>viat¸iilor: xi −x.<br />
Definit¸ia 7.3. Deviat¸ia medie absolutǎ a setului <strong>de</strong> date statistice distincte {x1, x2, ..., xn}<br />
este prin <strong>de</strong>finit¸ie:<br />
n�<br />
|xi − x|<br />
d =<br />
i=1<br />
Remarca 7.1. Deviat¸ia medie absolutǎ, în cazul în care datele sunt prezentate sub forma<br />
unei serii <strong>de</strong> distribut¸ie fǎrǎ grupare <strong>de</strong> date se calculeazǎ cu formula:<br />
d =<br />
n<br />
m�<br />
|xj − x| · fj<br />
j=1<br />
m�<br />
j=1<br />
22<br />
fj
Remarca 7.2. Deviat¸ia medie absolutǎ, în cazul în care datele sunt prezentate sub forma<br />
unei serii <strong>de</strong> distribut¸ie cu grupare <strong>de</strong> date se calculeazǎ cu formula:<br />
�<br />
|x − x| · fx<br />
d =<br />
� fx<br />
în care x reprezintǎ marca clasei ¸si fx frecvent¸a corespunzǎtoare, iar suma se extin<strong>de</strong> pe<br />
ansamblul claselor.<br />
Cu toate cǎ acest parametru al împrǎ¸stierii nu se folose¸ste frecvent, el este o mǎsurǎ a<br />
împrǎ¸stierii ¸si aratǎ distant¸a medie la care se aflǎ o valoare a variabilei X fat¸ǎ <strong>de</strong> media<br />
aritmeticǎ.<br />
Mai existǎ o cale <strong>de</strong> eliminare a reducerii <strong>de</strong>viat¸iilor. Ridicând la pǎtrat <strong>de</strong>viat¸iile<br />
individuale acestea <strong>de</strong>vin pozitive (sau zero). Când aceste pǎtrate sunt adunate rezultatul<br />
n�<br />
este pozitiv. Suma pǎtratelor <strong>de</strong>viat¸iilor fat¸ǎ <strong>de</strong> media aritmeticǎ (xi−x) 2 este folositǎ<br />
în <strong>de</strong>finirea variant¸ei.<br />
Definit¸ia 7.4. Variant¸a s2 a setului <strong>de</strong> date statistice distincte {x1, x2, ..., xn} este prin<br />
<strong>de</strong>finit¸ie:<br />
n�<br />
(xi − x) 2<br />
i=1<br />
s 2 =<br />
n<br />
Remarca 7.3. Dacǎ setul <strong>de</strong> date este prezentat sub forma unei serii <strong>de</strong> distribut¸ie fǎrǎ<br />
grupare <strong>de</strong> date variant¸a s2 se calculeazǎ cu formula:<br />
m�<br />
(xj − x) 2 · fj<br />
s 2 =<br />
j=1<br />
m�<br />
j=1<br />
Remarca 7.4. Dacǎ setul <strong>de</strong> date este prezentat sub forma unei serii <strong>de</strong> distribut¸ie cu<br />
grupare <strong>de</strong> date variant¸a s2 se calculeazǎ cu formula:<br />
s 2 �<br />
2<br />
(x − x) · fx<br />
=<br />
fj<br />
� fx<br />
în care x reprezintǎ marca clasei ¸si fx frecvent¸a corespunzǎtoare, iar suma se extin<strong>de</strong> pe<br />
ansamblul claselor.<br />
Definit¸ia 7.5. Deviat¸ia standard (abaterea standard) s a setului <strong>de</strong> date statistice<br />
distincte {x1, x2, ..., xn} este prin <strong>de</strong>finit¸ie:<br />
⎡<br />
⎢<br />
s = ⎢<br />
⎣<br />
n�<br />
(xi − x) 2<br />
⎤<br />
1<br />
2<br />
⎥<br />
n ⎥<br />
⎦<br />
i=1<br />
23<br />
i=1
Remarca 7.5. Dacǎ setul <strong>de</strong> date este prezentat sub forma unei serii <strong>de</strong> distribut¸ie fǎrǎ<br />
grupare <strong>de</strong> date <strong>de</strong>viat¸ia standard s se calculeazǎ cu formula:<br />
⎡ m�<br />
⎢ (xj − x)<br />
⎢ j=1<br />
s = ⎢<br />
⎣<br />
2 1<br />
⎤<br />
2<br />
· fj ⎥<br />
m� ⎥<br />
⎦<br />
j=1<br />
Remarca 7.6. Dacǎ setul <strong>de</strong> date este prezentat sub forma unei serii <strong>de</strong> distribut¸ie cu<br />
grupare <strong>de</strong> date <strong>de</strong>viat¸ia standard s se calculeazǎ cu formula:<br />
fj<br />
⎡�<br />
⎤<br />
1<br />
2<br />
(x − x) · fx 2<br />
s = ⎣<br />
⎦<br />
� fx<br />
în care x reprezintǎ marca clasei ¸si fx frecvent¸a corespunzǎtoare, iar suma se extin<strong>de</strong> pe<br />
ansamblul claselor.<br />
Remarca 7.7. Deviat¸ia standard a fost <strong>de</strong>finitǎ cu o formulǎ. Se poate pune întrebarea<br />
ce reprezintǎ ea în realitate? Un rǎspuns la aceastǎ întrebare poate fi dat cu inegalitatea<br />
lui Cebî¸sev <strong>din</strong> care rezultǎ cǎ pentru orice serie <strong>de</strong> distribut¸ie fract¸iunea <strong>de</strong> date situatǎ<br />
la cel mult k unitǎt¸i <strong>de</strong> <strong>de</strong>viat¸ie standard fat¸ǎ <strong>de</strong> medie este cel put¸in 1 − 1<br />
k2 , un<strong>de</strong> k este<br />
un numǎr pozitiv oarecare mai mare ca 1. Rezultǎ în particular cǎ pentru orice serie <strong>de</strong><br />
distribut¸ie fract¸iunea <strong>de</strong> date situatǎ la cel mult k = 2 unitǎt¸i <strong>de</strong> <strong>de</strong>viat¸ie standard fat¸ǎ <strong>de</strong><br />
medie este <strong>de</strong> cel put¸in 75% <strong>din</strong> totalul <strong>de</strong> date. Dacǎ k = 3 atunci este 89% <strong>din</strong> totalul<br />
<strong>de</strong> date.<br />
Conform regulii empirice dacǎ o serie <strong>de</strong> repartit¸ie este normalǎ atunci fract¸iunea <strong>de</strong> date<br />
situate la cel mult o unitate <strong>de</strong> <strong>de</strong>viat¸ie standard σ fat¸a <strong>de</strong> medie este aproximativ 68%,<br />
iar fract¸iunea <strong>de</strong> date situate la cel mult douǎ unitǎt¸i <strong>de</strong> <strong>de</strong>viat¸ie standard σ fat¸ǎ <strong>de</strong> medie<br />
este aproximativ 95%.<br />
Definit¸ia 7.6. Coeficientul <strong>de</strong> variat¸ie V este prin <strong>de</strong>finit¸ie:<br />
V = s<br />
· 100<br />
x<br />
Remarca 7.8. Coeficientul <strong>de</strong> variat¸ie este o statisticǎ relativǎ a dispersiei ¸si se folose¸ste<br />
la compararea dispersiei diferitelor variabile (caracteristici).<br />
Remarca 7.9. V poate lua valori între 0 ¸si 100%. Dacǎ V este aproape <strong>de</strong> zero<br />
(V < 35%), atunci populat¸ia studiatǎ statistic este omogenǎ ¸si media x este reprezentativǎ<br />
pentru aceastǎ populat¸ie. Dacǎ V este aproape <strong>de</strong> 100% (V > 75%), atunci populat¸ia<br />
studiatǎ statistic este eterogenǎ ¸si media x nu este reprezentativǎ. De cele mai multe<br />
ori în asemenea cazuri este necesarǎ separarea populat¸iei statistice în mai multe grupe<br />
omogene, care se studiazǎ separat.<br />
24
8 Parametrii ¸si statistici factoriali ai variant¸ei<br />
În analiza variant¸ei unui set <strong>de</strong> date statistice se folosesc urmǎtorii parametrii factoriali<br />
ai variant¸ei:<br />
- variant¸a <strong>de</strong> grupǎ (part¸ialǎ) s 2 j<br />
- media variant¸elor <strong>de</strong> grupǎ s 2<br />
- variant¸a mediilor <strong>de</strong> grupǎ fat¸ǎ <strong>de</strong> media generalǎ δ 2<br />
- variant¸a totalǎ (generalǎ) s 2 .<br />
Definit¸ia 8.1. Pentru o grupǎ <strong>de</strong> m date x1, x2, ..., xm, variant¸a <strong>de</strong> grupǎ este <strong>de</strong>finitǎ<br />
cu formula:<br />
m�<br />
s 2 j =<br />
i=1<br />
(xi − xj) 2 · nij<br />
m�<br />
i=1<br />
în care j este indicele grupei, xj este media grupei, xi sunt datele <strong>din</strong> grupa j având<br />
frecvent¸ele nij<br />
Remarca 8.1. Variant¸ele <strong>de</strong> grupǎ sunt mai mici <strong>de</strong>cât variant¸a ¸si au valori mai mari<br />
sau mai mici în funct¸ie <strong>de</strong> eterogenitatea grupei.<br />
Definit¸ia 8.2. Prin <strong>de</strong>finit¸ie media variant¸elor <strong>de</strong> grupǎ este:<br />
în care k este numǎrul <strong>de</strong> grupe, nj =<br />
s 2 =<br />
k�<br />
j=1<br />
nij<br />
s 2 j · nj<br />
k�<br />
j=1<br />
nj<br />
m�<br />
nij este numǎrul <strong>de</strong> date <strong>din</strong> grupǎ.<br />
i=1<br />
Definit¸ia 8.3. Variant¸a mediilor <strong>de</strong> grupǎ fat¸ǎ <strong>de</strong> media generalǎ este prin<br />
<strong>de</strong>finit¸ie:<br />
k�<br />
δ 2 =<br />
j=1<br />
(xj − x) 2 · nj<br />
k�<br />
j=1<br />
25<br />
nj
9 Parametrii ¸si statistici ale pozit¸iei<br />
Parametrii ¸si statistici ai pozit¸iei se folosesc pentru a <strong>de</strong>scrie locat¸ia unei date în raport<br />
cu celelalte date.<br />
Definit¸ia 9.1. Quantilele sunt valori numerice care împart setul <strong>de</strong> date în q grupe<br />
egale. Constanta q se nume¸ste or<strong>din</strong>ul quantilei.<br />
Mediana este quantila <strong>de</strong> or<strong>din</strong>ul doi.<br />
Quantilele <strong>de</strong> or<strong>din</strong>ul patru împart setul <strong>de</strong> date în patru grupe egale ¸si se numesc<br />
quartile. Quartilele sunt în numǎr <strong>de</strong> trei, notate <strong>de</strong> obicei cu Q1, Q2, Q3.<br />
Quartila Q1 este un numǎr cu proprietatea cǎ o pǎtrime <strong>din</strong> date au valori mai mici <strong>de</strong>cât<br />
Q1 ¸si trei pǎtrimi <strong>din</strong> date au valori mai mari <strong>de</strong>cât Q1.<br />
Quartila Q2 este un numǎr cu proprietatea cǎ jumǎtate <strong>din</strong> date au valori mai mici <strong>de</strong>cât<br />
Q2 ¸si jumǎtate <strong>din</strong> date au valori mai mari <strong>de</strong>cât Q2. Quartila Q2 este chiar mediana.<br />
Quartila Q3 este un numǎr cu proprietatea cǎ trei pǎtrimi <strong>din</strong> date au valori mai mici<br />
<strong>de</strong>cât Q3 ¸si o pǎtrime <strong>din</strong> date au valori mai mari <strong>de</strong>cât Q3.<br />
Alte categorii <strong>de</strong> quantile folosite sunt:<br />
- <strong>de</strong>cilele care împart setul <strong>de</strong> date în 10 grupe egale.<br />
- centilele care împart setul <strong>de</strong> date în 100 grupe egale.<br />
- promilele care împart setul <strong>de</strong> date în 1000 grupe egale.<br />
Orice set <strong>de</strong> date are 99 <strong>de</strong> centile Pk, k = 1..99. Centila Pk este o valoare numericǎ cu<br />
proprietatea cǎ k% <strong>din</strong> date are valori mai mici <strong>de</strong>cât Pk, iar (100 − k)% <strong>din</strong> date au<br />
valori mai mari <strong>de</strong>cât Pk.<br />
Remarca 9.1. Q1 = P25; Q3 = P75; me = Q2 = P50<br />
Remarca 9.2. Proce<strong>de</strong>ul <strong>de</strong> <strong>de</strong>terminare a centilei Pk este urmǎtorul:<br />
1) datele se ordoneazǎ crescǎtor;<br />
2) trebuie gǎsitǎ pozit¸ia i a centilei k. Prima oarǎ se <strong>de</strong>terminǎ numǎrul<br />
n este numǎrul <strong>de</strong> date. Dacǎ<br />
n · k<br />
întreg urmǎtor (<br />
n · k<br />
este<br />
100<br />
i = 23.5).<br />
100<br />
+ 0.5 (n · k<br />
100<br />
n · k<br />
100<br />
n · k<br />
= 17.2 → i = 18). Dacǎ<br />
100<br />
= 23 →<br />
n · k<br />
, un<strong>de</strong><br />
100<br />
nu este un numǎr întreg, atunci i este numǎrul<br />
este un numǎr întreg, atunci i<br />
3) localizarea valorii Pk: se numǎrǎ <strong>de</strong> la valoarea L (cea mai micǎ valoare a datelor) i<br />
valori dacǎ i este întreg. Dacǎ i nu este întreg atunci este un întreg plus o jumǎtate.<br />
n · k n · k<br />
În acest caz valoarea Pk este semisuma datelor <strong>de</strong> pe locurile ¸si + 1<br />
100 100<br />
O statisticǎ adit¸ionalǎ a pozit¸iei este scorul standard sau z-scor.<br />
26
Definit¸ia 9.2. Scorul standard sau z-scorul este pozit¸ia valorii x fat¸ǎ <strong>de</strong> mediana x<br />
în unitǎt¸i <strong>de</strong> <strong>de</strong>viat¸ie standard:<br />
x − x<br />
z =<br />
s<br />
27
10 Seria <strong>de</strong> distribut¸ie a statisticilor<br />
<strong>de</strong> e¸santioane<br />
Pentru a face inferent¸ǎ (predict¸ie) asupra parametrilor populat¸iei, este necesar sǎ analizǎm<br />
statisticile <strong>de</strong> e¸santioane. Media x în cazul unui e¸santion nu este neaparat egalǎ cu media µ<br />
a populat¸iei. Suntem însǎ mult¸umit¸i dacǎ media x este apropiatǎ <strong>de</strong> µ. Dacǎ se consi<strong>de</strong>rǎ<br />
media x′ în cazul unui al doilea e¸santion aceasta poate sǎ fie diferitǎ <strong>de</strong> x ¸si <strong>de</strong> µ. Ceea ce<br />
putem spera este ca aceasta sǎ fie apropiatǎ <strong>de</strong> valoarea µ ¸si <strong>de</strong> x. Valabilitatea acestui<br />
tip <strong>de</strong> comportament intereseazǎ pentru orice populat¸ie ¸si orice statisticǎ.<br />
Întrebarea care se na¸ste în mod natural este ce înseamnǎ aproape? Cum se mǎsoarǎ ¸si se<br />
<strong>de</strong>terminǎ aceastǎ apropiere? Care este seria <strong>de</strong> distribut¸ie a statisticilor <strong>de</strong> e¸santioane?<br />
Definit¸ia 10.1. Seria <strong>de</strong> distribut¸ie a statisticilor <strong>de</strong> e¸santioane este seria <strong>de</strong><br />
distribut¸ie a statisticilor <strong>de</strong> un anumit tip obt¸inute pentru e¸santioane <strong>de</strong> aceea¸si mǎrime.<br />
Tipul <strong>de</strong> statisticǎ poate fi oricare <strong>din</strong> statisticile prezentate în sect¸iunile 6 ¸si 7.<br />
Exemplul 10.1. Se consi<strong>de</strong>rǎ o populat¸ie <strong>de</strong> N elemente <strong>de</strong> la care se pot obt¸ine<br />
urmǎtoarele date statistice distincte: {0, 2, 4, 6, 8}. În cazul acestei populat¸ii formǎm<br />
e¸santioane <strong>de</strong> mǎrime 2 <strong>de</strong> la care putem avea urmǎtoarele date statistice:<br />
Pentru aceste e¸santioane mediile x sunt:<br />
(0, 0) (2, 0) (4, 0) (6, 0) (8, 0)<br />
(0, 2) (2, 2) (4, 2) (6, 2) (8, 2)<br />
(0, 4) (2, 4) (4, 4) (6, 4) (8, 4)<br />
(0, 6) (2, 6) (4, 6) (6, 6) (8, 6)<br />
(0, 8) (2, 8) (4, 8) (6, 8) (8, 8)<br />
0 1 2 3 4<br />
1 2 3 4 5<br />
2 3 4 5 6<br />
3 4 5 6 7<br />
4 5 6 7 8<br />
E¸santioanele fiind aleatoare fiecare e¸santion, are probabilitatea 1/25 sǎ fie ales ¸si seria <strong>de</strong><br />
distribut¸ie a mediilor acestor e¸santioane este:<br />
x f ′ (x)<br />
0 0.04<br />
1 0.08<br />
2 0.12<br />
3 0.16<br />
4 0.20<br />
5 0.16<br />
6 0.12<br />
7 0.08<br />
8 0.04<br />
un<strong>de</strong> f ′ (x) este frecvent¸a relativǎ a mediei x. Diagrama coloanǎ a mediilor e¸santioanelor<br />
este:<br />
28
Pentru acela¸si set <strong>de</strong> 25 <strong>de</strong> e¸santioane putem <strong>de</strong>termina seria <strong>de</strong> distribut¸ie a plajelor R<br />
a acestor e¸santioane.<br />
Plajele R ale e¸santioanelor sunt date în tabelul urmǎtor:<br />
0 2 4 6 8<br />
2 0 2 4 6<br />
4 2 0 2 4<br />
6 4 2 0 2<br />
8 6 4 2 0<br />
Seria <strong>de</strong> distribut¸ie a plajelor acestor e¸santioane este:<br />
R f ′ (R)<br />
0 0.20<br />
2 0.32<br />
4 0.24<br />
6 0.16<br />
8 0.08<br />
iar diagrama coloanǎ a plajei e¸santioanelor este:<br />
29
Exemplul 10.2. În cazul aruncǎrii zarului <strong>de</strong> un numǎr <strong>de</strong> N ori, setul <strong>de</strong> date statistice<br />
care se referǎ la numǎrul <strong>de</strong> pe fat¸ǎ care apare este 1, 2, 3, 4, 5, 6.<br />
Formǎm e¸santioane care constau <strong>din</strong> 5 aruncǎri. Fiecare <strong>din</strong> aceste e¸santioane are media<br />
x. Consi<strong>de</strong>rǎm 30 <strong>de</strong> e¸santioane <strong>de</strong> acest fel (înseamnǎ 30 × 5 = 150 aruncǎri) ¸si într-un<br />
tabel reprezentǎm rezultatele precum ¸si mediile corespunzǎtoare:<br />
Încercare E¸santion x Încercare E¸santion x<br />
1 1 2 3 2 2 2.0 16 5 2 1 3 5 3.2<br />
2 4 5 5 4 5 4.6 17 6 1 3 3 5 3.6<br />
3 3 1 5 2 4 3.0 18 6 5 5 2 6 4.8<br />
4 5 6 6 4 2 4.6 19 1 3 5 5 6 4.0<br />
5 5 4 1 6 4 4.0 20 3 1 5 3 1 2.6<br />
6 3 5 6 1 5 4.0 21 5 1 1 4 3 2.8<br />
7 2 3 6 3 2 3.2 22 4 6 3 1 2 3.2<br />
8 5 3 4 6 2 4.0 23 1 5 3 4 5 3.6<br />
9 1 5 5 3 4 3.6 24 3 4 1 3 3 2.8<br />
10 4 1 5 2 6 3.6 25 1 2 4 1 4 2.4<br />
11 5 1 3 3 2 2.8 26 5 2 1 6 3 3.4<br />
12 1 5 2 3 1 2.4 27 4 2 5 6 3 4.0<br />
13 2 1 1 5 3 2.4 28 4 3 1 3 4 3.0<br />
14 5 1 4 4 6 4.0 29 2 6 5 3 3 3.8<br />
15 5 5 6 3 3 4.4 30 6 3 5 1 1 3.2<br />
Histograma seriei <strong>de</strong> distribut¸ie a mediilor celor 30 <strong>de</strong> e¸santioane este reprezentatǎ în<br />
figura urmǎtoare:<br />
30
Aceastǎ lege <strong>de</strong> repartit¸ie pare sǎ aibe caracteristicile unei legi <strong>de</strong> repartit¸ie normalǎ; este<br />
maxim ¸si este simetric fat¸ǎ <strong>de</strong> media proprie 3.5.<br />
31
11 Teorema limitǎ centralǎ<br />
În sect¸iunea prece<strong>de</strong>ntǎ am prezentat seria <strong>de</strong> distribut¸ie a mediei ¸si plajei unui set <strong>de</strong><br />
e¸santioane. Media este statistica folositǎ cel mai frecvent în cazul e¸santioanelor ¸si <strong>de</strong> aceea<br />
este foarte importantǎ. Teorema limitǎ centralǎ se referǎ la seria <strong>de</strong> distribut¸ie a mediei<br />
tuturor e¸santioanelor aleatoare <strong>de</strong> aceea¸si mǎrime n.<br />
Sǎ formulǎm ce anume intereseazǎ în cazul acestei serii <strong>de</strong> distribut¸ie:<br />
1) Un<strong>de</strong> este centrul datelor?<br />
2) Cât <strong>de</strong> mare este dispersia datelor?<br />
3) Care este caracterul seriei <strong>de</strong> distribut¸ie?<br />
Teorema limitǎ centralǎ oferǎ rǎspuns la aceste trei întrebǎri.<br />
Teorema 11.1. Teorema limitǎ centralǎ<br />
Fie µ media ¸si σ <strong>de</strong>viat¸ia standard a unei variabile în cazul unei populat¸ii. Dacǎ se<br />
consi<strong>de</strong>rǎ toate e¸santioanele aleatoare <strong>de</strong> mǎrime n <strong>din</strong> aceastǎ populat¸ie, atunci seria <strong>de</strong><br />
distribut¸ie a mediilor acestor e¸santioane are urmǎtoarele proprietǎt¸i:<br />
a) media µx a acestei serii <strong>de</strong> distribut¸ie este egalǎ cu µ;<br />
b) <strong>de</strong>viat¸ia standard σx a acestei serii <strong>de</strong> distribut¸ie este σ √ n .<br />
c) dacǎ seria <strong>de</strong> distribut¸ie a variabilei în cazul populat¸iei este normalǎ, atunci seria<br />
<strong>de</strong> distribut¸ie a mediilor e¸santioanelor este normalǎ; dacǎ seria <strong>de</strong> distribut¸iei a<br />
variabilei în cazul populat¸iei nu este normalǎ, atunci seria <strong>de</strong> distribut¸ie a mediilor<br />
e¸santioanelor este aproximativ normalǎ pentru e¸santioane <strong>de</strong> mǎrime mai mare ca<br />
30. Ten<strong>din</strong>t¸a cǎtre o serie <strong>de</strong> distribut¸ie normalǎ cre¸ste dacǎ mǎrimea e¸santionului<br />
cre¸ste.<br />
Pe scurt, teorema limitǎ centralǎ stabile¸ste urmǎtoarele:<br />
1) µx = µ, un<strong>de</strong> x este media e¸santionului x;<br />
2) σx = σ/ √ n, <strong>de</strong>viat¸ia standard a mediei este egalǎ cu <strong>de</strong>viat¸ia standard a populat¸iei<br />
împǎt¸itǎ cu rǎdǎcina pǎtratǎ a mǎrimii e¸santionului.<br />
3) seria <strong>de</strong> distribut¸iei a mediei e¸santioanelor este aproximativ normalǎ indiferent <strong>de</strong><br />
seria <strong>de</strong> distribut¸iei a variabilei în cazul populat¸iei.<br />
Remarca 11.1. Deviat¸ia standard σx a seriei <strong>de</strong> distribut¸ie a mediilor e¸santioanelor<br />
este <strong>de</strong>viat¸ia standard a mediilor e¸santioanelor fat¸ǎ <strong>de</strong> media seriei <strong>de</strong> distribut¸ie a<br />
e¸santioanelor.<br />
Nu vom face <strong>de</strong>monstrat¸ie teoremei limitǎ centralǎ. Vom ilustra însǎ validitatea ei<br />
examinând un caz ilustrativ.<br />
32
Consi<strong>de</strong>rǎm o populat¸ie pentru care seria <strong>de</strong> distribut¸ie <strong>de</strong> date statistice cu frecvent¸e<br />
relative în cazul variabilei X este:<br />
�<br />
2<br />
X :<br />
1/3<br />
4<br />
1/3<br />
�<br />
6<br />
1/3<br />
Media µ ¸si <strong>de</strong>viat¸ia standard σ pentru aceastǎ variabilǎ sunt:<br />
3�<br />
µ = xj · f ′ �<br />
�<br />
�<br />
xj σ = � 3 �<br />
x 2 j · f ′ xj −<br />
�<br />
3�<br />
xj · f ′ �2 xj<br />
j=1<br />
µ = 12<br />
3<br />
j=1<br />
= 4 σ = 1, 63<br />
În cazul acestei populat¸ii oricare e¸santion <strong>de</strong> mǎrime doi are urmǎtoarele date posibile:<br />
E¸santioanele au urmǎtoarele medii:<br />
(2, 2) (2, 4) (2, 6)<br />
(4, 2) (4, 4) (4, 6)<br />
(6, 2) (6, 4) (6, 6)<br />
2 3 4<br />
3 4 5<br />
4 5 6<br />
E¸santion Media<br />
(2,2) 2<br />
(2,4) 3<br />
(2,6) 4<br />
(4,2) 3<br />
(4,4) 4<br />
(4,6) 5<br />
(6,2) 4<br />
(6,4) 5<br />
(6,6) 6<br />
E¸santioanele fiind aleatoare fiecare e¸santion are probabilitatea 1<br />
sǎ fie ales ¸si seria <strong>de</strong><br />
9<br />
distribut¸ie a mediilor e¸santioanelor este:<br />
� �<br />
2 3 4 5 6<br />
X<br />
1/9 2/9 3/9 2/9 1/9<br />
Media seriei <strong>de</strong> distribut¸ie a mediilor e¸santioanelor µx este µx = 36/9 = 4, 0. Prin urmare<br />
µ = µx, iar <strong>de</strong>viat¸ia standard a repartit¸iilor mediilor e¸santioanelor este:<br />
�<br />
�<br />
�<br />
σx = � 5 �<br />
x 2 j · f ′ xj −<br />
�<br />
5�<br />
xj · f ′ � � 2<br />
156<br />
xj =<br />
9 −<br />
� �2 36<br />
= 1, 15<br />
9<br />
σ<br />
√ n =<br />
j=1<br />
1, 63<br />
√ 2 =<br />
1, 63<br />
1, 44<br />
j=1<br />
= 1, 15 = σx<br />
Reprezentând seria <strong>de</strong> distribut¸ie a mediilor e¸santioanelor obt¸inem:<br />
33<br />
j=1
Aceastǎ diagramǎ aratǎ cǎ seria <strong>de</strong> distribut¸ie a mediilor e¸santioanelor este normalǎ.<br />
34
12 O aplicat¸ie a teoremei limitǎ centralǎ<br />
Teorema limitǎ centralǎ oferǎ informat¸ii asupra seriei <strong>de</strong> distribut¸ie a mediilor e¸santioanelor<br />
<strong>de</strong>scriind forma repartit¸iei mediilor tuturor e¸santioanelor (aproape normalǎ).<br />
Ea stabile¸ste relat¸ia <strong>din</strong>tre media µ a populat¸iei ¸si media µx a seriei <strong>de</strong> distribut¸ie a<br />
mediilor tuturor e¸santioanelor ¸si relat¸ia <strong>din</strong>tre <strong>de</strong>viat¸ia standard σ a populat¸iei ¸si <strong>de</strong>viat¸ia<br />
standard σx a seriei <strong>de</strong> distribut¸ie a mediilor e¸santioanelor. Deoarece seria <strong>de</strong> distribut¸ie<br />
a mediilor e¸santioanelor este aproape normalǎ putem stabili legǎturi probabiliste <strong>din</strong>tre<br />
media populat¸iei ¸si media unui e¸santion.<br />
Exemplul 12.1. Consi<strong>de</strong>rǎm o populat¸ie normalǎ cu µ = 100 ¸si σ = 20. Dacǎ se alege<br />
un e¸santion aleator <strong>de</strong> mǎrime n = 16 care este probabilitatea ca valoarea medie a acestui<br />
e¸santion sǎ fie între 90 ¸si 110? Altfel spus, cât este P (90 < x < 110)?<br />
Solut¸ie: Conform teoremei limitǎ centralǎ repartit¸ia valorilor medii ale e¸santioanelor<br />
este normalǎ. Prin urmare va trebui sǎ transformǎm condit¸ia P (90 < x < 110) într-o<br />
condit¸ie care sǎ permitǎ folosirea tabelului <strong>de</strong> distribut¸ie normalǎ standard. Aceasta se<br />
face scriind:<br />
� � � �<br />
110 − µx 90 − µx<br />
P (90 < x < 110) = Φ<br />
− Φ<br />
=<br />
un<strong>de</strong> Φ(X) = 1<br />
√ 2π<br />
� � � � � � � �<br />
110 − 100 −10<br />
10<br />
10<br />
= Φ<br />
− Φ = 2 · Φ − 1 = F<br />
�X<br />
−∞<br />
σx<br />
σx<br />
σx<br />
e −<br />
1<br />
2 t2<br />
dt ¸si F (X) = Φ(X) − 1<br />
2 .<br />
Deoarece σx = σ √ n , avem σx = 20<br />
√ 16 = 5 ¸si astfel obt¸inem:<br />
P (90 < x < 110) = 2 · Φ(2) − 1 = 2F (2) = 0.9544<br />
Efectul cre¸sterii dimensiunii n a e¸santionului nu afecteazǎ µx = µ ¸si mic¸soreazǎ σx. Prin<br />
urmare P (90 < x < 110) cre¸ste, dacǎ n cre¸ste.<br />
Exemplul 12.2. Înǎlt¸imea copiilor la o grǎ<strong>din</strong>it¸ǎ are o distribut¸ie normalǎ având o medie<br />
µ = 100 cm cu o <strong>de</strong>viat¸ie standard <strong>de</strong> 12, 5 cm. Pentru un e¸santion aleator <strong>de</strong> 25 <strong>de</strong> copii<br />
se <strong>de</strong>terminǎ media x. Care este probabilitatea ca aceastǎ medie sǎ fie între 90 cm ¸si 110<br />
cm?<br />
Solut¸ie:<br />
� �<br />
10<br />
P (90 < x < 110) = 2 · Φ − 1 = 2 · Φ(4) − 1 = 2 · F (4) = 2 · 0.499968<br />
σx<br />
35<br />
σx<br />
σx<br />
σx
13 Estimarea punctualǎ a unui parametru; intervalul<br />
<strong>de</strong> încre<strong>de</strong>re<br />
Consi<strong>de</strong>rǎm o populat¸ie a cǎrei medie µ nu o cunoa¸stem ¸si ne punem problema s-o gǎsim.<br />
Pentru acest scop consi<strong>de</strong>rǎm un e¸santion aleator <strong>de</strong> dimensiune n pentru care <strong>de</strong>terminǎm<br />
media x. Media x a e¸santionului este o estimare punctualǎ a mediei µ a populat¸iei.<br />
Definit¸ia 13.1. O estimare punctualǎ a parametrului γ a unei populat¸ii este o<br />
valoare g a unei statistici corespunzǎtoare.<br />
Remarca 13.1. Dacǎ x este media e¸santioanului cu care estimǎm media necunoscutǎ µ<br />
a populat¸iei, aceasta nu înseamnǎ cǎ x = µ. În general, x �= µ ¸si la ceea ce ne putem<br />
a¸stepta este ca x sǎ fie aproape <strong>de</strong> µ. Aceastǎ apropiere poate fi fixatǎ prin specificarea<br />
unui interval (centrat în µ) numit interval <strong>de</strong> estimare.<br />
Definit¸ia 13.2. Un interval mǎrginit (a, b) folosit pentru a estima valoarea unui anumit<br />
parametru γ a populat¸iei se nume¸ste interval <strong>de</strong> estimare. Valorile a, b (capetele<br />
intervalului) sunt calculate <strong>din</strong> e¸santion care este folosit pentru estimare.<br />
Cum anume se poate specifica un interval centrat în µ care este necunoscut folosind doar<br />
date furnizate <strong>de</strong> un e¸santion va fi lǎmurit în continuare.<br />
Exemplul 13.1. Consi<strong>de</strong>rǎm o populat¸ie având o <strong>de</strong>viat¸ie standard σ cunoscutǎ, o medie<br />
µ necunoscutǎ ¸si un e¸santion aleator simplu <strong>de</strong> mǎrime n ¸si medie x cunoscute. Condit¸ia<br />
x ∈ (µ − 1, µ + 1) înseamnǎ cǎ scorul standard z (pentru mediile e¸santioanelor) dat <strong>de</strong>:<br />
sǎ verifice:<br />
z =<br />
x − µx<br />
σx<br />
= x − µ<br />
σ<br />
√ n<br />
z ∈ (− 1 √n σ , 1 √<br />
n<br />
√n σ ) = (−<br />
σ ,<br />
√<br />
n<br />
σ )<br />
Astfel<br />
√<br />
în termenii<br />
√<br />
scorului standard intervalul <strong>de</strong> estimare este intervalul (a, b) cu a =<br />
n n<br />
− ¸si b =<br />
σ σ .<br />
Mai general condit¸ia x ∈ (µ − δ, µ + δ), înseamnǎ cǎ scorul standard z (pentru mediile<br />
e¸santioanelor) dat <strong>de</strong>:<br />
x − µx<br />
z = = x − µ<br />
sǎ verifice:<br />
Intervalul <strong>de</strong> estimare este (− δ · √ n<br />
σ<br />
σx<br />
z ∈ (− δ · √ n<br />
σ<br />
, δ · √ n<br />
).<br />
σ<br />
σ<br />
√ n<br />
, δ · √ n<br />
)<br />
σ<br />
Definit¸ia 13.3. Nivelul <strong>de</strong> neîncre<strong>de</strong>re α este probabilitatea ca statistica e¸santionului<br />
sǎ aibe valoarea în afara intervalului <strong>de</strong> estimare.<br />
36
Conform teoremei <strong>de</strong> limitǎ centralǎ, repartit¸ia lui x este normalǎ sau aproape normalǎ<br />
¸si avem:<br />
� √ √ �<br />
n n<br />
P (µ − 1 < x < µ + 1) = P − < z < =<br />
σ σ<br />
� √ � �√ �<br />
n<br />
n<br />
2 · P 0 < z < = 2 · F<br />
σ<br />
σ<br />
un<strong>de</strong> F (z) = 1<br />
�z<br />
√<br />
2 · π<br />
e −<br />
1<br />
2 t2<br />
dt.<br />
0<br />
�√ �<br />
n<br />
Deci nivelul <strong>de</strong> neîncre<strong>de</strong>re α este 1 − 2 · F .<br />
σ<br />
Definit¸ia 13.4. Nivelul <strong>de</strong> încre<strong>de</strong>re (coeficient <strong>de</strong> încre<strong>de</strong>re) 1−α este probabilitatea<br />
ca statistica e¸santionului sǎ se afle în intervalul <strong>de</strong> estimare ales.<br />
Definit¸ia 13.5. Intervalul <strong>de</strong> încre<strong>de</strong>re este un interval <strong>de</strong> estimare cu un nivel <strong>de</strong><br />
încre<strong>de</strong>re 1 − α specificat.<br />
� √<br />
n<br />
Exemplul 13.2. În cazul exemplului 13.1, intervalul <strong>de</strong> estimare −<br />
σ ,<br />
√ �<br />
n<br />
este un<br />
�√ �<br />
σ<br />
n<br />
interval <strong>de</strong> încre<strong>de</strong>re cu coeficientul <strong>de</strong> încre<strong>de</strong>re 1 − α = 2 · F .<br />
σ<br />
Definit¸ia 13.6. Eroarea maximǎ <strong>de</strong> estimare este jumǎtatea lungimii intervalului <strong>de</strong><br />
încre<strong>de</strong>re cu nivelul <strong>de</strong> încre<strong>de</strong>re 1 − α.<br />
În termen <strong>de</strong> scor standard aceastǎ eroare se exprimǎ cu formula:<br />
�<br />
α<br />
�<br />
E = z ·<br />
2<br />
σ √<br />
n<br />
�<br />
α<br />
�<br />
1 − α<br />
un<strong>de</strong> z este solut¸ia ecuat¸iei F (z) = , iar intervalul <strong>de</strong> încre<strong>de</strong>re 1 − α pentru µ<br />
2<br />
2<br />
este: � �<br />
α<br />
�<br />
x − z ·<br />
2<br />
σ �<br />
α<br />
�<br />
√ , x + z ·<br />
n 2<br />
σ �<br />
√<br />
n<br />
�<br />
α<br />
�<br />
x−z ·<br />
2<br />
σ �<br />
α<br />
�<br />
√ este limita inferioarǎ <strong>de</strong> încre<strong>de</strong>re, iar x+z ·<br />
n 2<br />
σ √ este limita superioarǎ<br />
n<br />
<strong>de</strong> încre<strong>de</strong>re.<br />
37
14 Generalitǎt¸i privind ipotezele statistice ¸si problema<br />
verificǎrii ipotezelor statistice<br />
Pentru a ilustra analiza care prece<strong>de</strong> luarea unei <strong>de</strong>cizii în privint¸a credibilitǎt¸ii unei<br />
asert¸iuni (numitǎ verificarea ipotezelor statistice) sǎ consi<strong>de</strong>rǎm urmǎtorul exemplu:<br />
Candidatul la admitere Popescu Nicolae trebuie sǎ completeze un formular test cu zece<br />
întrebǎri. Fiecare întrebare are cinci rǎspunsuri <strong>din</strong>tre care doar unul este corect. Popescu<br />
Nicolae a completat formularul ¸si <strong>din</strong> cele zece întrebǎri el a rǎspuns corect la ¸sapte. El<br />
sust¸ine cǎ a completat formularul fǎrǎ sǎ citeascǎ întrebǎrile ¸si rǎspunsurile la ele ¸si a<br />
marcat rǎspunsurile aleator.<br />
Întrebarea este în ce mǎsurǎ putem da crezare spuselor cǎ el a marcat rǎspunsurile aleator?<br />
O asemenea întrebare ne <strong>de</strong>terminǎ sǎ analizǎm ¸si sǎ hotǎrâm: este sau nu este rezonabil<br />
ca Popescu Nicolae sǎ obt¸inǎ ¸sapte rǎspunsuri corecte alegând aleator rǎspunsurile la<br />
întrebǎri? Descriem în cele ce urmeazǎ o analizǎ, care se nume¸ste verificarea ipotezelor<br />
statistice ¸si care conduce la formularea unei concluzii.<br />
Verificarea ipotezelor statistice, în general, este un proce<strong>de</strong>u care are 5 etape. Fiecare <strong>din</strong><br />
aceste etape va fi prezentatǎ ¸si ilustratǎ în cazul exemplului consi<strong>de</strong>rat.<br />
Etapa 1. Formularea ipotezei nule H0<br />
Prin ipotezǎ înt¸elegem o afirmat¸ie care sust¸ine cǎ ceva este a<strong>de</strong>vǎrat. În<br />
general, ipoteza nulǎ este o afirmat¸ie relativǎ la un parametru al unei<br />
populat¸ii ¸si afirmǎ cǎ parametrul are o valoare datǎ. A<strong>de</strong>sea expresia<br />
”nu diferǎ” este folositǎ în formularea ei, <strong>de</strong> aici vine numele <strong>de</strong> ipotezǎ<br />
nulǎ. (diferent¸a este nulǎ)<br />
Etapa 2. Formularea ipotezei alternative Ha<br />
Ipoteza alternativǎ Ha este o afirmat¸ie relativǎ la acela¸si parametru al<br />
populat¸iei care apare în ipoteza nulǎ H0. În ipoteza Ha se afirmǎ cǎ<br />
parametrul are o valoare diferitǎ <strong>de</strong> cea sust¸inutǎ în H0.<br />
Ipoteza H0 ¸si ipoteza Ha se formuleazǎ dupǎ o analizǎ a asert¸iunii care trebuie investigatǎ.<br />
În cazul exemplului consi<strong>de</strong>rat, asert¸iunea care trebuie analizatǎ este: Popescu a completat<br />
formularul aleator.<br />
Populat¸ia este o mult¸ime <strong>de</strong> 510 elemente (distincte). Un element este un sistem ordonat<br />
<strong>de</strong> 10 rǎspunsuri (R ′ i1 , R′ i2 , . . . , R′ i10 ), i1, i1, . . . , i10 ∈ {1, 2, 3, 4, 5}; R ′ i1 este unul <strong>din</strong> cele<br />
cinci rǎspunsuri posibile la prima întrebare, . . . , R ′ i10 este unul <strong>din</strong> cele cinci rǎspunsuri<br />
posibile la cea <strong>de</strong>-a zecea întrebare.<br />
Pentru o persoanǎ care marcheazǎ rǎspunsurile aleator (fǎrǎ sǎ le citeascǎ), toate<br />
rǎspunsurile sunt egal posibile. Altfel spus fiecare <strong>din</strong> cele cinci rǎspunsuri la o întrebare<br />
are aceea¸si ¸sansǎ ca sǎ fie corect. Din afirmat¸ia lui Popescu Nicolae rezultǎ cǎ el a marcat<br />
rǎspunsurile aleator, <strong>de</strong>ci a admis cǎ probabilitatea (parametrul p) este 1<br />
pentru fiecare<br />
510 element al populat¸iei.<br />
Analiza afirmat¸iei lui Popescu Nicolae conduce la urmǎtoarea formulare a ipotezei nule:<br />
H0 : p(X) = 1<br />
= p pentru orice Popescu Nicolae a completat<br />
510 element X al populat¸iei ⇔ formularul aleator.<br />
38
Ipoteza alternativǎ este:<br />
Ha : existǎ douǎ elemente X1, X2 în populat¸ie Popescu Nicolae nu a completat<br />
pentru care p(X1) �= p(X2) ⇔ formularul aleator<br />
De la acest punct începând se admite cǎ ipoteza nulǎ este a<strong>de</strong>vǎratǎ. Situat¸ia poate fi<br />
comparatǎ cu un proces la ju<strong>de</strong>cǎtorie, în care acuzatul este presupus nevinovat pânǎ<br />
când se dove<strong>de</strong>¸ste contrariul.<br />
Doar în etapa a 5-a a verificǎrii ipotezelor, vom lua una <strong>din</strong> cele douǎ <strong>de</strong>cizii posibile:<br />
vom <strong>de</strong>ci<strong>de</strong> în concordant¸ǎ cu ipoteza nulǎ H0 ¸si spunem cǎ acceptǎm H0 sau <strong>de</strong>ci<strong>de</strong>m în<br />
concordant¸ǎ cu Ha ¸si spunem cǎ respingem ipoteza H0.<br />
În funct¸ie <strong>de</strong> valoarea <strong>de</strong> a<strong>de</strong>vǎr a ipotezei H0 ¸si <strong>de</strong> respingerea sau nerespingerea ei<br />
<strong>de</strong>ciziile care se iau sunt prezentate în tabelul urmǎtor:<br />
Decizia Ipoteza H0 este<br />
A<strong>de</strong>vǎratǎ Falsǎ<br />
Nu respingem H0 <strong>de</strong>cizie eroare<br />
(acceptǎm) corectǎ<br />
Tip A Tip II<br />
Respingem H0 eroare <strong>de</strong>cizie<br />
corectǎ<br />
Tip I Tip B<br />
O <strong>de</strong>cizie corectǎ <strong>de</strong> tip A: apare când H0 este a<strong>de</strong>vǎratǎ ¸si nu respingem H0<br />
O <strong>de</strong>cizie corectǎ <strong>de</strong> tip B: apare când H0 este falsǎ ¸si respingem H0<br />
O eroare <strong>de</strong> tip I: apare când H0 este a<strong>de</strong>vǎratǎ ¸si H0 este respinsǎ<br />
O eroare tip II: apare când H0 este falsǎ ¸si H0 nu este respinsǎ<br />
Ar fi foarte frumos ca <strong>de</strong> fiecare datǎ când luǎm <strong>de</strong>cizii sǎ luǎm <strong>de</strong>cizii corecte, dar aceasta<br />
este statistic imposibil pentru cǎ ne bazǎm pe informat¸ii furnizate <strong>de</strong> e¸santioane. Cel mai<br />
bun lucru la ce putem spera este sǎ controlǎm riscul sau probabilitatea <strong>de</strong> a comite o<br />
eroare.<br />
Probabilitatea asignatǎ limitǎrii comiterii unei erori <strong>de</strong> tip I se noteazǎ cu α ¸si cea asignatǎ<br />
comiterii unei erori <strong>de</strong> tip II cu β:<br />
Eroarea Tipul <strong>de</strong> eroare Probabilitate<br />
Respingerea unei ipoteze a<strong>de</strong>vǎrate I α<br />
Acceptarea unei ipoteze false II β<br />
Etapa 3 Metodologia <strong>de</strong> verificare a ipotezelor: aceasta constǎ <strong>din</strong> (1)<br />
i<strong>de</strong>ntificarea unui test statistic; (2) specificarea valorii lui α; (3) <strong>de</strong>terminarea<br />
regiunii critice.<br />
(1) Un test statistic este o variabilǎ aleatoare folositǎ pentru a respinge<br />
sau nu ipoteza H0. Testul statistic este o statisticǎ <strong>de</strong> e¸santioane sau<br />
alte valori rezultate <strong>din</strong>tr-un e¸santion. Probabilitǎt¸ile care apar în acest<br />
test statistic sunt <strong>de</strong>terminate presupunând cǎ H0 este a<strong>de</strong>vǎratǎ.<br />
39
În cazul exemplului consi<strong>de</strong>rat, variabila aleatoare ”X= numǎrul <strong>de</strong> rǎspunsuri corecte”<br />
este folosit ca test statistic. Probabilitǎt¸ile pentru fiecare valoare x ale variabilei X în<br />
ipoteza cǎ H0 este a<strong>de</strong>vǎratǎ sunt date în tabelul urmǎtor:<br />
X 0 1 2 3 4 5<br />
P(X) 0.1074 0.2684 0.302 0.20133 0.0881 0.0264<br />
X 6 7 8 9 10<br />
P(X) 0.0055 7.92·10 −4 7.38·10 −5 4.098·10 −6 1.02·10 −7<br />
Aceastǎ repartit¸ie aratǎ cǎ probabilitatea sǎ ghice¸sti rǎspunsul corect la 5 sau mai multe<br />
întrebǎri este 0.0327, iar la 4 sau mai put¸in <strong>de</strong>cât 4 întrebǎri este 0.9673. Putem spune<br />
cǎ aparit¸ia valorilor 5, 6, 7, 8, 9, 10 nu sust¸ine ipoteza H0. Dacǎ cineva spune cǎ a ghicit<br />
rǎspunsul corect la 0, 1, 2, 3, 4 întrebǎri, spunem cǎ este foarte probabil. Dacǎ cineva spune<br />
cǎ a ghicit rǎspunsul corect la 5, 6, 7, 8, 9, 10 întrebǎri spunem cǎ este put¸in probabil.<br />
Nivelul <strong>de</strong> semnificat¸ie este probabilitatea α <strong>de</strong> a face o eroare <strong>de</strong> tip I, adicǎ <strong>de</strong> a<br />
respinge H0 a<strong>de</strong>vǎrat. În mod curent α se dǎ la început ¸si acesta <strong>de</strong>terminǎ regiunea<br />
criticǎ.<br />
În cazul exemplului, dacǎ α = 0.033, atunci <strong>din</strong> P (x ≥ 5) = 0.0327 rezultǎ<br />
regiunea criticǎ x = 5, 6, 7, 8, 9, 10.<br />
Regiunea criticǎ: este mult¸imea <strong>de</strong> valori (W ) pentru care P (X ∈ W ) ≤ α ¸si care ne<br />
<strong>de</strong>terminǎ sǎ respingem ipoteza H0. (nu sust¸in ipoteza H0)<br />
Valoarea criticǎ: este prima valoare <strong>din</strong> regiunea criticǎ.<br />
Dacǎ pentru un e¸santion valoarea testului statistic X <strong>de</strong>pǎ¸se¸ste valoarea criticǎ ipoteza<br />
H0 este respinsǎ.<br />
Dupǎ ce Etapa 3 a fost epuizatǎ, putem trece la Etapa 4.<br />
Etapa 4. Determinarea valorii testului statistic<br />
Dupǎ ce am par<strong>curs</strong> etapele 1,2,3 observǎm sau calculǎm valoarea x a<br />
testului statistic.<br />
În cazul exemplului x = 7 (numǎrul <strong>de</strong> rǎspunsuri corecte) este valoarea testului statistic<br />
¸si este dat. Uzual valoarea testului statistic se calculeazǎ pe baza informat¸iilor<br />
oferite <strong>de</strong> e¸santion.<br />
Etapa 5. Luarea unei <strong>de</strong>cizii ¸si interpretarea ei<br />
Decizia se ia comparând valoarea testului statistic <strong>de</strong>terminatǎ la Etapa<br />
4 cu regiunea criticǎ gǎsitǎ la Etapa 3.<br />
Regula <strong>de</strong> <strong>de</strong>cizie: Dacǎ valoarea testului statistic este în regiunea<br />
criticǎ respingem ipoteza H0, dacǎ nu, atunci acceptǎm ipoteza H0.<br />
Ansamblul <strong>de</strong> valori ale testului statistic care nu sunt în regiunea criticǎ<br />
formeazǎ regiunea <strong>de</strong> acceptabilitate. Testul este terminat prin luarea<br />
¸si justificarea <strong>de</strong>ciziei luate.<br />
În cazul exemplului: x = 7 este în regiunea criticǎ ¸si respingem ipoteza H0.<br />
Remarca 14.1. Cu aceasta nu am <strong>de</strong>monstrat cǎ Popescu Nicolae nu a ghicit cele 7<br />
rǎspunsuri. Am arǎtat doar cǎ dacǎ el le-a ghicit este foarte norocos pentru cǎ acesta<br />
este un eveniment rar ¸si are probabilitatea cel mult 0.033.<br />
40
15 Verificarea ipotezelor statistice:<br />
variantǎ clasicǎ<br />
În sect¸iunea prece<strong>de</strong>ntǎ am prezentat generalitǎt¸i privind verificarea ipotezelor statistice.<br />
În aceastǎ sect¸iune trecem la prezentarea verificǎrii ipotezelor statistice în cazul<br />
asert¸iunilor referitoare la media µ a unei populat¸ii. Pentru a simplifica aceastǎ prezentare<br />
la început presupunem cǎ <strong>de</strong>viat¸ia standard σ a populat¸iei este cunoscutǎ.<br />
Urmǎtoarele trei exemple se referǎ la diferite formulǎri ale ipotezei H0 ¸si a ipotezei Ha.<br />
Exemplul 15.1. Un ecologist sust¸ine cǎ ora¸sul Timi¸soara are o problemǎ privind poluarea<br />
aerului. Concret, el sust¸ine ca nivelul mediu al monoxidului <strong>de</strong> carbon în aer în centrul<br />
ora¸sului <strong>de</strong>pǎ¸se¸ste valoarea 4, 9/10 6 = valoarea medie normalǎ.<br />
Pentru a formula în acest caz, ipotezele H0 ¸si Ha, trebuie sǎ i<strong>de</strong>ntificǎm: populat¸ia,<br />
parametrul populat¸iei în cauzǎ ¸si valoarea cu care aceasta urmeazǎ sǎ fie comparatǎ.<br />
Populat¸ia în acest caz poate fi mult¸imea locurilor <strong>din</strong> centrul ora¸sului Timi¸soara. Variabila<br />
X este concentrat¸ia monoxidului <strong>de</strong> carbon ale cǎrei valori x variazǎ în funct¸ie <strong>de</strong> loc,<br />
iar parametrul populat¸iei este valoarea medie µ a acestei variabile. Valoarea specificǎ cu<br />
care aceastǎ medie trebuie comparatǎ este 4, 9/10 6 egalǎ cu valoarea (medie) normalǎ.<br />
Ecologistul face o asert¸iune privind valorea lui µ. Aceastǎ valoare poate fi: µ < 4, 9/10 6<br />
sau µ = 4, 9/10 6 sau µ > 4, 9/10 6 . Cele trei situat¸ii pot fi cuprinse în douǎ afirmat¸ii <strong>din</strong>tre<br />
care una exprimǎ ceea ce ecologistul sust¸ine, iar cealaltǎ exprimǎ contrariul.<br />
Inegalitatea µ > 4, 9/10 6 este afirmat¸ia: ”valoarea medie este mai mare ca 4, 9/10 6 ”.<br />
Inegalitatea µ ≤ 4, 9/10 6 este echivalentǎ cu ”µ < 4, 9/10 6 sau µ = 4, 9/10 6 ” ¸si este<br />
afirmat¸ia contrarǎ: ”valoarea medie nu este mai mare ca 4, 9/10 6 ”.<br />
Ecologistul sust¸ine cǎ µ > 4, 9/10 6 . Pentru a formula ipoteza H0 ¸si ipoteza Ha reamintim<br />
cǎ:<br />
1) În general, ipoteza H0 sust¸ine cǎ media µ (parametrul în chestiune) are o valoare<br />
specificǎ anume.<br />
2) Inferent¸a privind media µ a populat¸iei se bazeazǎ pe media unui e¸santion ¸si mediile<br />
e¸santioanelor au o distribut¸ie aproximativ normalǎ. (conform teoremei limitǎ<br />
centralǎ).<br />
3) O distribut¸ie normalǎ este complet <strong>de</strong>terminatǎ dacǎ valoarea medie ¸si <strong>de</strong>viat¸ia<br />
standard a distribut¸iei sunt cunoscute.<br />
Cele <strong>de</strong> mai sus sugereazǎ cǎ afirmat¸ia µ = 4, 9/10 6 ar trebui sǎ fie ipoteza nulǎ ¸si afirmat¸ia<br />
µ > 4, 9/10 6 ar trebui sǎ fie ipoteza alternativǎ:<br />
H0 : µ = 4, 9/10 6<br />
Ha : µ > 4, 9/10 6<br />
Reamintim cǎ dupǎ ce ipoteza nulǎ H0 este formulatǎ, în testul statistic i<strong>de</strong>ntificat se<br />
presupune cǎ H0 este a<strong>de</strong>vǎratǎ. Aceasta înseamnǎ cǎ µ = 4, 9/10 6 este egalǎ cu media<br />
41
distribut¸iei mediilor e¸santioanelor µx ¸si este o rat¸iune în plus pentru care ipoteza H0<br />
trebuie scrisǎ doar cu semnul egal<br />
H0 : µ = 4, 9/10 6 .<br />
Dacǎ admitem cǎ afirmat¸ia ”µ = 4, 9/10 6 sau µ < 4, 9/10 6 ” este ipoteza nulǎ H0, atunci:<br />
H0 : µ ≤ 4, 9/10 6<br />
Ha : µ > 4, 9/10 6 .<br />
Remarca 15.1. Semnul egal trebuie sǎ fie inclus tot<strong>de</strong>auna în ipoteza nulǎ. În acest<br />
exemplu asert¸iunea ecologistului este exprimatǎ <strong>de</strong> fapt în Ha ¸si aceasta este analizat.<br />
Exemplul 15.2. Vom consi<strong>de</strong>ra acum o a doua asert¸iune; <strong>de</strong> exemplu al Camerei <strong>de</strong><br />
Comert¸, care sust¸ine cǎ nivelul mediu al monoxidului <strong>de</strong> carbon în centrul ora¸sului<br />
Timi¸soara este mai mic <strong>de</strong>cât 4, 9/10 6 (valoare normalǎ). Aceasta este o reclamǎ bunǎ<br />
pentru turism.<br />
S¸i în acest caz parametrul este media µ a repartit¸iei monoxidului <strong>de</strong> carbon. Valoarea<br />
specificǎ este 4, 9/10 6 care este valoare normalǎ.<br />
”µ < 4, 9/10 6 ” ⇔ ”valoarea medie este mai micǎ <strong>de</strong>cât valoarea medie normalǎ”<br />
”µ ≥ 4, 9/10 6 ” ⇔ ”valoarea medie este mai mare sau egalǎ <strong>de</strong>cât valoarea<br />
medie normalǎ”<br />
H0, Ha pot fi formulate astfel:<br />
H0 : µ ≥ 4, 9/10 6<br />
Ha : µ < 4, 9/10 6<br />
S¸i <strong>de</strong> data aceasta asert¸iunea Camerei <strong>de</strong> Comert¸ este exprimatǎ în Ha ¸si aceasta trebuie<br />
analizatǎ.<br />
Exemplul 15.3. O a treia asert¸iune (mai neutrǎ) sust¸ine doar cǎ nivelul mediu µ al<br />
monoxidului <strong>de</strong> carbon în aerul <strong>din</strong> centrul ora¸sului Timi¸soara este diferit <strong>de</strong> 4, 9/10 6<br />
(valoarea normalǎ diferitǎ <strong>de</strong> µ).<br />
În acest caz:<br />
H0 : µ = 4.9/10 6 ¸si Ha : µ �= 4, 9/10 6<br />
Cele trei exemple aratǎ cǎ asert¸iunea care trebuie analizatǎ <strong>de</strong>terminǎ într-un anumit sens<br />
formularea ipotezelor H0, Ha. Mai exact: în aceste cazuri asert¸iunea sust¸ine cǎ valoarea<br />
parametrului µ este diferitǎ <strong>de</strong> cea normalǎ, iar ipoteza nulǎ sust¸ine cǎ este aceea¸si (nu<br />
diferǎ).<br />
În cazul acestor exemple, cei care î¸si formuleazǎ asert¸iunea se a¸steaptǎ la respingerea<br />
ipotezei nule H0 ¸si la acceptarea ipotezei alternative Ha care este o afirmat¸ie conformǎ cu<br />
asert¸iunea lor.<br />
Situat¸iile <strong>de</strong> la procesele juridice prezintǎ o oarecare asemǎnare cu cele relatate. Dacǎ<br />
procurorul nu cre<strong>de</strong> în vinovǎt¸ia inculpatului nu intenteazǎ proces (ipoteza H0 prezumt¸ia<br />
<strong>de</strong> nevinovǎt¸ie este presupusǎ a<strong>de</strong>vǎratǎ). Procesul se <strong>de</strong>clan¸seazǎ doar dacǎ procurorul<br />
are suficiente probe pentru a face proces.<br />
42
S¸i în statisticǎ dacǎ ”experimantatorul” cre<strong>de</strong> în ipoteza H0 nu face test pentru investigarea<br />
lui H0. El testeazǎ ipoteza nulǎ doar dacǎ dore¸ste sǎ arate cǎ Ha este corectǎ.<br />
Exemplul care urmeazǎ ilustreazǎ toate cele cinci etape <strong>de</strong> verificare a ipotezelor statistice<br />
în cazul unei asert¸iuni care se referǎ la media unei populat¸ii.<br />
Exemplul 15.4. Un profesor a înregistrat pe mai mult¸i ani rezultatul elevilor ¸si media<br />
µ a acestor rezultate este 72 ¸si abaterea standard este σ = 12. Clasa <strong>de</strong> 36 <strong>de</strong> elevi pe<br />
care-i învat¸ǎ la momentul actual are o medie x = 75, 2 (mai ridicatǎ <strong>de</strong>cât media µ = 72)<br />
¸si profesorul afirmǎ cǎ aceastǎ clasǎ este superioarǎ celor <strong>de</strong> pânǎ acum.<br />
Întrebarea este<br />
dacǎ media clasei x = 75, 2 este un argument suficient pentru a sust¸ine afirmat¸ia profesorului<br />
la nivelul <strong>de</strong> semnificat¸ie α = 0, 05.<br />
Ment¸ionǎm cǎ pentru ca aceastǎ clasǎ sǎ fie superioarǎ trebuie sǎ aibe o medie mai mare<br />
<strong>de</strong>cât toate clasele <strong>din</strong>ainte. Dacǎ media ei este egalǎ sau mai micǎ <strong>de</strong>cât media unei<br />
clase anterioare, atunci ea nu este superioarǎ.<br />
Dacǎ se consi<strong>de</strong>rǎ e¸santioane aleatoare <strong>de</strong> mǎrime n = 36 <strong>din</strong>tr-o populat¸ie cu media<br />
µ = 72, multe e¸santioane vor avea media x aproape <strong>de</strong> 72, <strong>de</strong> exemplu 71; 71, 8; 72; 72, 5; 73.<br />
Doar medii x care sunt consi<strong>de</strong>rabil mai mari <strong>de</strong>cât 72 vor sust¸ine afirmat¸ia profesorului.<br />
De aceea:<br />
Etapa 1. H0 : µx = µ = 72 ⇔ clasa nu este superioarǎ<br />
Etapa 2. Ha : µx = µ > 72 ⇔ clasa este superioarǎ<br />
Etapa 3. - Atunci când în ipoteza nulǎ H0 media populat¸iei ¸si <strong>de</strong>viat¸ia<br />
standard sunt cunoscute scorul standard z este folosit ca ¸si test<br />
statistic.<br />
- Nivelul <strong>de</strong> semnificat¸ie α = 0, 05 este dat;<br />
- Reamintim cǎ în baza teoremei limitǎ centralǎ distribut¸ia<br />
mediilor e¸santioanelor este aproape normalǎ. Prin urmare,<br />
distribut¸ia normalǎ va fi folositǎ pentru <strong>de</strong>terminarea regiunii<br />
critice. Regiunea criticǎ este egalǎ cu mult¸imea valorilor<br />
scorului standard z care <strong>de</strong>terminǎ respingerea ipotezei<br />
H0 ¸si este situatǎ la extremitatea dreaptǎ a distribut¸iei normale.<br />
Regiunea criticǎ este la dreapta <strong>de</strong>oarece valori mari<br />
ale mediei e¸santionului sust¸in ipoteza H0 în timp ce valori<br />
apropiate ori sub 72 sust¸in ipoteza nulǎ.<br />
Figura 1:<br />
43
Valoarea criticǎ ce <strong>de</strong>sparte zona valorilor ”nu este superior” <strong>de</strong> zona valorilor ”este superior”<br />
este <strong>de</strong>terminatǎ <strong>de</strong> probabilitatea α <strong>de</strong> a comite o eroare <strong>de</strong> tip I. α = 0, 05 a<br />
fost datǎ. Astfel regiunea criticǎ ha¸suratǎ pe Figura 2. are aria 0, 05 ¸si valoarea criticǎ<br />
�∞<br />
1<br />
1, 65 este solut¸ia ecuat¸iei: √ e<br />
2 · π<br />
−<br />
t2 2 dt = 0, 05.<br />
z<br />
Figura 2:<br />
Etapa 4. Valoarea testului statistic este dat <strong>de</strong>:<br />
z ∗ =<br />
x − µ<br />
σ<br />
√ n<br />
= 75, 2 − 72<br />
12/6<br />
= 1, 6<br />
Etapa 5. Comparǎm valoarea gǎsitǎ 1, 6 cu valoarea criticǎ 1, 65 ¸si gǎsim 1, 6 <<br />
1, 65. Decizia este cǎ nu putem respinge ipoteza H0. Testul se încheie<br />
cu formularea concluziei.<br />
Concluzie: Probele nu sunt suficiente pentru a sust¸ine cǎ actuala clasǎ<br />
este superioarǎ claselor anterioare.<br />
Pare aceastǎ concluzie realistǎ în condit¸iile în care în mod evi<strong>de</strong>nt, 75, 2 este mai mare<br />
ca 72. Nu trebuie sǎ uitǎm x = 75, 2 este media unui e¸santion <strong>de</strong> 36 <strong>de</strong> indivizi extras<br />
<strong>din</strong>tr-o populat¸ie cu media µ = 72 ¸si <strong>de</strong>viat¸ia standard σ = 12 ¸si analiza aratǎ cǎ probabilitatea<br />
ca media e¸santionului sǎ fie mai mare <strong>de</strong>cât mediile tuturor e¸santioanelor este<br />
mai mare <strong>de</strong>cât riscul α cu care noi acceptǎm o eroare <strong>de</strong> tip I.<br />
Exemplul 15.5. La un colegiu s-a stabilit cǎ greutatea medie a stu<strong>de</strong>ntelor este µ = 54, 4<br />
kg, iar abaterea standard σ = 5, 4 kg. Profesorul <strong>de</strong> sport nu cre<strong>de</strong> aceastǎ afirmat¸ie.<br />
Pentru a face un test select¸ioneazǎ un e¸santion aleator <strong>de</strong> 100 <strong>de</strong> stu<strong>de</strong>nte ¸si gǎse¸ste cǎ<br />
media x = 53, 75 kg. Este aceasta suficient pentru a respinge afirmat¸ia la nivelul <strong>de</strong><br />
semnificat¸ie α = 0, 05?<br />
Etapa 1. H0 : µ = 54, 4 kg<br />
Etapa 2. Ha : µ �= 54, 4 kg<br />
44
Etapa 3. - <strong>de</strong>oarece folosim o distribut¸ie <strong>de</strong> medii <strong>de</strong> e¸santioane testul statistic<br />
va fi scorul standard.<br />
- nivelul α = 0, 05 este dat;<br />
- media e¸santionului este o estimare a mediei populat¸iei. Ipoteza<br />
alternativǎ ”nu este egal” este sust¸inutǎ <strong>de</strong> medii <strong>de</strong> e¸santioane<br />
consi<strong>de</strong>rabil mai mari sau consi<strong>de</strong>rabil mai mici ca 54, 4. ipoteza nulǎ<br />
este sust¸inutǎ <strong>de</strong> medii <strong>de</strong> e¸santioane în jurul valorii 54, 4. Regiunea<br />
criticǎ este formatǎ <strong>din</strong> douǎ pǎrt¸i egale situate la cele douǎ extremitǎt¸i<br />
ale distribut¸iei normale. Aria corespunzǎtoare fiecǎrei port¸iuni este<br />
α<br />
¸si probabilitatea fiecǎrei pǎrt¸i a regiunii critice este 0, 025. Rezultǎ<br />
2<br />
z<br />
⎛<br />
�<br />
�<br />
⎜ α<br />
�<br />
�∞<br />
1<br />
= 1, 96 ⎝z este solut¸ia ecuat¸iei: √<br />
2<br />
2 · π<br />
� α<br />
2<br />
Figura 3:<br />
Etapa 4. Se <strong>de</strong>terminǎ valoarea testului statistic:<br />
z ∗ =<br />
x − µ<br />
σ<br />
√ n<br />
= −1, 204<br />
a cǎrei locat¸ie este datǎ pe figura urmǎtoare:<br />
45<br />
z<br />
e −<br />
t2 ⎞<br />
2 dt = α⎟<br />
⎠.<br />
2
Figura 4:<br />
Reamintim: Dacǎ valoarea testului statistic este în regiunea criticǎ respingem ipoteza<br />
H0 dacǎ nu, nu putem respinge ipoteza H0.<br />
Etapa 5. Valoarea testului statistic nu este în regiunea criticǎ.<br />
Decizia: Nu respingem ipoteza H0.<br />
Justificarea <strong>de</strong>ciziei: Valoarea testului nu este în <strong>de</strong>zacord cu H0 la<br />
nivel <strong>de</strong> risc α = 0, 05. Aceasta nu înseamnǎ cǎ H0 este a<strong>de</strong>vǎratǎ.<br />
Concluzie: Media x gǎsitǎ <strong>de</strong> profesor nu contravine ipotezei cǎ media µ este 54,4<br />
kg, când dispersia σ este 5, 4 kg.<br />
O <strong>de</strong>cizie <strong>de</strong> respingere a lui H0 înseamnǎ cǎ valoarea testului implicǎ cǎ H0 este falsǎ ¸si<br />
indicǎ Ha.<br />
Rezumat privind verificarea ipotezelor statistice asupra mediei în variantǎ<br />
clasicǎ:<br />
1. Ipoteza H0 specificǎ o valoare particularǎ a mediei populat¸iei.<br />
2. Ipoteza Ha are trei forme. Fiecare <strong>din</strong>tre acestea <strong>de</strong>terminǎ o locat¸ie specificǎ a<br />
regiunii critice a¸sa cum apare în tabelul <strong>de</strong> mai jos:<br />
Semne în ipoteza < �= ><br />
alternativǎ<br />
Regiunea criticǎ O regiune Douǎ regiuni O regiune<br />
la stânga <strong>de</strong> fiecare la dreapta<br />
parte câte una<br />
test unilateral test bilateral test unilateral<br />
stânga dreapta<br />
3. Pentru multe cazuri semnul <strong>din</strong> ipoteza Ha indicǎ direct¸ia în care regiunea criticǎ<br />
se gǎse¸ste<br />
Valoarea lui α se nume¸ste nivel <strong>de</strong> semnificat¸ie ¸si reprezintǎ riscul (probabilitatea)<br />
respingerii lui H0 atunci când aceasta estea a<strong>de</strong>vǎratǎ. Nu putem <strong>de</strong>termina<br />
46
dacǎ ipoteza H0 este a<strong>de</strong>vǎratǎ sau falsǎ. Putem doar <strong>de</strong>ci<strong>de</strong> cǎ o respingem<br />
sau cǎ o acceptǎm.<br />
Probabilitatea cu care respingem ipoteza a<strong>de</strong>vǎratǎ este α, dar nu ¸stim probabilitatea cu<br />
care facem o <strong>de</strong>cizie eronatǎ. O eroare <strong>de</strong> tip I ¸si o eroare în <strong>de</strong>cizie sunt lucruri diferite.<br />
47
16 Verificarea ipotezelor statistice:<br />
varianta probabilistǎ<br />
În sect¸iunea prece<strong>de</strong>ntǎ am <strong>de</strong>scris varianta clasicǎ <strong>de</strong> verificare a ipotezelor statistice<br />
în cazul asert¸iunilor referitoare la media µ a unei populat¸ii. O variantǎ probabilistǎ<br />
constǎ în <strong>de</strong>terminarea unei probabilitǎt¸i numitǎ p-valoarea (prob-valoare) referitoare<br />
la o statisticǎ observatǎ, care este comparatǎ cu nivelul <strong>de</strong> semnificat¸ie α dat.<br />
Definit¸ia 16.1. P-valoarea unui test statistic este cea mai micǎ valoare a nivelului<br />
<strong>de</strong> semnificat¸ie α pentru care informat¸ia extrasǎ <strong>din</strong> e¸santion este semnificativǎ (H0<br />
a<strong>de</strong>vǎratǎ se respinge).<br />
Consi<strong>de</strong>rǎm <strong>din</strong> nou exemplul 15.4 <strong>din</strong> sect¸iunea prece<strong>de</strong>ntǎ ¸si-l analizǎm <strong>din</strong> acest punct<br />
<strong>de</strong> ve<strong>de</strong>re.<br />
Exemplul 16.1. Un profesor a înregistrat pe mai mult¸i ani rezultatul elevilor ¸si media<br />
µ a acestor rezultate este 72 ¸si dispersia σ = 12. Clasa <strong>de</strong> 36 <strong>de</strong> elevi pe care-i învat¸ǎ<br />
la momentul actual are o medie x = 75, 2 . Aceastǎ medie fiind mai ridicatǎ <strong>de</strong>cât 72<br />
profesorul vrea sǎ arate cǎ aceastǎ clasǎ este superioarǎ celor <strong>de</strong> pânǎ acum. Întrebarea<br />
este dacǎ media clasei x = 75, 2 este un argument suficient pentru a sust¸ine afirmat¸ia<br />
profesorului la nivelul <strong>de</strong> semnificat¸ie α = 0, 05?<br />
Precizǎm cǎ pentru a putea sust¸ine cǎ actuala clasǎ este mai bunǎ <strong>de</strong>cât toate celelalte<br />
clase anterioare trebuie ca media clasei actuale sǎ fie mai mare <strong>de</strong>cât media oricǎrei clase<br />
<strong>din</strong>ainte. Dacǎ media clasei actuale este mai micǎ sau egalǎ cu media unei clase anterioare,<br />
atunci clasa actualǎ nu este mai bunǎ <strong>de</strong>cât toate celelalte.<br />
Etapa 1. Formularea ipotezei H0: H0 : µx = µ = 72.<br />
Aceastǎ ipotezǎ corespun<strong>de</strong> asert¸iunii cǎ actuala clasǎ nu este superioarǎ<br />
celorlalte clase.<br />
Etapa 2. Formularea ipotezei alternative Ha: Ha : µx = µ > 72.<br />
Aceastǎ ipotezǎ corespun<strong>de</strong> asert¸iunii cǎ actuala clasǎ este superioarǎ<br />
celorlalte clase.<br />
Remarcǎm faptul cǎ etapele 1 ¸si 2 sunt acelea¸si în variantǎ probabilistǎ ca ¸si în variantǎ<br />
clasicǎ <strong>de</strong> verificare a ipotezelor statistice.<br />
Etapa 3. Specificarea nivelului <strong>de</strong> semnificat¸ie α, a probabilitǎt¸ii erorii <strong>de</strong> tip I:<br />
α = 0, 005.<br />
Etapa 4. Folosind formula scorului standard (z-scorului) ¸si media x = 75, 2 a<br />
e¸santionului <strong>de</strong> mǎrime n = 36 se <strong>de</strong>terminǎ valoarea testului statistic:<br />
z ∗ =<br />
x − µ<br />
σ<br />
√ n<br />
= 1, 60<br />
Remarcǎm aici cǎ Etapa 4 în varianta probabilistǎ este aceea¸si ca ¸si<br />
varianta clasicǎ <strong>de</strong> verificare a ipotezelor statistice.<br />
48
Etapa 5. Se reprezintǎ distribut¸ia normalǎ a mediilor (testul statistic) în acest<br />
caz ¸si se localizeazǎ valoarea z ∗ <strong>de</strong>terminatǎ în Etapa 4 (care împarte<br />
distribut¸ia în douǎ pǎrt¸i) ¸si se <strong>de</strong>terminǎ care parte a distribut¸iei<br />
reprezintǎ p−valoarea.<br />
Dupǎ care se <strong>de</strong>terminǎ p−valoarea. Ipoteza alternativǎ Ha aratǎ cǎ în<br />
cazul nostru:<br />
p = P (z > z ∗ ) = P (z > 1, 6) = 0, 0548<br />
Etapa 6. p-valoarea în cazul nostru este 0, 0548. Prin urmare pentru<br />
orice nivel <strong>de</strong> semnificat¸ie α ≤ 0, 0548 nu putem respinge<br />
ipoteza nulǎ ¸si concluzia este cǎ nu avem probe suficiente pentru<br />
a <strong>de</strong>monstra superioritatea clasei actuale. Dacǎ însǎ nivelul <strong>de</strong><br />
semnificat¸ie α fixat la început este mai mare ca 0, 0548 (<strong>de</strong> ex. α = 0, 1)<br />
atunci <strong>de</strong>cizia noastrǎ va fi <strong>de</strong> respingere a ipotezei H0 ¸si concluzia <strong>de</strong><br />
superioritate a clasei actuale.<br />
Figura 5:<br />
Înainte sǎ trecem la un al doilea exemplu recapitulǎm câteva <strong>de</strong>talii privind verificarea<br />
ipotezelor statistice în varianta probabilistǎ:<br />
1. Ipotezele H0 ¸si Ha se formuleazǎ în aceea¸si manierǎ ca ¸si în varianta clasicǎ.<br />
2. Se specificǎ nivelul <strong>de</strong> semnificat¸ie α care va fi folosit.<br />
3. Valoarea testului statistic se calculeazǎ în Etapa 4 <strong>de</strong> aceea¸si manierǎ ca în varianta<br />
clasicǎ.<br />
4. P-valoarea este aria aflatǎ între curba <strong>de</strong> <strong>de</strong>nsitate <strong>de</strong> probabilitate axa Oz ¸si z = z ∗ .<br />
Existǎ trei cazuri posibile: douǎ unilaterale ¸si unul bilateral. Direct¸ia (sau semnul)<br />
în ipoteza Ha este indiciul:<br />
Cazul 1. Dacǎ Ha este unilateralǎ la dreapta (” > ”) atunci p = P (z > z ∗ ) ¸si aria este<br />
în dreapta lui z ∗ .<br />
Cazul 2. Dacǎ Ha este unilateralǎ stânga (” < ”), atunci p = P (z < z ∗ ) este aria <strong>din</strong><br />
stânga lui z ∗ .<br />
Cazul 3. Dacǎ Ha este bilateralǎ (” �= ”), atunci p = P (z < −|z ∗ |) + P (z > |z ∗ |) =<br />
2 · P (z > |z ∗ |)<br />
49
5. Decizia se ia comparând P -valoarea cu nivelul <strong>de</strong> semnificat¸ie α:<br />
a) Dacǎ P ≤ α atunci H0 se respinge;<br />
b) Dacǎ P > α atunci H0 se acceptǎ.<br />
6. Concluzia se formuleazǎ <strong>de</strong> aceea¸si manierǎ ca ¸si în varianta clasicǎ.<br />
Consi<strong>de</strong>rǎm acum un exemplu în care Ha este bilateral.<br />
Exemplul 16.2. Companii mari folosesc agent¸ii specializate pentru a testa candidat¸ii<br />
care doresc sǎ fie angajat¸i. Agent¸ia A folose¸ste un test <strong>de</strong> select¸ie pentru care în <strong>de</strong><strong>curs</strong>ul<br />
timpului s-a stabilit o medie <strong>de</strong> 82 ¸si o <strong>de</strong>viat¸ie standard <strong>de</strong> 8. Agent¸ia B a <strong>de</strong>zvoltat<br />
o nouǎ metodǎ <strong>de</strong> testare care este mai rapidǎ, mai u¸sor <strong>de</strong> aplicat ¸si costǎ mai put¸in.<br />
Agent¸ia B sust¸ine cǎ testul lor dǎ acelea¸si rezultate ca ¸si testul agent¸iei A.<br />
Mai multe companii, pentru a reduce costul, se gân<strong>de</strong>sc sǎ treacǎ <strong>de</strong> la agent¸ia A la<br />
agent¸ia B, dar ei nu doresc sǎ facǎ aceastǎ trecere dacǎ media cu teste B diferǎ <strong>de</strong> cea<br />
cu teste A. O agent¸ie in<strong>de</strong>pen<strong>de</strong>ntǎ C a testat cu noul test 36 <strong>de</strong> indivizi ¸si a obt¸inut o<br />
medie <strong>de</strong> 80.<br />
Care este p−valoarea asociatǎ acestui test?<br />
Rezultatul testului agent¸iei B este acela¸si dacǎ µ = 82 ¸si este diferit dacǎ µ �= 82. Prin<br />
urmare:<br />
Etapa 1. H0 : µ = 82 (testele au aceea¸si medie)<br />
Etapa 2. Ha : µ �= 82 (testele au medii diferite)<br />
Etapa 3. Este omisǎ dacǎ se cere p-valoarea fǎrǎ luarea unei <strong>de</strong>cizii.<br />
Etapa 4. Informat¸ia <strong>din</strong> e¸santion: n = 36 ¸si x = 80:<br />
z ∗ =<br />
x − µ<br />
σ<br />
√ n<br />
= −2<br />
8<br />
6<br />
= − 12<br />
8<br />
= −3<br />
2<br />
= −1.5<br />
Etapa 5. Se localizeazǎ z ∗ pe o distribut¸ie normalǎ ¸si <strong>de</strong>oarece Ha este bilateral<br />
vom consi<strong>de</strong>ra P (z < −|z ∗ |) ¸si P (z > |z ∗ |) ¸si obt¸inem:<br />
p = P (z < −1, 50) + P (z > 1, 50)<br />
= 0, 5 − 0, 4332 + 0, 5 − 0, 4332 = 0, 1336<br />
<strong>de</strong>ci p− valoarea este 0, 1336.<br />
50
Figura 6:<br />
Fiecare companie va lua propria <strong>de</strong>cizie: a) continuǎ cu A sau b) schimbǎ ¸si trece la<br />
B. Fiecare va trebui sǎ stabileascǎ propriul nivel <strong>de</strong> semnificat¸ie ¸si sǎ ia o <strong>de</strong>cizie în<br />
consecint¸ǎ.<br />
51
17 Inferent¸ǎ statisticǎ privind media populat¸iei dacǎ<br />
nu se cunoa¸ste abaterea standard a populat¸iei<br />
Pânǎ acum am prezentat douǎ tipuri <strong>de</strong> inferent¸ǎ statisticǎ privind media populat¸iei:<br />
evaluarea intervalului <strong>de</strong> încre<strong>de</strong>re ¸si verificarea ipotezelor statistice. În cele douǎ<br />
tipuri <strong>de</strong> inferent¸e statistice abaterea standard σ este consi<strong>de</strong>ratǎ cunoscutǎ. În general<br />
însǎ abaterea standard σ nu este cunoscutǎ. Subiectul acestei sect¸iuni este inferent¸a<br />
statisticǎ privind media µ dacǎ abaterea standard σ nu este cunoscutǎ.<br />
Dacǎ dimensiunea e¸santionului este suficient <strong>de</strong> mare (în general vorbind, e¸santioane<br />
a cǎror mǎrimi este mai mare <strong>de</strong>cât n = 30 <strong>de</strong> date sunt consi<strong>de</strong>rate suficient <strong>de</strong> mari),<br />
<strong>de</strong>viat¸ia standard s a e¸santionului este o estimare bunǎ a <strong>de</strong>viat¸iei standard a populat¸iei ¸si<br />
putem susbstitui σ cu s în procedura discutatǎ <strong>de</strong>ja. Dacǎ populat¸ia pe care o investigǎm<br />
este aproape normalǎ ¸si n ≤ 30, atunci proce<strong>de</strong>ul se bazeazǎ pe distribut¸ia Stu<strong>de</strong>nt t.<br />
Distribut¸ia Stu<strong>de</strong>nt t (sau simplu t distribut¸ia) este distribut¸ia statisticii t, <strong>de</strong>finitǎ prin:<br />
t =<br />
x − µ<br />
s<br />
√ n<br />
În anul 1908 W.S. Gosset un funct¸ionar la o fabricǎ <strong>de</strong> bere în Irlanda a publicat o<br />
lucrare relativǎ la aceastǎ distribut¸ie sub pseudonimul ”Stu<strong>de</strong>nt”. În lucrarea lui Gosset<br />
se presupune cǎ populat¸ia este normalǎ. Aceastǎ restrict¸ie s-a dovedit ulterior restrictivǎ,<br />
întrucât se obt¸in rezultate satisfǎcǎtoare ¸si pentru multe populat¸ii care nu sunt normale.<br />
Ecuat¸ia care <strong>de</strong>fine¸ste distribut¸ia t nu o dǎm aici, doar dǎm câteva proprietǎt¸i ale lui t:<br />
1) distribut¸ia t are media 0;<br />
2) distribut¸ia t este simetricǎ fat¸ǎ <strong>de</strong> medie;<br />
3) distribut¸ia t are variant¸a supraunitarǎ, dar dacǎ dimensiunea e¸santionului cre¸ste,<br />
variant¸a tin<strong>de</strong> la 1;<br />
4) distribut¸ia t în jurul mediei este sub ¸si <strong>de</strong>parte <strong>de</strong> medie este <strong>de</strong>asupra distribut¸iei<br />
normale;<br />
5) fiecǎrei mǎrimi <strong>de</strong> e¸santion îi corespun<strong>de</strong> o distribut¸ie t separatǎ care <strong>de</strong>pin<strong>de</strong> <strong>de</strong><br />
mǎrimea e¸santionului. Dacǎ mǎrimea e¸santionului cre¸ste atunci t- distribut¸ia tin<strong>de</strong><br />
la distribut¸ia normalǎ.<br />
52
Figura 7:<br />
Cu toate cǎ pentru fiecare mǎrime <strong>de</strong> e¸santion (n=2,3,4,...) avem o distribut¸ie t separatǎ<br />
completǎ, în practicǎ doar anumite valori critice ale lui t sunt folosite. Aceste valori critice<br />
aflate în dreapta mediei sunt redate în tabelul urmǎtor:<br />
α 0,40 0,30 0.25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005<br />
df<br />
1 0,325 0,727 1,000 1,376 3,078 6,314 12,71 31,82 63,66 318,3 636,6<br />
2 0,289 0,617 0,816 1,061 1,886 2,920 4,303 6,965 9,925 22,33 31,60<br />
3 0,277 0,584 0,765 0,978 1,638 2,353 3,182 4,541 5,841 10,22 12,94<br />
4 0,271 0,569 0,741 0,941 1,533 2,132 2,776 3,747 4,604 7,173 8,610<br />
5 0,267 0,559 0,727 0,920 1,476 2,015 2,571 3,365 4,032 5,893 6,859<br />
6 0,265 0,553 0,718 0,906 1,440 1,943 2,447 3,143 3,707 5,208 5,959<br />
7 0,263 0,549 0,711 0,896 1,415 1,895 2,365 2,998 3,499 4,785 5,405<br />
8 0,262 0,546 0,706 0,889 1,397 1,860 2,306 2,896 3,355 4,501 5,041<br />
9 0,261 0,543 0,703 0,883 1,383 1,833 2,262 2,821 3,250 4,297 4,781<br />
10 0,260 0,542 0,700 0,879 1,372 1,812 2,228 2,764 3,169 4,144 4,587<br />
11 0,260 0,540 0,697 0,876 1,363 1,796 2,201 2,718 3,106 4,025 4,437<br />
12 0,259 0,539 0,695 0,873 1,356 1,782 2,179 2,681 3,055 3,930 4,318<br />
13 0,259 0,538 0,694 0,870 1,350 1,771 2,160 2,650 3,012 3,852 4,221<br />
14 0,258 0,537 0,692 0,868 1,345 1,761 2,145 2,624 2,977 3,787 4,140<br />
15 0,258 0,536 0,691 0,866 1,341 1,753 2,131 2,602 2,947 3,733 4,073<br />
16 0,258 0,535 0,690 0,865 l,337 1,746 2,120 2,583 2,921 3,686 4,015<br />
53
α 0,40 0,30 0,25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005<br />
df<br />
17 0,257 0,534 0,689 0,863 1,333 1,740 2,110 2,567 2,898 3,646 3,965<br />
18 0,257 0,534 0,688 0,862 1,330 1,734 2,101 2,552 2,878 3,611 3,922<br />
19 0,257 0,533 0,688 0,861 1,328 1,729 2,093 2,539 2,861 3,579 3,883<br />
20 0,257 0,533 0,687 0,860 1,325 1,725 2,086 2,528 2,845 3,552 3,850<br />
21 0,257 0,532 0,686 0,859 1,323 1,721 2,080 2,518 2,831 3,527 3,819<br />
22 0,256 0,532 0,686 0,858 1,321 1,717 2,074 2,508 2,819 3,505 3,792<br />
23 0,256 0,532 0,685 0,858 1,319 1,714 2,069 2,500 2,807 3,485 3,767<br />
24 0,256 0,531 0,685 0,857 1,318 1,711 2,064 2,492 2,797 3,467 3,745<br />
25 0,256 0,531 0,684 0,856 1,316 1,708 2,060 2,485 2,787 3,450 3,725<br />
26 0,256 0,531 0,684 0,856 1,315 1,706 2,056 2,479 2,779 3,435 3,707<br />
27 0,256 0,531 0,684 0,855 1,314 1,703 2,052 2,473 2,771 3,421 3,690<br />
28 0,256 0,530 0,683 0,855 1,313 1,701 2,048 2,467 2,763 3,408 3,674<br />
29 0,256 0,530 0,683 0,854 1,311 1,699 2,045 2,462 2,756 3,396 3,659<br />
z 0,256 0,530 0,674 0,854 1,310 1,697 2,042 2,457 2,750 3,385 3,646<br />
Figura 8:<br />
În acest tabel df are valorile <strong>de</strong> la 1 la 29 ¸si este numǎrul gra<strong>de</strong>lor <strong>de</strong> libertate.<br />
Apropierea valorilor <strong>din</strong> liniile corespunzǎtoare lui df = 29 ¸si z se datoreazǎ faptului<br />
cǎ dacǎ n ≥ 30 distribut¸ia t este cea normalǎ (teorema limitǎ centralǎ).<br />
Gradul <strong>de</strong> libertate df este un parametru statistic care este greu <strong>de</strong> <strong>de</strong>finit. El este un<br />
indice care se folose¸ste pentru a i<strong>de</strong>ntifica distribut¸ia care trebuie folositǎ. În consi<strong>de</strong>rat¸iile<br />
noastre df = n − 1, un<strong>de</strong> n este mǎrimea e¸santionului. Valoarea criticǎ a testului t care<br />
trebuie folositǎ în estimarea intervalului <strong>de</strong> încre<strong>de</strong>re precum ¸si în verificarea ipotezelor<br />
statistice se obt¸ine <strong>din</strong> tabelul prezentat. Pentru a obt¸ine aceastǎ valoare este nevoie <strong>de</strong><br />
a cunoa¸ste:<br />
1) df - numǎrul gra<strong>de</strong>lor <strong>de</strong> libertate;<br />
2) α aria <strong>de</strong>terminatǎ <strong>de</strong> curba <strong>de</strong> repartit¸ie aflatǎ în dreapta valorii critice. Aceastǎ<br />
valoare este notatǎ t(df, α).<br />
54
Exemplul 17.1. Determinat¸i t(10, 0.05) <strong>din</strong> tabel. Avem df = 10 ¸si α = 0.05, <strong>de</strong>ci<br />
t(10, 0.05) = 1.81.<br />
Valorile critice ale testului statistic t aflate în stânga mediei se obt¸in cu formula: −t(df, α),<br />
t¸inând seama <strong>de</strong> simetria distribut¸iei t.<br />
Figura 9:<br />
Se observǎ u¸sor cǎ −t(df, α) = t(df, 1 − α). Astfel: −t(df; 0, 05) = t(df; 0, 95).<br />
Exemplul 17.2. Determinat¸i t(15; 0, 95). Avem: t(15; 0, 95) = −t(15; 0, 05) = −1, 75.<br />
Figura 10:<br />
<strong>Statistica</strong> t este folositǎ în verificarea ipotezelor statistice privind asert¸iuni relative la<br />
media µ <strong>de</strong> aceea¸si manierǎ ca ¸si statistica z.<br />
Exemplul 17.3. Revenim la exemplul relativ la poluarea aerului; punctul <strong>de</strong> ve<strong>de</strong>re al<br />
ecologistului este: ”nivelul monoxidului <strong>de</strong> carbon în aer este mai mare <strong>de</strong>cât 4, 9/10 6 ”.<br />
Un e¸santion <strong>de</strong> 25 <strong>de</strong> <strong>de</strong>terminǎri cu media x = 5, 1/10 6 ¸si s = 2, 1/10 6 este un argument<br />
suficient pentru a sust¸ine afirmat¸ia? Se folose¸ste nivelul <strong>de</strong> semnificat¸ie α = 0, 05.<br />
Etapa 1. H0 : µ = 4, 9/10 6<br />
Etapa 2. Ha : µ > 4, 9/10 6<br />
55
Etapa 3. α = 0, 05; df = 25 − 1 = 24 ¸si t(24; 0, 05) = 1, 71 <strong>din</strong> tabel.<br />
Etapa 4.<br />
t ∗ =<br />
x − µ<br />
s<br />
√ n<br />
= 5, 1 − 4, 9<br />
2, 1/ √ 25<br />
= 0, 20<br />
0, 42<br />
= 0, 476 � 0, 48<br />
Etapa 5. Decizia: Nu putem respinge H0 (t ∗ nu este în regiunea criticǎ).<br />
Concluzie: Nu avem suficiente argumente pentru ca sǎ respingem<br />
ipoteza cǎ nivelul monoxidului <strong>de</strong> carbon este 4, 96/10 6 .<br />
Figura 11:<br />
Remarca 17.1. Dacǎ valoarea df (df = n − 1) este mai mare ca 29, atunci valoarea<br />
criticǎ a lui t(df, α) este foarte apropiatǎ <strong>de</strong> z(α) (scorul z este listat la capǎtul tabelului)<br />
¸si prin urmare în loc <strong>de</strong> t(df, α) se folose¸ste z(α). Deoarece tabelul consi<strong>de</strong>rat cont¸ine doar<br />
valorile critice ale distribut¸iei t, p-valoarea nu poate fi gǎsitǎ <strong>din</strong> tabel în cazul verificǎrii<br />
ipotezei statistice pentru cǎ aceasta necesitǎ distribut¸ia t completǎ. P-valoarea poate fi<br />
însǎ estimatǎ folosind tabelul.<br />
Exemplul 17.4. Sǎ revenim la exemplul 17.3. Ret¸inem t ∗ = 0, 48, df = 24 ¸si Ha : µ > 49.<br />
Astfel pentru a rezolva problema folosind varianta probabilistǎ pentru Etapa 5 cu pvaloarea<br />
avem:<br />
p = P (t > 0, 48, ¸stiind df = 24)<br />
56
Figura 12:<br />
Rândul df = 24 <strong>din</strong> tabel aratǎ cǎ p-valoarea este mai mare ca 0, 25. Valoarea 0, 685 <strong>din</strong><br />
tabel aratǎ cǎ P (t > 0, 685) = 0, 25 a¸sa cum aratǎ figura urmǎtoare:<br />
Figura 13:<br />
Comparând t ∗ = 0, 48, ve<strong>de</strong>m cǎ p− valoarea este mai mare ca 0, 25.<br />
Exemplul 17.5. Sǎ se <strong>de</strong>termine p−valoarea pentru urmǎtoarea ipotezǎ statisticǎ:<br />
în condit¸iile în care df = 15 ¸si t ∗ = −1, 84.<br />
H0 : µ = 55<br />
Ha : µ �= 55<br />
Solut¸ie: p = P (t < −1, 84) + P (t > 1, 84) = 2 · P (t > 1, 84). Rândul df = 15 <strong>din</strong> tabel<br />
aratǎ cǎ P (t > 1, 84) este între 0, 025 ¸si 0, 05. Prin urmare avem: 0, 05 < p < 0, 10.<br />
Media populat¸iei poate fi estimatǎ dacǎ σ este necunoscut <strong>de</strong> o manierǎ similarǎ cu cazul<br />
σ cunoscut. Diferent¸a este cǎ se folose¸ste distribut¸ia t în loc <strong>de</strong> distribut¸ia z ¸si <strong>de</strong>viat¸ia<br />
standard s ca estimare a lui σ. Formula pentru intervalul <strong>de</strong> încre<strong>de</strong>re 1 − α este:<br />
�<br />
x − t(df, α s<br />
) · √ , x + t(df,<br />
2 n α<br />
�<br />
s<br />
) · √<br />
2 n<br />
57
un<strong>de</strong> df = n − 1.<br />
Figura 14:<br />
Exemplul 17.6. În cazul unui e¸santion aleator <strong>de</strong> 20 <strong>de</strong> noi nǎscut¸i, media greutǎt¸ii lor<br />
este 3, 4 kg ¸si <strong>de</strong>viat¸ia standard este 0, 9 kg. Sǎ se estimeze cu o încre<strong>de</strong>re <strong>de</strong> 95% media<br />
greutǎt¸ii noilor nǎscut¸i.<br />
Solut¸ie: x = 3, 4 kg, s = 0, 9 kg ¸si n = 20, iar 1 − α = 0, 95, implicǎ: α = 0, 05; df = 19,<br />
iar <strong>din</strong> tabel gǎsim: t(19; 0, 025) = 2, 09. Capetele intervalului sunt:<br />
x ± t(19; 0, 025) · s<br />
0, 9<br />
√ = 3, 4 ± 2, 09 · √<br />
n 20<br />
3, 4 ± 2, 09 ·<br />
0, 9<br />
4, 472<br />
Intervalul <strong>de</strong> încre<strong>de</strong>re <strong>de</strong> 95% este (2, 94; 3, 86).<br />
58<br />
= 3, 4 ± 0, 46
18 Inferent¸ǎ relativǎ la variant¸ǎ ¸si estimarea variant¸ei<br />
A<strong>de</strong>sea se pun probleme care cer sǎ facem inferent¸ǎ asupra variant¸ei. De exemplu, o<br />
companie <strong>de</strong> produse rǎcoritoare are o ma¸sinǎ <strong>de</strong> îmbuteliat, care umple cu rǎcoritoare<br />
butelii <strong>de</strong> 0, 32 l= 32 cl. Cantitatea medie pusǎ în fiecare butelie este importantǎ, dar<br />
cantitatea medie corectǎ nu asigurǎ cǎ ma¸sina lucreazǎ corect. Dacǎ variant¸a este mare,<br />
vor fi multe butelii care sunt prea umplute ¸si multe butelii care nu sunt bine umplute.<br />
De aceea, compania dore¸ste sǎ controleze variant¸a σ 2 a cantitǎt¸ii x <strong>de</strong> rǎcoritoare pusǎ în<br />
fiecare butelie ¸si sǎ ment¸inǎ variant¸a la un nivel cât mai scǎzut posibil.<br />
Vom prezenta în aceastǎ sect¸iune o inferent¸ǎ privind variant¸a unei populat¸ii. A<strong>de</strong>sea în<br />
cazul acestei inferent¸e se vorbe¸ste <strong>de</strong>spre <strong>de</strong>viat¸ia standard în loc <strong>de</strong> variant¸ǎ. Trebuie sǎ<br />
subliniem cǎ <strong>de</strong>viat¸ia standard este rǎdǎcinǎ pǎtratǎ a variant¸ei; a¸sadar a vorbi <strong>de</strong>spre<br />
variant¸ǎ este comparabil cu a vorbi <strong>de</strong>spre <strong>de</strong>viat¸ie standard.<br />
Sǎ revenim la exemplul companiei <strong>de</strong> produse rǎcoritoare. Sǎ ne imaginǎm cǎ aceastǎ<br />
companie dore¸ste sǎ <strong>de</strong>tecteze când variabilitatea cantitǎt¸ii <strong>de</strong> rǎcoritoare pusǎ în fiecare<br />
butelie scapǎ <strong>de</strong> sub control. O variant¸ǎ <strong>de</strong> 0, 0004 este consi<strong>de</strong>ratǎ acceptabilǎ ¸si<br />
compania va regla ma¸sina <strong>de</strong> îmbuteliat dacǎ variant¸a <strong>de</strong>vine mai mare <strong>de</strong>cât aceastǎ<br />
valoare. Decizia va fi luatǎ folosind verificarea ipotezelor statistice. Ipoteza H0 este cǎ<br />
variant¸a are valoarea 0, 0004, iar ipoteza Ha este cǎ variant¸a <strong>de</strong>pǎ¸se¸ste valoarea 0, 0004:<br />
H0 : σ 2 = 0, 0004 (variant¸a este controlatǎ)<br />
Ha : σ 2 > 0, 0004 (variant¸a nu este controlatǎ)<br />
Testul statistic care va fi folosit pentru a lua o <strong>de</strong>cizie asupra ipotezei H0 este testul χ 2 .<br />
Valoarea calculatǎ a lui χ 2 se va obt¸ine folosind formula:<br />
χ 2 =<br />
n · s2<br />
σ 2<br />
un<strong>de</strong> s 2 este variant¸a e¸santionului, n este mǎrimea e¸santionului, iar σ 2 este valoarea<br />
specificatǎ în ipoteza nulǎ.<br />
Dacǎ se iau e¸santioane <strong>de</strong> mǎrime n <strong>din</strong>tr-o populat¸ie normalǎ, având variantǎ σ 2 , atunci<br />
cantitatea n·s 2 /σ 2 are o distribut¸ie care se nume¸ste distribut¸ia χ 2 . Formula care <strong>de</strong>fine¸ste<br />
distribut¸ia χ 2 nu o vom da aici, dar pentru a folosi distribut¸ia χ 2 , prezentǎm urmǎtoarele<br />
proprietǎt¸i ale acesteia:<br />
1. distribut¸ia χ 2 are valori nenegative, este zero sau este pozitivǎ;<br />
2. distribut¸ia χ 2 nu este simetricǎ, este asimetricǎ la dreapta;<br />
3. existǎ mai multe repartit¸ii χ 2 . Ca ¸si pentru distribut¸iile t existǎ o distribut¸ie χ 2<br />
pentru fiecare grad <strong>de</strong> libertate. Inferent¸a pe care o discutǎm aici se referǎ la cazul<br />
df = n − 1.<br />
Valorile critice ale lui χ 2 sunt date în tabelul urmǎtor:<br />
59
df/α 0.995 0.990 0.975 0.950 0.900 0.10 0.05 0.025 0.01 0.005<br />
2 0.01 0.020 0.050 0.103 0.211 4.61 6.0 7.38 9.21 10.6<br />
3 0.071 0.115 0.216 0.352 0.584 6.25 7.82 9.35 11.4 12.9<br />
4 0.207 0.297 0.484 0.711 1.06 7.78 9.50 11.1 13.3 14.9<br />
5 0.412 0.554 0.831 1.15 1.61 9.24 11.1 12.8 15.1 16.8<br />
6 0.676 0.872 1.24 1.64 2.20 10.6 12.6 14.5 16.8 18.6<br />
7 0.990 1.24 1.69 2.17 2.83 12.0 14.1 16.0 18.5 20.3<br />
8 1.34 1.65 2.18 2.73 3.49 13.4 15.5 17.5 20.1 22.0<br />
9 1.73 2.09 2.70 3.33 4.17 14.7 17.0 19.0 21.7 23.6<br />
10 2.16 2.56 3.25 3.94 4.87 16.0 18.3 20.5 23.2 25.2<br />
11 2.60 3.05 3.82 4.58 5.58 17.2 19.7 21.9 24.7 26.8<br />
12 3.07 3.57 4.40 5.23 6.30 18.6 21.0 23.3 26.2 28.3<br />
13 3.57 4.11 5.01 5.90 7.04 19.8 22.4 24.7 27.7 29.8<br />
14 4.07 4.66 5.63 6.57 7.79 21.1 23.7 26.1 29.1 31.3<br />
15 4.60 5.23 6.26 7.26 8.55 22.3 25.0 27.5 30.6 32.8<br />
16 5.14 5.81 6.91 7.96 9.31 23.5 26.3 28.9 32.0 34.3<br />
17 5.70 6.41 7.56 8.67 10.1 24.8 27.6 30.2 33.4 35.7<br />
18 6.26 7.01 8.23 9.39 10.9 26.0 28.9 31.5 34.8 37.2<br />
19 6.84 7.63 8.91 10.1 11.7 27.2 30.1 32.9 36.2 38.6<br />
20 7.43 8.26 9.59 10.9 12.4 28.4 31.41 34.2 37.6 40.0<br />
21 8.03 8.90 10.3 11.6 13.2 29.6 32.7 35.5 39.0 41.4<br />
22 8.64 9.54 11.0 12.3 14.0 30.8 33.9 36.8 40.3 42.8<br />
23 9.26 10.2 11.0 13.1 14.9 32.0 35.2 38.1 41.6 44.2<br />
24 9.89 10.9 12.4 13.9 15.7 33.2 36.4 39.4 43.0 45.6<br />
25 10.5 11.5 13.1 14.6 16.5 34.4 37.7 40.7 44.3 46.9<br />
26 11.2 12.2 13.8 15.4 17.3 35.6 38.9 41.9 45.6 48.3<br />
27 11.8 12.9 14.6 16.2 18.1 36.7 40.1 43.2 47.0 49.7<br />
28 12.5 13.6 15.3 16.9 18.9 37.9 41.3 44.5 48.3 51.0<br />
29 13.1 14.3 16.1 17.7 19.8 39.1 42.6 45.7 49.6 52.3<br />
30 13.8 15.0 16.8 18.5 20.6 40.3 43.8 47.0 50.9 53.7<br />
40 20.7 22.2 24.4 26.5 29.1 51.8 55.8 59.3 63.7 66.8<br />
50 28.0 29.7 32.4 34.8 37.7 63.2 67.5 71.4 76.2 79.5<br />
60 5.5 37.5 40.5 43.2 46.5 74.4 79.1 83.3 88.4 92.0<br />
70 43.3 45.4 48.8 51.8 55.3 85.5 90.5 95.0 100.0 104.0<br />
80 51.2 53.5 57.2 60.4 64.3 96.6 102.0 107.0 112.0 116.0<br />
90 59.2 61.8 65.7 69.1 73.3 108.0 113.0 118.0 124.0 128.0<br />
100 67.3 70.1 74.2 77.9 82.4 114.0 124.0 130.0 136.0 140.0<br />
60
Figura 15:<br />
Valorile critice vor fi i<strong>de</strong>ntificate prin douǎ valori: gra<strong>de</strong> <strong>de</strong> libertate ¸si aria situatǎ sub<br />
curbǎ în dreapta valorii critice. Astfel χ 2 (df, α) este simbolul folosit pentru i<strong>de</strong>ntificarea<br />
valorii critice χ 2 cu df gra<strong>de</strong> <strong>de</strong> libertate ¸si cu aria α sub grafic ¸si în dreapta, a¸sa cum<br />
este prezentat pe figura urmǎtoare:<br />
Figura 16:<br />
Exemplul 18.1. Folosind tabelul <strong>de</strong>terminat¸i χ 2 (20; 0, 05) ¸si χ 2 (14; 0, 90).<br />
Din tabel se obt¸ine: χ 2 (20; 0, 05) = 31, 4 ¸si χ 2 (14; 0, 90) = 7, 79.<br />
Remarca 18.1. Dacǎ df > 2 valoarea medie a lui χ 2 este df. Valoarea medie este<br />
localizatǎ în dreapta modului (locul în care curba atinge valoarea maximǎ).<br />
61
Figura 17:<br />
Exemplul 18.2. Reluǎm cazul companiei <strong>de</strong> produse rǎcoritoare care doresc sǎ controleze<br />
variant¸a ca sǎ nu <strong>de</strong>pǎ¸seascǎ 0, 0004. Un e¸santion <strong>de</strong> mǎrime 28 cu o variant¸ǎ <strong>de</strong> 0, 0010<br />
indicǎ oare la nivelul <strong>de</strong> semnificat¸ie 0, 05 cǎ procesul <strong>de</strong> îmbuteliere nu este sub control<br />
(referitor la variant¸ǎ)?<br />
Solut¸ie:<br />
Etapa 1. H0 : σ 2 = 0, 0004 (procesul este sub control)<br />
Etapa 2. H0 : σ 2 > 0, 0004 (procesul nu este sub control)<br />
Etapa 3. α = 0, 05, n = 28, df = 27 ¸si obt¸inem <strong>din</strong> tabel:<br />
Etapa 4.<br />
Etapa 5. Luarea <strong>de</strong>ciziei.<br />
χ 2 ∗ =<br />
χ 2 (27; 0, 005) = 40, 1.<br />
n · s2<br />
σ 2<br />
Figura 18:<br />
62<br />
28 · 0, 0010<br />
= = 70<br />
0, 0004
Concluzia: Procesul <strong>de</strong> îmbuteliere este sub control în ceea ce prive¸ste variant¸a.<br />
Exemplul 18.3. Specificat¸iile unui anumit medicament indicǎ cǎ fiecare comprimat<br />
trebuie sǎ cont¸inǎ 2,5 g <strong>de</strong> substant¸ǎ activǎ. 100 <strong>de</strong> comprimate alese la întâmplare<br />
<strong>din</strong> product¸ie sunt analizate. Ele cont¸in în media 2,6 g <strong>de</strong> substant¸ǎ activǎ cu o <strong>de</strong>viat¸ia<br />
standard <strong>de</strong> s = 0, 4g.<br />
Se poate spune cǎ medicamentul respectǎ specificat¸iile (α = 0, 05)?<br />
Etapa 1. Ipoteza H0 este ca medicamentul respectǎ specificat¸iile:<br />
H0 : µ = 2, 5<br />
Etapa 2. Ipoteza Ha este ca medicamentul nu respectǎ specificat¸iile:<br />
H0 : µ �= 2, 5<br />
Etapa 3. <strong>Statistica</strong> folositǎ este media x, iar nivelul <strong>de</strong> semnificat¸ie este α = 0, 05.<br />
Regiunea criticǎ este:<br />
Etapa 4. Testul statistic este:<br />
z =<br />
x − µ<br />
s<br />
√ n<br />
= 2, 6 − 2, 5<br />
0, 4<br />
10<br />
= 0, 1<br />
0, 04<br />
= 2, 5<br />
Valoarea lui z în tabel este: z0,975 = 1, 96 < 2, 5.<br />
Etapa 5. Ipoteza H0 este respinsǎ, a¸sadar nu putem spune cǎ medicamentul<br />
respectǎ specificat¸iile.<br />
Abordarea probabilistǎ a inferent¸ei statistice asupra variant¸ei, p-valoarea poate fi estimatǎ<br />
pentru verificarea ipotezelor statistice folosind tabelul statistic χ 2 <strong>de</strong> aceea¸si manierǎ ca<br />
¸si în cazul testului Stu<strong>de</strong>nt.<br />
Exemplul 18.4. Sǎ se <strong>de</strong>termine p-valoarea în cazul urmǎtoarelor ipoteze statistice:<br />
Se cunosc: df = 18 ¸si χ 2 ∗ = 32, 7.<br />
H0 : σ 2 = 150<br />
Ha : σ 2 > 150<br />
Solut¸ie: p = P (χ 2 > 32, 7) ∈ (0, 010; 0, 025) (date citite <strong>din</strong> tabel).<br />
Exemplul 18.5. Un parametru folosit în <strong>de</strong>terminarea utilitǎt¸ii unui examen ca mǎsurǎ<br />
a abilitǎt¸ii stu<strong>de</strong>nt¸ilor este ”împrǎ¸stierea” rezultatelor. Un set <strong>de</strong> rezultate al unui test<br />
are valoare micǎ dacǎ plaja notelor este micǎ. Din contrǎ dacǎ plaja notelor este mare,<br />
este o diferent¸ǎ mare între rezultatul cel mai bun ¸si rezultatul cel mai slab, atunci testul<br />
are valoare mai mare. La un test la care nota maximǎ este <strong>de</strong> 100 <strong>de</strong> puncte s-a pretins<br />
cǎ o <strong>de</strong>viat¸ie standard <strong>de</strong> 12 puncte este <strong>de</strong> dorit. Pentru a ve<strong>de</strong>a dacǎ un anume test<br />
<strong>de</strong> o orǎ a fost sau nu un test bun <strong>din</strong> acest punct <strong>de</strong> ve<strong>de</strong>re un profesor verificǎ aceastǎ<br />
ipotezǎ statisticǎ la nivelul <strong>de</strong> semnificat¸ie α = 0, 05 folosind rezultatele obt¸inute <strong>de</strong> clasǎ.<br />
Au fost 28 <strong>de</strong> rezultate ¸si <strong>de</strong>viat¸ia standard gǎsitǎ a fost 10, 5. Constituie aceasta o probǎ<br />
la nivelul <strong>de</strong> semnificat¸ie α = 0, 05 cǎ examenul nu are <strong>de</strong>viat¸ia standard specificatǎ?<br />
Solut¸ie: n = 28, s = 10, 5 ¸si α = 0, 05<br />
Etapa 1. H0 : σ = 12<br />
63
Etapa 2. H0 : σ �= 12<br />
Etapa 3. α = 0, 05, df = 27 ¸si obt¸inem valorile critice <strong>din</strong> tabel:<br />
Etapa 4.<br />
χ 2 1(27; 0, 975) = 14, 6 ¸si χ 2 2(27; 0, 025) = 43, 2.<br />
χ 2 ∗ =<br />
n · s2<br />
σ 2<br />
28 · (10, 5)2<br />
=<br />
(12) 2<br />
= 3087<br />
144<br />
Etapa 5. Nu se poate respinge H0.<br />
Concluzie: Nu avem probe suficiente pentru a respinge ipoteza H0<br />
64<br />
= 21, 43
19 Generalitǎt¸i <strong>de</strong>spre corelat¸ie.<br />
Corelat¸ie liniarǎ<br />
În statisticǎ a<strong>de</strong>sea apar probleme <strong>de</strong> genul urmǎtor: pentru aceea¸si populat¸ie avem douǎ<br />
seturi <strong>de</strong> date corespunzǎtoare la douǎ variabile distincte ¸si se pune întrebarea dacǎ între<br />
cele douǎ variabile existǎ vreo legǎturǎ (relat¸ie)? Dacǎ da, care este aceastǎ relat¸ie? Cum<br />
sunt aceste variabile corelate? Relat¸iile pe care le discutǎm aici nu sunt neapǎrat <strong>de</strong> tip<br />
cauzǎ-efect. Ele sunt relat¸ii matematice care permit anticiparea comportamentului unei<br />
variabile în funct¸ie <strong>de</strong> comportamentul celeilalte. Iatǎ câteva exemple:<br />
Exemplul 19.1.<br />
- În general o persoanǎ care cre¸ste în înalt¸ime cre¸ste ¸si în greutate. Se pune întrebarea:<br />
existǎ vreo relat¸ie între înalt¸ime ¸si greutate?<br />
- Stu<strong>de</strong>nt¸ii î¸si petrec timpul la universitate învǎt¸ând sau dând examene. Se pune<br />
întrebarea: studiind mai mult, obt¸ii note mai mari?<br />
- Doctorii care testeazǎ un nou medicament prescriu cantitǎt¸i diferite ¸si observǎ<br />
rǎspunsul pacient¸ilor; se pune întrebarea: cantitatea <strong>de</strong> medicament prescrisǎ<br />
<strong>de</strong>terminǎ oare timpul <strong>de</strong> însǎnǎto¸sire al pacientului?<br />
Problemele <strong>din</strong> exemplul prece<strong>de</strong>nt cer analiza corelat¸iei <strong>din</strong>tre douǎ variabile.<br />
În cazul în care pentru o populat¸ie avem douǎ seturi <strong>de</strong> date corespunzǎtoare la douǎ<br />
variabile distincte se formeazǎ perechile <strong>de</strong> date (x, y), în care x este valoarea primei<br />
variabile ¸si y este valoarea celei <strong>de</strong>-a doua variabile. De exemplu, x este înǎt¸imea ¸si y este<br />
greutatea.<br />
O pereche ordonatǎ <strong>de</strong> date (x, y) se nume¸ste datǎ bidimensionalǎ.<br />
În mod tradit¸ional, variabila X (având valorile x) se nume¸ste variabilǎ <strong>de</strong> intrare<br />
(variabilǎ in<strong>de</strong>pen<strong>de</strong>ntǎ), iar variabila Y (având valorile y) se nume¸ste variabilǎ <strong>de</strong><br />
ie¸sire (variabilǎ <strong>de</strong>pen<strong>de</strong>ntǎ).<br />
Variabila <strong>de</strong> intrare X este cea mǎsuratǎ sau controlatǎ pentru a prezice variabila Y .<br />
În cazul testǎrii medicamentului doctorii (mǎsoarǎ) controleazǎ cantitatea <strong>de</strong> medicament<br />
prescrisǎ ¸si <strong>de</strong>ci aceastǎ cantitate x este valoarea variabilei <strong>de</strong> intrare (in<strong>de</strong>pen<strong>de</strong>ntǎ) X.<br />
Timpul <strong>de</strong> recuperare y este valoarea variabilei <strong>de</strong> ie¸sire (<strong>de</strong>pen<strong>de</strong>nte) Y .<br />
În cazul înǎlt¸imii ¸si greutǎt¸ii oricare <strong>din</strong> variabile poate fi atât variabilǎ <strong>de</strong> intrare cât ¸si<br />
variabilǎ <strong>de</strong> ie¸sire. Rezultatele analizei vor fi însǎ funct¸ie <strong>de</strong> alegerea fǎcutǎ.<br />
În cazul problemelor <strong>de</strong> analizǎ a corelat¸iei <strong>din</strong>tre douǎ variabile datele e¸santionului se<br />
prezintǎ sub forma unei diagrame <strong>de</strong> împrǎ¸stiere.<br />
Definit¸ia 19.1. O diagramǎ <strong>de</strong> împrǎ¸stiere sau nor <strong>de</strong> puncte este reprezentarea<br />
graficǎ a perechilor <strong>de</strong> date într-un sistem <strong>de</strong> coordonate ortogonal. Valorile x ale variabilei<br />
<strong>de</strong> intrare X sunt reprezentate pe axa Ox, iar valorile y ale variabilei <strong>de</strong> ie¸sire Y sunt<br />
reprezentate pe axa Oy.<br />
65
Exemplul 19.2. Pentru un e¸santion <strong>de</strong> 15 stu<strong>de</strong>nt¸i urmǎtorul tabel <strong>de</strong> date reprezintǎ<br />
numǎrul <strong>de</strong> ore <strong>de</strong> studiu x pentru un examen ¸si nota y obt¸inutǎ la acel examen:<br />
x 2 3 3 4 4 5 5 6 6 6 7 7 7 8 8<br />
y 5 5 7 5 7 7 8 6 9 8 7 9 10 8 9<br />
Diagrama <strong>de</strong> împrǎ¸stiere în acest caz este:<br />
Exemplul 19.3. Diagrama <strong>de</strong> împrǎ¸stiere în cazul tabelului <strong>de</strong> date:<br />
este:<br />
x 2 12 4 6 9 4 11 3 10 11 3 1 13 12 14 7 2 8<br />
y 4 8 10 9 10 8 8 5 10 9 8 3 9 8 8 11 6 9<br />
Analiza <strong>de</strong> corelat¸ie are ca obiectiv sǎ stabileascǎ legǎtura <strong>din</strong>tre cele douǎ variabile.<br />
Vom prezenta câteva diagrame <strong>de</strong> împrǎ¸stiere pentru a ilustra corelat¸ii posibile <strong>din</strong>tre<br />
variabila <strong>de</strong> intrare X ¸si variabila <strong>de</strong> ie¸sire Y .<br />
Definit¸ia 19.2. Dacǎ pentru valorile x crescân<strong>de</strong> ale variabilei <strong>de</strong> intrare X nu existǎ o<br />
<strong>de</strong>plasare clarǎ (bine <strong>de</strong>finitǎ) ale valorilor y ale variabilei Y , atunci zicem cǎ nu avem<br />
corelat¸ie sau cǎ nu existǎ legǎturǎ între X ¸si Y .<br />
66
Diagrama <strong>de</strong> împrǎ¸stiere în cazul în care nu avem corelat¸ie este urmǎtoarea:<br />
Definit¸ia 19.3. Dacǎ pentru valorile x crescân<strong>de</strong> ale variabilei <strong>de</strong> intrare X existǎ o<br />
<strong>de</strong>plasare clarǎ (bine <strong>de</strong>finitǎ) ale valorilor y ale variabilei Y zicem cǎ avem o corelat¸ie.<br />
Zicem cǎ avem o corelat¸ie pozitivǎ dacǎ y tin<strong>de</strong> sǎ creascǎ ¸si avem o corelat¸ie<br />
negativǎ dacǎ y tin<strong>de</strong> sǎ <strong>de</strong>screascǎ odatǎ cu cre¸sterea lui x.<br />
Precizia schimbǎrii lui y atunci când x cre¸ste <strong>de</strong>terminǎ cât <strong>de</strong> puternicǎ este corelat¸ia.<br />
Diagramele <strong>de</strong> împrǎ¸stiere care urmeazǎ ilustreazǎ aceste i<strong>de</strong>i:<br />
Figura 19: Diagramǎ <strong>de</strong> împrǎ¸stiere în cazul unei corelat¸ii pozitive<br />
67
Figura 20: Diagramǎ <strong>de</strong> împrǎ¸stiere în cazul unei corelat¸ii pozitive strânse<br />
Figura 21: Diagramǎ <strong>de</strong> împrǎ¸stiere în cazul unei corelat¸ii negative<br />
Figura 22: Diagramǎ <strong>de</strong> împrǎ¸stiere în cazul unei corelat¸ii negative strânse<br />
Definit¸ia 19.4. Dacǎ perechile (x, y) tind sǎ urmeze o dreaptǎ zicem cǎ avem o corelat¸ie<br />
liniarǎ.<br />
Definit¸ia 19.5. Dacǎ toate perechile (x, y) se gǎsesc pe o dreaptǎ (care nu este nici<br />
orizontalǎ nici verticalǎ) atunci zicem cǎ avem o corelat¸ie liniarǎ perfectǎ.<br />
68
Figura 23: Diagramǎ <strong>de</strong> împrǎ¸stiere în cazul unei corelat¸ii pozitive liniare perfecte<br />
Remarca 19.1. Dacǎ toate perechile (x, y) se gǎsesc pe o dreaptǎ orizontalǎ sau verticalǎ<br />
nu existǎ corelat¸ie intre cele douǎ variabile. Aceasta întrucât schimbarea uneia nu<br />
afecteazǎ valoarea celeilalte variabile.<br />
Remarca 19.2. Diagramele <strong>de</strong> împrǎ¸stiere nu sunt tot<strong>de</strong>auna <strong>de</strong> genul celor prezentate<br />
pânǎ acum ¸si sugereazǎ corelat¸ii care sunt <strong>de</strong> altǎ naturǎ.<br />
Figura 24: Diagramǎ <strong>de</strong> împrǎ¸stiere în cazul unei corelat¸ii neliniare<br />
Definit¸ia 19.6. Coeficientul <strong>de</strong> corelat¸ie liniarǎ r mǎsoarǎ cât <strong>de</strong> puternicǎ este<br />
corelat¸ia liniarǎ <strong>din</strong>tre cele douǎ variabile. Reflectǎ consistent¸a efectului pe care-l are<br />
schimbarea valorii variabilei in<strong>de</strong>pen<strong>de</strong>nte X asupra variabilei <strong>de</strong>pen<strong>de</strong>nte Y .<br />
Remarca 19.3. Valoarea coeficientului <strong>de</strong> corelat¸ie liniarǎ r permite sǎ se formuleze<br />
un rǎspuns la întrebarea: existǎ o corelat¸ie liniarǎ între cele douǎ variabile consi<strong>de</strong>rate?<br />
Coeficientul <strong>de</strong> corelat¸ie liniarǎ r are valoarea între −1 ¸si +1. Valoarea r = +1 înseamnǎ<br />
o corelat¸ie liniarǎ pozitivǎ perfectǎ, iar valoarea r = −1 înseamnǎ o corelat¸ie liniarǎ<br />
negativǎ perfectǎ.<br />
Dacǎ pentru x crescând rezultǎ o cre¸stere generalǎ a valorilor lui y, atunci r indicǎ o<br />
corelat¸ie liniarǎ pozitivǎ.<br />
De exemplu, în cazul copiilor dacǎ x este vârsta ¸si y este înǎlt¸imea, atunci ne a¸steptǎm ca<br />
r sǎ fie pozitiv, pentru cǎ în mod natural, înǎt¸imea copilului cre¸ste o datǎ cu vârsta. În<br />
69
cazul automobilelor <strong>de</strong> serie, dacǎ x este vârsta, iar y este valoarea, atunci ne a¸steptǎm<br />
ca r sǎ fie negativ pentru cǎ în mod uzual valoarea automobilului <strong>de</strong>scre¸ste cu vârsta lui.<br />
Definit¸ia 19.7. Coeficientul <strong>de</strong> corelat¸ie liniarǎ r în cazul unui e¸santion este prin<br />
<strong>de</strong>finit¸ie:<br />
�<br />
(x − x) · (y − y)<br />
r =<br />
n · sx · sy<br />
în care sx, sy sunt <strong>de</strong>viat¸iile standard ale variabilelor x, y, iar n este numǎrul <strong>de</strong> perechi<br />
(x, y).<br />
Remarca 19.4. Pentru a calcula r <strong>de</strong> obicei se folose¸ste o formulǎ alternativǎ echivalentǎ:<br />
un<strong>de</strong>: SS(x) = � x2 − 1<br />
n ·<br />
� 1<br />
x · y −<br />
n ·<br />
�� � �<br />
x · y .<br />
r =<br />
SS(x, y)<br />
� SS(x) · SS(Y )<br />
�� �2 x , SS(y) = � y2 − 1<br />
n ·<br />
�� �2 y , SS(x, y) =<br />
Exemplul 19.4. Sǎ se <strong>de</strong>termine coeficientul <strong>de</strong> corelat¸ie liniarǎ r în cazul unui e¸santion<br />
aleator <strong>de</strong> mǎrime 10, dacǎ tabelul <strong>de</strong> date este:<br />
Folosind aceste date avem:<br />
<strong>de</strong> un<strong>de</strong> gǎsim:<br />
x 27 22 15 35 30 52 35 55 40 40<br />
y 30 26 25 42 38 40 32 54 50 43<br />
SS(x) = 1396, 9 SS(y) = 858, 0 SS(x, y) = 919, 0<br />
r =<br />
919, 0<br />
� (1396, 9) · (858, 0) = 0, 8394 ≈ 0, 84.<br />
Remarca 19.5. Dacǎ valoarea calculatǎ r este apropiatǎ <strong>de</strong> 0, atunci nu existǎ corelat¸ie<br />
liniarǎ.<br />
Dacǎ valoarea calculatǎ r este aproape <strong>de</strong> +1 sau −1, atunci bǎnuim cǎ între cele douǎ<br />
variabile exista corelat¸ie liniarǎ.<br />
Între 0 ¸si 1 existǎ o valoare numitǎ punct <strong>de</strong> <strong>de</strong>cizie care indicǎ dacǎ existǎ sau nu existǎ<br />
corelat¸ie liniarǎ. Un punct simetric existǎ ¸si între −1 ¸si 0. Valoarea punctului <strong>de</strong> <strong>de</strong>cizie<br />
<strong>de</strong>pin<strong>de</strong> <strong>de</strong> mǎrimea e¸santionului.<br />
În tabelul urmǎtor sunt trecute puncte <strong>de</strong> <strong>de</strong>cizie pozitive pentru diferite mǎrimi <strong>de</strong><br />
e¸santionare cuprinse între 5 ¸si 100.<br />
70
n punct <strong>de</strong> n punct <strong>de</strong> n punct <strong>de</strong> n punct <strong>de</strong><br />
<strong>de</strong>cizie <strong>de</strong>cizie <strong>de</strong>cizie <strong>de</strong>cizie<br />
5 0,878 12 0,576 19 0,456 30 0,301<br />
6 0,811 13 0,553 20 0,444 40 0,312<br />
7 0,754 14 0,532 22 0,423 50 0,279<br />
8 0,707 15 0,514 24 0,404 60 0,254<br />
9 0,666 16 0,497 26 0,388 80 0,220<br />
10 0,632 17 0,482 28 0,374 100 0,196<br />
11 0,602 18 0,468<br />
Tabelul 1:Punctele <strong>de</strong> <strong>de</strong>cizie pozitive pentru corelat¸ie liniarǎ<br />
Valorile punctelor <strong>de</strong> <strong>de</strong>cizie <strong>de</strong>scresc dacǎ n cre¸ste.<br />
Dacǎ r se gǎse¸ste între punctul <strong>de</strong> <strong>de</strong>cizie negativ ¸si cel pozitiv nu avem argumente ca sǎ<br />
sust¸inem cǎ între cele douǎ variabile existǎ o corelat¸ie liniarǎ.<br />
Dacǎ r este mai mare <strong>de</strong>cât punctul <strong>de</strong> <strong>de</strong>cizie pozitiv sau mai mic <strong>de</strong>cât punctul <strong>de</strong><br />
<strong>de</strong>cizie negativ atunci între cele douǎ variabile existǎ o corelat¸ie liniarǎ.<br />
Existent¸a unei corelat¸ii între cele douǎ variabile nu înseamnǎ cǎ existǎ o relat¸ie<br />
cauzǎ efect. Astfel, <strong>de</strong> exemplu, dacǎ X este alocat¸ia pentru copii în ultimii 10 ani ¸si<br />
Y este consumul <strong>de</strong> bǎuturi alcoolice în ultimii 10 ani, un e¸santion <strong>de</strong> aceste date aratǎ<br />
o corelat¸ie pozitivǎ strânsǎ fǎrǎ ca alocat¸ia pentru copii sǎ fie cauza vânzǎrii bǎuturilor<br />
alcoolice sau viceversa.<br />
O metodǎ rapidǎ <strong>de</strong> estimare a coeficientului <strong>de</strong> corelat¸ie liniarǎ r în cazul unui e¸santion<br />
este urmǎtoarea:<br />
a) Se <strong>de</strong>seneazǎ o curbǎ închisǎ în jurul valorii mult¸imii <strong>de</strong> perechi (x, y):<br />
71
) Se <strong>de</strong>terminǎ lungimea D a diametrului maxim:<br />
c) Se <strong>de</strong>terminǎ lungimea diametrului minim d:<br />
�<br />
d) Valoarea r se estimeazǎ cu ± 1 − d<br />
orientarea diametrului D:<br />
D<br />
�<br />
, în care semnul se alege în funct¸ie <strong>de</strong><br />
Trebuie subliniat cǎ aceastǎ estimare este grosierǎ. Este foarte sensibilǎ la împrǎ¸stiere.<br />
Cu toate acestea dacǎ plaja <strong>de</strong> valori a lui X este aproximativ aceea¸si ca plaja <strong>de</strong> valori<br />
a lui Y aproximat¸ia este utilǎ.<br />
72
20 Analizǎ <strong>de</strong> corelat¸ie liniarǎ<br />
În sect¸iunea 20 am vǎzut care este formula coeficientului <strong>de</strong> corelat¸ie liniarǎ r între douǎ<br />
variabile X, Y menit sǎ mǎsoare cât <strong>de</strong> strânsǎ este relat¸ia <strong>de</strong> <strong>de</strong>pen<strong>de</strong>nt¸ǎ liniarǎ <strong>din</strong>tre<br />
cele douǎ variabile.<br />
În cele ce urmeazǎ vom prezenta o analizǎ mai amǎnunt¸itǎ a acestei formule. Consi<strong>de</strong>rǎm<br />
pentru ilustrat¸ie urmǎtorul set <strong>de</strong> date bidimensionale:<br />
Diagrama <strong>de</strong> împrǎ¸stiere în acest caz este:<br />
x 2 3 6 8 11 12<br />
y 1 5 3 2 6 1<br />
Media x a variabilei x este 7: x = 7, iar media variabilei y este 3: y = 3.<br />
Punctul (x, y) este punctul (7, 3) ¸si se nume¸ste centroid al datelor:<br />
73
Dacǎ prin punctul <strong>de</strong> coordonate (x, y) se duc paralele la axele <strong>de</strong> coordonate, setul <strong>de</strong><br />
date se împarte în patru submult¸imi. Fiecare datǎ (x, y) se gǎse¸ste la o anumitǎ distant¸ǎ<br />
<strong>de</strong> aceste linii; x − x este distant¸a cu semn <strong>de</strong> la (x, y) la paralela la axa Oy ¸si y − y<br />
este distant¸ǎ cu semn <strong>de</strong> la (x, y) la paralela Ox. distant¸ele cu semn sunt pozitive sau<br />
negative în funct¸ie <strong>de</strong> pozit¸ia lui (x, y) fat¸ǎ <strong>de</strong> (x, y).<br />
O mǎsurǎ a <strong>de</strong>pen<strong>de</strong>nt¸ei liniare ar putea fi covariant¸a. Covariant¸a <strong>din</strong>tre X ¸si Y este<br />
<strong>de</strong>finitǎ ca suma produselor distant¸elor cu semn x−x ¸si y −y a tuturor datelor la centroid<br />
împǎrt¸itǎ la n:<br />
n�<br />
(xi − x) · (yi − y)<br />
covar(x, y) =<br />
n<br />
Covariant¸a în cazul tabelului <strong>de</strong> date consi<strong>de</strong>rate este 0, 6.<br />
i=1<br />
Covariant¸a pozitivǎ înseamnǎ cǎ diagrama <strong>de</strong> dispersie este dominatǎ <strong>de</strong> date care se<br />
gǎsesc <strong>de</strong>asupra ¸si în dreapta centroidului sau <strong>de</strong><strong>de</strong>subt ¸si în stânga acestuia. Aceasta<br />
întrucât produsele (x − x) · (y − y) în puncte <strong>din</strong> aceste regiuni sunt pozitive.<br />
Dacǎ diagrama <strong>de</strong> dispersie este dominatǎ <strong>de</strong> date care se gǎsesc <strong>de</strong>asupra ¸si în stânga sau<br />
<strong>de</strong><strong>de</strong>subt ¸si în dreapta centroidului atunci covariant¸a este negativǎ pentru cǎ produsele<br />
(x − x) · (y − y) pentru puncte <strong>din</strong> aceste regiuni sunt negative.<br />
Covariant¸a însǎ nu este convenabilǎ pentru a mǎsura cât este <strong>de</strong> strânsǎ relat¸ia <strong>de</strong><br />
<strong>de</strong>pen<strong>de</strong>nt¸ǎ liniarǎ între douǎ variabile fiindcǎ <strong>de</strong>pin<strong>de</strong> <strong>de</strong> unitǎt¸ile <strong>de</strong> mǎsurǎ ale datelor.<br />
Covariant¸a nu are o unitate <strong>de</strong> mǎsurǎ standardizatǎ ¸si împrǎ¸stierea datelor influent¸eazǎ<br />
foarte mult mǎrimea covariant¸ei.<br />
Astfel <strong>de</strong> exemplu dacǎ înmult¸im datele <strong>din</strong> tabelul consi<strong>de</strong>rat anterior cu 10 obt¸inem<br />
tabelul <strong>de</strong> date:<br />
x 20 30 60 80 110 120<br />
y 10 50 30 20 60 10<br />
Covariant¸a în cazul acestui tabel <strong>de</strong> date este 60, dar aceasta nu înseamnǎ nici<strong>de</strong>cum cǎ<br />
relat¸ia <strong>de</strong> <strong>de</strong>pen<strong>de</strong>nt¸ǎ liniarǎ între X, Y este mai strânsǎ. Relat¸ia <strong>de</strong> <strong>de</strong>pen<strong>de</strong>nt¸ǎ liniarǎ<br />
74
este aceea¸si ¸si doar datele sunt mai împrǎ¸stiate. Aceasta este problema cu covariant¸a<br />
atunci când vrem sǎ mǎsurǎm cu ajutorul ei <strong>de</strong>pen<strong>de</strong>nt¸a liniarǎ între douǎ variabile.<br />
Trebuie sǎ gǎsim o cale <strong>de</strong> eliminare a efectului împrǎ¸stierii datelor atunci când mǎsurǎm<br />
<strong>de</strong>pen<strong>de</strong>nt¸a.<br />
Dacǎ standardizǎm X ¸si Y împǎrt¸ind <strong>de</strong>viat¸ia fiecǎreia <strong>de</strong> la media sa cu <strong>de</strong>viat¸ia<br />
standard:<br />
x ′ x − x<br />
= ¸si y ′ y − y<br />
=<br />
sx<br />
¸si calculǎm covariant¸a lui X ′ ¸si Y ′ , vom avea o covariant¸ǎ care nu mai este influent¸atǎ <strong>de</strong><br />
împrǎ¸stierea datelor. Exact acest lucru este realizat prin introducerea coeficientului <strong>de</strong><br />
corelat¸ie liniar r. Astfel coeficientul <strong>de</strong> corelat¸ie liniar este:<br />
r = covar(X ′ , Y ′ ) =<br />
sy<br />
covar(X, Y )<br />
sx · sy<br />
Coeficientul <strong>de</strong> corelat¸ie liniarǎ standardizeazǎ mǎsura <strong>de</strong>pen<strong>de</strong>nt¸ei ¸si ne permite sǎ comparǎm<br />
cât <strong>de</strong> strânsǎ este <strong>de</strong>pen<strong>de</strong>nt¸a liniarǎ a diferitelor seturi <strong>de</strong> date bidimensionale.<br />
Formula coeficientului <strong>de</strong> corelat¸ie liniarǎ a<strong>de</strong>sea poartǎ <strong>de</strong>numirea <strong>de</strong> momentul produs<br />
Pearson.<br />
Valoarea coeficientului <strong>de</strong> corelat¸ie liniarǎ r în cazul setului <strong>de</strong> date consi<strong>de</strong>rat la început<br />
este:<br />
0, 6<br />
r =<br />
= 0, 07<br />
(4, 099) · (2, 098)<br />
Pentru cǎ <strong>de</strong>terminarea coeficientului <strong>de</strong> corelat¸ie liniarǎ cu ajutorul formulei:<br />
r =<br />
covarX, Y<br />
sx · sy<br />
este greoaie, în locul ei se folose¸ste una practicǎ:<br />
r =<br />
SS(X, Y )<br />
� SS(X) · SS(Y )<br />
Aceasta <strong>din</strong> urmǎ formulǎ evitǎ calculul separat al lui x, y, sx, sy precum ¸si calculul<br />
<strong>de</strong>viat¸iilor <strong>de</strong> la medie.<br />
75
21 Inferent¸ǎ privind coeficientul <strong>de</strong> corelat¸ie liniarǎ<br />
Dupǎ ce coeficientul <strong>de</strong> corelat¸ie liniarǎ r a fost calculat pentru un e¸santion se pune în<br />
mod natural întrebarea: valoarea lui r indicǎ oare cǎ existǎ o <strong>de</strong>pen<strong>de</strong>nt¸ǎ liniarǎ între<br />
cele douǎ variabile în cazul populat¸iei <strong>din</strong> care e¸santioanele au fost luate?<br />
Pentru a rǎspun<strong>de</strong> la aceastǎ întrebare facem o verificare a ipotezelor statistice.<br />
Etapa 1. Formularea ipotezei nule H0:<br />
”Cele douǎ variabile sunt liniar necorelate.”<br />
Aceasta înseamnǎ ρ = 0, ρ fiind coeficientul <strong>de</strong> corelat¸ie pentru<br />
populat¸ie.<br />
Etapa 2. Formularea ipotezei alternative.<br />
Aceasta poate fi unilateralǎ sau bilateralǎ. Cel mai frecvent este<br />
bilateralǎ ρ �= 0. Cu toate acestea dacǎ suspectǎm cǎ avem doar o<br />
singurǎ corelat¸ie pozitivǎ ori o singurǎ corelat¸ie negativǎ trebuie sǎ<br />
folosim test unilateral. Ipoteza alternativǎ în cazul testului unilateral<br />
este: ρ > 0 sau ρ < 0.<br />
Etapa 3. Regiunea criticǎ pentru testul statistic este în partea dreaptǎ dacǎ ne<br />
a¸steptǎm la o corelat¸ie pozitivǎ ¸si este în stânga dacǎ ne a¸steptǎm la o<br />
corelat¸ie negativǎ.<br />
Testul statistic folosit pentru testarea ipotezei nule este scorul standard ¸si valoarea testului<br />
statistic este valoarea lui r calculatǎ <strong>din</strong> e¸santion. Valorile critice pentru r se gǎsesc<br />
în urmǎtorul tabel la intersect¸ia coloanei corespunzǎtoare valorii lui α ¸si a liniei corespunzǎtoare<br />
gradului <strong>de</strong> libertate df = n − 2:<br />
76
Valorile critice pentru r dacǎ ρ = 0<br />
df|α 0,10 0,05 0,02 0,01<br />
1 0,988 0,997 1,000 1,000<br />
2 0,900 0,950 0,980 0,980<br />
3 0,805 0,878 0,934 0,959<br />
4 0,729 0,811 0,882 0,917<br />
5 0,669 0,754 0,833 0,874<br />
6 0,662 0,707 0,789 0,834<br />
7 0,582 0,666 0,750 0,798<br />
8 0,549 0,632 0,716 0,765<br />
9 0,521 0,602 0,685 0,735<br />
10 0,497 0,576 0,658 0,708<br />
11 0,476 0,553 0,634 0,684<br />
12 0,458 0,532 0,612 0,661<br />
13 0,441 0,514 0,592 0,641<br />
14 0,426 0,497 0,574 0,623<br />
15 0,412 0,482 0,558 0,606<br />
16 0,400 0,468 0,542 0,590<br />
17 0,389 0,456 0,528 0,575<br />
18 0,378 0,444 0,516 0,561<br />
19 0,369 0,433 0,503 0,549<br />
20 0,360 0,423 0,492 0,537<br />
25 0,323 0,381 0,445 0,487<br />
30 0,296 0,349 0,409 0,449<br />
35 0,275 0,325 0,381 0,418<br />
40 0,257 0,304 0,358 0,393<br />
45 0,243 0,288 0,338 0,372<br />
50 0,231 0,273 0,322 0,354<br />
60 0,211 0,250 0,295 0,325<br />
70 0,195 0,232 0,274 0,302<br />
80 0,183 0,217 0,256 0,283<br />
90 0,173 0,205 0,242 0,267<br />
100 0,164 0,195 0,230 0,254<br />
Valorile <strong>din</strong> acest tabel sunt valori critice pentru r pentru un test bilateral.<br />
Pentru un test unilateral valoarea lui α este dublul valorii lui α ce se folose¸ste în verificarea<br />
ipotezelor statistice.<br />
Etapa 4. Se <strong>de</strong>terminǎ r <strong>din</strong> e¸santion.<br />
Etapa 5. Se <strong>de</strong>terminǎ dacǎ r este în regiunea criticǎ sau nu.<br />
Neacceptarea ipotezei nule înseamnǎ cǎ existǎ o probǎ a <strong>de</strong>pen<strong>de</strong>nt¸ei <strong>din</strong>tre cele douǎ<br />
variabile ale populat¸iei<br />
Ment¸iune: Aceasta nu înseamnǎ cǎ am stabilit o relat¸ie <strong>de</strong> tip cauzǎ efect ci<br />
doar o relat¸ie matematicǎ care permite sǎ se prezicǎ comportamentul variabilei<br />
77
<strong>de</strong> ie¸sire Y <strong>din</strong> comportamentul variabilei <strong>de</strong> intrare X.<br />
Exemplul 21.1.<br />
În cazul tabelului <strong>de</strong> date:<br />
x 2 3 6 8 11 12<br />
y 1 5 3 2 6 1<br />
avem n = 6, iar r = 0, 07. Întrebarea este dacǎ aceastǎ valoare a lui r diferǎ <strong>de</strong> zero în<br />
mod semnificativ dacǎ nivelul <strong>de</strong> semnificat¸ie este α = 0, 02?<br />
Etapa 1. H0 : ρ = 0<br />
Etapa 2. H0 : ρ �= 0<br />
Etapa 3. Avem α = 0, 02 ¸si df = n − 2 = 6 − 2 = 4. Valorile critice <strong>din</strong> tabel<br />
sunt: −0, 882 ¸si 0, 882.<br />
Etapa 4. Valoarea calculatǎ a lui r este r ∗ = 0, 07<br />
Etapa 5. Se acceptǎ H0.<br />
Concluzie: Nu am putut arǎta cǎ X, Y sunt corelate. Dacǎ acceptǎm ipoteza nulǎ<br />
înseamnǎ cǎ in<strong>de</strong>pen<strong>de</strong>nt¸a liniarǎ <strong>din</strong>tre cele douǎ variabile a fost arǎtatǎ.<br />
Ca ¸si în alte probleme, uneori se cere estimarea unui interval <strong>de</strong> încre<strong>de</strong>re pentru<br />
coeficientul <strong>de</strong> corelat¸ie ρ. Este posibilǎ estimarea coeficientului <strong>de</strong> corelat¸ie ρ folosind<br />
un tabel care ne dǎ centuri <strong>de</strong> încre<strong>de</strong>re. Tabelul urmǎtor reprezintǎ asemenea centuri<br />
<strong>de</strong> încre<strong>de</strong>re pentru intervale <strong>de</strong> încre<strong>de</strong>re <strong>de</strong> 95%: Exemplul urmǎtor aratǎ cum trebuie<br />
citit un asemenea tabel.<br />
Exemplul 21.2. Pentru un e¸santion <strong>de</strong> 15 perechi <strong>de</strong> date o valoare calculatǎ a lui r este<br />
r = 0, 35. Sǎ se <strong>de</strong>termine intervalul <strong>de</strong> încre<strong>de</strong>re 95% pentru coeficientul <strong>de</strong> corelat¸ie<br />
liniar ρ a populat¸iei?<br />
1) Se localizeazǎ 0, 35 pe axa orizontalǎ (axa coeficientului <strong>de</strong> corelat¸ie liniarǎ) ¸si se<br />
duce linia verticalǎ.<br />
78
2) Se <strong>de</strong>terminǎ intersect¸ia liniei verticale cu centurile corespunzǎtoare mǎrimii<br />
e¸santionului (aceasta fiind 15) ¸si se obt¸in douǎ puncte pe linia verticalǎ.<br />
3) Intervalul <strong>de</strong> încre<strong>de</strong>re este intervalul <strong>de</strong>terminat <strong>de</strong> ordonatele acestor puncte<br />
(−0, 20, −0, 72) (axa ordonatelor este axa coeficientului <strong>de</strong> corelat¸ie a populat¸iei).<br />
79
22 Regresie liniarǎ<br />
Dacǎ valoarea coeficientului <strong>de</strong> corelat¸ie liniarǎ r indicǎ o corelat¸ie liniarǎ strânsǎ atunci se<br />
pune problema stabilirii unei relat¸ii numerice exacte. Aceastǎ relat¸ie exactǎ este obt¸inutǎ<br />
prin regresie liniarǎ.<br />
În general statisticianul cautǎ o ecuat¸ie care exprimǎ relat¸ia <strong>din</strong>tre douǎ variabile. Ecuat¸ia<br />
aleasǎ este cea mai bunǎ fitare a diagramei <strong>de</strong> dispersie. Ecuat¸iile gǎsite se numesc ecuat¸ii<br />
<strong>de</strong> predict¸ie, iar în continuare sunt prezentate câteva asemenea ecuat¸ii:<br />
y = b0 + b1 · x - liniarǎ<br />
y = a + b · x + c · x 2 - pǎtraticǎ<br />
y = a · b x - exponent¸ialǎ<br />
y = a · log b x - logaritmicǎ.<br />
Obiectivul final este ca folosind ecuat¸ii sǎ se facǎ predict¸ii. În general valoarea exactǎ a<br />
variabilei Y nu este prezisǎ. Ne mult¸umim dacǎ predict¸ia este suficient <strong>de</strong> apropiatǎ.<br />
Definit¸ia 22.1. Regresia liniarǎ stabile¸ste <strong>de</strong>pen<strong>de</strong>nt¸a liniarǎ în medie a lui y în funct¸ie<br />
<strong>de</strong> x.<br />
Vom <strong>de</strong>scrie în continuare cum se stabile¸ste cea mai bunǎ <strong>de</strong>pen<strong>de</strong>nt¸ǎ liniarǎ pentru un<br />
set <strong>de</strong> date (x, y).<br />
Dacǎ relat¸ia <strong>de</strong> <strong>de</strong>pen<strong>de</strong>nt¸ǎ liniarǎ pare potrivitǎ, cea mai bunǎ relat¸ie liniarǎ se stabile¸ste<br />
cu metoda celor mai mici pǎtrate.<br />
Sǎ presupunem cǎ ˆy = b0 + b1 · x este cea mai bunǎ relat¸ie liniarǎ. Metoda celor mai mici<br />
pǎtrate cere ca b0 ¸si b1 sǎ fie astfel încât � (y − ˆy) 2 sǎ fie minimǎ.<br />
Din teorema lui Fermat rezultǎ cǎ valorile minime ale funct¸iei:<br />
se obt¸in pentru<br />
b1 =<br />
F (b0, b1) = � (y − b0 − b1 · x) 2<br />
�<br />
(x − x) · (y − y)<br />
� , b0 =<br />
(x − x) 2 1<br />
n ·<br />
��<br />
y − b1 · � �<br />
x<br />
b1 este panta dreptei, iar b0 este ordonata la origine.<br />
Pentru <strong>de</strong>terminarea pantei b1 <strong>de</strong> obicei se folose¸ste formula echivalentǎ:<br />
b1 =<br />
SS(x, y)<br />
SS(x)<br />
�� �2 x ¸si SS(x, y) = � x · y − 1<br />
�� � �<br />
x · y .<br />
un<strong>de</strong>: SS(x) = � x2 − 1<br />
n ·<br />
n ·<br />
Ment¸ionǎm aici cǎ expresiile SS(x, y) ¸si SS(x) apar ¸si în formula <strong>de</strong> calcul al coeficientului<br />
<strong>de</strong> corelat¸ie liniarǎ. De aceea în momentul calculǎrii lui r putem afla ¸si valoarea pantei<br />
b1.<br />
80
Exemplul 22.1. În cazul unui e¸santion <strong>de</strong> 10 indivizi consi<strong>de</strong>rǎm urmǎtorul set <strong>de</strong> date.<br />
x 27 22 15 35 30 52 35 55 40 40<br />
y 30 26 25 42 38 40 32 54 50 43<br />
Pentru a <strong>de</strong>termina cea mai bunǎ relat¸ie liniarǎ ˆy = b0 + b1 · x se calculeazǎ SS(x, y) ¸si<br />
SS(x) ¸si se obt¸ine:<br />
SS(x, y) = 919, 0 ¸si SS(x) = 1396, 9<br />
<strong>de</strong> un<strong>de</strong> panta b1 este:<br />
b1 =<br />
919, 0<br />
1396, 9<br />
= 0, 6599 ≈ 0, 66.<br />
Pentru a <strong>de</strong>termina ordonata în origine b0 se folose¸ste formula <strong>de</strong> calcul a acesteia ¸si<br />
rezultǎ:<br />
b0 = 1<br />
[380 − 0, 65 · 351] = 14, 9077 ≈ 14, 9<br />
10<br />
Astfel cea mai bunǎ relat¸ie liniarǎ este:<br />
Remarca 22.1.<br />
ˆy = 14, 9 + 0, 66 · x<br />
a) Panta b1 reprezintǎ schimbarea prezisǎ a variabilei y corespunzǎtoare unei cre¸steri<br />
cu o unitate a variabilei x.<br />
b) Ordonata b0 reprezintǎ valoarea lui y în x = 0. Doar dacǎ x = 0 este în domeniul<br />
<strong>de</strong> date putem spune cǎ b0 este valoarea prezisǎ a lui y pentru x = 0.<br />
c) Cea mai bunǎ relat¸ie liniarǎ este o dreaptǎ ce trece prin punctul <strong>de</strong> coordonate<br />
(x, y). Acest fapt poate fi utilizat ca verificare atunci când se traseazǎ graficul celei<br />
mai bune relat¸ii liniare.<br />
Exemplul 22.2. În cazul unui e¸santion aleator <strong>de</strong> 8 indivizi consi<strong>de</strong>rǎm urmǎtorul tabel<br />
<strong>de</strong> date<br />
x 65 65 62 67 69 65 61 67<br />
y 105 125 11 120 140 135 95 130<br />
Diagrama <strong>de</strong> împrǎ¸stiere a acestui set <strong>de</strong> date sugereazǎ o corelat¸ie liniarǎ.<br />
81
Pentru a gǎsi cea mai bunǎ relat¸ie <strong>de</strong> <strong>de</strong>pen<strong>de</strong>nt¸ǎ liniarǎ calculǎm SS(x, y) ¸si SS(x) ¸si<br />
gǎsim:<br />
SS(x, y) = 230, 0 ¸si SS(x) = 48, 875<br />
De aici avem:<br />
<strong>de</strong> un<strong>de</strong>:<br />
b0 = 1<br />
n<br />
b1 =<br />
230, 0<br />
48, 875<br />
= 4, 706 ≈ 4, 71.<br />
��<br />
y − b1 · � �<br />
x = −186, 478 ≈ 186, 5<br />
ˆy = −186, 5 + 4, 71 · x<br />
Remarca 22.2. O estimare ”grosierǎ” a celei mai bune relat¸ii <strong>de</strong> <strong>de</strong>pen<strong>de</strong>nt¸ǎ liniarǎ se<br />
poate face în felul urmǎtor:<br />
- ca ¸si în cazul aproximǎrii coeficientului <strong>de</strong> corelat¸ie r se consi<strong>de</strong>rǎ o curbǎ închisǎ<br />
în jurul mult¸imii <strong>de</strong> perechi (x, y);<br />
- diametrul maxim al mult¸imii este o aproximare a graficului <strong>de</strong> <strong>de</strong>pen<strong>de</strong>nt¸ǎ liniarǎ;<br />
- se scrie ecuat¸ia <strong>de</strong> <strong>de</strong>pen<strong>de</strong>nt¸ǎ liniarǎ ca ecuat¸ia unei drepte ce trece prin douǎ<br />
puncte <strong>de</strong> pe acest diametru;<br />
- ca ¸si în cazul estimǎrii lui r aceastǎ estimare este una grosierǎ ¸si trebuie folositǎ ca<br />
atare.<br />
82
23 Analizǎ <strong>de</strong> regresie liniarǎ<br />
Mo<strong>de</strong>lul liniar folosit pentru a explica <strong>de</strong>pen<strong>de</strong>nt¸a liniarǎ a douǎ variabile referitoare la<br />
aceea¸si populat¸ie este <strong>de</strong>finit <strong>de</strong> ecuat¸ia:<br />
y = β0 + β1 · x + ε<br />
Aceastǎ ecuat¸ie reprezintǎ relat¸ia liniarǎ <strong>din</strong>tre douǎ variabile x ¸si y într-o populat¸ie. În<br />
aceastǎ relat¸ie:<br />
- β0 este ordonata la origine;<br />
- β1 este panta;<br />
- y este valoarea observatǎ la o valoare datǎ a lui x;<br />
- β0 + β · x este media lui y pentru valoarea datǎ a lui x<br />
Remarcǎm cǎ eroarea ε <strong>de</strong>pin<strong>de</strong> <strong>de</strong> x. Pentru valorile x1, x2, . . . , xn ale lui x mo<strong>de</strong>lul liniar<br />
se scrie:<br />
yi = β0 + β1 · xi + εi, i = 1, 2, . . . , n<br />
- ε este eroarea aleatoare a valorii observate y la o valoare datǎ a lui x care reprezintǎ<br />
<strong>de</strong>viat¸ia valorii observate y <strong>de</strong> la medie.<br />
Dreapta <strong>de</strong> regresie liniarǎ obt¸inutǎ ˆy = b0 + b1 · x pe baza datelor (xi, yi), i = 1, 2, . . . , n<br />
ne dǎ b0 care este o estimare pentru β0 ¸si b1 care este o estimare pentru β1. Atunci vom<br />
putea scrie yi = b0 + b · xi + ei. Erorile sunt estimate prin yi − ˆyi care este diferent¸a<br />
<strong>din</strong>tre valoarea observatǎ yi ¸si valoarea prezisǎ ˆyi a lui y la o valoare datǎ a lui x. Fiindcǎ<br />
ˆyi = b0 + b1 · xi avem cǎ:<br />
ei = yi − ˆyi<br />
Erorile ei sunt cunoscute sub numele <strong>de</strong> reziduuri.<br />
Variabila aleatoare e are urmǎtoarele proprietǎt¸i:<br />
• e > 0 ⇐⇒ y > ˆy;<br />
• e < 0 ⇐⇒ y < ˆy;<br />
• pentru un x dat suma erorilor (reziduurilor) pentru diferite valori ale lui i este zero;<br />
aceasta este o consecint¸ǎ a meto<strong>de</strong>i celor mai mici pǎtrate; ¸si astfel media erorilor<br />
n�<br />
experimentale este zero: ei = 0.<br />
i=1<br />
Notǎm cu σ 2 ε variant¸a erorilor aleatoare a datelor observate ¸si ne propunem sǎ estimǎm<br />
aceastǎ variant¸ǎ.<br />
Înainte însǎ sǎ trecem la estimarea variant¸ei σ 2 ε sǎ analizǎm put¸in ce reprezintǎ eroarea<br />
ε? ε reprezintǎ diferent¸a <strong>din</strong>tre valoarea observatǎ y ¸si valoarea medie a lui y pentru o<br />
valoare datǎ a lui x. Întrucât nu cunoa¸stem valoarea medie a lui y, vom folosi ecuat¸ia <strong>de</strong><br />
regresie, iar valoarea medie a lui y pentru un x dat, o vom estima cu ˆy valoarea prezisǎ<br />
<strong>de</strong> ecuat¸ia <strong>de</strong> regresie a lui y pentru acest x. Astfel estimarea lui ε este e = y − ˆy.<br />
83
Dacǎ pentru o valoare datǎ x avem mai multe valori observate y acestea pot fi reprezentate<br />
pe verticala în x pe axa Ox.<br />
O distribut¸ie similarǎ apare la fiecare valoare a lui x. Valoarea medie a datelor y observate<br />
<strong>de</strong>pin<strong>de</strong> <strong>de</strong> x ¸si se estimeazǎ cu ˆy.<br />
Altfel spus, <strong>de</strong>viat¸ia standard a distribut¸iei datelor y <strong>de</strong> la medie este aceea¸si pentru orice<br />
x:<br />
84
Reamintim cǎ variant¸a s2 a unui set <strong>de</strong> date statistice x1, x2, . . . , xn a fost <strong>de</strong>finitǎ cu<br />
formula:<br />
s 2 = 1<br />
n�<br />
(xi − x)<br />
n<br />
2<br />
i=1<br />
Determinarea variant¸ei setului <strong>de</strong> date y introduce o complicat¸ie pentru cǎ media datelor<br />
y diferǎ <strong>de</strong> la un x la altul. Pentru fiecare x media este estimatǎ prin valoarea prezisǎ ˆy ce<br />
corespun<strong>de</strong> la x prin dreapta <strong>de</strong> regresie. Astfel variant¸a erorii ε se estimeazǎ cu formula:<br />
s 2 ε = 1<br />
n<br />
n�<br />
(yi − ˆyi) 2<br />
i=1<br />
care aratǎ cǎ variant¸a erorii ε este variant¸a variabilei y în jurul dreptei <strong>de</strong> regresie.<br />
Variant¸a erorii s 2 ε poate fi scrisǎ sub forma:<br />
s 2 ε = 1<br />
n<br />
¸si este o estimare a lui σ 2 ε<br />
� (y − b0 − b1 · xi) 2 = 1<br />
n<br />
�� y 2 i − b0 · � y − b1 · xi · yi<br />
Exemplul 23.1. O persoanǎ care se mutǎ la Timi¸soara ¸si se angajeazǎ la o companie<br />
dore¸ste sǎ ¸stie în cât timp poate sǎ ajungǎ dimineat¸a cu ma¸sina <strong>de</strong> la locuint¸ǎ la locul <strong>de</strong><br />
muncǎ. Pentru a gǎsi un rǎspuns la aceastǎ întrebare el întreabǎ un numǎr <strong>de</strong> 15 colegi la<br />
ce distant¸ǎ stau <strong>de</strong> locul <strong>de</strong> muncǎ ¸si în cât timp ajung la serviciu ¸si întocme¸ste urmǎtorul<br />
tabel <strong>de</strong> date statistice:<br />
coleg 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15<br />
x - distant¸a<br />
(în km) 3 5 7 8 10 11 12 12 13 15 15 16 18 19 20<br />
y - timpul<br />
(în min) 7 20 20 15 25 17 20 35 26 25 35 32 44 37 45<br />
Pentru a gǎsi un rǎspuns la problemǎ persoana în cauzǎ trebuie sǎ <strong>de</strong>termine dreapta <strong>de</strong><br />
regresie ¸si variant¸a s 2 e.<br />
Folosind formulele <strong>de</strong> calcul el gǎse¸ste:<br />
SS(x) = 2, 616 − (184)2<br />
15<br />
85<br />
= 358, 9333<br />
�
(184) · (403)<br />
SS(x, y) = 5, 623 −<br />
b1 =<br />
15<br />
= 679, 53333<br />
358, 9333<br />
= 1, 893202 ≈ 1, 89<br />
679, 53333<br />
b0 = 1<br />
[403 − (1, 893202) · (184)] = 3, 643387 ≈ 3, 64<br />
15<br />
ˆy = 3, 64 + 1, 89 · x.<br />
Aceasta este formula pe care o va folosi pentru a estima timpul mediu necesar pentru a<br />
ajunge la serviciu în funct¸ie <strong>de</strong> distant¸a x la care locuie¸ste.<br />
Pentru a gǎsi abaterea standard <strong>de</strong> la valoarea estimatǎ el va trebui sǎ calculeze ¸si variant¸a<br />
s 2 ε. Folosind formulele <strong>de</strong> calcul el gǎse¸ste: s 2 ε = 29, 17.<br />
86
24 Inferent¸ǎ referitoare la panta unei drepte <strong>de</strong> regresie<br />
liniarǎ<br />
Dupǎ ce ecuat¸ia dreptei <strong>de</strong> regresie liniarǎ a fost <strong>de</strong>terminatǎ ne întrebǎm când putem<br />
folosi aceastǎ ecuat¸ie pentru a prezice valorile variabilei y în funct¸ie <strong>de</strong> x?<br />
Rǎspunsul la întrebare îl vom da parcurgând proce<strong>de</strong>ul <strong>de</strong> verificare a ipotezelor statistice.<br />
Înainte <strong>de</strong> a face inferent¸ǎ privind dreapta <strong>de</strong> regresie facem urmǎtoarele ipoteze:<br />
- pentru fiecare x distribut¸ia datelor y observate este aproximativ normalǎ;<br />
- pentru fiecare x variant¸a distribut¸iei datelor y observate este aceea¸si.<br />
Înainte sǎ trecem la parcurgerea celor cinci etape (care constituie verificarea ipotezelor<br />
statistice) sǎ analizǎm distribut¸ia pantelor ce se obt¸in pentru e¸santioane aleatoare <strong>de</strong><br />
mǎrime n. Aceste pante b1 au o distribut¸ie aproape normalǎ având media β1 panta în<br />
cazul populat¸iei ¸si variant¸a σ2 datǎ <strong>de</strong>:<br />
b1<br />
σ 2 b1 =<br />
σ 2 ε<br />
� (x − x) 2<br />
Un estimator a<strong>de</strong>cvat s 2 b1 a lui σ2 b1 se obt¸ine prin înlocuirea lui σ2 ε cu s 2 e:<br />
s 2 b1 =<br />
Aceastǎ formulǎ poate fi scrisǎ sub forma:<br />
s 2 b1 = s2 e<br />
SS(x) =<br />
s 2 e<br />
� (x − x) 2<br />
s 2 e<br />
� x − � ( � x) 2 /n �<br />
Eroarea standard a regresiei (pantei) este σb1 ¸si este estimatǎ prin sb1.<br />
Putem trece acum la verificarea ipotezelor statistice:<br />
Etapa 1. Formularea ipotezei H0. Ipoteza nulǎ va fi β1 = 0. Dacǎ β1 = 0<br />
atunci ecuat¸ia liniarǎ nu poate fi folositǎ pentru a prezice valoarea lui<br />
y aceasta înseamnǎ cǎ: ˆy = y.<br />
Etapa 2. Ipoteza alternativǎ poate fi unilateralǎ sau bilateralǎ. Dacǎ bǎnuiala<br />
este cǎ panta este pozitivǎ atunci un test unilateral este potrivit:<br />
Ha : β1 > 0.<br />
Etapa 3. Ca test statistic folosim testul t. Numǎrul gra<strong>de</strong>lor <strong>de</strong> libertate pentru<br />
test este df = n − 2. În cazul Exemplului 23.1 care se referǎ la timpul<br />
necesar pentru a ajunge cu ma¸sina la servici df = 15−2 = 13. La nivelul<br />
<strong>de</strong> semnificat¸ie α = 0, 05, valoarea criticǎ a lui t este t(13; 0, 05) = 1, 77.<br />
Formula <strong>de</strong> calcul folosit pentru valoarea testului statistic t pentru<br />
inferent¸ǎ este:<br />
t ∗ = b1 − β1<br />
sb1<br />
87
Etapa 4. Având în ve<strong>de</strong>re egalitatea s2 b1 = s2e în cazul exemplului consi<strong>de</strong>rat<br />
SS(X)<br />
gǎsim cǎ valoarea testului statistic este:<br />
t ∗ = b1 − β1<br />
sb1<br />
= 1, 89 − 0<br />
√ 0, 0813 = 6, 629 ≈ 6, 63<br />
Etapa 5. Decizie: ipoteza H0 se respinge pentru cǎ t ∗ este în regiunea criticǎ.<br />
Concluzie: Panta dreptei <strong>de</strong> cea mai bunǎ aproximat¸ie este mai mare<br />
ca zero. Probele statistice aratǎ cǎ existǎ o relat¸ie liniarǎ între distant¸a<br />
locuint¸ǎ-serviciu ¸si perioada <strong>de</strong> timp necesarǎ pentru a ajunge cu ma¸sina<br />
la serviciu ¸si aceastǎ perioadǎ <strong>de</strong> timp este predictibilǎ.<br />
Panta β1 a dreptei <strong>de</strong> regresie liniarǎ a populat¸iei poate fi estimatǎ cu ajutorul intervalului<br />
<strong>de</strong> încre<strong>de</strong>re. Capetele acestui interval <strong>de</strong> încre<strong>de</strong>re sunt date <strong>de</strong> formula:<br />
b1 ± t(n − 2; α<br />
) · sb1<br />
2<br />
În cazul Exemplului 23.1 la nivelul <strong>de</strong> semnificat¸ie α = 0, 05:<br />
1, 89 ± 2, 16 · � 0, 0813 = 1, 89 ± 0, 62<br />
capetele intervalului <strong>de</strong> încre<strong>de</strong>re sunt 1, 27 ¸si 2, 51.<br />
Deci intervalul <strong>de</strong> încre<strong>de</strong>re pentru β1 este (1, 27; 2, 51) la nivelul <strong>de</strong> semnificat¸ie 0, 05.<br />
88
BIBLIOGRAFIE<br />
[1] Johnson Robert, Elementary Statistics, Duxbury Press, 1984, Boston<br />
[2] Andrei Tudorel, Stancu Andrei, Statisticǎ - teorie ¸si aplicat¸ii, Editura All, 1995,<br />
Bucure¸sti<br />
[3] Thomas H. Wonacott, Ronald J. Wonacott: Statistique, Economica, 4me dition,<br />
1991,Paris<br />
[4] Constantin Gheorghe, Surulescu Nicolae, Zaharie Daniela, Lect¸ii <strong>de</strong> statisticǎ <strong>de</strong>scriptivǎ,<br />
<strong>Universitatea</strong> <strong>de</strong> <strong>Vest</strong>, 1998, Timi¸soara<br />
[5] Boc¸san Gheorghe, Estimarea parametrilor mo<strong>de</strong>lelor statistice, <strong>Universitatea</strong> <strong>de</strong> <strong>Vest</strong>,<br />
1995, Timi¸soara<br />
[6] Yule G. Udny, Kendall, M.G., Introducere în teoria statisticii, Editura S¸tiint¸ificǎ,<br />
1969, Bucure¸sti<br />
89