statistika su sas i - Matematikos ir Informatikos fakultetas - Vilniaus ...

ĮVADASTikimybių teorijos ir matematinės statistikos metodai yra naudojami įvairiose moksloir technikos srityse, pavyzdžiui, medicinoje, biologijoje, ekonomikoje, gamyboje ir kt.Statistika – tai mokslas, apimantis informacijos rinkimo, sisteminimo, analizavimo irinterpretavimo metodus. Statistinius metodus galima suskirstyti į dvi pagrindines grupes:aprašomoji statistika ir matematinė (sprendžiamoji) statistika. Aprašomoji statistika, taiduomenų sisteminimo ir pateikimo metodai. Matematinė statistika nagrinėja duomenųanalizės ir interpretavimo metodus.Atliekant duomenų analizę ir turint didelius duomenų masyvus yra naudojamistatistikos paketai (duomenų analizės sistemos), pavyzdžiui, SAS, SPlus, STATISTIKA,SPSS ir kt. Kai kurie statistiniai metodai yra realizuoti Microsoft Excel programoje.Statistinių paketų pasirinkimas yra labai didelis. Kokį paketą pasirinkti priklauso nuosprendžiamų uždavinių sudėtingumo ir tipo, duomenų masyvo dydžio, vartotojokvalifikacijos, turimos įrangos ir finansinių galimybių. Statistinius paketus galima suskirstyti įtris pagrindines grupes: profesionalūs, universalūs ir specializuoti. Profesionalios duomenųanalizės sistemos skirtos vartotojams, kurie dirba su dideliais duomenų masyvais ir naudojane tik klasikinius statistinius metodus, bet ir specializuotus statistinius algoritmus. Mažesnesgalimybes (realizuota mažiau statistinių algoritmų) turi universalūs paketai, tačiau ir kaina jųyra žymiai mažesnė negu profesionalių. Specializuoti paketai skirti spręsti tik kai kuriuosstatistinius uždavinius.Didžiausias galimybes (plačiausias statistinių algoritmų pasirinkimas) tarp profesionaliųduomenų analizės sistemų turi SAS. Sistema SAS (Statistical Analysis System)sparčiai vystoma nuo 1976 metų. Gali dirbti įvairiose operacinėse sistemose. Apima visusreikalingus duomenų analizės etapus: duomenų įvedimas, pertvarkymas, saugojimas,duomenų analizė, ataskaitų rašymas. Sistema sudaryta iš sujungtų tarpusavyje modulių.Sistemos branduolys – modulis Base, kitus modulius galima pasirinkti priklausomai nuovartotojo poreikių, pavyzdžiui, modulis STAT yra skirtas statistinei duomenų analizei,modulis OR – operacijų tyrimui, QC – kokybės kontrolės modulis, GRAPH – grafinioduomenų vaizdavimo modulis ir kt. Pagrindinis SAS privalumas: yra realizuota daugstatistinių algoritmų, be to, vartotojas pats nesunkiai gali sukurti reikiamus algoritmus.Programą, parašytą vienoje operacinėje sistemoje, galima pernešti į kitą operacinę sistemą ir jiveiks, reikia tik pakeisti specifines komandas, skirtas darbui su bylomis ir katalogais. Taip patyra produktų, skirtų vartotojams, neturintiems programavimo įgūdžių, pavyzdžiui, „SASEnterprise Guide“ galima atlikti įvairią statistinę analizę nerašant programinio kodo.Ši mokymo priemonė yra skirta visiems, kas nori išmokti dirbti su SAS sistema irįsisavinti statistinių metodų taikymą duomenų analizei. Ši knyga yra taikomojo pobūdžio,todėl ji gali būti naudinga ne tik statistikos specialybių studentams. Knygoje išdėstytamedžiaga apima pagrindinį statistikos kursą (aprašomoji statistika, taškiniai parametrųįverčiai ir pasikliautinieji intervalai, vienos ir dviejų imčių parametrinių hipotezių tikrinimouždaviniai, dažniausiai naudojami neparametriniai kriterijai), kuris tradiciškai būna skaitomasįvairių specialybių studentams, pavyzdžiui, ekonominių, gamtos mokslų specialybiųstudentams.Tai pirmoji knyga. Ji apima dalyko „Matematinė statistika“, kuris skaitomas„Matematinės statistikos“ katedros studentams, laboratorinių užsiėmimų, kuriuos jau keletąmetų vedu, pirmųjų dviejų semestrų medžiagą. Antrojoje knygoje „Statistika su SAS ® , II“numatoma išdėstyti dispersinės, regresinės, koreliacinės analizės metodų, Hotelingostatistikos taikymų, klasifikavimo, faktorinės ir klasterinės analizės metodų taikymą duomenųanalizei naudojant SAS sistemą.Trumpai apžvelgsime šioje mokymo priemonėje pateiktą medžiagą.Pirmajame skyriuje aprašyti pagrindiniai darbo su SAS sistema principai. Šiameskyriuje pateikiamos duomenų lentelių sukūrimo, pertvarkymo komandos, aprašomi duomenų6

importavimo ir eksportavimo būdai į kito formato bylas. Pateikiami makrokomandųnaudojimo principai.Antrajame skyriuje aprašytos specialios funkcijos. Pagrindinis dėmesys skirtasmatematinėms, tikimybinių skirstinių, atsitiktinių dydžių modeliavimo ir statistinėmsfunkcijoms.Trečiajame skyriuje pateikiami aprašomosios statistikos metodai: dažnių lentelės, skaitinėscharakteristikos ir grafiniai duomenų vaizdavimo metodai.Ketvirtas skyrius skirtas parametrų taškinių įverčių ir pasikliautinųjų intervalųkonstravimo uždaviniams. Jame pateikiamos parametrų taškinių įverčių ir pasikliautinųjųintervalų išraiškos ir apskaičiavimo su SAS sistema būdai įvairių skirstinių atveju.Penktame skyriuje pateikiami parametrinių hipotezių tikrinimo kriterijai. Nagrinėjamivienos ir dviejų imčių uždaviniai.Šeštame skyriuje pateikiami dažniausiai naudojami neparametriniai kriterijai. Pirmajamešio skyriaus skyrelyje nagrinėjamas chi-kvadrato kriterijus, kurį galima naudotisuderinamumo, homogeniškumo ir nepriklausomumo hipotezėms tikrinti. Antrajame pateiktikriterijai, grin-džiami empirinės ir teorinės pasiskirstymo funkcijų skirtumu. Trečiasis skyrelisyra skirtas ranginiams kriterijams. Skyriaus pabaigoje pateikiami ženklų ir grubių klaidųišskyrimo kriterijai.Medžiagos dėstymas visuose skyriuose toks pats, t.y. pradedama nuo uždavinio formuluotės,tada pateikiamas uždavinio sprendimas, aprašoma kaip išspręsti uždavinį naudojantSAS (buvo naudojama SAS 9.1 versija), pateikiamas pavyzdys su duomenimis (realiais arbamodeliuotais) bei gautų rezultatų interpretacija. Naudojama ištisinė formulių, pavyzdžių,lentelių ir paveikslėlių numeracija kiekvieno skyriaus rėmuose; pirmasis skaitmuo žymiskyrių, o antrasis eilės numerį tame skyriuje.Skliaustuose yra pateikiami statistinių terminų angliški atitikmenys.Knygos pabaigoje pateiktas literatūros sąrašas. Jame apsiribota tik tomis knygomis,kurios tiesiogiai buvo naudojamos dėstant medžiagą. Pilnesnę literatūros apžvalgą galimarasti knygoje [3]-[5], o taip pat kartu su SAS sistema platinamame kompakte [9]. Naudingosinformacijos apie SAS sistemą, įvairius modulius galima surasti interneto tinklapyjehttp://www.sas.com.7

I skyrius. DUOMENŲ PARUOŠIMAS STATISTINEI ANALIZEIŠiame skyriuje aprašomi pagrindiniai darbo su SAS sistema principai. Pateikiamiduomenų lentelių sukūrimo būdai, aprašomos komandos, skirtos duomenų pertvarkymui. Taippat pagalbinės procedūros, skirtos duomenų atspausdinimui, rūšiavimui, savo formatosukūrimui. Pateikiami makrokomandų naudojimo principai.1. Pagrindiniai SAS langaiSAS darbo sesijos pradžioje ekrane matome penkis langus (žr. 1.1 pav.): Explorer,Editor, Log, Output, Results.1.1 pav. Pagrindiniai SAS langaiToliau pateikiamas kiekvieno iš paminėtų langų aprašymas.Explorer langas yra skirtas darbui su bylomis. Šis langas naudojamas SAS bibliotekųir bylų kūrimui, bylų atidarymui ir tvarkymui (pvz., kopijuoti, ištrinti, perkelti iš vienos vietosį kitą), SAS duomenų lentelių kūrimui.Explorer lange matome kokios SAS bibliotekos yra sukurtos. Jos palengvina darbą suduomenų lentelėmis. Bibliotekose yra saugomos SAS duomenų lentelės. Biblioteka yranuoroda į katalogą su kuriuo ji yra susieta. Pagal nutylėjimą sukuriamos bibliotekos: Sashelp,Sasuser, Work. Vartotojas gali sukurti savo biblioteką.1.2 pav. Bibliotekos sukūrimasNaują biblioteką galima sukurti dviem būdais:I b ū d a s. Explorer lange aktyvuojame ikoną Libraries. Tada pagrindiniame meniupasirenkame punktą File→New. Ekrane atsiranda langas (žr. 1.2 pav.), kuriame įvedame:8

ibliotekos vardą (name), katalogo vardą nurodant pilną kelią iki jo (path), pavyzdžiui, jeiįvedame: c:\mano, tai bus sukurta biblioteka, susieta su katalogu c:\mano. Jeigu pažymime„Enable at startup“, tai kitą kartą įėjus į SAS sistemą automatiškai bus sukurta bibliotekanurodytu pavadinimu.II b ū d a s. Editor lange surenkame komandą:LIBNAME vardas 'katalogas';čia vardas – bibliotekos vardas, path – katalogas (nurodant pilną kelią iki jo). Pavyzdžiui,Editor lange įvedusLIBNAME duomenys 'c:\mano';bus sukurta biblioteka „duomenys“ susieta su katalogu „c:\mano“.P a s t a b a. Bibliotekos vardas turi tenkinti standartinius vardams taikomus apribojimus.Be to negali būti ilgesnis negu aštuoni simboliai.Editor lange yra rašomas programinis kodas. Toliau pateikiame pagrindinesprograminio kodo sukūrimo taisykles:1. Sudaromas iš dviejų tipų žingsnių: DATA žingsnis, PROC žingsnis. DATAžingsnis skirtas sukurti ir pertvarkyti duomenų lenteles. PROC žingsnis skirtas duomenųanalizei, rezultatų spausdinimui. Žingsniai yra sudaromi iš komandų. Kai kurios komandosnaudojamos tik DATA žingsnyje (duomenų įvedimo ir pertvarkymo komandos), o kai kuriostik PROC žingsnyje (duomenų analizės komandos). Yra komandų, kurias galima naudoti irDATA, ir PROC žingsnyje.2. Data žingsnis atliekamas eilutė po eilutės, stebėjimas po stebėjimo, t.y. imamaspirmas stebėjimas ir su juo atliekamos visos komandas (eilutė po eilutės), nurodytos DATAžingsnyje, tada imamas antras stebėjimas ir t.t.3. Kiekviena SAS komanda baigiasi kabliataškiu.4. Galima rašyti ir mažosiomis, ir didžiosiomis raidėmis.5. Kelios komandos gali būti vienoje eilutėje.6. Vieną komandą galima suskaidyti į kelias eilutes, tačiau žodžių skaidyti negalima.7. Galima įterpti komentarus (paaiškinimus). Juos galima įterpti dviem būdais:a b ū d a s. Komentaras atskiroje eilutėje: prasideda žvaigždute (*), baigiasi kabliataškiu(;).b b ū d a s. Komentaras toje pačioje eilutėje kaip ir komanda: prasideda /* baigiasi*/ .Editor lange parašytą tekstą išsaugome pagrindiniame meniu pasirinkę punktą File→Save arba Save as.Įvykdyti programą:a b ū d a s. Surinkti SUBMIT komandinėje eilutėje (po pagrindiniu meniu).b b ū d a s. Paspausti ikoną su nupieštu bėgančiu žmogumi.c b ū d a s. Pagrindiniame meniu pasirinkti Run → Submit.Log lange spausdinami sisteminiai pranešimai apie SAS sesiją,komandas, klaidas.9vykdomas SASOutput lange spausdinami SAS procedūrų rezultatai. Jei norime išsaugoti Output langeesančius rezultatus, tai pagrindiniame meniu pasirenkame File → Save as, jei norimeatspausdinti, tai pasirenkame File → Print. Kaip rezultatai turi būti išdėstyti Output langegalima nurodyti su komanda:OPTIONS parinktys;kuri yra įvedama Editor lange. Toliau pateikiame keletą dažniausiai naudojamų pasirinkčių:CENTER | NOCENTER – nurodome centruoti ar ne rezultatus Output lange;DATE | NODATE – nurodome ar kiekvieno puslapio viršuje spausdinti šios dienos datą;

NUMBER | NONUMBER – numeruoti ar ne puslapius;LINESIZE = n – čia n yra maksimalus simbolių skaičius eilutėje;PAGESIZE = n – čia n yra maksimalus eilučių skaičius puslapyje;PAGENO = n – pirmojo puslapio numeris bus n;Pilną parinkčių sąrašą galima pasižiūrėti pagrindiniame meniu pasirinkus Help →SAS Help and Documentation.Results lange galima greitai surasti konkretų procedūros rezultatą, išsaugoti iratspausdinti gautus rezultatus arba konkrečią jų dalį.2. SAS duomenų lentelėsKaip jau minėjome SAS duomenų lentelės yra saugomos bibliotekose.SAS duomenų lentelė susideda iš stulpelių (kintamųjų) ir eilučių (stebėjimų).Duomenys saugomi lentelėse gali būti dviejų tipų: skaitinio arba simbolinio. Skaitinio tipoduomenys yra skaičiai. Be skaitmenų skaitinio tipo lauke gali būti: „+“, „-“, „.“ (atskiriantistrupmeninę skaičiaus dalį) arba raidė „E“ (kitas trupmeninio skaičiaus užrašymo būdas).Simbolinio tipo duomenys susideda iš skaitmenų, raidžių ir specialių simbolių (pavyzdžiui,“&”, “!”, “/”).Duomenys gali būti nepilni (yra praleistų reikšmių). SAS praleisti stebėjimai žymimitašku. SAS duomenų lentelėje praleisti stebėjimai žymimi taip: tašku, kai duomenys skaitiniotipo ir tarpu, kai duomenys simbolinio tipo.SAS duomenų lentelėje yra saugomi ne tik duomenys, bet ir papildoma informacija:lentelės pavadinimas, sukūrimo data, informacija apie kiekvieną kintamąjį (vardas, tipas,ilgis, skaitymo formatas, rašymo formatas).SAS duomenų lentelės yra dviejų tipų:1) laikinos lentelės – lentelės, išsaugotos Work bibliotekoje. Jos, pasibaigus SASsesijai, yra panaikinamos. Rašant kreipinį į laikiną lentelę, reikia nurodyti tik lentelės vardą.Pavyzdžiui, Editor lange įvedus kodą:DATA d1;INPUT k1;DATALINES;12;RUN;Work bibliotekoje bus sukurta laikina lentelė „d1“, kurioje bus vienas stulpelis (kintamasis) irdvi eilutės (stebėjimai).2) pastovios lentelės – pasibaigus SAS sesijai jos nepanaikinamos. Šios lentelėspatalpinamos į vartotojo sukurtą biblioteką. Pastovių SAS duomenų lentelių išplėtimas:.sas7bdat. Pavyzdžiui, parašę Editor lange:DATA mano.d1;INPUT k1;DATALINES;12;RUN;sukuriame pastovią SAS duomenų lentelę „d1“, kuri bus bibliotekoje „mano“ (biblioteka jauturi būti sukurta, pavyzdžiui, su komanda LIBNAME).10

3. Duomenų lentelės sukūrimasDuomenis galima įvesti tiesiogiai sukuriant SAS duomenų lentelę (Viewtable langearba Editor lange Data žingsnyje) arba juos galima importuoti (iš tekstinės bylos, Excel,Access ir kt.).SAS duomenų lentelės sukūrimo būdai:1) tiesioginis duomenų įvedimas Editor lange. Šis būdas naudojamas, kai nedaugduomenų arba testuojame programą, pavyzdžiui,DATA lenteles_pavad;INPUT k1 $ k2 k3 ; /* trys kintamieji, k1 simbolinio tipo */DATALINES;a 2 5c 1 4;RUN;2) duomenų įvedimas Viewtable lange. Pagrindiniame meniu pasirenkame Tools →Table Editor. Įvedame duomenis. Lentelę išsaugome pagrindiniame meniu pasirinkę File →Save as.3) importavimas:a) iš tekstinės bylos data žingsnyje, pavyzdžiui:DATA lent_pavad;INFILE ’c:\mano\duomenys.txt’;INPUT k1 $ k2 k3;RUN;b) File → Import data (įvairaus formato duomenų importas).c) IMPORT procedūra (rašoma Editor lange).Tolesniuose skyreliuose pateikiamas išsamus kiekvieno lentelės sukūrimo būdoaprašymas.3.1 Duomenų įvedimas Viewtable langePasirinkus meniu punktą Tools→Table Editor ekrane atsiranda Viewtable langas (žr.1.3 pav.), kuriame galima tiesiogiai įvesti duomenis. Šiame lange taip pat galima peržiūrėti irkoreguoti anksčiau sukurtas duomenų lenteles.1.3 pav. Viewtable langasPriklausomai nuo to kokius duomenis įvedame į stulpelį SAS automatiškai nustatostulpelio (kintamojo) tipą: simbolinis ar skaitinis.11

Galima keisti stulpelių charakteristikas: vardą (name), žymę (label), ilgį (length), tipą(type), skaitymo formatą (informat), rašymo formatą (format). Tuo tikslu paspaudžiamedešinį pelės klavišą ant stulpelio pavadinimo, ekrane atsiranda meniu, jame pasirenkameColumn Attributes. Atlikus šiuos veiksmus ekrane atsiranda langas (žr.1.4 pav.), kuriamegalima keisti stulpelių charakteristikas.Lentelę išsaugome pagrindiniame meniu pasirinkę punktą File→Save As.Kaip jau minėjome, galima peržiūrėti ir koreguoti anksčiau sukurtas duomenų lenteles.Pasirenkame meniu punktą Tools→Table Editor, File→Open, tada pasirenkame biblioteką irlentelę, kurią norime atidaryti. Kitas, greitesnis būdas atidaryti duomenų lentelę: Explorerlange du kartus paspaudžiame kairį pelės klavišą ant lentelės pavadinimo. Atidarius lentelę irnaudojantis kontekstiniu meniu (ant stulpelio pavadinimo paspaudžiame dešinį pelės klavišą)galime keisti stulpelio charakteristikas (Column Attributes), šriftą (Fonts), spalvą (Colors),paslėpti stulpelį (Hide), surūšiuoti (Sort) didėjimo arba mažėjimo tvarka.1.4 pav. Stulpelių charakteristikų keitimo langasViewtable lange galima pasirinkti, kad rodytų tik tas eilutes, kurios tenkina tam tikrassąlygas: paspaudžiame dešinį pelės klavišą ant lentelės langelio (ne ant pavadinimo) iratsiradusiame kontekstiniame meniu pasirenkame punktą Where. Atsidariusiame „WhereExpression“ lange įvedame sąlygą. Ekrane matysime tik eilutes, tenkinančias nurodytą sąlygą.Jeigu vėl norime matyti visus įrašus kontekstiniame meniu pasirenkame Where Clear. Kitasbūdas: pagrindiniame meniu pasirenkame Data→Where (Data→Where Clear).Pagal nutylėjimą lentelė yra atidaroma peržiūros režime (Browse Mode), norint keistiduomenis reikia pereiti į redagavimo režimą (Edit Mode): pasirenkame meniu punktąEdit→Edit Mode.3.2. INPUT komandaKomanda INPUT naudojama Data žingsnyje, kai duomenų lentelė kuriama suDATALINES arba INFILE komandomis. Šioje komandoje yra nurodomi kintamųjų vardai,duomenų tipai (skaitinio ar simbolinio), skaitymo tipai.Duomenų skaitymo tipai:I. Skaitymas sąrašu (list input). Reikia tiesiog išvardinti kintamuosius, nurodant jųvardus ir pažymint kurie kintamieji yra simbolinio tipo. Sintaksė yra labai paprasta, tačiauduomenys turi tenkinti gana griežtus reikalavimus: reikšmės eilutėje turi būti atskirtos bent12

vienu tarpu, praleistas stebėjimas pažymėtas tašku, simbolinio tipo duomenys turi būtipaprasti (negali būti tarpų viduryje reikšmės ir ilgis ne daugiau 8 simbolių).1.1 p a v y z d y s.DATA d1;INPUT k1 $ k2; /* du kintamieji: k1,k2; k1 simbolinio tipo */DATALINES;aa 1bb 2; RUN;Trūkumai: negalime praleisti nereikalingų kintamųjų, negali būti datų ar kitų reikšmių,kurioms reikia specialių priemonių.II. Skaitymas stulpeliais (column input). Jei tarp reikšmių nėra tarpų arba taško,žyminčio praleistą stebėjimą, tai duomenų skaitymas sąrašu netinka.Skaitymo stulpeliais privalumai:1) nebūtini tarpai tarp reikšmių;2) praleistos reikšmės vietoje gali būti tarpas;3) simbolinio tipo duomenyse gali būti tarpai;4) galima praleisti nereikalingus kintamuosius;Naudojant šį būdą reikia išvardinti kintamuosius, nurodant jų vardus ir pažymint kuriekintamieji yra simbolinio tipo, be to, reikia nurodyti nuo kurios pozicijos prasideda kintamojoreikšmė ir kuria baigiasi, pavyzdžiui,INPUT Vardas $ 1-10 Amzius 11-13 Aukstis 14-18;P a s t a b a. Visose eilutėse kintamųjų reikšmės turi būti tose pačiose pozicijosevisose eilutėse.III. Formatuotas skaitymas (formatted input). Naudojant šį būdą reikia išvardintikintamuosius ir nurodyti skaitymo formatą (informat). Jis skirtas nestandartinių duomenųįvedimui, pavyzdžiui, datos; 1,000,000. Yra trys skaitymo formatų tipai:simbolinioskaitiniodatos$informatw.informatw.dinformatw.čia informat – skaitymo formato pavadinimas, w - simbolių skaičius, d - skaitmenų pokablelio skaičius.1.1 lentelėje yra pateikti skaitymo formatų pavyzdžiai (žr.[7]).P a s t a b a. Visus tris išvardintus skaitymo tipus galima naudoti ir viename INPUTsakinyje, t.y. kai kurie kintamieji skaitomi sąrašu, kiti stulpeliais, o dar kiti – panaudojantskaitymo formatus.1.2 p a v y z d y s.DATA d1;INPUT numeris kodas $char5. data yymmdd8. t1 t2;DATALINES;1 M13 96.12.11 5 32 M14 97.08.12 2 43 M15 98.01.28 6 8; RUN;Šiame pavyzdyje kintamasis „kodas“ skaitomas panaudojant simbolinio tipo skaitymoformatą, kintamasis „data“ – datos tipo formatą, o kintamieji „t1“ ir „t2“ skaitomi sąrašu, t.y.tiesiog nurodant jų pavadinimus.INPUT sakinyje galima naudoti specialius simbolius. Pateiksime keletą dažniausiainaudojamų:13

1) @n perkelia kursorių duomenų eilutėje į n-tą poziciją.2) +n perkelia kursorių duomenų eilutėje per n pozicijų.3) Tegu vienas pradinių duomenų stebėjimas suskaidytas į kelias eilutes. Tadanaudojami tokie simboliai:/ pereiti į kitą pradinių duomenų eilutę;#n pereiti į n-tą eilutę (pvz.: #2 pereiti į 2-ą eilutę).P a s t a b a. Iš pradžių galima skaityti trečią eilutę, o paskui antrą.4) Jei keli stebėjimai vienoje eilutėje (pradinėje byloje), tai naudojame @@.P a s t a b a. Pirmame ir antrame punkte aprašyti specialūs simboliai naudingi,pavyzdžiui, tada, kai naudojamas formatuotas skaitymas ir kintamųjų reikšmės atskirtosdaugiau negu vienu tarpu arba keleteas vienas po kito esančių kintamųjų skaitomipanaudojant skaitymo formatą. Rekomenduojama skaitant kintamąjį naudojant formatąkursorių pastatyti prieš pirmąjį to kintamojo simbolį.1.2 pavyzdžio tęsinys.DATA d1;INPUT numeris @3 kodas $char3. @8 data yymmdd8. t1 t2;FORMAT data yymmdd10.;DATALINES;1 M13 96.12.11 5 32 M14 97.08.12 2 43 M15 98.01.28 6 8; RUN;Kitas būdas:DATA d1;INPUT numeris +1 kodas $char3. +2 data yymmdd8. t1 t2;FORMAT data yymmdd10.;DATALINES;1 M13 96.12.11 5 32 M14 97.08.12 2 43 M15 98.01.28 6 8; RUN;FORMAT sakinys nurodo kokiu pavidalu kintamąjį matysime duomenų lentelėje (žr. Iskyriaus 15 skyrelį).1.3 p a v y z d y s. Tarkime, kad keli stebėjimai vienoje eilutėje (pradinėje byloje):Jonas 15 16 Petras 18 20Tadas 6 17Editor lange parašome tokią programą:DATA m1;INFILE ’c:\mano\duomenys.txt’;INPUT vardas $ k1 k2 @@;RUN;14

1.1 lentelė. Skaitymo formatų pavyzdžiaiSkaitymo Aprašymas Duomenys INPUT sakinys RezultatasformatasSimbolinio tipo$CHARw. Skaito simbolinio tipo duomenis, duom 1 INPUT k1 $CHAR10.; duom 1$w.Datos, laiko, datos-laikoDATEw.nepanaikina tarpų pradžioje ir pabaigojeSkaito simbolinio tipo duomenis, panaikinatarpus pradžiojeSkaito datą pavidalo: ddmmmyy arbaDdmmmyyyyDATETIMEw. Skaito datos-laiko duomenis pavidalo:ddmmmyy hh:mm:ssduom 1duom 1duom 1DDMMYYw. ddmmyy arba ddmmyyyy 01.01.6102/01/611jan19611jan611jan1960 10:30:151jan1961 10:30:15MMDDYYw. mmddyy arba mmddyyyy 01-01-6101/01/61YYMMDDw. yymmdd arba yyyymmdd 61.01.01TIMEw.Skaitinio tipoCOMMAw.dLaikas pavidalo: hh:mm:ss(valandos:minutės:sekundės, 24 valandųlaikrodis)Panaikina kablelius ir $, skliaustuspakeičia minuso ženklu1961.01.0110:3010:30:15$1,000,001(1,234)PERCENTw. Konvertuoja procentus į skaičius 5%(20%)w.d Skaito standartinius skaičius 1234-12.3P a s t a b a. SAS datos reikšmė yra dienų skaičius nuo 1960.01.01.SAS laiko reikšmė yra sekundžių skaičius po vidurnakčio.SAS datos-laiko reikšmė yra sekundžių skaičius nuo 1960.01.01 vidurnakčio.duom 1INPUT k1 $CHAR10.; duom 1duom 1INPUT d1 DATE10.; 366366INPUT dt DATETIME18.; 378153166021INPUT d1 DDMMYY8.; 366367INPUT d1 MMDDYY8.; 366366INPUT d1 YYMMDD8.; 366INPUT d1 YYMMDD10.; 366INPUT laikas TIME8.; 3780037815INPUT pajamos COMMA10.; 100001-1234INPUT d1 PERCENT5.; 0.05-0.2INPUT d1 5.1; 123.4-12.315

3.3. INFILE komandaJei duomenis turime tekstinėje byloje ir duomenų lentelę norime sukurti Editor langerašydami Data žingsnį, tai vietoje komandos DATALINES naudojame komandą INFILE.Šioje komandoje reikia nurodyti bylos, kurioje yra duomenys, pavadinimą (su pilnu keliu ikitos bylos), o taip galima nurodyti įvairias pasirinktis.1.4 p a v y z d y s. Tarkime, kad duomenys (du skaitinio tipo kintamieji k1 ir k2) yratekstinėje byloje „mano.txt“, kuri įrašyta diske „c“. Tada lentelę galime sukurti Editor langeparašę:DATA lent_pavad;INFILE ’c:\mano.txt’;INPUT k1 k2;RUN;Pasirinktys naudojamos INFILE komandoje:1) FIRSTOBS=n, čia n eilutės, nuo kurios reikia pradėti skaityti duomenis, numeris. Šipasirinktis naudojama, kai turime duomenų bylą, kurios pradžioje yra duomenų aprašymasarba kokia nors kita informacija.1.5 p a v y z d y s. Tarkime, kad turime tekstinę bylą „prekes.txt“ diske „c“, kataloge„mano“. Šioje byloje pirmos dvi eilutės yra tekstas.Duomenys apie prekes, parduotas 2004 metais.Prekės_pavadinimas ParduotaPrekė1 205Prekė2 154Prekė3 361Lentelę galima sukurti su tokiu Data žingsniu:DATA prekes_2004;INFILE ’c:\mano\prekes.txt’ FIRSTOBS=3;INPUT preke $ parduota;RUN;1) OBS=n, čia n nurodo kiek eilučių iš pradinės bylos reikia perskaityti. Šis skaičiusnebūtinai sutampa su stebėjimų skaičiumi sukurtoje lentelėje, pavyzdžiui, jei pradinėje bylojevienas stebėjimas užima dvi eilutes, tai nurodžius OBS=100, bus perskaityta 100 eilučių, t.y.lentelėje bus 50 stebėjimų. Ši pasirinktis naudojama, kai reikia perskaityti dalį duomenų.1.6 p a v y z d y s. Tarkime, kad turime tekstinę bylą, kurioje yra tokie duomenys:Duomenys apie prekes, parduotas 2004 metais.Prekės_pavadinimas ParduotaPrekė1 205Prekė2 154Prekė3 361Duomenis pateikusio darbuotojo numeris: 1254.Šioje byloje pirmos dvi ir paskutinė eilutė yra tekstas. Lentelę galima sukurti su tokiu Datažingsniu:DATA prekes_2004;INFILE ’c:\mano\prekes.txt’ FIRSTOBS=3 OBS=5;INPUT preke $ parduota;RUN;Šio Data žingsnio rezultatas yra lentelė „prekes_2004“. Joje bus duomenys iš 3-5 pradinėsbylos eilučių.3) MISSOVER. Jei pradinių duomenų eilutėje yra mažiau reikšmių negu nurodytakintamųjų INPUT sakinyje, tai pagal nutylėjimą trūkstamos reikšmės imamos iš kitos eilutės.16

Su šia pasirinktimi yra nurodoma, kad kintamiesiems, kuriems neužteko reikšmių, turi būtipriskirta praleisto stebėjimo reikšmė.1.7 p a v y z d y s. Duoti testo rezultatai. Ne visi atliko visas užduotis, todėl vieni gavodaugiau taškų, kiti mažiau. Duomenys:Ramunė 78 76 90 85Rytis 66 71 83 74 72Rasa 69 68 80Lentelę galima sukurti su tokiu Data žingsniu:DATA testas;INFILE ’c:\mano\taskai.txt’ MISSOVER;INPUT vardas $ t1 t2 t3 t4 t5;RUN;4) TRUNCOVER pasirinktis naudojama, kai paskutinis INPUT sakinyje nurodytaskintamasis skaitomas stulpeliais arba naudojant skaitymo formatą ir eilutės pradinėje bylojeyra nevienodo ilgio.1.8 p a v y z d y s. Duota: vaiko vardas, kokį būrelį lanko:Ramunė pramoginiai šokiaiRytis krepšinisRasa dailėLentelę galima sukurti su tokiu Data žingsniu:DATA burelis;INFILE ’c:\mano\bureliai.txt’ TRUNCOVER;INPUT vardas $ burelis $ 8-26;RUN;5) DLM=’skirtukas’. Kai reikšmės tekstinėje byloje atskirtos ne tarpais, o kitokiaissimboliais (pavyzdžiui, ’&’ ’-’ ir kt.) ir INPUT komandoje kintamieji tiesiog išvardinami(skaitymas sąrašu), tai INFILE komandoje reikia nurodyti DELIMITER=’skirtukas’ arbaDLM=’skirtukas’.1.9 p a v y z d y s. Tegu pradinėje byloje reikšmės atskirtos kableliais. Duomenys:Ramunė,7,8,7,6Rytis,6,6,7,8Rasa,6,9,8,8Lentelę galima sukurti su tokiu Data žingsniu:DATA lentele1;INFILE ’c:\mano\rezultatai.txt’ DLM=’,’;INPUT vardas $ t1 t2 t3 t4;RUN;P a s t a b a. Pagal nutylėjimą du ar daugiau vienas po kito parašyti skirtukai traktuojamikaip vienas skirtukas. Jei byloje yra praleistų stebėjimų ir du vienas po kito parašytiskirtukai reiškia praleistą stebėjimą, tai kartu su DLM pasirinktimi reikia naudoti ir DSDpasirinktį.Panaudojus INFILE komandoje DSD pasirinktį: 1) ignoruojami skirtukai duomenųreikšmėse, kurios yra kabutėse (jie traktuojami kaip paprasti simboliai); 2) tariama, kadkabutės nėra duomenys; 3) tariama, kad du vienas po kito parašyti skirtukai reiškia praleistąstebėjimą.3.4. Import procedūraIMPORT procedūra rašoma Editor lange ir skirta importuoti duomenis iš įvairausformato bylų (Microsoft Excel, Microsoft Access, tekstinės bylos (reikšmės atskirtos17

kableliais, Tab simboliais, kitais simboliais) ir kt.) į SAS duomenų lenteles. IMPORTprocedūra atlieka tokias funkcijas:1) skanuoja duomenų bylą ir automatiškai nustato kintamojo tipą (skaitinis arsimbolinis);2) priskiria tinkamus ilgius simbolinio tipo kintamiesiems;3) gali atpažinti kai kuriuos datos formatus;4) traktuoja du vienas po kito parašytus skirtukus (simbolius, kurie atskiria reikšmes)pradinėje byloje kaip praleistą stebėjimą;5) skaito reikšmes, parašytas kabutėse;6) priskiria praleisto stebėjimo reikšmę kintamiesiems, kuriems neužtenka duomenųeilutėje;7) duomenų bylos pirmoje eilutėje galima nurodyti kintamųjų vardus;Paprasčiausia procedūros IMPORT sintaksė yra tokia:PROC IMPORT DATAFILE=’bylos_vardas’ OUT=duomenu_lentele;Bylos vardas nurodomas su pilnu keliu iki jos ir išplėtimu, pavyzdžiui,DATAFILE=’c:\mano\d1.txt’.SAS nustato bylos tipą pagal išplėtimą:Bylos tipas Išplėtimas DBMS identifikatoriusComma-delimited .csv CSVTab-delimited .txt TABKitokie atskiriamiejiDLMsimboliai (skirtukai)Excel (2000 Windows) .xls Excel2000P a s t a b a. Jei bylos išplėtimas nurodytas netiksliai arba byla yra tipo DLM, tai reikiaIMPORT procedūroje naudoti pasirinktį DBMS=identifikatorius.Jei lentelė nurodytu pavadinimu jau egzistuoja ir norime ją pakeisti, tai naudojameREPLACE.PROC IMPORT DATAFILE=’bylos_vardas’ OUT=duomenu_lenteleDBMS=identifikatorius REPLACE;Import procedūra pagal nutylėjimą ima kintamųjų vardus iš pirmos pradinės duomenųbylos eilutės. Jei byloje kintamųjų vardų nėra, tai rašome GETNAMES=NO. Tadakintamiesiems bus priskirti vardai VAR1, VAR2 ir t.t.Jei duomenų byla yra DLM tipo, tai pagal nutylėjimą skirtukas yra tarpas. Jeiskirtukas yra kitoks simbolis, tai reikia naudoti DELIMITER=’skirtukas’ pasirinktį.PROC IMPORT DATAFILE=’bylos vardas’ OUT=duomenu_lenteleDBMS =DLM REPLACE;GETNAMES=no;Delimiter=’skirtukas’;RUN;SAS yra numatyta galimybė importuoti duomenis iš įvairaus formato bylų į SASduomenų lentelę nerašant programinio kodo. Pagrindiniame meniu pasirenkame punktąFile→Import Data. Ekrane atsiranda langas, kuriame pasirenkame bylos, iš kurios norimeimportuoti duomenis, tipą. Galima pasirinkti iš sąrašo standartinį formatą (Standard datasource): Microsoft Excel, Microsoft Access, tekstinė byla (reikšmės atskirtos kableliais(Comma separated values), Tab simboliais (Tab delimited), kitais simboliais (Delimited)),dBASE, JMP, Lotus. Taip pat galima pasirinkti nestandartinį formatą (User-defined formats),šiuo atveju vartotojas turi daugiau galimybių valdyti duomenų importą. Pasirinkus bylosformatą, kituose languose reikia pasirinkti bylos, iš kurios importuosime duomenis, vardą,įvesti SAS lentelės, kurią norime sukurti, vardą, bei nurodyti biblioteką, kurioje norime18

lentelę išsaugoti. Priklausomai nuo pradinių duomenų bylos formato galimos įvairios kitospasirinktys. Pavyzdžiui, jei duomenys yra Microsoft Excel formato byloje, tai galimanurodyti, ar imti kintamųjų vardus iš pirmos eilutės, ar konvertuoti skaitinio tipo duomenis įsimbolinio tipo, jei stulpelyje yra ir simbolinio, ir skaitinio tipo reikšmių ir kt.1.10 p a v y z d y s. Tarkime, kad duomenys iš 1.8 pavyzdžio yra Excel byloje„duom1.xls“, kuri yra diske „c“. Pagrindiniame meniu pasirenkame punktą File→ImportData. Ekrane atsiranda langas, kuriame pasirenkame „Standard data source“ ir „MicrosoftExcel“ (žr. 1.5 pav.).1.5 pav. Duomenų importavimas iš Excel bylos (pirmas žingsnis)Paspaudus mygtuką „Next“ yra atidaromas langas, kuriame reikia įvesti bylos, kuriojeyra duomenys vardą (žr. 1.6 pav.).1.6 pav. Duomenų importavimas iš Excel bylos (antras žingsnis)Kitame lange reikia pasirinkti iš kurio Excel darbo knygos lapo imti duomenis.1.7 pav. Duomenų importavimas iš Excel bylos (trečias žingsnis)Paspaudus mygtuką Options galima pasirinkti (žr. 1.7 pav.): imti stulpelių vardus išpirmos eilutės (Use data in the first row as SAS variable names), konvertuoti skaitinio tiporeikšmes į simbolinio tipo reikšmes mišraus tipo stulpeliuose (Convert numeric values tocharacters in a mixed types column), kintamajam skirti tiek pozicijų, kiek užima ilgiausiastekstas (Use the largest text size in a column as SAS variable length), panaudoti DATE.formatą datos / laiko stulpeliuose (Use DATE. format for a Date/Time column), panaudotiTIME. formatą, jeigu stulpelyje yra tik laiko reikšmės (Use TIME. format if only time values19

found in a column), o taip pat galima nurodyti maksimalų simbolių skaičių stulpelyje (Thelargest text size allowed in a column). Importuojamoje byloje pirmoje eilutėje nėra kintamųjųvardų, todėl nuimkime pažymėjimą prie pirmos eilutės, visas kitas pasirinktis palikime.Kitame lange (žr. 1.8 pav.) reikia įvesti SAS bibliotekos vardą (library) ir SASlentelės, kurią norime sukurti, vardą (member).pav.).1.8 pav. Duomenų importavimas iš Excel bylos (ketvirtas žingsnis)Paskutiniame lange galima nurodyti, kad išsaugotų procedūros IMPORT kodą (žr. 1.91.9 pav. Duomenų importavimas iš Excel bylos (penktas žingsnis)Paspaudžiame mygtuką Finish. Sukurtą lentelę galime atidaryti taip: Explorer langepaspaudžiame ikoną Libraries, tada pasirenkame biblioteką Work ir lentelę „lentele1“.Lentelė yra atidaroma Viewtable lange (žr. 1.10 pav.).1.10 pav. Importuoti duomenysPradinės bylos pirmoje eilutėje nebuvo stulpelių vardų, todėl stulpeliai pagalnutylėjimą buvo pavadinti F1, F2. Stulpelių pavadinimus galima pakeisti taip, kaip buvoaprašyta 3.1 skyrelyje.20

1.11 p a v y z d y s. Iliustruosime kaip importuoti duomenis naudojant EFI langą.Tarkime, kad turime duomenis iš 1.3 pavyzdžio byloje „duom1.txt“, kuri yra diske „c“.Pagrindiniame meniu pasirenkame punktą File→Import Data. Ekrane atsiranda langas,kuriame pasirenkame „User-defined formats“. Paspaudus mygtuką Next yra atidaromaslangas, kuriame reikia įvesti bylos, iš kurios importuosime duomenis pavadinimą. Kitamelange reikia įvesti bibliotekos vardą ir duomenų lentelės, kurią norime sukurti, vardą.Paspaudus mygtuką Next yra atidaromas EFI langas (žr. 1.11 pav).1.11 pav. Duomenų importasŠio lango kairiajame viršutiniame kampe matome pradinius duomenis, o dešiniajame,-kaip atrodys sukurta lentelė. Kiekvienam stulpeliui galime nurodyti: stulpelio vardą (FieldName), žymę (Descriptive Label), skaitymo formatą (Informat), rašymo formatą (Format),duomenų tipą (skaitinio – character, simbolinio - numeric), poziciją nuo kurios prasidedastulpelio reikšmė (position). Paspaudus mygtuką Options atidaromas duomenų importopasirinkčių langas (žr. 1.12 pav.), kuriame galima pasirinkti: kaip yra išdėstyti stebėjimaipradinėje byloje (One record per SAS row – pradinėje byloje kiekvienas stebėjimas atskirojeeilutėje, Multiple SAS rows per record - pradinėje byloje keli stebėjimai vienoje eilutėje);skaitymo tipą (style of input; column – skaitymas stulpeliais (žr. 3.2 II punktą), list –skaitymas sąrašu (žr. 3.2 I punktą)); su kokiais simboliais yra atskirtos reikšmės pradinėjebyloje (Delimiter(s)); įrašo ilgį (Record Length); kintamųjų sukūrimo būdą (Variablecreation); koks pagal nutylėjimą kintamojo tipas (Default type); pirmą duomenų eilutę(Starting record); kiek stebėjimų reikia importuoti (Number of records).1.12 pav. Duomenų importo pasirinktysŠiame lange pažymėkime automatinį kintamųjų sukūrimo būdą (Variable creation:Automatic), keli stebėjimai vienoje eilutėje pradinėje duomenų byloje (Multiple SAS rowsper record). Paspaudę OK grįšime į ankstesnį langą. Jo viršutiniame dešiniame kampe21

matome kaip atrodys sukurta lentelė (žr. 1.13 pav.). Galime pakeisti stulpelių pavadinimus:pažymime stulpelį ir lauke „Field name“ įvedame pavadinimą, pavyzdžiui, pažymėkimepirmą stulpelį, įveskime „Vardas“ ir paspauskime mygtuką Update, stulpelio pavadinimaspasikeis. Analogiškai galima pakeisti ir kitų stulpelių vardus. Atlikę visus pakeitimuspagrindiniame meniu pasirenkame File→Save. Duomenų importas atliktas, sukurtą lentelęgalime peržiūrėti, pavyzdžiui, Viewtable lange.1.13 pav. Duomenų importas4. Duomenų eksportasSAS yra numatyta galimybė duomenis iš SAS duomenų lentelės perkelti į įvairausformato bylas (galimi tokie patys formatai kaip ir importuojant duomenis (žr.3.4 skyrelį)).Duomenų eksportui yra skirta procedūra EXPORT.Procedūra EXPORT rašoma Editor lange. Sintaksė:PROC EXPORT DATA=duomenu_lentele OUTFILE=’bylos vardas’ REPLACE;pavyzdžiui,PROC EXPORT DATA=lentele OUTFILE=’c:\mano\duomenys.csv’;Kokio formato bylą reikia sukurti yra nustatoma pagal išplėtimą. Bylos formatągalima nurodyti su DBMS=identifikatorius pasirinktimi.Bylos tipas Išplėtimas DBMS identifikatoriusComma-delimited .csv CSVTab-delimited .txt TABSpace-delimitedDLMP a s t a b a. „Space-delimited“ formato bylos neturi standartinio išplėtimo, todėlreikia naudoti DBMS=identifikatorius pasirinktį.REPLACE nurodo, kad bylą reikia pakeisti, jei jau yra byla tokiu pačiu pavadinimu.Jei turime SAS/ACCESS modulį, tai galima eksportuoti SAS duomenų lentelę įMicrosoft Excel, Microsoft Access, dBase, Lotus bylas. Sintaksė tokia pati.SAS yra numatyta galimybė eksportuoti duomenis iš SAS duomenų lentelės į įvairausformato bylas nerašant programinio kodo. Pagrindiniame meniu pasirenkame punktąFile→Export Data. Ekrane atsiranda langas, kuriame pasirenkame formatą į kurį norimeeksportuoti duomenis, SAS lentelę, kurios duomenis norime eksportuoti.1.12 p a v y z d y s. Tarkime, kad turime duomenų lentelę „lentele“, sukurtą 1.11pavyzdyje, eksportuosime duomenis į Excel bylą su Export procedūra. Editor lange parašome:PROC EXPORT DATA=lentele OUTFILE=’c:\mano\duomenys.xls’;22

Gauname tokią Excel lentelę:vardas k1 k2Jonas 15 16Petras 18 20Tadas 6 175. Duomenų pertvarkymo komandosKuriant duomenų lentelę su Data žingsniu galima tame pačiame Data žingsnyjepertvarkyti duomenis, pavyzdžiui, sukurti naujus kintamuosius, pakeisti kintamųjų reikšmes.Kintamųjų pertvarkymo komandos rašomos prieš komandą DATALINES arba po komandosINPUT, jeigu naudojama komanda INFILE:DATA d1; DATA d1;INPUT k1 k2;INFILE ’c:\mano.txt’;Duomenų pertvarkymo komandos; arba INPUT k1 k2;DATALINES;Duomenų pertvarkymo komandos;Duomenys;RUN;RUN;Duomenų pertvarkymo komandos: priskyrimo sakinys, sąlyginis sakinys, ciklai.5.1 Priskyrimo sakinysPriskyrimo sakinys naudojamas, kai norime sukurti naują kintamąjį arba pakeistianksčiau sukurto kintamojo reikšmę. Sintaksė:kintamojo_vardas=reiškinys;čia reiškinys – konstanta, kintamasis, matematinis reiškinys, funkcija; kintamasis – naujo arbaseno kintamojo vardas.Jeigu nurodome naujo kintamojo vardą, tai jo tipas bus toks pats kaip ir reiškinio,nurodyto dešinėje pusėje, t.y., jei reiškinys simbolinio tipo, tai bus sukurtas simbolinio tipokintamasis nurodytu vardu ir jam priskirta nurodyto reiškinio reikšmė; jei skaitinio, tai bussukurtas skaitinio tipo kintamasis.1.13 p a v y z d y s. Editor lange įveskime:DATA dd;x=10;sk=’du’;y=x+1;y=2*y;RUN;Pirmuoju priskyrimo sakiniu yra sukuriamas naujas skaitinio tipo kintamasis „x“ irjam priskiriama reikšmė 10. Antruoju priskyrimo sakiniu yra sukuriamas naujas simboliniotipo kintamasis „sk“ ir jam priskiriama reikšmė „du“. Trečiuoju priskyrimo sakiniu yrasukuriamas naujas skaitinio tipo kintamasis „y“ ir jam priskiriama reikšmė x+1, t.y. 11.Ketvirtuoju priskyrimo sakiniu yra pakeičiama anksčiau sukurto kintamojo „y“ reikšmė.1.14 p a v y z d y s. Tarkime, kad tekstinėje byloje „c:/egzaminai.txt“ yra duomenysapie egzaminų rezultatus (numeris, trijų egzaminų rezultatai):251 10 9 9256 8 7 8254 6 7 5287 9 8 8Reikia sukurti duomenų lentelę „rezultatai“, kurioje būtų duomenys iš pradinėstekstinės bylos bei egzaminų vidurkis. Editor lange įvedame:DATA rezultatai;INFILE ’c:/egzaminai.txt’;23

INPUT numeris $ egz1 egz2 egz3; /*nurodome kintamuosius iš pradinės bylos*/vidurkis=(egz1+egz2+egz3)/3;RUN;5.2. Sąlyginiai sakiniaiPaprasčiausia sąlyginio sakinio sintaksė:IF sąlyga THEN veiksmas;Nurodytas veiksmas atliekamas tik stebėjimams, kurie tenkina nurodytą sąlygą.Sąlygoje galima naudoti palyginimo operatorius: =, ∧= (nelygu), >,

Šio Data žingsnio rezultatas yra duomenų lentelė „duom1“:k1 intervalas1.5 11.7 11.9 12.0 2. .2.5 23.1 3Sąlyginį sakinį galima panaudoti stebėjimų poaibio išrinkimui. Jei parašysimeIF sąlyga;tai lentelėje bus palikti tik stebėjimai, kurie tenkina nurodytą sąlygą; jei parašysimeIF sąlyga THEN DELETE;tai tenkinantys nurodytą sąlygą stebėjimai nebus įrašomi į lentelę.1.16 p a v y z d y s. Tegu turime duomenis iš 1.15 pavyzdžio. Editor lange įveskime:DATA duom1;INPUT k1 @@;IF k1>=2;DATALINES;1.5 1.7 1.9 2.0 . 2.5 3.1;RUN;Gautoje lentelėje bus tik tie stebėjimai, kurie tenkina sąlygą: k1>=2, t.y. tik trysstebėjimai.1.17 p a v y z d y s. Komandos LENGTH panaudojimas su sąlyginiu sakiniu.Su komanda LENGTH galima nurodyti kiek simbolių skirti kintamajam. Nagrinėkimetokį Data žingsnį:DATA pvz;INFILE ’c:\duom.txt’;INPUT numeris $ tipas;IF tipas=1 THEN pavad=’pradinė’;ELSE if tipas=2 THEN pavad=’pagrindinė’;ELSE pavad=’vidurinė’;RUN;Ši programa veiks blogai, nes kintamojo „pavad“ ilgis yra 7 simboliai ir jo reikšmė„pagrindinė“ bus sutrumpinta iki „pagrind“, o reikšmė „vidurinė“ - iki „vidurin“. Taipatsitinka todėl, kad SAS nustato: 1) kintamasis „pavad“ yra simbolinio tipo, nes priskiriamasimbolinio tipo konstanta; 2) iš to pačio sąlyginio sakinio SAS nustato, kad kintamojo„pavad“ reikšmė bus neilgesnė už 7 simbolius. Šios išvados padaromos iš priskyrimo sakiniopavad=’pradinė’, nes jame yra pirmą kartą panaudotas kintamojo „pavad“ vardas, net jeigupradinėje duomenų byloje pirmas stebėjimas yra su reikšme „pagrindinė“ ir todėl pirmasisELSE sakinys atliekamas pirmas, kintamojo „pavad“ ilgis vis tiek bus 7 simboliai. Vienas išsprendimo būdų:DATA pvz;LENGTH pavad $10;INFILE ’c:\duom.txt’;INPUT numeris $ tipas;IF tipas=1 THEN pavad=’pradinė’;ELSE if tipas=2 THEN pavad=’pagrindinė’;ELSE pavad=’vidurinė’;RUN;25

SAS yra trijų tipų ciklai:I) DO ciklas. Sintaksė:5.3. CiklaiDO ciklo_kintamasis=išraiška_1 ;SAS komandos;END;čia išraiška – tokio pavidalo reiškinys (arba reiškinių aibė):pradžia kur pradžia yra pradinė ciklo kintamojo reikšmė; pabaiga - paskutinė ciklo kintamojo reikšmė;žingsnis – teigiamas arba neigiamas skaičius (arba reiškinys, kurio reikšmė yra skaičius),nurodantis kaip turi kisti ciklo kintamojo reikšmės; WHILE(reiškinys) nurodytas reiškinys yratikrinamas prieš kiekvieną ciklo iteraciją ir ciklas yra atliekamas tol, kol reiškinys yrateisingas; UNTIL(reiškinys) nurodytas reiškinys yra tikrinamas po kiekvienos ciklo iteracijosir ciklas yra atliekamas tol, kol reiškinys taps teisingas.1.18 p a v y z d y s.a) DO numeris=’pirmas’, ’antras’, ’trečias’;b) DO skaičius=2, 3, 5, 7;c) n=3; DO i=n TO 1 BY -1;d) DO i=0.1 TO 0.9 BY 0.1, 1 TO 10 BY 1, 20 TO 100 BY 10;e) DO i=0.2 TO 0.8 BY 0.05;f) DO i=1 TO 10 UNTIL(x=8 THEN i=15; 3 6END; 4 8RUN;P a s t a b a. Komanda OUTPUT nurodo, kad kintamojo reikšmes reikia įrašyti įlentelę. Pagal nutylėjimą duomenys įrašomi į lentelę Data žingsnio pabaigoje. Taigi, jei ciklenepanaudosime komandos OUTPUT, tai į lentelę bus įrašytas tik paskutinės ciklo iteracijosrezultatas.II) DO UNTIL ciklas. Sintaksė:DO UNTIL(sąlyga);SAS_komandos;END;Sąlyga yra tikrinama ciklo pabaigoje. Jei sąlyga teisinga, tai ciklo pabaiga.1.20 p a v y z d y s.DATA duom1; Rezultatasy=1;yDO UNTIL(y

Sąlyga yra tikrinama ciklo pradžioje. Komandos atliekamos tol, kol sąlyga teisinga.1.21 p a v y z d y s.DATA duom; Rezultatasy=1;yDO WHILE(y

diena sk did bendras1 2 2 25 10 10 127 5 10 1712 15 15 3215 7 15 396. SAS duomenų lentelės keitimasSu komanda SET Data žingsnyje galime pertvarkyti jau sukurtą SAS duomenų lentelę,t.y. galima pašalinti esančius lentelėje kintamuosius, pridėti naujus kintamuosius, išrinktiduomenų poaibius ir pan. Sintaksė:DATA nauja_lentelė;SET sena_lentelė;duomenų koregavimo komandos;RUN;čia nauja_lentelė – lentelės, kurią norime sukurti, vardas; sena_lentelė – lentelės, kurią norimepertvarkyti, vardas; duomenų koregavimo komandos – priskyrimo sakiniai, sąlyginiai sakiniaiir pan. Jeigu po DATA ir SET nurodome tokį patį lentelės vardą, tai pakeitimai išsaugomi tojepačioje lentelėje.1.23 p a v y z d y s. Duota lentelė „duom“, kurioje yra keturi stulpeliai: tipas, k1, k2,k3. Reikia sukurti naują lentelę, kurioje būtų visi kintamieji iš pradinės lentelės, naujaskintamasis „suma“ ir tik tie stebėjimai, kuriems tipas=’pirmas’. Editor lange parašome:DATA nauja;SET duom;IF tipas=’pirmas’;suma=k1+k2+k3;RUN;7. Kelių lentelių sukūrimas viename Data žingsnyjeSu komanda OUTPUT galima sukurti kelias duomenų lenteles viename Data žingsnyje. JeiguEditor lange parašome, pavyzdžiui,DATA d1 d2 d3;tai bus sukurtos trys vienodas lentelės. Jeigu norime sukurti skirtingas lenteles, tai naudojameOUTPUT komandą. Komanda OUTPUT nurodo įrašyti einamojo stebėjimo kintamųjųreikšmes į kuriamą lentelę prieš grįžtant į Data žingsnio pradžią. Sintaksė:OUTPUT lentelė;P a s t a b a. Jeigu nenurodysime lentelės pavadinimo, tai stebėjimas bus įrašytas įvisas lenteles išvardintas po žodžio DATA.OUTPUT komanda gali būti naudojama atskirame sakinyje, sąlygos sakiniuose arbacikluose.1.24 p a v y z d y s. Tarkime, kad turime tokius duomenis:x yx1 ax2 rx3 vx4 vx5 ax6 rReikia įrašyti duomenis į dvi lenteles: jeigu y=’a’ arba y=’r’, tai į lentelę „d1“;jeigu y=’a’ arba y=’v’, tai į lentelę „d2“. Editor lange įvedame:28

DATA d1 d2;INFILE ’c:/duom.txt’;INPUT x $ y $;IF y=’r’ THEN OUTPUT d1;ELSE IF y=’v’ THEN OUTPUT d2;ELSE IF y=’a’ THEN OUTPUT;RUN;8. Kintamųjų pašalinimo ir pervardinimo komandosSAS visus kintamuosius, kurių vardai buvo panaudoti Data žingsnyje įrašo į duomenųlentelę. Pagalbinius kintamuosius galima panaikinti su komanda KEEP arba DROP. Josrašomos Data žingsnyje. Sintaksė:KEEP kintamųjų_sąrašas;DROP kintamųjų_sąrašas;Jei naudojame KEEP, tai duomenų lentelėje paliekami tik nurodyti kintamieji. Jeinaudojame DROP, tai nurodyti kintamieji yra pašalinami iš duomenų lentelės.P a s t a b a. Viename Data žingsnyje KEEP ir DROP naudoti negalima.1.25 p a v y z d y s.KEEP k1 k2; /* lentelėje liks tik kintamieji k1 ir k2 */DROP k1 k2; /* lentelėje neliks kintamųjų k1 ir k2 */Kintamojo vardą galima pakeisti su komanda RENAME. Sintaksė:RENAME senas_vardas=naujas_vardas;Komandos KEEP, DROP, RENAME gali būti naudojamos bet kurioje Data žingsniovietoje.1.26 p a v y z d y s. Editor lange parašykime tokį Data žingsnį:DATA dd;DO i=1 TO 10;x=i*i; y=x+1;OUTPUT;END;DROP i; RENAME y=z;RUN;Šio Data žingsnio rezultatas yra lentelė „dd“, kurioje bus du kintamieji „x“ ir „z“.9. Lentelių apjungimo komandos9.1. Lentelių apjungimas su komanda SETKomanda SET naudojama, kai norime apjungti kelias lenteles su tais pačiaiskintamaisiais, bet skirtingais stebėjimais. Sintaksė:DATA lentelė;SET lent_1 ... lent_n;RUN;čia lentelė – naujos lentelės vardas; po SET nurodome lenteles, kurias norime apjungti.Stebėjimų skaičius naujoje lentelėje lygus senų lentelių stebėjimų sumai. Stebėjimų tvarkapriklauso nuo to, kaip išvardiname lenteles SET sakinyje. Jei lentelėje yra kintamasis, kurisneįeina į kitas lenteles, tai stebėjimuose iš tų lentelių to kintamojo reikšmė bus praleistasstebėjimas.29

1.27 p a v y z d y s. Tegu turime dvi lenteles „D1“ ir „D2“:D1D2K1 K2 K3 K1 K21 A C 4 E2 B DReikia sukurti naują lentelę „nauja“, kurioje būtų duomenys iš abiejų pradinių lentelių.Editor lange parašykimeDATA nauja;SET D1 D2;RUN;Šio Data žingsnio rezultatas yra tokia lentelė:K1 K2 K31 A C2 B D4 EJei turime surūšiuotus duomenis, tai anksčiau aprašytas apjungimas išardyssurūšiavimo tvarką. Galima apjungti, o paskui surūšiuoti su procedūra SORT, bet tai užimalaiko. Galima daryti taip:DATA nauja;SET lent_1 ... lent_n;BY kintamieji;RUN;Atlikus šį Data žingsnį bus sukurta nauja lentelė „nauja“ ir nebus išardyta surūšiavimotvarka pagal kintamuosius, nurodytus po komandos BY. Lentelės „lent_1“,...,“lent_n“ turibūti surūšiuotos pagal kintamuosius, nurodytus po BY komandos.1.28 p a v y z d y s. Tegu turime dvi lenteles „D1“ ir „D2“:D1D2K1 K2 K3 K1 K21 A D 2 M3 B E 6 N5 C FReikia sukurti naują lentelę „nauja“, kurioje būtų duomenys iš abiejų pradinių lentelių.Editor lange parašykimeDATA nauja;SET D1 D2;BY K1;RUN;Šio Data žingsnio rezultatas yra tokia lentelė:K1 K2 K31 A D2 M3 B E5 C F6 N9.2. Lentelių apjungimas su komanda MERGEŠi komanda naudojama Data žingsnyje. Lentelėse turi būti bent vienas bendraskintamasis pagal kurį apjungsime lenteles. Prieš naudojant komandą MERGE reikia lentelessurūšiuoti pagal bendrus kintamuosius. Sintaksė:30

DATA nauja_lentele; /* lentelės, kuri bus sukurta, vardas */MERGE lentele1 lentele2; /*lentelių, kurias apjungsime, vardai*/BY kintamieji; /* kintamieji pagal kuriuos apjungsime*/RUN;P a s t a b a. Jei norime apjungti dvi lenteles ir jose yra kintamųjų su tais pačiaisvardais (išimtis BY-kintamieji, t.y. kintamieji, nurodyti po BY), tai gautoje lentelėje tiemskintamiesiems duomenys bus iš antros nurodytos lentelės, kad neužrašytų ant viršaus priešnaudojant komandą MERGE reikia pervardinti.1.29 p a v y z d y s. a) Tarkime, kad turime dvi lenteles: „Duom1“ ir „Duom2“. Reikiasukurti lentelę „Abi“, kurioje būtų duomenys iš abiejų pradinių lentelių. Šią užduotį galimeatlikti Editor lange parašę:DATA Abi;MERGE Duom1 Duom2;BY numeris;RUN;Duom1 Duom2 AbiNumeris Z Numeris V Numeris Z V001 Z1 001 V1 001 Z1 V1002 Z2 004 V2 002 Z2004 Z3 005 V3 004 Z3 V2005 Z4 007 V4 005 Z4 V3007 V4b) Tarkime, kad turime dvi lenteles: „Duom1“ ir „Duom2“. Reikia sukurti lentelę„Nauja“, kurioje būtų duomenys iš abiejų pradinių lentelių. Šią užduotį galime atlikti Editorlange parašę:DATA Nauja;MERGE Duom1 Duom2;BY numeris;RUN;Duom1 Duom2 NaujaNumeris Z Numeris V Numeris Z V001 Z1 001 V1 001 Z1 V1002 Z2 001 V2 001 Z1 V2003 Z3 002 V3 002 Z2 V3004 V4 003 Z3004 V49.3. Duomenų lentelės atnaujinimas su komanda UPDATEŠi komanda naudojama Data žingsnyje. Komanda UPDATE naudojama, kai turimepagrindinę lentelę ir norime ją pakeisti naudodami duomenis iš kitos lentelės.P a s t a b o s. 1) Praleisti stebėjimai iš papildymų lentelės neužrašomi ant pagrindinėslentelės stebėjimų.2) Galima nurodyti tik dvi lenteles: pagrindinę ir papildymų.3) Abi lentelės turi būti surūšiuotos pagal bendrus kintamuosius.4) Pagrindinėje lentelėje kintamųjų, nurodytų po BY, reikšmės turi būti skirtingos;jeigu bus kelios vienodos, tai papildymai bus pritaikyti tik pirmam stebėjimui su vienodomisreikšmėmis, o kiti bus ignoruojami.5) Jei papildymų lentelėje yra keli stebėjimai su vienodomis kintamųjų, nurodytų poBY, reikšmėmis, tai gautoje lentelėje bus tik vienas stebėjimas ir reikšmės bus iš paskutiniopapildymų lentelės stebėjimo.Sintaksė:31

DATA pagrindinė_lentelė;UPDATE pagrindinė_lentelė papildymų_lentelė;BY kintamųjų_sąrašas;RUN;1.30 p a v y z d y s. Tarkime, kad turime dvi lenteles: „Pagrind“ ir „Papild“. Reikiaatnaujinti lentelę „Pagrind“ su lentelės „Papild“ duomenimis. Editor lange parašome:DATA pagrind;UPDATE Pagrind Papild;BY Numeris;RUN;a) Pagrind Papild PagrindNumeris Z V Numeris Z V Numeris Z V008 Z1 V1 011 Z2 008 Z1 V1009 Z1 V1 012 Z2 V2 009 Z1 V1010 Z1 V1 + 013 Z2 = 010 Z1 V1011 Z1 V1 013 V2 011 Z2 V1012 Z1 V1 015 Z2 V2 012 Z2 V2013 Z1 V1 013 Z2 V2014 Z1 V1 014 Z1 V1015 Z2 V2Pajuodintos tos reikšmės, kurios buvo pakeistos.b) Pagrind Papild PagrindNumeris Z V T Numeris Z V Numeris Z V T008 Z1 V1 T1 009 V6 1988 Z1 V1 T1009 Z2 V2 T2 + 012 V7 V7 = 1989 Z2 V6 T2009 Z3 V3 T3 1989 Z3 V3 T3011 Z4 V4 T4 1991 Z4 V4 T41992 Z7 V7Pajuodintos tos reikšmės, kurios buvo pakeistos. Pagrindinėje lentelėje yra dvivienodos kintamojo, pagal kurį apjungiame, reikšmės, tačiau pakeitimas yra atliekamas tikpirmajam stebėjimui su vienodomis reikšmėmis (žr. 4 pastabą).10. Duomenų lentelės pasirinktysSAS yra trys pagrindiniai pasirinkčių tipai:1) sisteminės pasirinktys;2) pasirinktys, naudojamos komandose;3) duomenų lentelių pasirinktys.Sisteminės pasirinktys veikia visą SAS darbo sesijos laiką. Jas nurodome su globaliakomanda OPTIONS (žr. 1 skyrelį).Pasirinktys, naudojamos komandose, veikia tik tame Data arba Proc žingsnyje,kuriame yra nurodytos. Pavyzdžiui, pasirinktis DATA=lentelė, kuri yra naudojamaprocedūrose, nurodo, kokią duomenų lentelę naudoti.Duomenų lentelių pasirinktys nurodo kaip duomenys skaitomi arba rašomi atskirojeduomenų lentelėje. Duomenų lentelės pasirinktis galima naudoti Data žingsnyje (su DATA,SET, MERGE arba UPDATE komandomis) arba Proc žingsnyje su DATA=lentelėpasirinktimi. Duomenų lentelės pasirinktys yra nurodomos skliaustuose po duomenų lentelėspavadinimo. Dažniausiai naudojamos tokios pasirinktys:KEEP=kintamieji palikti nurodytus kintamuosius;DROP=kintamieji išmesti nurodytus kintamuosius;32

RENAME=(senas_kint=naujas_kint) pervardinti kintamąjį;FIRSTOBS=n pradėti skaityti nuo n-to stebėjimoOBS=nbaigti skaityti n-tu stebėjimu1.31 p a v y z d y s.DATA d1;SET d2 (KEEP=k1 k5);Šiuo Data žingsniu yra sukuriama lentelė „d1“, kurioje bus du kintamieji (k1 ir k5) iš lentelės„d2“.1.32 p a v y z d y s.DATA d1;SET d2 (RENAME=(k1=kint1 k3=kint3));Šiuo Data žingsniu yra sukuriama lentelė „d1“, kurioje bus visi duomenys iš lentelės „d2“,tačiau kintamojo „k1“ vardas bus pakeistas į „kint1“, o kintamojo „k3“ – į „kint3“.Yra analogiškos komandos KEEP, DROP, RENAME (žr. 8 skyrelį). Lentelėje 1.2 yrapateiktas duomenų lentelių pasirinkčių ir atitinkamų komandų palyginimas.P a s t a b o s. 1) Jei pasirinktis panaudota su pradine lentele, tai: a) pašalintųkintamųjų negalima naudoti Data žingsnyje (skaičiavimuose ir pan.); b) komandose irkuriamos lentelės pasirinktyse reikia naudoti naują vardą; reikia naudoti seną vardą kitosepradinės lentelės pasirinktyse.2) Jei pasirinktis panaudota su kuriama lentele, tai: a) visus kintamuosius galimanaudoti skaičiavimuose; b) reikia naudoti seną vardą programos komandose ar kitosekuriamos lentelės pasirinktyse.1.2 lentelė. Duomenų lentelių pasirinkčių ir atitinkamų komandų palyginimasKomandosDuomenų lentelių pasirinktystaikomos tik kuriamoms lentelėms; taikomos ir pradinėms, ir kuriamoms lentelėms;veikia visas tame Data žingsnyje kuriamasveikia tik atskirą lentelę;lenteles;naudojamos tik Data žingsnyje;naudojamos ir Data, ir Proc žingsniuose;rašomos bet kurioje Data žingsnio vietoje;rašomos iš karto po lentelės, kuriai taikomos,pavadinimo1.33 p a v y z d y s.a) DATA d2;SET d1 (DROP=k1 k2);k3=2*k4;RUN;Pasirinktis panaudota su pradine lentele, todėl kintamųjų „k1“ ir „k2“ negalima naudotikomandose, jų nebus ir lentelėje „d2“.b) DATA d2 (DROP=k1 k2);SET d1;k3=2*k4;RUN;Pasirinktis panaudota su kuriama lentele, todėl kintamųjų „k1“ ir „k2“ nebus lentelėje „d2“,bet juos galima naudoti skaičiavimuose.c) DATA d2 (RENAME=(x=naujas));SET d1;z=x+y;RUN;Pasirinktis panaudota su kuriama lentele, todėl skaičiavimuose naudojame seną vardą.33

d) DATA d2;SET d1 (RENAME=(x=naujas));z=naujas+y;RUN;Pasirinktis panaudota su pradine lentele, todėl skaičiavimuose naudojame naują vardą.e) PROC PRINT data=d1 (firstobs=101 obs=120);RUN;Nurodome, kuriuos stebėjimus spausdinti, t.y. spausdins pradedant 101 stebėjimu ir baigiant120 stebėjimu.11. Automatiniai kintamiejiAutomatiniai kintamieji – laikini kintamieji, kurie yra sukuriami Data žingsnio metu.Jie neįrašomi į duomenų lentelę. Sukuriami automatiškai Data žingsnio metu; laikinikintamieji, neįrašomi į SAS duomenų lentelę.Automatinis kintamasis _N_ parodo kiek kartų buvo atliktas Data žingsnis.1.34 p a v y z d y s. Tarkime, kad turime duomenų lentelę „duom“. Šią lentelę reikiapapildyti tokiu nauju kintamuoju „sk“: kintamojo reikšmė pirmiems penkiems stebėjimamsturi būti lygi 1, kitiems penkiems stebėjimams reikšmė turi būti lygi 2 ir t.t. Šią užduotįgalima atlikti Editor lange parašius tokią programą:DATA duom; SET duom;RETAIN sk 0;IF MOD(_N_,5)=1 THEN sk=sk+1; /* funkcijos MOD rezultatas yra liekana*/RUN; /* padalinus _N_ iš 5 */Automatiniai kintamieji FIRST.kint ir LAST.kint yra sukuriami, kai Data žingsnyjenaudojame BY komandą. Vietoje „kint“ reikia įrašyti kintamojo, nurodyto po BY, vardą. Šiekintamieji gali įgyti tik reikšmę 0 arba 1. FIRST.kint įgyja reikšmę 1, jei dirbama sustebėjimu, kuriam keičiasi BY-kintamųjų reikšmė (t.y. pirmas stebėjimas, kuriam yra naujaBY-kintamųjų reikšmė) ir reikšmę 0 kitiems stebėjimams. LAST.kint įgyja reikšmę 1paskutinei tai pačiai BY-kintamųjų reikšmei, o kitoms bus 0.1.35 p a v y z d y s. Tarkime, kad gaminant tam tikrą gaminį, gamybos operacija yrakartojama, jei gaminio parametrų matavimai neatitinka nustatytų normatyvų, t.y. duomenųlentelėje kai kuriems gaminiams gali būti po keletą stebėjimų. Reikia palikti tik paskutinįmatavimą. Editor lange parašome:DATA duom2;SET duom1;BY gaminio_nr;IF LAST.gaminio_nr =1;RUN;Šiame Data žingsnyje parašytas sąlyginis sakinys nurodo, kad reikia palikti tik tuosstebėjimus, kuriems automatinio kintamojo LAST.gaminio_nr reikšmė yra 1, t.y. tik paskutinįstebėjimą kiekvienam gaminiui.12. Kintamųjų vardų sąrašaiIšvardinant kintamuosius galima naudoti sutrumpinimus, kurie yra vadinami SASkintamųjų vardų sąrašais. Juos galima naudoti įvairiose SAS komandose, duomenų lenteliųpasirinktyse, SAS procedūrose ir pan.Tegu turime aibė kintamųjų, kurių vardai yra tokie patys išskyrus paskutinį arba kelispaskutinius simbolius, kurie yra nuosekli skaičių seka, pavyzdžiui, vardas1, vardas2,…,vardasn, kur vardas yra kintamojo vardas. Tada galime naudoti tokį sutrumpinimą: vardas1-vardasn. Pavyzdžiui, pilnas užrašymas: k5, k6, k7, k8; sutrumpinimas: k5-k8.34

Kuriant lentelę kintamieji lentelėje yra išdėstomi tokia tvarka, kokia jie paminėti Datažingsnyje. Galima naudoti sutrumpinimus atsižvelgiant į kintamųjų išdėstymą duomenųlentelėje:x--a visi kintamieji nuo x iki a;x-numeric-a visi skaitinio tipo kintamieji nuo x iki a;x-character-a visi simbolinio tipo kintamieji nuo x iki a;1.36 p a v y z d y s. Tarkime, kad lentelę sukūrėme su tokiu Data žingsniu:DATA pavyzdys;INFILE ’c:\duom.txt’;INPUT y a c $ h r;b=a+r;RUN;Tada duomenų lentelėje kintamieji bus išdėstyti tokia tvarka: y, a, c, h, r, b.Editor lange parašykime:Sutrumpinimas:Pilnas užrašymas:DATA rez1;DATA rez1;SET pavyzdys; SET pavyzdys;KEEP a--h; KEEP a c h;RUN;RUN;Atlikus šį Data žingsnį lentelėje „rez1“ bus kintamieji nuo a iki h, t.y. kintamieji a, c, h.Editor lange parašykime:DATA rez2;SET pavyzdys;DROP a-numeric-h;RUN;Atlikus šį žingsnį lentelėje „rez2“ nebus skaitinių kintamųjų nuo a iki h, t.y. kintamųjų a, h.Editor lange parašykime:DATA rez3;SET pavyzdys;DROP a-character-h;RUN;Atlikus šį Data žingsnį lentelėje „rez3“ nebus simbolinio tipo kintamųjų nuo a iki h, t.y.kintamojo c.P a s t a b a. Kokia tvarka kintamieji yra išdėstyti duomenų lentelėje galima pažiūrėtisu procedūra CONTENTS:PROC CONTENTS DATA=duomenų_lentelė POSITION;RUN;Sutrumpinimus galima naudoti funkcijose. Šiuo atveju reikia nurodyti OF, pavyzdžiui,SUM(OF kint8-kint12) – kintamųjų k8, k9, k10, k11, k12 reikšmių suma.Specialūs kintamųjų vardų sąrašai:_NUMERIC_ visi skaitinio tipo kintamieji;_CHARACTER_ visi simbolinio tipo kintamieji;_ALL_ visi kintamieji.Pavyzdžiui, SUM(OF _NUMERIC_) visų skaitinio tipo kintamųjų reikšmių suma.Tarkime, kad turime aibę kintamųjų, kurių vardai prasideda tokiais pačiais simboliais,pavyzdžiui, kaina_sausio, kaina_vasario, kaina_kovo. Tada galima naudoti tokį sutrumpinimą:MEAN(OF kaina:) – kintamųjų reikšmių vidurkis.35

13. Kintamųjų masyvaiSAS kintamųjų masyvas – sutvarkyta kintamųjų grupė. Visi kintamieji turi būti topačio tipo, t.y. arba visi skaitinio tipo, arba visi simbolinio tipo. Gali būti nauji arba anksčiausukurti kintamieji. SAS kintamųjų masyvai yra dviejų tipų: vienmačiai ir daugiamačiai.Masyvas nėra išsaugomas duomenų lentelėje, jis yra sukuriamas tik Data žingsnio atlikimolaikotarpiui. Masyvai naudojami, kai tą patį veiksmą reikia atlikti daugeliui kintamųjų.Masyvas yra apibrėžiamas su ARRAY komanda, kuri rašoma Data žingsnyje. Sintaksė:ARRAY masyvo_vardas {masyvo_dydis} ;Masyvo dydį galima nurodyti laužtiniuose „[ ]“, figūriniuose „{ }“ arba paprastuoseskliaustuose „( )“.Masyvo vardas negali sutapti su kurio nors duomenų lentelės kintamojo vardu ar SASrezervuotu žodžiu.Masyvo dydį galima nurodyti keliais būdais:a) nurodant elementų skaičių kiekvienoje masyvo dimensijoje.1.37 p a v y z d y s.1) ARRAY m(3) k1 k2 k3; apibrėžiame vienmatį masyvą, kurio vardas yra „m“ irkuris yra sudarytas iš trijų kintamųjų k1, k2, k3.2) ARRAY m(5,3) T1-T15; dvimatis masyvas: penkios eilutės ir trys stulpeliai, išviso masyvą sudaro 15 kintamųjų. Kintamieji masyve yra išdėstomi tokiu būdu: užpildomapirma eilutė iš kairės į dešinę, tada antra eilutė ir t.t. Taigi, šiame pavyzdyje kintamiejimasyve bus išdėstyti tokiu būdu:T1 T2 T3T4 T5 T6T7 T8 T9T10 T11 T12T13 T14 T15b) nurodant kiekvienos masyvo dimensijos apatinį ir viršutinį rėžį:{ viršutinė_riba },1.38 p a v y z d y s.1) ARRAY mm{5,3} T1-T15; šis užrašas ekvivalentus: ARRAY mm{1:5,1:3} T1-T15;2) ARRAY mm{0:7} T0-T7; apibrėžiame vienmatį masyvą, kurio vardas yra „mm“ irkuris yra sudarytas iš kintamųjų T0, T1,...,T7.c) Jeigu nurodome {*}, tai masyvo dydis nustatomas suskaičiuojant kintamuosiusmasyve. Šis būdas naudojamas tik apibrėžiant vienmačius masyvus.Nebūtina pasirinktis „$” naudojama, kai masyvą sudarantys kintamieji yra simboliniotipo.Pasirinktis „ilgis“ apibrėžia kintamųjų ilgį, jeigu jis nebuvo apibrėžtas anksčiau.Galima masyvo elementams priskirti pradines reikšmes. Jas reikia išvardintiskliaustuose, atskiriant tarpais arba kableliais. Masyvo elementai ir nurodytos pradinėsreikšmės yra susijusios, t.y. pirmajam elementui priskiriama pirmoji nurodyta pradinėreikšmė, antrajam elementui – antroji ir t.t. Jeigu masyvo elementų yra daugiau negu nurodytapradinių reikšmių, tai likusiems elementams priskiriama praleisto stebėjimo reikšmė.kintamajam priskirta pradinė reikšmė pakeičiama priskyrus kitą reikšmę. Pradines reikšmesgalima tiesiog išvardinti arba naudoti sutrumpinimą, t.y. nurodome reikšmę ir kiek kartų jąreikia pakartoti.1.39 p a v y z d y s.1) ARRAY m{5} k1-k5;2) ARRAY men{*} sausis vasaris kovas balandis;3) ARRAY testas(4) t1 t2 t3 t4 (90 80 70 70); ekvivalentus užrašymas:36

ARRAY testas(4) t1-t4 (90 80 2*70);4) ARRAY x{10} x1-x10 (10*5); kintamiesiems x1,...x10 priskiriama pradinėreikšmė 5;5) ARRAY testas2 {*} a1 a2 a3 (’a’, ’b’, ’c’);6) ARRAY naujas (2:5) T1-T4;7) ARRAY testas3 {3:4,3:7} T1-T10;Kreipinio į masyvą sintaksė:masyvo_vardas (indeksas)čia indeksas – skaičius, aritmetinis reiškinys.1.40 p a v y z d y s. Tarkime, kad lentelėje yra šimtas kintamųjų: x1,...,x100. Šiųkintamųjų reikšmę -1 reikia pakeisti į 0. Šį uždavinį galime atlikti su tokiu Data žingsniu:DATA rezultatas;SET pradiniai;ARRAY pag(100) x1-x100;DO i=1 TO 100;IF pag(i)=-1 THEN pag(i)=0;END;DROP i;RUN;Šio Data žingsnio sąlyginiame sakinyje pag(i) yra kreipinys į masyvą, t.y. imamas i-tasiskintamasis.14. SAS ProcedūrosSAS procedūros yra skirtos atlikti įvairią duomenų analizę, atspausdinti duomenis,surūšiuoti ir pan. Visos procedūros prasideda žodžiu PROC, toliau rašomas procedūrospavadinimas ir įvairios pasirinktys.1.41 p a v y z d y s.PROC CONTENTS DATA=lentelė;čia CONTENTS yra procedūros pavadinimas. Ši procedūra pateikia informaciją apieduomenų lentelę. Nebūtina pasirinktis DATA=lentelė nurodo kokią duomenų lentelęanalizuojame. Jei šios pasirinkties nenurodome, tai pagal nutylėjimą imama paskutinė sukurtalentelė, o ji nebūtinai sutampa su paskutine naudota lentele, taigi šią pasirinktįrekomenduojama naudoti, kad būtų aišku, kokia duomenų lentelė yra analizuojama.SAS yra keletas sakinių, kuriuos galima naudoti bet kurioje procedūroje. Aprašysimedažniausiai naudojamus.BY kintamieji;Šis sakinys yra būtinas tik procedūroje SORT, kitose procedūrose – nebūtinas. Jisnurodo, kad turi būti atlikta atskira duomenų analizė kiekvienam BY-kintamųjų reikšmiųderiniui, o ne bendra visų stebėjimų analizė. Pavyzdžiui, BY mokykla; bus atlikta atskiraduomenų analizė kiekvienai mokyklai.P a s t a b a. Jei naudojame sakinį BY, tai prieš tai duomenis reikia surūšiuoti pagalkintamuosius, nurodytus po BY.TITLE ir FOOTNOTE sakiniai. Galima nurodyti iki 10 pavadinimų ir užrašų puslapioapačioje. Pavyzdžiui, FOOTNOTE3 ‘Rezultatai’. Nurodyti pavadinimai spausdinami tol, kolnepakeičiami naujais arba nepanaikinami su sakiniu TITLE. Kai nurodome naują pavadinimą,jis pakeičia anksčiau nurodytą ir panaikina visus pavadinimus su didesniu numeriu,pavyzdžiui, naujas TITLE2 panaikina egzistuojantį TITLE3. Sintaksė:TITLEn ’pavadinimas’;FOOTNOTEn ’pavadinimas’;37

čia n=2 iki 10 nurodo, kurioje eilutėje bus spausdinamas nurodytas pavadinimas.Sakinys WHERE nurodo, kad procedūroje turi būti panaudota tik dalis lentelėsduomenų. Sintaksė:WHERE sąlyga;Sąlygoje galima naudoti palyginimo operatorius: =, , =, ^=, OR, AND, o taippat tokius operatorius:IS NOT MISSING; pavyzdžiui, WHERE k1 IS NOT MISSING; analizuojami tiktie stebėjimai, kur k1 reikšmė nėra praleistas stebėjimas;BETWEEN AND; pavyzdžiui, WHERE k1 BETWEEN ‘reikšmė_1’ AND‘reikšmė_2’; analizuojami tik tie stebėjimai, kur k1 reikšmė yra tarp ‘reikšmė_1’ ir‘reikšmė_2’;CONTAINS; pavyzdžiui, WHERE k1 CONTAINS ‘ain’; analizuojami tik tiestebėjimai, kur k1 reikšmėje yra simbolių seka ‘ain’.IN (sąrašas); pavyzdžiui, WHERE k1 IN (‘reikšmė_1’, ‘reikšmė_2’, ‘reikšmė_3’);analizuojami tik tie stebėjimai, kur k1 reikšmė yra lygi kuriai nors iš nurodytų reikšmių.1.42 p a v y z d y s.PROC PRINT DATA=mano.d1;WHERE k1>10 AND k2 IN (011 012);TITLE ’Pavadinimas’;FOOTNOTE ’Prierašas’;RUN;Pasirinktis DATA=mano.d1 nurodo, kad spausdinsime lentelės “d1”, esančios bibliotekoje“mano”, duomenis.Sakiniu WHERE nurodome, kad turi būti spausdinami tik stebėjimai, tenkinantysnurodytą sąlygą.Prieš duomenis bus atspausdinta “Pavadinimas”, o po duomenimis “Prierašas”.14.1. Duomenų rūšiavimasSAS procedūra SORT yra skirta duomenų rūšiavimui. Sintaksė:PROC SORT DATA=lentelė OUT=lentelė_1;BY kintamųjų_sąrašas; RUN;DATA=lentelė pasirinktis nurodo, kokios lentelės duomenys turi būti surūšiuoti;OUT=lentelė_1 pasirinktis nurodo, į kokią lentelę turi būti įrašyti surūšiuoti duomenys;duomenys yra surūšiuojami pagal po BY nurodytus kintamuosius.1.43 p a v y z d y s.PROC SORT DATA=pradiniai OUT=rezultatas;BY k1 k2 k3;RUN;Duomenys imami iš lentelės ‘pradiniai’, surūšiuojami ir įrašomi į lentelę ‘rezultatas’.Iš pradžių surūšiuojami pagal kintamąjį k1 didėjančia tvarka, paskui vienodos k1 reikšmėssurūšiuojamos pagal k2 didėjančia tvarka ir t.t.P a s t a b a. 1) Jei nenurodome pasirinkties OUT= , tai surūšiuoti duomenys įrašomi įtą pačią lentelę. 2) Pagal nutylėjimą rūšiuojama didėjančia tvarka, jei norime mažėjančiatvarka, tai prieš kintamąjį nurodome DESCENDING. 3) Praleistas stebėjimas visadamažiausia reikšmė.1.44 p a v y z d y s.PROC SORT DATA=pradiniai OUT=rezultatas;BY k1 DESCENDING k2;RUN;38

Duomenys imami iš lentelės ‘pradiniai’, surūšiuojami ir įrašomi į lentelę ‘rezultatas’.Iš pradžių surūšiuojami pagal kintamąjį k1 didėjančia tvarka, paskui vienodos k1 reikšmėssurūšiuojamos pagal k2 mažėjančia tvarka.SAS numatyta galimybė surūšiuoti duomenis nerašant programinio kodo. Jeigunorime surūšiuoti pagal vieną kintamąjį (stulpelį), tai ant stulpelio pavadinimo paspaudžiamedešinį pelės klavišą ir iš atsiradusio kontekstinio meniu pasirenkame Sort, paskui Ascending(didėjančia tvarka) arba Descending (mažėjančia tvarka). Jeigu norime surūšiuoti pagal keliskintamuosius arba vieną kintamąjį, reikia atidaryti lentelę, kurios duomenis norime surūšiuoti,tada pagrindiniame meniu pasirinkti Data→Sort. Atsidariusiame „Sort“ lange (žr. 1.14 pav)pasirenkame kintamuosius (arba vieną kintamąjį) pagal kuriuos norime surūšiuoti beirūšiavimo tvarką (didėjanti arba mažėjanti). Pasirinkę Save As nurodome į kokią lentelęįrašyti rūšiavimo rezultatą.1.14 pav. Rūšiavimo langasJei atidarome lentelę peržiūros režime (Browse Mode), tai surūšiuotus duomenisgalime išsaugoti tik kitoje lentelėje. Jei atidarome lentelę redagavimo režime (Edit Mode), taisurūšiuotus duomenis galime išsaugoti ir toje pačioje lentelėje (apie lentelės atidarymąredagavimo ir peržiūros režime žr.3.1 skyrelyje).1.15 pav. Papildomų rūšiavimo pasirinkčių langasRūšiavimo lange paspaudus Advanced mygtuką yra atidaromas langas (žr.1.15 pav),kuriame galima pasirinkti, pavyzdžiui: Equals - nurodo eilučių vietą surūšiuotoje lentelėje. Šipasirinktis nurodo, kad eilutės su vienodomis BY-kintamųjų reikšmėmis surūšiuotoje lentelėjebus išdėstytos tokia pačia tvarka kaip ir pradinėje lentelėje; Force – nurodo surūšiuoti irišsaugoti toje pačioje lentelėje, kai nenurodome lentelės, į kurią reikia įrašyti pakeitimus,vardo Save As lange; No duplicate keys – eliminuoja eilutes su vienodomis BY-kintamųjųreikšmėmis; No duplicate – eliminuoja eilutes su vienodomis reikšmėmis.39

1.45 p a v y z d y s. Sukurkime duomenų lentelę „duomenys“ su tokiu Data žingsniu:DATA duomenys;INPUT x $ y z;DATALINES;x5 5 8x5 4 2x5 4 2x3 1 5x2 4 3x2 6 1x1 2 7;RUN;Surūšiuokime lentelės duomenis pagal kintamąjį x didėjančia tvarka, o paskuivienodas x reikšmės pagal kintamąjį y mažėjančia tvarka, be to panaikinkime vienodaseilutes. Atidarykime lentelę Viewtable lange. Pagrindiniame meniu pasirinkime punktąEdit→Edit Mode, o paskui Data→Sort. Atsidariusiame Sort lange į Selected lauką perkelkimekintamuosius x ir y, pažymėkime y ir Sort Order pasirinkime Descending (surūšiuotimažėjančia tvarka). Paspauskime mygtuką Save As ir įveskime lentelės, kurioje norimeišsaugoti surūšiuotus duomenis, vardą (pavyzdžiui, „rezultatas“). Paspauskime mygtukąAdvanced, atsidariusiame lange pažymėkime „No duplicates“ ir paspauskime mygtuką OK,bus sukurta lentelė „rezultatas“, kurioje bus tokie duomenys:Tokį patį rezultatą galime gauti parašę tokį kodą:PROC SORT DATA=duomenys OUT=rezultatas NODUPRECS;BY x DESCENDING y;RUN;čia NODUPRECS nurodo panaikinti vienodas eilutes; jeigu norėtume eliminuoja eilutes suvienodomis BY-kintamųjų reikšmėmis, tai reikėtų parašyti NODUPKEY.14.2. Duomenų spausdinimasDuomenų atspausdinimui Output lange yra skirta SAS procedūra PRINT. Jeigu Editorlange parašysime tokį Proc žingsnį:PROC PRINT DATA=lentelė;tai Output lange bus atspausdinti nurodytos lentelės duomenys.Jeigu Editor lange parašysime:PROC PRINT DATA=lentelė NOOBS;tai Output lange bus atspausdinti nurodytos lentelės duomenys, tačiau priekyje nebusspausdinamas stebėjimo numeris.Procedūroje PRINT galima naudoti sakinius: BY, WHERE, TITLE, FOOTNOTE (žr.aprašymą 14 skyrelio pradžioje).Pagal nutylėjimą spausdinami visi kintamieji ir visi stebėjimai taip, kaip jie išdėstytilentelėje. Galime naudoti papildomus sakinius, kurie gali būti išdėstyti bet kokia tvarka:VAR kintamieji;ID kintamieji;SUM kintamieji;40

VAR sakinyje nurodome kuriuos kintamuosius spausdinti ir kokia tvarka. Jeigunenurodytas nei VAR, nei ID sakinys, tai visi kintamieji iš lentelės spausdinami tokia tvarkakaip jie išdėstyti lentelėje. Kai panaudojame ID sakinį, tai stebėjimų numeriai nespausdinami.Kintamieji nurodyti ID sakinyje yra spausdinami kairėje puslapio pusėje. Jei panaudojame tikID sakinį, tai visi kintamieji bus spausdinami, tik po ID nurodyti kintamieji spausdinamikairėje pusėje. Jei panaudojame ID sakinį ir VAR sakinį, tai iš pradžių spausdinamikintamieji, nurodyti po ID, o paskui kintamieji, nurodyti po VAR. Nurodžius SUMspausdinama kiekvieno nurodyto po SUM kintamojo reikšmių suma.1.46 p a v y z d y s.DATA d1;INPUT x y z Vardas $;DATALINES;23 46 5 Jonas32 77 234 Petras4 4 88 Tomas;PROC PRINT DATA=d1;PROC PRINT DATA=d1;ID Vardas;VAR z y;SUM y;RUN;Pirmosios procedūros PRINT rezultatas: visi kintamieji ir stebėjimai iš lentelės „d1“atspausdinti Output lange tokia tvarka kaip jie yra išdėstyti lentelėje.Antrosios procedūros PRINT rezultatas: kintamieji z, y, Vardas iš lentelės „d1“atspausdinti Output lange (pradžioje spausdinamos kintamojo Vardas reikšmės; spausdinamakintamojo y reikšmių suma):Vardas z yJonas 5 46Petras 234 77Tomas 88 4----12714.3 Duomenų lentelės transponavimasDuomenų transponavimą atlieka SAS procedūra TRANSPOSE. Sintaksė:PROC TRANSPOSE ;BY kintamasis_1 ;COPY kintamieji;ID kintamieji;IDLABEL kintamasis;VAR kintamieji;RUN;čia lentelė_1 – duomenų lentelės, kurią norime transponuoti, vardas; lentelė_2 – duomenųlentelės, kurioje bus įrašyti transponuoti duomenys, vardas.PREFIX=simboliai nurodo kokiais simboliais turi prasidėti transponuotų kintamųjųvardai, pavyzdžiui, jeigu nurodome PREFIX=VAR, tai transponuotų kintamųjų vardai busVAR1, VAR2,... Jeigu pasirinktis PREFIX=simboliai yra naudojama kartu su ID sakiniu, taisimboliai, nurodyti pasirinktyje PREFIX=simboliai yra rašomi prieš ID kintamojo reikšmes.VAR sakinyje nurodome kintamuosius, kuriuos norime transponuoti. Galime nurodytivieną arba kelis kintamuosius. Jei VAR sakinio nenurodome, tai transponuojami visi skaitiniotipo kintamieji iš pradinės duomenų lentelės, kurie nebuvo nurodyti kituose sakiniuose. Jeigunorime transponuoti simbolinio tipo kintamuosius, tai juos reikia nurodyti VAR sakinyje.41

Jeigu nurodome BY sakinį, tai yra suformuojamos stebėjimų grupės. ProcedūraTRANSPOSE netransponuoja šių grupių, o kiekvienai grupei sukuria po vieną stebėjimąkiekvienam transponuojamam kintamajam.COPY sakinyje nurodyti kintamieji nėra transponuojami, o tiesiog perkopijuojami.Jeigu nurodome ID sakinį, tai transponuoti kintamieji bus pavadinti kintamojo,nurodyto po ID, reikšmėmis, t.y. kintamajame, nurodytame ID sakinyje, yra vardaitransponuotiems kintamiesiems. Jei ID sakinio nenurodome, tai pagal nutylėjimątransponuotų kintamųjų vardai bus COL1, COL2,... Jei po ID nurodome skaitinio tipokintamąjį, tai priekyje rašomas simbolis „_“, nes SAS kintamųjų vardai negali prasidėtiskaitmeniu.IDLABEL sakinys gali būti naudojamas po ID sakinio. Jame nurodytame kintamajameyra žymės transponuotiems kintamiesiems. IDLABEL sakinyje nurodytas kintamasisgali būti skaitinio arba simbolinio tipo.1.47 p a v y z d y s.1) Tarkime, kad duomenų lentelę „duom1“ sukūrėme su tokiu Data žingsniu:DATA duom1;INPUT pavadinimas $ k1-k10;DATALINES;x 2 3 4 6 4 5 8 1 7 4y 3 2 7 7 2 5 4 4 1 8z 4 4 8 8 9 4 5 6 7 9;RUN;Reikia transponuoti lentelės „duom1“ kintamuosius k1,..., k10; vardai transponuotiemskintamiesiems yra kintamajame „pavadinimas“. Editor lange parašome:PROC TRANSPOSE DATA=duom1 OUT=rezultatas;ID pavadinimas; VAR k1-k10;RUN;Pasirinktis DATA=duom1 nurodo, kad transponuoti reikia lentelę „duom1“; pasirinktisOUT=rezultatas nurodo, kad transponuoti duomenys bus išsaugoti lentelėje „rezultatas“;transponuotų kintamųjų vardai bus kintamojo „pavadinimas“ reikšmės; sakinys VAR nurodo.kad bus transponuoti kintamieji k1,..., k10. Taigi, šio Proc žingsnio rezultatas yra duomenųlentelė „rezultatas“:_NAME_ x y zk1 2 3 4k2 3 2 4k3 4 7 8k4 6 7 8k5 4 2 9k6 5 5 4k7 8 4 5k8 1 4 6k9 7 1 7k10 4 8 92) Tarkime, kad duomenų lentelę „duom2“ sukūrėme su tokiu Data žingsniu:DATA duom2;INPUT tipas $ kint1 kint2 kint3;DATALINES;x1 5 27 31x1 6 16 35x2 8 8 28x2 2 10 7x2 4 15 6;RUN;42

Editor lange parašykime:PROC TRANSPOSE DATA=duom2 OUT=rezultatas;BY tipas;VAR kint2 kint3;RUN;Šio Proc žingsnio rezultatas yra tokia duomenų lentelė:tipas _NAME_ COL1 COL2 COL3x1 kint2 27 16 .x1 kint3 31 35 .x2 kint2 8 10 15x2 kint3 28 7 6Sukurtoje lentelėje stebėjimų skaičius (keturi stebėjimai) yra lygus BY grupių skaičiui(dvi BY grupės) padaugintam iš transponuojamų kintamųjų skaičiaus (du kintamieji). BYsakinyje nurodytas kintamasis nėra transponuojamas. Jei BY grupėse stebėjimų skaičius yraskirtingas, tai stulpeliuose, kuriems neužtenka reikšmių, bus praleisto stebėjimo reikšmė(pavyzdyje pirmoje BY grupėje yra du stebėjimai, antroje – trys stebėjimai, todėl gautojelentelėje pirmos BY grupės stebėjimams trečiame stulpelyje yra praleistos reikšmės.15. Rašymo formataiRašymo formatas nurodo kaip duomenys rodomi atidarius duomenų lentelę, spausdinamiprocedūrų rezultatuose, jį galima panaudoti duomenų grupavimui ir pan. Pavyzdžiui,1) turime užkoduotus duomenis (pvz., amžiaus kategorijos užkoduotos skaičiais: 1 –paauglys, 2 – suaugęs, 3 – senyvo amžiaus), tokius duomenis patogu įvesti ir analizuoti, betnepatogu, kai reikia interpretuoti rezultatus. Geriau sukurti savo rašymo formatą iratspausdinti rezultatus su formatuotomis, o ne užkoduotomis reikšmėmis; 2) su rašymoformatu galime sugrupuoti kintamojo reikšmes.SAS yra dviejų tipų rašymo formatai: a) standartiniai; b) sukurti vartotojo (suprocedūra FORMAT).Standartiniai rašymo formatai yra trijų tipų:1) simbolinio tipo: $formatasw.2) skaitinio tipo: formatasw.d3) datos tipo: formatasw.čia formatas - rašymo formato vardas, w – simbolių skaičius, d – skaitmenų po kablelioskaičius.1.48 p a v y z d y s. 1) $w. standartinių simbolinio tipo duomenų rašymo formatas(pavyzdžiui, $8.); 2) yymmddw. datos rašymo formatas (pavyzdžiui, kai w=10, tai datapavidalo 1999.01.03, o kai w=8, tai data pavidalo 99.01.03); 3) dayw. mėnesio diena (pagalnutylėjimą w=2); 4) w.d standartinių skaitinio tipo duomenų rašymo formatas (pavyzdžiui 6.2iš viso šeši simboliai (įskaitant tašką, atskiriantį trupmeninę dalį) ir du skaitmenys pokablelio).P a s t a b a. Pilną standartinių rašymo formatų sąrašą galima pasižiūrėti pagrindiniamemeniu pasirinkus Help→SAS Help and Documentation.Rašymo formatas susiejamas su kintamuoju sakiniu FORMAT, pavyzdžiui,FORMAT kaina pelnas 6.2 data yymmdd8.;P a s t a b a. FORMAT sakinys gali būti naudojamas Data arba Proc žingsnyje. Jeipanaudojame DATA žingsnyje, tai rašymo formatas saugomas kartu su SAS duomenų lentele.Jei panaudojame Proc žingsnyje, tai rašymo formatas taikomas tik to Proc žingsniorezultatams.Galima sukurti savo rašymo formatą su procedūra FORMAT. Paskui jį galime susietisu kintamaisiais su FORMAT sakiniu.43

Procedūros FORMAT sintaksė:PROC FORMAT;VALUE vardas reikšmių_aibė_1=’formatuotas_tekstas_1’reikšmių_aibė_2=’formatuotas_tekstas_2’...reikšmių_aibė_n=’formatuotas_tekstas_n’;RUN;Gali būti keli VALUE sakiniai vienoje FORMAT procedūroje; vardas - formatovardas (negali būti ilgesnis nei 8 simboliai, negali prasidėti ir baigtis skaičiumi, negali būtispecialių simbolių, negali sutapti su standartinio formato vardu, jei formatas simbolinio tipo,tai turi prasidėti „$“ simboliu); reikšmių_aibė - kintamojo reikšmė arba reikšmės, kuriomspriskiriamas tekstas, esantis dešinėje lygybės pusėje.1.49 p a v y z d y s. 1) ‘A’ = ‘aukšta’; 2) 1,3,5,7,9 = ‘nelyginis’; 3) LOW – 7.5 =‘žemas’; 4) 13 -< 20 = ‘jaunuolis’; 5) 0

et kurioje programos vietoje, o lokalius tik makroprogramoje, kurioje jie yra apibrėžti. Kaikompiliuojamas programinis kodas, tai toje vietoje, kur yra makrokintamojo vardas, yratiesiog įstatoma makrokintamojo reikšmė.Vienas iš būdų priskirti makrokintamajam reikšmę yra toks:%LET vardas = reikšmė;čia vardas – makrokintamojo vardas; reikšmė - makrokintamajam priskiriama nurodytareikšmė.1.51 p a v y z d y s.a) %LET skaicius = 1;b) %LET diena = Pirmadienio;Kabučių rašyti nereikia, nors b) punkte priskiriama simbolinio tipo reikšmė.Kai norime makrokintamąjį panaudoti programoje, tai prieš jo vardą rašome simbolį„&“. Jei makrokintamojo vardą reikia panaudoti kabutėse, tai reikia rašyti dvigubas kabutes(žr. 1.51 pavyzdžio tęsinį, sakinį TITLE).1.51 p a v y z d y s (tęsinys). Aukščiau apibrėžtus makrokintamuosius galimapanaudoti, pavyzdžiui, taip:DATA duomenys;INFILE `c:\duom.txt`;INPUT tipas @;IF tipas=&skaicius;INPUT k1-k50;RUN;PROC PRINT DATA=duomenys;VAR k1-k0;TITLE „&diena skaičiavimo rezultatai“;RUN;Kai makroprocesorius sukompiliuoja šį kodą, jis atrodo taip:DATA duomenys;INFILE `c:\duom.txt`;INPUT tipas @;IF tipas=1;INPUT k1-k50;RUN;PROC PRINT DATA=duomenys;VAR k1-k0;TITLE „Pirmadienio skaičiavimo rezultatai“;RUN;Norint pakeisti programą, pavyzdžiui, kad spausdintų antradienio skaičiavimorezultatus, reikia tik pakeisti makrokintamojo „diena“ reikšmę %LET sakinyje, o procedūrosPRINT keisti nereikia. Šiame pavyzdyje programa yra labai trumpa, todėl ir pačiojeprogramoje pakeitimus būtų nesunku atlikti, tačiau kai ji ilga ir pakeitimus reikia atliktiįvairiose vietose, tai makrokintamųjų panaudojimas žymiai palengvina darbą.Makroprogramos naudingos, kai dažnai reikia atlikti tą patį ar panašų veiksmą.Makroprogramos sintaksė:%MACRO makroprogramos_vardas; /* makroprogramos pradžia */SAS komandos /* makroprogramos tekstas;*/%MEND makroprogramos_vardas; /* makroprogramos pabaiga */Kreipinys į makroprogramą:% makroprogramos_vardas;Dažniau yra naudojamos makroprogramos su parametrais. Parametrai yra makrokintamieji,kurių reikšmes nurodome, kai kreipiamės į makroprogramą. Sintaksė:45

%MACRO vardas(parametras_1= , parametras_2= , parametras_n= );makroprogramos_tekstas;%MEND vardas;čia vardas – makroprogramos vardas.1.52 p a v y z d y s. Tegu turime duomenų lentelę „duomenys“, kurioje yra duomenysapie vienos sesijos metu studentų išlaikytus egzaminus. Lentelėje yra tokie kintamieji:studento pažymėjimo numeris (nr), kursas (kursas), grupė (grupe), disciplina (dalykas),įvertinimas (ivertinimas), čia skliaustuose yra nurodyti stulpelių vardai. Parašykimemakroprogramą, kuri atspausdintų norimo kurso studentų tam tikros disciplinos įvertinimus,surūšiuotus pagal pasirinktą kintamąjį.%MACRO rezultatai(kurso_nr=, dalyko_pav=, sur_kint=);PROC SORT DATA=duomenys OUT=pagalbine;BY &sur_kint;WHERE kursas=&kurso_nr and dalykas=“&dalyko_pav“;PROC PRINT DATA = pagalbine;TITLE "&kurso_nr kurso egzamino rezultatai, disciplina: &dalyko_pav";%MEND rezultatai;%rezultatai(kurso_nr=2, dalyko_pav=informatika, sur_kint=grupe);%rezultatai(kurso_nr=1, dalyko_pav=geometrija, sur_kint=ivertinimas);RUN;Pirmojo kreipinio į makroprogramą rezultatas yra Output lange atspausdinti duomenys(surūšiuoti pagal kintamojo „grupė“ reikšmes) apie antro kurso studentų informatikosegzamino rezultatus.Antrojo kreipinio į makroprogramą rezultatas yra Output lange atspausdinti duomenys(surūšiuoti pagal kintamojo „ivertinimas“ reikšmes) apie pirmo kurso studentų geometrijosegzamino rezultatus.Sąlyginės makrokomandos naudojamos tik makroprogramose. Jos skiriasi nuopaprastų sąlyginių sakinių tuo, kad veiksmas, kuris atliekamas, jeigu sąlyga teisinga, galisusidėti iš pilnų Proc arba Data žingsnių. Sintaksė:%IF sąlyga %THEN veiksmas;%ELSE %IF sąlyga %THEN veiksmas;%ELSE veiksmas;Jei stebėjimams, tenkinantiems nurodytą sąlygą, reikia atlikti keletą veiksmų, tai rašome:%IF sąlyga %THEN %DO;veiksmas;veiksmas;%END;Makroprogramose galima naudoti automatinius makrokintamuosius, paminėsimekeletą (pilną sąrašą galima rasti pagrindiniame meniu pasirinkus Help→SAS Help andDocumentation → SAS Products → SAS Macro Reference):Makrokintamojo vardas Aprašymas&SYSDATE SAS sesijos darbo pradžios data;&SYSDAYsavaitės diena (žodis, anglų kalba);&SYSLAST paskutinės sukurtos lentelės vardas tokiu pavidalu: biblioteka.lentelė.1.53 p a v y z d y s. Tarkime, kad lentelėje „duomenys“ turime tokius duomenis: data(metai, mėnuo, diena), prekės pavadinimas (kintamojo vardas – prekes_pavadinimas),parduotų vienetų skaičius (kintamojo vardas - parduota). Darbuotojas kiekvieną dieną turiatspausdinti kiek kokių prekių buvo parduota tą dieną, o trisdešimtą kiekvieno mėnesio dienąturi atspausdinti kiek kiekvieno tipo prekių buvo parduota per tą mėnesį. Galime parašytitokią makroprogramą:46

%macro ataskaita;%LET diena=%sysfunc(day("&sysdate"D));%LET menuo=%sysfunc(month("&sysdate"D));%if &diena=30 %then%do;title 'Menesio suvestine';proc sort data=duomenys; BY prekes_pavadinimas;proc means data=duomenys sum;var parduota; BY prekes_pavadinimas;WHERE &menuo= month(data);run;%end;%else%do;title 'Dienos duomenys';proc sort data=duomenys; BY prekes_pavadinimas;proc print data=duomenys noobs;var parduota; BY prekes_pavadinimas;WHERE &diena= day(data) and &menuo= month(data); run;%end;%mend ataskaita;%ataskaita;Su komanda CALL SYMPUT galima reikšmę iš Data žingsnio priskirtimakrokintamajam ir šį makrokintamąjį naudoti tolesniuose žingsniuose. Sintaksė:CALL SYMPUT("vardas", reikšmė);čia vardas yra naujo arba anksčiau sukurto makrokintamojo vardas; reikšmė - kintamojovardas arba konstanta (simbolinio arba skaitinio tipo), parašyta kabutėse.CALL SYMPUT dažnai naudojama su sąlyginiu sakiniu IF-THEN, pavyzdžiui,1.54 p a v y z d y s.IF Dydis>=10 THEN CALL SYMPUT(”Tipas”, ”T1”);ELSE CALL SYMPUT(”Tipas”, ”T0”);Šiuo sakiniu makrokintamajam Tipas priskiriama reikšmė T1 arba T0, priklausomainuo kintamojo Dydis reikšmės.IF Suma

II skyrius. SPECIALIOS FUNKCIJOSSAS yra realizuota apie 450 įvairių funkcijų. Jas pagal paskirtį galima suskirstyti įtokias grupes (žr. [9]):1) matematinės funkcijos (mathematical functions);2) skaitinių charakteristikų funkcijos (descriptive characteristics functions);3) funkcijos, skirtos įvairių tikimybinių skirstinių tankio, skirstinio funkcijų reikšmiųapskaičiavimui (probability functions);4) kvantilių funkcijos (quantile functions);5) atsitiktinių dydžių modeliavimo funkcijos (random numbers functions);6) simbolinio tipo duomenų funkcijos (character functions);7) datos ir laiko funkcijos (date and time functions);8) masyvų funkcijos (array functions);9) finansinės funkcijos (financial functions);10) funkcijos, skirtos darbui su išorinėmis bylomis (external files);11) funkcijos, naudojamos makroprogramose (macro functions);12) SAS bylų įvesties/išvesties funkcijos (SAS files I/O);13) funkcijos, suteikiančios informacijos apie kintamuosius (variable information);14) interneto funkcijos (Web tools functions).SAS funkcijos dažniausiai naudojamos Data žingsnio priskyrimo, sąlyginiuosesakiniuose cikluose, Proc žingsnio WHERE sakinyje.Visų funkcijų sintaksė yra tokia pati:vardas(argumentas_1 )vardas(OF kintamųjų_sąrašas)vardas(OF masyvo_vardas {*})čia vardas – yra funkcijos pavadinimas; argumentas – kintamojo vardas, konstanta, funkcija,reiškinys; argumentai atskiriami kableliais.2.1 p a v y z d y s. 1) x=SQRT(25); šiame pavyzdyje funkcijos argumentas yraskaitinio tipo konstanta; funkcijos SQRT reikšmė yra kvadratinė šaknis iš argumento;2) IF MEAN(t1,t2,t3)>8 THEN lygis=1; šiame pavyzdyje funkcijos argumentai yrakintamųjų vardai; funkcijos MEAN reikšmė yra argumentų vidurkis;3) vardas=UPCASE(vardas); šiame pavyzdyje funkcijos argumentas yra kintamojovardas; šiuo priskyrimo sakiniu yra pakeičiama kintamojo „vardas“ reikšmė (visos mažosiosraidės pakeičiamos didžiosiomis);4) y=SUM(2*suma1, suma2+suma3); šiame pavyzdyje funkcijos argumentai yrareiškiniai; funkcijos SUM reikšmė yra argumentų suma.Kintamųjų sąrašas – bet kokio tipo kintamųjų vardų sąrašas (žr. I sk.,12 skyrelį), tametarpe ir atskiri kintamųjų vardai, pavyzdžiui,y=SUM(OF x1-x5); y=SUM(OF x1-x5, y1-y5);Masyvo_vardas{*} – anksčiau apibrėžto masyvo vardas (I sk., žr.13 skyrelį); imamivisi masyvo elementai, pavyzdžiui,ARRAY xx{5} x1-x5; z=MEAN(OF xx{*});Šiame skyriuje pateikiamas matematinių, tikimybinių, kvantilių, atsitiktinių dydžiųmodeliavimo, skaitinių charakteristikų funkcijų aprašymas ir funkcijų naudojimo pavyzdžiai,o taip pat aptariamos kai kurių simbolinio tipo duomenų, datos ir laiko, masyvų funkcijųpanaudojimo galimybės. Pilną SAS funkcijų sąrašą ir jų aprašymą galima pasižiūrėtipagrindiniame meniu pasirinkus Help→SAS Help and Documentation.48

1. Matematinės funkcijosSAS matematines funkcijas galima suskirstyti į tokias grupes: 1) standartinės, pavyzdžiui,skaičiaus modulis, logaritmas, šaknis; 2) specialios, pavyzdžiui, gama, beta; 3) trigonometrinės,4) hiperbolinės; 5) skaičių apvalinimo.2.1 lentelėje yra pateiktos SAS realizuotos matematinės funkcijos ir jų aprašymai, o2.2 lentelėje – funkcijų panaudojimo pavyzdžiai.2.1 lentelė. Matematinės funkcijosSintaksėAprašymasStandartinės ir specialios matematinės funkcijosABS(x)x modulis.(2)Airy funkcija, t.y. sprendinys diferencialinės lygties: ω − x ω = 0 su sąlygomisAIRY(x)11ω (0) =ir ω ′(0)= − .2 / 31/ 33 Γ(2 / 3)3 Γ(1/3)BETA(a,b)1a−1b−1Beta funkcija: β ( a,b)= ∫ x (1 − x)dx,a > 0, b > 0.0Rezultatas yra neneigiamas necentriškumo parametras chi-kvadrato skirstinio, kurioparametrai yra x, n, λ, čia x ≥ 0 – taškas kuriame skaičiuojama, n>0 – laisvėslaipsniai, λ - necentriškumo parametras, 00 – vardiklio laisvės laipsniai, λ - necentriškumo parametras, 0

2.1 lentelės tęsinys. Matematinės funkcijosSintaksėAprašymasMOD(arg1, arg2) Liekana padalinus arg1 iš arg2; rezultato ženklas toks pats kaip arg1, arg2 ženklasignoruojamasn!PERM(n,r) PERM( n,r)= , n ir r neneigiami sveiki skaičiai ( r ≤ n ).( n − r)!⎧−1,jei x < 0;SIGN(x)⎪SIGN( x ) = ⎨0,jei x = 0;⎪⎩1,jei x > 0.SQRT(x) x , x - neneigiamas skaičius.Rezultatas yra neneigiamas necentriškumo parametras Stjudento T skirstinio, kurioparametrai yra x, n, λ, čia x ≥ 0 – taškas kuriame skaičiuojama, n>0 – laisvėslaipsniai, λ - necentriškumo parametras, 0

2. Skaitinių charakteristikų funkcijos2.3 lentelėje pateikiamos SAS realizuotos skaitinių charakteristikų funkcijos. Daugumąšių skaitinių charakteristikų galima apskaičiuoti ir su procedūra MEANS, skaičiavimometodas toks pats (žr. III sk., 2 skyrelį). Skirtumas tas, kad su funkcija galima apskaičiuotinurodytų reikšmių skaitinę charakteristiką, o su procedūra – kintamojo (stulpelio) nurodytųreikšmių skaitinę charakteristiką. 2.4 lentelėje pateikiami funkcijų panaudojimo pavyzdžiai.P a s t a b a. Skaičiuojant imamos tik nepraleistos argumentų reikšmės.2.3 lentelė. Skaitinių charakteristikų funkcijosSintaksėAprašymasCSS(argumentas1, argumentas2,...) Koreguota kvadratų suma.CV(argumentas1, argumentas2,...) Variacijos koeficientas.Geometrinis vidurkis: n x 1 ,GEOMEAN(argumentas1, argumentas2,...) * x2*...* x n čia n – skaičius argumentų,kurių reikšmė nėra praleistas stebėjimas, o x 1 ,..., xntųargumentų reikšmės; argumentas – neneigiama konstanta, kintamasis,reiškinys.Harmoninis vidurkis: ),HARMEAN(argumentas1, argumentas2,...) /( −1−1... −1n x1+ x2+ + xnčia n – skaičiusargumentų, kurių reikšmė nėra praleistas stebėjimas, o x 1 ,..., xntų argumentų reikšmės; argumentas – neneigiama konstanta,kintamasis, reiškinys.IQR(argumentas1, argumentas2) Tarpkvartilinis plotis.KURTOSIS(argumentas1, argumentas2,...) Eksceso koeficientas.LARGEST(K, reikšmė1, reikšmė2,...) K-toji didžiausia nepraleista reikšmė; K ir nurodytos reikšmėsgali būti: skaitinė konstanta, kintamasis, reiškinys.MAX(argumentas1, argumentas2,...) Didžiausia reikšmė.MEAN(argumentas1, argumentas2,...) Aritmetinis vidurkis (vidutinė reikšmė).MEDIAN(argumentas1, argumentas2,...) Mediana (vidurinė reikšmė).MIN(argumentas1, argumentas2,...) Mažiausia reikšmė.skaitinio_tipo_reiškinys – apibrėžia skaitinio tipo duomenis;MISSING(skaitinio_tipo_reiškinys | simbolinio_tipo_ reiškinys – simbolinio tipo kintamojo vardassimbolinio_tipo_ reiškinys)arba reiškinys, kurio reikšmė yra simbolinio tipo; ši funkcijatikrina skaitinio arba simbolinio tipo reiškinį ir įgyja reikšmę 1,jei reikšmė praleista, reikšmę 0, jei nepraleista.N(argumentas1, argumentas2,...) Nepraleistų reikšmių skaičius.NMISS(argumentas1, argumentas2,...) Praleistų reikšmių skaičius.ORDINAL(K, reikšmė1, reikšmė2,...) K-oji pozicinė statistika (K-tas variacinės eilutės narys ); skaičiuojair praleistas reikšmes.PCTL(p, reikšmė1, reikšmė2,...) p-tas procentilis ( 0 ≤ p ≤ 100 ), n – procentilių apskaičiavimometodo numeris (n=1,2,…,5).RANGE(reikšmė1, reikšmė2,...)Skirtumas tarp didžiausios ir mažiausios reikšmės.2 2 2( x1 + x2+ ... + xn ) / n čia n – skaičius argumentų, kuriųRMS(argumentas1, argumentas2,...) reikšmė nėra praleistas stebėjimas, o x 1 ,..., xntų argumentųreikšmės; argumentas – neneigiama skaitinio tipo konstanta,kintamasis, reiškinys.SKEWNESS(argumentas1,argumentas2,...) Asimetrijos koeficientas.SMALLEST(K, reikšmė1, reikšmė2,...) K-toji mažiausia nepraleista reikšmė; K ir nurodytos reikšmėsgali būti: skaitinė konstanta, kintamasis, reiškinys.STD(argumentas1, argumentas2,...) Standartinis nuokrypisSTDERR(argumentas1, argumentas2,...) Standartinė vidurkio paklaida.SUM(argumentas1, argumentas2,...) Nepraleistų reikšmių suma.USS(argumentas1, argumentas2,...) Nekoreguota kvadratų suma.VAR(argumentas1, argumentas2,...) Dispersija.51

2.4 lentelė. Skaitinių charakteristikų funkcijų panaudojimo pavyzdžiai.Pavyzdys Rezultatas Pavyzdys RezultatasY=GEOMEAN(2, . , 1); Y=1.4142 Y=GEOMEAN(2, 5, 6); Y=3.9149Y=LARGEST(2, 5, 4, . , 6); Y=5 Y=SMALLEST(1, 5, 4, . , 6); Y=4Y=MEAN(1, . , 4); Y=2.5 X=5;Y=4Y=MEAN(2*5, X, X-2);X1=1; X2=. ; X3=. ;Y=1 X1=2; X2=3; X3=1;Y=0Y=MISSING(X1+X2+X3);Y=MISSING(X1+X2+X3);X1=2; X2=. ; X3=1;Y=2 Y=N(2, . , 3); 2Y=N(OF X1-X3);X1=5; X2=. ; X3=. ; X4=4; X5=6; Y=. X1=5; X2=. ; X3=. ; X4=4; X5=6; Y=5Y=ORDINAL(2, OF X1-X5);Y=ORDINAL(4, OF X1-X5);Y=SUM(2, 3, .); Y=5 Y=SUM(MEAN(1, 3), MEAN (4, 5)); Y=6.53. Tikimybinių skirstinių funkcijosSAS yra numatyta galimybė įvairiems tikimybiniams skirstiniams apskaičiuoti tokiųfunkcijų reikšmes: 1) skirstinio funkcija (cumulative distribution function); 2) tankio funkcija(probability density (mass) function); 3) išgyvenimo funkcija (survival function). Skirstiniofunkcijos rekšmėms apskaičiuoti yra skirta funkcija CDF, tankio funkcijos reikšmėms –funkcija PDF, o išgyvenimo funkcijos reikšmėms funkcija SDF (S(x)=1-F(x), čia F –skirstinio funkcija, o S – išgyvenimo funkcija). Visų šių funkcijų sintaksė yra tokia pati:CDF(’skirstinys’, argumentas )PDF(’skirstinys’, argumentas )SDF(’skirstinys’, argumentas )čia skirstinys – žodis, identifikuojantis skirstinį; galimi skirstiniai yra pateikti 2.5 lentelėje;argumentas – taškas, kuriame norime apskaičiuoti funkcijos reikšmę; parametras_1, ...,parametras_k – yra nebūtini formos, padėties, mastelio parametrai.2.6 lentelėje pateikiama funkcijos CDF sintaksė įvairių skirstinių atveju. FunkcijųPDF ir SDF sintaksė analogiška.2.5 lentelė. Skirstinius identifikuojantys raktiniai žodžiaiSkirstinio pavadinimas Raktinis žodis Skirstinio pavadinimas Raktinis žodisBernulio ’BERNOULLI’ Logistinis ’LOGISTIC’Beta ’BETA’ Lognormalusis ’LOGNORMAL’Binominis ’BINOMIAL’ Neigiamas binominis ’NGBINOMIAL’Koši ’CAUCHY’ Normalusis ’NORMAL’Chi-kvadrato ’CHISQUARE’ Normalių mišinys ’NORMALMIX’Eksponentinis ’EXPONENTIAL’ Pareto ’PARETO’Fišerio ’F’ Puasono ’POISSON’Gama ’GAMMA’ Stjudento ’T’Geometrinis ’GEOMETRIC’ Tolygus ’UNIFORM’Hipergeometrinis ’HYPERGEOMETRIC’ Valdo (atvirkštinis Gauso) ’WALD’|’IGAUSS’Laplaso ’LAPLACE’ Veibulo ’WEIBULL’52

2.6 lentelė. CDF funkcijos sintaksėSkirstinysCDF funkcija (skirstinio funkcija)Bernulio⎧0,x < 0,⎪CDF(’BERN’,x,p)= ⎨1− p,0 ≤ x < 1, čia 0 ≤ p ≤ 1 sėkmės tikimybė;⎪⎩1,x ≥ 1.Beta⎧0,x ≤ 1,⎪ x a−1b−11 ( x −1)( r − x)CDF(’BETA’,x,a,b, l,r)= ⎨ ∫dx,l < x ≤ r,+ −⎪ β ( a,b)a b 1l ( r − l)⎪⎩1,x > r;čia a>0, b>0, r>l; parametrai r ir l nebūtini (pagal nutylėjimą l=0, r=1),Γ(a)Γ(b)∞a−1−xβ ( a,b)= , Γ( a)= ∫ x e dx ;Γ(a + b)0BinomialCDF(’BINOM’,m,p,n)= ∑m ⎛n⎞j n−j⎜⎟ p ( 1−p), čia m=0,1,...,n – sėkmių skaičius,j=0⎝i ⎠0 ≤ p ≤ 1 sėkmės tikimybė, n=0,1,... – nepriklausomų Bernulio eksperimentųskaičius;Koši1 1 −1⎛ x −θ⎞CDF(’CAUCHY’,x,θ,λ)= + tan ⎜ ⎟,parametrai θ, λ>0 nebūtini (pagal2 π ⎝ λ ⎠nutylėjimą θ=0, λ=1);Chi-kvadrato/ 2 ( / 2)CDF(’CHISQ’,x,ν,λ)= ∑ ∞ j−λλePc( x,ν + 2 j), x>0; čia ν >0 – laisvėsj=0 j!laipsniai, λ ≥ 0 - nebūtinas necentriškumo parametras, jei parametro λ nenurodome,tai centrinis chi-kvadrato skirstinys;Pc ( x,a)= Pg( x / 2, a / 2) - centrinio chi-kvadrato skirstinio tikimybė;y1 −vb−1Pg( y,b)= ∫ e v dv - gama skirstinio tikimybė;Γ(b)0Eksponentinis CDF(’EXPO’,x,λ)= 1− e −x / λ , x ≥ 0,λ > 0 - nebūtinas parametras (pagalFišerioGamaGeometrinisHipergeometrinisnutylėjimą λ = 1) ;/ 2 ( / 2)CDF(’F’,x, v 1,v2, λ)= ∑ ∞ j−λλePf( x,v1+ 2 j,v2),j=0 j!x ≥ 0, čia v 1 > 0 –skaitiklio laisvės laipsniai, v 2 > 0 – vardiklio laisvės laipsniai, λ ≥ 0 - nebūtinasnecentriškumo parametras, jei parametro λ nenurodome, tai centrinis Fišerioskirstinys;Pf ( x,u1,u2) = PB( u1x/( u1x+ u2), u1/ 2, u2/ 2) - centrinio Fišerio skirstinio tikimybė;P B ( x,a,b)- standartinio beta skirstinio tikimybė;x1 a−1−v/ λCDF(’GAMMA’,x,a,λ)= ∫ v e dv,aλ Γ(a)0nebūtinas parametras (pagal nutylėjimą λ = 1);x ≥ 0, čia a > 0 , λ > 0 -jCDF(’GEOM’,m,p)= ∑ ≤ mjp(1− p), čia m = 0,1,..., 0 ≤ p ≤ 1 sėkmės tikimybė;j=0x ⎛ R⎞⎛N − R⎞i∑⎜⎟⎜⎟oi=0⎝i ⎠⎝n − i ⎠CDF(’HYPER’,x,N,R,n,o)= , čiamin( R,n)⎛ R⎞⎛N − R⎞j∑⎜⎟⎜⎟oj=max(0, R+n−N) ⎝ j ⎠⎝n − j ⎠max( 0, R + n − N)< x < min( R,n),N = 1,2...- populiacijos dydis, R = 0,1,...N -elementų, turinčių dominančią savybę skaičius, n = 1,...N - imties dydis, o>0 –nebūtinas parametras;53

2.6 lentelės tęsinys. CDF funkcijos sintaksėSkirstinysCDF funkcija (skirstinio funkcija)Laplaso⎧1( x−θ) / λ⎪ e , x < 0,CDF(’LAPLACE’,x,θ,λ)= 2⎨1⎪−(x−θ) / λ1−e , x ≥ 0,⎩ 2čia θ ir λ > 0 - nebūtiniparametrai (pagal nutylėjimą θ = 0,λ = 1);Logistinis1CDF(’LOGISTIC’,x,θ,λ)=−(x−θ ) / λ1+ečia θ ir λ > 0 - nebūtini parametrai(pagal nutylėjimą θ = 0,λ = 1);Lognormaluslog( x)⎛ 21⎞CDF(’LOGN’,x,θ,λ)= ∫⎜ ( v −θ)exp − ⎟dv,⎜ 2λ 2π⎟0 ⎝ 2λ⎠x > 0, čia θ ir λ > 0 -nebūtini parametrai (pagal nutylėjimą θ = 0,λ = 1);Neigiamas binominismn ⎛n+ j −1⎞jCDF(’NEGB’,m,p,n)= p ∑⎜⎟(1− p),j=0⎝j ⎠čia m=0,1,... – nesėkmių skaičius,n=0,1,... – sėkmių skaičius, 0 ≤ p ≤ 1 sėkmės tikimybė;Normalusisx ⎛ 21⎞CDF(’NORMAL’,x,θ,λ)= ∫⎜ ( v −θ)exp − ⎟dv,čia θ ir λ > 0 - nebūtini2 ⎜ 2λ π⎟−∞ ⎝ 2λ⎠parametrai (pagal nutylėjimą θ = 0,λ = 1);Normalių mišinys CDF(’NORMALMIX’,x, n, p 1 ,..., pn, m1,...,mn, s 1 ,..., sn)== ∑np CDF NORMAL x m i s ii=1 1 * (' ',, , ) , čia n = 1,2,...mišinių skaičius; p 1 ,..., pn-nproporcijos, p 1 ∑1 1 = ; m 1 ,..., mn- vidurkiai; s 1,...,sn- standartiniai nuokrypiai,i=s i > 0,i = 1,..., n;ParetoPuasonoStjudentoTolygusisValdo(atvirkštinis Gauso)Veibulo⎧0,x < k;CDF(’PARETO’,x,a,k)= ⎨ a , čia a>0, k>0 – nebūtinas parametras⎩1− ( k / x), x ≥ k;(pagal nutylėjimą k = 1 );n im −mCDF(’POISSON’,n,m)= ∑ e , čia n = 0,1,..., m>0 – vidurkis;i=0 i!CDF(’T’,t,v,λ) čia v>0 – laisvės laipsniai, λ - necentriškumo parametras (nebūtinasparametras), nebūtinai sveikas skaičius, jei λ nenurodome, tai centrinis Stjudentoskirstinys;⎧0,x < l,⎪CDF(’UNIFORM’,x,l,r)= ⎨(x − l)/( r − l),l ≤ x < r,čia l ir r (r>l) nebūtini⎪⎩1,x ≥ r;parametrai (pagal nutylėjimą l = 0,r = 1 );CDF(’WALD’,x,d)=CDF(’IGAUSS’,x,d) =⎛ ⎞2⎛ ⎞⎜d( 1) ⎟ d ⎜d= Φ x − + e Φ − ( x + 1) ⎟,x > 0; čia parametras d>0, Φ -⎝ x ⎠ ⎝ x ⎠standartinio normalaus skirstinio pasiskirstymo funkcija;⎪⎧⎛ x ⎞a ⎪⎫CDF(’WEIBULL’,x,a,λ)= 1−exp⎨−⎜ ⎟ ⎬,x ≥ 0;čia a>0, nebūtinas parametras⎪⎩⎝ λ ⎠ ⎪⎭λ > 0 (pagal nutylėjimą λ = 1);54

2.2 p a v y z d y s.a) Apskaičiuokime normalaus skirstinio su vidurkiu 5 ir dispersija 1 skirstiniofunkcijos ir tankio reikšmę taške 3.1. Editor lange įvedame:data d1;s1=CDF(’NORMAL’,3.1,5,1); /*skirstinio funkcija*/t1=PDF(’NORMAL’,3.1,5,1); /*tankio funkcija*/run;Gauname s1=0,0287165598; t1=0.0656158148.b) Apskaičiuokime centrinio chi-kvadrato skirstinio su 6 laisvės laipsniais tankiofunkcijos reikšmę taške 5.1. Editor lange įvedame:data d2;s=PDF(’CHISQ’,5.1,6);run;Gauname s=0.1269315083.c) Apskaičiuokime necentrinio Stjudento skirstinio su 2 laisvės laipsniais irnecentriškumo parametru 3.6 tankio funkcijos reikšmę taške 6.8. Editor lange įvedame:data d3;t=PDF(’T’,6.8,2,3.6);run;Gauname t=0.0612465389.2.3 p a v y z d y s. Užduotis: kam lygi tikimybė, kad tris kartus metant idealią monetą,iškris: a) tris kartus skaičius; b) du kartus skaičius ir vieną kartą herbas?Sprendimas. Turime Bernulio schemos realizaciją. Bandymų skaičius n=3; jeigumoneta ideali, tai tikimybė, kad iškris skaičius yra lygi p=0.5. Taigi, reikia apskaičiuotiBinominio skirstinio tikimybes. Editor lange įvedame:data moneta;tik1=PDF(’BINOMIAL’,3,0.5,3); /* a punktas */tik2=PDF(’BINOMIAL’,2,0.5,3); /* b punktas */run;Gauname: tikimybė, kad tris kartus metant idealią monetą tris kartus iškris skaičiusyra lygi 0,125; tikimybė, kad tris kartus metant idealią monetą du kartus iškris skaičius irvieną kartą herbas yra lygi 0,375.SAS funkcija PROBBNRM yra skirta dvimačio normaliojo skirstinio su vidurkiu 0,dispersija 1 ir koreliacijos koeficientu r pasiskirstymo funkcijos reikšmėms apskaičiuoti:x y221 ⎛ u − 2ruv+ v ⎞PROBBNRM(x,y,r)= P{ X ≤ x,Y ≤ y}= ∫ ∫ exp⎜−⎟dvdu,222π1−r −∞−∞⎝ 2(1 − r ) ⎠čia x ir y yra skaitiniai kintamieji, r – koreliacijos koeficientas ( −1 ≤ r ≤ 1).2.4 p a v y z d y s. Funkcijos PROBBNRM panaudojimo pavyzdžiaiPavyzdysRezultatasTik1= PROBBNRM(2, 3.1, 0.9); Tik1=0.9772359531Tik2= PROBBNRM(0.4, 0.8, 0.6); Tik2=0.58934697194. Kvantilių funkcijosSAS funkcija QUANTILE skirta įvairių tikimybinių skirstinių p-tojo kvantilioapskaičiavimui. Sintaksė:QUANTILE(’skirstinys’, p )55

čia skirstinys – žodis, identifikuojantis skirstinį (žr. 2.5 lentelę); apskaičiuojamas p-tasiskvantilis ( 0 irstinio parametrus nurodome taip pat, kaip ir funkcijoje CDF (žr.2.6 lentelę)).2.5 p a v y z d y s. Funkcijos QUANTILE panaudojimo pavyzdžiaiPavyzdys Paaiškinimas RezultatasQ1=QUANTILE(’EXPO’, 0.6); (0.6)- tasis standartinio eksponentinio Q1=0,9162907319skirstinio (t.y. vidurkis lygus 1)kvantilisQ2=QUANTILE(’T’, 0.8, 5); (0.8)- tasis centrinio Stjudento skirstiniosu 5 laisvės laipsniais kvantilisQ2=0,91954378022.7 lentelė. Konkrečių skirstinių kvantilių funkcijos.Skirstinys Funkcija AprašymasBeta BETAINV(p,a,b) p-tasis kvantilis; a>0, b>0 Beta skirstinio parametrai;Chi-kvadrato CINV(p,ν,λ) p-tasis kvantilis; ν>0 - laisvės laipsniai, λ ≥ 0 (nebūtinasparametras) - necentriškumo parametras;Fišerio FINV(p, v 1,v2, λ) p-tasis kvantilis; v 1 > 0 – skaitiklio laisvės laipsniai, v 2 > 0 vardiklio laisvės laipsniai, λ ≥ 0 (nebūtinas parametras)-necentriškumo parametras;Gama GAMAINV(p,a) a > 0 gama skirstinio parametras;Standartinis PROBIT(p) p-tasis kvantilis;normalusisStjudento TINV(p,v,λ) p-tasis kvantilis; v>0 – laisvės laipsniai, λ - nebūtinasnecentriškumo parametras;56SAS yra keletas funkcijų skirtų konkrečių tikimybinių skirstinių kvantiliųapskaičiavimui, jos pateikiamos 2.7 lentelėje (skirstinių parametrų pažymėjimai irapibrėžimai analogiški nurodomiems funkcijoje CDF (žr. 2.6 lentelę)).2.6 p a v y z d y s. Kvantilių funkcijų panaudojimo pavyzdžiaiPavyzdys Paaiškinimas Rezultatasb=BETAINV(0.5, 4, 2); 50-tasis Beta skirstinio su parametrais 4 ir 2b=0.6861898295procentilis;Chi1=CINV(0.95, 4); 95-tasis chi-kvadrato skirstinio su 4 laisvėsChi1=9.4877290368laipsniais procentilis;Chi2=CINV(0.95, 4.1, 4.8); 95-tasis chi-kvadrato skirstinio su 4.1 laisvės Chi2=18.793397996laipsniais ir necentiškumo parametru 4.8 procentilis;F1=FINV(0.9, 2, 6); (0.9)-tasis Fišerio skirstinio su 2 ir 6 laisvės laipsniaisF1=3.4633040701kvantilis;F2=FINV(0.9, 2, 6.1, 3); (0.9)-tasis Fišerio skirstinio su 2 ir 6.1 laisvės laipsniais,F2=8.1926587045ir necentiškumo parametru 3 kvantilis;Pavyzdys Paaiškinimas RezultatasG1=GAMINV(0.1, 3.2); (0.1)-tasis gama skirstinio su parametru 3.2 kvantilis; 1.2260018937=N=PROBIT(0.95);(0.95)-tasis standartinio normalaus skirstinioN=1.644853627kvantilis;T1=TINV(0.9, 5);(0.9)-tasis Stjudento skirstinio su 5 laisvės laipsniaisT1=1.4758840488kvantilis;T2=TINV(0.9, 3.2, 4); (0.9)-tasis Stjudento skirstinio su 3.2 laisvės laipsniaisir necentiškumo parametru 4 kvantilis;T2=9.11671289525. Atsitiktinių dydžių modeliavimasSu kompiuteriu galima generuoti pseudoatsitiktinius skaičius. Šie skaičiai nėra tikriatsitiktiniai skaičiai, nes apskaičiuojami naudojant tam tikrą algoritmą, tačiau jų savybėstokios pačios kaip ir tikrai atsitiktinių skaičių. SAS yra keletas funkcijų, skirtų atsitiktiniųdydžių modeliavimui. Funkcijose reikia nurodyti pradinį skaičių (seed). Šis pradinis skaičiusturi būti sveikas neneigiamas skaičius, mažesnis už 2 31 -1. Jeigu nurodome 0, tai modeliuojamaatsižvelgiant į kompiuterio laikrodį.

P a s t a b a. Jeigu nurodome skaičių, didesnį už 0, tai atlikę kelis kartus tą patį Datažingsnį gausime tą pačią skaičių seką, o jeigu 0, tai skaičių seka priklauso nuo laiko momentoir tos pačios sekos nebepakartosime.SAS funkcija RAND yra skirta modeliuoti atsitiktinius dydžius įvairių skirstiniųatveju. Sintaksė:RAND(’skirstinys’, skirstinio_parametrai)čia skirstinys – žodis, identifikuojantis skirstinį; galimi skirstiniai yra pateikti 2.8 lentelėje;skirstinio_parametrai – sąrašas formos, padėties, mastelio parametrų. 2.9 lentelėje pateikiamafunkcijos RAND sintaksė įvairių skirstinių atveju.2.8 lentelė. Skirstinius identifikuojantys raktiniai žodžiaiSkirstinioRaktinis žodis Skirstinio pavadinimas Raktinis žodispavadinimasBernulio ’BERNOULLI’ Hipergeometrinis ’HIPERGEOMETRIC’Beta ’BETA’ Lognormalus ’LOGNORMAL’Binominis ’BINOMIAL’ Neigiamas binominis ’NEGBINOMIAL’Koši ’CAUCHY’ Normalus ’NORMAL’|’GAUSSIAN’Chi-kvadrato ’CHISQUARE’ Puasono ’POISSON’Erlango ’ERLANG’ Stjudento ’T’Eksponentinis ’EXPONENTIAL’ Diskretus ’TABLE’Fišerio ’F’ Trikampio ’TRIANGLE’Gama ’GAMMA’ Tolygus ’UNIFORM’Geometrinis ’GEOMETRIC’ Veibulo ’WEIBULL’P a s t a b a. Jei norime, kad pakartoję tą patį Data žingsnį gautume tą pačią seką, taiData žingsnyje prieš funkciją RAND reikia panaudoti komandą CALL STREAMINT, kuriojenurodomas pradinis skaičius, jei šios komandos nepanaudojame, tai kelis kartus kartojant tąpatį Data žingsnį gausime vis kitą seką. Sintaksė:CALL STREAMINT(sk);čia sk - skaičius didesnis už 0 ir mažesnis už 2 31 -1.2.9 lentelė. Funkcijos RAND sintaksėSintaksėX tankio funkcija (tolydus skirstinys) / tikimybė (diskretus skirstinys)RAND(’BERN’,x,p)⎧0,p = 0, x = 0,⎪ x 1−xP { X = x | p}= ⎨ p (1 − p), 0 0, b > 0 ;Γ(a)Γ(b)RAND(’BINOMIAL’,p,n)RAND(’CAUCHY’)RAND(’CHISQUARE’,ν)RAND(’ERLANG’,a)⎧0p = 0, x = 0,⎪ x x n−xP { X = x | p,n}= ⎨Cnp (1 − p), x = 0,1,..., n,čia x – sėkmių skaičius,⎪⎩1p = 1, x = 1,p - sėkmės tikimybė, n=0,1,... – nepriklausomų Bernulio eksperimentųskaičius;1f ( x)= , − ∞ < x < +∞;2π (1 + x )−ν/ 22 v / 2−1−x/ 2f ( x)= x e , x > 0; čia ν >0 – laisvės laipsniai;Γ(v / 2)1f ( x)= xΓ(a)a−1−xRAND(’EXPONENTIAL’) ( ) = − xf x e , x > 0;e, x > 0, a = 1,2,... ;57

2.9 lentelės tęsinys. Funkcijos RAND sintaksėSintaksėX tankio funkcija (tolydus skirstinys) / tikimybė (diskretus skirstinys)RAND(’F’, v1,v 2 )⎛ v1+ v2⎞Γ⎜⎟ v1/ 2 v2/ 2 v12−1⎝ 2 ⎠ v1v2xf ( x)= , x > 0,čiaΓ(v / 2) ( / 2) ( v ) / 21 Γ v2( 1 2 ) 1+vv 1 > 0 – skaitikliov + v 2laisvės laipsniai, v 2 > 0 – vardiklio laisvės laipsniai;RAND(’GAMMA’,a)1 a−1 −xf ( x)= x e , x > 0,a > 0 ;Γ(a)RAND(’GEOMETRIC’,p)⎪⎧x−1(1 − p)p,0 < p < 1, x = 1,2,...,P{X = x | p}= ⎨čia p - sėkmės tikimybė;⎪⎩ 1,p = 1, x = 1;RAND(’HYPER’,N,R,n)RAND(’LOGNORMAL’)RAND(’NEGBIN’,p,k)58⎛ R⎞⎛N − R⎞⎜⎟⎜⎟⎝ x ⎠⎝n − x ⎠P{X = x}=, čia x = max( 0, ( n − ( N − R))),...,min( n,R),⎛ N ⎞⎜⎟⎝ n ⎠N = 1,2... - populiacijos dydis, R = 0,1,...N - elementų, turinčių dominančiąsavybę, skaičius, n = 1,...N - imties dydis;2exp{ − ln ( x)/ 2}f ( x)= , x ≥ 0;x 2π⎧⎛x + k −1⎞x k⎪ −< < =⎨⎜⎟(1p)p , 0 p 1, x 0,1,...,P{X = x}=⎝ k −1⎠⎪⎩1,p = 1, x = 0,sėkmių skaičius, 0 0 standartinis nuokrypis2λ 2π⎜ 2 ⎟⎝ λ ⎠( nebūtini parametrai; pagal nutylėjimą θ = 0,λ = 1);RAND(’POISSON’,m)xm −mP{X = x}= e , čia x = 0,1,..., m>0 – vidurkis;x!RAND(’T’,v)⎛ v + 1⎞Γ⎜⎟−(v+1) / 22⎝ 2 ⎠ ⎛ ⎞( )⎜ xf x =1 + ⎟ ,vπΓ(v / 2) ⎜ ⎟⎝v⎠− ∞ < x < +∞,čia v > 0 – laisvėslaipsnių skaičius;RAND(’TABLE’, 1, p 2 ,... p 1 , p2,..., pnn( 0 ≤ p 1,p2,..., pn≤ 1); ∑ p i = 1;i=1RAND(’TRIANGLE’,h)⎧2x/ h,0 ≤ x ≤ h,⎪P { X = x}= ⎨2(1− x)čia 0 ≤ x ≤ 1,, h < x ≤ 1,⎪⎩ 1−h0 ≤ h ≤ 1 ;RAND(’UNIFORM’) f ( x)= 1, 0 < x < 1 ;RAND(’WEIBULL’,a,b)af ( x)=ab1 ⎪⎧ a⎪⎫a−⎛ x ⎞x exp⎨−⎜ ⎟ ⎬,x ≥ 0, čia a>0, b>0;⎪⎩⎝ b ⎠ ⎪⎭2.7 p a v y z d y s. Tarkime, kad reikia sumodeliuoti atsitiktinio dydžio, kurioskirstinys yra Stjudento skirstinys su 6 laisvės laipsniais, dydžio 200 imtį. Editor langeįvedame:%LET ll=6; %LET n=200;DATA modeliavimas;DATA modeliavimas;DO i=1 TO &n; arba DO i=1 TO 200;t=RAND(’T’,&ll);t=RAND(’T’,6);

OUTPUT;END;RUN;OUTPUT;END;RUN;Toliau yra pateikiamas kitų SAS atsitiktinių dydžių modeliavimo funkcijų aprašymas,jose be skirstinio parametrų reikia nurodyti pradinį skaičių (sk), aprašytą šio skyreliopradžioje.Funkcijos UNIFORM(sk) ir RANUNI(sk) yra skirtos modeliuoti tolygų intervale (0,1)atsitiktinį dydį. Tolygų intervale (a,b) atsitiktinį dydį galime modeliuoti taip:kint=(b-a)*uniform(sk)+a; arba kint=(b-a)*ranuni(sk)+a;2.8 p a v y z d y s. Modeliuoti atsitiktinio dydžio, pasiskirsčiusio pagal tolygų dėsnįintervale (0,1), dydžio n=100 imtį.DATA tolygus;DO i=1 TO 100;Y=UNIFORM(0);OUTPUT;END;RUN;Funkcija NORMAL(sk) yra skirta modeliuoti standartinį normalų atsitiktinį dydį (t.y.vidurkis lygus 0, o standartinis nuokrypis 1. Atsitiktinį dydį, kurio skirstinys yra normalus suvidurkiu θ ir standartiniu nuokrypiu λ (žr. 2.9 lentelę), galime modeliuoti taip:Y=θ+λ*NORMAL(sk);Funkcija RANBIN(sk,n,p) yra skirta modeliuoti atsitiktinį dydį, kurio skirstinys yrabinominis su parametrais n ir p (n – nepriklausomų Bernulio eksperimentų skaičius, p –sėkmės tikimybė; žr.2.9 lentelę).Funkcija RANEXP(sk) yra skirta modeliuoti atsitiktinį dydį, kurio skirstinys yraeksponentinis su vidurkiu 1 (žr. 2.9 lentelę). Atsitiktinį dydį, kurio skirstinys yra−eksponentinis su vidurkiu 1/λ, t.y. tankio funkcija yra ( ) = λ λ xf x e , x > 0, λ > 0 , galimemodeliuoti taip:y=RANEXP(sk)/ λ;Funkcija RANGAM(sk,a) yra skirta modeliuoti atsitiktinį dydį, kurio skirstinys yragama su parametru a (žr. 2.9 lentelę). Atsitiktinį dydį, kurio skirstinys yra gama suparametrais a ir λ, t.y. tankio funkcija yra1 a−1−x/ λf ( x)= x e ,aλ Γ(a)x > 0, λ > 0, a > 0galime modeliuoti taip:y=λ*RANGAM(sk,a);Funkciją RANGAM galime panaudoti atsitiktinio dydžio, kurio skirstinys yra chikvadratoskirstinys su 2*η (sveikas skaičius) laisvės laipsnių, modeliavimui:X=2*RANGAM(sk, η);Funkciją RANGAM galime panaudoti atsitiktinio dydžio X∼Be(γ, η), t.y. X skirstinysyra Beta skirstinys su parametrais γ ir η, modeliavimui:y1=RANGAM(sk, γ); y2=RANGAM(sk, η);X=y1/(y1+y2);Funkcija RANPOI(sk, λ) yra skirta modeliuoti atsitiktinį dydį, kurio skirstinys yraPuasono skirstinys su vidurkiu λ (žr. 2.9 lentelę).Diskretų atsitiktinį X, įgyjantį reikšmės 1,2,...,n su tikimybėmis p p ,...,( p1+ p2+ ... + pn= 1) galime modeliuoti su funkcija RANTBL(sk, p1, p2,..., pn).1,2pn59

2.9 p a v y z d y s. Tegu reikia modeliuoti atsitiktinio dydžio, įgyjančio reikšmes 2, 4,6 su tikimybėmis 0.3, 0.1, 0.6, dydžio 50 imtį. Editor lange įveskime:DATA diskretus;ARRAY m{3} m1-m3 (2 4 6); ARRAY p{3} p1-p3 (0.3 0.1 0.6);DO i=1 TO 50;x=m{RANTBL(0, of p1-p3)}; OUTPUT;END;RUN;Tą patį uždavinį galime išspręsti ir nenaudojant funkcijos RANTBL. Galimepanaudoti tokią procedūrą. Tegu X diskretus a.d., įgyjantis reikšmes x1, x2,..., xnsutikimybėmis p = P{X = xi }, i 1,2,...,n . Daliname intervalą (0,1) į nesikertančius ilgio1=1, p2p nintervalus. Generuojame tolygaus intervale (0,1) atsitiktinio dydžio realizaciją; įp ,...,kurį intervalą pateko generuota reikšmė, tokią reikšmę ir įgijo atsitiktinis dydis X.Naudodami šią procedūrą modeliuokime atsitiktinio dydžio, įgyjančio reikšmes 2, 4, 6su tikimybėmis 0.3, 0.1, 0.6, dydžio 50 imtį. Editor lange įveskime:DATA diskretus;DO i=1 TO 50;u=UNIFORM(0);if 0

2.11 lentelė. Funkcijų naudojimo pavyzdžiai.Pavyzdys Rezultatas Pavyzdys RezultatasY=REPEAT(‘Dd’,3); Y=‘DdDdDd‘ Y=REPEAT(‘0’,3); Y=‘000‘a=’ ddd’;X=’ddd ’ A=’ mano’;Y=’mano ’X=LEFT(a);Y=LEFT(a);a=’ddd’;X=3 A=’ mano ’;Y=5X=LENGTH(a);y=LENGTH(a);a=’(916)734-6281’; X=’916’ Y=SUBSTR(‘abc’,2); Y=’bc’X=SUBSTR(a,2,3);a=’6/16/99’;X=’6-16-99’ A=’bc bc’;Y=’bb bb’X=TRANSLATE(a,’-’,’/’);Y=TRANSLATE(a,’b’,’c’);a=’vienas ’; b=’du’; X=’vienasdu’ A=’du ’;Y=’du’X=TRIM(a)||b;Y=TRIM(a);a=’Rasa’;X=’RASA’ Y=UPCASE(’raSa’); Y=’RASA’X=UPCASE(a);X=PROPCASE(’aAAa ’); X=’Aaaa’ Y=PROPCASE(’rasa rasytė ’); Y=’Rasa Rasytė’7. Datos ir laiko funkcijosŠios funkcijos yra skirtos darbui su laiko ir datos duomenimis. 2.12 lentelėje yrapateikti funkcijų pavyzdžiai. Pilną funkcijų sąrašą galima pasižiūrėti pagrindiniame meniupasirinkus punktą Help→SAS Help and Documentation.2.12 lentelė. Funkcijų pavyzdžiaiSintaksėApibrėžimasDAY(arg)Mėnesio diena; arg – SAS datos reikšmė;QTR(arg)Metų ketvirtis; arg – SAS datos reikšmė;TODAY( )Šios dienos data (SAS datos reikšmė)DATEPART(arg) Išskiria datą iš SAS datos-laiko reikšmės;HOUR(arg)Išskiria valandą iš SAS datos-laiko arba laikoreikšmės;TIME(arg)Dabartinio laiko reikšmė;P a s t a b a. SAS datos reikšmė – dienų skaičius nuo 1960.01.01; laiko reikšmė yraskaičius sekundžių po vidurnakčio; datos-laiko reikšmė yra sekundžių skaičius nuo1960.01.01 vidurnakčio.2.10 p a v y z d y s. Editor lange įveskime:DATA pavyzdys;INPUT data yymmdd10. +1 laikas hhmmss8.;diena=DAY(data);ketvirtis=QTR(data);valanda=HOUR(laikas);DATALINES;1960.01.01 00:01:001960.01.02 00:00:121959.12.30 00:01:002005.02.01 12:00:00;RUN;PROC PRINT DATA=pavyzdys;RUN;Output lange gauname tokį rezultatą:Obs data laikas diena ketvirtis valanda1 0 60 1 1 02 1 12 2 1 03 -2 60 30 4 04 16468 43200 1 1 1261

8. Masyvų funkcijosSAS yra trys funkcijos, skirtos darbui su masyvais (žr. I sk.,13 skyrelį):1) DIM funkcijos rezultatas yra masyvo elementų skaičius. Sintaksė:DIM(vardas) arba DIM(vardas )čia n nurodo daugiamačio masyvo dimensijos, kurioje norime sužinoti elementų skaičių,numerį; vardas – masyvo vardas.2.11 p a v y z d y s.a) DATA pavyzdys;ARRAY masyvas{4} el1-el4;DO i=1 TO DIM(masyvas);Y=2*i;END; RUN;Šiame pavyzdyje funkcijos DIM reikšmė yra 4, todėl ciklas atliekamas keturis kartus.b) I variantas II variantasDATA pavyzdys;ARRAY masyvas{4,8,3}el1-el4(14*1);X1=DIM(masyvas,1);X2=DIM(masyvas,2);X3=DIM(masyvas,3);DROP el1-el14; RUN;DATA pavyzdys;ARRAY masyvas{4,8,3}el1-el4(14*1);X1=DIM(masyvas);X2=DIM2(masyvas);X3=DIM3(masyvas);DROP el1-el14; RUN;Atlikę šį Data žingsnį gausime tokią duomenų lentelę „pavyzdys“:X1 X2 X34 8 32) HBOUND funkcijos rezultatas yra viršutinis nurodytos masyvo dimensijos rėžis.Sintaksė:HBOUND(vardas) arba HBOUND(vardas )čia n yra daugiamačio masyvo dimensijos numeris; vardas – masyvo vardas.3) LBOUND funkcijos rezultatas yra apatinis nurodytos masyvo dimensijos rėžis.Sintaksė:LBOUND(vardas) arba LBOUND(vardas )čia n yra daugiamačio masyvo dimensijos numeris; vardas – masyvo vardas.2.12 p a v y z d y s.DATA pavyzdys;ARRAY m(2:6,4:13,2) k1-k100;DO i=LBOUND(m,3) TO HBOUND(m,2);Y=2*i;END;RUN;Šiame Data žingsnyje užrašytas ciklas ekvivalentus tokiam ciklui:DO i=1 TO 13;Y=2*i;END; RUN;62

III skyrius. APRAŠOMOJI STATISTIKASurinkus duomenis prieš atliekant sudėtingesnę duomenų analizę naudinga atliktipradinę duomenų analizę, nes taia) leidžia surasti duomenų įvedimo klaidas;b) daryti išvadas apie duomenų savybes ir skirstinio pavidalą.Aprašomoji statistika, tai duomenų sisteminimo ir grafinio vaizdavimo metodai,kuriuos naudojant galima daryti išvadas apie nagrinėjamos populiacijos savybes. Aprašomojistatistika apima dvi grupes metodų: skaitiniai ir grafiniai metodai. Derinant šiuos metodusgalima gauti daug naudingos informacijos apie tiriamos populiacijos savybes. Kokius grafikusbraižyti ir kokias skaitines charakteristikas skaičiuoti priklauso nuo turimų duomenų tipo, t.y.buvo tirti kokybiniai ar kiekybiniai kintamieji. Yra keturios kintamųjų matavimo skalės.1) Nominalioji. Matuojami požymiai užkoduojami simbolių sekomis, kuriostarpusavyje nepalyginamos, pavyzdžiui, 1 – matematika, 2 – fizika, 3 – lietuvių kalba.Kintamieji matuojami nominalioje skalėje vadinami nominaliaisiais kintamaisiais. Atskirasnominalios matavimų skalės atvejis yra dichotominė matavimų skalė, kurioje yra tik dvireikšmės, pavyzdžiui, 1 – vyras, 0 - moteris.2) Ranginė. Matuojami požymiai žymimi simbolių sekomis, kurias galima tarpusavyjepalyginti, bet negalime pasakyti kokiu didumu skiriasi, pavyzdžiui, 1 – geriausiasstudentas, 2 – blogesnis, 3 – dar blogesnis. Kintamieji matuojami ranginėje skalėje vadinamiranginiais kintamaisiais.3) Intervalinė. Parodo kokiu didumu skiriasi, bet nėra tikro nulio (atskaitos pradžios),pavyzdžiui, testo rezultatai (nulinis įvertinimas nebūtinai reiškia, kad nieko nežino). Kintamiejimatuojami intervalinėje skalėje vadinami intervaliniais kintamaisiais.4) Santykinė. Panaši į intervalinę, skiriasi tik tuo, kad yra absoliutus nulis (atskaitospradžia), kuris rodo tiriamos savybės nebuvimą, pavyzdžiui, atstumas. Kintamieji matuojamisantykinėje skalėje vadinami santykiniais kintamaisiais.Ranginiai ir nominalieji kintamieji vadinami kokybiniais, o intervaliniai ir santykiniai– kiekybiniais kintamaisiais.Šio skyriaus pirmame skyrelyje aprašomos dažnių lentelės, antrame – skaitinėskintamųjų charakteristikos, o trečiame – grafiniai duomenų vaizdavimo metodai.1. Dažnių lentelėsDažnių lentelės padeda lengviau pastebėti duomenų savybes, pavyzdžiui, kiek yraskirtingų reikšmių, kokia didžiausia ir mažiausia reikšmė, kuri reikšmė pasikartojodaugiausiai kartų ir pan.Jei yra matuojamas tolydus kintamasis, pavyzdžiui ūgis, svoris, tai stebėjimus reikiasugrupuoti į intervalus ir tada skaičiuoti dažnius. Duomenis sugrupuoti galima su sąlyginiusakiniu (žr. I sk., 5.2 skyrelį), panaudojant vartotojo sukurtus formatus (žr. I sk., 15 skyrelį).Šiame skyrelyje nagrinėsime vieno kintamojo ir kryžmines dažnių lenteles.1.2. Vieno kintamojo dažnių lentelėsTarkime, kad tirdami tam tikrą požymį išmatavome n objektų. Turime statistinę eilutęX1, X2,..., X n. Kai kurios reikšmės statistinėje eilutėje gali kartotis. Sudarykime variacinęeilutę, t.y. išdėstykime reikšmes X didėjančia tvarka: X X ,..., X , čiai( 1),(2) ( n)* * *X( 1)≤ X(2)≤ ... ≤ X( n). Tarkime, kad yra k skirtingų reikšmių X1, X2,..., Xk. Pažymėkime fi- i-tosios reikšmės pasikartojimų skaičių. Šis skaičius vadinamas reikšmės dažniu (frequency).Akivaizdu, kad f n.Dydisk∑i=1i=63

f*i=fin(3.1)yra vadinamas i-tosios reikšmės santykiniu dažniu (relative frequency).Tegu Fiyra i-tosios reikšmės sukauptas dažnis (cumulative frequency), jis parodokiek yra reikšmių mažesnių arba lygių i-tajai reikšmei.Dydis* FiFi =(3.2)nyra vadinamas i-tosios reikšmės santykiniu sukauptu dažniu (relative cumalative frequency).Sudarant dažnių lenteles dar yra skaičiuojami tokie dažniai:~čia f *iyra procentinis dažnis (percent), opercent).3.1 p a v y z d y s. Tegu turime tokius duomenis:Xi: 1, 2, 5, 4, 3, 2, 1, 2, 3, 2.Sudarome variacinę eilutę:X : 1, 1, 2, 2, 2, 2, 3, 3, 4, 5.(i)~ * fifi= *100,(3.3)n~ * FiFi = *100.(3.4)n~F *i- sukauptas procentinis dažnis (cumulativeIš viso reikšmių yra n=10, o skirtingų reikšmių yra k=5. Gauname tokią dažnių lentelę:~* *Xi fi*fi~*F*i Fi fi1 2 2/10=0.2 2 2/10=0.2 20 202 4 4/10=0.4 6 6/10=0.6 40 603 2 2/10=0.2 8 8/10=0.8 20 804 1 1/10=0.1 9 9/10=0.9 10 905 1 1/10=0.1 10 10/10=1 10 100Dažnius galima apskaičiuoti su SAS procedūra FREQ. Sintaksė:PROC FREQ pasirinktys;TABLES kintamieji / pasirinktys;RUN;P a s t a b a. Kintamieji, nurodyti TABLES sakinyje, gali būti skaitinio arba simboliniotipo. Sudaroma atskira dažnių lentelė kiekvienam nurodytam kintamajam.TABLES sakinyje galima nurodyti tokias pasirinktis:OUT=lentelė nurodo dažnius surašyti į duomenų lentelę;MISSPRINT nurodo įtraukti į dažnių lentelę praleistus stebėjimus, t.y. skaičiuojantprocentinius, sukauptus ir sukauptus procentinius dažnius praleisti stebėjimai neįtraukiami įskaičiavimus, o tik spausdinamas praleistų stebėjimų dažnis;MISSING nurodo įtraukti praleistus stebėjimus į skaičiavimus;NOCUM nurodo neskaičiuoti sukauptų ir procentinių sukauptų dažnių;NOPERCENT nurodo neskaičiuoti procentinių dažnių.PROC FREQ sakinyje galima nurodyti:~F *i64

DATA=lentelė nurodome kokios lentelės duomenis analizuosime; jeigu ši pasirinktisnėra nurodyta, tai analizuojami paskutinės sukurtos lentelės duomenys;ORDER=DATA | FORMATTED | FREQ | INTERVAL nurodo kokia tvarkaspausdinti dažnius. Ši pasirinktis netaikoma praleistiems stebėjimams, kurie visadaspausdinami pradžioje; DATA nurodo išdėstyti dažnius tokia tvarka kaip išdėstytos reikšmėsduomenų lentelėje; FORMATTED nurodo dažnius išdėstyti pagal formatuotas reikšmes;FREQ nurodo išdėstyti reikšmes pagal mažėjantį dažnį; INTERVAL pagal neformatuotasreikšmes, t.y. tokia tvarka kaip surūšiuotų procedūra SORT; šis dažnių išdėstymo būdas yrapagal nutylėjimą.Procedūroje FREQ galima nurodyti sakinįWEIGHT kintamasis;čia kintamasis – skaitinio tipo kintamasis, kurio reikšmės yra stebėjimų dažniai. Šiuo atvejuvienas stebėjimas atitinka n stebėjimų, kur n nurodyto kintamojo reikšmė. Nurodytokintamojo reikšmė nebūtinai sveikas skaičius, bet, kai reikšmė yra 0 arba praleista, taiatitinkamas stebėjimas ignoruojamas.3.2 p a v y z d y s. a) Tarkime, kad turime tokius pačius duomenis kaip 3.1 pavyzdyje.Apskaičiuokime dažnius su procedūra FREQ. Editor lange įvedame:DATA d1;INPUT x @@;DATALINES;1 2 5 4 3 2 1 2 3 2;PROC FREQ DATA=d1;TABLES x;RUN;Output lange gauname tokią dažnių lentelę:x Frequency Percent Cumulative Frequency Cumulative Percent1 2 20 2 202 4 40 6 603 2 20 8 804 1 10 9 905 1 10 10 100dažniaidažniaiPirmajame stulpelyje yra skirtingos reikšmėsfi, trečiajame stulpelyje procentiniai dažniai65X , antrajame stulpelyje – reikšmių*i~ *if (žr.(3.3)), ketvirtajame – sukaupti~F *i(žr.(3.4)).Fi(žr.(3.2)), o paskutiniame stulpelyje – sukaupti procentiniai dažniaiIš dažnių lentelės matome, kad mažiausia reikšmė yra 1, didžiausia reikšmė yra 5, daugiausiaikartų pasikartojo reikšmė 2 ir t.t.b) DATA d1;INPUT x @@;DATALINES;1 2 1 . 2 1 1 1 . 2;PROC FREQ DATA=d1;TABLES x;RUN;Output lange gauname tokią dažnių lentelę:x Frequency Percent Cumulative Frequency Cumulative Percent1 5 62.50 5 62.502 3 37.50 8 100Frequency missing = 2

Šiame pavyzdyje stebėjimų yra n=10, skirtingų reikšmių k=3. Pagal nutylėjimąpraleisti stebėjimai nėra įtraukiami į dažnių lentelę, tik apačioje parašoma kiek tokiųstebėjimų yra, todėl dažniai yra skaičiuojami tik kintamojo x reikšmėms 1 ir 2, be to, pagal~ *inutylėjimą skaičiuojant procentinius ( f ), sukauptus Fiir sukauptus procentinius dažnius~F *ipraleisti stebėjimai į skaičiavimus neįtraukiami, t.y. juos skaičiuojant naudojamasnepraleistų stebėjimų skaičius, kuris šiame pavyzdyje yra 8, pavyzdžiui, reikšmės x=1procentinis dažnis apskaičiuojamas taip: 5/8*100=62.50.c) Tegu turime tokius pačius duomenis kaip punkte b.PROC FREQ DATA=d1;TABLES x / MISSPRINT;RUN;Output lange gauname tokią dažnių lentelę:x Frequency Percent Cumulative Frequency Cumulative Percent. 2 . . .1 5 62.50 5 62.502 3 37.50 8 100Frequency missing = 2Kadangi nurodėme pasirinktį MISSPRINT, tai praleisti stebėjimai yra įtraukiami įdažnių lentelę (spausdinamas jų dažnis), tačiau skaičiuojant procentinius, sukauptus ir sukauptusprocentinius dažnius naudojamas nepraleistų stebėjimų skaičius, t.y. kaip ir punkte b.d) Tegu turime tokius pačius duomenis kaip punkte b.PROC FREQ DATA=d1;TABLES x / MISSING MISSPRINT;RUN;Output lange gauname tokią dažnių lentelę:x Frequency Percent Cumulative Frequency Cumulative Percent. 2 20 2 201 5 50 7 702 3 30 10 100Frequency missing = 2Kadangi panaudojome MISSING ir MISSPRINT, tai praleisti stebėjimai yraįtraukiami į procentinių, sukauptų ir sukauptų procentinių dažnių skaičiavimą.e) Tegu turime tokius pačius duomenis kaip punkte b.PROC FREQ DATA=d1;TABLES x / MISSING MISSPRINT OUT=d2;RUN;Rezultatai bus ne tik Output lange, bet ir bus įrašyti į duomenų lentelę „d2“. Gausimetokią lentelę:x Frequency Count Percent of total frequency. 2 201 5 502 3 30f) DATA d1;INPUT x @@;DATALINES;2 1 1 . 2 4 1 1 . 2;PROC FREQ DATA=d1 ORDER=DATA;TABLES x;RUN;66

Output lange gauname tokią dažnių lentelę:x Frequency Percent Cumulative Frequency Cumulative Percent2 3 37.5 3 37.51 4 50.0 7 87.54 1 12.5 8 100Frequency missing = 2Kadangi nurodėme ORDER=DATA, tai kintamojo x reikšmės dažnių lentelėjeišdėstytos taip, kaip jos yra išdėstytos duomenų lentelėje.g) Tegu duomenys tokie patys kaip punkte f.PROC FREQ DATA=d1 ORDER=FORMATTED;TABLES x;FORMAT x words10.;RUN;Output lange gauname tokią dažnių lentelę:x Frequency Percent Cumulative Frequency Cumulative Percentfour 1 12.5 1 12.5one 4 50.0 5 62.5two 3 37.5 8 100Frequency missing = 2Kadangi nurodėme ORDER=FORMATTED, tai kintamojo x reikšmės dažniųlentelėje išdėstytos pagal formatuotas reikšmes.h) Tegu duomenys tokie patys kaip punkte f.PROC FREQ DATA=d1 ORDER=FREQ;TABLES x / missprint;RUN;Output lange gauname tokią dažnių lentelę:x Frequency Percent Cumulative Frequency Cumulative Percent. 2 . . .1 4 50.0 4 50.2 3 37.5 7 87.54 1 12.5 8 100Frequency missing = 2Kadangi nurodėme ORDER=FREQ, tai kintamojo x reikšmės dažnių lentelėjeišdėstytos mažėjančio dažnio tvarka, išskyrus praleistus stebėjimus, kurie visada spausdinamipradžioje.i) Tarkime, kad duomenys yra tekstinėje byloje „duomenys.txt“. Duomenys yra tokie:kintamojo x reikšmės: a b . a a a b c . akintamojo y reikšmės: 1 2 1 2 1 2 1 1 1 1Sudarykime atskirą dažnių lentelę kiekvienai kintamojo y reikšmei.DATA d2;INFILE ’c:\duomenys.txt’;INPUT x $ y;PROC SORT DATA=d2;BY y;PROC FREQ DATA=d2;TABLES x / missprint;BY y;RUN;Kadangi nurodėme BY sakinį, tai Output lange gauname atskiras lenteles kiekvienaikintamojo y reikšmei:67

--------------------------------y=1-------------------------------x Frequency Percent Cumulative Frequency Cumulative Percent2 . . .a 3 60 3 60b 1 20 4 80c 1 20 5 100Frequency missing = 2--------------------------------y=2-------------------------------x Frequency Percent Cumulative Frequency Cumulative Percenta 2 66.67 2 66.67b 1 33.33 3 100Kadangi procedūroje FREQ naudojame sakinį BY, tai prieš tai reikia surūšiuotipradinę duomenų lentelę pagal BY kintamuosius.j)DATA d1;INPUT x $ y @@;DATALINES;a 1 b 2 a 1 a 2 c 1 . 1 b 3 . 4 b 1 a 1;PROC FREQ DATA=d1;TABLES x; WEIGHT y; RUN;Output lange gauname tokią dažnių lentelę:x Frequency Percent Cumulative Frequency Cumulative Percenta 5 41.67 5 41.67b 6 50.00 11 91.67c 1 8.33 12 100Frequency missing = 5WEIGHT sakinyje nurodytame kintamajame y yra stebėjimo dažnis.1.2. Kryžminės dviejų kintamųjų dažnių lentelėsKryžminės dažnių lentelės sudaromos, kai turime du kintamuosius ir norimeapskaičiuoti kiek kartų pasikartojo kintamųjų reikšmių deriniai. Kryžminėms dažniųlentelėms taip pat naudojama procedūra FREQ. Skiriasi tik TABLES sakinio sintaksė:TABLES kintamasis_1 * kintamasis_2 / pasirinktys;čia kintamasis_1, kintamasis_2 – kintamieji, kurių kryžminę dažnių lentelę norime sudaryti.Galima naudoti tokias pačias pasirinktis kaip ir sudarant vieno kintamojo dažniųlenteles, be to, TABLES sakinyje galima nurodyti tokias papildomas pasirinktis:NOCOL – neskaičiuoti stulpelių procentinių dažnių;NOROW - neskaičiuoti eilučių procentinių dažnių;NOFREQ - neskaičiuoti dažnių kiekvienam lentelės langeliui;NOPERCENT - neskaičiuoti procentinių dažnių (t.y. spausdinti tik dažnį, eilučių ir stulpeliųprocentinius dažnius).Taip pat galima naudoti WEIGHT ir BY sakinius kaip ir sudarant vieno kintamojodažnių lenteles.3.3 p a v y z d y s. Pateiksime kryžminės dviejų kintamųjų dažnių lentelės pavyzdį.Editor lange įveskime:DATA pavyzdys;INPUT x $ y @@;DATALINES;a 1 b 2 a 1 a 2 . 1 b 3 . 4 b 1 a 1;PROC FREQ DATA=pavyzdys;TABLES x*y; RUN;68

Output lange gauname tokią dažnių lentelę:x yFrequencyPercentRow PctCol Pct 1 2 3 4 Totala 3 1 0 0 442.86 14.29 0.00 0.00 57.1475.00 25.00 0.00 0.0075.00 50.00 0.00 .b 1 1 1 0 314.29 14.29 14.29 0.00 42.8633.33 33.33 33.33 0.0025.00 50.00 100.00 .Total 4 2 1 0 757.14 28.57 14.29 0.00 100.00Frequency Missing = 2Šioje lentelėje kiekvienam kintamųjų x ir y reikšmių deriniui yra spausdinamas dažnis,procentinis dažnis, procentinis eilutės dažnis ir procentinis stulpelio dažnis.2. Skaitinės charakteristikosSkaitines charakteristikas galima suskirstyti į tokias tris grupes:1) duomenų padėties;2) duomenų sklaidos;3) dažnių skirstinio formos.Pagrindinės duomenų padėties charakteristikos yra vidurkis, moda, mediana,kvantiliai. Pagrindinės duomenų sklaidos charakteristikos yra dispersija, standartinis nuokrypis,duomenų aibės plotis, koreguota ir nekoreguota kvadratų suma, variacijoskoeficientas. Pagrindinės dažnių skirstinio formos charakteristikos yra asimetrijos ir ekscesokoeficientai.Šiame skyrelyje aprašysime įvairias skaitines charakteristikas, pateiksime jų statistinęinterpretaciją, formules skaitinių charakteristikų apskaičiavimui bei paaiškinsime kaip jasapskaičiuoti naudojant SAS procedūras MEANS ir UNIVARIATE.2.1. Skaitinės charakteristikos su procedūromis MEANS ir UNIVARIATESu procedūra MEANS galima apskaičiuoti įvairias skaitines kintamųjų charakteristikas.Procedūros MEANS sintaksė:PROC MEANS ;VAR kintamieji;RUN;Nebūtina pasirinktis DATA=lentelė nurodo, kokios lentelės duomenis analizuosime.Pagal nutylėjimą procedūra MEANS apskaičiuoja: stebėjimų, panaudotų skaičiavimuose,skaičių N (t.y. nepraleistų stebėjimų skaičių), vidurkį (mean), standartinį nuokrypį(standard deviation), didžiausią (max) ir mažiausią (min) reikšmę. Jeigu išvardiname skaitinescharakteristikas, tai apskaičiuos tik nurodytas. 3.1 lentelėje yra pateiktas sąrašas skaitiniųcharakteristikų, kurias galima apskaičiuoti su procedūra MEANS.P a s t a b a. Procedūra MEANS modos neskaičiuoja.69

3.1 lentelė. Skaitinių charakteristikų sąrašasRaktinis žodisSkaitinė charakteristikaCSSkoreguota kvadratų sumaCVvariacijos koeficientas (procentais)KURTOSIS | KURT eksceso koeficientasMAXmaksimali reikšmėMEANaritmetinis vidurkisMINminimali reikšmėMODEModaNstebėjimų, panaudotų skaičiavimuose, skaičiusNMISSpraleistų stebėjimų skaičiusNOBSstebėjimų skaičius, t.y. N+NMISSRANGEduomenų aibės plotisSKEWNESS | SKEW asimetrijos koeficientasSTD | STDstandartinis nuokrypisSTDERR | STDMEAN standartinė vidurkio paklaidaSUMstebėjimų sumaSUMWGTsvorių sumaUSSnekoreguota kvadratų sumaVARDispersijaMEDIANMedianaP1pirmas procentilisP5denktas procentilisP10dešimtas procentilisP90devyniasdešimtas procentilisP95devyniasdešimt penktas procentilisP99devyniasdešimt devintas procentilisQ1pirmas kvartilisQ3trečias kvartilisQRANGEtarpkvartilinis plotisJeigu procedūroje MEANS nenurodome sakinio VAR, tai skaitinės charakteristikosbus apskaičiuotos visiems skaitinio tipo kintamiesiems iš pradinės duomenų lentelės. Jeigunurodome VAR sakinį, tai skaitinės charakteristikos bus apskaičiuotos tik nurodytiemskintamiesiems.P a s t a b a. Procedūra MEANS nenaudoja skaičiavimuose stebėjimų, kuriems analizuojamokintamojo reikšmė yra praleista.MEANS sakinyje galima nurodyti tokias pasirinktis:MAXDEC=n nurodo maksimalų skaičių skaitmenų po kablelio, kuris yraspausdinamas; galimos n reikšmės: nuo 0 iki 8.VARDEF=sk nurodo dispersijos daliklį, čia sk=n-1 (pagal nutylėjimą) arba sk=n, kurn – stebėjimų skaičius.3.4 p a v y z d y s.a) PROC MEANS DATA=d1 MAXDEC=3 VAR MEAN;Visiems skaitinio tipo kintamiesiems bus apskaičiuota dispersija ir vidurkis; rezultatai busspausdinami su dviem skaitmenimis po kablelio.b) PROC MEANS DATA=d1; VAR X Y;70

Kintamiesiems X ir Y bus apskaičiuotas stebėjimų, panaudotų skaičiavimuose, skaičius;vidurkis; standartinis nuokrypis; didžiausia ir mažiausia reikšmė.Procedūroje MEANS galima nurodyti tokius sakinius:BY kintamieji;Bus atliekama atskira analizė kiekvienai kintamųjų, nurodytų po BY, reikšmių grupei; jeinaudojame BY sakinį, tai prieš tai reikia surūšiuoti pagal kintamuosius, nurodytus po BY. Jeinurodyto kintamojo (kintamųjų) reikšmė praleista, tai su ja elgiamasi kaip su bet kuria kitareikšme.CLASS kintamieji;Bus atliekama atskira analizė kiekvienai kintamųjų, nurodytų po CLASS, reikšmių grupei.Rezultatai spausdinami kompaktiškesne forma negu su BY sakiniu, be to, duomenų prieš tainereikia surūšiuoti. Kai nurodome CLASS sakinį, tai pagal nutylėjimą yra skaičiuojama darviena papildoma skaitinė charakteristika „N Obs“ – stebėjimų skaičius kiekvienoje CLASSkintamųjų reikšmių grupėje. Jei nurodyto kintamojo (kintamųjų) reikšmė yra praleista, taiatitinkamas stebėjimas neįtraukiamas į analizę, nebent nurodome MISSING pasirinktį PROCarba CLASS sakinyje.FREQ kintamasis;Nurodyto kintamojo reikšmės yra stebėjimų dažniai, t.y. vienas stebėjimas atitinka kelisstebėjimus. Jeigu kintamojo reikšmė nesveikas skaičius, tai trupmeninė dalis atmetama. Jeireikšmė mažesnė už vienetą arba praleistas stebėjimas, tai atitinkamas stebėjimas neįtraukiamasį skaičiavimus.WEIGHT kintamasis;Nurodome svorius. Kintamojo reikšmės nebūtinai sveiki skaičiai. Jeigu kintamojo reikšmė 0,tai stebėjimas įtraukiamas į bendrą stebėjimų skaičių. Jei kintamojo reikšmė mažesnė už 0, taiji konvertuojama į 0 ir atitinkamas stebėjimas įtraukiamas į bendrą stebėjimų skaičių. Jeigukintamojo reikšmė praleista, tai atitinkamas stebėjimas neįtraukiamas į analizę. Jei norimeišbraukti stebėjimus su neigiamais ir nuliniais svoriais iš analizės, tai reikia PROC sakinyjenurodyti pasirinktį EXCLNPWGT.Procedūra UNIVARIATE apskaičiuoja tokias pačias skaitines kintamųjų charakteristikas(žr. 3.1 lentelę) kaip ir procedūra MEANS, tačiau pagal nutylėjimą ji spausdinapraktiškai visas skaitines charakteristikas:1) momentų lentelė (stebėjimų, panaudotų skaičiavimuose, skaičius, vidurkis,standartinis nuokrypis, asimetrijos ir eksceso koeficientai, koreguota ir nekoreguota kvadratųsumos, variacijos koeficientas, reikšmių suma, svorių suma, dispersija, standartinė vidurkiopaklaida);2) pagrindinių skaitinių charakteristikų lentelė (vidurkis, mediana, moda, standartinisnuokrypis, dispersija, duomenų aibės plotis, tarpkvartilinis plotis);3) kvantilių lentelė;4) ekstremalių reikšmių lentelė (pagal nutylėjimą penkios didžiausios ir penkiosmažiausios reikšmės).P a s t a b a. Paprastai procedūra MEANS yra naudojama, kai norime apskaičiuoti tikkeletą skaitinių charakteristikų, o procedūra UNIVARIATE, kai norime atlikti pilną kiekvienokintamojo analizę.Procedūros UNIVARIATE sintaksė:PROC UNIVARIATE ;VAR kintamieji;RUN;71

Procedūroje UNIVARIATE galima naudoti pasirinktis VARDEF, EXCLNPWGT, beisakinius BY, FREQ, WEIGHT. Jų sintaksė ir paskirtis tokia pati kaip ir procedūroje MEANS.Procedūros UNIVARIATE PROC sakinyje galima nurodyti pasirinktį MODES, kurinurodo apskaičiuoti visas modas, nes pagal nutylėjimą yra spausdinama mažiausia moda.Galima nurodyti sakinįID kintamasis;tada nurodyto kintamojo reikšmės bus panaudotos identifikuoti ekstremalias analizuojamokintamojo reikšmes ekstremalių reikšmių lentelėje.3.5 p a v y z d y s.PROC UNIVARIATE DATA=duomenys;VAR svoris;ID nr;RUN;Šiame pavyzdyje analizuojamas kintamasis yra svoris. Kintamojo nr reikšmės buspanaudotos identifikuoti ekstremalias kintamojo svoris reikšmes ekstremalių reikšmiųlentelėje.P a s t a b a. Su praleistais stebėjimais procedūroje UNIVARIATE elgiamasi taip patkaip ir procedūroje MEANS.Toliau pateiksime formules, kurios naudojamos apskaičiuojant skaitines charakteristikasbei skaitinių charakteristikų savybes.Tegu x - analizuojamo kintamojo i-tojo stebėjimo reikšmė (imami tik nepraleistiistebėjimai); f i - i-tosios reikšmės x i dažnis, jeigu naudojame FREQ sakinį. Jei FREQsakinio nenaudojame, tai f i = 1 kiekvienam i; w i - i-tosios reikšmės x i svoris, jeigunaudojame WEIGHT sakinį. Jei WEIGHT sakinio nenaudojame, tai wi= 1 kiekvienam i; n –nepraleistų stebėjimų skaičius. Jei nurodome pasirinktį EXCLNPWGT ir WEIGHT sakinį, tain nepraleistų stebėjimų su teigiamais svoriais skaičius.Duomenų padėties charakteristikos:1) vidurkis (mean):x w x w .(3.5)∑72/∑=i i iVidurkis – vidutinė stebėjimų reikšmė. Jis skaičiuojamas tik kiekybiniamsduomenims. Tai dažniausiai naudojama duomenų padėties skaitinė charakteristika.Vidurkis pasižymi tokiomis savybėmis. Tegu turime tokius duomenis: y1,...,yn.Pažymėkime y - aritmetinis vidurkis.a) Padauginkime kiekvieną reikšmę yiiš tam tikro skaičius u, t.y. vi= u * yi. Tadav1,...,v naritmetinis vidurkis yra v = u * y.b) Pridėkime (atimkime) prie kiekvienos reikšmės yitam tikrą skaičių u, t.y.vi = yi± u . Tada v1,...,vnaritmetinis vidurkis yra v = y ± u.Vidurkį nepatariama naudoti, kai yra viena ar keletas stipriai išsiskiriančių (labai mažųarba labai didelių) reikšmių.2) Moda M0(mode) – reikšmė, kurios dažnis didžiausias. Moda gali būti skaičiuojamair kiekybiniams, ir kokybiniams duomenims. Moda gali neegzistuoti – visos reikšmėspasikartoja vienodą skaičių kartų. Jei yra viena moda – tai dažnių skirstinys vadinamasunimodiniu, jei yra dvi modos – bimodiniu, jei daugiau negu dvi modos, tai multimodiniu.3) Procentiliai (percentile) – skaičiai, suskirstantys variacinę eilutę į 100 vienodųdalių; procentilis pa(a-tasis procentilis, a=1,...,100) yra skaičius variacinėje eilutėje, nuokurio į kairę yra a% duomenų, o į dešinę (100-a) % duomenų (žr. 3.1 pav.).

3.1 pav. Procentilis paKvartiliai – skaičiai, suskirstantys variacinę eilutę į keturias lygias dalis (žr. 3.2 pav.).3.2 pav. KvartiliaiApatinis (pirmasis) kvartilis Q1- skaičius variacinėje eilutėje, nuo kurio į kairę yra25% duomenų, o į dešinę 75% duomenų, jis yra 25-tasis procentilis. Viršutinis (trečiasis)kvartilis Q3- skaičius variacinėje eilutėje, nuo kurio į kairę yra 75% duomenų, o į dešinę25% duomenų, jis yra 75-tasis procentilis.Mediana Md- skaičius, už kurį 50% variacinės eilutės reikšmių yra nedidesnės ir50% nemažesnės (žr. 3.2 pav.), t.y. mediana yra vidurinė reikšmė. Mediana kaip ir vidurkischarakterizuoja duomenų centro padėtį. Ją patariama naudoti, kai duomenų aibėje yraekstremalių reikšmių (išskirčių).Kai dažnių skirstinys simetriškas ir unimodalus, tai X = M = dM 0.SAS yra realizuoti penki procentilių apskaičiavimo metodai. Metodas yra nurodomassu PCTLDEF=metodas (čia metodas=1, 2, 3, 4, 5) pasirinktimi procedūros MEANS arbaUNIVARIATE PROC sakinyje.Tegu n yra analizuojamo kintamojo nepraleistų stebėjimųskaičius. Tarkime, kad reikšmes x1,..., xnišdėstėme į variacinę eilutę: x( 1)≤ x(2)≤ ... ≤ x(n).Reikia apskaičiuoti t-ąjį procentilį. pažymėkime p = t /100.Tegu j yra sveikoji np dalis, o gyra np arba (n+1)p trupmeninė dalis, t.y.np = j + g,( n + 1) p =j + g,kaikaiPCTLDEF = 1, 2, 3PCTLDEF = 4.Formulės procentilių apskaičiavimui pateiktos 3.2 lentelėje. Kai nurodome WEIGHTsakinį, tai t-asis procentilis y yra apskaičiuojamas taip:čiawiyra reikšmės(i)⎧⎪(x(⎨⎪x(i⎪⎩i)+ 1)+ x,( i+1)) / 2,kaikain∑ w ii=1i∑j=1i∑j=1wwjj=

3.2 lentelė. Procentilių apskaičiavimo metodaiPCTLDEF=Formulėy = ( 1−g)x + gx+x x ;1( j ) ( j 1),(0)=(1)23⎧x(i), kai g ≠ 1/ 2,⎪y = ⎨x(j), kai g = 1/ 2 ir j lyginis,⎪⎩x(j+ 1), kai g = 1/ 2 ir j nelyginis,čia i yra np +1/ 2 sveikoji dalis;⎧x(j), kai g = 0,y = ⎨⎩x(j+ 1), kai g > 0;y 1−g)x + gx x = x4 = (( j)( j+ 1),( n+1) ( n);5 (pagal nutylėjimą)⎧(xy = ⎨⎩x(( j)j+1)+ x,( j+1)) / 2,kaikaig = 0,g > 0;Duomenų sklaidos charakteristikos parodo duomenų išsidėstymą apie duomenųcentrą):1) duomenų aibės plotis (range) – skirtumas tarp didžiausios ir mažiausios reikšmės.Ši charakteristika labai jautri išskirtims.2) Tarpkvartilinis plotis (interquartile range):t.y. skirtumas tarp trečio ir pirmo kvartilio.3) Dispersija (variance):s2IQR = Q 3− Q 1,(3.8)12= ∑ wi( xi− x), (3.9)dčia d yra dispersijos daliklis. Jis nurodomas su pasirinktimi VARDEF=d procedūros MEANSarba UNIVARIATE PROC sakinyje. Galimos d reikšmės pateiktos 3.3 lentelėje, kurioje n -stebėjimų skaičius, o wi- i-tojo stebėjimo svoris. VARDEF=DF yra pagal nutylėjimą.Dispersija parodo reikšmių išsibarstymą apie vidurkį. Dispersijos savybės: a) jei visaskintamojo reikšmes padauginame iš to paties skaičiaus, tai gauta dispersija bus padauginta išto paties skaičiaus kvadrato; b) pridedant arba atimant tą patį skaičių iš kiekvienos reikšmės,dispersija nesikeičia.3.3 lentelė. Dispersijos daliklio reikšmėsKai VARDEF=d lyguNNDF n-1WEIGHTw∑ i∑ wiWDF −14) Vidutinis kvadratinis arba standartinis nuokrypis (standard deviation) kaip irdispersija parodo duomenų sklaidą apie vidurkį. Tai dažniausiai skaičiuojama duomenųsklaidos charakteristika. Šios charakteristikos vienas iš privalumų, kad ji matuojama taispačiais matavimo vienetais kaip ir pradiniai duomenys, tuo tarpu dispersijos matavimovienetai yra duomenų matavimo vienetai kvadratu. Vidutinis kvadratinis nuokrypis gaunamasištraukus kvadratinę šaknį iš dispersijos, t.y.2s = s ,(3.10)74

čia2s yra dispersija.5) Standartinė vidurkio paklaida (standard error of mean):STDERR∑=is / w ,(3.11)čia s yra standartinis nuokrypis, wiyra reikšmės xidažnis. Ši charakteristika skaičiuojamatik tada, kai VARDEF=DF, kitais atvejais neskaičiuojama.6) Nekoreguota kvadratų suma (uncorrected sum of squares):7) Koreguota kvadratų suma (corrected sum of squares):2USS = ∑ w x i i.(3.12)∑2CSS = w ( x −x).(3.13)8) Variacijos koeficientas (coefficient of variation) procentais:ii100sCV = .(3.14)xVariacijos koeficientas bedimensinis dydis, jis naudojamas lyginant skirtingų duomenų aibiųsklaidas. Jis taip pat gali būti naudojamas, kai norime palyginti skirtingais matavimo vienetaismatuotų duomenų aibių sklaidą.Dažnių skirstinio formos charakteristikos:1) asimetrijos koeficientas (skewness) charakterizuoja dažnių skirstinio formossimetriškumą.Kai pasirinktis VARDEF=DF, tai asimetrijos koeficientas apskaičiuojamas taip:čiaz ign( n −1)(n − 2)= 31 ∑ zi= ( x i− x)/ s standartizuoti stebėjimai.Kai pasirinktis VARDEF=N, tai asimetrijos koeficientas apskaičiuojamas taip:g1n31= ∑ zi,,(3.15)(3.16)Kadangi asimetrijos koeficientas bedimensinis dydis, tai jį galime naudoti keliųduomenų aibių dažnių skirstinių asimetriškumui palyginti. Kai skirstinys simetriškas, taig 1≈ 0. Jeigu g1teigiamas, tai teigiama asimetrija (dešinioji), jei neigiamas – neigiamaasimetrija (kairioji). 3.3 pav. pavaizduoti visi trys atvejai.3.3 pav. Simetriško ir asimetriškų skirstinių pavyzdžiaiJeigu g1arti nulio, bet sunku nuspręsti ar yra asimetrija, ar ne galima apskaičiuotipirmąjį ir antrąjį Pirsono koeficientus (žr.[1]). Pirmasis Pirsono asimetrijos koeficientasapskaičiuojamas taip:A(1)sX − M03( X − Md)= ≈ ,(3.17)s s75

čia X - aritmetinis vidurkis, M0- moda, Md- mediana, s - standartinis nuokrypis. Jeigu(1)| As| < 0,15, skirstinys simetriškas,(1)0,15 < | As| < 1, nedidelė asimetrija, (3.18)(1)| As| > 1, didelė asimetrija,arba(1)As≈ 0, skirstinys simetriškas,(1)As> 0, teigiama asimetrija, (3.19)(1)| A < 0, neigiama asimetrija,sAntrasis Pirsono asimetrijos koeficientas apibrėžiamas taip:A(2)sčia Q1ir Q3- pirmasis ir trečiasis kvartiliai,Q3+ Q1− 2Md= ,(3.20)Q − Q31Md- mediana. Asimetriškumo kriterijus tokspats kaip ir pirmajam Pirsono koeficientui.2) eksceso koeficientas (kurtosis) – dažnių skirstinio lėkštumo matas. KaiVARDEF=DF, tai eksceso koeficientas skaičiuojamas taip:čiaz ig2= n(n + 1)∑ 4 3( n −1)zi −,( n −1)(n − 2)( n − 3) ( n − 2)( n(3.21)− 3)= ( x i− x)/ s standartizuoti stebėjimai.Kai VARDEF=N, tai eksceso koeficientas apskaičiuojamas taip:g1= ∑ zin42−3.(3.22)Normaliojo skirstinio eksceso koeficientas g 2= 0.Jeigu g 1> 0 , tai dažnių skirstiniografikas smailesnis negu normaliojo skirstinio; jeigu g 1< 0 , tai – lėkštesnis. 3.4 pav.pavaizduoti visi trys atvejai.Teigiamas ekscesas Nulinis ekscesas Neigiamas ekscesas3.4 pav. Skirstinio su teigiamu, nuliniu ir neigiamu ekscesu pavyzdžiaiKitos skaitinės charakteristikos, kurias skaičiuoja procedūros MEANS ir UNIVA-RIATE:1) maksimali reikšmė (MAX);2) minimali reikšmė (MIN);3) N – nepraleistų stebėjimų skaičius. Stebėjimai, kuriems dažnis mažesnis už 1,reikšmė praleista, svoris mažesnis arba lygus nuliui (kai naudojama pasirinktisEXCLNPWGT), neįtraukiami į N skaičiavimą;76

4) NMISS – praleistų stebėjimų skaičius. Stebėjimai, kuriems dažnis mažesnis už 1,svoris mažesnis arba lygus nuliui (kai naudojama pasirinktis EXCLNPWGT), neįtraukiami įNMISS skaičiavimą;5) NOBS – bendras stebėjimų skaičius, t.y. NOBS=N+NMISS;6) reikšmių suma (sum): SUM = ∑ w ix i.∑=i7) svorių suma (sum of weights): W w .3.6 p a v y z d y s. Buvo išmatuotas 20 vaikų ūgis.Gauti tokie rezultatai (cm):124 122 123 134 124 123 121 124 128 123 126 125 131 119 122 125 130 122 125 121Reikia apskaičiuoti vidurkį, dispersiją, standartinį nuokrypį, pirmą kvartilį ir medianą.Interpretuoti gautus rezultatus. Analizę atliksime su procedūra MEANS. Editor langeįveskime:DATA vaikai;INFILE ’c:\vaikai.txt’;INPUT ugis @@;PROC MEANS DATA=vaikai MAXDEC=2 MEAN VAR STD Q1 MEDIAN;RUN;Output lange gauname tokius rezultatus:The MEANS ProcedureAnalysis Variable : ugisLowerMean Variance Std Dev Quartile Median124.60 13.62 3.69 122.00 124.00Kadangi nurodėme MAXDEC=DF, tai rezultatai spausdinami su dviem skaitmenimispo kablelio. Kadangi nurodėme statistikų sąrašą, tai buvo apskaičiuotos tik nurodytosskaitinės charakteristikos. Kai nenurodome VAR sakinio, tai skaitinės charakteristikosapskaičiuojamos visiems kintamiesiems iš pradinės duomenų lentelės. DATA=vaikai nurodokokios lentelės duomenis analizuosime.Gavome, kad vidutinis vaikų ūgis yra 124.6 cm; standartinis nuokrypis yra 3.69, odispersija yra 13.62, šios dvi skaitinės charakteristikos parodo duomenų išsidėstymą apievidurkį; pirmasis kvartilis lygus 122 cm, t.y. 5 (t.y. 25%) vaikų ūgis mažesnis už 122 cm ir 15(t.y.75%) vaikų ūgis didesnis už 122 cm.Tokius pačius rezultatus gautume ir su procedūra UNIVARIATE, Editor lange įvedę:PROC UNIVARIATE DATA=vaikai MAXDEC=2; RUN;3.7 p a v y z d y s. Tarkime, kad duota SAS duomenų lentelė „Kineskopai“, kuriojeyra 200 kineskopų (4 paletai po 50 kineskopų) parametrų matavimai dviejose gamybinėseoperacijos (I testeris ir II testeris). I testeryje buvo matuoti tokie parametrai: spindulio Rsrovės stiprumas (i_katodo_r), spindulio G srovės stiprumas (i_katodo_g), spindulio B srovėsstiprumas (i_katodo_b); II testeryje buvo matuoti tokie parametrai: spindulio R srovėsstiprumas (i_r), spindulio G srovės stiprumas (i_g), spindulio B srovės stiprumas (i_b). Bepaminėtų stulpelių lentelėje yra dar du stulpeliai: kineskopo numeris (kin_nr) ir paletonumeris (paleto_nr).Tarkime, kad reikia apskaičiuoti vidurkį, standartinį nuokrypį, minimalią ir maksimaliąreikšmę I testeryje matuotiems parametrams atskirai kiekvienam paletui. Šio uždaviniosprendimui panaudosime procedūrą MEANS. Editor lange įveskime:PROC MEANS DATA=kineskopai MAXDEC=4;VAR i_katodo_r i_katodo_g i_katodo_b;CLASS paleto_nr;RUN;Output lange gauname tokį rezultatą:77

The MEANS ProcedureNpaleto_nr Obs Variable Label N Mean Std Dev Minimum Maximum1 50 i_katodo_r i_katodo_r 47 6.6915 0.3815 6.0000 9.0000i_katodo_g i_katodo_g 47 6.5851 0.3557 6.0000 8.8000i_katodo_b i_katodo_b 47 6.5617 0.3281 6.0000 8.60002 50 i_katodo_r i_katodo_r 49 6.6000 0.1555 6.3000 7.0000i_katodo_g i_katodo_g 49 6.5061 0.1298 6.3000 6.8000i_katodo_b i_katodo_b 49 6.5061 0.1376 6.1000 6.80003 50 i_katodo_r i_katodo_r 49 6.5898 0.1584 6.3000 6.9000i_katodo_g i_katodo_g 49 6.5184 0.1318 6.3000 6.9000i_katodo_b i_katodo_b 49 6.5245 0.1331 6.3000 6.80004 50 i_katodo_r i_katodo_r 49 6.6204 0.1323 6.2000 6.8000i_katodo_g i_katodo_g 49 6.5204 0.1369 6.2000 6.8000i_katodo_b i_katodo_b 49 6.5184 0.1467 6.2000 6.8000Kadangi nurodėme CLASS sakinį, tai stebėjimai buvo suskirstyti į grupes pagalkintamojo, nurodyto po CLASS, reikšmes ir atlikta atskira analizė kiekvienai grupei (t.y.atskira analizė kiekvienam paletui). Sakinyje VAR nurodome kurių kintamųjų skaitinescharakteristikas reikia apskaičiuoti.Kiekvienam kintamajam gavome tokias skaitines charakteristikas:1) N Obs – stebėjimų skaičius;2) N – parodo kiek stebėjimų buvo panaudota apskaičiuojant kintamojo skaitinescharakteristikas, pavyzdžiui, apskaičiuojant kintamojo i_katodo_r skaitines charakteristikasantrajame palete buvo panaudoti 49 stebėjimai (vienas stebėjimas neįtrauktas į analizę, nes joreikšmė praleista);3) vidurkis (Mean); matome, kad, pavyzdžiui, i_katodo_r vidurkis antrajame paleteyra 6.6, o trečiajame palete yra 6.5898;4) standartinis nuokrypis (Std Dev); matome, kad, pavyzdžiui, i_katodo_r standartinisnuokrypis antrajame palete yra 0.1555, o trečiajame palete yra 0.1584;5) minimali reikšmė (Minimum); matome, kad, pavyzdžiui, pirmame palete visųsrovių minimali reikšmė yra 6;6) maksimali reikšmė (Maximum); matome, kad, pavyzdžiui, ketvirtajame palete visųsrovių maksimali reikšmė yra 6.8.Atlikime išsamesnę kurio nors kintamojo, pavyzdžiui, i_katodo_r, stebėjimų pirmajamepalete analizę. Editor lange įveskime:PROC UNIVARIATE DATA=kineskopai;VAR i_katodo_r;WHERE paleto_nr=1;RUN;Output lange gauname tokį rezultatą:The UNIVARIATE ProcedureVariable: i_katodo_r (i_katodo_r)MomentsN 47 Sum Weights 47Mean 6.69148936 Sum Observations 314.5Std Deviation 0.38154707 Variance 0.14557817Skewness 4.85337467 Kurtosis 30.3015408Uncorrected SS 2111.17 Corrected SS 6.69659574Coeff Variation 5.70197532 Std Error Mean 0.05565436LocationBasic Statistical MeasuresVariabilityMean 6.691489 Std Deviation 0.3815578

Median 6.700000 Variance 0.14558Mode 6.600000 Range 3.00000Interquartile Range 0.30000Quantiles (Definition 5)Quantile Estimate100% Max 9.099% 9.095% 6.990% 6.875% Q3 6.850% Median 6.725% Q1 6.510% 6.55% 6.41% 6.00% Min 6.0Extreme Observations----Lowest---- ----Highest---Value Obs Value Obs6.0 2 6.8 366.4 50 6.9 216.4 43 6.9 246.4 40 6.9 486.5 49 9.0 12Gavome, kad pirmajame palete vidutinis spindulio R srovės stiprumas yra6.69148936; standartinis nuokrypis yra 0.38154707; asimetrijos koeficientas yra 4.85337467,taigi, skirstinys asimetriškas; eksceso koeficientas yra 30.3015408, taigi, dažnių skirstinysžymiai smailesnis negu normaliojo skirstinio; trečiasis kvartilis lygus 6.8, t.y. 75% kineskopųspindulio R srovės stiprumas yra mažesnis už 6.8; mediana lygi 6.7, t.y. 50% kineskopųspindulio R srovės stiprumas yra mažesnis už 6.7.2.2. Standartizuotos reikšmėsTarkime, kad turime duomenų aibę x , ,...,1x2 xn.Tada standartizuotos reikšmės zi,i = 1,....,napskaičiuojamos taip:čia x yra reikšmiųx ,...,zxi− x= , i 1,..., n,(3.23)si=1, x2xnaritmetinis vidurkis, o s – standartinis nuokrypis.z , z2,..., znGautos duomenų aibės1aritmetinis vidurkis yra lygus 0, o standartinisnuokrypis lygus 1.Standartizuotos reikšmės yra bedimensiniai dydžiai ir gali būti panaudotos palygintiskirtingas duomenų aibes.3.8 p a v y z d y s. Tarkime, kad turime duomenis iš 3.6 pavyzdžio, šiame pavyzdyjebuvome gavę, kad vaikų ūgių vidurkis yra 124.6, o standartinis nuokrypis 3.69.Standartizuokime duomenis. Editor lange įveskime:DATA vaikai;SET vaikai;st_ugis=(ugis-124.6)/3.69;RUN;Atlikus šį Data žingsnį lentelėje „vaikai“ bus sukurtas dar vienas stulpelis „st_ugis“,kuriame bus standartizuotos kintamojo „ugis“ reikšmės.79

2.3 IšskirtysIšskirtys – reikšmės stipriai išsiskiriančios iš kitų reikšmių. Jos iškraiposkaičiavimus, apskaičiuotos charakteristikos yra nestabilios, todėl prieš atliekant duomenųanalizę reikėtų patikrinti ar nėra išskirčių. Jeigu yra, tai reikia nustatyti išskirties atsiradimopriežastį, galbūt, tai duomenų įvedimo klaida, pasikeitė eksperimento sąlygos, labai retasįvykis ir pan. Matavimo rezultatai su išskirtimis kartais lengvai pastebimi, nes jie žymiaiskiriasi nuo kitų. Abejotinais atvejais atliekama analizė, padedanti surasti išskirtis.Kai duomenų skirstinys normalusis, duomenų aibės išskirtys nustatomos naudojantstandartizuotas reikšmes z1, z2,..., zn. Galima naudotis tokia taisykle: reikšmė xiyra sąlyginėišskirtis, jei atitinkama reikšmė zitenkina sąlygą: 2 < | z i| < 3;reikšmė xiyra išskirtis, jeiatitinkama reikšmė zitenkina sąlygą: | zi| > 3.Kai duomenų skirstinys nėra artimas normaliajam skirstiniui galima naudotis tokiataisykle (žr. [3]): reikšmė yra sąlyginė išskirtis, jei ji priklauso intervalui: [Q1-3*IQR, Q1-1.5*IQR) arba (Q3+1.5*IQR, Q3+3*IQR]; reikšmė yra išskirtis, jei ji mažesnė už Q1-3*IQRarba didesnė už Q3+3*IQR, čia Q1 – pirmasis kvartilis, Q3 – trečiasis kvartilis, IQR=Q3-Q1tarpkvartilinis plotis.3.9 p a v y z d y s. Buvo išmatuotas 20 vaikų ūgis.Gauti tokie rezultatai (cm):124 122 123 134 124 123 121 124 128 123 126 125 131 119 122 125 130 122 125 121Duomenų lentelę galime sukurti su tokiu Data žingsniu:DATA vaikai;INFILE ’c:\vaikai.txt’;INPUT ugis @@;RUN;Norint apskaičiuoti išskirtis ir sąlygines išskirtis, reikia žinoti pirmojo Q1, trečiojo Q3kvartilio ir trapkvartilinio pločio IQR=Q3-Q1 reikšmes. Jas galima apskaičiuoti su procedūraMEANS:PROC MEANS DATA=vaikai Q1 Q3 QRANGE;var ugis;RUN;Output lange gauname:The MEANS ProcedureAnalysis Variable : ugisLower Upper QuartileQuartile Quartile Range122.0000000 125.5000000 3.5000000Apskaičiuojame sąlyginių išskirčių intervalus:[Q1-3*IQR, Q1-1.5*IQR)=[122-3*3.5, 122-1.5*3.5) =[111.5, 116.75) arba(Q3+1.5*IQR, Q3+3*IQR]=(125.5+1.5*3.5, 125.5+3*3.5] =(130.75, 136].Palyginę gautas reikšmes su pradiniais duomenimis matome, kad reikšmės 131 ir 134yra sąlyginės išskirtys.Reikšmė yra išskirtis, jei ji mažesnė už Q1-3*IQR=122-3*3.5=111.5 arba didesnė užQ3+3*IQR=125.5+3*3.5=136. Palyginę gautas reikšmes su pradiniais duomenimis matome,kad išskirčių nėra.2.4. Skaitinių charakteristikų įrašymas į duomenų lentelęVisose SAS procedūrose yra numatyta galimybė gautus rezultatus įrašyti į lentelę.Aprašysime kaip skaitines charakteristikas, apskaičiuotas su procedūra MEANS arbaUnivariate įrašyti į lentelę.80

Procedūroje MEANS galima naudoti sakinį OUTPUT, kuris nurodo, kad rezultatusįrašyti į SAS lentelę. Sintaksė:OUTPUT OUT = lentelė statistikų_sąrašas;čia lentelė – lentelės vardas, į kurią norime įrašyti rezultatus, statistikų_sąrašas - išvardinameskaitines charakteristikas, kurias norime įrašyti į lentelę.Galima naudoti kelis OUTPUT sakinius arba kelis statistikų sąrašus.Viena iš galimųstatistikų sąrašo formų:statistika (kintamieji)=vardų_sąrašasčia statistika – nurodome kokią skaitinę charakteristiką įrašyti (pavyzdžiui, jei norime įrašytividurkį, tai rašome MEAN; galimų raktinių žodžių sąrašą žr. 3.1 lentelėje), kintamieji –analizuojami kintamieji, vardų_sąrašas – kokiais vardais pavadinti stulpelius rezultatųlentelėje; analizuojamų kintamųjų ir vardų sąrašo tvarka susijusi.3.10 p a v y z d y s.PROC MEANS DATA=d1 NOPRINT;VAR k1 k2 k3;OUTPUT OUT=nauja SUM(k1 k3)=suma_k1 suma_k3;RUN;Nebūtina pasirinktis NOPRINT nurodo, kad rezultatus įrašyti į lentelę, bet Outputlange nespausdinti. Bus sukurta lentelė „nauja“ su dviem stulpeliais suma_k1 ir suma_k3 irvienu stebėjimu (eilute), pirmame stulpelyje bus kintamojo k1 reikšmių suma, o antramekintamojo k3 reikšmių suma.3.11 p a v y z d y s. Tarkime, kad turime tokius pačius duomenis kaip 3.7 pavyzdyje,t.y. duomenų lentelė „Kineskopai“, kurioje yra 200 kineskopų (4 paletai po 50 kineskopų)parametrų matavimai dviejose gamybinėse operacijos (I testeris ir II testeris). ApskaičiuokimeII testeryje matuotų parametrų (t.y. spindulio R srovės stiprumo (i_r), spindulio G srovėsstiprumo (i_g), spindulio B srovės stiprumo (i_b)) vidurkius atskirai kiekvienam paletui irįrašykime į lentelę „vidurkiai_1“.PROC MEANS NOPRINT DATA=Kineskopai;BY paleto_nr;VAR i_r i_g i_b;OUTPUT OUT=vidurkiai MEAN (i_r i_g i_b)=vid_i_r vid_i_g vid_i_b;RUN;Gausime tokią lentelę “vidurkiai_1”:paleto_nr _TYPE_ _FREQ_ vid_i_r Vid_i_g vid_i_b1 0 50 6.244 6.212 6.2682 0 50 6.202 6.174 6.2083 0 50 6.138 6.162 6.1864 0 50 6.238 6.188 6.266Stulpelio _TYPE_ reikšmė 0 reiškia, kad apskaičiuotas bendras vidurkis kiekvienamepalete; stulpelyje _FREQ_ yra stebėjimų, panaudotų skaičiuojant vidurkį, skaičius; kituosestulpeliuose yra analizuojamų kintamųjų vidurkiai.Procedūroje UNIVARIATE galima naudoti sakinį OUTPUT, kuris nurodo, kadrezultatus įrašyti į SAS lentelę. Sintaksė:OUTPUT OUT=lentelė statistikų_sąrašas=stulpelių_vardai;3.12 p a v y z d y s. Duota lentelė „Testas“, kurioje yra tokie duomenys: studentopažymėjimo numeris (nr), dviejų testų (testas_1 ir testas_2) ir egzamino (egzaminas)rezultatai. Apskaičiuosime pirmo ir antro testo vidurkį, bei pirmojo testo standartinį nuokrypį.Duomenis įrašysime į lentelę „Rezultatai“.81

DATA Testas;INPUT nr $ testas_1 testas_2 egzaminas @@;DATALINES;01145 6 8 7 01147 9 10 1001148 7 7 6 01149 6 6 701150 9 9 9 01152 8 9 801153 8 8 9 01154 9 9 801155 8 9 8 01156 9 10 1001157 9 10 8 01158 6 7 6;PROC UNIVARIATE DATA=Testas NOPRINT;VAR testas_1 testas_2;OUTPUT OUT=Rezultatai MEAN=vid_test1 vid_test2 STD=stand_nuokr_test1;RUN;Į lentelę įrašys pirmo ir antro testų vidurkius (stulpeliai vadinsis vid_test1 irvid_test2); kintamojo testas_1 standartinį nuokrypį (stulpelis vadinsis stand_nuokr_test1).Lentelėje ”Rezultatai” gausime: vid_test1=7.833, vid_test2=8.5,stand_nuokr_test1=1.2673.2.5. Skaitinių charakteristikų apjungimas su pradiniais duomenimisIliustruosime kaip su procedūra MEANS arba UNIVARIATE apskaičiuotas ir įrašytasį lentelę statistikas apjungti su pradinės lentelės duomenimis.3.13 pavyzdys. Duota lentelė ”Duomenys”, kurioje yra trys kintamieji: prekėspavadinimas (pavad), diena (diena), parduotų vienetų skaičius (kiekis). Reikia paruoštiataskaitą atskirai kiekvienai dienai ir apskaičiuoti procentą parduotų to pavadinimo prekiųtarp tą dieną parduotų prekių. Editor lange įveskime:DATA Duomenys;INPUT pavad $ diena $ kiekis;LABEL pavad=’Prekės pavadinimas’diena=’Diena’kiekis=’Parduotų vienetų skaičius’;DATALINES;x1 1 15x2 1 20x3 2 31x4 1 22x5 3 41x6 2 18;PROC SORT DATA=Duomenys;BY diena;PROC MEANS NOPRINT DATA=Duomenys;VAR kiekis;BY diena;OUTPUT OUT=Rezultatai SUM(kiekis)=bendras_sk;PROC PRINT DATA=Rezultatai; RUN;Data žingsnyje yra sukuriama pradinių duomenų lentelė „Duomenys“. ProcedūraMEANS apskaičiuoja kiekvieną dieną parduotų prekių skaičių (bendras_sk) ir duomenis įrašoį lentelę „Rezultatai“. Kadangi procedūroje MEANS naudojame BY sakinį, tai prieš tai reikiasurūšiuoti (su procedūra SORT) pagal kintamąjį, nurodytą po BY. Rezultatas:DATA Procentai;MERGE Duomenys Rezultatai;BY diena;Obs diena _TYPE_ _FREQ_ bendras_sk1 1 0 3 572 2 0 2 493 3 0 1 4182

Procentai=kiekis/bendras_sk*100;PROC PRINT DATA=Procentai;BY diena; ID diena;VAR pavad kiekis bendras_sk procentai;RUN;Data žingsnyje yra apjungiama pradinių duomenų lentelė „Duomenys“ su lentelė„Rezultatai“, kurioje yra apskaičiuoti vidurkiai ir apskaičiuojami procentai. Rezultatas:diena pavad kiekis bendras_sk procentai1 x1 15 57 26.316x2 20 57 35.088x4 22 57 38.5962 x3 31 49 63.265x6 18 49 36.7353 x5 41 41 100.000Su procedūra MEANS arba UNIVARIATE galima sukurti lentelę, kurioje vietojegrupių sumų būtų bendra suma. Tačiau šiuo atveju mes negalime naudoti MERGE, nes nėrabendrų kintamųjų. Daroma taip (žr. [7]):DATA nauja_lentelė;IF _N_=1 THEN SET bendra_suma;SET pradinė_lentelė;RUN;čia bendra_suma – lentelė su vienu stebėjimu, kurioje yra bendra suma; pradinė_lentelė –lentelė su daugiau negu vienu stebėjimu (pradinė duomenų lentelė).P a s t a b a. Tokią procedūrą galima taikyti bet kada, kai reikia apjungti lentelę suvienu stebėjimu su lentelė, kurioje yra daugiau negu vienas stebėjimas ir lentelės neturibendrų kintamųjų.3.14 p a v y z d y s. Tarkime, kad turime tokius pačius duomenis kaip 3.9 pavyzdyje.Šiame pavyzdyje mes tikrinome ar duomenų aibėje yra sąlyginių išskirčių arba išskirčių,tačiau tai mes atlikome rankiniu būdu. Gavome, kad reikšmės 131 ir 134 yra sąlyginėsišskirtys. Parašykime programą, kuri sukurtų lentelę, kurioje būtų sąlyginės išskirtys. Išpradžių reikia apskaičiuoti pirmą ir trečią kvartilius, juos įrašyti į lentelę, paskui šias skaitinescharakteristikas apjungti su pradiniais duomenimis ir lentelėje palikti tik tuos stebėjimus,kurie yra sąlyginės išskirtys. Editor lange įveskime:DATA vaikai;INPUT ugis @@;DATALINES;124 122 123 134 124 123 121 124 128 123 126 125 131 119122 125 130 122 125 121;RUN;PROC MEANS NOPRINT DATA=vaikai;VAR ugis;OUTPUT OUT=pagalbinis Q1(ugis)=Q1 Q3(ugis)=Q3;RUN;DATA rezultatas;IF _N_=1 THEN SET pagalbinis;SET vaikai;RUN;DATA rezultatas;SET rezultatas;IQR=Q3-Q1;IF Q1-3*IQR

Lentelėje „rezultatas“ bus tik tie stebėjimai iš pradinės duomenų lentelės, kurie yrasąlyginės išskirtys, t.y. reikšmės 131 ir 134.3. Grafiniai duomenų analizės metodaiGrafikai suteikia informacijos apie duomenų skirstinio formą, išskirtis, modą,didžiausią ir mažiausią reikšmes ir pan. Pavaizdavus duomenis grafiškai, lengviau juosinterpretuoti. Yra labai daug įvairių grafikų. Vieni grafikai braižomi kokybiniams, kitikiekybiniams duomenims, yra grafikų skirtų vienam kintamajam, poriniams stebėjimams irpan. Šiame skyrelyje aprašysime kai kurių dažniausiai naudojamų grafikų ir diagramųbraižymą su SAS.3.1. Stulpelių diagramosStulpelių diagramos braižomos kokybiniams arba kiekybiniams kintamiesiems, kurieįgyja ne daug reikšmių. Šiose diagramose dažnį atitinka stulpelio aukštis. Braižomoshorizontalių ir vertikalių stulpelių diagramos. Galima braižyti dažnių, procentinių dažnių,sukauptų arba sukauptų procentinių dažnių diagramas. SAS taip pat yra numatyta galimybėbraižyti palyginamąsias stulpelių diagramas, o taip pat vidurkių ir sumų stulpelių diagramas.3.1.1. Dažnių stulpelių diagramosStulpelių diagramos (Bar charts) yra braižomos su SAS modulio BASE procedūraCHART arba su SAS modulio GRAPH procedūra GCHART. Su procedūra GCHART galimanubraižyti aukštesnės kokybės grafikus. Iš pradžių aprašysime kaip braižyti su procedūraCHART. Vertikalių stulpelių diagrama:PROC CHART DATA=lentelė;VBAR kintamieji / pasirinktys;RUN;Horizontalių stulpelių diagrama :PROC CHART DATA=lentelė;HBAR kintamieji / pasirinktys;RUN;čia lentelė – duomenų lentelės vardas; kiekvienam nurodytam kintamajam braižoma atskiradiagrama.VBAR ir HBAR sakinuose galima nurodyti tokias pasirinktis:grafiko tipas: TYPE =FREQ dažnių grafikas;TYPE =PECENT procentinių dažnių grafikas;TYPE =CFREQ sukauptų dažnių grafikas;TYPE =CPERCENT sukauptų procentinių dažnių grafikas;MISSING - praleisti stebėjimai pavaizduojami atskiru stulpeliu.Pagal nutylėjimą tariama, kad skaitinio tipo kintamasis yra tolydus ir procedūrasugrupuoja duomenis į intervalus. Jei skaitinio tipo kintamasis įgyja tik keletą reikšmių irnorime atskiro stulpelio kiekvienai reikšmei, tai nurodome pasirinktį DISCRETE.Kaip duomenis sugrupuoti į intervalus galima nurodyti su MIDPOINTS=reikšmės, čiareikšmės, tai grupavimo intervalo vidurio taškai (išdėstyti didėjančia tvarka), pavyzdžiui,MIDPOINTS=5.5 6.5 7.5; arba LEVELS=n, čia n – stulpelių skaičius.3.15 p a v y z d y s.DATA d1;INPUT x $ @@;DATALINES;a b c a a b a c b a;RUN;PROC CHART DATA=d1;84

HBAR x / TYPE=CFREQ;RUN;PROC CHART DATA=d1;VBAR x;RUN;Pirmosios procedūros CHART rezultatas yra kintamojo x sukauptų dažniųhorizontalių stulpelių diagrama (žr. 3.5 pav.), nes nurodėme TYPE=CFREQ.Antrosios procedūros CHART rezultatas yra kintamojo x dažnių vertikalių stulpeliųdiagrama (žr. 3.6 pav).3.5 pav. Sukauptų dažnių horizontalių stulpelių diagrama3.6 pav. Dažnių vertikalių stulpelių diagrama3.16 p a v y z d y s.DATA d2;INPUT x $ @@;DATALINES;a b c . a b . b b b;RUN;PROC CHART DATA=d2;VBAR x;RUN;PROC CHART DATA=d2;VBAR x / MISSING;RUN;Šių procedūrų rezultatai pateikti 3.7 pav. Antrojoje diagramoje praleisti stebėjimaipavaizduoti atskiru stulpeliu, nes procedūroje nurodėme MISSING.85

Pirmosios procedūros CHART rezultatas3.7 pav. Stulpelių diagramosAntrosios procedūros CHART rezultatasP a s t a b a. Procedūroje CHART kaip ir kitose SAS procedūrose galima naudotisakinius: BY (atskiras grafikas kiekvienai stebėjimų grupei), WHERE (grafikas imant dalįpradinių duomenų), žr. I sk. 14 skyrelį.Su procedūra GCHART galima nubraižyti geresnės kokybės grafikus. Galima naudotitokias pačias pasirinktis kaip ir procedūroje CHART, be to, yra daug kitų pasirinkčių, kuriųsąrašą galima pasižiūrėti pagrindiniame meniu pasirinkus Help→SAS Help and Documentation.Pateiksime pavyzdį.3.17 p a v y z d y s.DATA d1;INPUT x @@;DATALINES;1 2 1 2 3 1 1;RUN;pattern color=blue;PROC GCHART DATA=d1;VBAR x / DISCRETE; /* atskiras stulpelis kiekvienai x reikšmei*/RUN;pattern color=green; /* nurodome stulpelių spalvą*/PROC GCHART DATA=d1;HBAR x / TYPE=CFREQ DISCRETE; /* sukauptų dažnių stulpelių diagrama*/RUN; QUIT;Šių procedūrų rezultatas pateiktas 3.8 pav. Kadangi nurodėme DISCRETE, taibraižomas atskiras stulpelis kiekvienai x reikšmei. Sakinyje PATTERN su COLORpasirinktimi nurodėme stulpelio spalvą. Antrojoje procedūroje CHART nurodėmeTYPE=CFREQ, todėl nubraižė sukauptų dažnių diagramą.86

Pirmosios procedūros GCHART rezultatasAntrosios procedūros GCHART rezultatas3.8 pav. Stulpelių diagramosPaminėsime dar kelias pasirinktis, naudojamas HBAR arba VBAR sakiniuose:ASCENDING – išdėsto stulpelius pagal aukštį didėjančia tvarka; DESCENDING – išdėstostulpelius pagal aukštį mažėjančia tvarka; SPACE=n – nurodome tarpų tarp stulpelių dydį (čian – neneigiamas skaičius; pavyzdžiui, SPACE=0 – nebus tarpų tarp stulpelių); WIDTH=n –nurodome stulpelių plotį (čia n - stulpelio plotis).3.18 p a v y z d y s.DATA d1;INPUT x @@;DATALINES;1 2 1 2 3 1 1;RUN;PATTERN COLOR=BLUE;PROC GCHART DATA=d1;VBAR x / DISCRETE;RUN;PATTERN COLOR=GREEN;PROC GCHART DATA=d1;VBAR x / DISCRETE ASCENDING WIDTH=1.5 ;RUN; QUIT;Rezultatas pateiktas 3.9 paveiksle.Pirmosios procedūros GCHART rezultatas3.9 pav. Stulpelių diagramosAntrosios procedūros GCHART rezultatas87

3.1.2. Sumų ir vidurkių stulpelių diagramosGalima stulpelių diagramoje pavaizduoti ne kintamojo dažnius, o tam tikro kito kintamojoreikšmių sumas arba vidurkius analizuojamo kintamojo reikšmėms. Sintaksė:PROC CHART DATA=lentelė;VBAR kintamieji / pasirinktys;RUN;Nurodytų kintamųjų reikšmės atidedamos horizontalioje ašyje. Braižoma atskiradiagrama kiekvienam nurodytam kintamajam. Pasirinktys:SUMVAR=kintamasis, čia kintamasis, kurio reikšmės sumuojamos arbaskaičiuojamas reikšmių vidurkis; apskaičiuotos charakteristikos atidedamos vertikalioje ašyje;TYPE=MEAN | SUM, jei nurodome MEAN - braižoma vidurkių diagrama, jei –SUM, tai reikšmių sumų diagrama; pagal nutylėjimą, kai nurodyta pasirinktisSUMVAR=kintamasis yra braižoma reikšmių sumų diagrama.Kaip ir dažnių stulpelių diagramose galima naudoti DISCRETE, MIDPOINTS,LEVELS pasirinktis (žr. 3.1.1 skyrelį).3.19 pavyzdys.DATA d1;INPUT x y @@;DATALINES;1 4 2 5 1 3 3 5 2 1 1 1 1 3;RUN;PROC CHART DATA=d1;VBAR x / DISCRETE SUMVAR=y TYPE=MEAN;RUN;PATTERN COLOR=GREEN;PROC GCHART DATA=d1;VBAR x / DISCRETE SUMVAR=y TYPE=MEAN;RUN; QUIT;Rezultatas pateiktas 3.10 paveiksle. Horizontalioje ašyje yra atidėtos kintamojo xreikšmės: 1, 2, 3 ir braižomas atskiras stulpelis kiekvienai x reikšmei, nes nurodmeDISCRETE. Parinktis TYPE=MEAN nurodo, kad braižoma vidurkių stulpelių diagrama, oparinktis SUMVAR=y nurodo, kad vertikalioje ašyje atidedami kintamojo y reikšmiųvidurkiai kiekvienai x reikšmei (kai x=1, tai stulpelio aukštis yra (4+3+1+3)/4=2.75; kai x=2,tai stulpelio aukštis yra (5+1)/2=3; kai x=3, tai stulpelio aukštis yra 5).Procedūros CHART rezultatas3.10 pav. Stulpelių diagramosProcedūros GCHART rezultatas88

3.1.3. Grupės ir pogrupiai stulpelių diagramojeProcedūros CHART sakinyje HBAR arba VBAR galima nurodyti pasirinktis:GROUP=kintamasis; braižomi keli stulpeliai vienas šalia kito, po vieną stulpelįkiekvienai nurodyto kintamojo reikšmei; kintamasis turi būti diskretus, gali būti skaitinioarba simbolinio tipo;SUBGROUP=kintamasis; stulpelis padalinamas nuodyto kintamojo reikšmėmis;pirmas reikšmės simbolis naudojamas stulpeliui užpildyti.GROUP ir SUBGROUP galima naudoti ir kartu. Galima braižyti ne tik dažnių, bet irsumų bei vidurkių stulpelių diagramas (reikia nurodyti SUMVAR ir TYPE=MEAN | SUM).Tokias pačias pasirinktis galima naudoti ir GCHART procedūroje.3.20 p a v y z d y s. Duota lentelė „Duomenys“, kurioje yra tokie kintamieji:parduotuvės numeris (numeris), prekių tipas (tipas), metai, parduotų prekių skaičius(parduota). Editor lange įveskime:DATA Duomenys;INPUT numeris $ tipas $ metai parduota ;DATALINES;15 tipas1 2004 25115 tipas1 2005 28015 tipas2 2004 15015 tipas2 2005 16816 tipas1 2004 31516 tipas1 2005 39016 tipas2 2004 28016 tipas2 2005 305;RUN;PROC GCHART DATA=Duomenys;VBAR tipas / SUBGROUP=numeris SUMVAR=parduota;RUN; QUIT;PROC GCHART DATA=Duomenys;VBAR tipas / GROUP=metai SUBGROUP=numeris SUMVAR=parduota TYPE=MEAN;RUN; QUIT;Pirmosios procedūros GCHART rezultatas3.11 pav. Stulpelių diagramosAntrosios procedūros GCHART rezultatasRezultatas pateiktas 3.11 paveiksle. Pirmosios GCHART procedūros rezultatas yravertikalių stulpelių diagrama: vienas stulpelis kiekvienai kintamojo „tipas“ reikšmei;89

stulpeliai padalinti kintamojo „numeris“ reikšmėmis; horizontalioje ašyje atidėtos kintamojo„parduota“ reikšmių sumos.Antrosios GCHART procedūros rezultatas yra vertikalių stulpelių diagrama:braižomos stulpelių grupės (kintamojo „metai“ reikšmės); kiekvienoje stulpelių grupėje povieną stulpelį kiekvienai kintamojo „tipas“ reikšmei; stulpeliai padalinti kintamojo „numeris“reikšmėmis; horizontalioje ašyje atidėti kintamojo „parduota“ reikšmių vidurkiai.Kai braižome horizontalių stulpelių diagramą, tai pagal nutylėjimą dažnių,procentinių, sukauptų procentinių dažnių diagramose spausdinamas dažnis, sukauptas,procentinis, sukauptas procentinis dažnis. Jeigu nurodysime kokias skaitines charakteristikasspausdinti, tai spausdins tik nurodytas ir dažnį. Galima nurodyti:CFREQ sukauptas dažniai;CPERCENT sukauptas procentinis dažnis;FREQ dažnis;PERCENT procentinis dažnis;MEAN vidurkis (galima naudoti tik su SUMVAR ir TYPE=MEAN);SUM suma (galima naudoti tik su SUMVAR ir TYPE=SUM);NOSTATS nespausdinti statistikų horizontalių stulpelių diagramoje;P a s t a b a. Jei nurodėme TYPE=MEAN, tai galima apskaičiuoti tik vidurkį ir dažnį;jei nurodėme TYPE=SUM, tai galima apskaičiuoti tik sumą ir dažnį;Jei nurodome NOZEROS pasirinktį, tai diagramoje nebus stulpelių su nuliniu dažniu.Ši pasirinktis naudojama su HBAR ir VBAR sakiniais.Galima nurodyti FREQ=kintamasis pasirinktį; čia kintamojo reikšmės nurodostebėjimo dažnį. Jei nenurodome, tai kiekvieno stebėjimo dažnis yra lygus 1. Jei FREQkintamojo reikšmės nėra sveiki skaičiai, tai trupmeninė dalis yra atmetama. Jei naudojameSUMVAR, tai sumos dauginamos iš nurodyto kintamojo reikšmių.3.2. Diagrama medisDiagrama medis (steam and leaf plot) parodo kiek kartų pasikartojo reikšmė. Iš josgalima spręsti apie duomenų skirstinį, modą, asimetriškumą, matomos išsiskiriančios reikšmėsir pan. Šios diagramos privalumas lyginant su grupuotų duomenų stulpelių diagrama tas,kad neprarandama pradinė informacija, kuri dingsta grupuojant duomenis.Ši diagrama braižoma taip: jei skaičius susideda iš dviejų ar daugiau skaitmenų, tai jįgalima išskaidyti į šaką ir lapą. Šaka yra pirmasis skaitmuo (pirmieji skaitmenys). Lapas –paskutinis skaitmuo (paskutiniai skaitmenys), pavyzdžiui, skaičių 367 galima išskaidytidviem būdais: a) 3|67, čia 3 – šaka, 67 – lapas; b) 36|7, čia 36 – šaka, 7- lapas.3.21 p a v y z d y s. Tarkime, kad gavome tokią diagramą:3|2 0 1 45|5 6 3 2 97|1 0 4 3 6 710|5 4Iš diagramos matome, kad pasirodė tokios kintamojo reikšmės: 32, 30, 31, 34, 55, 56ir t.t.Diagramą medį galima nubraižyti su procedūra UNIVARIATE, reikia nurodytipasirinktį PLOTS.3.22 p a v y z d y s. Tarkime, kad sukūrėme lentelę su tokiu DATA žingsniu:DATA Duomenys;INPUT x @@;DATALINES;11 12 15 28 25 23 13 22 31 16 21 18; RUN;PROC UNIVARIATE DATA=Duomenys PLOTS;VAR x; RUN;90

Output lange gauname diagramą, pavaizduotą 3.12 paveiksle.3.12 pav. Diagrama medisIš diagramos matome, kad kintamasis x įgijo tokias reikšmes: 11, 12, 13, 15, 16, 18,21, 22, 23, 25, 28, 31.3.3 HistogramaHistograma (histogram) – empirinis tankio analogas. Ji skiriasi nuo stulpelių diagramostuo, kad histogramoje dažnį charakterizuoja stulpelio plotas, o ne stulpelių aukštis.Histograma braižoma tolydiems kintamiesiems. Duomenys yra sugrupuojami į intervalus.Knygoje [1] intervalų skaičių rekomenduojama pasirinkti taip: intervalų skaičius k=5, kaistebėjimų skaičius n ≤ 25 ir k ≈ n,kai n>25. Taip pat galima naudotis Sturgeso formule:k ≈ 1+3.22ln n.Pasirinkę intervalų skaičių, apskaičiuojame grupavimo intervalo ilgį:h = ( xmax− xmin) / k,čia xmax- maksimali analizuojamo kintamojo reikšmė, o xmin-minimali. Suskaičiuojame kiek reikšmių pateko į kiekvieną intervalą, t.y. nagrinėjameintervalą [ xmin, xmin+h), suskaičiuojame kiek kintamojo x reikšmių pateko į šį intervalą;nagrinėjame intervalą [ xmin+h, xmin+2h], suskaičiuojame kiek kintamojo x reikšmių pateko įšį intervalą ir t.t. Braižome stulpelius, kurių plotis lygus intervalo ilgiui h, o j-tojo stulpelioaukštis p j/ h,čia pjyra į j-ąjį intervalą patekusių reikšmių skaičius padalintas iš visųreikšmių skaičiaus, t.y. santykinis dažnis. Taigi, j-tojo stulpelio plotas yra pj. 3.13 pav. yraschematiškai pavaizduotas empirinis tankio analogasˆ nif ( x)= , x ∈ I ,čia Iiyra i-tasis intervalas,ilgis, n – stebėjimų skaičius.ninhn - reikšmių, patekusių į i-tąjį intervalą skaičius, h – intervaloi3.13 pav. HistogramaHistogramą galima nubraižyti su procedūra UNIVARIATE. Pateiksime pavyzdį(žr.[9]).91

3.23 p a v y z d y s.DATA Duomenys;DROP i;LABEL n_x='Normalusis atsitiktinis dydis'e_x ='Exponentinis atsitiktinis dydis';DO i=1 TO 200;n_x=2*normal(0)+10;e_x=ranexp(0);OUTPUT;END;RUN;PROC UNIVARIATE DATA=Duomenys NOPRINT;VAR n_x;HISTOGRAM n_x / NORMAL(NOPRINT) CBARLINE=GREY;RUN;PROC UNIVARIATE DATA=Duomenys NOPRINT;VAR e_x;HISTOGRAM /EXP(FILL l=3) CFILL=YELLOWMIDPOINTS=.05 TO 5.55 BY .25;RUN;Pirmosios procedūros UNIVARIATE rezultatasAntrosios procedūros UNIVARIATE rezultatas3.14 pav. HistogramosPaaiškinimai:1) pasirinktis NOPRINT procedūros UNIVARIATE PROC sakinyje nurodo nespausdintistatistikų lentelių;2) VAR sakinyje nurodome analizuojamą kintamąjį;3) HISTOGRAM sakinyje nurodome analizuojamą kintamąjį;4) HISTOGRAM sakinyje po “/” galime nurodyti įvairias pasirinktis; NORMAL reiškia,kad histogramą norime palyginti su normalaus skirstinio tankiu; EXP, kad norimepalyginti su eksponentinio skirstinio tankiu (kiti galimi skirstiniai: beta, gamma,lognormal, weibull, žr. [9]); toliau skliausteliuose galime nurodyti tankio kreivėspasirinktis: NOPRINT – braižyti tik grafiką (jei nenurodysime spausdinssuderinamumo kriterijus); FILL – nurodo nuspalvinti plotą po tankio kreive su spalvanurodyta su CFILL=spalva pasirinktimi; COLOR=spalva nurodome tankio kreivėsspalvą; L= nurodome tankio kreivės tipą; W= nurodome tankio kreivės storį;5) toliau (po skliaustų) galime nurodyti histogramos pasirinktis: CBARLNE=spalvanurodome histogramos stulpelių linijų spalvą; MIDPOINTS=”nuo” TO “iki” BY“žingsnis” nurodome histogramos stulpelių vidurio taškus; CFILL=spalvahistogramos stulpelių spalva arba spalva, kuria nuspalvinamas plotas po tankio kreive,kai nurodome FILL skliaustuose po skirstinį identifikuojančio žodžio.P a s t a b a. Jei po HISTOGRAM nurodome tik kintamąjį, tai braižys tik histogramą,nelygins su tankiu.92

Jeigu procedūroje UNIVARIATE nurodome CLASS sakinį, tai braižomos palyginamosioshistogramos (po vieną histogramą kiekvienai po CLASS nurodyto kintamojoreikšmei). Pateiksime pavyzdį.3.24 p a v y z d y s. Tarkime, kad turime tokius pačius duomenis kaip 3.7 pavyzdyje(kineskopų parametrų matavimai; lentelė „Kineskopai“). Nubraižysime kintamojo i_rpalyginamąsias histogramas trečiam ir ketvirtam paletui (po vieną histogramą kiekvienampaletui).PROC UNIVARIATE DATA=Kineskopai;VAR i_r;CLASS paleto_nr;HISTOGRAM i_r;WHERE paleto_nr=3 or paleto_nr=4;RUN;Gautos histogramos pateiktos 3.15 paveiksle.3.15 pav. Palyginamosios histogramos3.4. Tikimybinės kreivės grafikasTikimybinės kreivės grafikas skirtas palyginti empirinę pasiskirstymo fukciją suteorine. Ašys transformuojamos taip, kad teorinė pasiskirstymo funkcija transformuojama įtiesę. Jei taškai grafike išsidėstę apie tiesę, tai galime teigti, kad duomenys gauti stebintatsitiktinį dydį, kurio skirstinys yra tas, su kuriuo lyginome.3.25 p a v y z d y s.DATA Duomenys;DROP i;LABEL n_x='Normalusis atsitiktinis dydis';DO i=1 TO 200;n_x=2*normal(0)+10;OUTPUT;END;RUN;GOPTIONS HTITLE=1 HTEXT=1 FTEXT=swissb FTITLE=swissb;SYMBOL VALUE=star;PROC UNIVARIATE DATA=Duomenys NOPRINT;VAR n_x;PROBPLOT n_x /NORMAL(MU=est SIGMA=est);TITLE 'Pavyzdys, X~N(10,4)';RUN;Gautas tikimybinės kreivės grafikas pateiktas 3.16 paveiksle. Paaiškinimai:1) Globalioje komandoje GOPTIONS panaudoti HTITLE ir HTEXT apibrėžia šriftodydį; FTITLE ir FTEXT - šrifto tipą;93

2) SYMBOL sakinyje panaudotas VALUE=star nurodo kokie simboliai braižomi grafike(pagal nutylėjimą “+”; kadangi nurodėme „star, tai bus žvaigždutės“);3) PROBPLOT sakinyje reikia nurodyti su kokiu skirstiniu norime palyginti, pavyzdžiui,NORMAL(mu=est sigma=est) – normalusis skirstinys, LOGNORMAL(sigma=est) –lognormalusis skirstinys ir pan.3.16 pav. Tikimybinės kreivės grafikas3.5. Sklaidos diagramaSklaidos diagramos skirtos pastebėti sąryšį tarp dviejų kintamųjų. Sklaidos diagramągalima nubraižyti su SAS/BASE procedūra PLOT arba SAS/GRAPH procedūra GPLOT. Suprocedūra GPLOT galima nubraižyti aukštesnės kokybės grafikus (spalvoti, daugiau pasirinkčių).Iš pradžių aprašysime kaip nubraižyti sklaidos diagramą su procedūra PLOT. Sintaksė:PROC PLOT DATA=lentelė;PLOT kintamieji / pasirinktys;RUN;Kintamuosius galima nurodyti trimis būdais:a) kintamasis1*kintamasis2;b) kintamasis1*kintamasis2=‘simbolis‘;c) kintamasis1*kintamasis2=kintamasis3;čia kintamojo1 reikšmės atidedamos vertikalioje ašyje, kintamojo2 reikšmės – horizontaliojeašyje. Atveju a) taškai žymimi raide „A“, jei du taškai sutampa, tai raide „B“, jei trys taškaisutampa – raide „C“ ir t.t. Atveju b) visi taškai žymimi nurodytu simboliu. Atveju c) taškasžymimas nurodyto kintamojo (kintamasis3) atitinkamo stebėjimo reikšmės pirmąja raide;jeigu keli taškai sutampa, tai bus pažymėtas pačio pirmo (iš sutampančių) reikšme ir busparašyta pastaba, kad yra paslėptų stebėjimų.Galima nurodyti kelis PLOT sakinius arba kelis kintamųjų sąrašus, tada bus braižomikeli atskiri grafikai, pavyzdžiui, plot k1*k2 k3*k4; gausime du grafikus.PLOT sakinyje galima nurodyti tokias pasirinktis:VAXIS=reikšmių_sąrašas apibrėžia vertikalios ašies gradaciją, pavyzdžiui,VAXIS=10 20 30 40 (arba VAXIS=10 TO 40 BY 10);HAXIS=reikšmių_sąrašas apibrėžia horizontalios ašies gradaciją, pavyzdžiui,HAXIS=5 TO 15 (pagal nutylėjimą žingsnis 1);VREF=reikšmių_sąrašas nurodo nubrėžti horizontalias linijas nurodytoms reikšmėms,pavyzdžiui, VREF=5;VREF=reikšmių_sąrašas nurodo nubrėžti vertikalias linijas nurodytoms reikšmėms,pavyzdžiui, HREF=6 TO 14 BY 2 brėžia vertikalias linijas horizontalios ašies reikšmėms 6, 8,10, 12, 14;94

OVERLAY nurodo, kad vertikalioje ašyje atidedamos kelių kintamųjų reikšmės (t.y.keli grafikai viename), pavyzdžiui, PLOT y1*x=’A’ y2*x=‘B‘ / OVERLAY.P a s t a b a. Jei nurodome BY sakinį, tai braižys atskirus grafikus stebėjimų grupėms.3.26 p a v y z d y s.DATA duomenys;INPUT x y;DATALINES;1.2 3.42.6 3.01.6 3.81.3 3.53.9 1.62.2 2.5;PROC PLOT DATA=duomenys;PLOT y*x='*'/VREF=1 TO 4; RUN;Šios procedūros rezultatas (žr. 3.17 pav.) yra kintamųjų y ir x sklaidos diagrama;kintamojo y reikšmės atidedamos ant vertikalios ašies, o x – ant horizontalios; nurodėme, kadtaškus žymėtų simboliu “*“; VREF nurodo nubraižyti horizontalias linijas kintamojo yreikšmėms 1, 2, 3, 4.3.17 pav. Kintamųjų x ir y sklaidos diagramaSklaidos diagramas galima braižyti ir su procedūra GPLOT. Pateiksime pavyzdį.3.26 p a v y z d y s (tęsinys). Nubraižysime tų pačių duomenų sklaidos diagramą suprocedūra GPLOT. Editor lange parašome:PROC GPLOT DATA=duomenys;PLOT y*x / VREF=1 TO 4; RUN;Gauta sklaidos diagrama pateikta 3.18 paveiksle.3.18 pav. Sklaidos diagrama95

Pateiksime OVERLAY panaudojimo su procedūra GPLOT pavyzdį.3.27 p a v y z d y s. Editor lange įveskime:DATA duomenys;INPUT x y1 y2;DATALINES;1.2 3.4 4.12.6 3.0 4.51.6 3.8 2.91.3 3.5 3.23.9 1.6 2.52.2 2.5 3.4;RUN;GOPTIONS RESET=(axis, legend, pattern, symbol, title, footnote)INTERPOL=none;SYMBOL1 height=1.5 cv=red value=star;SYMBOL2 height=1.5 cv=green value=circle;AXIS1 color=blue width=2.0 ORDER=(0 to 4 BY 1) MINOR=(NUMBER=4);AXIS2 color=blue width=2.0LABEL=(FONT='Times New Roman' HEIGHT=12pt JUSTIFY=Right 'y1,y2');PROC GPLOT DATA=duomenys;PLOT (y1 y2)*x /overlay HAXIS=AXIS1 VAXIS=AXIS2 FRAMELVREF=1 CVREF=BLACK VREF=2 4;RUN; QUIT;Sakinyje GOPTIONS panaudota komanda RESET atstato išvardintų skliaustuosesakinių pasirinktis į tokias, kokios yra pagal nutylėjimą; INTERPOL=none nurodo, kadsimboliai nejungiami.SYMBOL1 sakinys nurodo kaip pavaizduojamos kintamojo y1 reikšmės, oSYMBOL2 – kintamojo y2 (SYMBOL sakinių turime nurodyti tiek, kiek kintamųjų norimeatidėti ant vertikalios ašies); VALUE nurodo kokiu simboliu bus pavaizduoti taškai grafike(šiame pavyzdyje taškai (x, y1) bus pavaizduoti žvaigždutėmis (star), o taškai (x, y2) –apskritimais (circle)); CV nurodo simbolių spalvą; HEIGHT – simbolių aukštį.AXIS sakiniai apibrėžia koordinačių ašis; šiame pavyzdyje AXIS1 – horizontali ašis,AXIS2 – vertikali ašis; COLOR nurodo ašies spalvą, WIDTH – linijos storį, ORDER – kaipsunumeruotos reikšmės ant ašies, MINOR – kiek mažų brūkšnelių tarp reikšmių ant ašies;LABEL – aprašo koordinačių ašies žymę.Procedūros GPLOT sakinyje PLOT nurodėme, kad kintamųjų y1, y2 reikšmėsatidedamos ant vertikalios ašies, o x – ant horizontalios; FRAME – nurodo braižyti rėmelįapie grafiką; VREF kokioms kintamojo, atidėto vertikalioje ašyje, reikšmėms braižomoshorizontalios linijos, CVREF – linijų spalva, LVREF – linijos tipas.Gautas grafikas pateiktas 3.19 paveiksle.3.19 pav. Sklaidos diagrama96

3.6. Linijinė diagramaLinijinės diagramos naudojamos, kai norime pavaizduoti kintamųjų (kintamojo)kitimą kito kintamojo atžvilgiu. Dažniausiai naudojamos laiko eilutėms. Galima palygintikelias laiko eilutes.Linijines diagramas galima nubraižyti su procedūra GPLOT (žr.3.5 skyrelį). Reikianurodyti, kad sujungtų taškus. Pateiksime pavyzdį.3.28 p a v y z d y s.DATA duomenys;INPUT metai parduota_1 parduota_2;DATALINES;1995 290 2601996 301 2901997 305 3001998 309 3151999 315 3002000 310 3052001 301 3102002 305 3002003 310 3152004 315 320;RUN;GOPTIONS RESET=(axis, legend, pattern, symbol, title, footnote)INTERPOL=JOIN;SYMBOL1 height=1 cv=red value=circle;SYMBOL2 height=1 cv=green value=circle;PROC GPLOT DATA=duomenys;PLOT (parduota_1 parduota_2)*metai /overlay FRAMELVREF=1 CVREF=BLACK VREF=270 290 310;RUN; QUIT;INTERPOL=JOIN nurodo, kad taškai sujungiami atkarpomis.3.20 pav. Linijinė diagramaPirmosios procedūros GPLOT rezultatas pateiktas 3.20 paveiksle. Iš diagramosmatome kaip keičiasi kintamojo „parduota_1“ reikšmės priklausomai nuo kintamojo „metai“reikšmių.Antrosios procedūros GPLOT rezultatas pateiktas 3.21 paveiksle. Grafike pavaizduotosdvi laiko eilutės.97

3.21 pav. Linijinė diagrama3.7. Skritulinė diagramaSkritulinė diagrama naudojama, kai kintamasis įgyja nedaug reikšmių. Skritulinėsdiagramos vaizdžiai atspindi dažnių skirstinį tarp kategorijų. Skritulys atitinka visąpopuliaciją (100%), o išpjovos – kategorijas, proporcingai jų santykiniam dažniui. Skritulinėsdiagramos nevaizdžios, kai yra daug dalių ir dalys mažos.Skritulinės diagramos braižomos su SAS procedūra GCHART. Sintaksė:PROC CHART DATA=lentelė;PIE kintamieji / pasirinktys;RUN;čia lentelė – duomenų lentelės vardas; kiekvienam nurodytam kintamajam braižoma atskiradiagrama. Pilną pasirinkčių, naudojamų PIE sakinyje, sąrašą galima pasižiūrėti pagrindiniamemeniu pasirinkus Help→SAS Help and Documentation, čia pateiksime tik keletą iš jų:TYPE =statistika nurodo kokia skaitinė charakteristika bus pavaizduota diagramoje,čia statistika gali būti: FREQ (dažnis), PERCENT (procentinis dažnis), MEAN (vidurkis),SUM (suma); MEAN ir SUM galima naudoti tik tada, kai panaudota SUMVAR=kintamasispasirinktis.SUMVAR=kintamasis, čia kintamasis, kurio reikšmės sumuojamos arba skaičiuojamasreikšmių vidurkis.MISSING - praleisti stebėjimai pavaizduojami atskira išpjova.Pagal nutylėjimą tariama, kad skaitinio tipo kintamasis yra tolydus ir procedūrasugrupuoja duomenis į intervalus. Jei skaitinio tipo kintamasis įgyja tik keletą reikšmių irnorime atskiros išpjovos kiekvienai reikšmei, tai nurodome pasirinktį DISCRETE.Kaip duomenis sugrupuoti į intervalus galima nurodyti su MIDPOINTS=reikšmės, čiareikšmės, tai grupavimo intervalo vidurio taškai (išdėstyti didėjančia tvarka) arba LEVELS=n,čia n – išpjovų skaičius.GROUP=kintamasis, sugrupuoja stebėjimus į grupes pagal nurodyto kintamojoreikšmes ir braižoma atskira diagrama kiekvienai stebėjimų grupei.SUBGROUP=kintamasis, diagrama padalinama į žiedus pagal nurodyto kintamojoreikšmes.EXPLODE=reikšmių_sąrašas, atitraukia atitinkamas išpjovas nuo skritulio centro, čiareikšmių_sąrašas yra sudarytas iš kai kurių braižomo kintamojo reikšmių (jei kiekvienaireikšmei braižoma atskira išpjova) arba kai kurių grupavimo intervalo vidurio taškų (jeiduomenys grupuojami).OTHER=procentas, nurodome kokias reikšmes apjungti į išpjovą „Kiti“; įtraukiamostos, kurioms skaičiuojamos charakteristikos reikšmės yra mažesnės arba lygios nurodytam98

procentui; pagal nutylėjimą 4%; su OTHERLABEL=‘simboliai‘ galime nurodyti kaipvadinsis išpjova.PERCENT=ARROW | INSIDE | NONE | OUTSIDE nurodome kurioje vietojespausdinamas procentas, kurį užima išpjova. Pagal nutylėjimą NONE (nespausdinamas). 3.6pav. parodyta kurioje vietoje spausdinama priklausomai nuo PERCENT pasirinkties reikšmių.3.22 pav. Užrašų išdėstymo variantaiSLICE=ARROW | INSIDE | NONE | OUTSIDE nurodome kurioje vietojespausdinamos analizuojamo kintamojo reikšmė. Pagal nutylėjimą OUTSIDE.VALUE=ARROW | INSIDE | NONE | OUTSIDE nurodome kurioje vietojespausdinamos braižomos diagramoje statistikos reikšmės. Pagal nutylėjimą OUTSIDE.Galima nurodyti FREQ=kintamasis pasirinktį; čia kintamojo reikšmės nurodostebėjimo dažnį. Jei nenurodome, tai kiekvieno stebėjimo dažnis yra lygus 1. Jei FREQkintamojo reikšmės nėra sveiki skaičiai, tai trupmeninė dalis yra atmetama.3.29 p a v y z d y s. Editor lange įveskime:DATA duom;INPUT x $ @@;DATALINES;a a b c b b c b b b . . d e b b a a a a c c;RUN;PROC GCHART DATA=duom;PIE x;RUN; QUIT;PROC GCHART DATA=duom;PIE x / TYPE=PERCENT MISSING;RUN; QUIT;PROC GCHART DATA=duom;PIE x / TYPE=PERCENT EXPLODE='a';RUN; QUIT;PROC GCHART DATA=duom;PIE x/PERCENT=INSIDE;RUN; QUIT;Gautos skritulinės diagramos pateiktos 3.23 paveiksle.Paaiškinsime skritulines diagramas, pateiktas 3.23 paveiksle. Pirmojoje skritulinėjediagramoje yra pateikti kintamojo x dažniai (reikšmės pasikartojimų skaičius), praleististebėjimai pagal nutylėjimą neįtraukiami į diagramą. Antrojoje skritulinėje diagramoje yrapateikti kintamojo x procentiniai dažniai (pavyzdžiui, kintamojo x reikšmės „a“ procentinisdažnis gaunamas taip: ( n a/ n) *100% = (6 / 22) *100% ≈ 27.27%,čia na- reikšmės „a“ pasikartojimųskaičius, n – bendras stebėjimų skaičius), nes nurodėme TYPE=PERCENT;nurodėme MISSING, todėl praleisti stebėjimai įtraukiami į diagramą. Trečiojoje skritulinėjediagramoje taip pat yra pateikti kintamojo x procentiniai dažniai, nes nurodėmeTYPE=PERCENT; nurodėme EXPLODE=‘a‘, todėl reikšmę „a“ atitinkanti išpjova yraatitraukta nuo skritulio centro. Ketvirtojoje skritulinėje diagramoje yra pateikti kintamojo x99

dažniai, be to ant išpjovų yra parašyti procentiniai dažniai, nes nurodėmePERCENT=INSIDE.Pirmosios procedūros GCHART rezultatasAntrosios procedūros GCHART rezultatasTrečiosios procedūros GCHART rezultatas3.23 pav. Skritulinės diagramosPateiksime pasirinkties SUMVAR panaudojimo pavyzdį.3.30 p a v y z d y s. Editor lange įveskime:DATA duom1;INPUT x $ y @@;DATALINES;a 5 a 10 b 3 c 2 b 12 b 1 c 9 b 4 b 3 b 1d 4 e 8 b 3 b 3 a 3 a 10 a 3 a 3 c 1 a 2;RUN;PROC GCHART DATA=duom1;PIE x/ SUMVAR=y;RUN; QUIT;PROC GCHART DATA=duom1;PIE x/ SUMVAR=y TYPE=MEAN;RUN; QUIT;Ketvirtosios procedūros GCHART rezultatasGautos diagramos pateiktos 3.24 paveiksle.Paaiškinsime skritulines diagramas, pateiktas 3.24 paveiksle. Pirmojoje skritulinėjediagramoje yra pateiktos kintamojo y reikšmių sumos kiekvienai kintamojo x reikšmei, nesnurodėme SUMVAR pasirinktį. Antrojoje skritulinėje diagramoje yra pateikti kintamojo yreikšmių aritmetiniai vidurkiai, kiekvienai kintamojo x reikšmei, nes nurodėme SUMVAR irTYPE=MEAN.100

Pirmosios procedūros GCHART rezultatasAntrosios procedūros GCHART rezultatas3.24 pav. Kintamojo y sumų ir vidurkių skritulinės diagramos3.31 p a v y z d y s. Sukurkime duomenų lentelę su tokiu Data žingsniu:DATA duom2;INPUT x $ y $ @@; DATALINES;a I a I b I c I b I b I c I b I b I b Ic II c II b II b II a II a II a II a II c II a II; RUN;a) PROC GCHART DATA=duom2;PIE x/ GROUP=y across=2 percent=inside;RUN; QUIT;Šios procedūros GCHART rezultatas pateiktas 3.25 paveiksle; nurodėme GROUP=y,todėl braižoma atskira skritulinė diagrama kiekvienai kintamojo y reikšmei (šiame pavyzdyjekintamasis y įgyja tik dvi reikšmes, todėl braižomos dvi skritulinės diagramos); ACROSS=2nurodo, kad vienoje eilutėje turi būti spausdinamos dvi skritulinės diagramos;PERCENT=INSIDE nurodo, kad ant išpjovų turi būti parašyti procentiniai dažniai.b) PROC GCHART DATA=duom2;PIE x/ SUBGROUP=y percent=inside;RUN; QUIT;3.25 pav. Skritulinės diagramosŠios procedūros GCHART rezultatas pateiktas 3.26 paveiksle; nurodėmeSUBGROUP=y, todėl skritulys yra padalinamas į žiedus, žiedų yra tiek, kiek yra skirtingųkintamojo y reikšmių (šiame pavyzdyje kintamasis y įgyja tik dvi reikšmes, todėl yra dužiedai); kiekvienas žiedas suskirstomas į sektorius, kurių dydžiai proporcingi kintamojo xreikšmių dažniams (šiame pavyzdyje kintamasis x įgyja tris reikšmes, todėl kiekvienas žiedaspadalinamas į tris dalis); PERCENT=INSIDE nurodo, kad ant išpjovų turi būti parašytiprocentiniai dažniai.101

3.26 pav. Skritulinė diagrama3.8. Stačiakampė diagramaStačiakampė diagrama (Box and Whiskers Plot) padeda nustatyti išskirtis, simetriškumą.Šioje diagramoje yra atidedamas vidurkis, mediana, pirmas ir trečias kvartiliai.Schematiškai stačiakampė diagrama pavaizduota 3.27 pav. Brėžiamas stačiakampis, kurioviršutinis kraštas atitinka viršutinį (trečią) kvartilį (Q3), apatinis stačiakampio kraštas atitinkaapatinį (pirmą) kvartilį (Q1), stačiakampio aukštis lygus tarpkvartiliniam pločiui (Q3-Q1).Horizontali linija viduje stačiakampio žymi medianą, pliuso ženklas (+) žymi vidurkį. Nuostačiakampio kraštų brėžiamos atkarpos: pirmoji atkarpa (į apačią nuo Q1) jungia Q1 sumažiausia reikšme, nutolusia ne daugiau kaip 1.5 tarpkvartilinio pločio nuo Q1; antrojiatkarpa (į viršų nuo Q3) jungia Q3 su didžiausia reikšme, nutolusia ne daugiau kaip 1.5tarpkvartilinio pločio nuo Q3. Reikšmės, esančios už atkarpų, yra išskirtys, jos žymimosatskirais simboliais. Jei reikšmė yra tarp 1.5 ir 3 tarpkvartilinių pločių nuo viršutinio arbaapatinio stačiakampio krašto, tai žymima nuliu (0), t.y. sąlyginė išskirtis; žymima žvaigždute(*), jei reikšmė nutolusi daugiau negu per 3 tarpkvartilinius pločius (išskirtis).3.27 pav. Stačiakampė diagramaStačiakampę diagrama galima nubraižyti procedūroje UNIVARIATE nurodžiuspasirinktį PLOTS. Jei nurodome BY sakinį, tai braižomos palyginamosios stačiakampėsdiagramos.102

3.32 p a v y z d y s.DATA duom;INPUT x @@;DATALINES;480 371 397 360 550 250 375 429 482 336 440 451 280 353 404368 373 520 446 385 433 426 450 407 412 645 366 329 700;RUN;PROC UNIVARIATE DATA=duom PLOTS;VAR x;RUN;Output lange gausime stačiakampę diagramą, pavaizduotą 3.28 pav.3.28 pav. Stačiakampė diagrama (dešinėje), nubraižyta su procedūra UNIVARIATEJeigu turime SAS/STAT modulį, tai stačiakampę diagramą galime nubraižyti suprocedūra BOXPLOT.3.32 p a v y z d y s (tęsinys). Editor lange įveskime:DATA duom; /* pertvarkome lentelę */SET duom;pag=1;RUN;PROC BOXPLOT DATA=duom; /* braižome stačiakampę diagramą*/PLOT x*pag / BOXSTYLE=schematic;RUN; QUIT;PROC BOXPLOT DATA=duom; /* braižome stačiakampę diagramą*/PLOT x*pag / BOXSTYLE=skeletal;RUN; QUIT;Gausime kintamojo x stačiakampes diagramas, pavaizduotas 3.29 pav.Pirmosios procedūros BOXPLOT rezultatas3.29 pav. Stačiakampės diagramosAntrosios procedūros BOXPLOT rezultatas103

BOXSTYLE=schematic nurodo, kad braižoma tokio tipo diagrama kaip pavaizduota3.27 paveiksle; kai nurodome BOXSTYLE=skeletal, tai nuo stačiakampio kraštų brėžiamosatkarpos jungia: Q1 su mažiausia reikšme (apatinė atkarpa) ir Q3 su didžiausia reikšme(viršutinė atkarpa).Su procedūra BOXPLOT galime nubraižyti palyginamąsias stačiakampes diagramas.3.33 p a v y z d y s. Tarkime, kad turime tokius pačius duomenis kaip 3.7 pavyzdyje(duomenų lentelė „Kineskopai“, kurioje yra 200 kineskopų (4 paletai po 50 kineskopų)parametrų matavimai dviejose gamybinėse operacijos (I testeris ir II testeris)) Nubraižykimekintamojo i_r (spindulio R srovės stiprumas II testeryje) palyginamąsias stačiakampesdiagramas (grupuojantis kintamasis paleto numeris (paleto_nr). Editor lange įveskime:PROC BOXPLOT DATA=Kineskopai;PLOT i_r*paleto_nr / BOXSTYLE=schematic;RUN; QUIT;Gauname stačiakampes diagramas, pavaizduotas 3.30 paveiksle. Braižoma atskirastačiakampė diagrama kiekvienam paletui.3.29 pav. Palyginamosios diagramos (atskira diagrama kiekvienam paletui)104

IV skyrius. TAŠKINIAI PARAMETRŲ ĮVERČIAI IRPASIKLIAUTINIEJI INTERVALAITrečiame skyriuje aptarėme aprašomosios statistikos metodus, t.y. duomenų sisteminimoir jų pateikimo metodus. Šiame ir tolesniuose skyreliuose nagrinėsime matematinėsstatistikos metodus, t.y. parametrų vertinimo ir hipotezių tikrinimo uždavinius.Pirmame skyrelyje pateikiamos pagrindinės matematinės statistikos sąvokos:statistika, pilna, pakankama statistika; taškiniai parametrų įverčiai (nepaslinkti, suderinti,minimalios dispersijos); įverčių radimo metodai; pasikliautinieji parametrų intervalai.Antrajame skyrelyje pateikiamos taškinių parametrų įverčių ir pasikliautinųjųintervalų išraiškos bei kaip juos apskaičiuoti su SAS kai kurių skirstinių atveju (įverčiųišraiškas šiame skyriuje nepaminėtiems skirstiniams žr., pavyzdžiui, [5]). SAS yra realizuotinormalaus skirstinio parametrų vertinimo algoritmai, binominio skirstinio sėkmės tikimybėsvertinimo algoritmai, vertinant kitų skirstinių parametrus reikia išraiškas patiemsužprogramuoti. Tai nesunku atlikti naudojant pirmame ir antrame skyriuje aprašytaskomandas.1. Pagrindinės sąvokos ir apibrėžimaiPradžioje apibrėšime kai kurias matematinės statistikos sąvokas. Generaline aibe arbapopuliacija vadinama tiriamų objektų aibė. Populiacija gali būti baigtinė arba begalinė.Kadangi dažnai visos aibės ištirti negalime arba toks tyrimas reikalauja daug laiko ir lėšų, taiiš populiacijos paimama dalis objektų ir juos analizuojant stengiamasi apibūdinti populiacijostikimybinį skirstinį. Matematinės statistikos metodai taikytini tik tada, kai stebėjimo rezultataiyra reprezentatyvūs, t.y. teisingai atspindi galimų reikšmių proporcijas generalinėje aibėje.Trumpai paminėsime kai kurias toliau naudojamas matematinės statistikos sąvokas.Tarkime, kad atliekant tam tikrą eksperimentą gaunamas stebėjimų vektoriusx = x , x ,..., x ) , kuris yra tam tikro a.v. X = X , X ,..., X ) realizacija. Atsitiktinį vektorių(1 2 n( X1,X2,...,Xn)x = ( x1,x2,...,xn(1 2 nX =vadinsime tūrio n atsitiktine imtimi, o jo konkrečiame eksperimente įgytąreikšmę ) ,- atsitiktinės imties realizacija. Parametriniuose matematinėsstatistikos modeliuose priimama prielaida, kad a.v. X tikimybinio skirstinio pavidalas yražinomas, tačiau jis priklauso nuo nežinomo parametro θ , t.y. tariama, kad a.v. X skirstinyspriklauso skirstinių šeimai { P , θ ∈ Θ}.θDiskrečiuoju atveju skirstinius Pθgalima vienareikšmiškai nusakyti tikimybėmisp ( x)= P{X = x | θ},θ ∈ Θ,x ∈ X ,(4.1)θnX ⊂ R yra a.v. X įgyjamų reikšmių aibė.čiaAbsoliučiai tolydžiu atveju skirstinius Pθgalima nusakyti n-mate pasiskirstymofunkcija F ( x | θ)arba tankio funkcija f ( x | θ).Nepriklausomą nuo nežinomo parametro θ imties funkciją T = T (X)== T ( X1,...,Xn)vadiname statistika.Parametro γ = γ (θ)taškiniu įverčiu vadiname nepriklausomą nuo nežinomoparametro θ imties funkciją (statistiką), kurią žymėsime ˆ γ = ˆ( γ X)= γ ( X ,..., X ) . Funkcijąˆ1 nγˆ galima parinkti įvairiai. Todėl yra kriterijai, kurie leidžia parinkti tam tikra prasme geresniusįverčius.Įvertį γˆ vadiname suderintu, jeigu didėjant imties dydžiui jis artėja prie tikrosparametro reikšmės γ , t.y. kiekvienam fiksuotam ε>0P {| ( ˆ γ − γ | > ε}→ 0, kai n → ∞.105

Įvertį γˆ vadiname nepaslinktuoju (be poslinkio), jeigu jo vidurkis visoms parametroθ ∈ Θ reikšmėms sutampa su vertinamu parametru γ = γ (θ):E( ˆ γ | θ)≡ γ ( θ),∀θ∈ Θ.(4.2)Nepaslinktųjų įverčių irgi gali būti daug. Išrinkime iš jų tarpo tokį, kuris turimažiausią išsibarstymą. Įvertį ˆ γ * vadiname nepaslinktuoju minimalios dispersijos (NMD)įverčiu, jeigu jis tenkina (4.2) ir jeigumin V(ˆ γ | θ)= V(ˆ*| γ θ),∀θ∈Θ.(4.3)Įverčių radimui yra svarbi pakankamosios statistikos sąvoka. Statistiką T = T (X)vadiname šeimos { Pθ,θ ∈ Θ}arba parametro θ ∈ Θ pakankamąja statistika, jeigu sąlyginisa.v. X skirstinys, kai T = t yra fiksuota, nepriklauso nuo nežinomo parametro. Kitaip sakant,žinant pakankamąją statistiką T imtyje nėra jokios papildomos informacijos apie nežinomąparametrą θ ∈ Θ . Pakankamoji statistika įgalina redukuoti imtį, t.y. sumažinti imtiesmatavimą, neprarandant informacijos. Tą faktą, kad ieškant NMD įverčių pakanka apsiribotifunkcijomis nuo pakankamos statistikos, patvirtina pateikiama teorema.T e o r e m a. (Rao-Blekuelo). Tarkime, kad egzistuoja parametro γ = γ (θ)nepaslinktasįvertis γˆ ir T = T (X)yra pakankamoji parametro θ statistika. Tada egzistuoja kitasnepaslinktas įvertis~ γ =~ γ ( T ), kuris yra tik pakankamos statistikos T funkcija, ir kuris neblogesnis dispersijos minimizavimo prasme:V( ~ γ | θ)≤ V(ˆ γ | θ),∀θ∈ Θ.(4.4)NMD įverčių radimą žymiai palengvina pakankamos statistikos T savybė vadinamajos pilnumu. Pakankamoji statistika T vadinama pilnąja, jeigu egzistuoja vienintelė Tfunkcija tapatingai lygi 0, kuri yra nepaslinktas nulio įvertis, t.y. iš sąlygosE( ϕ ( T ) | θ)≡ 0, ∀θ∈ Θ,(4.5)išplaukia, kad ϕ ( t)= 0.Teisingas toks tvirtinimas.T e o r e m a. Jeigu T yra pilnoji ir pakankamoji parametro θ statistika ir egzistuojanepaslinktas parametro γ = γ (θ)įvertis~ γ =~ γ ( T ), kuris yra funkcija tik nuo statistikos T, taijis yra vienintelis.Tokiu būdu, bet kuri pilnos ir pakankamos statistikos T funkcija φ (T ) yra savovidurkio E( φ ( T ) | θ)NMD įvertis. Iš čia galime suformuluoti tokį NMD įverčių radimometodą. Jeigu T yra pakankamoji ir pilnoji parametro θ statistika, tai norint rasti parametroγ = γ (θ) NMD įvertį, tereikia išspręsti funkcionalinę lygtįE( φ(T ) | θ)≡ γ ( θ),∀θ∈Θ,(4.6)funkcijos φ (T ) atžvilgiu. Tada~ γ ( T ) = φ(T ) yra parametro γ = γ (θ)NMD įvertis.Šį metodą galime naudoti, jeigu egzistuoja pilna ir pakankama statistika, tačiaupilnosios ir pakankamos statistikos ne visada egzistuoja.Aptarsime kitus įverčių radimo metodus.Momentų metodas. Tai paprasčiausias ir istoriškai pirmasis taškinių įverčių radimometodas.Tarkime, kad X = X ,..., X ) yra paprasčiausioji atsitiktinė imtis, gauta stebint a.d.X , t.y.X ,..., X(1 n1 nyra vienodai pasiskirstę a.d., turintieji tą patį skirstinį, kaip ir a.d. X. Tegua.d. X skirstinys priklauso šeimai { P , θ ∈ Θ}, priklausančiai nuo k-mačio parametroθ106

jθ ( θ 1,..., θ ) ∈ Θ.Pažymėkime α = α ( θ 1,..., θ ) = EX, j = 1,2,..., a.d. X j-tąjį pradinį=kmomentą. Šių momentų empiriniai analogai (įverčiai) yrajajj1=nn∑i=1Xji107k,j = 1,2,...(4.7)Pirmasis momentas a1(aritmetinis vidurkis) paprastai žymimas X . Empiriniųmomentų (4.7) pirmųjų momentų išraiškos yra tokios:2α2j−αjαj + j′−αjαj′E aj= αj,Vaj= , cov( aj,aj′) =. (4.8)nnKadangi momentai (4.7) yra vienodai pasiskirsčiusių nepriklausomų a.d. sumos, taijoms bendromis sąlygomis galioja centrinė ribinė teorema ir jų skirstinius prie pakankamaididelių n galima apytiksliai aproksimuoti normaliuoju skirstiniunaj−αα 2−αjj2j⇒ ZPagal momentų metodą teorinius momentusαjprilyginame atitinkamiems empiriniamsmomentamsaj. Gauname lygčių sistemą∼ N ( 0,1), n → ∞,j = 1,2,...(4.9)⎧a1= α1= α1(θ1,...,θk),⎪a2= α2= α2( θ1,...,θk),⎨⎪L⎪⎩ak= αk= αk( θ1,...,θk).Šios lygčių sistemos sprendiniai ˆ θj, j = 1,2,..., k,parametrų θ1, θ2,...,θkatžvilgiu yravadinami momentų metodu gautais įverčiais. Jie yra empirinių momentų (4.7) funkcijosˆ θ= ˆ θ ( a ,..., a),1,2,...,j j 1 kj = kŠių įverčių savybes galime gauti iš žemiau pateikiamo tvirtinimo apie empiriniųmomentų funkcijas.T e o r e m a. Tegu H = H ( a 1,..., a k) yra empirinių momentų a1,...,akfunkcijatenkinanti sąlygą: ji yra tolydi ir turi tolydžias pirmos ir antros eilės dalines išvestines savoargumentų atžvilgiu taško ( α 1,..., α k) aplinkoje. Tada funkcija H (kaip ir atskiras josargumentas) tenkina asimptotinio normalumo sąlygąčia.H Hn− 0 ⇒ Z ∼ N ( 0,1), n → ∞ ,(4.10)BHE H ∼ H = H ( α 1,..., α ),0 k2 kBH2V H ∼ = ∑ HjV aj+ ∑ HjHj′cov( aj, aj′),nH∂H∂aj=1j≠j′j===j|( a), 1,2,..., .1 = α 1 ,..., a k αj kkImdami vietoje H kurį nors įvertį iš (4.10) gauname

ˆ θj−θjnBˆ θj⇒ Z ∼ N ( 0,1), n → ∞,j = 1,2,..., k.(4.11)Maksimalaus tikėtinumo metodas. Įrašykime į skirstinį (4.1) vietoje argumentox = ( x 1,..., x n) atsitiktinę imtį X = ( X1,...,Xn). Gautąją funkciją vadiname maksimalaustikėtinumo funkcijaL ( θ | X)= p ( X).(4.12)Diskrečiuoju atveju p (x θ) yra tikimybė to, kad a.v. X realizacija yra lygix = ( x 1,..., x n) , kai tikroji parametro reikšmė yra θ . Pastumkime parametrą θ taip, kadtikimybė gauti tą imtį, kurią faktiškai gavome, būtų kuo didesnė, t.y. ieškome labiausiaitikėtinos parametro θ reikšmės. Tai ir yra maksimalaus tikėtinumo metodo esmė.Parametro θ įvertis ~ θ , kuris gaunamas iš sąlygos~max L ( θ | X)= L(θ | X),(4.13)vadinamas maksimalaus tikėtinumo įverčiu. Vietoje (4.13) dažnai yra patogiau maksimizuotifunkcijos L ( θ | X)logaritmą, t.y. ieškoti ~ θ iš sąlygosθ~maxln(L ( θ | X))= maxl(θ | X)= l(θ | X).(4.14)Jeigu funkcijos l ( θ | X)maksimumas pasiekiamas vidiniame srities Θ taške irl ( θ | X)diferencijuojama pagal θ , ,..., 1θ2 θk, tai įvertis ~ θ tenkina maksimalaus tikėtinumolygčių sistemą :∂ln(L(θ | X )) ∂l(θ | X )= = 0,∂θ∂θjjj = 1,2,..., k.(4.15)Gauti iš (4.15) įverčiai tenkina asimptotinio normalumo sąlygą:~θj−θj1⇒ Z ∼ N ( 0,1), n → ∞,j = 1,2,..., k.(4.16)I(θ )jČia I( θ j) yra taip vadinamas Fišerio informacijos kiekis apie parametrą θjimtyjeX = X ,..., X ) :(1 n⎛ ln ( | ) ⎞ ⎛2ln ( | ) ⎞( ) ⎜∂ L θ X⎟ ⎜∂ L θ XI θ= −⎟j= E E.(4.17)2⎝ ∂θj ⎠ ⎝ ∂θj ⎠Funkcijos γ = γ (θ)maksimalaus tikėtinumo įvertis ~ γ yra~ ~γ = γ ( θ), jei ~ θ yraparametro θ maksimalaus tikėtinumo įvertis.Informacijos kiekis apie parametrą γ = γ (θ)(tariame, kad parametras θ yravienmatis) yra gaunamas tokiu būdu( θ )I ( γ ) = I .2( γ ′(θ ))Jeigu egzistuoja pakankama statistika T, tai maksimalaus tikėtinumo įvertis θ ~ yra tikpakankamos statistikos T funkcija. Šia prasme maksimalaus tikėtinumo įverčiai gali turėti2108

privalumą lyginant jį su momentų metodu gautais įverčiais, kurie yra empirinių momentųfunkcijos. Suprantama, kad pastarieji nebūtinai sutampa su pakankamąją statistika.Jeigu L ( θ | X)tenkina gana bendras reguliarumo sąlygas (žr. [5]), tai nepaslinktamparametro θjįverčiui galioja Rao-Kramero nelygybė: įverčio dispersija yra apribota išapačios:1V ˆ θj≥ .(4.18)I(θ )Praktikoje dažniausiai naudojamų skirstinių atveju lygčių sistema, gauta momentųmetodu yra paprastesnė ir lengviau išsprendžiama. Tuo tarpu sistema (4.15) dažnai būnasudėtinga ir ją tenka spręsti artutiniais iteraciniais metodais. Dažnai rekomenduojama elgtistokiu būdu: pradiniame etape rasti įverčius momentų metodu ir panaudoti juos kaip pradinįartinį tikslinant įverčius maksimalaus tikėtinumo metodu.Parametrų pasikliautinieji intervalai. Taškiniai parametrų įverčiai yra atsitiktinėsimties funkcijos, t.y. jie irgi yra atsitiktiniai dydžiai. Todėl įverčių tikslumą galima apibūdintitik tikimybiškai. Pavyzdžiui, negalima tvirtinti, kad sukonstruotas parametro θ įvertis θˆ busnukrypęs nuo tikros parametro reikšmės mažiau už pasirinktą skaičių ε > 0 , o galima kalbėtitik apie tokio įvykio tikimybę:P {| ˆ θ −θ| < ε | θ}> Q,kuri tam tikra prasme apibūdina įverčio tikslumą, jeigu Q yra artimas vienetui.Norint kad surastas įvertis kartu charakterizuotų ir jo tikslumą, greta taškinių įverčiųmatematinėje statistikoje naudojami ir intervaliniai įverčiai (pasikliautinieji intervalai).Tarkime, kad paprasta atsitiktinė dydžio n imtis X = X ,..., X ) yra gauta stebint a.d.109j(1 nX, kurio skirstinys priklauso šeimai { P , θ ∈ Θ}. Pradžioje aptarsime paprastesnį atvejį, kai1θ yra vienmatis parametras.θ∈ Θ ⊂ RParametro θ pasikliautinuoju intervalu su reikšmingumo lygmeniu Q vadiname porąnepriklausančių nuo nežinomų parametrų imties X = X ,..., X ) funkcijų (statistikų), kurias(1 nžymėsime θ = θ(X)ir θ = θ (X), θ ≤ θ . Tikimybę Q, su kuria intervalas ( θ , θ ) uždengiatikrąją parametro reikšmę vadiname intervalo pasikliovimo lygmeniu (pasikliovimo lygmuoparenkamas iš anksto ir, paprastai, imama Q=0,9; 0,95; 0,99 ir pan.):P { θ ≤ θ ≤ θ | θ}≥ Q,∀θ∈ Θ.(4.19)Kai egzistuoja vienmatė pakankamoji statistika T = T (X), tai pakanka nagrinėti tiktokius intervalus, kurių rėžiai yra statistikos T funkcijos.Tegu T yra pakankamoji statistika, o jos pasiskirstymo funkcija H ( t | θ ) yramonotoniškai mažėjanti parametro θ funkcija. Tada pasikliautinojo intervalo su pasikliovimolygmeniu Q rėžiai gaunami iš lygčių1−QH ( T | θ ) = 1−P,H ( T + 0 | θ ) = P,P = .(4.20)2Jeigu H ( t | θ ) yra monotoniškai didėjanti θ funkcija, tada intervalo rėžiai gaunami išlygčiųH ( T + 0 | θ ) = P,H ( T | θ ) = 1−P.(4.21)Kaip ir taškinių įverčių radimo atveju šis metodas nepritaikomas, kai pakankamojistatistika neegzistuoja, arba kai nesugebame rasti jos skirstinio. Jeigu surastas taškinisparametro θ įvertis θˆ , kurio skirstinys asimptotiškai normalus, tai apytikslį pasikliautinąjį

intervalą prie pakankamai didelių n galime rasti naudodami normaliąją aproksimaciją. Teguθˆ yra parametro θ įvertis, kuriam galioja centrinė ribinė teorema (žr., pavyzdžiui, momentųar maksimalaus tikėtinumo metodais rastus įverčius):Tada galime parašyti apytikslę lygybęˆ θ −θ⇒ Z ∼ N ( 0,1), n → ∞.V ˆ θ⎪⎧ˆ θ −θ⎪⎫P ⎨−zα/ 2< < zα/ 2 ⎬ ≈ Q = 1−α,(4.22)⎪⎩ V ˆ θ ⎪⎭čia zαyra standartinio normalaus skirstinio α lygmens kritinė reikšmė.Jeigu vardiklyje po šaknimi parašyta dispersija nepriklauso nuo nežinomo parametro,tai perrašę skliaustuose parašytas nelygybes θ atžvilgiu, gausime jo apytikslį pasikliautinąjįintervalą. Jeigu V θˆ priklauso nuo vienintelio vienmačio parametro θ , tai skliaustuoseparašytas nelygybes irgi kartais galime perrašyti θ atžvilgiu.Kito metodo, kurį naudojant galima iš (4.22) rasti apytikslį pasikliautinąją intervalą,esmė yra ta, kad dispersija V θˆ keičiama jos įverčiu ˆV θˆ . Paprasčiausiu atveju dispersijosV θˆ išraiškoje esantys parametrai tiesiog pakeičiami jų įverčiais. Šiek tiek tikslesnį atsakymągauname, kai pavyksta sukonstruoti dispersijosV θˆ nepaslinktą įvertį.2.Taškinių parametrų įverčių ir pasikliautinųjų intervalų pavyzdžiaiŠiame skyrelyje pateiksime kai kurių tikimybinių skirstinių parametrų taškinių įverčiųir pasikliautinųjų intervalų pavyzdžius (žr. [5]).2.1. Vienmatis normalusis skirstinysTegu imtis X1, X2,..., Xnyra gauta stebint a.d. X, kurio skirstinys yra normalusis su22vidurkiu µ ir dispersija σ , t.y. X ~ N(µ , σ ) .Vidurkio µ NMD įvertis yran1ˆ µ = X = ∑ X i.(4.23)nPraktikoje vidurkis dažniausiai nežinomas, todėl dispersijos ir standartinio nuokrypioįverčius pateiksime tik šiuo atveju (įverčių išraiškas, kai vidurkis žinomas žr. [5]). Dispersijos2σ NMD įvertis, kai vidurkis µ nežinomas yrai=1n2 2 12ˆ σ = s = ∑(X i− X ) .(4.24)n −12Standartinio nuokrypio σ įvertis ˆ σ = σˆ yra paslinktas. Standartinio nuokrypio σNMD įvertį, kai vidurkis nežinomas gauname taip:i=1s2 Γ(n / 2)ˆ σ = , Mn−1=.(4.25)Mn −1Γ((n 1) / 2)n−1 −110

4.1 p a v y z d y s. Modeliuokime a.d. X ~ N(5, 4)dydžio n = 100 imtį:%LET n=100;%LET miu=5;%LET sigma=2;DATA normalusis;DO i=1 TO &n;Y=&miu+&sigma*NORMAL(10);OUTPUT;END;RUN;Apskaičiuokime parametrų taškinius įverčius:PROC MEANS DATA=normalusis MEAN VAR STD;OUTPUT OUT=rezultatas MEAN(Y)=vid_y VAR(Y)=dispers_y STD(Y)=std_y;VAR Y; RUN;Output lange gauname tokį rezultatą:Mean Variance Std Dev5.0332621 3.9820280 1.99550192Taigi, vidurkio µ NMD įvertis (4.23) yra 5.0332621; dispersijos σ NMD įvertis(4.24) yra 3.9820280; standartinio nuokrypio σ įvertis (paslinktas) yra 1.9955019.Apskaičiuokime standartinio nuokrypio σ nepaslinktą įvertį. Editor lange įveskime:DATA std;SET rezultatas;pag=sqrt(2/(&n-1))*gamma(&n/2)/gamma((&n-1)/2);std_nepaslinktas=std_y/pag;KEEP std_nepaslinktas;RUN;Lentelėje „std“ gauname nepaslinktą standartinio nuokrypio įvertį: 2.0005473739.2Kai dispersija σ nežinoma, tai vidurkio µ pasikliautinasis intervalas su pasikliovimolygmeniu Q = 1−αyra:⎛ss ⎞µ , µ ) = ⎜ X − t( 1−α/ 2, n−1), X + t(1−α/ 2, n−1⎟,(4.26)⎝nn ⎠()čia t( 1−α / 2, n−1)- Stjudento skirstinio su n-1 laivės laipsniu (1-α/2)-tasis kvantilis, X ir sapibrėžti (4.23) ir (4.24) atitinkamai.2Kai vidurkis µ nežinomas, tai dispersijos σ pasikliautinasis intervalas su pasikliovimolygmeniu Q = 1−αyra:⎛22( 1) ( 1) ⎞2 2, ) ⎜s n − s n −σ σ = , ⎟,(4.27)2⎝ χ(1−α/ 2, n−1)χ( α / 2, n−1)⎠(2čia t( P,n−1)yra chi-kvadrato skirstinio su n-1 laivės laipsniu P-tasis kvantilis, s apibrėžtas(4.24).22Kadangi σ = σ yra monotoniška σ funkcija, tai standartinio nuokrypiopasikliautinąjį intervalą gauname (4.27) formulės:2 2( σ , σ ) = ⎜⎛σ , σ ⎟⎞.(4.28)⎝ ⎠111

Vidurkio µ pasikliautinąjį intervalą galima apskaičiuoti su SAS procedūra MEANS.Jeigu nurodome CLM, tai apskaičiuos dvipusį vidurkio µ pasikliautinąjį intervalą supasikliovimo lygmeniu Q = 1−α(4.26).Pagal nutylėjimą pasikliovimo lygmuo 95%, t.y. α=0.05. Jeigu norime apskaičiuotipasikliautinąjį intervalą su kitokiu pasikliovimo lygmeniu, tai nurodome ALPHA=α,pavyzdžiui, jei parašysimePROC MEANS DATA=d1 ALPHA=0.1 CLM;VAR x; RUN;tai bus apskaičiuotas dvipusis vidurkio pasikliautinasis intervalas su pasikliovimo lygmeniu0.90.Jeigu nurodome LCLM, tai apskaičiuos apatinį vidurkio pasikliautinojo intervalo rėžį.Vidurkio vienpusio pasikliautinojo intervalo su pasikliovimo lygmeniu (1-α) apatinis rėžisyra:sµ = X − t(1−α, n−1).(4.29)nJeigu nurodome UCLM, tai apskaičiuos viršutinį vidurkio pasikliautinojo intervalorėžį. Vidurkio vienpusio pasikliautinojo intervalo su pasikliovimo lygmeniu (1-α) viršutinisrėžis yra:sµ = X + t(1−α, n−1).(4.30)n4.1 p a v y z d y s (tęsinys). Apskaičiuokime vidurkio pasikliautinąjį intervalą supasikliovimo lygmeniu 0.99. Editor lange parašykime:PROC MEANS DATA=normalusis ALPHA=0.01 MEAN CLM;VAR Y; RUN;Output lange gauname:The MEANS ProcedureAnalysis Variable : YLower 99% Upper 99%Mean CL for Mean CL for Mean5.0332621 4.5091624 5.5573618Vidurkio taškinis įvertis yra 5.0332621, o vidurkio 99% pasikliautinasis intervalas yra(4.5091624, 5.5573618). Jeigu nebūtume nurodę ALPHA=0.01, tai būtų apskaičiuotasvidurkio 95% pasikliautinasis intervalas.Su procedūra UNIVARIATE galima apskaičiuoti vidurkio, dispersijos, standartinionuokrypio ir kvantilių pasikliautinuosius intervalus normaliajam skirstiniui, o taip patkvantilių pasikliautinuosius intervalus, kai skirstinys nėra normalusis. Procedūroje galimanurodyti tokias pasirinktis:ALPHA=α, čia α=1-Q, Q – pasikliovimo lygmuo;CIBASIC ) > vidurkio, standartinio nuokrypio irdispersijos pasikliautinasis intervalas. Tariama, kad duomenų skirstinys normalusis. Šiprielaida didelėms imtims nėra būtina, nes galime naudoti centrinę ribinę teoremą, t.y.aproksimuojame normaliu skirstiniu. Tipas=LOWER | UPPER | TWOSIDED (apatinisvienpusio pasikliautinojo intervalo rėžis | viršutinis vienpusio pasikliautinojo intervalo rėžis |dvipusis pasikliautinasis intervalas; pagal nutylėjimą TWOSIDED).CIPCTLNORMAL < ALPHA = α >) > kvantilių pasikliautiniejiintervalai. Tariama, kad duomenų skirstinys normalusis. Tipas=LOWER | UPPER |TWOSIDED (apatinis vienpusio pasikliautinojo intervalo rėžis | viršutinis vienpusio112

pasikliautinojo intervalo rėžis | dvipusis pasikliautinasis intervalas; pagal nutylėjimąTWOSIDED).CIPCTLDF kvantilių pasikliautinieji intervalai(nereikalaujama, kad duomenų skirstinys normalusis). Tipas=LOWER| UPPER |SYMMETRIC | ASYMMETRIC (apatinis vienpusio pasikliautinojo intervalo rėžis | viršutinispasikliautinojo intervalo rėžis | simetriškas dvipusis pasikliautinasis intervalas | asimetriškasdvipusis pasikliautinasis intervalas; pagal nutylėjimą SYMMETRIC), pavyzdžiui,1) PROC UNIVARIATE data=d1 CIBASIC; apskaičiuos vidurkio, dispersijos irstandartinio nuokrypio dvipusį pasikliautinąjį intervalą su pasikliovimo lygmeniu 0.95.2) PROC UNIVARIATE data=d1 CIBASIC (TYPE=LOWER ALPHA=0.1);apskaičiuos vidurkio, dispersijos ir standartinio nuokrypio apatinį vienpusio pasikliautinojointervalo su pasikliovimo lygmeniu 0.90 rėžį.4.1 p a v y z d y s (tęsinys). a) Apskaičiuokime vidurkio, dispersijos ir standartinionuokrypio dvipusį 95% pasikliautinąjį intervalą; b) vienpusio 95% pasikliautinojo intervaloviršutinį rėžį; c) dvipusius kvantilių 90% pasikliautinuosius intervalus. Editor langeparašykime:PROC UNIVARIATE DATA=normalusis CIBASIC; /* a punktas */VAR Y; RUN;PROC UNIVARIATE DATA=normalusis CIBASIC(TYPE=UPPER) /* b,c punktai*/CIPCTLNORMAL(ALPHA=0.1);VAR Y; RUN;Pirmosios procedūros UNIVARIATE rezultatas (pateikiame tik dalį spausdinamųstatistikų):The UNIVARIATE ProcedureVariable: YBasic Statistical MeasuresLocationVariabilityMean 5.033262 Std Deviation 1.99550Median 4.841455 Variance 3.98203Basic Confidence Limits Assuming NormalityParameter Estimate 95% Confidence LimitsMean 5.03326 4.63731 5.42921Std Deviation 1.99550 1.75206 2.31813Variance 3.98203 3.06973 5.37370Antrosios procedūros UNIVARIATE rezultatas:The UNIVARIATE ProcedureVariable: YBasic Confidence Limits Assuming NormalityParameter Estimate Upper 95% CLMean 5.03326 5.36459Std Deviation 1.99550 2.26201Variance 3.98203 5.11667Quantiles (Definition 5)90% Confidence LimitsQuantile Estimate Assuming Normality100% Max 9.76870899% 9.714071 9.10420 10.3891195% 8.197070 7.85556 8.8776790% 7.850342 7.18178 8.0798975% Q3 6.364037 6.03320 6.7686150% Median 4.841455 4.70193 5.36459113

25% Q1 3.787134 3.29791 4.0333310% 2.279383 1.98663 2.884755% 1.727020 1.18885 2.210961% 0.927769 -0.32258 0.962330% Min 0.239332Gauname:a) vidurkio 95% dvipusis pasikliautinasis intervalas yra (4.63731, 5.42921); dispersijos95% dvipusis pasikliautinasis intervalas yra (3.06973, 5.37370); standartinio nuokrypio95% dvipusis pasikliautinasis intervalas yra (1.75206, 2.31813);b) vidurkio 95% vienpusio pasikliautinojo intervalo viršutinis rėžis yra 5.36459;dispersijos 95% vienpusio pasikliautinojo intervalo viršutinis rėžis yra 5.11667; standartinionuokrypio 95% vienpusio pasikliautinojo intervalo viršutinis rėžis yra 2.26201;c) dešimtojo procentilio 95% dvipusis pasikliautinasis intervalas yra (1.98663,2.88475); pirmojo kvartilio 95% dvipusis pasikliautinasis intervalas yra (3.29791, 4.03333) irt.t.2.2. Dvimatis normalusis skirstinysTarkime, kad ( Xi, Yi), i = 1,...,n yra dydžio n imtis, gauta stebint atsitiktinį vektorių,kurio skirstinys yra dvimatis normalusis su vidurkių vektoriumi µ ir kovariacijų matrica Σ ,t.y. ( X , Y ) ~ N2( µ , Σ), čia2⎛ σ11= σ1Σ = ⎜⎝σ12= ρσ1σ2µ = ( µ , µ ),12σ12= ρσ1σ⎞2⎟,2σ22= σ2 ⎠− ∞ < µ , µ < +∞,110 < σ , σ < +∞,11| ρ | < 1.(4.31)2 2Parametrų µ1, µ2, σ1, σ2taškiniai įverčiai randami panašiai kaip ir tuo atveju, kaiskirstinys yra vienmatis normalusis (žr. 2.1 skyrelį):2ˆ σ = s121ˆ µ = X11=n −1n∑i=11=n( Xin∑i=1X− X )i2,,ˆ µ = Y22ˆ σ = s21=n22n∑i=1Y ,1=n −1in∑i=1( Yi− Y )2.(4.32)Koreliacijos koeficiento ρ įverčiu imamas jo empirinis analogas (Pirsono koreliacijoskoeficientas):( Xi− X )( Yi− Y )i=1ˆ ρ = r =,(4.33)n∑i=1n∑( Xi− X )n∑i=1( Yi− Y )čia X , Y apibrėžti (4.32).Koreliacijos koeficientą (4.33) galime apskaičiuoti su SAS procedūra CORR.Sintaksė:PROC CORR DATA=lentelė;VAR kintamieji;RUN;VAR sakinyje nurodome kintamuosius, kurių koreliacijos koeficientus norimeapskaičiuoti.114

4.2 p a v y z d y s. Modeliuokime a.v. ( X , Y ) ~ N2( µ , Σ)dydžio n = 100 imtį, čia⎛ 4 1.6⎞µ = ( 2,3), Σ = ⎜ ⎟,t.y. ρ = 0. 6 . Editor lange įveskime:⎝1.61 ⎠%LET n=100;%LET miu1=2; %LET miu2=3;%LET sigma1=2; %LET sigma2=1;%LET ro=0.6;DATA dvimatis;DO i=1 TO &n;X=&miu1+&sigma1*NORMAL(10);vid=&miu2+&ro*(&sigma2/&sigma1)*(X-&miu1);std=sqrt(&sigma2*(1-&ro*&ro));Y=vid+std*NORMAL(10);OUTPUT;END;RUN;Apskaičiuokime parametrųparašykime:2 2µ1, µ2, σ1, σ2, ρ taškinius įverčius. Editor langePROC MEANS DATA=dvimatis MEAN VAR;VAR X Y;RUN;PROC CORR DATA=dvimatis;VAR X Y;RUN;Output lange gauname:The MEANS ProcedureVariable Mean Std Dev VarianceX 1.6761400 1.8581382 3.4526775Y 2.9474044 1.0639310 1.1319491The CORR Procedure2 Variables: X YSimple StatisticsVariable N Mean Std Dev Sum Minimum MaximumX 100 1.67614 1.85814 167.61400 -1.38379 6.76871Y 100 2.94740 1.06393 294.74044 0.68343 5.55309Pearson Correlation Coefficients, N = 100Prob > |r| under H0: Rho=0X YX 1.00000 0.56355

M V1 1+rV = ln ,(4.35)2 1−r21 1+ρ ρ ⎛ 3 − ρ ⎞= ln + 1... ,2 1 2( 3)⎜ − +4( 3)⎟− ρ n − ⎝ n − ⎠22 41 ⎛ ρ 2 − 6ρ+ 3ρD Z = 123⎜ − −n − ⎝ 2( n − 3) 6( n − 3)⎞+ ...⎟.⎠Taikydami šią aproksimaciją ir apsiribodami pirmaisiais MV ir DV nariais, gaunameapytikslį koreliacijos koeficiento ρ pasikliautinąjį intervalą su pasikliovimo lygmeniuQ = 1−α :čiaV1 1+rln − z2 1−r2V12V21 1( , ) = ⎛ e − e − ⎞ρ ρ⎜ , ,2 12 21 1⎟(4.36)V⎝ e + eV + ⎠1 1 1+r 1α / 2, V2= ln + z1α / 2. (4.37)n − 3 2 1−r n − 31=1−−kur z1−α / 2yra standartinio normalaus skirstinio (1-α/2)-tasis kvantilis.Pasikliautinąjį koreliacijos koeficiento ρ intervalą galima apskaičiuoti su SASprocedūra CORR. Ši procedūra apskaičiuoja (4.36) intervalą arba intervalą su pataisa, t.y. tokįpasikliautinąjį intervalą:čiačiaV1 1+rln − w − z2 1−r2V1*2V*1 1, ) = 2⎛ e − e − ⎞ρ ρkoreg, ,koreg ⎜2 1*2 21 1⎟(4.38)V⎝ e + eV + ⎠(*1 1 1+r1α / 2, V2*= ln − w + z1α /. (4.39)n − 3 2 1−rn − 31* =1−− 2rw = .(4.40)2(n −1)Pasikliautinasis intervalas apskaičiuojamas, jeigu Proc sakinyje nurodomeFISHER, čia pasirinktys:ALPHA=α, čia α=1-Q, Q – pasikliovimo lygmuo;TYPE=LOWER| UPPER | TWOSIDED (apatinis vienpusio pasikliautinojo intervalorėžis | viršutinis pasikliautinojo intervalo rėžis | dvipusis pasikliautinasis intervalas; pagalnutylėjimą TWOSIDED,BIASADJ=YES|NO, jeigu nurodome „NO“, tai apskaičiuojamas pasikliautinasisintervalas (4.36), jeigu nurodome „YES“ arba šios parinkties nenurodome, tai naudojamapataisa ir apskaičiuojamas pasikliautinasis intervalas (4.38); jeigu skaičiuojamas (4.38)intervalas, tai papildomai dar spausdinamas toks koreliacijos koeficiento įvertis:čia V ir w apibrėžti (4.35) ir (4.40) atitinkamai.2( V −w)e −1rkoreg= ,(4.41)2( V −w)e + 1116

4.2 p a v y z d y s (tęsinys). a) Apskaičiuokime koreliacijos koeficiento 95%pasikliautinąjį intervalą naudojant pataisą (žr. (4.38)). Editor lange įveskime:PROC CORR DATA=dvimatis FISHER;VAR X Y;RUN;Output lange gauname:Pearson Correlation Statistics (Fisher's z Transformation)With Sample Bias CorrelationVariable Variable N Correlation Fisher's z Adjustment EstimateX Y 100 0.56355 0.63802 0.00285 0.56160Pearson Correlation Statistics (Fisher's z Transformation)Withp Value forVariable Variable 95% Confidence Limits H0:Rho=0X Y 0.410464 0.682713

čia r - nurodyta reikšmė, nr- reikšmių r skaičius, n – bendras stebėjimų skaičius;2) tikimybės įverčio pˆ standartinį nuokrypįs = sp= pˆ(1− pˆ) / n;(4.43)ˆ3) asimptotinį pasikliautinąjį p intervalą, kuris gaunamas naudojant normaliąją aproksimaciją.Asimptotinis tikimybės p pasikliautinasis intervalas su pasikliovimo lygmeniuQ = 1−α yrap,p)= ( pˆ− z s,pˆz ),(4.44)(1− α / 2+1−α/ 2sčia z1−α / 2yra standartinio normalaus skirstinio (1-α/2)-tasis kvantilis. Pagal nutylėjimą yraskaičiuojamas 95% pasikliautinasis intervalas. Kokį pasikliautinąjį intervalą skaičiuoti galimanurodyti su ALPHA=α, čia α=1-Q, Q – pasikliovimo lygmuo (ši pasirinktis rašoma TABLESsakinyje);čia4) tikslų pasikliautinąjį p intervalą( p,p)= ( Xα 2( nr, n − nr+ 1), X1−α/ 2( nr118+ 1, n − n/ rXvyra beta skirstinio v-tasis kvantilis, nr- apibrėžtas (4.42).Jeigu TABLES sakinyje nurodome BINOMIALC(LEVEL=reikšmė), tai skaičiuojantasimptotinį p pasikliautinąjį intervalą yra naudojama tolydumo pataisa 1/2n, t.y. asimptotinistikimybės p pasikliautinasis intervalas su pasikliovimo lygmeniu Q = 1−αyraapskaičiuojamas taip:p , p ) ( pˆ− ( z 1/ 2 , ˆαs + n p + ( zαs + 1/ 2n)),(4.45)(koreg=koreg1−/ 21−/ 2čia z1−α / 2yra standartinio normalaus skirstinio (1-α/2)-tasis kvantilis.4.3 p a v y z d y s. Modeliuokime a.d. X, kurio skirstinys yra binominis su parametrais1 ir p=0.4, t.y. X~B(1,p) dydžio n = 50 imtį. Editor lange įveskime:%LET n=50;%LET p=0.4;DATA binominis;DO i=1 TO &n;X=ranbin(10,1,&p);OUTPUT;END;RUN;Apskaičiuokime tikimybės p įvertį ir pasikliautinąjį intervalą su pasikliovimolygmeniu 0.9. Editor lange parašome:PROC FREQ DATA=binominis;TABLES x / BINOMIAL(LEVEL=’0’) ALPHA=0.1;RUN;Output lange gauname:The FREQ ProcedureCumulative CumulativeX Frequency Percent Frequency Percent0 24 48.00 24 48.001 26 52.00 50 100.00Binomial Proportion for X = 0Proportion 0.4800),

ASE 0.070790% Lower Conf Limit 0.363890% Upper Conf Limit 0.5962Exact Conf Limits90% Lower Conf Limit 0.357390% Upper Conf Limit 0.6046Sample Size = 50Pirma spausdinama lentelė yra kintamojo x dažnių lentelė (tokias lentelės aptarėme IIIsk. 1 skyrelyje). Iš lentelės „Binomial Proportion for X=0“ gauname, kad tikimybės p įvertis(4.42) yra p ˆ = n0 / n = 24 / 50 = 0.48;tikimybės įverčio pˆ standartinis nuokrypiss s ˆ = 0.0707 (ASE; žr. (4.43)); asimptotinis pasikliautinasis p intervalas (žr. (4.44)) su= ppasikliovimo lygmeniu 0.9 yra ( p , p)= (0.3638, 0.5962);tikslus pasikliautinasis p intervalas(Exact Conf Limits) yra (0.3573, 0.6046).Tegu imtisX ,...,parametru λ. Parametro λ NMD įvertis yra2.4 Puasono skirstinys1, X2Xnyra gauta stebint a.d. X, kurio skirstinys yra Puasono sunˆ 1λ = X = ∑ X i.(4.46)ni=1Parametro λ įvertį galime apskaičiuoti su procedūra MEANS arba UNIVARIATE.4.4 p a v y z d y s. Modeliuokime a.d. X, kurio skirstinys yra Puasono su parametruλ=2 dydžio n = 100 imtį. Editor lange įveskime:%LET n=100;%LET lambda=2;DATA puasono;DO i=1 TO &n;X=ranpoi(10,&lambda);OUTPUT;END;RUN;Apskaičiuokime parametro λ taškinį įvertį. Editor lange parašome:PROC MEANS DATA=puasono MEAN;VAR X;RUN;Output lange gauname:The MEANS ProcedureTaigi, gauname, kad ˆ λ = 2.14.Analysis Variable : XMean2.1400000Parametro λ pasikliautinasis intervalas su pasikliovimo lygmeniuapskaičiuojamas taip:čia2PQ = 1−αyra⎛ 1 2 1 2⎞( λ , λ ) = ⎜ χ α / 2(2Sn), χ1−α/ 2(2Sn+ 2) ⎟,(4.47)⎝ 2n2n⎠χ yra chi-kvadrato skirstinio P-tasis kvantilis, S = X + ... + X .n1 n119

4.4 p a v y z d y s (tęsinys). Apskaičiuokime parametro λ pasikliautinąjį intervalą supasikliovimo lygmeniu 0.95. Reikia parašyti programą, kuri apskaičiuotų ( λ , λ ) , apibrėžtą(4.47). Editor lange parašome:%LET n=100; /* stebėjimų skaičius*/%LET alpha=0.05; /* 0.95 pasikl. intervalas*/PROC MEANS NOPRINT DATA=puasono;VAR X; /*analizuojamas kintamasis*/OUTPUT OUT=intervalas SUM(X)=suma; /*apskaičiuojame reikšmių sumą*/RUN;/*ir įrašome į lentelę intervalas*/DATA intervalas;SET intervalas;lambda_apat=CINV(&alpha/2,2*suma)/2/&n; /*viršutinis intervalo rėžis */lambda_virsut=CINV(1-&alpha/2,2*suma+2)/2/&n; /*apatinis intervalo rėžis*/KEEP lambda_apat lambda_virsut;RUN;Rezultatą gauname lentelėje „intervalas“; parametro λ pasikliautinasis intervalas supasikliovimo lygmeniu 0.95 yra (1.8628677697, 2.4467383229).Tegu imtisX ,...,parametrais λ>0 ir a>0, t.y. X tankis yra2.5 Gama skirstinys1, X2Xnyra gauta stebint a.d. X, kurio skirstinys yra gama suaλ a−1 −λxf ( x | λ,a)= x e .(4.47)Γ(a)Parametrų λ ir a momentų metodu gauti įverčiai yra tokie (žr., pavyzdžiui, [5]):ˆ 222λ = X / s , aˆ= X / s ,(4.48)2čia X , s yra imties vidurkis ir dispersija.Parametrų λ ir a įverčius galime apskaičiuoti su procedūra MEANS arbaUNIVARIATE.4.5 p a v y z d y s. Modeliuokime a.d. X, kurio skirstinys yra gama su parametraisλ=0.5 ir a = 5 dydžio n = 200 imtį. Editor lange įveskime:DATA gama;DO i=1 TO 200;x=2*rangam(10,5);OUTPUT;END;RUN;Apskaičiuokime parametrų λ ir a momentų metodu gautus įverčius (žr.(4.48)). Editorlange parašykime:PROC MEANS NOPRINT DATA=gama;VAR X; /*analizuojamas kintamasis*/OUTPUT OUT=Param MEAN(X)=vid VAR(X)=disp; /*apskaičiuojame vidurkį ir*/RUN;/*dispersiją; įrašome į lentelę Param*/DATA Param;SET Param;lambda=vid/disp; /*parametro lambda įvertis */a=(vid**2)/disp; /*parametro a įvertis*/KEEP lambda a;RUN;Rezultatą gauname lentelėje „Param“; parametro λ įvertis ˆ = 0.4867363039,a ˆ = 4..λ parametroa įvertis 9916562109120

Ieškant parametrų įverčių maksimalaus tikėtinumo metodu reikia maksimizuotimaksimalaus tikėtinumo funkciją:n aλ a−1−λXiL = L(X1,X2,..., Xn;λ , a)= ∏ Xie .(4.49)Γ(a)Šis maksimizavimo uždavinys yra ekvivalentus tikėtinumo funkcijos L logaritmo maksimizavimouždaviniui, t.y. reikia maksimizuoti funkcijąčialin∑l ii=1i=1ln L = ,(4.50)= ( a −1)lnX − λ X + a ln λ − ln Γ(a).(4.51)iSAS yra procedūros, skirtos maksimizuoti (arba minimizuoti) funkcijas su tiesiniaisarba netiesiniais apribojimais. Viena iš jų yra SAS/IML modulio procedūra IML. Kitaprocedūra, skirta funkcijų maksimizavimui (arba minimizavimui) yra SAS/OR modulioprocedūra NLP. Pilną šių procedūrų aprašymą galima pasižiūrėti pagrindiniame meniupasirinkus punktą Help→SAS Help and Documentation.Pateiksime pavyzdį, iliustruojantį kaip su procedūra NLP apskaičiuoti gama skirstinioparametrų maksimalaus tikėtinumo įverčius.4.6 p a v y z d y s. Tarkime, kad turime 4.5 pavyzdyje modeliuotus duomenis.Apskaičiuokime parametrų λ ir a maksimalaus tikėtinumo įverčius.PROC NLP DATA=gama;MAX loglik;PARMS a=2, lambda=1;BOUNDS a > 1e-12, lambda > 1e-12;loglik=(a-1)*log(x)-x*lambda+a*log(lambda)-log(gamma(a));run;Naudojame sakinį MAX, nes reikia funkciją maksimizuoti; jame nurodome funkcijos,kurią maksimizuosime vardą; pati funkcija apibrėžiama vėliau (sakinyje prieš RUN).PARMS sakinyje nurodome parametrus (t.y. kintamuosius, kurių atžvilgiu maksimizuosimefunkciją).BOUNDS sakinyje nurodome apribojimus (gama skirstinio parametrai turi būtididesni už nulį, todėl nurodome labai mažą teigiamą skaičių 1e-12).Output lange gauname (pateikiame tik dalį spausdinamų charakteristikų):PROC NLP: Nonlinear MaximizationOptimization ResultsParameter EstimatesGradientObjectiveN Parameter Estimate Function1 a 5.162675 0.0000008062 lambda 0.503412 9.8321755E-8iTaigi, parametrų λ ir a maksimalaus tikėtinumo įverčiai yra ˆ λ = 0.503412,ˆ = 5.162675.a2.6 Beta skirstinysTegu imtis X1, X2,..., Xnyra gauta stebint a.d. X, kurio skirstinys yra beta suparametrais γ>0 ir η>0, t.y. X tankis yra121

Γ(γ + η)γ −1 η−1f ( x | γ , η)= x (1 − x).(4.52)Γ(γ ) Γ(η)Parametrų γ ir η momentų metodu gauti įverčiai yra tokie (žr., pavyzdžiui, [5]):⎛ X (1 − X ) ⎞⎛ X (1 − X ) ⎞ˆ γ = X ⎜ −1⎟,ˆ η = (1 − X ) ⎜ −1⎟,(4.53)2 2⎝ s ⎠⎝ s ⎠2čia X , s yra imties vidurkis ir dispersija.Parametrų γ ir η įverčius galime apskaičiuoti su procedūra MEANS arbaUNIVARIATE.4.6 p a v y z d y s. Modeliuokime a.d. X, kurio skirstinys yra beta su parametrais γ=1.5ir η = 3 dydžio n = 200 imtį. Editor lange įveskime:DATA beta;call streaminit(10);DO i=1 TO 200;x=rand(’BETA’,1.5,3);OUTPUT;END; RUN;Apskaičiuokime parametrų γ ir η momentų metodu gautus įverčius (žr.(4.53)). Editorlange parašykime:PROC MEANS NOPRINT DATA=beta;VAR X; /*analizuojamas kintamasis*/OUTPUT OUT=Param MEAN(X)=vid VAR(X)=disp; /*apskaičiuojame vidurkį ir*/RUN;/*dispersiją; įrašome į lentelę Param*/DATA Param;SET Param;gama=vid*(vid*(1-vid)/disp-1); /*parametro gama įvertis */eta=(1-vid)*(vid*(1-vid)/disp-1); /*parametro eta įvertis*/KEEP gama eta;RUN;Rezultatą gauname lentelėje „Param“; parametro γ įvertis ˆ = 1.3893051547,ˆ η = 2. .γ parametroη įvertis 80778468Ieškant parametrų įverčių maksimalaus tikėtinumo metodu reikia maksimizuotimaksimalaus tikėtinumo funkciją:nΓ(γ + η)γ −1η−1L = L(X1,X2,..., Xn;γ , η)= ∏ Xi(1 − Xi) . (4.54)Γ(γ ) Γ(η)i=1Šis maksimizavimo uždavinys yra ekvivalentus tikėtinumo funkcijos L logaritmo maksimizavimouždaviniui, t.y. reikia maksimizuoti funkcijąčialin∑l ii=1ln L = ,(4.55)= ln Γ(γ + η)− ln Γ(γ ) − ln Γ(η)+ ( γ −1)lnX + ( η −1)ln(1− X ). (4.56)Kaip ir gama skirstinio atveju (žr. 2.5 skyrelį) ieškant maksimalaus tikėtinumo įverčiųgalima naudoti procedūrą NLP.4.7 p a v y z d y s. Tarkime, kad turime 4.6 pavyzdyje modeliuotus duomenis.Apskaičiuokime parametrų γ ir η maksimalaus tikėtinumo įverčius.ii122

PROC NLP DATA=beta;MAX loglik;PARMS gama=2, eta=2;BOUNDS gama > 1e-12, eta > 1e-12;loglik=log(gamma(gama+eta))-log(gamma(gama))-log(gamma(eta))+(gama-1)*log(x)+(eta-1)*log(1-x);run;Naudojame sakinį MAX, nes reikia funkciją maksimizuoti; jame nurodome funkcijos,kurią maksimizuosime vardą; pati funkcija apibrėžiama vėliau (sakinyje prieš RUN).PARMS sakinyje nurodome parametrus (t.y. kintamuosius, kurių atžvilgiu maksimizuosimefunkciją).BOUNDS sakinyje nurodome apribojimus (beta skirstinio parametrai turi būti didesniuž nulį, todėl nurodome labai mažą teigiamą skaičių 1e-12).Output lange gauname (pateikiame tik dalį spausdinamų charakteristikų):PROC NLP: Nonlinear MaximizationOptimization ResultsParameter EstimatesGradientObjectiveN Parameter Estimate Function1 gama 1.499573 0.0000037482 eta 2.975147 0.000000557Value of Objective Function = 53.778768607Taigi, parametrų γ ir η maksimalaus tikėtinumo įverčiai yra ˆ γ = 1.499573,ˆ η = 2.975147.V skyrius. PARAMETRINIŲ HIPOTEZIŲ TIKRINIMO UŽDAVINIAI1. Pagrindinės sąvokos ir apibrėžimaiBet koks teiginys apie stebimo a.d. tikimybinio skirstinio parametrų reikšmes yravadinamas parametrine hipoteze.Tarkime, kad X1, X2,..., Xnyra imtis, gauta stebint a.d. X, kurio skirstinys priklausokšeimai P = { , θ ∈ Θ}, čia θ = θ ,..., θ ) nežinomas parametras, o Θ ⊂ R . Tarkime, kadP θ( 1 kΘ0yra aibės Θ poaibis. Parametrine hipoteze H0vadiname teiginį:H0: θ ∈ Θ0.Tvirtinimą, kuris priešpastatomas hipotezei, vadiname alternatyva:H1 : θ ∉ Θ0.Priimdami arba atmesdami hipotezę H0galime padaryti dviejų rūšių klaidas. Josvadinamos pirmos ir antros rūšies klaidomis. Pirmos (I) rūšies klaida: hipotezė H0atmetama,kai ji yra teisinga. Antros (II) rūšies klaida: hipotezė H0priimama, kai ji yra klaidinga.Taisyklė, kuria remiantis darome išvadą apie hipotezės teisingumą arba klaidingumą,vadinama statistiniu kriterijumi. Kriterijus yra tuo geresnis, kuo mažesnės abiejų rūšių klaidųtikimybės. Dažniausiai daroma taip: pirmos rūšies klaidos tikimybė yra fiksuojama, t.y.pasirenkamas skaičius α (reikšmingumo lygmuo; mažas teigiamas skaičius; dažniausiaiimama α = 0,1; 0,05; 0, 01) ir minimizuojama antros rūšies klaidos tikimybė su sąlyga, kad123

pirmos rūšies klaidos tikimybė yra fiksuota ir lygi α. Reikšmingumo lygmuo, tai tikimybė sukuria sutinkame padaryti pirmos rūšies klaidą, t.y. atmesti teisingą hipotezę. Pavyzdžiui, jeigupasirenkame α = 0,05,tai daug kartų tikrindami hipotezę vidutiniškai penkis kartus iš šimtoteisingą hipotezę atmesime.Sprendimui priimti naudojama statistika T X , X ,..., X ) vadinama kriterijaus124(1 2 nstatistika. Statistika T parenkama taip, kad jos skirstinys būtų žinomas, kai hipotezė H0teisinga. Priimti ar atmesti hipotezę yra sprendžiama atsižvelgiant į stebėtą statistikos reikšmę(realizaciją). Jeigu T realizacija patenka į kritinę (atmetimo) sritį W, tenkinančią tam tikrassąlygas, tai hipotezė H0atmetama.Dažniausiai yra skaičiuojama ne antrosios rūšies klaida, o jai priešingo įvykio tikimybė– kriterijaus galia 1-β (čia β - antros rūšies klaidos tikimybė), t.y. tikimybė atmestihipotezę H0, kai ji klaidinga. Geresnis (galingesnis) tas kriterijus, kurio galia yra didesnė.Yra du alternatyvūs tikrinimo būdai. Kai turime statistines lenteles, tai hipoteziųtikrinimui naudojame atitinkamo skirstinio kvantilius arba kritines reikšmes (α-toji kritinėreikšmė yra (1-α)-tasis kvantilis), kurias lyginame su stebėta statistikos reikšme. Statistiniaipaketai apskaičiuoja P-reikšmę (P-value). Apskaičiuota P-reikšmė nepriklauso nuo pasirinktoreikšmingumo lygmens (t.y. turėdami P-reikšmę hipotezę galime tikrinti su kokiu norimereikšmingumo lygmeniu). P-reikšmė, tai tikimybė gauti didesnę statistikos reikšmę(alternatyvos kryptimi) negu iš tikrųjų buvo stebėta. Gautą P-reikšmę lyginame su pasirinktureikšmingumo lygmeniu:jei P-reikšmė < α (reikšmingumo lygmuo), tai hipotezę atmetame; (5.1)jei P-reikšmė ≥ α (reikšmingumo lygmuo), tai hipotezė neatmetama;Kuo mažesnė P-reikšmė, tuo stipresnis akivaizdumas atmesti hipotezę.2. Hipotezė apie vidurkio reikšmę(1 2 nTegu imtis X = X , X ,..., X ) yra gauta stebint a.d. X, kurio skirstinys yra normalu-22sis su vidurkiu µ ir dispersija σ , t.y. X ~ N(µ , σ ) . Reikia patikrinti hipotezę H0, kad Xvidurkio µ reikšmė lygi skaičiui µ0, t.y. H0: µ = µ0.22Nagrinėsime du atvejus: 1) dispersija σ yra žinoma; 2) dispersija σ yra nežinoma.2.1. Hipotezė apie vidurkio reikšmę, kai dispersija žinoma22Tarkime, kad dispersijos σ reikšmė yra žinoma ir lygi σ0. Kritinė sritis sudaromaremiantis tuo, kadX − µ0Z = n(5.2)σskirstinys yra standartinis normalusis (t.y. normalusis skirstinys su vidurkiu 0 ir dispersija 1),kai hipotezė H : 0µ = µ 0yra teisinga, čia 1 nX = ∑ X i.n i=11) Tarkime, kad reikia patikrinti hipotezę H : µ = µ (arba 0 0µ ≤ µ0) su alternatyvaH µ > µ (vienpusė alternatyva).1 :0Kritinė sritis W: hipotezė H0atmetama, kai Z> z α, čia Z – apibrėžta (5.2), zαyrastandartinio normalaus skirstinio α-toji kritinė reikšmė.5.1 pav. schematiškai yra pažymėta kritinė sritis, reikšmingumo lygmuo, kritinėreikšmė, P-reikšmė. 5.1 a) pav. pavaizduota situacija, kai statistikos reikšmė pateko į kritinęsritį, t.y. hipotezė atmetama. 5.1 b) pav. pavaizduota situacija, kai statistikos reikšmė0

nepateko į kritinę sritį, t.y. hipotezė priimama. Ši schema vaizdžiai iliustruoja tikrinimo būdą,kai P-reikšmė lyginama su pasirinktu reikšmingumo lygmeniu α. Kai P-reikšmė < α, taistatistikos Z reikšmė pateko į kritinę sritį ir hipotezė atmetama (žr.5.1 pav., a); kai P-reikšmė> α, tai statistikos Z reikšmė nepateko į kritinę sritį ir hipotezė priimama (žr.5.1 pav., b).a)b)5.1 pav. Kritinė sritis, kritinė reikšmė, P-reikšmė5.2 pav. schematiškai pavaizduota kritinė sritis, reikšmingumo lygmuo, kriterijausgalia (pažymėjimai tokie patys kaip 1 skyrelyje).5.2 pav. Kritinė sritis, reikšmingumo lygmuo, kriterijaus galia2) Tarkime, kad reikia patikrinti hipotezę H : µ = µ (arba 0 0µ ≥ µ0) su alternatyvaH µ < µ (vienpusė alternatyva).1 :0Kritinė sritis W: hipotezė H0atmetama, kai Z z α / 2, čia Z – apibrėžta (5.2), zαyrastandartinio normalaus skirstinio α-toji kritinė reikšmė.125

5.1 p a v y z d y s. Sukurkime duomenų lentelę su tokiu Data žingsniu:DATA normalusis;DO i=1 TO 100;Y=5+NORMAL(10); OUTPUT;END; RUN;Patikrinkime hipotezę, kad vidurkis lygus 5 su alternatyva, kad nelygus; tariame, kaddispersija yra žinoma ir lygi 1; imkime reikšmingumo lygmenį 0,05. Editor lange parašykime:PROC MEANS DATA=normalusis N MEAN;OUTPUT OUT=rezultatas MEAN(Y)=vid_y N(Y)=N;VAR Y; RUN;DATA rezultatas;SET rezultatas;Z=sqrt(N)*(vid_y-5)/1;krit_r=PROBIT(1-0.05/2);KEEP Z krit_r;RUN;Lentelėje „rezultatas“ gauname, kad kriterijaus statistikos reikšmė Z = 0. 1663105735,o kritinė reikšmė z α= z 1.9599639845.Statistikos reikšmė nepateko į kritinę sritį,/ 2 0.05 / 2=todėl galime teigti: hipotezė H 0: µ = 5 su alternatyva H 1: µ ≠ 5 yra priimama sureikšmingumo lygmeniu α = 0.05.Hipotezę apie vidurkio lygybę skaičiui galima patikrinti naudojant vidurkiopasikliautinąjį intervalą.Tarkime, kad reikia patikrinti hipotezę H : µ = µ (arba 0 0µ ≤ µ0) su alternatyvaH µ > µ ; reikšmingumo lygmuo α . Tarkime, kad µ yra vienpusio vidurkio µ1 :0pasikliautinojo intervalo su pasikliovimo lygmeniu 1-α apatinis rėžis. Tada hipotezė H0atmetama su reikšmingumo lygmeniu α , jei µ0< µ .Tarkime, kad reikia patikrinti hipotezę H : µ = µ (arba 0 0µ ≥ µ0) su alternatyvaH µ < µ ; reikšmingumo lygmuo α . Tarkime, kad µ yra vienpusio vidurkio µ1 :0pasikliautinojo intervalo su pasikliovimo lygmeniu 1-α viršutinis rėžis. Tada hipotezė H0atmetama su reikšmingumo lygmeniu α , jei µ0> µ .Tarkime, kad reikia patikrinti hipotezę H : µ = µ su alternatyva H : µ ≠ µ ;0 01 0reikšmingumo lygmuo α . Tarkime, kad ( µ , µ ) yra vidurkio µ pasikliautinasis intervalas supasikliovimo lygmeniu 1-α . Tada hipotezė H0atmetama su reikšmingumo lygmeniu α , jeiµ0< µ arba µ0> µ .5.1 p a s t a b a. Analogiškai galima patikrinti hipotezę apie bet kokio kito parametroreikšmes, t.y. jeigu sukonstravome parametro pasikliautinąjį intervalą, tai galime patikrintihipotezę apie to parametro reikšmę.2.2. Hipotezė apie vidurkio reikšmę, kai dispersija nežinoma2Tarkime, kad dispersijos σ reikšmė yra nežinoma. Kritinė sritis sudaroma remiantistuo, kadX − µ0T = n(5.3)sskirstinys yra Stjudento skirstinys su n-1 laisvės laipsniu, kai hipotezė H : µ = µ yra0 0nn12teisinga, čia X = ∑ X i, s = ∑(X i− X ) .n −1i=1i=1126

1) Tarkime, kad reikia patikrinti hipotezę H : µ = µ (arba 0 0µ ≤ µ0) su alternatyva: µ > .H1 µ0Kritinė sritis W: hipotezė H0atmetama, kai T> t α, čia T – apibrėžta (5.3), tαyraStjudento skirstinio su n-1 laisvės laipsniu α-toji kritinė reikšmė.2) Tarkime, kad reikia patikrinti hipotezę H : µ = µ (arba 0 0µ ≥ µ0) su alternatyva: µ < .H1 µ0Kritinė sritis W: hipotezė H0atmetama, kai T t α / 2, čia T – apibrėžta (5.3), tαyraStjudento skirstinio su n-1 laisvės laipsniu α-toji kritinė reikšmė.Su procedūra MEANS galima patikrinti hipotezę apie vidurkio lygybę nuliui, kaidispersija nežinoma. Jeigu norime patikrinti hipotezę H 0: µ = 0 su alternatyva H 1: µ ≠ 0 ,tai PROC sakinyje reikia nurodyti: T (spausdins kriterijaus statistikos reikšmę, žr.(5.3)),PROBT (spausdins dvipusę P-reikšmę; žr. 5.3 pav.).5.3 pav. Dvipusė P-reikšmė5.2 p a s t a b a. 1) Jeigu norime patikrinti hipotezę su vienpuse dešinine alternatyva(t.y. H : 1µ > µ 0), tai: a) kai apskaičiuota kriterijaus statistikos T reikšmė yra neigiama, taihipotezė priimama su bet kokiu reikšmingumo lygmeniu α mažesniu už 0.5 (žr. 5.4 pav); b)kai apskaičiuota kriterijaus statistikos T reikšmė yra teigiama, tai gautą dvipusę P-reikšmęPROBT daliname pusiau ir lyginame su pasirinktu reikšmingumo lygmeniu α;2) Jeigu norime patikrinti hipotezę su vienpuse kairine alternatyva (t.y. H : µ < µ ),1 0tai: a) kai apskaičiuota kriterijaus statistikos T reikšmė yra teigiama, tai hipotezė priimama subet kokiu reikšmingumo lygmeniu α mažesniu už 0.5 (žr. 5.5 pav); b) kai apskaičiuotakriterijaus statistikos T reikšmė yra neigiama, tai gautą dvipusę P-reikšmę PROBT dalinamepusiau ir lyginame su pasirinktu reikšmingumo lygmeniu α.5.4 pav. Dešininė alternatyva, T - neigiama127

5.5 pav. Kairinė alternatyva, T - teigiama5.2 p a v y z d y s. Sukurkime duomenų lentelę su tokiu Data žingsniu:DATA normalusis;DO i=1 TO 100;Y=5+NORMAL(10);OUTPUT;END;RUN;Patikrinkime hipotezę, kad vidurkis lygus nuliui su alternatyva, kad nelygus; tariame,kad dispersija yra nežinoma; imkime reikšmingumo lygmenį 0,05. Editor lange parašykime:PROC MEANS DATA=normalusis T PROBT;VAR Y; RUN;RUN;Output lange gauname tokį rezultatą:The MEANS ProcedureAnalysis Variable : Yt Value128Pr > |t|50.28 |t|) yra mažesnė už 0.0001, taigi, hipotezė H 0: µ = 0 yra atmetama su reikšmingumolygmeniu α = 0.05.Su procedūra UNIVARIATE galima patikrinti hipotezę apie vidurkio reikšmę, kaidispersija nežinoma. Jeigu norime patikrinti hipotezę H 0 : µ = µ 0 su alternatyva H 1 : µ ≠ µ 0 ,tai Proc sakinyje reikia nurodyti MU0= µ 0 , pagal nutylėjimą µ 0 =0. Jeigu norime patikrintihipotezę su vienpuse alternatyva, tai naudojame metodą, pateiktą 5.2 pastaboje.5.3 p a v y z d y s. Buvo išmatuotas 24 atsitiktinai atrinktų vaikų ūgis.Gauti tokierezultatai (cm):124 122 123 134 124 123 121 124 128 123 126 125131 119 122 125 130 122 125 121 132 128 131 127Sukurkime duomenų lentelę su tokiu Data žingsniu:DATA vaikai;INFILE ’c:\vaikai.txt’;INPUT ugis @@;a) Ar galime teigti, kad vidutinis vaikų ūgis yra nemažesnis už 127 cm? Taigi, reikiapatikrinti hipotezę H 0: µ ≥ 127 su alternatyva H 1: µ < 127.Tarkime, kad reikšmingumolygmuo α = 0.05.Naudosime procedūrą UNIVARIATE. Editor lange įveskime:PROC UNIVARIATE DATA=vaikai MU0=127; VAR ugis; RUN;

Output lange gauname lentelę „Tests for Location: Mu0=127“. Pirmoje šios lentelėseilutėje (paryškinta) spausdinama kriterijaus statistika (5.3) ir dvipusė P-reikšmė, t.y. P-reikšmė, skirta patikrinti hipotezę H : 0µ = µ 0su alternatyva H : 1µ ≠ µ0, µ = 127 . Pagaluždavinio sąlygą reikia patikrinti hipotezę su vienpuse kairine alternatyva, todėl iš pradžiųžiūrime į kriterijaus statistikos ženklą; T neigiama; apskaičiuotą dvipusę P-reikšmę (p Value)0.0607 daliname iš 2 ir lyginame su pasirinktu reikšmingumo lygmeniu α. Gauname0.03 |t| 0.6087Sign M -1.5 Pr >= |M| 0.6636Signed Rank S 8.5 Pr >= |S| 0.7749Hipotezę apie vidurkio reikšmę galima patikrinti ir su SAS modulio STAT procedūraTTEST. Sintaksė:PROC TTEST DATA=lentelė ;VAR kintamasis;RUN;čia kintamasis – analizuojamas kintamasis; nebūtina pasirinktis H0=reikšmė nurodohipotetinę vidurkio reikšmę µ 0 , pagal nutylėjimą µ 0 =0. Jeigu norime patikrinti hipotezę suvienpuse alternatyva, tai naudojame metodą, pateiktą 5.2 pastaboje.5.3 p a v y z d y s (tęsinys). Patikrinkime hipotezę, kad vidutinis vaikų ūgis yra 125cm. Taigi, reikia patikrinti hipotezę H 0: µ = 125 su alternatyva H 1: µ ≠ 125.Tarkime, kadreikšmingumo lygmuo α = 0.05.Naudosime procedūrą TTEST. Editor lange įveskime:PROC TTEST DATA=vaikai H0=125;VAR ugis;RUN;129

Output lange gauname:The TTEST ProcedureStatisticsLower CL Upper CL Lower CL Upper CLVariable N Mean Mean Mean Std Dev Std Dev Std Dev Std Errugis 24 123.76 125.42 127.08 3.057 3.9333 5.5175 0.8029T-TestsVariable DF t Value Pr > |t|ugis 23 0.52 0.6087Procedūra spausdina stebėjimų skaičių (N), vidurkio taškinį įvertį (Mean, žr.(4.23)) irpasikliautinąjį intervalą (Lower CL Mean, Upper CL Mean; žr. (4.26)); standartinionuokrypio vidurkio taškinį įvertį (Std Dev, žr.(4.24)) ir pasikliautinąjį intervalą (Lower CLStd Dev, Upper CL Std Dev; žr. (4.28)); pagal nutylėjimą yra apskaičiuojami pasikliautiniejiintervalai su pasikliovimo lygmeniu 0,95; jeigu norime, kad apskaičiuotų su kitu pasikliovimolygmeniu, tai Proc sakinyje nurodome ALPHA=1-Q, čia Q – pasikliovimo lygmuo.Lentelėje „T-Tests“ spausdinama kriterijaus statistikos reikšmė (t Value, žr.(5.3)), P-reikšmė (Pr>|t|), skirta patikrinti hipotezę apie vidurkio reikšmę su dvipuse alternatyva.Kadangi P-reikšmė didesnė už pasirinktą reikšmingumo lygmenį 0.05, tai hipotezė: vidutinisvaikų ūgis lygus 125 priimama su reikšmingumo lygmeniu 0.05.3. Hipotezė apie dispersijos reikšmę(1 2 nTegu imtis X = X , X ,..., X ) yra gauta stebint a.d. X, kurio skirstinys yra normalu-22sis su vidurkiu µ ir dispersija σ , t.y. X ~ N(µ , σ ) . Reikia patikrinti hipotezę H0, kad X222 2dispersijos σ reikšmė lygi skaičiui σ0, t.y. H0: σ = σ0.Nagrinėsime du atvejus: 1) vidurkis µ yra žinomas; 2) vidurkis µ yra nežinomas.3.1. Hipotezė apie dispersijos reikšmę, kai vidurkis žinomasTarkime, kad vidurkio µ reikšmė yra žinoma ir lygi µ0.Kritinė sritis sudaromaremiantis tuo, kadY2=n∑i=1( Xiσ− µ )2002s n=σskirstinys yra chi-kvadrato skirstinys su n laisvės laipsnių, kai hipotezėn2 12teisinga, čia s0= ∑(X i− µ0) .nH : 1i=11) Tarkime, kad reikia patikrinti hipotezę2 2σ > σ 0(vienpusė dešininė alternatyva).H : 02020H : 0σ 2= σ 2(arba 2 20σ0(5.4)σ 2= σ 2yra 0σ ≤ ) su alternatyva2Kritinė sritis W: hipotezė H0atmetama, kai 22Y > χα( n), čia Y – apibrėžta (5.4),χ 2 ( n)yra chi-kvadrato skirstinio su n laisvės laipsnių α-toji kritinė reikšmė.αH : 12) Tarkime, kad reikia patikrinti hipotezę2 2σ < σ 0(vienpusė kairinė alternatyva).H : 0σ 2= σ 2(arba 2 20σ0σ ≥ ) su alternatyva2 22Kritinė sritis W: hipotezė H0atmetama, kai Y < χ1− α( n), čia Y – apibrėžta (5.4),χ 2 ( n)yra chi-kvadrato skirstinio su n laisvės laipsnių α-toji kritinė reikšmė.α130

23) Tarkime, kad reikia patikrinti hipotezę H : σ 2= σ alternatyva H : σ 2≠ σ 20 01 0(dvipusė alternatyva).2 22 2Kritinė sritis W: hipotezė H0atmetama, kai Y < χ1− α / 2( n)arba Y > χα/ 2( n), čia2Y – apibrėžta (5.4), χ 2 ( n v) yra chi-kvadrato skirstinio su n laisvės laipsnių v-toji kritinėreikšmė.5.4 p a v y z d y s. Sukurkime duomenų lentelę su tokiu Data žingsniu:DATA normalusis;DO i=1 TO 100;X=2*NORMAL(10);OUTPUT;END;RUN;Patikrinkime hipotezę, kad dispersija lygi 4 su alternatyva, kad nelygi (t.y.22H0: σ = 4 alternatyva H1 : σ ≠ 4 ); tariame, kad vidurkis yra žinomas ir lygus 0; imkimereikšmingumo lygmenį 0,05. Editor lange parašykime:%LET muo=0; /*vidurkio reikšmė žinoma ir lygi 0*/%LET disp_0=4; /* hipotetinė dispersijos reikšmė 4 */DATA normalusis;SET normalusis;U=X-&muo;RUN;PROC MEANS DATA=normalusis N USS;OUTPUT OUT=rezultatas USS(U)=kv_suma N(U)=N;VAR U; RUN;DATA rezultatas;SET rezultatas;Y_2=kv_suma/&disp_0; /* apskaičiuojame statistikos reikšmę*/krit_k=CINV(0.05/2,N); /*kritinė reikšmė kairėje pusėje*/krit_d=CINV(1-0.05/2,N); /*kritinė reikšmė dešinėje pusėje*/KEEP Y_2 krit_k krit_d;RUN;sumąProcedūra MEANS apskaičiuoja ir įrašo į lentelę „rezultatas“ nekoreguotą kvadratųn2∑U ii=1USS = (čia U i= X i− µ0, µ0- žinomas vidurkis, Xi- pradiniai duomenys) irstebėjimų skaičių n. Paskutiniame Data žingsnyje apskaičiuojame statistikos reikšmę irkritinės srities kraštines reikšmes; funkcija CINV(v,n) apskaičiuoja chi-kvadrato skirstinio sun laisvės laipsnių v-tąjį kvantilį (apie kvantilių funkcijas žr.II sk., 4 skyrelį).Lentelėje „rezultatas“ gauname, kad kritinė sritis W yra tokia: hipotezė atmetama, kaigauta statistikos reikšmė mažesnė už 74.2219 arba didesnė už 129.5612; apskaičiuotastatistikos reikšmė yra 98.5829, todėl hipotezė priimama su reikšmingumo lygmeniu 0.05.kad3.2. Hipotezė apie dispersijos reikšmę, kai vidurkis nežinomasTarkime, kad vidurkio µ reikšmė yra nežinoma. Kritinė sritis sudaroma remiantis tuo,Tn2∑(Xi− X )22 i= 1s ( n −1)==22σ0σ0(5.5)skirstinys yra chi-kvadrato skirstinys su n-1 laisvės laipsniu, kai hipotezėn2 12teisinga, čia s = ∑(X i− X ) .n −1i=1H : 0σ 2= σ 2yra 0131

2Kritinės sritys įvairių alternatyvų atveju pateiktos 5.1 lentelėje. Šioje lentelėje T ,apibrėžta (5.5); α - pasirinktas reikšmingumo lygmuo; χ 2v( n −1)yra chi-kvadrato skirstiniosu n-1 laisvės laipsniu v-toji kritinė reikšmė.5.1 lentelė. Kritinės sritysAlternatyva H Kritinė (atmetimo) sritis W:12 22 22 2σ ≠ σT < χ−( n −1)arba T > χ ( n −1)01 α / 22 22σ > σ0> χ2α( n −1)2 22 2σ < σ0< χ1−α( n −1)5.5 p a v y z d y s. Sukurkime duomenų lentelę su tokiu Data žingsniu:DATA normalusis;DO i=1 TO 100;X=2+1.5*NORMAL(10);OUTPUT;END;RUN;Ar galime teigti, kad standartinis nuokrypis nedidesnis už 1.5; reikšmingumo lygmuo0.05; tariame, kad vidurkis nežinomas. Taigi, reikia patikrinti hipotezę : σ ≤ 1. 5 sualternatyva H 1: σ > 1. 5 . Šis uždavinys ekvivalentus tokiam uždaviniui: reikia patikrinti22hipotezę H0: σ ≤ 2. 25 su alternatyva H1 : σ > 2. 25 (t.y. hipotezę apie dispersijosreikšmę).I būdas. Editor lange įveskime:%LET disp_0=2.25; /* hipotetinė dispersijos reikšmė 2.25 */PROC MEANS DATA=normalusis N VAR;OUTPUT OUT=rezultatas VARUSS(X)=disp N(X)=N;VAR X; RUN;DATA rezultatas;SET rezultatas;T_2=disp*(n-1)/&disp_0; /* apskaičiuojame statistikos reikšmę*/krit_r=CINV(1-0.05,N-1); /*kritinė reikšmė */KEEP T_2 krit_r;RUN;Lentelėje „rezultatas“ gauname, kad kritinė sritis W yra tokia: hipotezė atmetama, kaigauta statistikos reikšmė yra didesnė už 123.225; apskaičiuota statistikos reikšmė 98.555 yramažesnė už kritinę reikšmę, todėl hipotezė priimama su reikšmingumo lygmeniu 0.05.II būdas. Hipotezę galime patikrinti naudojant dispersijos pasikliautinąjį intervalą.Kadangi reikia patikrinti hipotezę su dešinine alternatyva (reikšmingumo lygmuo 0.05), tai2reikia apskaičiuoti vienpusio dispersijos σ pasikliautinojo intervalo su pasikliovimo2lygmeniu 1-α =1-0.05=0.95 apatinį rėžį σ (žr. 2.1 skyrelį). Kritinė sritis: hipotezė H0atmetama su reikšmingumo lygmeniu α =0.05, jeiguUNIVARIATE. Editor lange parašykime:132TT2 20σα / 2H 0σ < . Naudosime procedūrąPROC UNIVARIATE DATA=normalusis CIBASIC(TYPE=LOWER ALPHA=0.05);VAR X; RUN;Output lange gauname:Basic Confidence Limits Assuming NormalityParameter Estimate Lower 95% CLMean 2.02495 1.77645Std Deviation 1.49663 1.34147Variance 2.23989 1.79954

2Taigi, gavome, kad vienpusio dispersijos σ pasikliautinojo intervalo su pasikliovimo2lygmeniu apatinis rėžis σ =1.79954. Kadangi jis mažesnis už σ 2= 02. 25 , tai hipotezėpriimama su reikšmingumo lygmeniu 0.05.4. Hipotezė apie proporciją133Tegu imtis X = ( X1,X2,..., Xn) yra gauta stebint a.d. X, kurio skirstinys priklausobinominių skirstinių šeimai P = { B(1,p),0 < p < 1}, t.y. a.d. X gali įgyti tik dvi reikšmes.Reikia patikrinti hipotezę H : p = p0 0. Šiame skyrelyje pateikiami du kriterijai: 1) tiksluskriterijus; taikomas, kai imtis maža; 2) normalioji aproksimacija; taikoma, kai imtis didelė.4.1. Tikslus kriterijusKritinė sritis sudaroma remiantis tuo, kadn∑S n= X ii=1(5.6)skirstinys yra binominis su parametrais n ir p0, kai hipotezė H : 0p = p 0yra teisinga.Kritinės sritys įvairių alternatyvų atveju pateiktos 5.2 lentelėje. Šioje lentelėje m –imties vienetų (įvykių) skaičius; α - pasirinktas reikšmingumo lygmuo.5.2 lentelė. Kritinės sritysAlternatyva HKritinė (atmetimo) sritis W1p ≠ P { ≥ m}< α / 2 arba P { ≤ m}< α / 2p 0p 0S np > P { ≥ m} < αp su procedūra FREQ. Reikia EXACTsakinyje nurodyti pasirinktį BINOMIAL.PROC FREQ DATA=lentelė;TABLES kintamasis / BINOMIAL (P=p0 LEVEL=’reikšmė’);EXACT BINOMIAL;RUN;čia kintamasis analizuojamas kintamasis (gali būti skaitinio arba simbolinio tipo), įgyjantisdvi reikšmes; reikšmė – nurodyto kintamojo reikšmė; su P=p0 nurodome hipotetinę reikšmęp (pagal nutylėjimą 0.5).0Ši procedūra apskaičiuoja dvipusę P-reikšmę P2ir vienpusę P-reikšmę P1(žr.5.2lentelę):P1 = min{ P { Sn ≤ m | p0},P{Sn≥ m | p0}};P2= 2P1.(5.7)5.6 p a v y z d y s. Modeliuokime a.d. X, kurio skirstinys yra binominis su parametrais1 ir p=0.4, t.y. X~B(1,p) dydžio n = 50 imtį. Editor lange įveskime:%LET n=50;%LET p=0.4;DATA binominis;DO i=1 TO &n;X=ranbin(10,1,&p);OUTPUT;END; RUN;S nS nS n

Patikrinkime hipotezę, kad reikšmių „1“ yra 55%, reikšmingumo lygmuo 0.05.Suformuluojame hipotezę ir alternatyvą: hipotezė H 0: p = 0. 55 , alternatyva H 1: p ≠ 0. 55 .Editor lange parašome:PROC FREQ DATA=binominis;TABLES x / BINOMIAL(P=0.55 LEVEL=’1’);EXACT BINOMIAL;RUN;Output lange gauname lentelę „Test of H0: Proportion = 0.55”. Žiūrime į “Exact tests”(tikslus kriterijus). Eilutėje „One-sided“ spaudinama vienpusė P-reikšmė, eilutėje „Twosided“spaudinama dvipusė P-reikšmė.Reikia patikrinti hipotezę su dvipuse alternatyva, todėl dvipusę P-reikšmę 0.7732lyginame su reikšmingumo lygmeniu 0.05, gauname, kad hipotezė neatmetama(0.7732>0.05).The FREQ ProcedureBinomial Proportion for X = 1Test of H0: Proportion = 0.55ASE under H0 0.0704Z -0.4264One-sided Pr < Z 0.3349Two-sided Pr > |Z| 0.6698Exact TestOne-sided Pr zα/ 2p > p 0Z > zαp < Z < −zαp 05.3 p a s t a b a. Nėra vieningos nuomonės kokioms n ir p 0 reikšmėms normaliojiaproksimacija yra pakankamai tiksli (žr. [3]). Kartais reikalaujama, kad tarp n ir p 0 galiotųtoks sąryšis:2n ⎛ 5 5 25(1 − 2 p ) ⎞0≥ max⎜ , ,,010 0(10)⎟⎝ p − p p − p(5.9)⎠134

pavyzdžiui, jei p = 0. 02 , tai n ≥ 57 ; jei p = 0. 5 0, tai n ≥ 10 . Kartais reikalaujama, kadmax( np0, n(1− p0)) ≥ 30 .Patikrinti hipotezę apie proporciją galima su procedūra FREQ. Reikia TABLESsakinyje nurodyti pasirinktį BINOMIAL.PROC FREQ DATA=lentelė;TABLES kintamasis / BINOMIAL (P=p0 LEVEL=’reikšmė’);RUN;čia kintamasis analizuojamas kintamasis (gali būti skaitinio arba simbolinio tipo), įgyjantisdvi reikšmes, reikšmė – nurodyto kintamojo reikšmė; su P=p0 nurodome hipotetinę reikšmęp0(pagal nutylėjimą 0.5).Jeigu vietoje BINOMIAL nurodome BINOMIALC, tai taikoma tolydumo pataisa, t.y.pˆ− p0−1/2nZ = , kai p ˆ00p (1 − p ) / n− p >pˆ− p0+ 1/ 2n; priešingu atveju Z = . (5.10)p (1 − p ) / n00Ši procedūra apskaičiuoja dvipusę P-reikšmę P2ir vienpusę P-reikšmę P1. Kai Z>0, taiapskaičiuojama dešininė P-reikšmė, t.y. tikimybė gauti didesnę statistikos reikšmę negustebėta, kai hipotezė teisinga, t.y. P1= P { Y > Z};kai Z ≤ 0, tai apskaičiuojama kairinė P-reikšmė, t.y. tikimybė gauti mažesnę statistikos reikšmę negu stebėta, t.y.P = P { Y < }; čia Y~N(0,1). Dvipusė P-reikšmė: P = P {| Y | > | |}.1Z1Z5.7 p a v y z d y s. Modeliuokime a.d. X, kurio skirstinys yra binominis su parametrais1 ir p=0.4, t.y. X~B(1,p) dydžio n = 50 imtį. Editor lange įveskime:%LET n=50;%LET p=0.4;DATA binominis;DO i=1 TO &n;X=ranbin(10,1,&p);OUTPUT;END;RUN;Patikrinkime hipotezę, kad reikšmių „0“ yra ne mažiau kaip 60%, reikšmingumolygmuo 0,05. Suformuluojame hipotezę ir alternatyvą: hipotezė : p ≥ 0, 6 , alternatyvaH 1: p < 0,6 . Editor lange parašome:PROC FREQ DATA=binominis;TABLES x / BINOMIAL(P=0.6 LEVEL=’0’);RUN;Output lange gauname:Test of H0: Proportion = 0.60H 00ASE under H0 0.0693Z -1.7321One-sided Pr < Z 0.0416Two-sided Pr > |Z| 0.0833Sample Size = 50Kriterijaus statistikos reikšmė -1.7321. Kairinė vienpusė reikšmė 0.0416 yra mažesnėuž pasirinktą reikšmingumo lygmenį 0.05, todėl hipotezė atmetama su reikšmingumolygmeniu 0,05.135

5. Dviejų dispersijų palyginimo hipotezėsTarkime, kad X = X , X ,..., X ) ir Y = Y , Y ,..., Y ) yra nepriklausomos(1 2 n(1 2 matsitiktinių dydžių X ir Y imtys, atsitiktinio dydžio X skirstinys yra normalusis su vidurkiu µ12ir dispersija σ1, atsitiktinio dydžio Y skirstinys yra normalusis su vidurkiu µ2ir dispersija222σ2, t.y. X~N( µ1,σ1), Y~N( µ2, σ2).2Reikia patikrinti hipotezę H : σ 2= k σ , čia konstanta 0 1 0 2k0>0. Kritinė sritis sudaromaremiantis tuo, kadF =kn∑i=1m2( Xi− X ) ( m −1)s=2 k( Y − Y ) ( n −1)∑0j=12skirstinys yra Fišerio skirstinys su n-1 ir m-1 laisvės laipsniu, kai σ = , čiaj2120s221k0σ2nm2 12 2 12s1= ∑(X i− X ) , s2= ∑(Y i− Y ) .n −1m −1i=1j=1(5.11)Kritinės sritys įvairių alternatyvų atveju pateiktos 5.4 lentelėje. Šioje lentelėje F,apibrėžta (5.11); α - pasirinktas reikšmingumo lygmuo; F v( n −1,m −1)yra Fišerio skirstiniosu n-1 ir m-1 laisvės laipsniu v-toji kritinė reikšmė.5.4 lentelė. Kritinės sritysHipotezė H0Alternatyva H Kritinė (atmetimo) sritis W:12 2 2 22 2σ ≤ k σ ( σ = k ) σ > k> F ( n −1,m −1)1 0 2 1 0σ22 2σ ≥ k σ ( σ = k221 0 2 1 0σ2σ= k2 21 0σ2)σσ1 0σ22 21 0σ2Fα< k< F −( n −1,m 1)2 21 0σ2F1 α−≠ kF < F1 − α / 2( n −1,m −1)arba> F n −1,m 1)F ( α / 2−Atskiru atveju, kai k = 01 , gauname hipotezę apie dispersijų lygybę: H : σ 2= σ 2.0 1 22 2Kriterijaus statistika (5.11) šiuo atveju yra F = s 1/ s2. Kriterijaus statistiką galima apibrėžtiir taip:2 2max{ s1, s2}F ′ =.(5.12)2 2min{ s , s }Statistika F′ yra nemažesnė už 1.Hipotezę apie dispersijų lygybę galima patikrinti su SAS modulio STAT procedūraTTEST, ši hipotezė automatiškai tikrinama, kai lyginame dviejų nepriklausomų imčiųvidurkius. Sintaksė:PROC TTEST DATA=lentelė;CLASS kint1VAR kint2;RUN;čia kint1 – klasifikuojantis kintamasis, t.y. kintamasis kuris parodo, iš kurios imties yrastebėjimas; kint2 – analizuojamas kintamasis.2 2Procedūra spausdina dvipusę P-reikšmę, t.y. galime patikrinti hipotezę H σ = σsu alternatyvaH1:σ ≠ σ .2122120 :12136

5.8 p a v y z d y s. Tarkime, kad turime duomenis iš 3.7 pavyzdžio. Ar galime teigti,kad spindulio R srovės stiprumo dispersija antrajame testeryje pirmo ir antro paleto yra tokiapati?Turime dvi nepriklausomas imtis (matuojami skirtingi kineskopai). Analizuojamaskintamasis „i_r“, kintamasis „paleto_nr“ parodo, kuriam paletui priklauso kineskopas.2Suformuluojame hipotezę ir alternatyvą: hipotezė H : σ 2= σ , alternatyva H : σ 2≠ σ 2.0 1 21 1 2Editor lange parašome:PROC TTEST DATA=kineskopai;CLASS paleto_nr;VAR i_r;WHERE paleto_nr=1 or paleto_nr=2;RUN;Output lange gauname:The TTEST ProcedureStatisticsLower CL Upper CL Lower CL Upper CLVariable paleto_nr N Mean Mean Mean Std Dev Std Dev Std Dev Std Erri_r 50 6.1946 6.244 6.2934 0.1453 0.174 0.2168 0.02461i_r 50 6.157 6.202 6.247 0.1323 0.1584 0.1974 0.02242i_r Diff (1-2) -0.024 0.042 0.108 0.146 0.1664 0.1934 0.0333T-TestsVariable Method Variances DF t Value Pr > |t|i_r Pooled Equal 98 1.26 0.2099i_r Satterthwaite Unequal 97.2 1.26 0.2099Equality of VariancesVariable MethodNum DF Den DF F Value Pr > Fi_r Folded F 49 49 1.21 0.5145Procedūra spausdina stebėjimų skaičių (N), vidurkio taškinį įvertį (Mean, žr.(4.23)) irpasikliautinąjį intervalą (Lower CL Mean, Upper CL Mean; žr. (4.26)); standartinionuokrypio vidurkio taškinį įvertį (Std Dev, žr.(4.24)) ir pasikliautinąjį intervalą (Lower CLStd Dev, Upper CL Std Dev; žr. (4.28)); pagal nutylėjimą yra apskaičiuojami pasikliautiniejiintervalai su pasikliovimo lygmeniu 0,95; jeigu norime, kad apskaičiuotų su kitu pasikliovimolygmeniu, tai Proc sakinyje nurodome ALPHA=1-Q, čia Q – pasikliovimo lygmuo.Lentelėje „Equality of Variances“ (dispersijų lygybė) spausdinama kriterijausstatistikos reikšmė (F Value, žr.(5.12)), P-reikšmė (Pr>F), skirta patikrinti hipotezę apiedispersijų lygybę su dvipuse alternatyva. Kadangi P-reikšmė (0,5145) didesnė už pasirinktąreikšmingumo lygmenį 0.05, tai hipotezė priimama su reikšmingumo lygmeniu 0.05, t.y.galime teigti, kad spindulio R srovės stiprumo dispersija antrajame testeryje pirmo ir antropaleto yra tokia pati.6. Dviejų vidurkių palyginimo hipotezėsNagrinėsime du atvejus: 1) nepriklausomos imtys, 2) priklausomos imtys.Prieš tikrinant hipotezę apie vidurkių lygybę reikia nustatyti ar imtys priklausomos, arnepriklausomos. Priklausomos imtys, jei tie patys objektai tiriami kelis kartus, pavyzdžiui,lyginame studentų testo rezultatus semestro pradžioje ir pabaigoje. Nepriklausomos imtys, jeitiriamos kelios objektų grupės, pavyzdžiui, lyginame dviejų studentų grupių testo rezultatus.Jeigu imtys nepriklausomos, tai prieš tikrinant vidurkių lygybę reikia patikrintidispersijų lygybę (žr. 5 skyrelį).137

6.1. Hipotezė apie vidurkių lygybę, kai imtys nepriklausomosTarkime, kad X = X , X ,..., X ) ir Y = Y , Y ,..., Y ) yra nepriklausomos(1 2 n(1 2 matsitiktinių dydžių X ir Y imtys, atsitiktinio dydžio X skirstinys yra normalusis su vidurkiu µ12ir dispersija σ1, atsitiktinio dydžio Y skirstinys yra normalusis su vidurkiu µ2ir dispersija222σ2, t.y. X~N( µ1,σ1), Y~N( µ2, σ2).Nagrinėsime kelis atvejus.2 21) Tarkime, kad dispersijos lygios, t.y. σ = . Reikia patikrinti hipotezę1σ2: µ − µ = ,(5.13)H0 1 2β0čia β0žinoma konstanta. Kritinė sritis sudaroma remiantis tuo, kadt =X − Y − βs1 1+n m0,(5.14)skirstinys yra Stjudento skirstinys su n+m-2 laisvės laipsniais, kai hipotezė H : µ − µ = β0 1 2 0nm11teisinga; čia X = ∑ X i, Y = ∑Y i,nmi=1j=1s21=1n −1222 ( n −1)s1+ ( m −1)s2s =,n + m − 22 2 1( Xi− X ) , s2=m −1m∑j=1m∑j=1( Yi− Y )2.(5.15)Kritinės sritys įvairių alternatyvų atveju pateiktos 5.5 lentelėje. Šioje lentelėje t,apibrėžta (5.14); α - pasirinktas reikšmingumo lygmuo; t v( n + m − 2)yra Stjudentoskirstinio su n-2 laisvės laipsniais v-toji kritinė reikšmė.5.5 lentelė. Kritinės sritysHipotezė H0Alternatyva H Kritinė (atmetimo) sritis W:1µ µ ≤ β ( µ − µ = ) 0µ − µ >> t ( n + m − 2)1−2 0 1 2β1 2β0( )1− µ2≥ β0µ1− µ2β0µ1µ2< β0( µ )1− µ2= β0µ1µ2≠ β0µ =tα− < −t( n + m − 2)tα| tα / 2−− | > t ( n + m 2)2 22) Tarkime, kad dispersijos lygios, t.y. σ = . Reikia patikrinti hipotezę1σ2: µ = .(5.16)H0 1µ25.4 p a s t a b a. Hipotezė H : 0µ µ 1=2yra atskiras atvejis hipotezės, nagrinėtospirmame punkte, kai β = 00 . Hipotezę tikriname naudodami 5.5 lentelę.2 23) Tarkime, kad dispersijos nežinomos ir nelygios, t.y. σ1≠ σ2. Reikia patikrintihipotezę (5.16). Tada galima sukonstruoti tik apytikslį kriterijų. Kriterijaus statistikačiaX − Yt′ = ,(5.17)w 1+ w 2138

22s1s2w1= , w2= .(5.18)n mTegu tikriname hipotezę H : µ = µ su alternatyva 0 1 2H1: µ1≠ µ2. Hipotezė atmetamasu reikšmingumo lygmeniu α , jeigu | t ′ | > t 2( k α/) , čia t 2( k α/) yra Stjudento skirstinio su klaisvės laipsnių (α / 2)- toji kritinė reikšmė;2( w1+ w2)k =.(5.19)2 2w1w2+n −1m −1Vienpusėms alternatyvoms naudojama ta pati statistika (5.18). Vienpusei alternatyvaiH1: µ1> µ2kritinė sritis W: hipotezė atmetama su reikšmingumo lygmeniu α , kait′ > tα(k) . Vienpusei alternatyvai H1: µ1< µ2kritinė sritis W: hipotezė atmetama sureikšmingumo lygmeniu α , kai t′ < −t(k).αHipotezę apie vidurkių lygybę ( H0: µ1= µ2.) galima patikrinti su SAS modulioSTAT procedūra TTEST. Sintaksė:PROC TTEST DATA=lentelė;CLASS kint1VAR kint2;RUN;čia kint1 – klasifikuojantis kintamasis, t.y. kintamasis kuris parodo, iš kurios imties yrastebėjimas; kint2 – analizuojamas kintamasis.Procedūra lentelėje „T-Tests“ spausdina dvi statistikas ir atitinkamas P-reikšmes.Kurią eilutę naudoti nusprendžiame patikrinę hipotezę apie dispersijų lygybę (žr. 5 skyrelį).Jeigu dispersijos lygios, tai žiūrime į eilutę, kurioje parašyta „Equal“ (stulpelis„Variances“). Šioje eilutėje pateikiamas laisvės laipsnių skaičius n+m-2 (stulpelis „DF“),statistikos t reikšmė (stulpelis „t Value“) ir dvipusė P-reikšmė (stulpelis „Pr>|t|“).Jeigu dispersijos nelygios, tai žiūrime į eilutę, kurioje parašyta „Unequal“ (stulpelis„Variances“). Šioje eilutėje pateikiamas laisvės laipsnių skaičius k (žr.(5.19), stulpelis „DF“),statistikos t′ reikšmė (žr. (5.17), stulpelis „t Value“) ir dvipusė P-reikšmė (stulpelis „Pr>|t|“).2 2Procedūra spausdina dvipusę P-reikšmę, t.y. galime patikrinti hipotezę H σ = σ2su alternatyva H : 21σ σ 1≠2. Jeigu norime patikrinti hipotezę su vienpuse alternatyva, tainaudojame metodą, pateiktą 5.2 pastaboje.Su procedūra TTEST galima patikrinti hipotezę : µ − µ = . Šiuo atveju Proc139H0 1 2β0β = 0sakinyje reikia nurodyti H0= β 0. Pagal nutylėjimą 0 , t.y. tikrinama hipotezėH µ = µ .0 :120 :5.9 p a v y z d y s. Tarkime, kad turime duomenis iš 3.7 pavyzdžio. a) Ar galime teigti,kad vidutinis spindulio G srovės stiprumas antrajame testeryje pirmo ir antro paleto yra tokspats? Reikšmingumo lygmuo 0.05.Turime dvi nepriklausomas imtis (matuojami skirtingi kineskopai). Analizuojamaskintamasis „i_g“, kintamasis „paleto_nr“ parodo, kuriam paletui priklauso kineskopas.Suformuluojame hipotezę ir alternatyvą: hipotezė H : µ = µ , alternatyva 0 1 2H1: µ1≠ µ2.Editor lange parašome:PROC TTEST DATA=kineskopai;CLASS paleto_nr;VAR i_g;WHERE paleto_nr=1 or paleto_nr=2;RUN;12

Output lange gauname:The TTEST ProcedureStatisticsLower CL Upper CL Lower CL Upper CLVariable paleto_nr N Mean Mean Mean Std Dev Std Dev Std Dev Std Erri_g 50 6.1696 6.212 6.2544 0.1247 0.1493 0.1861 0.02111i_g 50 6.1271 6.174 6.2209 0.1379 0.1651 0.2058 0.02342i_g Diff (1-2) -0.024 0.038 0.1005 0.1381 0.1574 0.183 0.0315T-TestsVariable Method Variances DF t Value Pr > |t|i_g Pooled Equal 98 1.21 0.2304i_g Satterthwaite Unequal 97 1.21 0.2304Equality of VariancesVariable MethodNum DF Den DF F Value Pr > Fi_g Folded F 49 49 1.22 0.4842Lentelėje „Statistics“ spausdinami vidurkio bei standartinio nuokrypio taškiniaiįverčiai bei pasikliautinieji intervalai; pagal nutylėjimą yra apskaičiuojami pasikliautiniejiintervalai su pasikliovimo lygmeniu 0,95; jeigu norime, kad apskaičiuotų su kitu pasikliovimolygmeniu, tai Proc sakinyje nurodome ALPHA=1-Q, čia Q – pasikliovimo lygmuo.Patikrinsime hipotezę apie vidurkių lygybę. Patikriname hipotezę apie dispersijųlygybę. Žiūrime į lentelę „Equality of Variances“. Kadangi P-reikšmė (stulpelis „Pr>F“)0.4842 yra didesnė už pasirinktą reikšmingumo lygmenį 0.05, tai hipotezė priimama, t.y.dispersijos lygios. Tada žiūrime į lentelę „T-Tests“. Kadangi dispersijos lygios, tai imame P-reikšmę (stulpelis „Pr>|t|“) iš eilutės „Equal“ (stulpelis „Variances“). Kadangi P-reikšmė0.2304 yra didesnė už pasirinktą reikšmingumo lygmenį 0.05, tai hipotezė priimama, t.y.duomenys neprieštarauja hipotezei, kad vidutinis spindulio G srovės stiprumas antrajametesteryje pirmo ir antro paleto yra toks pats.b) Ar galime teigti, kad vidutinis spindulio R srovės stiprumas pirmajame testeryjepirmo ir antro paleto yra toks pats? Reikšmingumo lygmuo 0.05Analizuojamas kintamasis „i_katodo_r“, klasifikuojantis kintamasis „paleto_nr“.Suformuluojame hipotezę ir alternatyvą: hipotezė H : µ = µ , alternatyva 0 1 2H1: µ1≠ µ2.Editor lange parašome:PROC TTEST DATA=kineskopai;CLASS paleto_nr;VAR i_katodo_r;WHERE paleto_nr=1 or paleto_nr=2;RUN;Output lange gauname:The TTEST ProcedureStatisticsLower CL Upper CL Lower CL Upper CLVariable paleto_nr N Mean Mean Mean Std Dev Std Dev Std Dev Std Erri_ 47 6.5795 6.6915 6.8035 0.3171 0.3815 0.4792 0.0557katodo_r 1i_ 49 6.5553 6.6 6.6447 0.1296 0.1555 0.1942 0.0222katodo_r 2i_ Diff (1-2) -0.026 0.0915 0.2087 0.253 0.2891 0.3373 0.059katodo_r140

T-TestsVariable Method Variances DF t Value Pr > |t|i_katodo_r Pooled Equal 94 1.55 0.1245i_katodo_r Satterthwaite Unequal 60.3 1.53 0.1320Equality of VariancesVariable Method Num DF Den DF F Value Pr > Fi_katodo_r Folded F 46 48 6.02 |t|“) iš eilutės „Unequal“ (stulpelis„Variances“). Kadangi P-reikšmė 0.1320 yra didesnė už pasirinktą reikšmingumo lygmenį0.05, tai hipotezė priimama, t.y. duomenys neprieštarauja hipotezei, kad vidutinis spindulio Rsrovės stiprumas pirmajame testeryje pirmo ir antro paleto yra toks pats.6.2. Hipotezė apie vidurkių lygybę, kai imtys priklausomosTarkime, kad X , Y ), i = 1,...,n yra dydžio n imtis, gauta stebint du priklausomus(i i22normaliuosius atsitiktinius dydžius: X ~ N(µ 1, σ 1) , Y ~ N(µ 2, σ 2) , vidurkiai ir dispersijosnežinomos.Reikia patikrinti hipotezę H 0 : µ 1 = µ 2 . Patikrinti šiai hipotezei yra naudojamasporinis (paired) t kriterijus. Jis grindžiamas tuo, kad dviejų normaliųjų atsitiktinių dydžiųskirtumas irgi turi normalųjį skirstinį, t.y. Z = X − Y skirstinys yra normalusis su vidurkiuµd= µ 1− µ 2. Taigi, H : µ1= µ2yra ekvivalenti hipotezei H : µ d= µ1− µ2= 0 . Kaippatikrinti hipotezę apie vidurkio reikšmę, kai dispersija nežinoma aprašėme 2.2 skyrelyje.5.10 p a v y z d y s. Tarkime, kad turime duomenis iš 3.7 pavyzdžio. Ar galime teigti,kad vidutinis spindulio R srovės stiprumas pirmajame ir antrajame testeryje yra toks pats?Reikšmingumo lygmuo 0.05.Turime dvi priklausomas imtis, nes tie patys kineskopai matuojami du kartus.Analizuojami kintamieji i_katodo_r ir i_r. Reikia patikrinti hipotezę apie vidurkių lygybę.Sukuriame naują sk_r kintamąjį: skirtumai tarp i_katodo_r ir i_r ir tikriname hipotezę, kadkintamojo sk_r vidurkis lygus 0 su alternatyva, kad nelygus 0. Naudosime procedūrąUNIVARIATE. Editor lange parašome:DATA skirtumas;SET kineskopai;sk_r=i_katodo_r-i_r; /*sukuriame naują kintamąjį*/RUN;PROC UNIVARIATE DATA=skirtumas;VAR sk_r;RUN;Output lange gauname:The UNIVARIATE ProcedureVariable: sk_rMomentsN 194 Sum Weights 194Mean 0.42010309 Sum Observations 81.5Std Deviation 0.26203269 Variance 0.06866113Skewness 4.08555432 Kurtosis 35.7253939Uncorrected SS 47.49 Corrected SS 13.2515979Coeff Variation 62.373425 Std Error Mean 0.01881285141

Tests for Location: Mu0=0Test-Statistic- -----p Value------Student's t t 22.33065 Pr > |t| = |M| = |S| ρ0, H1 : ρ < ρ0, H1 : ρ ≠ ρ0tikrinimo kriterijai grindžiamiempiriniu koreliacijos koeficientu (Pirsono koreliacijos koeficientu)( Xi− X )( Yi− Y )i=1ˆ ρ = r =,(5.21)n∑i=1n∑( Xi− X )n∑i=1( Yi− Y )nn11čia X = ∑ X i, Y = ∑Y i.n i=1 n i=1Tarkime, kad ρ = 00 . Tada, sudarydami kriterijus, galime remtis tuo, kad statistikoskai ρ = ρ = 00 . Hipotezės H (1) ,t = n − 2r~ S(n − 2),(5.22)21−r0H (2)0,(3)H0atmetamos, kai atitinkamait > tα ( n − 2); t < −tα( n − 2); | t | > tα/ 2( n − 2);(5.23)čia t v( n − 2)yra Stjudento skirstinio su n-2 laisvės laipsniais v-toji kritinė reikšmė.Tarkime, kad ρ ≠ 00 . Galima sudaryti apytikslius kriterijus naudojant Fišeriopasiūlytą atsitiktinio dydžioV=1ln2aproksimaciją normaliuoju skirstiniu (žr. (4.35)). Kritinė sritis sudaroma remiantis tuo, kad1+1−rr(5.24)1 1+r 1 1+ρ0ρ0ln − ln −(5.25)2 1−r 2 1−ρ02( n −1)turi normalųjį skirstinį su nuliniu vidurkiu ir dispersija 1/(n-3), kai hipotezė teisinga. Dydisρ /(2( n 1)) yra poslinkio pataisa.0−

Patikrinti hipotezę H : 0ρ = ρ 0galima su SAS procedūra CORR. Sintaksė:PROC CORR DATA=lentelė FISHER(pasirinktys);VAR kintamieji;RUN;čia pasirinktys:ALPHA=α, čia α=1-Q, Q – pasikliovimo lygmuo;RHO0=ro0, čia ro0= ρ 0hipotetinė koreliacijos koeficiento reikšmė;TYPE=LOWER| UPPER | TWOSIDED (apatinis vienpusio pasikliautinojo intervalorėžis ir P-reikšmė vienpusei dešininei alternatyvai | viršutinis pasikliautinojo intervalo rėžis irP-reikšmė vienpusei kairinei alternatyvai | dvipusis pasikliautinasis intervalas ir P-reikšmėdvipusei alternatyvai; pagal nutylėjimą TWOSIDED.VAR sakinyje nurodome analizuojamus kintamuosius.Pataisa ρ0/(2( n −1))skaičiuojant P-reikšmes su procedūra CORR visada naudojama;pasikliautinuosius intervalus galima apskaičiuoti su pataisa arba be (žr. 4 sk., 2.2 skyrelį).5.11 p a v y z d y s. Tarkime, kad turime 4.2 pavyzdyje modeliuotus duomenis, t.y.⎛ 4 1.6⎞a.v. ( X , Y ) ~ N2( µ , Σ)dydžio n = 100 imtį, čia µ = ( 2,3), Σ = ⎜ ⎟,t.y. ρ = 0, 6 .⎝1.61 ⎠Patikrinkime hipotezę, kad koreliacijos koeficientas lygus 0,6. Reikšmingumo lygmuo0,05. Suformuluojame hipotezę ir alternatyvą: hipotezė H 0: ρ = 0, 6 , alternatyvaH 1: ρ ≠ 0,6. Editor lange parašome:PROC CORR DATA=dvimatis FISHER(RH0=0.6);VAR X Y;RUN;Output lange gauname:The CORR Procedure2 Variables: X YSimple StatisticsVariable N Mean Std Dev Sum Minimum MaximumX 100 1.67614 1.85814 167.61400 -1.38379 6.76871Y 100 2.94740 1.06393 294.74044 0.68343 5.55309Pearson Correlation Coefficients, N = 100Prob > |r| under H0: Rho=0XYX 1.00000 0.56355

Gavome, kad koreliacijos koeficiento taškinis įvertis r = 0, 56355 (SampleCorrelation, žr. (5.21)); koreguotas koreliacijos koeficiento taškinis įvertis naudojant pataisą(žr. (4.41)) r = 0.koreg56160 (žr. (4.41); Correlation Estimate); koreliacijos koeficiento 95%pasikliautinasis intervalas (žr. (4.38)) yra: , ρ ) = ( 0.410464, 0.682713)ρ .(koreg koregLentelėje “Pearson Correlation Coefficients” pirmasis skaičius yra imties koreliacijoskoeficientas (5.21), antrasis skaičius yra P-reikšmė hipotezei H 0: ρ = 0 su dvipusealternatyva. Kadangi P-reikšmė yra mažesnė už 0.0001, tai hipotezė apie koreliacijoskoeficiento lygybę nuliui atmetama.Lentelėje “Pearson Correlation Statistics (Fisher's z Transformation)” yra pateikiamaP-reikšmė (p Value) hipotezei H 0: ρ = 0, 6 su dvipuse alternatyva. Kadangi P-reikšmė0.5668 yra didesnė už pasirinktą reikšmingumo lygmenį 0.05, tai hipotezė neatmetama.VI skyrius. Neparametriniai kriterijaiV skyriuje nagrinėjome parametrinių hipotezių tikrinimo uždavinius. Tarėme, kadstebimo atsitiktinio dydžio tikimybinis skirstinys priklauso šeimai P , kuri aprašoma žinomosanalizinės išraiškos pasiskirstymo funkcija, priklausančia nuo k-mačio parametro, ir tikrinomehipotezes apie parametro reikšmes. Šiame skyriuje aptarsime hipotezių tikrinimo uždavinius,kai šeimos P skirstinių funkcinė išraiška nežinoma. Tarkime, kad X = ( X1,X2,..., Xn) yraatsitiktinio dydžio X imtis. Tegu a.d. X skirstinys priklauso šeimai P = { F , F ∈F}, čia F -tam tikra pasiskirstymo funkcijų aibė. Tarkime, kad F0yra aibės F poaibis.Neparametrine hipoteze vadiname tvirtinimą:H0 0 0F: X ~ F(x)∈F , F ⊂ ,(6.1)t.y. a.d. X pasiskirstymo funkcija F (x)priklauso aibei F0.Pagrindiniai neparametrinių hipotezių tipai (žr. [5]):1) Suderinamumo hipotezės. Tarkime, kad X = ( X1,X2,..., Xn) yra atsitiktinio dydžioX imtis ir a.d. X skirstinys priklauso šeimai P = { F , F ∈F}. Paprastąją suderinamumo hipotezevadiname tvirtinimą:: X ~ F(x)≡ F ( ),(6.2)H0 0xčia F 0( x ) - pilnai nusakyta aibės F pasiskirstymo funkcija, t.y. aibė F0susideda išvienintelio elemento F 0( x ) .Sudėtingąja suderinamumo hipoteze vadiname tvirtinimą:H0 0 0F: X ~ F(x)∈F, F = { F(x,θ),θ ∈ Θ}⊂ ,(6.3)čia F ( x,θ)- žinomos analizinės išraiškos pasiskirstymo funkcija, kuri priklauso nuoparametro θ .Pateiksime pavyzdį. Tvirtinimas H 0: X ~ N(−2,4)(t.y. X skirstinys normalusis suvidurkiu -2 ir dispersija 4) yra paprastoji suderinamumo hipotezė. Tvirtinimas2H0: X ~ F(x)∈F0, F0 = { N ( µ , σ ), − ∞ < µ < ∞,σ > 0}⊂ F (t.y. X skirstinys normalusis)yra sudėtingoji suderinamumo hipotezė.2) Nepriklausomumo hipotezė. Stebime ( X , Y ) ~ F(x,y). Tikriname:H 0: ( X , Y ) ~ F(x,y)≡ F(x)G(y), ∀ x, y(6.4)t.y. a.d. X ir Y nepriklausomi.3) Homogeniškumo hipotezė. Stebime X ~ F(x), Y ~ G(y). Tikriname:144

H 0: F(x)≡ G(x), ∀ x(6.5)t.y. X ir Y pasiskirstymo funkcijos sutampa. Galima apibendrinti daugiau negu dviejųatsitiktinių dydžių atvejui.Neparametrinių hipotezių tikrinimo metodus galima suskirstyti į dvi grupes:I) Keitimas parametrine hipoteze. Tikimybinių skirstinių šeimą P = { F , F ∈F}keičiame šeima P = { F(x,θ),θ ∈ Θ}, kurios pasiskirstymo funkcijos F ( x,θ)analizinėišraiška yra žinoma. Neparametrinius hipotezių apytikslius kriterijus gauname tikrindamiparametrines hipotezes apie θ reikšmes.II) Su skirstiniais nesusijusių kriterijų parinkimas. Ieškome tokių statistinių kriterijų,kuriuos galėtume taikyti, kai skirstinių šeima platesnė (pavyzdžiui, visi tolydieji skirstiniai).Tokius kriterijus vadiname nesusijusiais su skirstiniais. Jų taikymo galimybės nepriklauso nuoskirstinio išraiškos. Yra trys tokių kriterijų tipai:a) Chi-kvadrato kriterijus. Naudojame ne pradinius stebėjimus, o tik patekimo į tamtikrus intervalus dažnumus.b) Kriterijai, grindžiami statistikomis, kurios priklauso nuo empirinės ir teorinėspasiskirstymo funkcijos skirtumo.c) Ranginiai kriterijai. Naudojami ne patys stebėjimai, bet jų išsidėstymo variacinėjeeilutėje numeriai.1. Chi-kvadrato kriterijus neparametrinėms hipotezėms tikrintiChi-kvadrato kriterijus yra universalus. Jį galima naudoti suderinamumo, nepriklausomumoir homogeniškumo hipotezėms tikrinti. Šis kriterijus remiasi dviem teoremomis.Tarkime, kad atliekame bandymą, kurio metu įvyksta vienas iš nesutaikomų įvykiųA , A ,..., 2A , sudarančių pilnąją įvykių grupę. Kiekviename bandyme tikimybė, kad įvyks1 kįvykisA lygiip ( i = 1,...,k,p ... + p 1) ir nepriklauso nuo kitų bandymų rezultatų.i1+k=A1, A2,..., Akskaičių pažymėkime V , V2,..., VkAtlikus n bandymų, įvykusių įvykių1. Tadaatsitiktinių dydžių V1, V2,..., V ( V + V + ... + V =1 2kn ) tikimybinis skirstinys yra polinominis:kn!n1n2nP { V1,2 2,..., }1 2... kk= n V = n Vk= nk= p p pk.(6.6)n ! n !... n !6.1 t e o r e m a. Tegu p > 0,i = 1,...,k.Apibrėžkimei12kk2 k2 ( Vi− npi) ViX = ∑ = ∑ − n.(6.7)np npi=1i2Tada atsitiktinio dydžio X tikimybinis skirstinys silpnai konverguoja į chi-kvadratoskirstinį su k-l laisvės laipsniu, kai n → ∞ .6.2 t e o r e m a. Tarkime, kad tikimybės piyra tam tikros nežinomų parametrųθ1, θ2,..., θ sfunkcijos ( pi = p i( θ1,θ2,..., θs) ), kurios kiekviename s-mačio neišsigimusiointervalo Θ taške tenkina sąlygas:k∑a) p ( θ ,..., θ ) 1;i=1i1 s=2b) p ( θ ,..., θ ) > c 0,i = 1,...,k;i1 s>i=12i∂p c) egzistuoja tolydžios dalinės išvestinės i,∂θj∂ 2 p i( i = 1,...,k ;∂θ ∂θjlj , l = 1,...,s );145

d) matricos∂p D = i, i = 1,...,k,∂θjj = 1,...,s , rangas lygus s.Tarkime, kad n kartų atlikome prieš 6.1 teoremą aprašytą bandymą, kuriame tikimybė,00 00 0kad įvyks įvykis Ai, lygi pi = p i( θ1,..., θs), čia θ0= ( θ1,..., θs) yra vidinis intervalo Θtaškas.2Parametro θ įvertį galima gauti modifikuotuoju χ minimumo metodu (žr.[5]), t.y. θįvertis yra lygčių sistemosV − np ( θ ,..., θ )∂p∂pkki i 1 s ii i∑= ∑i= 1 pi( θ1,...,θs) ∂θj i=1 pi∂θjV= 0,j = 1,..., s,(6.8)sprendinys.Kai minėtos sąlygos patenkintos, tai lygčių sistema (6.8) turi vienintelį sprendinį θˆ ,kuris pagal tikimybę konverguoja į θ0, kai n → ∞ . StatistikaX21= X21k2( Vi− npi( ˆ θ1,...,ˆ θs))(ˆ) p = ∑(6.9)np ( ˆ θ ,..., ˆ θ )i=1 i 1asimptotiškai pasiskirsčiusi pagal chi-kvadrato skirstinį su k-l-s laisvės laipsnių.1.1. Paprastosios suderinamumo hipotezės tikrinimasTarkime, kad X = ( X1,X2,..., Xn) yra atsitiktinio dydžio X imtis. Tegu a.d. Xskirstinys priklauso šeimai P = { F , F ∈F}.Tikriname paprastąją hipotezęH0 0Rs: F(x)≡ F ( x),x ∈ ,(6.10)čia F (x)yra X pasiskirstymo funkcija, F0( x ) - pilnai nusakyta šeimos F pasiskirstymofunkcija.X galimų reikšmių sritį suskirstykime į k intervalų. Tegu xiyra i-tojo intervalo viduriotaškas, o hiintervalo ilgis. Pažymėkime Aiįvykį, kuris reiškia, kad stebimasis dydis įgijoreikšmę iš i-tojo intervalo. Tada atsitiktinio dydžio V = ( V 1,..., V k) (čia Vi- imties reikšmių,patekusių į i-tąjį intervalą, skaičius) skirstinys yra polinominis (žr. aprašymą prieš 6.1teoremą).Hipotezė (6.10) keičiama hipoteze0H′ : p = p , i 1,..., ,(6.11)0 i i= kčia0piyra patekimo į i-tąjį intervalą, kai hipotezė teisinga, tikimybė;p0i= F x + h / 2) − F ( x − h / 2).(6.12)( 0 i i0ii0Alternatyva: H′ 1: pi≠ pi, bent vienam i = 1,...,k.Pagal 6.1 teoremą, jeigu hipotezė (6.11) teisinga, tai statistikak02 ( Vi− npi)X = ∑ 0npi=1i2=k∑i=1Vnp2i0i− n(6.13)asimptotiškai ( n → ∞ ) pasiskirsčiusi pagal chi-kvadrato skirstinį su k-l laisvės laipsniu.146

2Hipotezė H′0atmetama su reikšmingumo lygmeniu α , kai X > χ 2α( k −1),čia2χ ( k −1)yra chi-kvadrato skirstinio su k-l laisvės laipsniu α -toji kritinė reikšmė.α6.1 p a s t a b a. Praktikoje rekomenduojama taikyti, kai np 0 i≥ 5 .Paprastąją suderinamumo hipotezę galima patikrinti su SAS procedūra FREQ (žr. IIIsk., 1 skyrelį). Reikia TABLES sakinyje nurodyti CHISQ.Pagal nutylėjimą tikrinama hipotezė (6.11) su p 0 = i1/k , i = 1,K,k , t.y.H′: p= 1/ k,147i = 1, K,00 i= pikt.y. vienodos tikimybės. Jei norime patikrinti hipotezę su skirtingomis tikimybėmisreikia papildomai nurodyti TESTP=(0p10p20p3...0k,p ) arba TESTF=( np00npk) , čia npi- tikėtinas dažnis, n – stebėjimų skaičius, k – įvykių skaičius,įvykio tikimybė.010np20pi, tai0np3...pi- i-tojo6.1 p a v y z d y s. Duomenys iš [5]. Per ilgą laikotarpį nustatyta, kad gamyklavidutiniškai pagamina 35% pirmosios rūšies, 60% antrosios rūšies gaminių, o 5% produkcijossudaro brokas. Patikrinus 300 gaminių partiją buvo rasta 115 gaminių pirmosios rūšies, 165 –antrosios ir 20 – su defektais. Ar galime teigti, kad gaminių kokybė nepasikeitė? Reikšmingumolygmuo 0.05.Šiame pavyzdyje V1= 115,V2= 165,V = 20 3; reikia patikrinti hipotezęH′ 0: p1= 0,35, p2= 0,6, p3= 0,05.Sukurkime duomenų lentelę. Editor lange parašykime:DATA duomenys;INPUT Rusis $ Kiekis;Label Rusis=’Rūšis’;DATALINES;pirma 115antra 165brokas 20;RUN;Naudosime procedūrą FREQ. Editor lange parašome:PROC FREQ DATA=duomenys ORDER=DATA;WEIGHT Kiekis;TABLES Rusis / NOCUM TESTP=(35 60 5);RUN;ORDER=DATA nurodo, kad atitinkamos tikimybės, nurodytos su TESTP, išdėstytostokia pačia tvarka kaip reikšmės duomenų lentelėje. Kintamasis „Kiekis“ nurodo reikšmiųdažnius. Output lange gauname:The FREQ ProcedureRušisTestRusis Frequency Percent Percentpirma 115 38.33 35.00antra 165 55.00 60.00brokas 20 6.67 5.00Chi-Square Testfor Specified ProportionsChi-Square 3.8690DF 2Pr > ChiSq 0.1445Sample Size = 300

Pirmojoje lentelėje spausdinamas (žr. III skyrius, 1 skyrelis) reikšmių dažnis (Frequency),procentinis dažnis (Percent) ir hipotetinės reikšmės p = 0,35, p = 0,6, p 0,000051481 23=2(procentais). Lentelėje „Chi-Square Test for Specified Proportions“ pateikiama statistikos Xreikšmė 3,869. Gauta P-reikšmė 0,1445 didesnė už pasirinktą reikšmingumo lygmenį, todėlhipotezę neatmetama, t.y. galime teigti, kad gaminių kokybė nepasikeitė.1.2. Sudėtingosios suderinamumo hipotezės tikrinimasTarkime, kad X = ( X1,X2,..., Xn) yra atsitiktinio dydžio X imtis. Tegu a.d. Xskirstinys priklauso šeimai P = { F , F ∈F}. Reikia patikrinti sudėtingąją hipotezę:H0F0: F ( x)∈ ,(6.14)čia F (x)yra X pasiskirstymo funkcija, F = { F ( x,θ),θ ∈ Θ}⊂ , F ( x,θ)- pasiskirstymo0Fsfunkcija, kurios analizinės išraiškos žinoma, o θ = ( θ 1,..., θ ) ∈ Θ ⊂ R .X galimų reikšmių sritį suskirstykime į k intervalų. Tegu xiyra i-tojo intervalo viduriotaškas, o hiintervalo ilgis. Pažymėkime Aiįvykį, kuris reiškia, kad stebimasis dydis įgijoreikšmę iš i-tojo intervalo. Tada atsitiktinio dydžio V = ( V 1,..., V k) (čia Vi- imties reikšmių,patekusių į i-tąjį intervalą, skaičius) skirstinys yra polinominis (žr. aprašymą prieš 6.1teoremą).Hipotezė (6.14) keičiama hipotezečias′ : p = p ( θ ,..., θ ), i 1,..., ,(6.15)H0 i i 1 s= kp θ ,..., θ ) = F(x + h / 2, θ ,..., θ ) − F(x − h / 2, θ ,..., θ ). (6.16)i(1 si i 1 si i 1 sAlternatyva: ′ : p ≠ ( θ ,..., θ ), bent vienam i = 1,...,k.H1 ip i 1 s2Pagal 6.2 teoremą, jeigu hipotezė (6.15) teisinga, tai statistika X1, apibrėžta (6.9),asimptotiškai ( n → ∞ ) pasiskirsčiusi pagal chi-kvadrato skirstinį su k-s-l laisvės laipsniu.2Hipotezė H′0atmetama su reikšmingumo lygmeniu α , kai X21> χα( k − s −1),čia2χα( k − s −1)yra chi-kvadrato skirstinio su k-s-l laisvės laipsniu α -toji kritinė reikšmė.6.2 p a s t a b a. Vertinant parametrą θ , tenka spręsti gana sudėtingą (6.8) sistemą.Tačiau praktikoje rasti tos sistemos apytikslius sprendinius palyginti nesunku. Pavyzdžiui(žr.[5]), kai skirstinys yra Puasono, parametro λ apytiksliu įverčiu galime imti imties vidurkį22X ; kai skirstinys yra normalusis su vidurkiu µ ir dispersija σ , tai µ ir σ apytiksliaisįverčiais galime imti statistikas X irrezultatais.2s , apskaičiuotas remiantis sugrupuotais stebėjimo6.2 p a v y z d y s. Tarkime, kad turime duomenų lentelę, sukurtą su tokiu Datažingsniu:%LET n=300;DATA duom;DO i=1 to &n;X=3+2*NORMAL(10);OUTPUT;END;RUN;Patikrinkime sudėtingąją suderinamumo hipotezę: duomenys yra gauti stebint normalųjįatsitiktinį dydį. Reikšmingumo lygmuo 0,05.Imkime intervalų skaičių k = 8 . Apskaičiuokime intervalo ilgį. Editor langeparašykime:

%LET k=8;/*intervalų skaičius*/PROC MEANS DATA=duom MIN MAX;OUTPUT OUT=pag MIN(X)=min MAX(X)=max;VAR X;RUN;DATA pag;SET pag;CALL SYMPUT(”maksimali”, max); /* sukuriami makrokintamieji: */CALL SYMPUT(”minimali”, min); /* maksimali, minimali reikšmė */intervalas=(max-min)/&k; /* intervalo ilgis */CALL SYMPUT(”h”, intervalas);RUN;Sugrupuojame stebėjimus į intervalus ir suskaičiuojame kiek į kiekvieną intervaląpateko reikšmių. Editor lange parašome:DATA duom; /* lentelėje sukuriame stulpelį, kuriame būtų*/SET duom; /* intervalo numeris*/IF &minimali

RUN;DATA Rezultatas;SET Rezultatas;s=2; /* įvertintų parametrų skaičius*/kritine_reiksme=cinv(1-0.05,&k-s-1);RUN;X 2< 2χ (5) 11, 0705Lentelėje „Rezultatas“ gauname = 13, 2871neatmetama su reikšmingumo lygmeniu 0,05.Atlikime skaičiavimus su tokiais duomenimis:%LET n=300;DATA duom;DO i=1 TO 200;x=2*rangam(10,5);OUTPUT;END;RUN;0 .05=, todėl hipotezėLentelėje „Rezultatas“ gauname X 2= 149, 9789 > 2χ (5) 11, 07050 .05= , todėl hipotezėatmetama su reikšmingumo lygmeniu 0,05.1.3. Nepriklausomumo tikrinimasTarkime, kad X , Y ), i = 1,...,n,yra dydžio n imtis diskrečiojo atsitiktinio vektoriaus(i i( X , Y ), kurio galimos reikšmės yra ( xi, yj), i = 1,...,s,j = 1,...,r Pažymėkime Vijreikšmėsx , y ) pasikartojimų skaičių imtyje. Stebėjimo rezultatai pateikti 6.1 lentelėje.(i jČia6.1 lentelė. Reikšmių dažniaij y1y ...2yrix1V11V ...12V 1 rx2V21V ...22r.. . . ... . . ... . . .xsVs1s2Σ⋅1V2ΣV1⋅V 2V2⋅...V ... VsrVV ...⋅V ⋅nrs⋅rVi ⋅= ∑Vij, i = 1,..., s,V⋅j= ∑Vij, j = 1,..., r,(6.17)j=1n =s r∑∑V iji= 1 j=1si=1.Gali įvykti įvykiaiA11,..., A . Pažymėkimesrpij= P{X= x , Yi= y },= P{Xi = 1,..., s,j = 1,..., r,ipis∑i=1= x },pii=r∑j=1qqjj= P{Y= 1.=y },i(6.18)Nepriklausomumo hipotezė (6.4) keičiama hipoteze:′ : p = p q , i = 1,..., s,j 1,..., r.(6.19)H 0ij i j=150

Alternatyva: ′ : p ≠ p q , bent vienai porai (i,j).H 1ijijJeigu hipotezė (6.19) teisinga, tai pijyra s+r-2 parametrų p1,..., ps−1,q1,...,qr−1funkcijos (tikimybes psir qrgalima išreikšti tikimybėmis p1,..., ps−1,q1,...,qr−1). Tarkime,kad parametrų piir qj, i = 1 ,..., s,j = 1,...,r įverčiai pîir qˆjyra (6.8) lygčių sistemos2sprendinys. Pagal 6.2 teoremą, kai hipotezė (6.19) teisinga, statistika X1, apskaičiuota pagal(6.9) formulę, asimptotiškai ( n → ∞ ) pasiskirsčiusi pagal chi-kvadrato skirstinį su rs-1-(r+s-2)=(r-1)(s-1) laisvės laipsnių. Gaunameirpˆ i= V n i s qî⋅ / , = 1,..., ,j= V⋅j/ n,j = 1,...,r(6.20)s r22( V − ˆ ˆ ) ⎛ s r2 2( ˆ , ˆ )1 .11 1 ˆ ˆ⎟ ⎞ijnpiqjVijX = X p = ∑∑= ⎜iqjn−∑∑(6.21)i= j=npiqj ⎝ i= 1 j= 1 Vi⋅V⋅j ⎠2Hipotezė H′0atmetama su reikšmingumo lygmeniu α , kai X21> χα(( s −1)(r −1)),čia χ 2α(( s −1)(r −1))yra chi-kvadrato skirstinio su (s-1)(k-l) laisvės laipsniu α -toji kritinėreikšmė.Nepriklausomumą galima patikrinti su SAS procedūra FREQ. Sintaksė:a) tarkime, kad turime tris kintamuosius: kintamasis eilutė, kintamasis stulpelis,reikšmių skaičius, t.y. lentelė buvo sukurta, pavyzdžiui, su tokiu Data žingsniu:DATA lentelė;INPUT kint_eilutė $ kint_stulpelis $ skaičius;DATALINES;eilutės_reikšmė stulpelio_reikšmė skaičius_ląstelėje...eilutės_reikšmė stulpelio_reikšmė skaičius_ląstelėje;RUN;Tada naudojame tokią procedūros FREQ sintaksę:PROC FREQ DATA=lentelė;TABLES kint_eilute * kint_stulpelis / pasirinktys;WEIGHT skaičius;RUN;b) tarkime, kad turime du kintamuosius (t.y. nesusumuoti duomenys): kintamasiseilutė, kintamasis stulpelis, t.y. lentelė buvo sukurta , pavyzdžiui, su tokiu Data žingsniu:DATA lentelė;INPUT kint_eilutė $ kint_stulpelis $;DATALINES;eilutės_reikšmė stulpelio_reikšmė...eilutės_reikšmė stulpelio_reikšmė;RUN;Tada naudojame tokią procedūros FREQ sintaksę:PROC FREQ DATA=lentelė;TABLES kint_eilute * kint_stulpelis / pasirinktys;RUN;čia kintamasis eilutė, kintamasis stulpelis - skaitinio arba simbolinio tipo kintamieji.Pasirinktys:2ALL - įvairūs testai (tame tarpe ir χ ) bei sąryšio matai, bet ne visi atspausdintitinka, reikia atsižvelgti į matavimo skalę;151

2CHISQ - χ kriterijus nepriklausomumui ir homogeniškumui tikrinti, sąryšio matai.EXPECTED – spausdina tikėtinus ląstelių dažnius.6.3 p a v y z d y s. Tarkime, kad turime duomenis pateiktus 6.2 lentelėje. Reikiapatikrinti ar X ir Y yra priklausomi.6.2 lentelė. Duomenys (6.3 pavyzdys)y 5 4 3 2 Σxij4-5 110 70 60 10 2503 0 10 10 30 50Σ 110 80 70 40 300Patikrinsime su chi-kvadrato kriterijumi. Hipotezė: X ir Y yra nepriklausomi.Naudosime proce-dūrą FREQ. Editor lange parašome:DATA duomenys; /*sukuriame duomenų lentelę*/INPUT X $ Y $ sk;DATALINES;4-5 5 1104-5 4 704-5 3 604-5 2 103 5 03 4 103 3 103 2 30;RUN;PROC FREQ DATA=duomenys ORDER=DATA;TABLES X*Y / CHISQ;WEIGHT sk;RUN;Output lange gauname:The FREQ ProcedureTable of X by YXYFrequency‚Percent ‚Row Pct ‚Col Pct ‚5 ‚4 ‚3 ‚2 ‚ Total4-5 ‚ 110 ‚ 70 ‚ 60 ‚ 10 ‚ 250‚ 36.67 ‚ 23.33 ‚ 20.00 ‚ 3.33 ‚ 83.33‚ 44.00 ‚ 28.00 ‚ 24.00 ‚ 4.00 ‚‚ 100.00 ‚ 87.50 ‚ 85.71 ‚ 25.00 ‚3 ‚ 0 ‚ 10 ‚ 10 ‚ 30 ‚ 50‚ 0.00 ‚ 3.33 ‚ 3.33 ‚ 10.00 ‚ 16.67‚ 0.00 ‚ 20.00 ‚ 20.00 ‚ 60.00 ‚‚ 0.00 ‚ 12.50 ‚ 14.29 ‚ 75.00 ‚Total 110 80 70 40 30036.67 26.67 23.33 13.33 100.00Statistics for Table of X by YStatistic DF Value ProbChi-Square 3 121.2857

Contingency Coefficient 0.5366Cramer's V 0.6358Sample Size = 300Procedūra spausdina kryžminę dažnių lentelę (žr. III sk., 1 skyrelis), kurios kiekvienolangelio pirmoje eilutėje yra dažnis, t.y. gauname tokią pačią lentelę kaip 6.2 lentelė.Lentelės „Statistics for Table of X by Y“ pirmoje eilutėje yra spausdinama statistikos2(6.21) reikšmė X = 1121, 2857 (Value) ir P-reikšmė, kuri šiame pavyzdyje yra mažesnė už0,0001, todėl hipotezė atmetama, taigi, gauname, kad X ir Y yra priklausomi.1.4. Homogeniškumo tikrinimasTarkime, kad X , X ,..., 2X , i = 1,...,s yra nepriklausomų atsitiktinių dydžiųi1 i iniX1, X2,..., X satitinkamai dydžio n1, n2,..., nsimtys, o visi atsitiktiniai dydžiai X1, X2,..., Xsyra diskretieji ir jų įgyjamos reikšmės yra x1, x2,..., xr. Pažymėkime Vij, i = 1,...,s , j = 1,...,r ,i-tosios imties stebėjimų, lygių xj, skaičių. Stebėjimo rezultatai pateikti 6.3 lentelėje.Čia6.3 lentelė. Reikšmių dažniaij 1 2 ... r Σi1 V11V ...12V 1 rn12 V21V ...22V 2 rn2..................ss1Σ⋅1Vs2V2ni=r∑j=1ijV ... VsrnsV ...⋅V ⋅nrV , i = 1,..., s,n =Vs∑i=1⋅ j153=n .is∑i=1Vij,j = 1,..., r,(6.22)Gali įvykti įvykiai A1, A2,..., Assu tikimybėmis pi1 , pi2,..., pisatitinkamai,pi1 + pi2+ ... + pis= 1, i = 1,...,s ( pijyra tikimybė, kad i-tasis atsitiktinis dydis įgijo j-tąjąreikšmę.Homogeniškumo hipotezėH0 12sx: F ( x)≡ F ( x)≡ ... ≡ F ( )(6.23)t.y. X1, X2,..., Xspasiskirstymo funkcijos sutampa ( Fiyra a.d.keičiama tokia hipoteze:Xipasiskirstymo funkcija)′ : p = p = ... = p = p , j 1,..., ,(6.24)H0 1 j 2 jsj j= rpp+ ... + p1+2r=Alternatyva H′1: hipotezė H′0neteisinga.Jeigu hipotezė (6.24) teisinga, tai pijyra r-1 parametro p 1,..., p r −1funkcijos (tikimybęprgalima išreikšti tikimybėmis p 1,..., p r −1). Tarkime, kad parametrų pj, j = 1,...,r įverčiai1.

pˆjyra (6.8) lygčių sistemos sprendinys. Pagal 6.2 teoremą, kai hipotezė (6.24) teisinga,2statistika X1, apskaičiuota pagal (6.9) formulę, asimptotiškai ( n → ∞ ) pasiskirsčiusi pagalchi-kvadrato skirstinį su r(s-1)-(s-1)=(r-1)(s-1) laisvės laipsnių. Gaunameirpˆ j= V ⋅ j/ n,j = 1,...,r(6.25)s r22( V − ˆ ) ⎛ s r2 2( ˆ )1 .11 1 ˆ⎟ ⎞ijnpjVijX = X p = ∑∑= ⎜jn−∑∑(6.26)i= j=nipj ⎝ i= 1 j= 1 niV⋅j ⎠2Hipotezė H′0atmetama su reikšmingumo lygmeniu α , kai X21> χα(( s −1)(r −1)),čia χ 2α(( s −1)(r −1))yra chi-kvadrato skirstinio su (s-1)(k-l) laisvės laipsniu α -toji kritinėreikšmė.Matome, kad ir kriterijaus statistika ir sprendimo priėmimo taisyklė yra tokia pati,kaip ir hipotezės apie nepriklausomumą tikrinimo uždavinyje (žr. 1.3 skyrelį). Taigi, galimetikrinti su SAS procedūra FREQ, sintaksė tokia pati kaip 1.3 skyrelyje. Tačiau reikėtųatkreipti dėmesį į tai, kad nors skaičiuojama ir taip pat, tačiau naudojamas kitoks statistinismodelis ir kitaip interpretuojami gauti rezultatai.6.4 p a v y z d y s. Tarkime, kad pirmojoje imtyje reikšmių „A“ yra 38, reikšmių„B“yra 29, reikšmių „C“ yra 41, reikšmių „D“ yra 67; antrojoje imtyje reikšmių „A“ yra 42,reikšmių „B“yra 35, reikšmių „C“ yra 39, reikšmių „D“ yra 40. Patikrinkime homogeniškumohipotezę. Reikšmingumo lygmuo 0.05.DATA duomenys; /*sukuriame duomenų lentelę*/INPUT X Y $ sk;DATALINES;1 A 381 B 291 C 411 D 672 A 422 B 352 C 392 D 40;RUN;PROC FREQ DATA=duomenys;TABLES X*Y / CHISQ;WEIGHT sk;RUN;Output lange gauname:The FREQ ProcedureTable of X by YXYFrequency‚Percent ‚Row Pct ‚Col Pct ‚A ‚B ‚C ‚D ‚ Total1 ‚ 38 ‚ 29 ‚ 41 ‚ 67 ‚ 175‚ 11.48 ‚ 8.76 ‚ 12.39 ‚ 20.24 ‚ 52.87‚ 21.71 ‚ 16.57 ‚ 23.43 ‚ 38.29 ‚‚ 47.50 ‚ 45.31 ‚ 51.25 ‚ 62.62 ‚2 ‚ 42 ‚ 35 ‚ 39 ‚ 40 ‚ 156‚ 12.69 ‚ 10.57 ‚ 11.78 ‚ 12.08 ‚ 47.13‚ 26.92 ‚ 22.44 ‚ 25.00 ‚ 25.64 ‚‚ 52.50 ‚ 54.69 ‚ 48.75 ‚ 37.38 ‚Total 80 64 80 107 33124.17 19.34 24.17 32.33 100.00154

Statistics for Table of X by YStatistic DF Value ProbChi-Square 3 6.5566 0.0875Likelihood Ratio Chi-Square 3 6.6095 0.0854Mantel-Haenszel Chi-Square 1 5.0650 0.0244Phi Coefficient 0.1407Contingency Coefficient 0.1394Cramer's V 0.1407Sample Size = 331Lentelės „Statistics for Table of X by Y“ pirmoje eilutėje yra spausdinama statistikos2(6.26) reikšmė X = 16, 5566 (Value) ir P-reikšmė, kuri šiame pavyzdyje yra 0,0875. Gauta P-reikšmė yra didesnė už pasirinktą reikšmingumo lygmenį 0,05, todėl hipotezė neatmetama.1.5. Kriterijai, susiję su chi-kvadrato kriterijumiTarkime, kad turime tokius pačius duomenis kaip 1.3 skyrelyje.Tikėtinumo santykio chi-kvadrato kriterijus (Likelihood ratio Chi-square test). Jopaskirtis tokia pati kaip ir chi-kvadrato, gaunami panašūs rezultatai. Kriterijaus statistikačias r ⎛V2ij⎞G = 2∑∑Vln⎜⎟ij,(6.27)i= 1 j=1 ⎝ eij⎠e= V V n(6.28)ij i⋅⋅ j/2Statistika G , kai hipotezė (6.19) apie nepriklausomumą teisinga, asimptotiškai( n → ∞ ) pasiskirsčiusi pagal chi-kvadrato skirstinį su (r-1)(s-1) laisvės laipsniu.Koreguotas chi-kvadrato kriterijus (Continuity-Adjusted Chi-square test). Naudojamas,kai imtis mažas r2[max(0,| Vij− eij| −0.5)]QC= ∑∑.(6.29)ei= 1 j=1Statistika QC, kai hipotezė (6.19) apie nepriklausomumą teisinga, asimptotiškai( n → ∞ ) pasiskirsčiusi pagal chi-kvadrato skirstinį su (r-1)(s-1) laisvės laipsniu. Patariamanaudoti, jei n ≤ 40, o jei visos tikėtinos reikšmės didesnės už 5, tai galima ir, kai n ≤ 20.Tikėtinumo santykio chi-kvadrato kriterijaus ir koreguoto chi-kvadrato kriterijausstatistikos reikšmė ir P-reikšmė spausdinamos, kai procedūroje FREQ nurodome CHISQ (žr.1.3 skyrelį).6.5 p a v y z d y s. Tarkime, kad turime tokius pačius duomenis kaip 6.3 pavyzdyje.Jame tikrinome ar kintamieji X ir Y yra nepriklausomi. Naudojome procedūrą FREQ. Outputlange gavome:Statistics for Table of X by YStatistic DF Value ProbChi-Square 3 121.2857

0,0001, todėl hipotezė atmetama, taigi, gauname, kad X ir Y yra priklausomi. Atsakymas tokspats kaip 6.3 pavyzdyje, kuriame naudojame chi-kvadrato kriterijų.1.6. Sąryšio matai, grindžiami chi-kvadrato kriterijumiChi-kvadrato kriterijus nustato ar yra sąryšis tarp kintamųjų, bet nesuteikiainformacijos apie sąryšio stiprumą. Šią informaciją galime gauti apskaičiavę sąryšio matus,t.y. patikriname nepriklausomumo hipotezę, jei ji atmetama (kintamieji priklausomi) galimepasakyti, ar stipri priklausomybė.Visiems žemiau aprašytiems sąryšio matams galioja pa pati taisyklė – kuo jieabsoliučiu didumu didesni, tuo požymių priklausomybė didesnė; kuo arčiau nulio – tuopriklausomybė silpnesnė.Tarkime, kad turime tokius pačius duomenis kaip 1.3 skyrelyje (žr. 6.1 lentelę).s r2( Vij− eij)2Pažymėkime χ = ∑∑ ; Vijstebėta ląstelės (i,j) reikšmė; eij = Vi⋅V⋅j/ n tikėtinaei= 1 j=1ijląstelės (i,j) reikšmė; s – eilučių skaičius, r – stulpelių skaičius.Koeficientas Φ (Phi coefficient), kai lentelė 2x2, taikitimo ribos: − 1 ≤ Φ ≤ 1; kai lentelė s x r, taiV11V22−V12VΦ =V V V V1⋅2⋅21⋅1⋅2,2χΦ =(6.30)nkitimo ribos: 0 ≤ Φ ≤ min( r −1,s −1).Pirsono kontingencijos koeficientas (Contingency coefficient).2χP = ,(6.31)n +2χkitimo ribos:0 ≤ P ≤ ( m −1)/ m , m = min( r,s).Kramerio koeficientas V (Cramer’s V), kai lentelė 2x2, taiV = Φ,kitimo ribos: −1 ≤ V ≤ 1; kai lentelė s x r, taiV=2χ / n,min( r −1,s −1)(6.32)kitimo ribos: 0 ≤ V ≤ 1.Koeficiento Φ, Pirsono kontingencijos koeficiento, Kramerio koeficiento V reikšmėsspausdinamos, kai procedūroje FREQ nurodome CHISQ (žr. 1.3 skyrelį).6.6 p a v y z d y s. Tarkime, kad turime tokius pačius duomenis kaip 6.3 pavyzdyje.Gavome, kad kintamieji X ir Y yra priklausomi. Ištirkime sąryšio stiprumą.Statistics for Table of X by YStatistic DF Value ProbChi-Square 3 121.2857

Mantel-Haenszel Chi-Square 1 86.0072

SAS procedūra FREQ lentelėms 2x2 apskaičiuoja dvipusę ir vienpuses P-reikšmes;lentelėms s x r (s,r>2) apskaičiuojama tik dvipusė P-reikšmė.P-reikšmės apskaičiuojamos taip:dvipusė P-reikšmė: sumuojama pagal lenteles, kurioms p mažesnė arba lygi tikimybeistebėtos lentelės;kairinė vienpusė P-reikšmė: sumuojama pagal lenteles, kurioms V11mažesnis arbalygus negu stebėtas V11;dešininė vienpusė P-reikšmė: sumuojama pagal lenteles, kurioms V11didesnis arbalygus negu stebėtas V11.6.7 p a v y z d y s. Tarkime, kad turime 2x2 lentelę. Reikia patikrinti ar X ir Ynepriklausomi.Y 1 2 Iš viso:X1 4 10 142 1 15 16Iš viso: 5 25 30Iliustruosime kaip apskaičiuojama dešininė P-reikšmė (kitos analogiškai).Tikimybė gauti stebėjimų lentelę yra:14! 16! 5! 25!P ( 4,16,1,21) =≈ 0,112388.30! 4! 10! 15!Gali būti dar tik viena lentelė su didesne V11reikšme negu pradinės lentelės:Y 1 2 Iš viso:X1 5 9 142 0 16 16Iš viso: 5 25 30Tikimybė gauti šią stebėjimų lentelę yra:14! 16! 5! 25!P ( 5, 9, 0, 16) =≈ 0,0140485.30! 5! 9! 16!Taigi, dešininė P-reikšmė yra 0,112388+0,0140485=0,1264365, hipotezė apie nepriklausomumąneatmetama reikšmingumo lygmeniu 0,05.Patikrinkime nepriklausomumo hipotezę su SAS procedūra FREQ. Naudokime Fišeriotikslų kriterijų. Editor lange parašykime:DATA duomenys; /*sukuriame duomenų lentelę*/INPUT X Y $ sk;DATALINES;1 1 41 2 102 1 12 2 15;RUN;PROC FREQ DATA=duomenys;TABLES X*Y / CHISQ;WEIGHT sk;EXACT FISHER;RUN;Output lange gauname:158

The FREQ ProcedureTable of X by YXYFrequency‚Percent ‚Row Pct ‚Col Pct ‚1 ‚2 ‚ Total1 ‚ 4 ‚ 10 ‚ 14‚ 13.33 ‚ 33.33 ‚ 46.67‚ 28.57 ‚ 71.43 ‚‚ 80.00 ‚ 40.00 ‚2 ‚ 1 ‚ 15 ‚ 16‚ 3.33 ‚ 50.00 ‚ 53.33‚ 6.25 ‚ 93.75 ‚‚ 20.00 ‚ 60.00 ‚Total 5 25 3016.67 83.33 100.00Statistics for Table of X by YStatistic DF Value ProbChi-Square 1 2.6786 0.1017Likelihood Ratio Chi-Square 1 2.8008 0.0942Continuity Adj. Chi-Square 1 1.3125 0.2519Mantel-Haenszel Chi-Square 1 2.5893 0.1076Phi Coefficient 0.2988Contingency Coefficient 0.2863Cramer's V 0.2988WARNING: 50% of the cells have expected counts lessthan 5. Chi-Square may not be a valid test.Fisher's Exact TestCell (1,1) Frequency (F) 4Left-sided Pr = F 0.1264Table Probability (P) 0.1124Two-sided Pr

1.8. Maknemaro kriterijusMaknemaro (Mc Nemar‘s) kriterijus naudojamas 2x2 lentelėms, kai turimepriklausomas imtis. Jis naudojamas situacijoms “prieš-po”, kai objektai matuojami skirtingaislaikotarpiais, ir norima įsitikinti, ar įvyko tam tikras pakitimas. Pavyzdžiui, apklaustųjųnuomonė kokiu nors klausimu (pritaria, nepritaria) vertinama iki pokalbio su jais ir popokalbio; pacientų savijauta (gera, bloga) prieš gydymą ir po gydymo. Tiriama charakteristikamatuojama du kartus (iki poveikio ir po jo). Dažnai tokio tipo uždaviniuose reikšmėskoduojamos “+” , “-” arba “taip”, “ne”.Tikrinama hipotezėsu alternatyva HA: p12≠ p21.Testo statistika21H : 0p = p(6.34)1212212( V12 −V21)Q M= (6.35)V + Vasimptotiškai (kai n → ∞ ) turi χ pasiskirstymą, jei H 0 teisinga; čia21Vij- stebėtas dažnisląstelėje (i,j).Maknemaro kriterijaus statistikos reikšmę ir P-reikšmę galima apskaičiuoti su SASprocedūra FREQ. Sakinyje TABLES reikia nurodyti AGREE. Procedūros FREQ sintaksėtokia pati kaip 1.3 skyrelyje.6.8 p a v y z d y s. Tarkime, kad pirkėjai buvo apklausiami prieš tam tikros prekėsreklaminę akciją ir po jos. Reikia nustatyti ar pirkėjų požiūris pasikeitė. Duomenys pateiktilentelėje.Po; B NYPrieš; AN 48 14Y 6 32DATA Apklausa;INPUT A $ B $ daznis;DATALINES;N N 48N Y 14Y N 6Y Y 32;PROC FREQ DATA=Apklausa;TABLES A*B / AGREE;WEIGHT daznis;RUN;Statistics for Table of A by BMcNemar's TestStatistic (S) 3.2000DF 1Pr > S 0.0736Lentelėje „McNemar‘s Test“ yra spausdinama Maknemaro kriterijaus statistikos(6.35) reikšmė QM= 3, 2 (Statistic (S)) ir P-reikšmė (Pr>S), kuri šiame pavyzdyje yra 0,0736,todėl hipotezė neatmetama su reikšmingumo lygmeniu 0,05, taigi, gauname, kad reklaminėakcija neturėjo įtakos pirkėjų nuomonei.160

2. Kriterijai, grindžiami empirinės ir teorinės pasiskirstymo funkcijų skirtumuPirmoje šio skyrelio dalyje pateiksime kriterijus, kurie grindžiami empirinės irteorinės pasiskirstymo funkcijų skirtumu ir skirti patikrinti suderinamumo hipotezę. Antrojojedalyje pateiksime kriterijus, skirtus patikrinti homogeniškumo hipotezę.2.1. Suderinamumo tikrinimasKai suderinamumo hipotezė tikrinama su chi-kvadrato kriterijumi, tai duomenyssugrupuojami, todėl imtis turi būti gana didėlė. Jeigu imtis nedidelė, tai geriau taikytikriterijų, kurio statistika išreiškiama negrupuotais duomenimis. Rekomenduojamasuderinamumo hipotezes tikrinti keliais skirtingais būdais, nes taikant keletą kriterijų,gaunama žymiai daugiau informacijos. Šiame skyrelyje pateikiami trys suderinamumokriterijai (EDF goodness-of-fit tests), kurie grindžiami teorinės ir empirinės pasiskirstymofunkcijų palyginimu.Tarkime, kad X1, X2...,Xnyra tolydžiojo atsitiktinio dydžio X imtis,X( 1)X(2)...,X( )- variacinė eilutė, F n(x)- empirinė pasiskirstymo funkcija (EDF):,n⎧0,kai x ≤ X(1),⎪Fn ( x)= ⎨(i −1) / n,kai X( i−1)< x ≤ X( i), i = 1, L , n,(6.36)⎪⎩1,kai X( n)< x.Tarkime, kad X skirstinys priklauso tolydžiųjų skirstinių šeimai P . Reikia patikrintihipotezę H0, kad stebimo atsitiktinio dydžio X pasiskirstymo funkcija yra F (x)(konkreti,visiškai nusakyta), t.y.H 0: M ( x)≡ F(x).(6.37)F nJeigu hipotezė H0teisinga, tai atsitiktinio dydžio Y = F(X ) skirstinys yra tolygusisintervale (0,1). Todėl statistikos, grindžiamos skirtumu F n( X ) − F(X ) , skirstinys, kaihipotezė H0teisinga, nepriklauso nuo F (x), nes atliekant monotonišką abscisių ašiestransformaciją tas skirtumas nesikeičia.I) Nukrypimas nuo hipotezės matuojamas kvadratine metrika, t.y. tikrinama hipotezėH0su alternatyva H1, kuri užrašoma taip:H+∞21: ∫ ( F n( x)F(x))ψ ( F(x))dF(x−∞M − ) > 0,(6.38)2čia ψ (t)- neneigiama funkcija, apibrėžta intervale [0,1], be to, ψ (t), tψ (t)ir t ψ ( t)yraintergruojamos intervale [0,1]. Kriterijaus statistika+∞∫ (−∞22ω = n F ( x)− F(x))ψ ( F(x))dF(x).(6.39)nn−1Dažniausiai naudojamos tokios svorio funkcijos: ψ ( t)≡ 1 arba ψ ( t)= ( t(1− t)).2Cramer von Mises statistika W (gaunama (6.39) paėmus ψ ( t)≡ 1) apibrėžiama taip:+∞∫ (−∞22W = n Fn ( x)− F(x))dF(x).Cramer-von Mises statistika2W apskaičiuojama taip:161

čia U = F X ) .( i)(( i)W) apibrė-Anderson-Darling statistikažiama:Anderson-Darling statistikaA22=n∑i=1⎛⎜U⎝( i)22i−1⎞− ⎟ +2n⎠112,n2A (gaunama (6.39) paėmus ψ ( t+∞22−1= n ∫ ( F ( x)− F(x))( F(x)(1− F(x)))dF(x)−∞An.1= −n−nn∑i=12A apskaičiuojama taip:[(2i−1)logU+ (2n+ 1−2i)log(1−( i)U( i )) = ( t(1− t))−1(6.40))]. (6.41)II) Kolmogorovo kriterijus (SAS vadinamas Kolmogorovo-Smirnovo kriterijumisuderinamumui tikrinti). Nukrypimas nuo hipotezės matuojamas tolygiąją metrika, t.y.tiktinama hipotezė (6.37) su alternatyva:H 1: sup | M ( x)− F(x)| > 0.(6.42)−∞< x

α −1β −1⎧ ( x −θ) ( σ + θ − x)⎪100h%, kai θ < x < θ + σ ,p ( x)= α + β −1⎨ B(α,β ) σ(6.44)⎪⎩0,kai x ≤ θ arba x ≥ θ + σ ,čia σ > 0 , α > 0, β > 0 , θ turi būti mažesnis už minimalią kintamojo reikšmę, θ + σ turibūti didesnis už maksimalią kintamojo reikšmę, B ( α , β ) = Γ(α)Γ(β ) / Γ(α + β ) , h – histogramosplotis. Pagal nutylėjimą (t.y., kai nenurodome) imami α ir β maksimalaustikėtinumo įverčiai, σ = 1, θ = 0 ; jeigu nurodome SIGMA=EST, tai imamas parametro σįvertis, jeigu nurodome THETA=EST, tai imamas parametro θ įvertis, pavyzdžiui, jeiparašysime HISTOGRAM kintamasis / BETA, tai lygins su tokiu beta skirstiniu: σ = 1,θ = 0 , vietoje parametrų α, β bus jų maksimalaus tikėtinumo įverčiai.Kai kurie autoriai naudoja tokią beta skirstinio išraišką:pp−1⎧(x − a)( b − x)⎪p+⎨ B(p,q)(b − a)⎪⎩0,q−1( x)= q−1,kaikaia < x < b,x ≤ a arba x ≥ b.Parametrai iš (6.44) ir (6.45) susiję tokiu būdu: σ = b − a , θ = a , α = p , β = q .2) Eksponentinis skirstinys. Sintaksė:EXPONENTIAL .Tankis:(6.45)⎧100h%⎛ ⎛ x −θ⎞⎞⎪ exp⎜−⎜ ⎟⎟,kai x ≥ θ ,p ( x)= ⎨ σ ⎝ ⎝ σ ⎠⎠(6.46)⎪⎩0,kai x < θ ,čia σ > 0,h – histogramos plotis. Pagal nutylėjimą (t.y., kai nenurodome) θ = 0 , imamas σmaksimalaus tikėtinumo įvertis. Jeigu nurodome THETA=EST, tai imamas parametro θįvertis, pavyzdžiui, jei parašysime HISTOGRAM kintamasis / EXPONENTIAL(THETA=EST), tai lygins su tokiu eksponentiniu skirstiniu: imami parametrų σ ir θ maksimalaustikėtinumo įverčiai.3) Gama skirstinys. Sintaksė:GAMMA .Tankis:α −1⎧100h%⎪⎛ x −θ⎞ ⎛ ⎛ x −θ⎞⎞⎜ ⎟ exp⎜−⎜ ⎟⎟,kai x > θ ,p ( x)= ⎨Γ(α)σ ⎝ σ ⎠ ⎝ ⎝ σ ⎠⎠(6.47)⎪⎩0,kai x ≤ θ ,čia σ > 0 , α > 0,θ turi būti mažesnis už minimalią kintamojo reikšmę, h – histogramosplotis. Pagal nutylėjimą (t.y., kai nenurodome) imami α ir σ maksimalaus tikėtinumoįverčiai, θ = 0 ; jeigu nurodome THETA=EST, tai imamas parametro θ įvertis.Gama skirstinio atskiri atvejai yra chi-kvadrato skirstinys (su ν laisvės laipsnių, kai(6.47) imame α = ν / 2 , σ = 2,θ = 0 ), eksponentinis skirstinys (kai (6.47) imame α = 1),Erlango skirstinys (kai (6.47) imame α - teigiamas sveikas skaičius).4) Lognormalusis skirstinys. Sintaksė:LOGNORMAL .Tankis:163

2⎧ 100h%⎛ (log( x −θ) − ς ) ⎞⎪exp>⎨⎜−⎟,kai x θ ,p ( x)=2σ 2π( x −θ) ⎝ 2σ⎠(6.48)⎪⎩0,kai x ≤ θ ,čia − ∞ < ς < ∞, σ > 0,θ turi būti mažesnis už minimalią kintamojo reikšmę, h – histogramosplotis. Pagal nutylėjimą (t.y., kai nenurodome) imami σ ir ς maksimalaustikėtinumo įverčiai, θ = 0 ; jeigu nurodome THETA=EST, tai imamas parametro θ įvertis.5) Normalusis skirstinys. Sintaksė:NORMAL .Tankis:2100h%⎛ 1 ⎞( ) exp⎜⎛ x − µ ⎞p x = − ⎟,− ∞ < < ∞,2⎜ ⎟ xσ π 2⎝ ⎝ σ ⎠ ⎠164(6.49)čia σ > 0 (standartinis nuokrypis), µ - vidurkis. Pagal nutylėjimą imami σ ir µmaksimalaus tikėtinumo įverčiai.6) Veibulo skirstinys. Sintaksė:WEIBULL .Tankis:c⎧ c ⎛ x −θ⎞⎪100h%p(x)=⎜ ⎟⎨ σ ⎝ σ ⎠⎪⎩0,−1c⎛⎜ ⎛ x −θ⎞exp −⎜ ⎟⎝ ⎝ σ ⎠⎞⎟,⎠kaikaix > θ ,x ≤ θ ,(6.50)čia σ > 0 , c > 0,θ turi būti mažesnis už minimalią kintamojo reikšmę, h – histogramosplotis. Pagal nutylėjimą (t.y., kai nenurodome) imami c ir σ maksimalaus tikėtinumoįverčiai, θ = 0 ; jeigu nurodome THETA=EST, tai imamas parametro θ įvertis.6.9 p a v y z d y s. Tarkime, kad turime duomenų lentelę „Duomenys“, sukurtą sutokiu Data žingsniu:DATA Duomenys;DROP i;DO i=1 TO 200;X=2*normal(0)+10; /*kadangi skliaustuose 0, tai kelis kartus*/OUTPUT;END;RUN;/*atlikę Data žingsnį, gausime vis kitus duomenis*/a) Patikrinkime hipotezę, kad X skirstinys yra normalusis su vidurkiu 10 ir dipersija4. Editor lange parašome:PROC UNIVARIATE DATA=Duomenys;VAR X;HISTOGRAM X / NORMAL(MU=10 SIGMA=2);RUN;Sakinyje HISTOGRAM nurodėme NORMAL, todėl tikrins ar skirstinys normalusis sutokiais parametrais, kuriuos nurodėme skliaustuose, t.y. vidurkis 10 ir standartinis nuokrypis2. Output lange gauname:The UNIVARIATE ProcedureFitted Distribution for XParameters for Normal DistributionParameter Symbol EstimateMean Mu 10Std Dev Sigma 2

TestGoodness-of-Fit Tests for Normal Distribution---Statistic---- -----p Value-----Kolmogorov-Smirnov D 0.07467362 Pr > D 0.211Cramer-von Mises W-Sq 0.20353382 Pr > W-Sq >0.250Anderson-Darling A-Sq 1.17335942 Pr > A-Sq >0.250Lentelėje „Goodness-of-Fit Tests for Normal Distribution” (suderinamumo kriterijainormališkumui tikrinti) spausdinama: Kolmogorovo kriterijaus statistikos (Kolmogorov-Smirnov; (6.43)) reikšmė D = 0, 07467362 ir P-reikšmė 0,211; Anderson-Darling kriterijausstatistikos (6.41) reikšmė A 2 = 1, 17335942 ir P-reikšmė, kuri šiame pavyzdyje yra didesnė už0,25; Cramer-von Mises statistikos (6.40) reikšmė W 2 = 0, 20353382 ir P-reikšmė, kuri šiamepavyzdyje yra didesnė už 0,25. Visais trimis atvejais gauname, kad hipotezė neatmetama.b) Patikrinkime hipotezę, kad X skirstinys yra normalusis su vidurkiu 10 irstandartiniu nuokrypiu 1,5 dispersija. Editor lange parašome:PROC UNIVARIATE DATA=Duomenys;VAR X;HISTOGRAM X / NORMAL(MU=10 SIGMA=1.5);RUN;Output lange gauname:The UNIVARIATE ProcedureFitted Distribution for XParameters for Normal DistributionParameter Symbol EstimateMean Mu 10Std Dev Sigma 1.5Goodness-of-Fit Tests for Normal DistributionTest---Statistic---- -----p Value-----Kolmogorov-Smirnov D 0.10716266 Pr > D 0.020Cramer-von Mises W-Sq 0.49454993 Pr > W-Sq 0.043Anderson-Darling A-Sq 4.49379752 Pr > A-Sq 0.005Gauname, kad Kolmogorovo kriterijaus statistikos reikšmė D = 0, 10716266 ir P-reikšmė 0,02; Anderson-Darling kriterijaus statistikos reikšmė A 2 = 4, 49379752 ir P-reikšmė0,005; Cramer-von Mises statistikos reikšmė W 2 = 0, 49454993 ir P-reikšmė 0,043. Visi tryskriterijai duoda tą patį atsakymą: hipotezė atmetama su reikšmingumo lygmeniu 0,05.2.2. Homogeniškumo tikrinimasŠiame skyrelyje aprašysime kriterijus, kurie grindžiami teorinės ir empirinės pasiskirstymofunkcijų palyginimu ir skirti patikrinti homogeniškumo hipotezę.Tegu x , ..., 1x2 xnyra a.d. X imtis, o y , ...,11y2 yn- a.d. Y imtis. Tarkime, kad nieko2nežinome apie stebimų tolydžiųjų atsitiktinių dydžių tikimybinį skirstinį ir reikia patikrintihipotezę apie skirstinių tapatumą. Pažymėkime F1- a.d. X pasiskirstymo funkcija, F2- a.d. Ypasiskirstymo funkcija. Apibrėžkime X ir Y empirines pasiskirstymo funkcijas:1nn1F ˆ1 ( x)= ∑ I{ x j ≤ x}; ˆ ( y)= ∑1 j = 1Reikia patikrinti hipotezęn21F 2 I{ y j ≤ y}. (6.51)n2j = 1: MFˆ( x)≡ MFˆ( ),(6.52)H0 12x165

t.y. skirstiniai vienodi.Pažymėkimečia ni– i-tosios imties dydis, n – bendras stebėjimų skaičius.Kolmogorovo-Smirnovo statistika apibrėžiama:1F ˆ = ˆ∑ n iF i,(6.53)ni1 ˆ ˆ 2KS = max ∑ ni( Fi( xj) − F(xj)) .(6.54)j nAsimptotinė Kolmogorovo-Smirnovo statistika:iKS a= KS n.(6.55)Kai turime dvi imtis, tai Kolmogorovo-Smirnovo tiksli statistika:vienpusės Kolmogorovo-Smirnovo statistikos:EDF.D+D = max | Fˆ( ) ˆ1xj− F2( xj) |,(6.56)jˆ ˆ−= max(F ( x ) ( )), max( ˆ ( ) ˆj− F2xjD = F2xj− F1( xj1 jj166)).(6.57)Šias statistikas apskaičiuoja SAS procedūra NPAR1WAY, kai nurodome pasirinktįSintaksė:PROC NPAR1WAY EDF DATA=lentelė;CLASS kint1;VAR kint2;FREQ kint3;EXACT KS;RUN;čia kint1 – klasifikuojantis kintamasis, kuris nurodo, kuriai imčiai priklauso stebėjimas; kint2– analizuojamas kintamasis; sakinį FREQ reikia nurodyti tik tada, kai turime susumuotusduomenis; sakinį EXACT nurodome, jeigu norime, kad spausdintų tikslias P-reikšmes;nebūtina pasirinktis D nurodo, kad turi būti apskaičiuotos vienpusės Kolmogorovo-Smirnovostatistikos (6.57) ir P-reikšmės.6.10 p a v y z d y s. Sukurkime duomenų lentelę su tokiu Data žingsniu:DATA Duomenys;DROP i;g=1;DO i=1 TO 50;X=normal(10)+1;OUTPUT;END;g=2;DO i=1 TO 50;X=normal(10);OUTPUT;END; RUN;Patikrinkime homogeniškumo hipotezę. Editor lange parašykime:PROC NPAR1WAY EDF DATA=Duomenys;CLASS g;VAR X;RUN;

Nurodėme EDF, todėl apskaičiuos Kolmogorovo-Smirnovo kriterijaus statistiką ir P-reikšmę. Output lange gauname:The NPAR1WAY ProcedureKolmogorov-Smirnov Test for Variable XClassified by Variable gEDF at Deviation from Meang N Maximum at Maximum1 50 0.140 -1.5556352 50 0.580 1.555635Total 100 0.360Komentaras: N – stebėjimų skaičius; „EDF at maximum“ yra imties (grupės) EDF(empirinės pasiskirstymo funkcijos; Fˆ i ) reikšmė jos maksimalaus nuokrypio nuo jungtinėsEDF ( Fˆ ; apibrėžta (6.53)) taške; „Deviation from mean at maximum“ yra n î ( Fi− F ˆ )reikšmė jos maksimumo taške.Maximum Deviation Occurred at Observation 85Value of X at Maximum = 0.162299Komentaras: maksimalus nuokrypis yra 85 stebėjimo; šiam stebėjimui analizuojamokintamojo reikšmė yra 0,162299.Kolmogorov-Smirnov Two-Sample Test (Asymptotic)KS 0.220000 D 0.440000KSa 2.200000 Pr > KSa 0.0001Komentaras: KS yra statistikos (6.54) reikšmė; D yra statistikos (6.56) reikšmė; KSayra statistikos (6.55) reikšmė ir Pr>Ksa yra atitinkama dvipusė P-reikšmė. Kadangi P-reikšmė 0.0001, tai hipotezė atmetama, t.y. pirmos ir antros imties skirstiniai skiriasi.3. Ranginiai kriterijaiŠiame skyrelyje nagrinėsime ranginius kriterijus. Konstruojant šiuos kriterijusnaudojami ne patys stebėjimai, o jų išsidėstymo variacinėje eilutėje numeriai, kurie vadinamirangais. Pradžioje aptarsime ranginius sąryšio matus, o paskui homogeniškumo hipotezėstikrinimą naudojant ranginius kriterijus.3.1. Spirmeno ranginės koreliacijos koeficientasSpirmeno koreliacijos koeficientas (Spearman Rank-Order Correlation) yra Pirsonokoreliacijos koeficiento (žr.IV sk., 2.2 skyrelį) neparametrinis analogas. Pirsono koreliacijoskoeficientą galima naudoti, kai prielaida apie duomenų normališkumą patenkinta, jeigu jinepatenkinta, tai reikia naudoti Spirmeno koreliacijos koeficientą. Jis apskaičiuojamasnaudojant ne pačius stebėjimus, o jų rangus.Tarkime, kad stebime tolydžiųjų kintamųjų porą (X,Y) ir turime tokius stebėjimus:( x1,y1),...,(x n, yn) . Duomenis suranguojame. Tarkime, kad Rxiyra xirangas, o Ryiyra yirangas, i = 1,...,n . Po rangavimo duomenis sudaro poros R , R ), i = 1,...,n .Spirmeno koreliacijos koeficientas:(xi yi167

s=n∑i=1n∑i=1( R( Rxixi− R− R )x2x)( Rn∑i=1yi− R )( Ryiy− R )y2(6.58)čia Rxyra reikšmių Rx1 ,..., Rxnaritmetinis vidurkis, o Ryyra reikšmių Ry1 ,..., Rynaritmetinisvidurkis. Iš (6.58) matome, kad Spirmeno koreliacijos koeficientas yra Pirsono koreliacijoskoeficientas apskaičiuotas ne pačioms kintamųjų reikšmėms, o jų rangams. Spirmenokoreliacijos koeficientas interpretuojamas taip pat kaip Pirsono koreliacijos koeficientas.Spirmeno koreliacijos koeficiento ženklas parodo neigiamas ar teigiamas ryšys. Teigiamakoreliacija: kai vieno kintamojo reikšmės didėja, tai ir kito kintamojo reikšmės didėja.Neigiama koreliacija: kai vieno kintamojo reikšmės didėja, tai kito kintamojo reikšmėsmažėja. Kuo koeficientas absoliučiuoju didumu didesnis, tuo ryšys stipresnis (didesnėkoreliacija). Galima naudotis tokiomis taisyklėmis: kai koeficiento reikšmė ±1, tai idealikoreliacija; kai ±0.8, tai stipri koreliacija; kai ±0.5, tai vidutinė koreliacija; kai ±0.2, tai silpnakoreliacija; kai 0, tai koreliacijos nėra.Prieš darant išvadą apie kintamųjų koreliaciją reikia patikrinti ar koreliacija statistiškaireikšminga, t.y. reikia patikrinti hipotezęH 0: X ir Y nekoreliuoja (6.59)su alternatyva H 1: X ir Y koreliuoja. Hipotezė (6.59) reiškia, kad koreliacijos koeficientasrsstatistiškai reikšmingai nesiskiria nuo nulio (koreliacija nėra statistiškai reikšminga),alternatyva – koreliacija statistiškai reikšminga, kintamieji priklausomi.Kriterijaus statistika:Tn − 2= rs,(6.60)21−rsčia rs- imties Spirmeno koreliacijos koeficiento reikšmė, apskaičiuota pagal (6.58).Tarkime, kad reikšmingumo lygmuo α . Hipotezė H0atmetama, kai |T|> t α / 2, čia T –apibrėžta (6.60), t αyra Stjudento skirstinio su n-2 laisvės laipsniais α-toji kritinė reikšmė.Spirmeno koreliacijos koeficientą galima apskaičiuoti su SAS procedūra CORR.Sintaksė:PROC CORR DATA=lentelė SPEARMAN;VAR kintamieji;RUN;VAR sakinyje nurodome kintamuosius, kurių koreliacijos koeficientus norimeapskaičiuoti.Procedūroje CORR galima naudoti tokius sakinius:BY kintamieji; /*atskira analizė pagal BY kintamųjų reikšmes*/FREQ kintamasis; /* dažnio kintamasis */VAR kintamieji; /* stulpelių kintamieji */WEIGHT kintamasis; /* svorio kintamasis */WITH kintamieji; /* eilučių kintamieji */6.11 p a v y z d y s. Modeliuokime a.v. ( X , Y ) ~ N2( µ , Σ)dydžio n = 30 imtį, čia⎛ 4 1.6⎞µ = ( 2,3), Σ = ⎜ ⎟,t.y. ρ = 0, 4 . Apskaičiuokime Spirmeno koreliacijos koeficientą ir⎝1.61 ⎠patikrinkime ar koreliacija statistiškai reikšminga. Reikšmingumo lygmuo 0,05Editor lange parašome:168

%LET n=30;%LET miu1=2; %LET miu2=3;%LET sigma1=2; %LET sigma2=1;%LET ro=0.4;DATA dvimatis;DO i=1 TO &n;X=&miu1+&sigma1*NORMAL(10);vid=&miu2+&ro*(&sigma2/&sigma1)*(X-&miu1);std=sqrt(&sigma2*(1-&ro*&ro));Y=vid+std*NORMAL(10);OUTPUT;END;RUN;PROC CORR DATA=dvimatis SPEARMAN;VAR X Y;RUN;Output lange gauname:The CORR Procedure2 Variables: X YSimple StatisticsVariable N Mean Std Dev Median Minimum MaximumX 30 1.36643 1.64923 1.15047 -1.28366 6.65943Y 30 3.02169 0.79639 2.88230 1.52897 4.60821Spearman Correlation Coefficients, N = 30Prob > |r| under H0: Rho=0XYX 1.00000 0.453620.0118Y 0.45362 1.000000.0118Lentelėje „Simple Statistics“ yra spausdinamos kintamųjų X ir Y skaitinėscharakteristikos: stebėjimų skaičius (N), vidurkis (Mean), standartinis nuokrypis (Std Dev),mediana (Median), minimali (Minimum) ir maksimali (Maximum) reikšmės. Lentelėje„Spearman Correlation Coefficients“ spausdinama apskaičiuota pagal imties duomenisSpirmeno koreliacijos koeficiento reikšmė 0,45362 (žr.(6.58)) ir P-reikšmė, skirta patikrintihipotezę (6.59). Kadangi P-reikšmė yra 0.0118, tai hipotezė atmetama su reikšmingumolygmeniu 0,05, t.y. kintamieji X ir Y koreliuoja. Kadangi koreliacijos koeficiento reikšmė0,45362, tai koreliacija teigiama.Spirmeno koreliacijos koeficientą galima taikyti imties atsitiktinumui tikrinti. Tuometduomenis sudaro ( x1,1),(x2,2),...,( xn , n). Imtis x1, x2,..., xnatsitiktinė, jeigu priklausomybėsnerandame (hipotezės neatmetame).3.2. Kendalo ranginės koreliacijos koeficientasKendalo ranginės koreliacijos koeficientas (Kendall‘s Tau-b Correlation Coefficient)naudojamas kintamųjų ryšio stiprumui įvertinti. Jis grindžiamas suderintų ir nesuderintų porųskaičiumi. Tarkime, kad stebime tolydžiųjų kintamųjų porą (X,Y) ir turime tokius stebėjimus:( x1,y1),...,(x n, yn) . Dvi duomenų poros ( xi, yi) ir ( xj, yj) , i ≠ j yra suderintos, jei ( xi> xjir yi> yj) arba ( xi< xjir yi< yj). Dvi duomenų poros ( xi, yi) ir ( xj, yj) , i ≠ j yranesuderintos, jei ( xi> xjir yi< yj) arba ( xi< xjir yi> yj).Kendalo ranginės koreliacijos koeficientas:169

∑i 0,kai z = 0,kai z < 0.Susietosiomis reikšmėmis vadinamos reikšmės, kurioms priskiriami vienodi rangai,t.y. sutampančios (pasikartojančios) reikšmės.Kaip ir Spirmeno koeficiento atveju, galima ne tik apskaičiuoti Kendalo koeficientą,bet ir patikrinti, ar gauta koreliacija statistiškai reikšminga. Reikia patikrinti hipotezęH 0: X ir Y nekoreliuoja (6.62)su alternatyva H 1: X ir Y koreliuoja. Hipotezė (6.62) reiškia, kad koreliacijos koeficientas τstatistiškai reikšmingai nesiskiria nuo nulio (koreliacija nėra statistiškai reikšminga),alternatyva – koreliacija statistiškai reikšminga, kintamieji priklausomi.Kriterijaus statistika:čiav1⎛= ⎜⎝∑kt ( tkkvt⎞⎛−1)⎟⎜⎠⎝vV ( s)==∑k∑lls =0t ( tkku ( ul∑i zα / 2, čia Z –apibrėžta (6.63), zα- standartinio normalaus skirstinio α-toji kritinė reikšmė.Kendalo koreliacijos koeficientą galima apskaičiuoti su SAS procedūra CORR.Sintaksė:PROC CORR DATA=lentelė KENDALL;VAR kintamieji;RUN;VAR sakinyje nurodome kintamuosius, kurių koreliacijos koeficientus norimeapskaičiuoti.170

6.12 p a v y z d y s. Tarkime, kad turime duomenis iš 6.11 pavyzdžio. ApskaičiuokimeKendalo koreliacijos koeficientą ir patikrinkime ar jis statistiškai reikšmingas. Editor langeparašykime:PROC CORR DATA=dvimatis KENDALL;VAR X Y;RUN;Output lange gauname:The CORR Procedure2 Variables: X YSimple StatisticsVariable N Mean Std Dev Median Minimum MaximumX 30 1.36643 1.64923 1.15047 -1.28366 6.65943Y 30 3.02169 0.79639 2.88230 1.52897 4.60821Kendall Tau b Correlation Coefficients, N = 30Prob > |r| under H0: Rho=0XYX 1.00000 0.310340.0160Y 0.31034 1.000000.0160Lentelėje „Simple Statistics“ yra spausdinamos kintamųjų X ir Y skaitinėscharakteristikos: stebėjimų skaičius (N), vidurkis (Mean), standartinis nuokrypis (Std Dev),mediana (Median), minimali (Minimum) ir maksimali (Maximum) reikšmės. Lentelėje„Kendall Tau b Correlation Coefficients“ spausdinama apskaičiuota pagal imties duomenisKendalo koreliacijos koeficiento reikšmė 0,31034 (žr.(6.61)) ir P-reikšmė, skirta patikrintihipotezę (6.62). Kadangi P-reikšmė yra 0.0160, tai hipotezė atmetama su reikšmingumolygmeniu 0,05, t.y. kintamieji X ir Y koreliuoja.3.3. Mano-Vitnio-Vilkoksono kriterijusMano-Vitnio-Vilkoksono (Mann-Whitney-Wilcoxon) kriterijus yra Stjudento t kriterijausnepriklausomos imtims neparametrinis analogas. Nereikalaujama duomenų normališkumo.Konstruojant kriterijų naudojami duomenų rangai. Tikrinama homogeniškumohipotezė su alternatyva, kad skirstiniai skiriasi poslinkio parametru. Tarkime, kad turime dvinepriklausomas imtis: x1,...,xnyra tolydžiojo a.d. X imtis, y ,...,11ynyra tolydžiojo a.d. Y2imtis. Tegu a.d. X pasiskirstymo funkcija yra F(x), o a.d. Y pasiskirstymo funkcija yra G(y), Fir G tolydžios pasiskirstymo funkcijos. Reikia patikrinti hipotezę:H : F(t)≡ G(t),| t | < ,(6.64)0∞su alternatyva H1: skirstiniai nevienodi.Imtis sujungiame į vieną imtį, išdėstome stebėjimus didėjimo tvarka nuo mažiausio ikididžiausio stebėjimo (t.y. sudarome variacinę eilutę). Gausime tokio tipo seką:a a b a a a b b b b ... a b b1 2 3 4 5 6 7 8 9 10 ... n-2 n-1 nčia b yra a.d. X imties nariai; a – a.d. Y imties nariai. n = n 1+ n2. Apačioje užrašome eilėsnumerius (rangus). Tarkime, kad n2 ≤ n1. Tegu R1 , L , Rnyra rangai, atitinkantys dydžius a.2Mano-Vitnio-Vilkoksono kriterijaus statistika:W = R1 + ... + Rn,(6.65)2171

t.y. imame mažesnio tūrio imtį, išrenkame jos narius ir susumuojame rangus.Asimptotinė kriterijaus statistika:čiaW − E0( W )z = ⇒ N(0,1), jei H0teisinga, (6.66)var ( W )n→∞0nn21 1 22 1( ) , var0( )( ) , ∑nnn nE W = ∑ R= ∑ − = ,0 jWRja a Rj(6.67)nn −1nnj=1n2- stebėjimų skaičius mažesnėje imtyje.Mano-Vitnio-Vilkoksono kriterijaus statistikos reikšmę ir atitinkamas P-reikšmesgalima apskaičiuoti su SAS modulio STAT procedūra NPAR1WAY. Sintaksė:PROC NPAR1WAY WILCOXON DATA=lentelė;CLASS kint1;VAR kint2;FREQ kint3;EXACT;RUN;čia kint1 – klasifikuojantis kintamasis, kuris nurodo, kuriai imčiai priklauso stebėjimas; kint2– analizuojamas kintamasis; sakinį FREQ reikia nurodyti tik tada, kai turime susumuotusduomenis; sakinį EXACT nurodome, jeigu norime, kad spausdintų tikslias P-reikšmes.Apskaičiuojant asimptotinio kriterijaus statistikos reikšmę yra naudojama tolydumopataisa (jei nenorime, tai PROC sakinyje nurodome CORRECT=NO; apskaičiuos pagal (6.66)formulę):W − E0( W ) − 0.5z = , jei W − E0 ( W ) > 0 ; (6.68)var ( W )0j=1W − E0( W ) + 0.5z = , jei W − E0 ( W ) < 0 .var ( W )0Procedūra NPAR1WAY spausdina asimptotines vienpusę ir dvipusę P-reikšmes:vienpusė P-reikšmė (asimptotinis kriterijus):⎧P{Z > z},P1= ⎨⎩P{Z < z},dvipusė P-reikšmė (asimptotinis kriterijus):kai z > 0,kai z < 0,j=1(6.69)P = P {| Z | > | |},(6.70)2zčia z – apskaičiuota pagal imties duomenis statistikos reikšmė, Z – tikėtina statistikos reikšmė,kai homogeniškumo hipotezė teisinga.Kai nurodome sakinį EXACT, tai apskaičiuojamos tikslios P-reikšmės:vienpusė P-reikšmė (tikslus kriterijus):⎧P{W0P1= ⎨⎩P{W0dvipusė P-reikšmė (tikslus kriterijus):P≥ W},≤ W},kai Wkai W> E≤ E00( W ),( W ),(6.71)= P {| W0− E0( W ) | ≥|W − E0( ) |},(6.72)2Wčia W – apskaičiuota pagal imties duomenis statistikos reikšmė, W0– tikėtina statistikosreikšmė, kai homogeniškumo hipotezė teisinga; E ( ) apibrėžtas (6.67).0 W172

6.13 p a v y z d y s. Modeliuokime dvi nepriklausomas imtis, patikrinkime homogeniškumohipotezę. Editor lange parašykime:DATA Duomenys;DROP i;g=1;DO i=1 TO 30;X=normal(10)+1;OUTPUT;END;g=2;DO i=1 TO 30;X=normal(10);OUTPUT;END; RUN;PROC NPAR1WAY WILCOXON DATA=Duomenys;CLASS g;VAR X;EXACT;RUN;Output lange gauname:The NPAR1WAY ProcedureWilcoxon Scores (Rank Sums) for Variable XClassified by Variable gSum of Expected Std Dev Meang N Scores Under H0 Under H0 Score1 30 1178.0 915.0 67.638746 39.2666672 30 652.0 915.0 67.638746 21.733333Wilcoxon Two-Sample TestStatistic (S) 1178.0000Normal ApproximationZ 3.8809One-Sided Pr > Z |Z| 0.0001t ApproximationOne-Sided Pr > Z 0.0001Two-Sided Pr > |Z| 0.0003Exact TestOne-Sided Pr >= S 2.916E-05Two-Sided Pr >= |S - Mean| 5.833E-05Z includes a continuity correction of 0.5.Lentelėje “Wilcoxon Scores (Rank Sums)“ spausdinamas: stebėjimų skaičius (N);rangų suma („Sum of scores“); E ( ) apibrėžtas (žr. (6.67), „Expected Under H0“);0 Wvar 0( W ) (žr.(6.67), „Std.Dev under H 0 “); vidutiniai rangai („Mean Score“; rangų sumapadalinta iš stebėjimų skaičiaus imtyje), parodo kurioje imtyje yra daugiau didesnių reikšmių.Lentelėje „Wilcoxon Two-Sample Test, Normal Approximation“ spausdinamastatistikos (6.68) reikšmė z=3,8809; vienpusė P-reikšmė („One-Sided Pr>Z“, žr.(6.69)), kurišiame pavyzdyje yra mažesnė už 0,0001; dvipusė P-reikšmė („Two-Sided Pr>|Z|“, žr.(6.70)),kuri šiame pavyzdyje yra 0,0001. Kadangi nenurodėme CORRECT=NO, tai skaičiuojant zstatistiką buvo panaudota tolydumo pataisa. Gauname, kad hipotezė atmetama, nes gauta P-reikšmė yra mažesnė už pasirinktą reikšmingumo lygmenį, t.y. skirstiniai nevienodi. Kadangi173

imties su g=1 vidutinis rangas („Mean Score“) didesnis, tai daugiau didesnių reikšmių yrašioje imtyje.Lentelėje „Wilcoxon Two-Sample Test, Exact Test“ spausdinama; vienpusė P-reikšmė(„One-Sided Pr>=S“, žr.(6.71)), dvipusė P-reikšmė („Two-Sided Pr>=|S-Mean|“, žr.(6.72)).Palyginę gautas P-reikšmes su pasirinktu reikšmingumo lygmeniu, gauname, kad homogeniškumohipotezė (6.64) atmetama, t.y. skirstiniai nevienodi.3.4. Van der Vardeno kriterijusVan der Vardeno (Van der Waerden) kriterijaus paskirtis tokia pati kaip ir Mano-Vitnio-Vilkoksono kriterijaus, kurį nagrinėjome 3.3 skyrelyje. Konstruojant kriterijųnaudojami duomenų rangai. Tikrinama homogeniškumo hipotezė su alternatyva, kadskirstiniai skiriasi poslinkio parametru. Tarkime, kad turime dvi nepriklausomas imtis:x1,...,xnyra tolydžiojo a.d. X imtis, y ,...,11ynyra tolydžiojo a.d. Y imtis. Reikia patikrinti2homogeniškumo hipotezę (6.64). Suranguojame duomenis taip pat kaip 3.3 skyrelyje.Tarkime, kad n2 ≤ n1. Tegu R1 , L , Rnyra rangai, atitinkantys stebėjimus iš mažesniosios2imties. Van der Vardeno kriterijaus statistika:S = a R ) + ... + a(R ),(6.73)(1 n21⎛R− j ⎞čia a(R ) = Φ⎜ ,1⎟jΦ (x)- standartinio normalaus skirstinio pasiskirstymo funkcija.⎝ n + ⎠Asimptotinė kriterijaus statistika:S − E0( S)z = ⇒ N(0,1), jei H0teisinga, (6.74)var ( S)n→∞0nn21 1 22 1čia ( ) ( ), var ( )( ( ) ) , ∑nnn nE S = ∑ a R0= ∑ − = ( ),0 jWa Rja a a Rjn2- stebėjimųskaičius mažesnėje imtyje.n j=1n −1n j=1n j=1Van der Vardeno kriterijaus statistikos reikšmę ir atitinkamas P-reikšmes galimaapskaičiuoti su SAS modulio STAT procedūra NPAR1WAY. Sintaksė:PROC NPAR1WAY VW DATA=lentelė;CLASS kint1;VAR kint2;FREQ kint3;RUN;čia kint1 – klasifikuojantis kintamasis, kuris nurodo, kuriai imčiai priklauso stebėjimas; kint2– analizuojamas kintamasis; sakinį FREQ reikia nurodyti tik tada, kai turime susumuotusduomenis.6.14 p a v y z d y s. Imkime duomenis iš 6.13 pavyzdžio. Patikrinkime homogeniškumohipotezę.PROC NPAR1WAY VW DATA=Duomenys;CLASS g;VAR X;RUN;Output lange gauname:The NPAR1WAY ProcedureVan der Waerden Two-Sample TestStatistic 14.0230Z 3.8133One-Sided Pr > Z |Z| 0.0001174

Lentelėje „Van der Waerden Two-Sample Test“ spausdinama statistikos (6.73)reikšmė S=14,0230; asimptotinės statistikos reikšmė z=3,8133; vienpusė P-reikšmė („One-Sided Pr>Z“), kuri šiame pavyzdyje yra mažesnė už 0,0001; dvipusė P-reikšmė („Two-SidedPr>|Z|“) 0,0001. Gauname, kad hipotezė atmetama, nes gauta P-reikšmė yra mažesnė užpasirinktą reikšmingumo lygmenį, t.y. skirstiniai nevienodi.3.5. Kruskalo-Voliso kriterijusKruskalo-Voliso (Kruskall-Wallis) kriterijus naudojamas, kai reikia palyginti trijų ardaugiau populiacijų skirstinius, pavyzdžiui, ar trijų skirtingų veislių rugiai vienodai derlingi.Tegu X, Y, Z, ... yra nepriklausomi tolydūs atsitiktiniai dydžiai. Tegu stebint šiuosatsitiktinius dydžius gautos tokios imtys: ( x1,..,xn), ( y ,...,1 1yn); ( z ,...,2 1zn), ... . Reikia3patikrinti hipotezę:H0: kintamųjų skirstiniai vienodisu alternatyva H1: skirstiniai skiriasi. Kruskalo-Voliso kriterijus naudojamas patikrinti homogeniškumohipotezę su poslinkio alternatyva, kai turime daugiau negu dvi nepriklausomasimtis.Sudarome jungtinę variacinę eilutę. Duomenis suranguojame. Pažymėkime: Rj-rangai, r – klasių (atsitiktinių dydžių skaičius).Kruskalo-Voliso kriterijaus statistika:čia T∑i= Rjr12C = (0( )) / ,2 ∑ Ti− E Tini(6.75)si=1, sumuojama pagal visus narius iš i-tosios klasės,n1E0 ( Ti ) = nia; a = ∑nR jj=1175n2 1; s = ∑(R j− a)n −1j=12. (6.76)Statistika, kai hipotezė H0teisinga, asimptotiškai ( n → ∞ ) pasiskirsčiusi pagal chikvadratoskirstinį su r-l laisvės laipsniu, t.y.2C ⇒ χ r −1, jei0n→∞H teisinga.Kruskalo-Voliso kriterijaus statistikos reikšmę ir atitinkamas P-reikšmes galimaapskaičiuoti su SAS modulio STAT procedūra NPAR1WAY. Sintaksė tokia pati kaip irskaičiuojant Mano-Vitnio-Vilkoksono statistikos reikšmę ir P-reikšmes (žr.3.3 skyrelį):PROC NPAR1WAY WILCOXON DATA=lentelė;CLASS kint1;VAR kint2;RUN;čia kint1 – klasifikuojantis kintamasis, kuris nurodo, kuriai imčiai priklauso stebėjimas; kint2– analizuojamas kintamasis.6.15 p a v y z d y s. Modeliuokime tris nepriklausomas imtis, patikrinkime homogeniškumohipotezę. Editor lange parašykime:DATA Duomenys;DROP i;g=’a’;DO i=1 TO 30;X=normal(10)+1;OUTPUT;END;g=’b’;DO i=1 TO 35;

X=normal(10);OUTPUT;END;g=’c’;DO i=1 TO 30;X=normal(10)+1;OUTPUT;END;RUN;PROC NPAR1WAY WILCOXON DATA=Duomenys;CLASS g;VAR X;RUN;Output lange gauname:Wilcoxon Scores (Rank Sums) for Variable XClassified by Variable gSum of Expected Std Dev Meang N Scores Under H0 Under H0 Scorea 30 1653.0 1440.0 124.899960 55.100000b 35 1051.0 1680.0 129.614814 30.028571c 30 1856.0 1440.0 124.899960 61.866667Kruskal-Wallis TestChi-Square 24.4538DF 2Pr > Chi-Square Chi-Square“), kuri šiame pavyzdyje yra mažesnė už 0,0001.Gauname, kad hipotezė atmetama, nes gauta P-reikšmė yra mažesnė už pasirinktąreikšmingumo lygmenį, t.y. skirstiniai nevienodi.3.6 Homogeniškumo hipotezės su mastelio alternatyva tikrinimasSkyreliuose 3.3-3.5 nagrinėjome kriterijus, kurie naudojami patikrinti homogeniškumohipotezę H0: skirstiniai vienodi su poslinkio alternatyva. Šiame skyrelyje pateiksime SASrealizuotus kriterijus, kurie skirti patikrinti hipotezę H0su mastelio alternatyva. Galimataikyti dviems arba daugiau imčių (skiriasi kriterijaus statistikos skaičiavimas). Duomenysišdėstomi į bendrą variacinę eilutę ir suranguojami. Skirtingai ranguojant gaunami įvairūskriterijai. Skaičiuojama su SAS modulio STAT procedūra NPAR1WAY.I) Dviejų imčių atvejis. Tarkime, kad turime dvi nepriklausomas imtis: x1,...,xnyra1tolydžiojo a.d. X imtis, y1,...,ynyra tolydžiojo a.d. Y imtis. Tarkime, kad n21≤ n2. TeguR , L , R yra mažesnės imties stebėjimų rangai. Kriterijaus statistika yra pavidalo:1 n1čia a ( Rj) yra tam tikra rangų funkcija. Pažymėkime n = n 1+ n2.n1S = ∑ a(R ),(6.77)j=1176j

1) Siegel-Tukey kriterijų gauname imdami:a ( 1) = 1, a ( n)= 2,a ( n −1)= 3,a ( 2) = 4,a ( 3) = 5, a ( n − 2) = 6,a ( n − 3) = 7,a ( 4) = 8,... (6.78)t.y., sudarome bendrą variacinę eilutę ir priskiriame rangus pagal (6.78) taisyklę, pavyzdžiui,X X Y Y Y ... Y Y X Y1 3 5 7 9 ... 8 6 4 2Pagal nutylėjimą, kai taikome dviejų imčių Siegel-Tukey, tai apskaičiuojantasimptotinio kriterijaus statistikos reikšmę yra naudojama tolydumo pataisa 0,5 (žr.3.3skyrelį); jeigu nenorime, kad būtų taikoma tolydumo pataisa, tai PROC sakinyje nurodomeCORRECT=NO.2) Ansari-Bradley kriterijų gauname imdami:a ( 1) = 1, a ( n)= 1,a ( 2) = 2,a ( n −1)= 2,... (6.79)3) Klotz kriterijų gauname imdami:2⎛1⎛R ⎞− j ⎞a(R ) ⎜ ⎟⎜ ,1⎟j= Φ(6.80)⎝ ⎝ n + ⎠⎠čia Φ (x)- standartinio normalaus skirstinio pasiskirstymo funkcija.4) Mood kriterijų gauname imdami:Asimptotinė kriterijaus statistika:čia S apibrėžta (6.77),2⎛ n + 1⎞a(Rj) = ⎜ Rj− ⎟ .(6.81)⎝ 2 ⎠S − E0( S)z = ⇒ N(0,1), jei H0teisinga, (6.82)var ( S)n→∞0nn11 1 22 1( ) ( ), var0( )( ( ) ) , ∑nnn nE S = ∑ a R= ∑ − = ( ),0 jSa Rja a a Rj(6.83)nn −1nnj=1n1- stebėjimų skaičius mažesnėje imtyje.Procedūra NPAR1WAY spausdina asimptotines vienpusę ir dvipusę P-reikšmes, otaip pat tikslias P-reikšmes, kai nurodome sakinį EXACT.II) Daugiau negu dviejų imčių atvejis. Tegu X, Y, Z, ... yra nepriklausomi tolydūsatsitiktiniai dydžiai. Tegu stebint šiuos atsitiktinius dydžius gautos tokios imtys: ( x1,..,xn),1( y1,...,yn); ( z ,...,2 1zn), ... . Sudarome jungtinę variacinę eilutę. Duomenis suranguojame.3Pažymėkime: Rj- rangai, r – klasių (atsitiktinių dydžių skaičius).Kriterijaus statistika:n∑j=1r12C = (0( )) / ,2 ∑ Ti− E Tini(6.84)si=1čia T = c a(R ),t.y. sumuojama pagal stebėjimus iš i-tosios klasės, a R ) yra tam tikraij=1ijjrangų funkcija (imdami atitinkamai (6.78)-(6.81) gauname Siegel-Tukey, Ansari-Bradley,j=1(j177

Klotz, Mood kriterijus), Rjyra j-tojo stebėjimo rangas, cij- indikatorius, parodantis ar j-tasisstebėjimas priklauso i-tajai imčiai,nn12 12E0 ( Ti ) = nia; a = ∑ a(R j) ; s = ∑(a(R j) − a). (6.85)nn −1j=1Statistika, kai hipotezė H0teisinga, asimptotiškai ( n → ∞ ) pasiskirsčiusi pagal chikvadratoskirstinį su r-l laisvės laipsniu, t.y.2C ⇒ χ r −1, jei0n→∞H teisinga.Visas išvardintas statistikas galima apskaičiuoti su SAS modulio STAT procedūraNPAR1WAY. Sintaksė:PROC NPAR1WAY DATA=lentelė ;CLASS kint1;VAR kint2;RUN;čia kint1 – klasifikuojantis kintamasis, kuris nurodo, kuriai imčiai priklauso stebėjimas; kint2– analizuojamas kintamasis; ST – Siegel-Tukey kriterijus, AB – Ansari-Bradley kriterijus;KLOTZ – Klotz kriterijus, MOOD – Mood kriterijus. Galima nurodyti EXACT sakinį, tadaapskaičiuos tikslias tikimybes.6.16 p a v y z d y s. Modeliuokime tris nepriklausomas imtis. Editor lange parašykime:DATA Duomenys;DROP i;g=’a’;DO i=1 TO 30;X=2*normal(10)+1;OUTPUT;END;g=’b’;DO i=1 TO 35;X=2.5*normal(10);OUTPUT;END;g=’c’;DO i=1 TO 30;X=normal(10)+1;OUTPUT;END;RUN;Patikrinkime hipotezę: skirstiniai vienodi. Editor lange parašome:PROC NPAR1WAY DATA=Duomenys ST AB KLOTZ MOOD;CLASS g;VAR X;RUN;Output lange gauname:The NPAR1WAY Procedurej=1Siegel-Tukey Scores for Variable XClassified by Variable gSum of Expected Std Dev Meang N Scores Under H0 Under H0 Scorea 30 1719.0 1440.0 124.899960 57.300000b 35 1138.0 1680.0 129.614814 32.514286c 30 1703.0 1440.0 124.899960 56.766667178

Siegelel-Tukey One-Way AnalysisChi-Square 17.4916DF 2Pr > Chi-Square 0.0002Ansari-Bradley Scores for Variable XClassified by Variable gSum of Expected Std Dev Meang N Scores Under H0 Under H0 Scorea 30 868.0 727.578947 62.460359 28.933333b 35 577.0 848.842105 64.818177 16.485714c 30 859.0 727.578947 62.460359 28.633333Ansari-Bradley One-Way AnalysisChi-Square 17.5960DF 2Pr > Chi-Square 0.0002Klotz Scores for Variable XClassified by Variable gSum of Expected Std Dev Meang N Scores Under H0 Under H0 Scorea 30 18.281261 27.590043 5.347165 0.609375b 35 54.959048 32.188383 5.549015 1.570259c 30 14.128159 27.590043 5.347165 0.470939Klotz One-Way AnalysisChi-Square 17.0455DF 2Pr > Chi-Square 0.0002Mood Scores for Variable XClassified by Variable gSum of Expected Std Dev Meang N Scores Under H0 Under H0 Scorea 30 16368.0 22560.0 3062.97894 545.60000b 35 39737.0 26320.0 3178.60347 1135.34286c 30 15335.0 22560.0 3062.97894 511.16667Mood One-Way AnalysisChi-Square 17.8561DF 2Pr > Chi-Square 0.0001Kiekvienam iš nurodytų PROC sakinyje kriterijų spausdinamos dvi lentelės, kuriosyra analogiškos Kruskall-Wallis kriterijui spausdinamoms lentelėms, kai imčių daugiau negudvi ir Mann-Whitney-Wilcoxon kriterijui spausdinamoms lentelėms, kai yra dvi imtys.Palyginę gautas P-reikšmes su pasirinktu reikšmingumo lygmeniu, gauname, kad hipotezėapie skirstinių vienodumą atmetama.179

4. Kiti neparametriniai kriterijaiŠiame skyrelyje pateiksime du kriterijus, kurie skirti patikrinti hipotezę apie medianą,kai turime vieną imtį, arba apie medianų lygybę, kai turime dvi priklausomas imtis, o taip patgrubių klaidų išskyrimo kriterijų.4.1. Ženklų kriterijusŽenklų kriterijus (Sign Test) naudojamas, kai turime vieną imtį ir norime patikrintihipotezę apie medianos reikšmę, o taip pat homogeniškumo hipotezei tikrinti, kai turime dvipriklausomas imtis. Šis kriterijus yra Stjudento kriterijaus vienai imčiai ir Stjudento kriterijauspriklausomoms imtims neparametrinis analogas.I) Vienos imties atvejis. Tegu imtis X1, X2,..., Xnyra gauta stebint tolydų atsitiktinįdydį X. Reikia patikrinti hipotezę:H0: X mediana lygi u0(6.86)su alternatyva H1: X mediana nelygi u0.Kriterijaus statistika:−M = ( n+ − n ) / 2 , (6.87)+−čia n yra skaičius reikšmių, didesnių už u 0 , n yra skaičius reikšmių, mažesnių už u 0 .Reikšmės, lygios u 0 , neįtraukiamos į statistikos skaičiavimą. Dvipusė P-reikšmėapskaičiuojama taip:+ −min( n , n )n −1⎛n⎞ttP{|M | > | M |} = 0,5 ∑ ⎜ ⎟,(6.88)j=0 ⎝ j ⎠čia M – apskaičiuota pagal imties duomenis statistikos (6.87) reikšmė, M - tikėtina statistikosreikšmė, kai hipotezė teisinga,−n + t= n + n ,(6.89)t.y. imties reikšmių, nelygių u0, skaičius.SAS yra realizuotas Vilkoksono ranginis ženklų kriterijus (Wilcoxon signed rank test),kurio paskirtis tokia pati kaip ir ženklų kriterijaus. Jis naudojamas, kai skirstinys simetriškas,grindžiamas duomenų rangais. Tikrinama hipotezė apie medianos reikšmę.Vilkoksono ranginio ženklų kriterijaus statistika:čia+i|0S = ∑ rnt( n + 1)− ,4+ tii:X > 0i180(6.90)r yra X i− u | rangas (ranguojama nuo mažiausio iki didžiausio; prieš ranguojantstebėjimai, kuriems Xilygus u0išbraukiami), nt- apibrėžtas (6.89). Susietoms reikšmėspriskiriami vidutiniai rangai.Kai n ≤ 20, tai apskaičiuojama tiksli P-reikšmė. Kai n>20, tai naudojamaaproksimacija. Statistikoss n −1T = (6.91)2nV − sskirstinys, kai hipotezė H0: X mediana lygi nuliui (su prielaida, kad duomenų skirstinys simetriškas)aproksimuojamas Stjudento skirstiniu su n-1 laivės laipsniu. Čia S – apibrėžta(6.90),11V = n(n + 1)(2n+ 1) − ∑ti( ti+ 1)( ti−1). (6.92)2448

kur sumuojama pagal susietų reikšmių grupes (reikšmės imamos moduliu); t iyra reikšmiųskaičius i-tojoje susietų reikšmių grupėje. Hipotezė atmetama su reikšmingumo lygmeniu α ,kai: | T | > tα / 2( n −1), čia t ( α / 2n −1)yra Stjudento skirtinio su n-1 laisvės laipsniu ( α / 2 )-tojikritinė reikšmė.SAS modulio BASE procedūroje UNIVARIATE yra realizuotas ir ženklų kriterijus irVilkoksono ranginis ženklų kriterijus. Šie kriterijai spausdinami automatiškai. Pagalnutylėjimą tikrinama hipotezė su u = 00 . Galime nurodyti kitą reikšmę su MU0 = u0.Sintaksė:PROC UNIVARIATE DATA=lentelė ;VAR kintamasis;RUN;čia kintamasis – analizuojamas kintamasis, reikšmė – hipotetinė medianos reikšmė.6.17 p a v y z d y s. Buvo išmatuotas 24 atsitiktinai atrinktų vaikų ūgis.Gauti tokierezultatai (cm):124 122 123 134 124 123 121 124 128 123 126 125131 119 122 125 130 122 125 121 132 128 131 127Sukurkime duomenų lentelę su tokiu Data žingsniu:DATA vaikai;INFILE ’c:\vaikai.txt’;INPUT ugis @@;Ar galime teigti, kad vidutinis vaikų ūgis yra 128 cm? Tarkime, kad reikšmingumolygmuo α = 0.05.Naudosime procedūrą UNIVARIATE. Editor lange įveskime:PROC UNIVARIATE DATA=vaikai MU0=128;VAR ugis;RUN;Output lange gauname:The UNIVARIATE ProcedureVariable: ugisMomentsN 24 Sum Weights 24Mean 125.416667 Sum Observations 3010Std Deviation 3.93332105 Variance 15.4710145Skewness 0.61846377 Kurtosis -0.4234167Uncorrected SS 377860 Corrected SS 355.833333Coeff Variation 3.13620283 Std Error Mean 0.8028858Tests for Location: Mu0=128Test -Statistic- -----p Value------Student's t t -3.21756 Pr > |t| 0.0038Sign M -6 Pr >= |M| 0.0169Signed Rank S -84 Pr >= |S| 0.0035Lentelėje „Tests for Location: Mu0=128“, spausdinamos trijų kriterijų statistikųreikšmės ir dvipusės P-reikšmės, skirtos patikrinti hipotezę apie vidurkio arba medianosreikšmę. Eilutėje „Student‘s t“ spausdinama Stjudento kriterijaus (žr.V sk., 2.2 skyrelį)statistikos reikšmė -3,21756 ir dvipusė P-reikšmė 0,0038, skirta patikrinti hipotezę, kadvidurkis lygus 128 su alternatyva, kad nelygus. Kitose dviejose eilutėse spausdinamos dviejųneparametrinių kriterijų statistikų reikšmės ir dvipusės P-reikšmės, skirtos patikrinti hipotezę,kad mediana lygi 128 su alternatyva, kad nelygi. Eilutėje „Sign“ spausdinama ženklų181

kriterijaus statistikos (6.87) reikšmė -6 ir dvipusė P-reikšmė 0,0169, gauname, kad hipotezėatmetama su reikšmingumo lygmeniu 0,05. Eilutėje „Signed Rank“ spausdinama Vilkoksonoranginio ženklų kriterijaus statistikos reikšmė -84 ir dvipusė P-reikšmė 0,0035, gauname, kadhipotezė atmetama su reikšmingumo lygmeniu 0,05. Taigi, su reikšmingumo lygmeniu 0,05negalime teigti, kad vidutinis vaikų ūgis 128.II) Dviejų priklausomų imčių atvejis. Tarkime, kad ( Xi, Yi), i = 1,...,n yra dydžio nimtis, gauta stebint tolydžiųjų kintamųjų porą (X,Y). Reikia patikrinti hipotezę:H0: X ir Y medianos lygios (6.93)su alternatyva H1: X ir Y medianos nelygios. Sukuriame naują kintamąjįi = 1,...,nir tikriname hipotezę:Zi= X − Y ,iiH0:Z = X − Y mediana lygi nuliui.Ši hipotezė ekvivalenti pradinei hipotezei (6.93). Taigi, gavome uždavinį, kurį nagrinėjome I)punkte.6.18 p a v y z d y s. Lentelėje pateikta 10 pacientų, vartojusių migdomuosius vaistus Air B, papildomo miego trukmė X ir Y (valandomis) (žr. [5]):i X Y i X Y1 1.9 0.7 6 4.4 3.42 0.8 -1.6 7 5.5 2.73 1.1 -0.2 8 1.6 0.84 0.1 -1.2 9 4.6 0.05 -0.1 -0.1 10 3.4 2.0Reikia patikrinti hipotezę, kad vaistų poveikis vienodas.Sukuriame duomenų lentelę. Apskaičiuojame naujo kintamojo reikšmes (kintamųjų Xir Y reikšmių skirtumai). Hipotezę tikrinsime su ženklų ir Vilkoksono ranginiu ženklųkriterijumi, naudosime procedūrą UNIVARIATE. Editor lange parašome:DATA Duomenys;INPUT Nr X Y @@;Z=X-Y;DATALINES;1 1.9 0.7 6 4.4 3.42 0.8 -1.6 7 5.5 2.73 1.1 -0.2 8 1.6 0.84 0.1 -1.2 9 4.6 0.05 -0.1 -0.1 10 3.4 2.0;PROC UNIVARIATE DATA=Duomenys;VAR Z;RUN;Output lange gauname (dalis spausdinamų rezultatų ):The UNIVARIATE ProcedureVariable: ZMomentsN 10 Sum Weights 10Mean 1.68 Sum Observations 16.8Std Deviation 1.2890996 Variance 1.66177778Skewness 1.34178443 Kurtosis 2.25393443Uncorrected SS 43.18 Corrected SS 14.956Coeff Variation 76.732119 Std Error Mean 0.40764909Tests for Location: Mu0=0Test -Statistic- -----p Value------182

Student's t t 4.121192 Pr > |t| 0.0026Sign M 4.5 Pr >= |M| 0.0039Signed Rank S 22.5 Pr >= |S| 0.0039Gautas P-reikšmes lyginame su pasirinktu reikšmingumo lygmeniu 0,05, gauname,kad hipotezė atmetama, taigi, negalime teigti, kad vaistų poveikis vienodas.P a s t a b a. Kai duomenų normališkumo sąlyga patenkinta, tai naudojamas Stjudentokriterijus. Kai procedūroje UNIVARIATE nurodome NORMAL ir stebėjimų ne daugiau kaip2000, tai spausdinama Shapiro-Wilk statistikos reikšmė ir P-reikšmė, skirta patikrinti hipotezęapie duomenų normališkumą.6.19 p a v y z d y s. Imkime duomenis iš 6.17 pavyzdžio. Patikrinkime duomenųnrmališ-kumą. Editor lange įveskime:PROC UNIVARIATE DATA=vaikai MORMAL;VAR ugis;RUN;Output lange gauname:Tests for NormalityTest --Statistic--- -----p Value------Shapiro-Wilk W 0.94461 Pr < W 0.2065Kolmogorov-Smirnov D 0.167182 Pr > D 0.0820Cramer-von Mises W-Sq 0.099814 Pr > W-Sq 0.1081Anderson-Darling A-Sq 0.5671 Pr > A-Sq 0.1314Gavome, kad Shapiro-Wilk statistikos reikšmė lygi 0,9461, P-reikšmė 0,2065, todėlhipotezė apie duomenų normališkumą neatmetama su reikšmingumo lygmeniu 0,05. Taip patspausdinamos kriterijų, pagrįstų teorinės ir empirinės pasiskirstymo funkcijų skirtumu,statistikų reikšmės ir P-reikšmės (žr.2.2 skyrelį).4.2. Grubių klaidų išskyrimo kriterijusGrubios klaidos stebėjimo rezultatuose atsiranda pakitus bandymo sąlygoms, neteisingaiperskaičius matavimo aparatūros parodymus, apsirikus užrašant matavimo rezultatą irpan. Matavimo rezultatai su grubiomis klaidomis kartais lengvai pastebimi, nes žymiaiskiriasi nuo kitų. Abejotinais atvejais atliekama statistinė analizė.Tarkime, kad turime imtį X1, X2,..., Xn. Reikia patikrinti hipotezę, kad X1, X2,..., Xnyra atsitiktinio dydžio X, kurio skirstinys priklauso normaliųjų skirstinių šeimai2P = { N(µ , σ ), − ∞ < µ < ∞,0 < σ < ∞}, paprasčiausia atsitiktinė imtis.Šiame skyrelyje pateiksime Bolševo-Ubaidulajevos sukonstruotą kriterijų (žr. [5]).Tarkime, kad klaidų skaičius ne didesnis už fiksuotą sveikąjį skaičių s. Kriterijus grindžiamastokiu faktu: variacinės eilutės, gautos stebint normalųjį atsitiktinį dydį, pradžios ir pabaigostaškai, atitinkamai transformuoti, kai imties tūris didelis, gali būti laikomi Puasono procesošuolių taškais.Atlikime transformaciją:⎛ ⎛ Xi− µ ⎞1 ⎟ ⎞Zi= n⎜ − Φ⎜⎟ kai µ , σ žinomi;⎝ ⎝ σ ⎠⎠,⎛ ⎛⎞⎜n X ⎞1 ⎜i− XZ⎟⎟i= n − Φ,1kai µ nežinomas, σ žinomas; (6.94)⎝ ⎝ n − σ ⎠⎠Zi⎛ ⎛ Xi− µ ⎞11 ⎟ ⎞n⎜ − Tn⎜ ⎟ kai µ žinomas, σ nežinomas;⎝ ⎝ s ⎠⎠,=−183

čia⎛ ⎛ X12 ⎟ ⎞⎜i− X ⎞Z = −⎜⎟in Tn−kai µ , σ nežinomi,⎝ ⎝ s ⎠⎠,1X =nn∑ X ii=1184,n2 12s = ∑(X i− µ ) , kai µ žinomas; (6.95)ni=1n2 12s = ∑(X i− X ) , kai µ nežinomas,ni=1Φ (x) - standartinio normalaus skirstinio pasiskirstymo funkcija, T ν(x)yra Tompsonopasiskirstymo funkcija:1 Γ((v + 1) / 2)Tv( x)=( + 1) Γ(v / 2)∫π vx− v+12⎛ y ⎞⎜1−1⎟⎝ v + ⎠( v−2) / 2,| x |

PROC MEANS NOPRINT DATA=Duomenys VARDEF=N;VAR X;OUTPUT OUT=pagalbinis MEAN(X)=vidurkis STD(X)=stand_n;RUN;DATA Rezultatas;IF _N_=1 THEN SET pagalbinis;SET Duomenys;RUN;DATA Rezultatas;SET Rezultatas;arg=abs((X-vidurkis)/stand_n);arg2=arg*sqrt(100/(100+1-arg*arg));Z=102*(1-cdf(’T’,arg2,100));RUN;PROC SORT DATA=Rezultatas OUT=Klaidos;BY Z;RUN;DATA Klaidos;SET Klaidos;j=_N_;stat=z/j;IF stat

SANTRUMPOS IR ŽYMENYSŽymenys, naudojami programoseSAS komandos parašytos didžiosiomis raidėmis.Tekstas, kurį reikia įvesti Editor lange, parašytas „Courier New“ šriftu.Komandos, nurodytos tarp simbolių „“, yra nebūtinos (pasirinktinės).Jeigu kelios komandos yra atskirtos simboliais „|“, tai reikia nurodyti vieną iš jų.Žymenys ir santrumpos, naudojamos tekstea.d. – atsitiktinis dydis;a.v. – atsitiktinis vektorius;NMD – nepaslinktas minimalios dispersijos (įvertis);TG – tolygiai galingiausias (kriterijus);TGN – tolygiai galingiausias nepaslinktas (kriterijus);EX – a.d. X vidurkis;VX – a.d. X dispersija;cov(X,Y) – a.d. X ir Y kovariacija;B(n,q) – binominis skirstinys su parametrais n ir q;P (λ) - Puasono skirstinys su parametru λ ;N(0,1) – standartinis normalusis skirstinys;22N( µ , σ ) - normalusis skirstinys su parametrais µ ir σ ;G ( λ,η)- gama skirstinys su parametrais λ ir η ;Be(γ , η)- beta skirstinys su parametrais γ ir η ;S(n ) – Stjudento skirstinys su n laisvės laipsnių;F(m , n)– Fišerio skirstinys su m ir n laisvės laipsnių;22X ~ N( µ , σ ) - a.d. X skirstinys yra normalusis su parametrais µ ir σ (analogiškai kitųskirstinių atveju).186

LITERATŪRALiteratūra lietuvių kalba1. Bikelienė V. Taikomosios matematinės statistikos elementai. Vilnius: VU l-ka, 1993,101 p.2. Bikelienė V. Neparametrinė statistika: Dažnių lentelėmis pagrįsti statistiniai kriterijaiir sąryšio matai. Vilnius: VU l-ka, 1986.3. Čekanavičius V., Murauskas G. Statistika ir jos taikymai.I. Vilnius: TEV, 2000, 240 p.4. Čekanavičius V., Murauskas G. Statistika ir jos taikymai. II. Vilnius: TEV, 2002,272p.5. Kruopis J. Matematinė statistika. Vilnius: Mokslas, 1993, 416 p.Rusų kalba6. Афифи А., Эйзен С. Статистический анализ. Подход с использованием ЭВМ.Москва: Мир, 1982, 488 с.Anglų kalba7. Delwiche L.D., Slaughter S.J. The Little SAS ® Book: A primer. SAS Press, 1998,300p.8. Hatcher L., Stepanski E.J. A Step-by-Step Approach to Using SAS ® System forUnivariate and Multivariate Statistics. Cary, Nc: SAS Institute Inc., 1994, 552p.9. SAS ® Help and Documentation. Kompaktas (platinamas kartu su SAS ® ).10. Interneto tinklapis http://www.sas.com.187

statistika su sas i - Matematikos ir Informatikos fakultetas - Vilniaus ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?