Eine Einführung in Stata - Regressionsanalyse - Universität Würzburg

Eine Einführung in Stata - Regressionsanalyse - Universität Würzburg Eine Einführung in Stata - Regressionsanalyse - Universität Würzburg

vwl.uni.wuerzburg.de
von vwl.uni.wuerzburg.de Mehr von diesem Publisher
13.07.2015 Aufrufe

Gliederung1 E<strong>in</strong>fache <strong>Regressionsanalyse</strong>2 Multiple Regression3 Regressionsdiagnostik4 Instrumentenvariablen5 Zeitreihenanalyse6 PaneldatenAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 2 / 57


GliederungE<strong>in</strong>fache <strong>Regressionsanalyse</strong>1 E<strong>in</strong>fache <strong>Regressionsanalyse</strong>2 Multiple Regression3 Regressionsdiagnostik4 Instrumentenvariablen5 Zeitreihenanalyse6 PaneldatenAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 3 / 57


E<strong>in</strong>fache <strong>Regressionsanalyse</strong>Die l<strong>in</strong>eare E<strong>in</strong>fachregressionDas Grundpr<strong>in</strong>zip aller Regressionsmodelle ist die Bildung e<strong>in</strong>es Modells,welches e<strong>in</strong>e abhängige Variable (den Regressanden) <strong>in</strong> e<strong>in</strong>enZusammenhang mit unabhängigen Variablen (den Regressoren) stellt. Ine<strong>in</strong>er l<strong>in</strong>earen E<strong>in</strong>fachregression wird e<strong>in</strong> Zusammenhang zwischen demRegressanden, e<strong>in</strong>er Konstante und e<strong>in</strong>em weiteren Regressor unterstellt.Bsp.:Wohnungsgröße Meier =β 0 +β 1· E<strong>in</strong>kommen Meier +ɛ Meier (1)Dieser Zusammenhang wird nun für alle Mitglieder e<strong>in</strong>er Populationunterstellt. D.h.:Wohnungsgröße i =β 0 +β 1· E<strong>in</strong>kommen i +ɛ i (2)Alexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 4 / 57


E<strong>in</strong>fache <strong>Regressionsanalyse</strong>Die l<strong>in</strong>eare E<strong>in</strong>fachregressionSomit ergibt sich die geschätzte Wohnraumgröße für e<strong>in</strong> beliebigesPopulationsmitglied:Die Residuen dieser Schätzung lauten:ŷ i =β 0 +β 1· x i (3)e i = y i − ŷ i (4)Die Summe der quadrierten Residuen werden als RSS (Residual Sum ofSquares bezeichnet:)n∑RSS ==ei2i=1n∑(y i − ŷ i ) 2 (5)i=1Alexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 5 / 57


E<strong>in</strong>fache <strong>Regressionsanalyse</strong>Die l<strong>in</strong>eare E<strong>in</strong>fachregressionDurch M<strong>in</strong>imierung dieser Quadrate erhält man den OLS-Schätzer(“Ord<strong>in</strong>ary least squares“):∂RSS=−2 ∑ ∑y i + 2nβ 0 + 2nβ 1 xi (6)∂β 0=⇒β 0 = ȳ−β 1¯x∂RSS=−2 ∑ ∑ ∑y i x i + 2β 0 xi + 2β 1 x2∂β i1∑ (xi − ¯x)(y i − ȳ)=⇒β 1 = ∑ (xi − ¯x) 2Alexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 6 / 57


E<strong>in</strong>fache <strong>Regressionsanalyse</strong>Die l<strong>in</strong>eare E<strong>in</strong>fachregression <strong>in</strong> STATADer OLS-Schätzer wird <strong>in</strong> STATA mittels des Befehls regress aufgerufen:regress Regressand Regressor[en], Optionen . E<strong>in</strong> e<strong>in</strong>fachesBeispiel:use data1regress sqm hh<strong>in</strong>cereturn listAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 7 / 57


E<strong>in</strong>fache <strong>Regressionsanalyse</strong>Interpretation: KoeffizientenblockBeantworten Sie folgende Fragen:Wie lässt sich der Koeffizientβ 0 [ cons] <strong>in</strong>terpretieren?Wie lässt sich der Koeffizientβ 1 [hh<strong>in</strong>c] <strong>in</strong>terpretieren?Wie hoch ist die erwartete Wohnungsgröße e<strong>in</strong>esDurchschnittsverdieners?Wie hoch ist das erwartete Wohnungsgröße der Person Nummer3155820 (persnr)?H<strong>in</strong>weis:Benutzen Sie den e<strong>in</strong>gebauten STATA-Taschenrechner display.Koeffizienten können mittels des Ausdrucks b[Koeffizientenname]genutzt werden. D.h.:display b[ cons]display 2· b[ cons]Alexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 8 / 57


Der predict-BefehlE<strong>in</strong>fache <strong>Regressionsanalyse</strong>Oftmals ist es <strong>in</strong>teressant, die geschätzten Werte des Regressanden, ŷ,oder der Residuen, ŷ− y, usw. zu berechnen. Dies kann wie oben gesehenper Hand über den generate Befehl geschehen. Alternativ hat STATAdieses Vorgehen bereits implementiert:Berechnung der geschätzten Werte ŷ:predict NeuerVariablennameBerechnung der geschätzten Werte ŷ, andere Möglichkeit:predict NeuerVariablenname, xbHier ke<strong>in</strong> Unterschied. ABER: nicht immer!!!Berechnung der Residuen ŷ− y:predict NeuerVariablenname, residBerechnung der Standardfehler der geschätzten Werte:predict NeuerVariablenname, residH<strong>in</strong>weis:Zur grafischen Verdeutlichung:twoway scatter sqm hh<strong>in</strong>c || lfitci sqm hh<strong>in</strong>cAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 9 / 57


ANOVA-BlockE<strong>in</strong>fache <strong>Regressionsanalyse</strong>Im STATA-Output nach e<strong>in</strong>er Regression wird “oben l<strong>in</strong>ks“ derANOVA-Block (“Analysis of Variance“) ausgegeben. Hier wird dieVariation der abhängigen Variable <strong>in</strong> e<strong>in</strong>en erklärten und e<strong>in</strong>ennicht-erklärten Teil zerlegt. Die quadrierten Abweichungen vom Mittelwertwerden dabei als TSS (“Total Sum of Squares“) bezeichnet.TSS = ∑ (y i − ȳ) 2 (7)Durch die Here<strong>in</strong>nahme (weiterer) erklärender Variable wird das Modellverbessert. D.h. dass die Unterschiede zwischen dem geschätzten Wertund dem tatsächlichen Wert hoffentlich kle<strong>in</strong>er s<strong>in</strong>d als die Abweichungender erklärenden Variable vom Mittelwert. Diese Abweichungen werden alsRSS (“Residual Sum of Squares“) bezeichnet.RSS = ∑ (e i − ē) 2 = ∑ (e i ) 2 (8)Alexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 10 / 57


ANOVA-BlockE<strong>in</strong>fache <strong>Regressionsanalyse</strong>Die Differenz aus TSS und RSS wird als MSS (“Model Sum of Squares“)bezeichnet. Sie beschreibt den Teil der Variation, die durch e<strong>in</strong>eHere<strong>in</strong>nahme weiterer Variablen erklärt wird.MSS = ∑ (ŷ i − ˆȳ) 2 (9)Rechts neben diesen Angaben lassen s<strong>in</strong>d die Freiheitsgrade derAbweichungen f<strong>in</strong>den. Diese lauten für:TSS: n−1RSS: n−kMSS: k− 1Alexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 11 / 57


ANOVA-BlockE<strong>in</strong>fache <strong>Regressionsanalyse</strong>Rechts neben den Freiheitsgraden s<strong>in</strong>d die mittleren quadratischenAbweichungen angegeben (MS = “mean square deviation“). Man ehältdiese, <strong>in</strong>dem man die SS (“Sum of Squares“) durch die Freheitsgrade teilt.Alexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 12 / 57


E<strong>in</strong>fache <strong>Regressionsanalyse</strong>Modellfit“Rechts oben“ <strong>in</strong> der Ausgabe bef<strong>in</strong>det sich der sogenannteModellfit-Block. In diesem werden folgende Werte ausgegeben:Anzahl an BeobachtungenF-StatistikP(x> F)R 2R 2 adj.RMSEAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 13 / 57


E<strong>in</strong>fache <strong>Regressionsanalyse</strong>ModellfitDie bekannteste Maßzahl für den Modellfit stellt wohl das R 2 dar, welchesden Anteil der Varianz, der durch das Modell erklärt wird zu der Varianzder abhängigen Variable <strong>in</strong>s Verhältnis setzt:R 2 = MSSTSS= 1−RSSTSS = 1− ∑ e2i∑ (yi − ȳ) 2 (10)(TSS = MSS + RSS)In der multiplen Regression wird des Weiteren noch das adjustierte R 2genutzt, das berücksichtigt, dass bei Aufnahme weiterer RegressorenFreiheitsgrade verloren gehen:R 2 a= 1−n−1n−k (1−R2 ) (11)Alexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 14 / 57


ModellfitE<strong>in</strong>fache <strong>Regressionsanalyse</strong>Als Alternative zum R 2 bietet sich der RMSE (”Root Mean SquaresError”), also die Wurzel der durchschnittlichen Residuen, an:√RSSRMSE =n−k(12)Des Weiteren wird oftmals die F-Statistik verwendet, die e<strong>in</strong> Aussagedarüber zulässt, ob das Regressionsmodell als ganzes signifikant ist:F = MSS /k−1RSS/n−k(13)Alexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 15 / 57


E<strong>in</strong>fache <strong>Regressionsanalyse</strong>Modellfit: BerechnungenBerechnen Sie folgende Werte:R 2R 2 aRMSEF-StatistikAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 16 / 57


GliederungMultiple Regression1 E<strong>in</strong>fache <strong>Regressionsanalyse</strong>2 Multiple Regression3 Regressionsdiagnostik4 Instrumentenvariablen5 Zeitreihenanalyse6 PaneldatenAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 17 / 57


Multiple RegressionMultiple RegressionIn die multiple Regression unterscheidet sich von der E<strong>in</strong>fachregressiondurch die Aufnahme weiterer Regressoren. D.h. wir unterstellen <strong>in</strong> unseremModell folgenden l<strong>in</strong>earen Zusammenhang:y i =β 0 +β 1 x 1i +β 2 x 2i +β 3 x 3i +··· +β k−1 x k−1i +ɛ i (14)Es sei u’u die Summe der Quadrate der Residuen Q. Diese soll nunm<strong>in</strong>imiert werden, d.h.:Q = u’u (15)= (y−Xβ) ′ (y−Xβ)= y’y−y’Xβ−β ′ X’y +β ′ X’XβAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 18 / 57


Multiple RegressionMultiple RegressionDie M<strong>in</strong>imierung erfolgt durch ableiten:Daraus folgt:∂Q∂β∂∂β (y’y−y’Xβ−β′ X’y +β ′ X’Xβ) ! = 0⇔−2(y’X) ′ + 2X’Xˆβ = 0!= 0 bzw. (16)∂Q∂β = 0 (17).ˆβ = (X’X) −1 X’yAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 19 / 57


Multiple RegressionMultiple Regression <strong>in</strong> <strong>Stata</strong>E<strong>in</strong> e<strong>in</strong>faches Beispiel:use data1, cleargen owner = renttype == 1 if renttype < .gen east = state >= 11 & state


Multiple RegressionStandardisierte RegressionskoeffizientenOftmals ist es schwierig, unterschiedliche Regressionskoeffizientenmite<strong>in</strong>ander zu vergleichen, da die E<strong>in</strong>flüsse deutlich von der Maße<strong>in</strong>heitabhängen. Um die Stärke des E<strong>in</strong>flusses zu identifizieren kann man daherstandardisierte Beta-Koeffizienten verwenden.Dieser ist def<strong>in</strong>iert als:βk ∗ =β s x kk(18)s yDie standardisierten Beta-Koeffizienten haben folgende Interpretation:”Wenn sich die unabhängige Variable k um e<strong>in</strong>e Standardabweichungändert, ändert sich die abhängige Variable umβ ∗ k Standardabweichungen.Alexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 21 / 57


Multiple RegressionStandardisierte RegressionskoeffizientenAchtung:Aufgabe:In <strong>Stata</strong> werden “normale“ Betas als ”bs”bezeichnet,Beta h<strong>in</strong>gegen me<strong>in</strong>t die standardisierten Regressionkoeffizienten.Berechnen Sie den standardisierten Regressionskoeffizienten für dasHaushaltse<strong>in</strong>kommen. Überprüfen sie diese Berechnung mittels:reg sqm hh<strong>in</strong>c hhsize east owner, betaAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 22 / 57


Multiple RegressionStandardisierte RegressionskoeffizientenBei den standardisierten Regressionskoeffizienten ist auf folgendes zuachten:Ke<strong>in</strong>e s<strong>in</strong>nvolle Interpretation bei dichotomen VariablenBei Interaktionstermen stimmen die ausgegebenen Betas nicht. <strong>E<strong>in</strong>e</strong>vorherige Standardisierung ist erforderlichKe<strong>in</strong> Vergleich von Beta-Koeffzienten zwischen verschiedenenDatensätzenAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 23 / 57


GliederungRegressionsdiagnostik1 E<strong>in</strong>fache <strong>Regressionsanalyse</strong>2 Multiple Regression3 Regressionsdiagnostik4 Instrumentenvariablen5 Zeitreihenanalyse6 PaneldatenAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 24 / 57


RegressionsdiagnostikVerletzung von E(ɛ i ) = 0Für die Unverzerrtheit des Schätzers ist folgende Annahme essentiell:E(ɛ 1 ) = 0Diese Annahme kann aus folgenden Gründen verletzt se<strong>in</strong>:Der tatsächliche Zusammenhang zwischen abhängiger und denunabhängigen Variablen kann nichtl<strong>in</strong>ear se<strong>in</strong>e<strong>in</strong> Ausreißer bee<strong>in</strong>flusst das Regressionsergebnis sehr starkEs wurde e<strong>in</strong>e Variable vergessen, die mit e<strong>in</strong>em Regressor korreliertistAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 25 / 57


RegressionsdiagnostikVerletzung von E(ɛ i ) = 0<strong>E<strong>in</strong>e</strong> wesentliche Annahme der OLS-Regression ist die L<strong>in</strong>earität <strong>in</strong> denParametern. Diese ist dann verletzt, wenn der tatsächliche Zusammenhangnicht-l<strong>in</strong>ear (oder falsch spezifiziert) ist. <strong>E<strong>in</strong>e</strong> Möglichkeit zur grafischenAnalyse stellt der Median-Trace dar. Hierbei werden die Daten <strong>in</strong> “Bänder“unterteilt und <strong>in</strong> diesen dann jeweils der Median berechnet.Bsp.:use data1, cleartwoway scatter sqm hh<strong>in</strong>c || mband sqm hh<strong>in</strong>c, bands(20)Alexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 27 / 57


RegressionsdiagnostikVerletzung von E(ɛ i ) = 0In der multiplen Regression bietet sich folgendes Vorgehen an:reg sqm hh<strong>in</strong>c hhsizepredict resid, residgenerate residplus=resid + b[hhsize]*hhsizecprplot hhsize, mspl<strong>in</strong>e msopts(bands(20))Alexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 28 / 57


RegressionsdiagnostikVerletzung von E(ɛ i ) = 0E<strong>in</strong> weiteres Problem kann die Existenz von E<strong>in</strong>flussreichen Variablen se<strong>in</strong>.Da die Methode der kle<strong>in</strong>sten Quadrate sehr anfällig für Ausreißer ist. Bsp.:clearset obs 100gen y=<strong>in</strong>vnorm(uniform())gen x=<strong>in</strong>vnorm(uniform())reg y xtwoway scatter y x || lfit y xAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 29 / 57


RegressionsdiagnostikVerletzung von E(ɛ i ) = 0Solche Ausreißer können auf verschiedene Weise identifiziert werden. <strong>E<strong>in</strong>e</strong>Möglichkeit stellt der Befehl dfbeta dar, mittels dem die E<strong>in</strong>flüsse e<strong>in</strong>erBeobachtung auf den Regressionskoeffizienten identifiziert werden können.Dieser ist def<strong>in</strong>iert:In unserem Beispiel:regdfbetagraph box DFxDFBETA ik = β k−β k(i)s e(i)/ √ RSS k(19)Alexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 30 / 57


RegressionsdiagnostikVerletzung von E(ɛ i ) = 0Im allgeme<strong>in</strong>en gilt der E<strong>in</strong>fluss e<strong>in</strong>er Beobachtung als kritisch, wenn gilt:| DFBETA ik |> 2 / √ n (20)Alexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 31 / 57


RegressionsdiagnostikVerletzung von Var(ɛ) =σ 2· IDie Verletzung der Homoskedastizitätsannahme für zu <strong>in</strong>effizientenErgebnissen der Schätzung. Grundsätzlich gibt es unterschiedlicheMöglichkeiten e<strong>in</strong>en solchen Test durchzuführen. Bsp.:use data1reg sqm hhsize hh<strong>in</strong>cpredict resid, residpredict yhatgen resid2= residˆ2reg resid2 yhatAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 32 / 57


RegressionsdiagnostikVerletzung von Var(ɛ) =σ 2· IIn <strong>Stata</strong> s<strong>in</strong>d mehrere unterschiedliche Tests auf Heteroskedastiztätenthalten:reg sqm hh<strong>in</strong>c hhsizehettest, fstathettest, normalhettest, rhsAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 33 / 57


RegressionsdiagnostikVerletzung von Var(ɛ) =σ 2· I<strong>E<strong>in</strong>e</strong> weitere Möglichkeit, Heteroskedastizität zu erkennen, ist diesogenannte Quantilsregression. Für den Median ergibt sich beisymmetrischen Fehlern derselbe Koeffizient wie bei dem OLS-Regression.Führt man zusätzlich noch Quantilsregressionen für bspw. das neunte underste Dezil aus, lässt sich dann erkennen, ob Heteroskedastizität vorliegt.Für die Qauntilsregression gilt es, folgenden Ausdruck zu m<strong>in</strong>imieren:n∑n∑φ = | y i − x i ′ β|= (y i − x i ′ )sgn(y i− x i ′ ) (21)i=1i=1Alexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 34 / 57


RegressionsdiagnostikVerletzung von Var(ɛ) =σ 2· IIn STATA lautet der Befehl für Quantilsregressionen:qreg abh. unabh., q(quantilsnummer)Bsp.:. use data1. reg sqm hh<strong>in</strong>c. qreg sqm hh<strong>in</strong>c, q(50). qreg sqm hh<strong>in</strong>c, q(10). qreg sqm hh<strong>in</strong>c, q(90). graph twoway scatter sqm hh<strong>in</strong>c || lfit sqm hh<strong>in</strong>c || function y= 48.16008 +0.0178908 * x, range(0 15000) || function y= 95.16159 + 0.0218516 * x, range(015000) || function y= 26.41627 + 0.0095694 * x, range(0 15000)Alexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 35 / 57


RegressionsdiagnostikVerletzung von Var(ɛ) =σ 2· ILösungsansätze:(F)GLS: Gewichtung der Regression. Bspw.:Var[ u i/z i ] = ( 1 /z 2 i)Var[u i ]reg y x, [aweight 1 / [z 2 i ]]Huber-White-Sandwich-Estimator:reg y x, robustVorsicht: Heteroskedastizität kann auch e<strong>in</strong> H<strong>in</strong>weis auf Fehlspezifikationdes Modells se<strong>in</strong>!Weiter Möglichkeiten: help reghelp vcetypehelp neweyAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 36 / 57


RegressionsdiagnostikWichtige Tests. tab state, gen(statedum). tab area, gen(areadum). reg rent sqm hh<strong>in</strong>c hhsize statedum* areadum* garden balcony, vce(robust)E<strong>in</strong>facher Wald-Testtest hh<strong>in</strong>c == .2test garden == balconyF-Testtest hh<strong>in</strong>c hhsizetestparm statedum*Wald-Test von L<strong>in</strong>earkomb<strong>in</strong>ationenl<strong>in</strong>com garden - 1.5 * balconyAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 37 / 57


GliederungInstrumentenvariablen1 E<strong>in</strong>fache <strong>Regressionsanalyse</strong>2 Multiple Regression3 Regressionsdiagnostik4 Instrumentenvariablen5 Zeitreihenanalyse6 PaneldatenAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 38 / 57


IVInstrumentenvariablen<strong>E<strong>in</strong>e</strong> wesentliche Vorraussetzung dafür, dass e<strong>in</strong>e Schätzung unverzerrt ist,stellt die Annahme dar, dass der Regressor unabhängig von dem Störtermist. Ist diese Annahme verletzt stellt die IV-Methode e<strong>in</strong> gängiges Mitteldar, e<strong>in</strong>e Schätzung durchzuführen.Es sei folgendes Modell gegeben:y =β 1 x 1 +β 2 x 2 +··· +β k x k +ɛ (22)E<strong>in</strong> Regressor ist dann exogen, wenn gilt:Cov[x j ,ɛ] = 0 (23)Entsprechend ist e<strong>in</strong> Regressor endogen, wenn gilt:Cov[x j ,ɛ] ≠ 0 (24)Alexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 39 / 57


InstrumentenvariablenIVGehen wir weiterh<strong>in</strong> von folgendem Modell aus:y = Xβ +ɛ (25)Nun def<strong>in</strong>ieren wir e<strong>in</strong>e Matrix Z mit der gleichen Dimension wie X, <strong>in</strong> derjedoch der endigene Regressor durch das Instrument z ersetzt wurde.Entsprechend def<strong>in</strong>ieren wir nun:y = Xβ + uZ’y = Z’Xβ + Z’ɛZ’y = Z’Xˆβ IVˆβ IV = Z’X −1 Z’y (26)Alexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 40 / 57


IVInstrumentenvariablenWenn wir e<strong>in</strong>e endogene Variable x mit mehreren exogenen Variablen z<strong>in</strong>strumentrieren wollen, kann der e<strong>in</strong>efache IV-Schätzer nicht mehrgenutzt werden, da X und Z dann unterschiedliche Dimensionen hättten.Daher müssen die Anzahl der Instrumente der Instrumente <strong>in</strong> e<strong>in</strong>em erstenSchritt reduziert werden:ˆX = Z(Z’Z) −1 Z’X (27)Wenn wir nun P Z als Projektionsmatrix Z(Z’Z) −1 Z’ def<strong>in</strong>ieren, könnenwir das <strong>in</strong> den bekannten IV-Schätzer e<strong>in</strong>setzen:ˆβ 2SLS = (ˆX ′ X)ˆX’y( )= X’Z(Z’Z) −1 −1Z’X X’Z(Z’Z)Z’y= (X’P Z X) −1 X’P Z y (28)Alexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 41 / 57


IVInstrumentenvariablenIn STATA wird e<strong>in</strong>e Instrumentenvariablenschätzung mittels des Befehlsivreg durchgeführt:. ivreg Regressand Regressoren (Instrumentierte = Instrument(e) ), OptionenBsp.:use grilichesivreg lw s expr tenure rns smsafirstoverid Wir stellen fest:I* (iq =med kww age mrt),Die Variable iq ist e<strong>in</strong> schlechtes Maß für Fähigkeit (ability).Die Instrumente kww, age und mrt s<strong>in</strong>d stark mit dem endogenenRegressor korreliert, med ist nur schwach korreliertDer overid-Test lehnt die Nullhypothese, dass die Instrumente nichtmit den Störtermen korreliert s<strong>in</strong>d abAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 42 / 57


GliederungZeitreihenanalyse1 E<strong>in</strong>fache <strong>Regressionsanalyse</strong>2 Multiple Regression3 Regressionsdiagnostik4 Instrumentenvariablen5 Zeitreihenanalyse6 PaneldatenAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 43 / 57


ZeitreihenanalyseZeitreihenanalysePr<strong>in</strong>zipiell unterscheidet sich e<strong>in</strong>e Zeitreihenregression (<strong>in</strong> <strong>Stata</strong>) nicht vone<strong>in</strong>er normalen Regression. Allerd<strong>in</strong>gs ist es zweckmäßig die Zeitvariable zuspezifizieren um “echte“ Zeitreihenanalysen vorzunehmen.Dafür ist es zuvorderst notwendig, die Zeitreihe zu spezifizieren, was <strong>in</strong>STATA mittels des Befehls tsset geschieht:use ukratedtsset monthAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 44 / 57


ZeitreihenanalyseZeitreihenanalyse<strong>E<strong>in</strong>e</strong> Übersicht der Erweiterungen der Variablenliste bei Zeitreihen:Operator Bedeutung Formale DarstellungL.var Lag var t−1L2.varvar t−2···F.var Lead var t+1F2.var var t+2···D.var Difference var t− var t−1D2.var (Diff. of Diff.) var t− 2·var t−1 + var t−2(1−L) 2· var t = var t− 2Lvar t + LLvar···S.var “Seasonal“ Diff. var t− var t−1S2.varvar t− var t−2···H<strong>in</strong>weis: help varlistAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 45 / 57


ZeitreihenanalyseZeitreihenanalyseE<strong>in</strong> wesentliches Problem bei Zeitreihen ist, dass die Störtermemite<strong>in</strong>ander korreliert se<strong>in</strong> können. Für den e<strong>in</strong>fachsten Fall e<strong>in</strong>esautoregressiven Prozesses (oder Markov Prozess erster Ordnung) gilt:u t =ρu t−1 +υ t ,|ρ|


ZeitreihenanalyseZeitreihenanalyseBeispiel:reg D.rs LD.rspredict resid, residreg resid L.resid, noconsOder, der “Klassiker“:d =∑ Tt=2(û t − û t−1 ) 2∑ Tt=1 û 2 t≃ 2(1−ρ) (30)reg D.rs LD.rsestat dwatsonAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 47 / 57


ZeitreihenanalyseZeitreihenanalyseWeitere Möglichkeiten:Grafische Untersuchung:ac residcorrgram residAndere TeststatistikenBreusch-Godfrey-Test (H 0 :ρ i = 0∀i):bgodfrey, lags(anzahl)Ljung-Box-Test (Box-Pierce-Test):wntestq residAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 48 / 57


ZeitreihenanalyseZeitreihenanalyseDie bekanntesten Möglichkeiten Zeitreihen mit AR(1)-Fehlern zu schätzens<strong>in</strong>d die Modelle von Prais-W<strong>in</strong>sten und Cochrane-Orcutt:Cochrane-Orcutt schätzt das transformierte (quasi-differenzierte)Modell:y t −ρy t−1 =β(1−ρ) +γ(X t −ρX t−1 +ɛt)(Iterativ: OLS =⇒Residuen =⇒ˆρ =⇒Transformation =⇒usw)prais D.rs LD.r20, corcPrais-W<strong>in</strong>sten:Wie Cochrane Orcutt, nur wird die erste Beobachtung mit √ 1−ρ 2multipliziert anstatt diese wegzulassenprais D.rs LD.r20Alexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 49 / 57


GliederungPaneldaten1 E<strong>in</strong>fache <strong>Regressionsanalyse</strong>2 Multiple Regression3 Regressionsdiagnostik4 Instrumentenvariablen5 Zeitreihenanalyse6 PaneldatenAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 50 / 57


PaneldatenPaneldatenPaneldaten (auch: Längsschnittdaten) liegen dann vor, wenn e<strong>in</strong> Subjektüber e<strong>in</strong>en längeren Zeitraum beobachtet wird. Die e<strong>in</strong>fachste Möglichkeitbesteht dar<strong>in</strong>, die Beobachtungen e<strong>in</strong>fach zu “poolen“, d.h. wir führen e<strong>in</strong>enormale Regression mit N· T Beobachtungen durch. Allerd<strong>in</strong>gs kannfolgendes Modell verdeutlichen, dass dies nicht unbed<strong>in</strong>gt zweckmäßig ist:y it = x it β k + z i δ + u i +ɛ it (31)mit:x it : Variablen, die sich über die Zeit und zwischen den Individuenunterscheidenβ k : zugehöriger Koeffizientenvektorz i : zeit-<strong>in</strong>variate Variablenδ : zugehöriger Koeffizientenvektoru i : <strong>in</strong>diviudeller Level-EffektAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 51 / 57


PaneldatenPaneldatenGrundsätzlich besteht somit die Möglichkeiten, (un)beobachtbarezeit<strong>in</strong>variate E<strong>in</strong>flüsse zu elem<strong>in</strong>ieren, da wir mehrere Beobachtungen füre<strong>in</strong> Individuum haben. Je nachdem, welche Annahmen wir <strong>in</strong> die<strong>in</strong>ividuellen Level-Effekte u i stecken, können wir random effects und fixedeffects unterscheiden:u i ist mit den Regressoren unkorreliert: REIntuition: wenn die u i mit allem anderen <strong>in</strong> dem Modell unkorrelierts<strong>in</strong>d, stellen sie e<strong>in</strong>fach zusätzliches Rauschen daru i ist mit den Regressoren korreliert: FEInuition: wenn die u i mit den Regressoren korreliert s<strong>in</strong>d, kann mansie e<strong>in</strong>fach wie zeit<strong>in</strong>variate Parameter, also fixe Effekte, behandeln.Alexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 52 / 57


PaneldatenPaneldatenDa wir ofmtals zwar sehr viele Individuen, jedoch nur wenige Zeitpunktehaben, ist es äußerst problematische, für jedes Individuum e<strong>in</strong>eDummyvariable zu generieren. Daher bedient man sich bei derFE-Schätzung folgenden Tricks:y it − ȳ i = (x it − ¯x i )β + (z i − z i )δ + u i − u i +ɛ it − ¯ɛỹ it = ˜x it β + ˜ɛ it (32)Diese Transformation kann dann mittels der Methode der kle<strong>in</strong>stenQuadrate geschätzt werden. Der Vorteil (und auch Nachteil) diesesVorgehens ist, dass sämtliche beobachtbaren und unbeobachtbarenMerkmale “entfernt“ werden. (klar?) der FE-Schätzer wird auch alswith<strong>in</strong>-Schätzer bezeichnet da er von der Variation <strong>in</strong>nerhalb desIndividuums abhängtAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 53 / 57


PaneldatenPaneldatenPaneldaten können im breiten und im langen Format vorliegen. FürRegressionen benötigt STATA Daten im langen FormatWide FormatLong Formati X 1968 X 1969 X 1970 i year XJohn 7 8 5 John 1968 7Paul 5 2 2 John 1969 8George 4 3 1 John 1970 5R<strong>in</strong>go 8 8 6 Paul 1968 5Paul 1969 2Paul 1970 2George 1968 4. . .R<strong>in</strong>go 1970 6Alexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 54 / 57


PaneldatenPaneldatenIn STATA wechselt man mittels des reshape-Befehls zwischen dem langenund dem breiten Format. In dem Befehl müssen folgende Punkte kenntlichgemacht werden:Variable, die das Individuum e<strong>in</strong>deutig identifiziertAngabe der Variablen, welche über die Zeit beobachtbar s<strong>in</strong>dInformation über die ZeitpunkteAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 55 / 57


PaneldatenPaneldatenDer Befehl lautet:reshape long/wide zeitvariate Variable,i(Individuenidentifikation) j(Zeitvariable)Bsp.:use data2wdreshape long <strong>in</strong>c lsat mar hour, i(persnr) j(wave)dxtset persnr wavextdesxtsumAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 56 / 57


PaneldatenPaneldatenFortsetzung Bsp.:gen age = wave - gebjahrreplace lsat = . if lsat < 0gen age2 = ageˆ2replace <strong>in</strong>c = . if <strong>in</strong>c < 0reg lsat age age2 <strong>in</strong>c sex marxtreg lsat age age2 <strong>in</strong>c sex mar, feAlexander Brunner (Universität Würzburg) <strong>E<strong>in</strong>e</strong> E<strong>in</strong>führung <strong>in</strong> <strong>Stata</strong> WS 2008/09 57 / 57

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!