12.07.2015 Views

Teo9-2_M2-1PETC - Departament d'Estadística i Investigació ...

Teo9-2_M2-1PETC - Departament d'Estadística i Investigació ...

Teo9-2_M2-1PETC - Departament d'Estadística i Investigació ...

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

MÓDULO 2PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS DECAMPOPrograma de Capacitación en Planeamiento, Regulación y Gestión Públicadel Transporte Urbano Metropolitano (PTUBA)UNIDAD 9-Análisis de Datos: perspectiva estadística de la explotaciónde la encuestaTEMA 9.2: MODELOS DE RESPUESTA NORMAL. ESTIMACIÓN E INFERENCIAAUTORA:Lídia Montero MercadéDEIO-UPCVersió 1.2Buenos Aires, 7 a 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCTABLA DE CONTENIDOS9.2-1. BIBLIOGRAFÍA __________________________________________________________________________________________________________39.2-2. INTRODUCCIÓN A LOS MODELOS DE RESPUESTA NORMAL_______________________________________________________________49.2-3. ESTIMACIÓN POR MÍNIMOS CUADRADOS ________________________________________________________________________________89.2-3.1 PROPIEDADES GEOMÉTRICAS ______________________________________________________________________________________________119.2-3.2 PROPIEDADES BÁSICAS DE INFERENCIA ______________________________________________________________________________________139.2-3.3 CASO PARTICULAR: LA REGRESIÓN LINEAL SIMPLE ____________________________________________________________________________169.2-3.4 MÍNIMOS CUADRADOS GENERALIZADOS _____________________________________________________________________________________189.2-4. CONTRASTES DE HIPÓTESIS EN MODELOS NORMALES __________________________________________________________________219.2-4.1 CÁLCULO DE INTERVALOS DE CONFIANZA____________________________________________________________________________________239.2-5. EL COEFICIENTE DE CORRELACIÓN MÚLTIPLE_________________________________________________________________________249.2-5.1 PROPIEDADES DEL COEFICIENTE DE CORRELACIÓN MÚLTIPLE___________________________________________________________________269.2-5.2 R 2 -ADJUSTED ___________________________________________________________________________________________________________269.2-6. TEST GLOBAL DE REGRESIÓN. TABLA ANOVA __________________________________________________________________________279.2-7. DISTRIBUCIÓN DE LOS VALORES AJUSTADOS ___________________________________________________________________________289.2-8. DIAGNOSIS Y VALIDACIÓN DEL MODELO _______________________________________________________________________________299.2-8.1 TRANSFORMACIÓN DE BOX-COX ___________________________________________________________________________________________389.2-9. OBSERVACIONES INFLUYENTES A PRIORI Y A POSTERIORI _____________________________________________________________409.2-9.1 OBSERVACIONES INFLUYENTES A PRIORI ____________________________________________________________________________________419.2-9.2 OBSERVACIONES INFLUYENTES A POSTERIORI ________________________________________________________________________________439.2-10. SELECCIÓN DEL MEJOR MODELO _____________________________________________________________________________________459.2-10.1 REGRESIÓN PASO O PASO (STEPWISE REGRESSION) ___________________________________________________________________________49Prof. Lídia Montero © Pàg. 9.2-2 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC9.2-1. BIBLIOGRAFÍAReferències bàsiques: Draper, N.R., Smith, H.: Applied regression analysis. Wiley, 1981. Fox, J.: Applied Regression Analysis, Linear Models, and Related Methods. Sage, 1997. Seber, G.A.F.: Linear Regression Analysis. Wiley, 1977. Cook, R.D., Weisberg, S.: Residuals and Influence in Regression. Chapman and Hall, 1982. Peña, D.: Estadística. Modelos y métodos. Vol. 2, Modelos lineales y series temporales. Alianza UniversidadTextos, 1989.Prof. Lídia Montero © Pàg. 9.2-3 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCINTRODUCCIÓN A LOS MODELOS DE RESPUESTA NORMALClasificación de los métodos estadísticos de análisis:VariablesExplicativas BinariaVariable de respuestaPolitómica Cuantitativa Cuantitativa ContinuaDiscreta Normal Tiempo entreeventosBinariaTablas decontingenciaRegresión logísticaModelos log-linealesTablas decontingencia*Modelos log-linealesModeloslog-linealesTests enmedias de 2grupos:t.testAnálisis de laSupervivenciaPolitómicasTablas decontingenciaRegresión logísticaModelos log-linealesTablas decontingenciaModelos log-linealesModeloslog-linealesContinuas Regresión logística * Modeloslog-linealesFactores ycovariablesEfectosAleatoriosRegresión logística * Modeloslog-linealesModelos mixtos Modelos mixtos ModelosmixtosONEWAY,ANOVARegresiónMúltipleANCOVAModelos mixtosAnálisis de laSupervivenciaAnálisis de laSupervivenciaAnálisis de laSupervivenciaModelosmixtosProf. Lídia Montero © Pàg. 9.2-5 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCINTRODUCCIÓN A LOS MODELOS DE RESPUESTA NORMAL…En la distribución normal:b22yy2 1 y , ,y log fYy, , c 2a2 y, log Para la ley normal, la devianza escalada toma por expresión dada una colección de n observaciones:D'y,ˆ 2(y,,y) 2ˆ, ,yPara la ley normal, la devianza toma por expresión dada una colección de n observaciones:ni1y i ˆ i2Dy, ˆ D'y,ˆ ˆ ni1y ii2Prof. Lídia Montero © Pàg. 9.2-7 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC9.2-3. ESTIMACIÓN POR MÍNIMOS CUADRADOSSea el modelo con variable de respuesta contínua,Y X , donde Y , son nx1, X es nxp y es px1en primera instancia sin ninguna hipótesis sobre la distribución de la variable Y, ni los errores.La estimación de los parámetros puede caracterizarse de manera genérica como,Min MkT M Y x donde la función real de los errores puede ser: M(x)=|x|, da lugar a procedimientos de estimación robusta basados en la norma 1. M(x)=x 2 , que da lugar al método de los mínimos cuadrados.kkkkEl método de los mínimos cuadrados de entrada no requiere de ninguna hipótesis sobre la distribución de lasobservaciones.La función objetivo a minimizar se suele denominarbien,2 TSS y se define k2koProf. Lídia Montero © Pàg. 9.2-8 Buenos Aires, 7 – 11 Diciembre 2009


ESTIMACIÓN POR MÍNIMOS CUADRADOSUNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC… La función objetivo a minimizar es …S2 TTT 2 T T TT T YX YX Y x Y Y X X 2X YkkkLas condiciones de primer orden de mínimo de S son:SS 0 0 i 1,,ipDerivando vectorialmente la expresión se obtienen las bien conocidas ecuaciones normales,S 0 S TTˆ TX X X Y 0 b X X 1T 2 2 X YSi la matriz de diseño es no singular, es decir de rango p, entonces la solución es única. Si X no es depleno rango, existen infinitas soluciones a las ecuaciones normales,2 XTX 2 XTY b ˆ pero todas ellas facilitan un predictor linealpor tanto idéntico.T TTXX X YIXXŷ ˆ Xb TX X w w idéntico y un mínimo de la función objetivoProf. Lídia Montero © Pàg. 9.2-9 Buenos Aires, 7 – 11 Diciembre 2009


ESTIMACIÓN POR MÍNIMOS CUADRADOSUNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCEn modelos específicos ANOVA y ANCOVA, las dependencias lineales entre las columnas de la matriz dediseño pueden eliminarse mediante una reparametrización, que aconsejablemente debe aplicar elestadístico, ya que la interpretabilidad de los parámetros resultantes depende de ella.A XTX es una g-inversa o inversa generalizada y satisfaceAAAA.A siempre existe, pero no es única. Si además satisface:Entonces1. A AA A 2. AA T AA 3. AA A AA es única y se denomina inversa de Moore-Penrose o p-inversa y nota comoTA .Las condiciones de segundo orden de suficiencia de mínimo requieren que la hessiana dedefinida positiva, es decir ,2S2 S 0 0 i,j 1,,pij S seaProf. Lídia Montero © Pàg. 9.2-10 Buenos Aires, 7 – 11 Diciembre 2009


ESTIMACIÓN POR MÍNIMOS CUADRADOSUNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC2S02 S ij 2XTX0i,j 1,,psi la matriz de diseño X es no singularentonces la hessiana es definida positiva y el punto que satisfaga las condiciones de primer orden es unmínimo global.9.2-3.1 Propiedades geométricas p nel espacio generado por las columnas de X,Sea X X μ μ Xββ .Sea μˆ la solución del problema de minimizaciónMin Yμ μˆ,2Entonces se puede demostrar que μˆ es la proyección ortogonal de Y y es única, siendo el operador deX XT Tproyección, la denominada matriz sombrero, los valores ajustados o predichos de Y, notados Ŷ ,PXX, puesto que su aplicación a Y facilitaPT TT T XXX X pone el sombrero ^ a la Y: Ŷ Xb XXX X Y PY.Prof. Lídia Montero © Pàg. 9.2-11 Buenos Aires, 7 – 11 Diciembre 2009


ESTIMACIÓN POR MÍNIMOS CUADRADOSUNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCGráficamente,YY XˆY μˆ es perpendicular al espacio engendrado por las columnas de la matriz de diseño XLos valores ajustados se notanŶˆ X ˆ PY (son únicos). .Los residuos se definen como las diferencias entre los valores observados y los valores ajustados:e YŶ Yˆ YX ˆ IPY (son únicos).No confundir los residuos, con los errores:Yˆ YX .Prof. Lídia Montero © Pàg. 9.2-12 Buenos Aires, 7 – 11 Diciembre 2009


ESTIMACIÓN POR MÍNIMOS CUADRADOSUNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC9.2-3.2 Propiedades básicas de inferenciaSea el modelo con variable de respuesta contínua,Y X , donde Y , son nx1, X es nxp de rango p y es px1y los errores son no sesgados: E 0 .En ese caso, si ˆ es el estimador por mínimos cuadrados de entonces es un estimador no sesgado:E T 1TT1T T1TX Y X X X E Y X X X X ˆ E XXSea el modelo con variable de respuesta contínua,Y X , donde Y , son nx1, X es nxp de rango p y es px1 y los errores son nosesgados y no correlacionados de varianza constante:E2 0 y V InCOVi, j ij) . ( 2Prof. Lídia Montero © Pàg. 9.2-13 Buenos Aires, 7 – 11 Diciembre 2009


ESTIMACIÓN POR MÍNIMOS CUADRADOSUNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCTeorema de Gauss-Markov:TEl estimador lineal no sesgado de mínima varianza de es XX X Ycuadrados.ˆT 1, estimador por mínimosEl teorema sigue siendo válido si la matriz de diseño no es de pleno rango (rango inferior a p), en cuyocaso la expresión del estimador por mínimos cuadrados debe contener la inversa generalizada.En el modelo actual, un estimador no sesgado des2Te en p22 , notado s es, TYX ˆ YX ˆ n pSCRn pSea el modelo con variable de respuesta continua,Y X , donde Y , son nx1, X es nxp de rango p y es px1y los errores son no sesgados de varianza constante, independientes y distribuidos normalmente:22 Nn 0, I n o equivalentemente Y N X , .nI nProf. Lídia Montero © Pàg. 9.2-14 Buenos Aires, 7 – 11 Diciembre 2009


ESTIMACIÓN POR MÍNIMOS CUADRADOSUNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCT…Entonces, el estimador no sesgado de mínima varianza de es XX X YˆT 1por mínimos cuadrados y coincide con el estimador de por maximización de verosimilitud, estimadorEn ausencia de normalidad, los estimadores por mínimos cuadrados no son eficientes, es decir tienen unavarianza superior a la varianza de los estimadores MV.En el modelo actual, el estimador no sesgado des2Te e n pˆMV22 , notado s es eficiente (de mínima varianza), TYX ˆ YX ˆ n pSCRn pTeorema de distribución de los estimadores de los parámetros (Th 3.5 Seber (77) pag. 54) : ˆT1. N , XXp .ˆ TV ˆ 2 11ˆ ˆ T2 22. ˆT 1T3. XX X Y es independiente de s 2 .SCR n p s p .22 2 24. nTXXˆ p..Prof. Lídia Montero © Pàg. 9.2-15 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCESTIMACIÓN M. C.9.2-3.3 Caso particular: la regresión lineal simpleSea el modelo con variable de respuesta contínua,Y X , donde Y , son nx1, 1xX es nx2 de rango 2 y es 2x1y los errores son no sesgados de varianza constante, independientes y distribuidos normalmente:22 N 0, o equivalentemente Y N X , .nI nnI nEl modelo ordinario de regresión lineal simple presupone una recta de relación entre la variable explicativax asociada al parámetro 2 y la variable de respuesta Y.La recta no tiene porqué pasar por el origen y por tanto la matriz de diseño contiene una columna constantecon valores 1 a la que se asocia el denominado término independiente, parámetro 1 .En resumen, y después de haber descrito la particularización de la notación general al modelo de RLSclásico, lo que se persigue es determinar “de la mejor manera posible” los coeficientes de la recta deregresión que relaciona la variable de respuesta Y con la variable explicativa x:yi 1 2x i i .Prof. Lídia Montero © Pàg. 9.2-16 Buenos Aires, 7 – 11 Diciembre 2009


ESTIMACIÓN M. C. REGRESIÓN LINEAL SIMPLEUNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCLos estimadores por mínimos cuadrados ordinarios se obtienen planteando las ecuaciones normales:Las condiciones de primer orden de mínimo deS0SS2STYX YX Y x S son: 0 2Y x kkxk Y x ˆ Y x Y n ˆ ˆ x Y ˆ ˆ x10 2kkkkkkkkkk kk2kxkk ˆ La segunda ecuación indica que la recta de regresión siempre pasa por el punto x, yy dividiendo laprimera por el número de observaciones n y restando la segunda se obtiene:2Yk kxkxk kxk k 22 Cov Y , Y x ˆ x ˆ x CovY, xˆ s ˆ x 2n n n sxLa estimación de la varianza del modelo resulta:SCRn 2e22s k kn 2.kkx2kxProf. Lídia Montero © Pàg. 9.2-17 Buenos Aires, 7 – 11 Diciembre 2009


ESTIMACIÓN M. C. REGRESIÓN LINEAL SIMPLEˆ 2 TLa varianza de los estimadores N , XXcomo:VVˆ 9.2-3.4 Mínimos cuadrados generalizadosSea el modelo con variable de respuesta contínua,UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC2 1 22ˆ x1 2 2nsx sxns22xpuede expresarse en este caso particularY X , donde Y , son nx1, X es nxp de rango p y es px12y los errores son no sesgados y correlacionados con distribución normal: N 0, W2equivalentemente Y N X , Wdimensión nxn .nno, donde W es una matriz simétrica y definida positiva deProf. Lídia Montero © Pàg. 9.2-18 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCESTIMACIÓN M. C. MÍNIMOS CUADRADOS GENERALIZADOS2Si W en el modelo Y N X , W es simétrica y definida positiva entonces puede calcularse unanmatriz no singular K triangular inferior de dimensión nxn tal queTW KK, esta matriz es única, es lafactorización de Cholesky de W . Los elementos de K se pueden determinar a partir de la factorización deCholesky o a partir de la descomposición triangular (vista en Optimización Continua) ,WLU L DL1 1T 2 2 TTT LD D L LD112 D L KK2La matriz K que aparece en la factorización de W permite calcular las transformaciones lineales de lasobservaciones (notado Y ~ ), la matriz de diseño X ~ y los errores ~ :1. Y ~ K1Y 2. X ~ K11 X 3. K ~ 111114. K Y K K K X K .Ahora el modelo transformado Y ~ X ~ ~Y ~X ~ ~ tiene errores no correlacionados de varianzaTT VX ~ ~ V ~ 1 112 1T2 1T2 VKK VK K WK K KK K InV Y ~.2 ,Prof. Lídia Montero © Pàg. 9.2-19 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCESTIMACIÓN M. C. MÍNIMOS CUADRADOS GENERALIZADOSSíntesis de la estimación e inferencia por mínimos cuadrados con respuesta normal:Y X , V W KK2222 TMODELO Y X , V I Y X , V D TransformaciónS Formacuadrádica aminimizarEcuacionesnormales S QY Y , X 1X2Y D Y2, X D111 X Y K Y , X K XT T 1YX YX YX D YX TTT 1T 1S X X, Q X Y S X D X, Q X D YT 1YX W YX S XTW1X, Q XTW1YEstimadores ˆ TXX 1 TX Y 1 1T 1X D X X D Y T T 1 T 1X W X X W Y2 Varianza de ˆ X T X1 2 TD 1 X X12 T 1 1X1W XSCR T T TT 1T 1TT 1T 1T ˆ Y D Y XD Y ˆ ˆYYXYYWY XWYProf. Lídia Montero © Pàg. 9.2-20 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC9.2-4. CONTRASTES DE HIPÓTESIS EN MODELOS NORMALESSea el modelo con variable de respuesta continua y normal,Y X , donde Y , son nx1, X es nxp de rango p y es px12V I .y los errores son no sesgados y no correlacionados de varianza constante: E 0 y nLos estimadores ordinarios por mínimos cuadrados se vienen notando ˆ .Sea el modelo con variable de respuesta continua y normal,Y X , donde Y , son nx1, X es nxp de rango p y es px12y los errores son no sesgados y no correlacionados de varianza constante: E 0 y V Insujeto a un conjunto de restricciones linealesA c que definen una hipótesis a contrastardenominada H, donde A es una matriz qxp de rango q < p. Los estimadores ordinarios por mínimoscuadrados se notarán ˆH .Prof. Lídia Montero © Pàg. 9.2-21 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCCONTRASTES EN MODELOS NORMALES POR VARIANZA INCREMENTAL3. Si la hipótesis H es cierta, entonces se puede demostrar queFSCR SCRSCRq Fqnpn p H,La justificación del test puede realizarse a partir de la estimación de la varianza del modelo por la suma de2cuadrados residual del modelo restringido sH , tiene por esperanza matemática:ET T2 SCRH SCR 2 Aβ c AXXs E σ H … pero 2 s 2 HqE con 02 SCR 2 E s Enpestimadores no sesgados de 11TA Aβ cq facilita una estimación sesgada de la varianza del modelo ya que,. Sin embargo, si H es cierta entonces 0 tanto s 2 H como2H2F y por tanto el estadístico 2rechazada si el estadístico F toma valores significativamente grandes.ss2s sontoma un valor alrededor de 1. H esProf. Lídia Montero © Pàg. 9.2-22 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCCONTRASTES EN MODELOS NORMALES. REGIONES E INTERVALOS9.2-4.1 Cálculo de intervalos de confianzaLos intervalos de confianza para los coeficientes individualestˆ iiˆ ˆ itnpˆit 2ˆnpˆ ˆ s X T X 1dondei ˆ ii se obtienen mediante la fórmula habitual:iiys ˆSCRn p 2tn p es el valor correspondiente al estadístico t de Student para el cálculo de un intervalo de confianzabilateral a un nivel con los grados de libertad correspondientes a la estimación de varianza del modelo (np).Los contrastes de significación se realizarán a partir del cálculo del estadísticotˆ i tcomparación con el valor de la ley t de Student de n-p grados de libertad al nivel de confianza, unilateral obilateral, deseado.Los coeficientesison estadísticamente dependientes y por tanto los intervalos de confianza individualespueden dar una imagen errónea de sus valores conjuntos.iˆ ˆ inpy suProf. Lídia Montero © Pàg. 9.2-23 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC9.2-5. EL COEFICIENTE DE CORRELACIÓN MÚLTIPLEUna medida de la bondad del modelo ajustado a los datos, enlos modelos lineales normales, es el coeficiente decorrelación múltiple R, definido como el coeficiente decorrelación muestral entre los datos yk y los valoresajustados ŷ :kR kky yyˆ yˆ2y y yˆ yˆkkkkk212El estadístico R 2 se denomina coeficiente de determinación.La descomposición de la suma de cuadrados total (SCT) como suma de cuadrados explicada (SCE) por elmodelo más suma de cuadrados residual (SCR) es un resultado conocido y muy útil en modelos lineales queincluyen término independiente (por simplicidad, supóngase que es el primer parámetro 1 ) 1. SCT= y k yk 2. SCE= yˆk yk22dondey1nky k y SCR= y k yˆkkes la media muestral de las observaciones.2.Prof. Lídia Montero © Pàg. 9.2-24 Buenos Aires, 7 – 11 Diciembre 2009


EL COEFICIENTE DE CORRELACIÓN MÚLTIPLE …UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC23. SCT=SCE+SCR, es decir, y k y= yˆk ykdonde,kkk2+ y k yˆkk2, ya que2222y y y yˆyˆ y yˆ y y yˆ 2 y yˆ yˆ ykkkkkk2yˆ y y yˆkky yˆyˆ yy yˆyˆ y y yˆy yˆyˆ Y ŶkkkkkkkkkkkTTY PY PY Y I PPY 0kkkk2kkkkkkkkkTkŶ El coeficiente de determinación puedereescribirse ahora:O equivalentemente2SCR 1 R SCT.R2 yˆk yˆkSCE 1kSCR2y y SCT SCTk2Prof. Lídia Montero © Pàg. 9.2-25 Buenos Aires, 7 – 11 Diciembre 2009


EL COEFICIENTE DE CORRELACIÓN MÚLTIPLE …UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC9.2-5.1 Propiedades del coeficiente de correlación múltiple1. R 1 y si |R|=1 existe una relación funcional exacta entre la respuesta y los regresores.2. R es el coeficiente de correlación lineal simple entre los valores observados y los valores ajustados.23. 100(1 R )9.2-5.2 R2-adjusted representa el % de variabilidad no explicada por el modelo.Algunos estadísticos prefieren emplear al valorar los modelos de regresión ordinarios, el denominadocoeficiente de determinación ajustado, ajuste que se refiere a la introducción de los correspondientesgrados de libertad de SCT y SCR, muy relacionado con el estadístico C p de Mallows:2 n 1 R 2 SCR n p1R a 1 1 SCT n 1 n pEl coeficiente de determinación ajustado siempre es inferior al coeficiente de determinación y puedetomar valores negativos. Si R 2 siempre crece al incrementar el número de regresores, ya que la suma de2cuadrados residual siempre se reduce, Ra únicamente sufre un incremento al añadir uno o más nuevosregresores, si el estadístico de Fisher F correspondiente al test de significación de los nuevos regresorestoma un valor superior a 1.Prof. Lídia Montero © Pàg. 9.2-26 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC9.2-6. TEST GLOBAL DE REGRESIÓN. TABLA ANOVAEl test global de regresión es un caso particular del contraste de hipótesis múltiples en modelos contérmino independiente, donde la hipótesis H a contrastar es que todos los parámetros son cero, excepto elcorrespondiente al término independiente:2 0, , p 0.FSCR SCRSCR n pqSCT SCR p1SCR n pSCESCRp1SCE F2 p, p,np p sn 1H1El contraste global de regresión se ve clarificado si la descomposición de la varianza se escribe en formade tabla ANOVA, algo habitual en los paquetes estadísticos:TABLA ANOVA Descomposición Grados libertad Varianza ContrasteSCE y k ySCR kkSCT y k yk2ˆ p-12sexp =SCE/(p-1)2y kyˆ kn-p2s =SCR/(n-p) F= s 2 exp / s22n-12sY =SCT/(n-1)Prof. Lídia Montero © Pàg. 9.2-27 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC9.2-7. DISTRIBUCIÓN DE LOS VALORES AJUSTADOSYˆkx 1 x ˆ:T x ˆSeaTkˆel valor ajustado para la observación k-ésima que tiene por valores de los regresores2x p T T1. x x kV YˆY . V xTkˆkY .k2. k k k k k k kkk21ˆ TT T2 x V ˆ x x X X x p , donde kkp es el término diagonal k-ésimo de la matriz de proyección, que por ser idempotente tiene valores entre 1/n y 1. La varianza delvalor ajustado es mínima si se encuentra en el centro de gravedad de los regresores.3. Se distribuye normalmente.En la literatura sobre modelos de regresión, la distribución de los valores ajustados se suele denominardistribución de los valores medios (no se considera el término de residuo) y los intervalos de confianza secalculan en base a la ley t de Student de n-p grados de libertad:Yˆ x NYˆ xt ˆ TT0,1T T 1T T 1 tnpdondeˆ ˆ ˆ x XX x s x XX xYConY ˆYˆlo que un intervalo de confianza bilateral a un nivel para el verdadero valor medio viene determinadopor:Yˆ t n pˆYˆ.Prof. Lídia Montero © Pàg. 9.2-28 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC9.2-8. DIAGNOSIS Y VALIDACIÓN DEL MODELOEl análisis de los residuos constituye una herramienta práctica y que entra por los ojos para la validación delas hipótesis aparentemente muy teóricas de la regresión lineal y por tanto, para garantizar laspropiedades estadísticas de los estimadores del modelo asumido:Sea el modelo con variable de respuesta contínua,Y X , donde Y , son nx1, X es nxp de rango p y es px1y los errores son no sesgados de varianza constante, no correlacionados y distribuidos normalmente:22 Nn 0, I n o equivalentemente Y Nn X , I n.Los residuos son las diferencias entre los valores observados y los valores ajustados por el modelo:e Y Ŷ I PY I PX X PX I P I Py de ahí que a veces se lesdenomine errores observados, término que únicamente debiera emplearse si el modelo es correcto.Prof. Lídia Montero © Pàg. 9.2-29 Buenos Aires, 7 – 11 Diciembre 2009


DIAGNOSIS Y VALIDACIÓN DEL MODELOUNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCLos residuos tienen una distribución:1. e Y Ŷ Y X X 0 .X ˆT2 2 22. Ve VI PY I P VY I P I P I PAunque los errores sean independientes y de varianza constante, los residuos e no son independientes,ni tienen la misma varianza: 22TV e I P I XXXvarianza del residuo i-ésimo es V 2 1 matriz de proyección P.1T X o bien individualmente, lae ip ii , donde piies el elemento diagonal i-ésimo de laPara comparar los residuos entre sí, suele ser más ilustrativo transformarlos, encontrándose en laliteratura y los paquetes estadísticos diversas posibilidades:1. El residuo escalado ci se define como el residuo dividido por el estimador de la desviación estandard delmodelo s,Vcieis 2 1 e ip ii ., lo cual no es demasiado incorrecto si no existen grandes variaciones en.Prof. Lídia Montero © Pàg. 9.2-30 Buenos Aires, 7 – 11 Diciembre 2009


DIAGNOSIS Y VALIDACIÓN DEL MODELOUNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCSin embargo, en los residuo estandarizados numerador y denominador son dependientes, ya queˆei se haempleado para estimar la varianza del modelo, lo que puede solucionarse eliminando laobservación i-ésima de los cálculos y estimando una regresión con los restantes n-1 datos, lo que daría2lugar a los estimadores ˆ i y s i que podrían relacionarse formalmente con los estimadores ˆypermiten definir los denominados residuos estudentizados.2. El residuo estandarizado di se define como el residuo dividido por su desviación tipo:2 s2disei1pii.3. El residuo estudentizadori se define comoris iei21 pdondesii2 2n ps e 1 p iiii .n p 1Los residuos estudentizados siguen una distribución t de Student con n-p-1 grados de libertad bajomodelos de respuesta continua sujetos a las hipótesis ordinarias.Prof. Lídia Montero © Pàg. 9.2-31 Buenos Aires, 7 – 11 Diciembre 2009


DIAGNOSIS Y VALIDACIÓN DEL MODELOUNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCEl análisis de los residuos permite concluir si las hipótesis asumidas son correctas o no son correctas (y porqué no lo son) y se realiza en base a herramientas gráficas de la estadística descriptiva:Percent999590807060504030201051Normal Probability Plot for SRES1ML Estimates - 95% CIML EstimatesMean -0,0130478StDev 0,998890Goodness of FitAD* 1,2711. Histograma de los residuos:se persigue ver que estencentrados en el cero y que sudistribuciónseaaproximadamente normal. Unboxplot puede ayudar aidentificar los outliers de losresiduos.2. Tambien se puede emplearun Normal Probability Plotde los residuosestandarizadosoestudentizados (recta deHenry).-3 -2 -1 0 1 2 3DataProf. Lídia Montero © Pàg. 9.2-32 Buenos Aires, 7 – 11 Diciembre 2009


DIAGNOSIS Y VALIDACIÓN DEL MODELOUNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCAnte desviaciones de la normalidad los contrastes basados en las leyes t de Student y F de Fisher, seconvierten en aproximados, además de perder la eficiencia de los estimadores, se debe procedermediante la aplicación de una transformación adecuada a la variable de respuesta Y.La potencia de los tests de normalidad es baja, ya que aunque los errores no sean normales, los residuosson combinación lineal de los errores y en virtud del Teorema Central del Límite tienden a la normalidad,a pesar de ser dependientes (para n>30, no suele ser crucial este último aspecto).Los residuos suelen estar correlacionados con las observacionesYi , pero no con los valores ajustadosYˆ i , de ahí la selección de estos últimos para la realización de los gráficos indicados. (Ejemplo deAscombe, Peña pp. 263-264 vol.2).3. Diagrama bivariante de los residuos (en ordenadas) frente a los valores ajustados: eivs Yˆ i , o mejorr vs Yˆ . Estos gráficos suelen indicar la falta de linealidad (requiere transformación dedivs Yˆ i o i ilas observacionesYi y/o introducción de nuevos regresores), heterocedasticidad (requieretransformación de las observaciones Y i) e identifican valores atípicos.Prof. Lídia Montero © Pàg. 9.2-33 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCDIAGNOSIS Y VALIDACIÓN DEL MODELOResiduals Versus the Fitted Values(response is YA)2Standardized Residual10-1-25 6 7 8 9 10Fitted ValueProf. Lídia Montero © Pàg. 9.2-34 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCDIAGNOSIS Y VALIDACIÓN DEL MODELOResiduals Versus the Fitted Values(response is YB)1Standardized Residual0-1-25678910Fitted ValueProf. Lídia Montero © Pàg. 9.2-35 Buenos Aires, 7 – 11 Diciembre 2009


DIAGNOSIS Y VALIDACIÓN DEL MODELOUNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCLa visualización de una banda horizontal de residuos centrada en Y=0 indica satisfacción de las hipótesis.Los residuos estudentizados tienen una distribución de referencia y por tanto, la presencia de puntos convalores negativos o positivos más allá de un cierto nivel de confianza seleccionado para la distribución dereferencia (t de Student de n-p-1 grados de libertad) indica un valor atípico del residuo o outlier en losresiduos.34. Diagramas bivariantes de los residuos(en ordenadas) frente a cada uno delos regresores (excepto el términoindependiente).SRES1210-1-20 10 20 30 40 50 60 70 80 90 100EDUCATIONAyudan a identificar si la falta de linealidad(paliable mediante la transformación de lasobservaciones Y o mediante la introducción deun término cuadrático del regresorcorrespondiente) o la heterocedasticidad(paliable mediante transformación de Y) sondebidas a algún regresor en particular. Lavisualización de una banda horizontal deresiduos indica satisfacción de las hipótesis.Prof. Lídia Montero © Pàg. 9.2-36 Buenos Aires, 7 – 11 Diciembre 2009


DIAGNOSIS Y VALIDACIÓN DEL MODELOUNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC5. Representación de los residuos (en ordenadas) frente a variables explicativas omitidas en el modelo.Se emplean para detectar la posible influencia en los residuos de una variable no incluída en el modelo.Un caso particular consiste en la representación de los residuos en función del tiempo u orden de losdatos; en este caso se pueden calcular los coeficientes de autocorrelación observados de los residuos deorden k,kieiieeikr2 y aplicar el siguiente test para muestras grandes: bajo la hipótesis dekindependencia (todos los coeficientes de autocorrelación teórica de orden k igual a cero), entonces elestadísticonn k 2rQ m .m 22 2k 1n k 1Un test alternativo es el test de Durbin-Watson, basado en el estadístico del mismo nombre para elcontraste de la hipótesis nula que el coeficiente de autocorrelación de primer orden (r(1)) es cero, cuyajustificación y examen de las tablas correspondientes no es nada trivial.Prof. Lídia Montero © Pàg. 9.2-37 Buenos Aires, 7 – 11 Diciembre 2009


DIAGNOSIS Y VALIDACIÓN DEL MODELOUNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC9.2-8.1 Transformación de Box-CoxLa familia Box-Cox es una familia de transformaciones devariables aleatorias que se emplean para conseguirnormalidad o homocedasticidad:hYY1 log Y La justificación de la definición viene de una propiedad básica que relaciona las varianzas detransformaciones de la variables aleatorias y que trasladada a la notación empleada en la presente secciónes:VhY V Yh'Y 2Por tanto, si la varianza de la variable transformada se desea que sea constante, entonces la derivada dela transformación debe ser inversamente proporcional a la desviación típica de la variable original.La constante de la transformación puede estimarse gráficamente o por máxima verosimilitud.Prof. Lídia Montero © Pàg. 9.2-38 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCDIAGNOSIS Y VALIDACIÓN DEL MODELO. FAMILIA BOX-COXAlgunos casos particulares son:Si la desviación típica de Y es proporcional al cuadrado de su media,facilita la transformación recíproca adecuada para esta situación.Si la desviación típica de Y esraiz adecuada para esta situación.3 2s Y , la constante Si la desviación típica de Y es proporcional a su media,transformación logarítmica adecuada para esta situación.Si la desviación típica de Y es proporcional a la raiz cuadrada de su media, facilita la transformación raiz cuadrada adecuada para esta situación.2s Y , la constante facilita la transformación inversa de las Y , la constante facilita las Y1/ 2, la constanteProf. Lídia Montero © Pàg. 9.2-39 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC9.2-9. OBSERVACIONES INFLUYENTES A PRIORI Y A POSTERIORIResulta fácil desarrollar ejemplos que ponen de manifiesto que existen observaciones que tienen mucha mayorinfluencia en las propiedades del modelo que otras, hasta el extremo que en presencia de 100 valoresobservados, las propiedades de los estimadores dependan únicamente de unos pocos de esos valores.Este aspecto está relacionado con la fiabilidad del modelo en la realización de predicciones, y parece másconveniente un modelo que venga avalado por la totalidad de la muestra empleada para su estimación, queno aquel otro que sólo dependa de unas pocas observaciones.El estudio de los valores influyentes a priori determinará la robustez del diseño de recogida de los datos yel estudio de los valores influyentes a posteriori determinará la robustez de los parámetros estimados.No hay que confundir observaciones influyentes con residuos atípicos: una observación influyente puedetener o no un residuo estadísticamente grande, y viceversa, un residuo atípico no fuerza no implica que laobservación correspondiente sea influyente.Por ejemplo, en regresión lineal simple se puede introducir una observación muy atípica (residuo muy alto)en el valor medio de la variable explicativa, la observación no resultará influyente, sin embargo elcoeficiente de determinación se resentirá y disminuirá debido al incremento de la suma de cuadradosresiduales.Prof. Lídia Montero © Pàg. 9.2-40 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCOBSERVACIONES INFLUYENTES A PRIORI Y A POSTERIORI9.2-9.1 Observaciones influyentes a prioripx Los puntos x ( ) heterogéneos respecto el centro de gravedad de los valores de los regresoresidentifican las observaciones influyentes a priori y corresponden a valores grandes en la diagonal de la matriz1T TT Tde proyección P XXX X notados pii xiXX xivaps 1 y n-p vaps 0) y se puede demostrar que:1n 11. p ii1(al ser simétrica e idempotente tiene p2. Al tratarse de una matriz idempotente y simétrica:Ptraza(P) pii pdim. pi ii pLo que permite determinar su media p y a partir de otros estadísticos descriptivosn ncalculables, los resultados de Belsley et al., indican que si las variables explicativas proceden de unadistribución normal indican que pueden considerarse valores influyentes a priori aquellos puntos conp ii 2 p .iProf. Lídia Montero © Pàg. 9.2-41 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCOBSERVACIONES INFLUYENTES A PRIORI Y A POSTERIORILos valoresp suelen denominarse en los paquetes estadísticos factores de anclaje o leverage y miden laiidistancia entre una observaciónxi y el centro de gravedad de las observaciones,1. Si la observación está muy alejada 1valor observado2p y e i1 p 0iiV , indicando que sea cual sea elY i , su residuo es siempre igual a su valor esperado, cero, por lo que la ecuación deregresión estimada por mínimos cuadrados ordinarios pasará siempre por dicho punto.2. Si la observación está en el centro de gravedad entonces p ii1 nsea cual sea el valor observadoiie i y V es máxima, indicando queY i , puede tener por efecto una reducción drástica del coeficiente dedeterminación; sin embargo, nunca será un valor detectado como influyente a priori según los criteriosdescritos.Prof. Lídia Montero © Pàg. 9.2-42 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCOBSERVACIONES INFLUYENTES A PRIORI Y A POSTERIORI9.2-9.2 Observaciones influyentes a posterioriUna observación influyente a posteriori implica que su inclusión:1. Modifica el vector de parámetros estimados ˆ .2. Modifica los valores ajustados Ŷ .3. Su valor ajustado es muy bueno cuando se incluye la observación en el proceso de estimación por mínimoscuadrados ordinarios, pero su valor ajustado es muy malo si se ha omitido la observación en el procesode estimación.La influencia de una observación en la determinación de los estimadores por mínimos cuadrados ordinariosse determina mediante la distancia de Cook. Una observación muy influyente a priori, puede que no seainfluyente a posteriori (se pueden construir ejemplos fácilmente). Cook propuso una medida de la influenciaa posteriori de una observación muy efectiva, a través de la distancia de Cook Di :T2ˆT ˆ i X Xˆ ˆ i e p 1dondeˆ iDiiii F2p npp ss p p , 1ii 1ii pson los estimadores obtenidos después de la supresión de la observación i-ésima.Prof. Lídia Montero © Pàg. 9.2-43 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCOBSERVACIONES INFLUYENTES A PRIORI Y A POSTERIORIDe manera que un criterio para la determinación de las observaciones influyentes a posteriori consiste encomparar su distancia de Cook D con el valor de la ley de Fisher correspondiente al nivel de confianzaseleccionadoFinfluyente a posteriori.ip , n p : un valor con distancia de Cook elevada, iD >Fp n p, , denota una observaciónRecordar que la esperanza matemática de una ley de Fisher de p y q grados de libertat esq q 2 q 2 .Un criterio práctico propuesto por Chatterjee y Hadi (88) justifica un umbral máximo para la distancia deCook de 4/(n-p).Prof. Lídia Montero © Pàg. 9.2-44 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC9.2-10. SELECCIÓN DEL MEJOR MODELOEl establecer una ecuación de regresión para una respuesta Y en términos de unos predictores o regresores( x1, , xp ) que pueden ser transformaciones de las variables explicativas originales ( 1,, zqsintetiza dos criterios opuestos, lo que se denomina criterio de parsimonia:z )1. La ecuación tiene que ser útil para finalidades predictivas, de manera que se incluíran tantos regresorescomo sea necesario para que los valores ajustados sean fiables.2. Los modelos con muchos regresores tienen un alto coste de obtención y mantenimiento de lainformación, de manera que el modelo debe incluir el mínimo de regresores necesario.En la práctica, es inviable la generación y análisis de todos las posibles ecuaciones de regresión, para laselección de la más conveniente. Falta indicar que un buen modelo, debe mostrar un análisis de los residuossatisfactorio y un estudio de los valores influyentes, sería deseable la consecución de modelos sin residuosatípicos, ni valores influyentes a posteriori.Prof. Lídia Montero © Pàg. 9.2-45 Buenos Aires, 7 – 11 Diciembre 2009


SELECCIÓN DEL MEJOR MODELOUNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCLos elementos que se han expuesto hasta el momento y que permiten valorar la calidad de una ecuación deregresión son:1. El coeficiente de determinación, R 2. Se estabiliza cuando el número de regresores incluídos essatisfactorio, aunque puede haber más de la cuenta, ya que se incrementa (no linealmente) al incrementarseel número de regresores.Considerar para facilitar la tarea el coeficiente de determinación ajustado,2Ra .2. La estabilización del estimador clásico de la varianza del modelo, que ante modelos insatisfactoriosrecuérdese que se ha visto que es sesgado y por tanto, debe denominarse residuo cuadrático medio.3. El análisis de los residuos.4. El estudio de los valores influyentes a priori y a posteriori.5. Se va a añadir un último elemento, el denominado Cp de Mallows.La combinación de los 5 puntos anteriores permitirá seleccionar dentro de un conjunto de ecuaciones deregresión (quizás incluso en el caso hipotético de todas) la mejor.Prof. Lídia Montero © Pàg. 9.2-46 Buenos Aires, 7 – 11 Diciembre 2009


SELECCIÓN DEL MEJOR MODELO. C P MALLOWSUNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCElC de Mallows se define comoCp n p npSCRsAICp22 , dondeSCRp es la suma dep2cuadrados residual de un modelo con p regresores y el estimador de la varianza del modelo procede delmodelo maximal (se intenta garantizar así la ausencia de sesgo).sLa esperanza matemática del estadísticoC es el número de parámetros del modelo: pp .C pEl procedimiento a seguir consiste en representar en un diagrama bivarianteCp frente p: los modelossatisfactorios quedarán cerca de la bisectriz, el modelo con p más bajo, pero sobre la bisectriz resulta elmás satisfactorio bajo el criterio de Mallows. La justificación del procedimiento procede de las siguientesconsideraciones:1. Un modelo no adecuado facilitará unaSCRpelevada, conC p > p. De alguna manera, el estadístico deMallows se desvía de la bisectriz indicando que existe sesgo en la estimación de la varianza del modelo:un error cuadrático medio (varianza + sesgo 2 ) distinto de la varianza real del modelo.2. Un modelo con exceso de regresores ajusta bien los datos y C p p , pero p es mayor que en otromodelo satisfactorio con valor del estadístico de Mallows sobre la bisectriz de la gráfica y menornúmero de parámetros.Prof. Lídia Montero © Pàg. 9.2-47 Buenos Aires, 7 – 11 Diciembre 2009


SELECCIÓN DEL MEJOR MODELOUNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCExemplo: Datos DUNCAN1 resultados del análisis mediante el Cp de Mallows de todos los modelos posiblespara explicar el ‘PRESTIGE’ a partir de los ingresos (INCOME) y la EDUCATION.MTB > BReg 'PRESTIGE' 'INCOME' 'EDUCATION' ;SUBC> NVars 1 2;SUBC> Best 2;SUBC> Constant.Best Subsets Regression: PRESTIGE versus INCOME; EDUCATIONResponse is PRESTIGEEDI UN CC AO TM IVars R-Sq R-Sq(adj) C-p S E O1 72,6 71,9 26,0 16,692 X1 70,2 69,5 31,9 17,403 X2 82,8 82,0 3,0 13,369 X XMTB >Prof. Lídia Montero © Pàg. 9.2-48 Buenos Aires, 7 – 11 Diciembre 2009


SELECCIÓN DEL MEJOR MODELO REGRESSIONUNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPC9.2-10.1 Regresión paso o paso (stepwise regression)Procedimiento de selección de la mejor ecuación de regresión (mejor modelo), parte de un conjunto reducidode regresores y lo va engrandeciendo hasta hallar el modelo satisfactorio. Las etapas pueden resumirse en lossiguientes puntos:1. Seleccionar el regresor más correlacionado con la variable de respuesta Y, sea x m . Calcular la ecuación deregresión.2. Para cada regresor i no incluido hasta el momento se calcula el coeficiente de correlación parcial con lavariable de respuesta Y (técnicamente supone calcular la correlación entre los residuos del modelo actual ylos residuos de una ecuación de regresión auxiliar que especifica como variable de repuesta el regresor ino presente en el modelo y variables explicativas todos los regresores presentes en el modelo actual).3. Se selecciona el regresor con coeficiente de correlación parcial más elevado, sea x m y se recalcula laecuación de regresión con el modelo incrementado, aceptando el nuevo regresor x m si el estadístico deFisher para el contraste de la hipótesis nula H : 0 , sea Fm es superior a un cierto valor dereferencia mínima de la ley de Fisher correspondiente denominado “F to enter”:SiF m F entonces se incluye el regresor m-ésimo en el modelo.mmF .Prof. Lídia Montero © Pàg. 9.2-49 Buenos Aires, 7 – 11 Diciembre 2009


UNIDAD 9 – Módulo 2-Curso: Planeamiento y Ejecución De Trabajos De Campo – PTUBA - UPCSELECCIÓN DEL MEJOR MODELO. STEPWISE REGRESSION (Cont)4. Para cada regresor incluido hasta el momento se efectua un test de Fisher de la hipótesis H : 0 ,sea el valor del estadístico de Fisher correspondiente al test de la hipótesis nula del i-ésimo regresor F i .5. Se selecciona el regresor tal que el estadístico de Fisher correspondiente es mínimo, sea el regresor l-ésimo: minF 1, F2 ,F l y se compara con el valor del correspondiente a un cierto nivel designificación de la ley de Fisher correspondiente denominado en muchos paquetes estadísticos “F toremove”:SiF .F l F entonces se elimina el regresor l-ésimo del modelo. Volver al punto 2.ii6. El procedimiento finaliza cuando ningún regresor satisfaga el criterio de entrada y ningún regresorsatisfaga el criterio de salida. Si los niveles de significación para la entrada y la salida de regresores estanbien seleccionados da buenos resultados: 0. 05 es una selección habitual.Prof. Lídia Montero © Pàg. 9.2-50 Buenos Aires, 7 – 11 Diciembre 2009

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!