12.07.2015 Views

MODELOS LINEALES - DIM

MODELOS LINEALES - DIM

MODELOS LINEALES - DIM

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>MODELOS</strong> <strong>LINEALES</strong>Francesc CarmonaDepartament d’EstadísticaBarcelona, 19 de diciembre de 2003


PrólogoLas páginas que siguen constituyen una parte de las exposiciones teóricas y prácticas deasignaturas que se han impartido a lo largo de algunos años en varias licenciaturas ycursos de doctorado. En particular en la licenciatura de Matemáticas, la licenciatura deBiología y la diplomatura de Estadística de la Universidad de Barcelona. Se ha intentadoun cierto equilibrio entre las explicaciones teóricas y los problemas prácticos. Sinembargo, nuestra intención siempre ha sido fundamentar sólidamente la utilización de losmodelos lineales como base de las aplicaciones de la regresión, el análisis de la varianza yel diseño de experimentos. Por ello, en este libro la base matemática y estadística es considerabley creemos importante la correcta definición de los conceptos y la rigurosidad delas demostraciones. Una sólida base impedirá cometer ciertos errores, habituales cuandose aplican los procedimientos ciegamente.Por otra parte, la aplicación práctica de los métodos de regresión y análisis de la varianzarequiere la manipulación de muchos datos, a veces en gran cantidad, y el cálculo de algunasfórmulas matriciales o simples. Para ello es absolutamente imprescindible la utilizaciónde algún programa de ordenador que nos facilite el trabajo. En una primera instancia esposible utilizar cualquier programa de hojas de cálculo que resulta sumamente didáctico.También se puede utilizar un paquete estadístico que seguramente estará preparado paraofrecer los resultados de cualquier modelo lineal estándar como ocurre con el paqueteSPSS. En cambio, en este libro se ha optado por incluir algunos ejemplos con el programaR. Las razones son varias. En primer lugar, se trata de un programa que utiliza el lenguajeS, está orientado a objetos, tiene algunos módulos específicos para los modelos lineales yes programable. R utiliza un lenguaje de instrucciones y al principio puede resultar unpoco duro en su aprendizaje, sin embargo superada la primera etapa de adaptación, suutilización abre todo un mundo de posibilidades, no sólo en los modelos lineales, sino entodo cálculo estadístico. Además, la razón más poderosa es que el proyecto R es GNU y,por tanto, de libre distribución. De modo que los estudiantes pueden instalar en su casael programa R y practicar cuanto quieran sin coste económico alguno. Por otra parte, elpaquete S-PLUS es una versión comercial con el mismo conjunto de instrucciones básicas.El tratamiento de algunos temas tiene su origen en unos apuntes de C.M. Cuadras y PedroSánchez Algarra (1996) que amablemente han cedido para su actualización en este libroy a los que agradezco profundamente su colaboración. También es evidente que algunasdemostraciones tienen su origen en el clásico libro de Seber.Por último, este libro ha sido escrito mediante el procesador de textos científico L A TEX ypresentado en formato electrónico. Gracias a ello este libro puede actualizarse con relativafacilidad. Se agradecerá cualquier la comunicación de cualquier errata, error o sugerencia.Barcelona, 19 de diciembre de 2003.Dr. Francesc Carmona


Índice general1. Las condiciones 91.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.2. Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.3. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.4. El método de los mínimos cuadrados . . . . . . . . . . . . . . . . . . . . 131.5. Las condiciones de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . 141.6. Otros tipos de modelos lineales . . . . . . . . . . . . . . . . . . . . . . . 161.7. Algunas preguntas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.8. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202. Estimación 222.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.2. El modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.3. Suposiciones básicas del modelo lineal . . . . . . . . . . . . . . . . . . . . 252.4. Estimación de los parámetros . . . . . . . . . . . . . . . . . . . . . . . . 262.5. Estimación de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . 302.6. Distribuciones de los estimadores . . . . . . . . . . . . . . . . . . . . . . 322.7. Matriz de diseño reducida . . . . . . . . . . . . . . . . . . . . . . . . . . 342.8. Matrices de diseño de rango no máximo . . . . . . . . . . . . . . . . . . . 362.8.1. Reducción a un modelo de rango máximo . . . . . . . . . . . . . . 372.8.2. Imposición de restricciones . . . . . . . . . . . . . . . . . . . . . . 372.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393. Funciones paramétricas estimables 413.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.2. Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 433.3. Varianza de la estimación y multicolinealidad . . . . . . . . . . . . . . . 463.4. Sistemas de funciones paramétricas estimables . . . . . . . . . . . . . . . 483.5. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514


4. Complementos de estimación 554.1. Ampliar un modelo con más variables regresoras . . . . . . . . . . . . . . 554.1.1. Una variable extra . . . . . . . . . . . . . . . . . . . . . . . . . . 554.1.2. Una interpretación . . . . . . . . . . . . . . . . . . . . . . . . . . 574.1.3. Más variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594.2. Mínimos cuadrados generalizados . . . . . . . . . . . . . . . . . . . . . . 604.3. Otros métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . 634.3.1. Estimación sesgada . . . . . . . . . . . . . . . . . . . . . . . . . . 634.3.2. Estimación robusta . . . . . . . . . . . . . . . . . . . . . . . . . . 644.3.3. Más posibilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . 654.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 665. Contraste de hipótesis lineales 675.1. Hipótesis lineales contrastables . . . . . . . . . . . . . . . . . . . . . . . . 675.2. El modelo lineal de la hipótesis . . . . . . . . . . . . . . . . . . . . . . . 685.3. Teorema fundamental del Análisis de la Varianza . . . . . . . . . . . . . 715.3.1. Un contraste más general . . . . . . . . . . . . . . . . . . . . . . . 785.3.2. Test de la razón de verosimilitud . . . . . . . . . . . . . . . . . . 805.4. Cuando el test es significativo . . . . . . . . . . . . . . . . . . . . . . . . 815.5. Contraste de hipótesis sobre funciones paramétricas estimables . . . . . . 815.6. Elección entre dos modelos lineales . . . . . . . . . . . . . . . . . . . . . 825.6.1. Sobre los modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . 825.6.2. Contraste de modelos . . . . . . . . . . . . . . . . . . . . . . . . . 835.7. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 865.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 886. Regresión lineal simple 916.1. Estimación de los coeficientes de regresión . . . . . . . . . . . . . . . . . 916.2. Medidas de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 946.3. Inferencia sobre los parámetros de regresión . . . . . . . . . . . . . . . . 966.3.1. Hipótesis sobre la pendiente . . . . . . . . . . . . . . . . . . . . . 966.3.2. Hipótesis sobre el punto de intercepción . . . . . . . . . . . . . . 976.3.3. Intervalos de confianza para los parámetros . . . . . . . . . . . . . 986.3.4. Intervalo para la respuesta media . . . . . . . . . . . . . . . . . . 986.3.5. Predicción de nuevas observaciones . . . . . . . . . . . . . . . . . 996.3.6. Región de confianza y intervalos de confianza simultáneos . . . . . 1006.4. Regresión pasando por el origen . . . . . . . . . . . . . . . . . . . . . . . 1006.5. Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1016.6. Carácter lineal de la regresión simple . . . . . . . . . . . . . . . . . . . . 1026.7. Comparación de rectas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1056.7.1. Dos rectas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1056.7.2. Varias rectas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1095


6.7.3. Contraste para la igualdad de varianzas . . . . . . . . . . . . . . . 1136.8. Un ejemplo para la reflexión . . . . . . . . . . . . . . . . . . . . . . . . . 1146.9. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1176.10. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1207. Una recta resistente 1237.1. Recta resistente de los tres grupos . . . . . . . . . . . . . . . . . . . . . . 1237.1.1. Formación de los tres grupos . . . . . . . . . . . . . . . . . . . . . 1237.1.2. Pendiente e intercepción . . . . . . . . . . . . . . . . . . . . . . . 1247.1.3. Ajuste de los residuos e iteraciones . . . . . . . . . . . . . . . . . 1257.1.4. Mejora del método de ajuste . . . . . . . . . . . . . . . . . . . . . 1297.2. Métodos que dividen los datos en grupos . . . . . . . . . . . . . . . . . . 1317.3. Métodos que ofrecen resistencia . . . . . . . . . . . . . . . . . . . . . . . 1327.3.1. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1348. Regresión lineal múltiple 1358.1. El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1358.2. Medidas de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1378.3. Inferencia sobre los coeficientes de regresión . . . . . . . . . . . . . . . . 1398.4. Coeficientes de regresión estandarizados . . . . . . . . . . . . . . . . . . . 1448.5. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1478.6. Regresión polinómica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1488.6.1. Polinomios ortogonales . . . . . . . . . . . . . . . . . . . . . . . . 1508.6.2. Elección del grado . . . . . . . . . . . . . . . . . . . . . . . . . . 1528.7. Comparación de curvas experimentales . . . . . . . . . . . . . . . . . . . 1558.7.1. Comparación global . . . . . . . . . . . . . . . . . . . . . . . . . . 1558.7.2. Test de paralelismo . . . . . . . . . . . . . . . . . . . . . . . . . . 1568.8. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1578.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1619. Diagnosis del modelo 1659.1. Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1659.1.1. Estandarización interna . . . . . . . . . . . . . . . . . . . . . . . 1659.1.2. Estandarización externa . . . . . . . . . . . . . . . . . . . . . . . 1679.1.3. Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1689.2. Diagnóstico de la influencia . . . . . . . . . . . . . . . . . . . . . . . . . 1719.2.1. Nivel de un punto . . . . . . . . . . . . . . . . . . . . . . . . . . . 1719.2.2. Influencia en los coeficientes de regresión . . . . . . . . . . . . . . 1729.2.3. Influencia en las predicciones . . . . . . . . . . . . . . . . . . . . . 1739.3. Selección de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1749.3.1. Coeficiente de determinación ajustado . . . . . . . . . . . . . . . 1749.3.2. Criterio C P de Mallows . . . . . . . . . . . . . . . . . . . . . . . . 1746


9.3.3. Selección paso a paso . . . . . . . . . . . . . . . . . . . . . . . . . 1759.4. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1759.5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17810.Análisis de la Varianza 17910.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17910.2. Diseño de un factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18110.2.1. Comparación de medias . . . . . . . . . . . . . . . . . . . . . . . 18110.2.2. Un modelo equivalente . . . . . . . . . . . . . . . . . . . . . . . . 18310.3. Diseño de dos factores sin interacción . . . . . . . . . . . . . . . . . . . . 18610.4. Diseño de dos factores con interacción . . . . . . . . . . . . . . . . . . . . 19310.5. Descomposición ortogonal de la variabilidad . . . . . . . . . . . . . . . . 19910.5.1. Descomposición de la variabilidad en algunos diseños . . . . . . . 20210.5.2. Estimación de parámetros y cálculo del residuo . . . . . . . . . . 20410.6. Diagnosis del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20610.7. Diseños no balanceados y observaciones faltantes . . . . . . . . . . . . . . 20810.8. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21010.9. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21711.Análisis de Componentes de la Varianza 22011.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22011.2. Contraste de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22211.2.1. Los test F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22211.2.2. Estimación de los componentes de la varianza . . . . . . . . . . . 22511.3. Comparación entre modelos de efectos fijos y modelos de efectos aleatorios 22511.3.1. Diseño de un factor con efectos fijos . . . . . . . . . . . . . . . . . 22611.3.2. Diseño de un factor con efectos aleatorios . . . . . . . . . . . . . . 22811.3.3. Diseño de dos factores sin interacción con efectos fijos o diseño enbloques al azar completos . . . . . . . . . . . . . . . . . . . . . . 23311.3.4. Diseño de dos factores sin interacción con efectos aleatorios . . . . 23611.3.5. Diseño de dos factores aleatorios con interacción . . . . . . . . . . 23811.3.6. Diseño de tres factores aleatorios y réplicas . . . . . . . . . . . . . 23911.3.7. Diseño anidado de dos factores aleatorios . . . . . . . . . . . . . . 24011.3.8. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24311.4. Correlación intraclásica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24411.5. Ejemplos con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24511.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247A. Matrices 249A.1. Inversa generalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249A.2. Derivación matricial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250A.3. Matrices idempotentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250A.4. Matrices mal condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . 2517


B. Proyecciones ortogonales 252B.1. Descomposición ortogonal de vectores . . . . . . . . . . . . . . . . . . . . 252B.2. Proyecciones en subespacios . . . . . . . . . . . . . . . . . . . . . . . . . 254C. Estadística multivariante 255C.1. Esperanza, varianza y covarianza . . . . . . . . . . . . . . . . . . . . . . 255C.2. Normal multivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2568


Capítulo 1Las condiciones1.1. IntroducciónLos métodos de la Matemática que estudian los fenómenos deterministas relacionan, porlo general, una variable dependiente con diversas variables independientes. El problema sereduce entonces a resolver un sistema lineal, una ecuación diferencial, un sistema no lineal,etc.. Sin embargo, la aplicación de los métodos cuantitativos a las Ciencias Experimentalesha revelado la poca fiabilidad de las relaciones deterministas. En tales Ciencias, el azar,la aleatoriedad, la variabilidad individual, las variables no controladas, etc. justifican elplanteo, en términos muy generales, de la ecuación fundamental“observación” = “modelo” + “error aleatorio”El experimentador puede, fijando las condiciones de su experimento, especificar la estructuradel modelo, pero siempre debe tener en cuenta el error aleatorio o desviación entrelo que observa y lo que espera observar según el modelo.Los modelos de regresión utilizan la ecuación anterior fijando el modelo como una funciónlineal de unos parámetros. El objetivo consiste, casi siempre, en la predicción de valoresmediante el modelo ajustado.El Análisis de la Varianza es un método estadístico introducido por R.A. Fisher de granutilidad en las Ciencias Experimentales, que permite controlar diferentes variables cualitativasy cuantitativas (llamadas factores), a través de un modelo lineal, suponiendonormalidad para el error aleatorio. Fisher(1938) definió este método como “la separaciónde la varianza atribuible a un grupo de la varianza atribuible a otros grupos”. Comoveremos, los tests en Análisis de la Varianza se construyen mediante estimaciones independientesde la varianza del error.Ambos conjuntos de modelos se pueden abordar con una teoría común: los modelos lineales.Iniciaremos este capítulo con un ejemplo de modelización de un problema y su aplicaciónpráctica. A continuación explicaremos en qué consiste esencialmente el método de losmínimos cuadrados y estableceremos las condiciones para que este método sea válidopara su utilización en Estadística.9


1.2. Un ejemploEn el libro de Sen and Srivastava en [66, pág. 2] se explica este ejemplo que nosotroshemos adaptado a las medidas europeas.Sabemos que cuantos más coches circulan por una carretera, menor es la velocidad deltráfico. El estudio de este problema tiene como objetivo la mejora del transporte y lareducción del tiempo de viaje.La tabla adjunta proporciona los datos de la densidad (en vehículos por km) y su correspondientevelocidad (en km por hora).Dato Densidad Velocidad Dato Densidad Velocidad1 12,7 62,4 13 18,3 51,22 17,0 50,7 14 19,1 50,83 66,0 17,1 15 16,5 54,74 50,0 25,9 16 22,2 46,55 87,8 12,4 17 18,6 46,36 81,4 13,4 18 66,0 16,97 75,6 13,7 19 60,3 19,88 66,2 17,9 20 56,0 21,29 81,1 13,8 21 66,3 18,310 62,8 17,9 22 61,7 18,011 77,0 15,8 23 66,6 16,612 89,6 12,6 24 67,8 18,3Cuadro 1.1: Datos del problema de tráficoComo la congestión afecta a la velocidad, estamos interesados en determinar el efectode la densidad en la velocidad. Por razones que explicaremos más adelante (ver ejercicio9.2), tomaremos como variable dependiente la raíz cuadrada de la velocidad.El gráfico 1.1 presenta la nube de puntos o diagrama de dispersión (scatter plot) conla variable independiente (densidad) en el eje horizontal y la variable dependiente (raízcuadrada de la velocidad) en el eje vertical.108Gráfico de dispersiónRAIZ(vel)64200 20 40 60 80 100densidadFigura 1.1: Nube de puntos del problema de tráfico10


Como primera aproximación podríamos tomar, como modelo de ajuste, la recta que unedos puntos representativos, por ejemplo, los puntos (12, 7, √ 62, 4) y (87, 8, √ 12, 4). Dicharecta es y = 8, 6397 − 0, 0583x.Inmediatamente nos proponemos hallar la mejor de las rectas, según algún criterio. Comoveremos, el método de los mínimos cuadrados proporciona una recta, llamada recta deregresión, que goza de muy buenas propiedades. Este método consiste en hallar a y b talesque se minimice la suma de los errores al cuadrado.n∑(y i − (a + bx i )) 2En este caso la recta de regresión es y = 8, 0898 − 0, 0566x.Para estudiar la bondad del ajuste se utilizan los residuosi=1e i = y i − ŷ idonde ŷ i = 8, 0898 − 0, 0566x i . Los gráficos de la figura 1.2 nos muestran estos residuos.Para mejorar el modelo podemos añadir el término cuadrático y considerar el modeloparabólicoy i = a + bx i + cx 2 iTambién aquí, el método de los mínimos cuadrados proporciona un ajuste que es óptimoen varios aspectos. Se trata de hallar los valores de a, b y c que minimizan la suma de loserrores al cuadradon∑(y i − (a + bx i + cx 2 i )) 2i=1El cálculo de estos valores con los datos del tráfico se deja como ejercicio (ver ejercicio1.3).La figura 1.3 muestra los gráficos de los residuos para el modelo parabólico.Finalmente, podemos utilizar el modelo concreto que hemos obtenido para sustituir lavelocidad en la ecuaciónflujo = velocidad × densidadde modo que el flujo queda en función de la densidad. Por último, el máximo valor deesta función es la capacidad de la carretera.0,60,60,40,40,20,2residuo00 20 40 60 80 100-0,2residuo02 3 4 5 6 7 8-0,2-0,4-0,4-0,6densidad-0,6predicciónFigura 1.2: Gráficos de los residuos del modelo recta de regresión.11


0,60,60,40,40,20,2residuo00 20 40 60 80 100-0,2residuo02 3 4 5 6 7 8-0,2-0,4-0,4-0,6densidad-0,6predicción1.3. El modeloFigura 1.3: Gráficos de los residuos del modelo parabólico.Cuando en el ejemplo anterior ajustamos los datos a una recta, implícitamente estamosasumiendo la hipótesis de que los datos siguen un patrón lineal subyacente del tipoy = β 0 + β 1 xPero el ajuste no es perfecto y contiene errores. La ecuación que define el modelo esy i = β 0 + β 1 x i + ɛ ii = 1, . . . , ndonde ɛ i son los errores aleatorios. Éste es el modelo de regresión simple o con una solavariable independiente.En el mismo ejemplo anterior, ajustamos mejor con el modeloy i = β 0 + β 1 x i + β 2 x 2 i + ɛ ii = 1, . . . , nque continúa siendo un modelo lineal.Un modelo es lineal si lo es para los parámetros. Por ejemplo, el modelo ln y i = β 0 +β 1 ln(x i ) + ɛ i es lineal, mientras que y i = β 0 exp(−β 1 x i )ɛ i no.En general, suponemos que una cierta variable aleatoria Y es igual a un valor fijo η másuna desviación aleatoria ɛY = η + ɛη representa la verdadera medida de la variable, es decir, la parte determinista de unexperimento, que depende de ciertos factores cualitativos y variables cuantitativas queson controlables por el experimentador.El término ɛ representa el error. Es la parte del modelo no controlable por el experimentadordebido a múltiples causas aleatorias, inevitables en los datos que proceden dela Biología, Psicología, Economía, Medicina,. . . El error ɛ convierte la relación matemáticaY = η en la relación estadística Y = η + ɛ, obligando a tratar el modelo desde laperspectiva del análisis estadístico.En particular, los modelos de la formay i = β 0 + β 1 x i1 + β 2 x i2 + · · · + β k x ik + ɛ ii = 1, . . . , ncon k > 1 variables independientes, predictoras o regresoras, se llaman modelos de regresiónmúltiple. La variable cuyos datos observados son y i es la llamada variable dependienteo respuesta.12


Los parámetros β j son desconocidos y nuestro objetivo principal es su estimación. Encuanto a los errores ɛ i , su cálculo explícito nos permitirá, como veremos extensamente, laevaluación del modelo.Observación:En el modelo de regresión simple puede suceder que los datos x i i = 1, . . . , n correspondana los valores observados de una v.a. X o de una variable controlada no aleatoria. Encualquier caso, vamos a considerar los valores x i como constantes y no como observacionesde una variable aleatoria.En la regresión simpleY = φ(x) + ɛdonde Y es aleatoria y ɛ es aleatoria con E(ɛ) = 0. De manera que, para cada valorX = x, Y es una v.a. con esperanza φ(x). Si asumimosφ(x) = E[Y |X = x] = β 0 + β 1 xpodemos proceder considerando las inferencias como condicionadas a los valores observadosde X.En cualquier caso, también en regresión múltiple, vamos a considerar los valores de lasvariables regresoras X 1 , . . . , X k como simplemente números.1.4. El método de los mínimos cuadradosLa paternidad de este método se reparte entre Legendre que lo publicó en 1805 y Gaussque lo utilizó en 1795 y lo publicó en 1809.Obviamente, cuanto menores son los residuos, mejor es el ajuste. De todos los posiblesvalores de los β j , el método de los mínimos cuadrados selecciona aquellos que minimizanS =n∑ɛ 2 i =i=1n∑(y i − (β 0 + β 1 x i1 + · · · + β k x ik )) 2i=1En el caso de la regresión lineal simpleS =n∑ɛ 2 i =i=1n∑(y i − β 0 − β 1 x i ) 2i=1de modo que derivando e igualando a cero, se obtienen los estimadores MC (mínimocuadráticos)ó LS (least squares)ˆβ 0 = ȳ − ˆβ 1¯xˆβ 1 = s xys 2 x=∑ ni=1 (y i − ȳ)(x i − ¯x)∑ ni=1 (x i − ¯x) 2También se puede considerar el modelo centrado, que consiste en centrar los datos de lavariable regresoray i = γ 0 + β 1 (x i − ¯x) + ɛ i i = 1, . . . , nLa estimación MC de γ 0 , β 1 es equivalente a la estimación de β 0 , β 1 , ya que γ 0 = β 0 +β 1¯x.De modo que ˆγ 0 = ȳ y la estimación de β 1 es la misma que en el modelo anterior.13


Con las estimaciones de los parámetros, podemos proceder al cálculo de predicciones ŷ iy residuos e iŷ i = ˆβ 0 + ˆβ 1 x i = ȳ + ˆβ 1 (x i − ¯x)Como consecuencia resulta quee i = y i − ŷ i = y i − ȳ − ˆβ 1 (x i − ¯x)n∑e i = 0i=1lo que no ocurre en un modelo sin β 0 .Finalmente, si queremos una medida del ajuste de la regresión podemos pensar en lasuma de cuadrados ∑ ni=1 e2 i , pero es una medida que depende de las unidades de y i alcuadrado. Si β 0 ≠ 0, la medida que se utiliza es el coeficiente de determinación∑ nR 2 i=1= 1 −e2 i∑ ni=1 (y i − ȳ) 2Sabemos que 0 ≤ R 2 ≤ 1 y cuando R 2 ≈ 1 el ajuste es bueno.En el caso β 0 = 0, el coeficiente de determinación esR 2 = 1 −∑ ni=1 e2 i∑ ni=1 y2 ide modo que los modelos que carecen de término independiente no se pueden compararcon los que sí lo tienen.1.5. Las condiciones de Gauss-MarkovHasta aquí, el método de los mínimos cuadrados es analítico ¿dónde está la estadística?A lo largo de los siguientes capítulos vamos a ver que un modelo estadístico y la imposiciónde algunas condiciones, hacen que podamos utilizar el modelo con toda la potencia de losmétodos estadísticos y calibrar la bondad del ajuste desde esa óptica.Una primera pregunta es ¿qué tan bueno es el método de los mínimos cuadrados paraestimar los parámetros? La respuesta es que este método proporciona un buen ajuste ybuenas predicciones si se verifican las condiciones de Gauss-Markov.En el modelo lineal que hemos definido anteriormente, se supone que los errores ɛ i sondesviaciones que se comportan como variables aleatorias. Vamos a exigir que estos erroresaleatorios verifiquen las siguientes condiciones:1. E(ɛ i ) = 0 i = 1, . . . , n2. var(ɛ i ) = σ 2 i = 1, . . . , n3. E(ɛ i · ɛ j ) = 0 ∀i ≠ jVeamos con detalle estas condiciones:14


Primera condición E(ɛ i ) = 0 i = 1, . . . , nSe trata de una condición natural sobre un error.De este modo nos aseguramos que E(y i ) = β 0 +β 1 x i , elmodelo lineal es correcto y la situación que representael gráfico no se puede dar.Segunda condición var(ɛ i ) = E(ɛ 2 i ) = σ 2 constante i = 1, . . . , nEs la propiedad de homocedasticidad.En el gráfico se representa una situación anómala llamadade heterocedasticidad, en la que la var(ɛ i ) crececon x i .El parámetro desconocido σ 2 es la llamada varianzadel modelo.Otras situaciones extrañas, que también se pretende prevenir, son:IEl punto I del gráfico representa un punto influyente yatípico (outlier). En general es un punto a estudiar, unerror o incluso una violación de la primera condición.IEl punto I del gráfico es claramente influyente, aunqueno es atípico (outlier), ya que proporciona un residuopequeño.Tercera condición E(ɛ i ɛ j ) = 0 ∀i ≠ jLas observaciones deben ser incorrelacionadas. Con dos puntos tenemos una recta deregresión. Con 20 copias de esos dos puntos, tenemos 40 puntos y la misma recta, pocofiable.15


Tales condiciones pueden expresarse en forma matricial comoE(ɛ) = 0var(ɛ) = σ 2 I ndonde E(ɛ) es el vector de esperanzas matemáticas y var(ɛ) es la matriz de covarianzasde ɛ = (ɛ 1 , . . . , ɛ n ) ′ .Como demostraremos en los siguientes capítulos, la adopción de estas condiciones evitaráteóricamente las situaciones anómalas que aquí hemos esquematizado.1.6. Otros tipos de modelos linealesPor suerte, con el mismo tratamiento podremos resolver otros modelos lineales, que aunquetienen diferentes objetivos, gozan de las mismas bases teóricas.Por ejemplo, el Análisis de la Varianza con un factor (one-way Analysis of Variance),representado por el modelo linealy ij = µ + α i + ɛ ijcon ɛ ij ∼ N(0, σ 2 ) indep.,se resuelve de forma similar al modelo de regresión.El Análisis de la Covarianza, que utiliza como variables independientes tanto variablescuantitativas como factores, y el Análisis Multivariante de la Varianza, con varias variablesdependientes, son dos de los análisis que generalizan el estudio y aplicaciones de losmodelos lineales que vamos a investigar.1.7. Algunas preguntasUn típico problema de estadística consiste en estudiar la relación que existe, si existe,entre dos variables aleatorias X e Y . Por ejemplo, altura y peso, edad del hombre y lamujer en una pareja, longitud y anchura de unas hojas, temperatura y presión de undeterminado volumen de gas.Si tenemos n pares de observaciones (x i , y i ) i = 1, 2, . . . , n, podemos dibujar estos puntosen un gráfico o scatter diagram y tratar de ajustar una curva a los puntos de forma quelos puntos se hallen lo más cerca posible de la curva. No podemos esperar un ajusteperfecto porque ambas variables están expuestas a fluctuaciones al azar debido a factoresincontrolables. Incluso aunque en algunos casos pudiera existir una relación exacta entrevariables físicas como temperatura y presión, también aparecerían fluctuaciones debidasa errores de medida.Algunas cuestiones que podemos plantearnos en nuestras investigaciones son:Si existe un modelo físico teórico y lineal, podemos utilizar la regresión para estimarlos parámetros.Si el modelo teórico no es lineal, se puede, en muchos casos, transformar en lineal.Por ejemplo:P V γ = c −→ log P = log c − γ log VSi no es una recta, se puede estudiar un modelo de regresión polinómico. ¿Dequé grado?16


En el modelo múltiple intervienen varias variables “predictoras” ¿son todas necesarias?¿son linealmente independientes las llamadas “variables independientes”?¿Se verifican realmente las condiciones de Gauss-Markov?¿Qué ocurre si las variables predictoras son discretas?¿Qué ocurre si la variable dependiente es discreta o una proporción?¿Y si faltan algunos datos?¿Qué hacemos con los puntos atípicos y los puntos influyentes?Algunas de estas preguntas las iremos trabajando y resolviendo en los siguientes capítulos,otras pueden quedar para una posterior profundización.1.8. Ejemplos con REn esta sección vamos a ver como se calculan las regresiones que se han sugerido a partirdel ejemplo inicial con los datos de la tabla 1.1.En primer lugar procedemos a introducir los datos en los vectores correspondientes.> dens vel rvel par(pty="m")> plot(dens,rvel,type="p",xlab="densidad",ylab="RAIZ(vel)")El cálculo de la regresión simple se realiza con la función lsfit(x,y) que asignamos alobjeto recta.ls> recta.ls abline(recta.ls)Los coeficientes de la recta son:> recta.ls$coefInterceptX8.08981299 -0.05662558También se puede obtener una información más completa con la instrucción ls.print,aunque su resultado no se explicará hasta el capítulo correspondiente.17


ls.print(recta.ls, digits=4, print.it=T)Residual Standard Error=0.2689R-Square=0.9685F-statistic (df=1, 22)=676.3944p-value=0Estimate Std.Err t-value Pr(>|t|)Intercept 8.0898 0.1306 61.9295 0X -0.0566 0.0022 -26.0076 0La estimación de la desviación estándar de los errores y otros elementos de diagnosis delmodelo se obtienen con la función ls.diag como> ls.diag(recta.ls)$std.dev[1] 0.2689388Con el vector de residuos y las predicciones se pueden dibujar unos gráficos similares alos de la figura 1.2. La instrucción par(mfrow=c(1,2)) permite dos gráficos en la mismafigura.> e par(mfrow=c(1,2))> par(pty="s")> plot(dens,e,type="p",xlab="densidad",ylab="residuos",ylim=c(-0.6,0.6))> abline(h=0)> pred plot(pred,e,type="p",xlab="predicción",ylab="residuos",ylim=c(-0.6,0.6))> abline(h=0)Finalmente, podemos repetir los cálculos para el modelo parabólico. Simplemente debemosintroducir los valores de la variable densidad y sus cuadrados en una matriz de datos.El resto es idéntico al modelo de regresión simple.> matriz.frame parabola.ls parabola.ls$coefIntercept dens dens.28.8814208199 -0.1035152795 0.0004892585> round(parabola.ls$coef,5)Intercept dens dens.28.88142 -0.10352 0.00049> e par(mfrow=c(1,2))> par(pty="s")> plot(dens,e,type="p",xlab="densidad",ylab="residuos",ylim=c(-0.6,0.6))> abline(h=0)> pred plot(pred,e,type="p",xlab="predicción",ylab="residuos",ylim=c(-0.6,0.6))> abline(h=0)18


Los gráficos serán muy similares a los de la figura 1.3.En los siguientes capítulos veremos otras instrucciones de R, en especial la función lm,que permiten ajustar un modelo de regresión a unos datos.19


1.9. EjerciciosEjercicio 1.1Hallar las estimaciones de los parámetros en un modelo de regresión lineal simple, minimizandola suma de los cuadrados de los errores:n∑S = (y i − β 0 − β 1 x i ) 2Hallar una expresión para las predicciones ŷ i y los residuos e i = y i − ŷ i .Ejercicio 1.2i=1Hallar las estimaciones de los parámetros en un modelo de regresión parabólico, minimizandola suma de los cuadrados de los errores:n∑S = (y i − β 0 − β 1 x i − β 2 x 2 i ) 2i=1Hallar una expresión para las predicciones ŷ i y los residuos e i = y i − ŷ i .Ejercicio 1.3Consideremos el problema de tráfico planteado en el apartado 1.2 de este capítulo, con lavariable independiente densidad y la variable dependiente raíz cuadrada de la velocidad.Con los datos proporcionados en la tabla 1.1 realizar el siguiente proceso:(a) Dibujar la nube de puntos y la recta que pasa por los puntos (12,7, √ 62,4) y(87,8, √ 12,4). Dibujar el gráfico de los residuos con la densidad y el gráfico conlas predicciones. Calcular la suma de cuadrados de los residuos.(b) Hallar la recta de regresión simple. Dibujar el gráfico de los residuos con la densidady el gráfico con las predicciones. Calcular la suma de cuadrados de los residuos.(c) Mejorar el modelo anterior considerando una regresión parabólica. Dibujar el gráficode los residuos con la densidad y el gráfico con las predicciones. Calcular la sumade cuadrados de los residuos.(d) Calcular la capacidad de la carretera o punto de máximo flujo. Recordar que flujo =vel × densidad.Ejercicio 1.4La siguiente tabla contiene los mejores tiempos conseguidos en algunas pruebas de velocidaden atletismo en los Juegos Olímpicos de Atlanta:hombres mujeresdistancia tiempo100 9,84 10,94200 19,32 22,12400 43,19 48,25800 102,58 117,731500 215,78 240,835000 787,96 899,8810000 1627,34 1861,6342192 7956,00 8765,0020


Si tomamos como variable regresora o independiente la distancia (metros) y como variablerespuesta o dependiente el tiempo (segundos):(a) Calcular la recta de regresión simple con los datos de los hombres y dibujarla.Dibujar el gráfico de los residuos con la distancia y el gráfico con las predicciones.Calcular la suma de cuadrados de los residuos y el R 2 .(b) Repetir el apartado anterior utilizando los logaritmos de las variables tiempo ydistancia.(c) Repetir los dos apartados anteriores utilizando los datos de las mujeres.21


Capítulo 2Estimación2.1. IntroducciónEn primer lugar concretaremos la definición general de un modelo lineal y hallaremos laestimación por mínimos cuadrados de los parámetros del modelo.Veremos que la estimación será única si la matriz de diseño es de rango máximo. Encaso contrario, resulta importante definir el concepto de función paramétrica estimabley probar, para estas funciones, la unicidad del estimador mínimo-cuadrático, como estudiaremosen el siguiente capítulo.Estudiaremos las propiedades de estos estimadores, entre las que destacaremos el Teoremade Gauss-Markov que demuestra que los estimadores mínimo-cuadráticos son los mejores,en el sentido de que son insesgados y de mínima varianza.Además, con la introducción de la hipótesis de normalidad de los errores, podremosestudiar las distribuciones de los estimadores y de otros estadísticos, así como la relacióncon los estimadores de máxima verosimilitud.Más adelante, trabajaremos la generalización del método de los mínimos cuadrados cuandola matriz de varianzas-covarianzas de los errores no es σ 2 I. Por otra parte, tambiénprofundizaremos el caso de matrices de diseño de rango no máximo.2.2. El modelo linealSea Y una variable aleatoria que fluctúa alrededor de un valor desconocido η, esto esY = η + ɛdonde ɛ es el error, de forma que η puede representar el valor verdadero e Y el valorobservado.Supongamos que η toma valores distintos de acuerdo con diferentes situaciones experimentalessegún el modelo linealη = β 1 x 1 + · · · + β m x mdonde β i son parámetros desconocidos y x i son valores conocidos, cada uno de los cualesilustra situaciones experimentales diferentes.22


En general se tienen n observaciones de la variable Y . Diremos que y 1 , y 2 , . . . , y n observacionesindependientes de Y siguen un modelo lineal siy i = x i1 β 1 + · · · + x im β m + ɛ ii = 1, . . . , nEstas observaciones de Y se pueden considerar variables aleatorias independientes y distribuidascomo Y (son copias) o también realizaciones concretas (valores numéricos) paralos cálculos.La expresión del modelo lineal en forma matricial es⎛ ⎞ ⎛y 1y 2⎜ ⎟⎝ . ⎠ = ⎜⎝y n⎞x 11 x 12 . . . x 1mx 21 x 22 . . . x 2m⎟. . . ⎠x n1 x n2 . . . x nm⎛⎜⎝⎞ ⎛β 1β 2⎟. ⎠ + ⎜⎝β m⎞ɛ 1ɛ 2⎟. ⎠ɛ no en forma resumidaY = Xβ + ɛ (2.1)Los elementos que constituyen el modelo lineal son:1. El vector de observaciones Y = (y 1 , y 2 , . . . , y n ) ′ .2. El vector de parámetros β = (β 1 , β 2 , · · · , β m ) ′ .3. La matriz del modelo⎛X = ⎜⎝cuyos elementos son conocidos.⎞x 11 x 12 . . . x 1mx 21 x 22 . . . x 2m⎟. . . ⎠x n1 x n2 . . . x nmEn problemas de regresión, X es la matriz de regresión. En los llamados diseñosfactoriales del Análisis de la Varianza, X recibe el nombre de matriz de diseño.4. El vector de errores o desviaciones aleatorias ɛ = (ɛ 1 , ɛ 2 , . . . , ɛ n ) ′ , donde ɛ i es ladesviación aleatoria de y i .Ejemplo 2.2.1El modelo lineal más simple consiste en relacionar una variable aleatoria Y con unavariable controlable x (no aleatoria), de modo que las observaciones de Y verifiqueny i = β 0 + β 1 x i + ɛ ii = 1, . . . , nSe dice que Y es la variable de predicción o dependiente y x es la variable predictora,por ejemplo Y es la respuesta de un fármaco a una dosis x. Hallar β 0 y β 1 es el clásicoproblema de regresión lineal simple.Ejemplo 2.2.2El modelo anterior se puede generalizar a situaciones en las cuales la relación sea polinómica.23


Consideremos el modeloy i = β 0 + β 1 x i + β 2 x 2 i + · · · + β p x p i + ɛi = 1, . . . , nObservemos que es lineal en los parámetros β i . La matriz de diseño es⎛⎞1 x 1 . . . x p 11 x 2 . . . x p 2⎜⎟⎝ . . . ⎠1 x n . . . x p nEjemplo 2.2.3En general, cualquier variable Y puede relacionarse con dos o más variables control. Así,son modelos lineales:a) y i = β 0 + β 1 x i1 + β 2 x i2 + ɛ ib) y i = β 0 + β 1 x i1 + β 2 x i2 + β 3 x i1 x i2 + β 4 x 2 i1 + β 5 x 2 i2 + ɛ ic) y i = β 0 + β 1 x i1 + β 2 cos(x i2 ) + β 3 sen(x i2 ) + ɛ iSin embargo, no es modelo linealEjemplo 2.2.4y i = β 0 + β 1 log(β 2 x i1 ) + β 3 x β 4i2 + ɛ iSupongamos que la producción Y de una planta depende de un factor F (fertilizante) yun factor B (bloque o conjunto de parcelas homogéneas). El llamado modelo del diseñodel factor en bloques aleatorizados esdondey ij = µ + α i + β j + ɛ ijµ es una constante (media general)α iβ jel efecto del fertilizanteel efecto del bloqueSi tenemos 2 fertilizantes y 3 bloques, tendremos en total k = 2 × 3 = 6 situacionesexperimentales y la siguiente matriz de diseño:µ α 1 α 2 β 1 β 2 β 31 1 0 1 0 01 0 1 1 0 01 1 0 0 1 01 0 1 0 1 01 1 0 0 0 11 0 1 0 0 1La utilización del fertilizante 1 en el bloque 3 queda descrita a través de la fila 5 de X.24


Ejemplo 2.2.5Para predecir la capacidad craneal C, en Antropología se utiliza la fórmulaC = αL β 1A β 2H β 3donde L = longitud del cráneo, A = anchura parietal máxima y H = altura basio bregma.La fórmula anterior se convierte en un modelo lineal tomando logaritmoslog C = log α + β 1 log L + β 2 log A + β 3 log HEl parámetro α expresa el tamaño, mientras que los parámetros β expresan la forma delcráneo.2.3. Suposiciones básicas del modelo linealEn el modelo lineal definido en el apartado anterior, se supone que los errores ɛ i sondesviaciones que se comportan como variables aleatorias que verifican las condiciones deGauss-Markov:1. E(ɛ i ) = 0 i = 1, . . . , n2. var(ɛ i ) = σ 2 i = 1, . . . , n3. E(ɛ i · ɛ j ) = 0 ∀i ≠ jComo sabemos, la condición (2) es la llamada condición de homocedasticidad del modelo yel parámetro desconocido σ 2 es la llamada varianza del modelo. La condición (3) significaque las n desviaciones son mutuamente incorrelacionadas.Estas condiciones pueden expresarse en forma matricial comoE(ɛ) = 0var(ɛ) = σ 2 I ndonde E(ɛ) es el vector de esperanzas matemáticas y var(ɛ) es la matriz de covarianzasde ɛ = (ɛ 1 , . . . , ɛ n ) ′ .Si además suponemos que cada ɛ i es N(0, σ) y que ɛ 1 , . . . , ɛ n son estocásticamente independientes,entonces diremos que el modelo definido es un modelo lineal normal. Así tendremosqueY ∼ N n (Xβ, σ 2 I n )es decir, Y sigue la distribución normal multivariante de vector de medias Xβ y matrizde covarianzas σ 2 I n .Se llama rango del diseño al rango de la matriz Xr = rango Xy es un elemento muy importante en la discusión de los modelos. Evidentemente r ≤ m.El valor de r es el número efectivo de parámetros del diseño, en el sentido de que si r < mes posible reparametrizar el modelo para que r sea igual al número de parámetros. Enmuchos casos el diseño verifica directamente que r = m y entonces se dice que es de rangomáximo.El modelo lineal que verifique las condiciones aquí expuestas, salvo la normalidad, diremosque está bajo las condiciones de Gauss-Markov ordinarias.25


2.4. Estimación de los parámetrosLa estimación de los parámetros β = (β 1 , . . . , β m ) ′ se hace con el criterio de los mínimoscuadrados. Se trata de hallar el conjunto de valores de los parámetros ̂β = (̂β 1 , . . . , ̂β m ) ′que minimicen la siguiente suma de cuadradosɛ ′ ɛ = (Y − Xβ) ′ (Y − Xβ) (2.2)n∑= (y i − x i1 β 1 − · · · − x im β m ) 2i=1La estimación ̂β de β la llamaremos estimación MC, abreviación de mínimo-cuadrática,o LS del inglés least squares.Teorema 2.4.1Toda estimación MC de β es solución de la ecuaciónDemostración:Si desarrollamos la suma de cuadrados ɛ ′ ɛ tenemosX ′ Xβ = X ′ Y (2.3)ɛ ′ ɛ = (Y − Xβ) ′ (Y − Xβ)= Y ′ Y − 2β ′ X ′ Y + β ′ X ′ Xβy si derivamos matricialmente respecto a β resulta∂ɛ ′ ɛ∂β = −2X′ Y + 2X ′ XβDe modo que, si igualamos a cero, obtenemos la ecuación enunciada en el teorema. Las ecuaciones 2.3 reciben el nombre de ecuaciones normales.Si el rango es máximo y r = m, entonces X ′ X tiene inversa y la única solución de lasecuaciones normales eŝβ = (X ′ X) −1 X ′ YSi r < m el sistema de ecuaciones 2.3 es indeterminado y su solución no es única. Enestos casos, una posibilidad (ver Apéndice A) es considerar̂β = (X ′ X) − X ′ Ydonde A − = (X ′ X) − es una g-inversa de A = X ′ X, es decir, A − verificaAA − A = AEntonces se puede demostrar que la solución general essiendo z un vector paramétrico.̂β = (X ′ X) − X ′ Y + (I − A − A)z26


Ahora podemos definir la suma de cuadrados residual comoSCR = e ′ e = (Y − X̂β) ′ (Y − X̂β)Como veremos, SCR entendido como un estadístico función de la muestra Y, desempeñaun papel fundamental en el Análisis de la Varianza.El modelo lineal Y = Xβ + ɛ, bajo las hipótesis de Gauss-Markov, verificaTeorema 2.4.2E(Y) = XβSea Ω = 〈X〉 ⊂ R n el subespacio vectorial generado por las columnas de X de dimensióndim〈X〉 = r = rango X.Entonces se verifica:(i) E(Y) ∈ 〈X〉(ii) Si ̂β es una estimación MC, el vector de residuos e = Y − X̂β es ortogonal a 〈X〉.Demostración:En efecto,i) Si x (1) , . . . , x (m) son las columnas de X, entoncesE(Y) = x (1) β 1 + · · · + x (m) β m ∈ 〈X〉ii) X ′ e = X ′ (Y − X̂β) = X ′ Y − X ′ X̂β = 0Teorema 2.4.3Para cualquier ̂β solución MC de 2.3 se verifica queson únicos.AdemásŶ = X̂β e = Y − Ŷ SCR = (Y − X̂β) ′ (Y − X̂β)Demostración:Si desarrollamos la suma de cuadrados residual SCR resultay como X ′ X̂β = X ′ Y, obtenemosSCR = Y ′ Y − ̂β ′ X ′ Y (2.4)SCR = Y ′ Y − ̂β ′ X ′ Y − Y ′ X̂β + ̂β ′ X ′ X̂βSCR = Y ′ Y − 2̂β ′ X ′ Y + ̂β ′ X ′ Y = Y ′ Y − ̂β ′ X ′ YConsideremos ahora los vectores Ŷ1 = X̂β 1 y Ŷ2 = X̂β 2 , donde ̂β 1 y ̂β 2 son dos solucionesMC. Entonces Ŷ1 y Ŷ2 pertenecen al subespacio 〈X〉 generado por las columnasde X y su diferencia Ŷ1 − Ŷ2 también. Por otra parte, observamos queX ′ (Ŷ1 − Ŷ2) = X ′ X̂β 1 − X ′ X̂β 2 = X ′ Y − X ′ Y = 0de modo que Ŷ1−Ŷ2 pertenece al ortogonal de 〈X〉. Así pues, necesariamente Ŷ1−Ŷ2 = 0y el vector de errores e = Y − Ŷ1 = Y − Ŷ2 es único.En consecuencia, la suma de cuadrados de los errores SCR también es única. 27


Interpretación geométricaEl modelo teórico esY = Xβ + ɛ = θ + ɛsi θ = XβEntonces E(Y) = Xβ = θ significa que el valor esperado de Y pertenece al subespacioΩ = 〈X〉 y para estimar los parámetros β debemos minimizarɛ ′ ɛ = ‖Y − θ‖ 2con θ ∈ Ω = 〈X〉Como el vector concreto de observaciones Y se puede considerar un vector de R n , elproblema anterior se puede resolver en términos geométricos. Así se sabe que cuandoθ ∈ Ω, ‖Y − θ‖ 2 es mínimo para θ = Ŷ = PY, donde P es la matriz de la proyecciónortogonal en Ω = 〈X〉 (ver Apéndice B). La estimación MC es equivalente a hallar laproyección ortogonal Ŷ de Y sobre 〈X〉, es decir, la norma euclídea de e = Y − Ŷ esmínima:SCR = e ′ e = ‖e‖ 2 = ‖Y − Ŷ‖2Se comprende que cualquier otra proyección no ortogonal daría una solución menos adecuada.YeΩ = 〈X〉ŶComo e = Y − Ŷ es ortogonal a Ω, se verifica queX ′ (Y − Ŷ) = 0 ó X′ Ŷ = X ′ Ydonde Ŷ está determinada por ser la única proyección ortogonal de Y en Ω. Cuando lascolumnas de X son linealmente independientes, forman una base y existe un único vector̂β tal que Ŷ = X̂β de manera queX ′ Ŷ = X ′ Y ⇒ X ′ X̂β = X ′ Yson las ecuaciones normales. En caso contrario, es decir, cuando las columnas de X son dependientesno podemos concretar una solución única para los parámetros β. Sin embargotodas las soluciones deben verificar la siguiente propiedad.Teorema 2.4.4̂β es una estimación MC de β si y sólo si X̂β = PY, donde P es la proyección ortogonalen Ω = 〈X〉28


Demostración:Una estimación ̂β de β es MC si y sólo si(Y − X̂β) ′ (Y − X̂β) = mínβSea ˜β una estimación cualquiera de β, entoncesSin embargo(Y − Xβ) ′ (Y − Xβ)(Y − X˜β) ′ (Y − X˜β) = (Y − PY + PY − X˜β) ′ (Y − PY + PY − X˜β)= (Y − PY) ′ (Y − PY) + (Y − PY) ′ (PY − X˜β)+ (PY − X˜β) ′ (Y − PY) + (PY − X˜β) ′ (PY − X˜β)(Y − PY) ′ (PY − X˜β) = Y ′ (I − P)PY − Y ′ (I − P)X˜β = 0ya que P es idempotente y además PX = X. De forma que(Y − X˜β) ′ (Y − X˜β) = (Y − PY) ′ (Y − PY) + (PY − X˜β) ′ (PY − X˜β)donde ambos términos son positivos, el primero no depende de ˜β y el segundo se minimizasi es cero, luego PY = X̂β.En resumen y como ya hemos visto, la solución del problema se basa en la proyecciónortogonal sobre el subespacio Ω que garantiza la unicidad del vector de prediccionesŶ = PY y por ende del vector de residuos e = Y − Ŷ y de la suma de cuadrados de losresiduosSCR = e ′ e = (Y − PY) ′ (Y − PY) = Y ′ (I − P)Yya que I − P es idempotente (ver Apéndice B).La solución para los parámetros β debe salir de las ecuaciones normales o de la ecuaciónXβ = PY y sólo es única cuando el rango de la matriz X es máximo.Ejemplo 2.4.1Consideremos el modelo lineal con n = 3, m = 1 y r = 1que en expresión matricial escribimos⎛ ⎞ ⎛y 1⎝ y 2⎠ = ⎝y 3de modo que X ′ = (1, 2, −1).Las ecuaciones normales son(1 2⎛)−1 ⎝y 1 = θ + ɛ 1y 2 = 2θ + ɛ 2y 3 = −θ + ɛ 312−112−1⎞⎛⎠ θ + ⎝⎞ɛ 1ɛ 2⎠ɛ 3⎞⎛⎠ θ = ( 1 2 −1 ) ⎝29⎞y 1y 2⎠y 3


es decir6θ = y 1 + 2y 2 − y 3y la estimación MC de θ es ̂θ = (y 1 + 2y 2 − y 3 )/6.La suma de cuadrados residual esEjemplo 2.4.2SCR = Y ′ Y − ̂θ ′ X ′ Y = y 2 1 + y 2 2 + y 2 3 − (y 1 + 2y 2 − y 3 ) 2 /6Supongamos que se desea pesar tres objetos cuyos pesos exactos son β 1 , β 2 y β 3 . Sedispone de una balanza de platillos con un error de pesada que podemos considerar condistribución N(0, σ). Un artificio para mejorar la precisión y ahorrar pesadas consiste enrepartir los objetos en uno o en los dos platillos y anotar las sumas o diferencias de pesos:x 1 β 1 + x 2 β 2 + x 3 β 3 = ydonde y es el peso observado y x i = 0, 1, −1.Consideremos las siguientes pesadas:β 1 + β 2 + β 3 = 5,53β 1 − β 2 + β 3 = 1,72β 1 + β 2 − β 3 = 0,64β 1 + β 2 + β 3 = 5,48β 1 − β 2 + β 3 = 1,70A partir de estos datos, las ecuaciones normales son⎧⎨ 5β 1 + β 2 + 3β 3 = 15,07β 1 + 5β 2 − β 3 = 8,23⎩3β 1 − β 2 + 5β 3 = 13,79La estimación de los parámetros proporcionay la suma de cuadrados residual eŝβ 1 = 1,175 ̂β2 = 1,898 ̂β3 = 2,433SCR = (5,53 − (̂β 1 + ̂β 2 + ̂β 3 )) 2 + · · · = 0,001452.5. Estimación de la varianzaLa varianza de los errores del modelo linealσ 2 = var(ɛ i ) = var(y i )i = 1, . . . , nes otro parámetro que debe ser estimado a partir de las observaciones de y 1 , . . . , y n .30


Teorema 2.5.1Sea Y = Xβ + ɛ el modelo lineal con las hipótesis impuestas en la sección 2.3. Entoncesel estadístico 1 ̂σ 2 = ECM = SCR/(n − r)es un estimador insesgado de la varianza σ 2 . En este estadístico SCR es la suma decuadrados residual, n el número total de observaciones y r el rango del diseño.Demostración 1:Las columnas x (1) , . . . , x (m) de la matriz de diseño X generan el subespacio de dimensiónr que escribimos〈X〉 = 〈x (1) , . . . , x (m) 〉Sea ahora V una matriz ortogonal, es decir, tal que VV ′ = V ′ V = I n , cuyas columnasv (1) , . . . , v (r) , v (r+1) , . . . , v (n) forman una base ortogonal de R n . Es posible construir V demodo que las r primeras columnas generen el subespacio 〈X〉〈X〉 = 〈v (1) , . . . , v (r) 〉Por otra parte, Y = (y 1 , . . . , y n ) ′ es un vector aleatorio de R n que, mediante V, transformamosen Z = (z 1 , . . . , z n ) ′ = V ′ Yz i = v 1i y 1 + · · · + v ni y ni = 1, . . . , nPara las variables transformadas se verifica queE(z i ) =n∑v hi E(y h ) = v (i)Xβ ′ =h=1{ηi si i ≤ r0 si i > rpues Xβ ∈ 〈X〉 que es ortogonal a v (i) para i > r.Sea ̂β una estimación MC. EntoncesY = X̂β + (Y − X̂β) = X̂β + edonde obviamente X̂β ∈ 〈X〉 y como sabemos e ∈ 〈X〉 ⊥ , de manera que la transformaciónortogonal V ′ aplicada sobre e proporcionaV ′ e = (0, . . . , 0, z r+1 , . . . , z n ) ′Luego, en función de las variables z i tenemosSCR = e ′ e = (V ′ e) ′ V ′ e =n∑i=r+1Además, por ser una transformación ortogonal, las variables z 1 , . . . , z n siguen siendo incorrelacionadasy de varianza σ 2 . Así puesE(z i ) = 0 E(z 2 i ) = var(z i ) = var(y i ) = σ 21 En muchos de los libros clásicos escritos en inglés este estadístico se llama MSE, siglas de meansquare error.31z 2 i


y por lo tantoLa expresiónn∑E(SCR) = E(zi 2 ) = (n − r)σ 2i=r+1SCR = z 2 r+1 + · · · + z 2 n (2.5)se llama forma canónica de la suma de cuadrados residual del modelo lineal bajo lashipótesis de Gauss-Markov.Demostración 2:Se puede hacer una demostración mucho más directa a partir de la propiedad 2 explicadaen el Apéndice C1 de Estadística Multivariante:Para un vector aleatorio Y con esperanza E(Y) = µ y matriz de varianzas y covarianzasvar(Y) = V, se tiene queE(Y ′ AY) = tr(AV) + µ ′ Aµdonde A es una matriz constante.En nuestro caso E(Y) = µ = Xβ y var(Y) = V = σ 2 I, de forma queE(SCR) = E(Y ′ (I − P)Y) = tr(σ 2 (I − P)) + β ′ X ′ (I − P)Xβ= σ 2 tr(I − P)= σ 2 rg(I − P) = σ 2 (n − r)gracias a las propiedades de la matriz I − P.2.6. Distribuciones de los estimadoresVamos ahora a establecer algunas propiedades de los estimadores MC para un modelo derango máximo.Si asumimos que los errores son insesgados E(ɛ) = 0, que es la primera condición deGauss-Markov, entonces ̂β es un estimador insesgado de βE(̂β) = (X ′ X) −1 X ′ E(Y) = (X ′ X) −1 X ′ Xβ = βSi asumimos además que los errores ɛ i son incorrelacionados y con la misma varianza, esdecir var(ɛ) = σ 2 I, resulta quevar(Y) = var(Y − Xβ) = var(ɛ) = σ 2 Iya que Xβ no es aleatorio y en consecuenciavar(̂β) = var((X ′ X) −1 X ′ Y) = (X ′ X) −1 X ′ var(Y)X(X ′ X) −1= σ 2 (X ′ X) −1 (X ′ X)(X ′ X) −1 = σ 2 (X ′ X) −1Veamos a continuación algunos resultados acerca de la distribución de ̂β y SCR bajo lashipótesis del modelo lineal normal en el caso de rango máximo.32


Teorema 2.6.1Sea Y ∼ N(Xβ, σ 2 I n ) con rango X = m. Entonces se verifican las siguientes propiedades:i) La estimación MC de β coincide con la estimación de la máxima verosimilitud.Además es insesgada y de mínima varianza.ii) ̂β ∼ N(β, σ 2 (X ′ X) −1 )iii) (̂β − β) ′ X ′ X(̂β − β)/σ 2 ∼ χ 2 miv) ̂β es independiente de SCRv) SCR/σ 2 ∼ χ 2 n−mDemostración:i) La función de verosimilitud esL(Y; β, σ 2 ) = ( √ 2πσ 2 ) −n exp[− 1]2σ (Y − 2 Xβ)′ (Y − Xβ)de modo que el mínimo de (Y − Xβ) ′ (Y − Xβ) es el máximo de L.Ya hemos visto que ̂β es insesgado y además, cada ̂β i es un estimador lineal de varianzamínima de β i , ya que es centrado y de máxima verosimilitud, luego suficiente.Se llegará a la misma conclusión como consecuencia del Teorema 3.2.1.Por otra parte, si sustituimos β por ̂β en la función de verosimilitud y derivamosrespecto a σ 2 resulta que el el estimador de máxima verosimilitud de la varianza eŝσ 2 MV = SCR/nEste estimador es sesgado y en la práctica no se utiliza, ya que disponemos delestimador insesgado propuesto en el apartado anterior. Además, bajo ciertas condicionesgenerales se puede probar que ̂σ 2 = SCR/(n−m) es un estimador de varianzamínima de σ 2 (véase Seber [65, pág. 52]).ii) Como ̂β = [(X ′ X) −1 X ′ ]Y, ̂β es combinación lineal de una normal y, por tanto,tiene distribución normal multivariante con matriz de varianzas-covarianzas(X ′ X) −1 σ 2iii) Es consecuencia de las propiedades de la normal multivariante del apartado anteriorya que(̂β − β) ′ X ′ X(̂β − β)/σ 2 = (̂β − β) ′ var(̂β) −1 (̂β − β) ∼ χ 2 miv) Si calculamos la matriz de covarianzas entre ̂β i Y − X̂β tenemoscov(̂β, Y − X̂β) = cov((X ′ X) −1 X ′ Y, (I − P)Y)= (X ′ X) −1 X ′ var(Y)(I − P) ′= σ 2 (X ′ X) −1 X ′ (I − P) = 0de modo que efectivamente ̂β es independiente de (Y − X̂β) ′ (Y − X̂β), ya que laincorrelación entre normales multivariantes implica su independencia.Este resultado se ampliará en el Teorema 3.4.1.33


v) Aplicando la ecuación 2.5SCR/σ 2 = (z m+1 /σ) 2 + · · · + (z n /σ) 2obtenemos una suma de cuadrados de n − m variables normales independientes, esdecir, una distribución χ 2 n−m.Ejemplo 2.6.1La distribución de ̂θ del ejemplo 2.4.1 es N(θ, σ/ √ 6)E(̂θ) = E((y 1 + 2y 2 − y 3 )/6) = (1/6)(θ + 4θ + θ) = θvar(̂θ) = (σ 2 + 4σ 2 + σ 2 )/6 2 = σ 2 /6La distribución de SCR/σ 2 es χ 2 2, siendoEjemplo 2.6.2SCR = (y 1 − ̂θ) 2 + (y 2 − 2̂θ) 2 + (y 3 + ̂θ) 2La estimación de la varianza del error σ 2 en el ejemplo 2.4.2 eŝσ 2 = 0,00145/(5 − 3) = 0,725 × 10 −3Observemos que el número de pesadas necesarias para obtener la misma precisión seríamayor si pesáramos cada objeto individualmente.2.7. Matriz de diseño reducidaSupongamos que varias observaciones y i han sido obtenidas bajo las mismas condicionesexperimentales. Para estas observaciones, el modelo que liga y i con las β es el mismo, loque se traduce en que las filas de la matriz de diseño correspondientes están repetidas.Para evitar la redundancia que esto supone nos será muy útil, a efectos teóricos y decálculo, introducir el concepto de matriz de diseño reducida.Definición 2.7.1Dado el modelo lineal Y = Xβ +ɛ, llamaremos matriz de diseño reducida X R a la matrizk × m obtenida tomando las k filas distintas de la matriz de diseño original X. Diremosentonces que k es el número de condiciones experimentales.Las matrices de diseño original o ampliada y reducida las indicaremos por X y X Rrespectivamente, cuando convenga distinguir una de otra.Si la fila i-ésima de X R está repetida n i veces en X, significa que se han obtenido n iréplicas de la variable observable bajo la i-ésima condición experimental. Si estos númerosde réplicas son n 1 , n 2 , . . . , n k , entoncesn = n 1 + n 2 + · · · + n k34


Además de la matriz reducida X R , utilizaremos también la matriz diagonaly el vector de mediasD = diag(n 1 , n 2 , . . . , n k )Ȳ = (ȳ 1 , ȳ 2 , . . . , ȳ k ) ′donde cada y i es la media de las réplicas bajo la condición experimental i.En una experiencia bajo la cual todas las observaciones han sido tomadas en condicionesexperimentales distintas (caso de una sola observación por casilla), entoncesX R = X Ȳ = Y D = I n i = 1Como veremos más adelante (ver sección 10.7), la utilización de X R , D e Ȳ nos permitiráabordar diseños no balanceados y el caso de observaciones faltantes.Teorema 2.7.1La solución de las ecuaciones normales y la suma de cuadrados residual en términos dela matriz de diseño reducida X R , de D e Ȳ eŝβ = (X ′ RDX R ) −1 X ′ RDȲSCR = Y ′ Y − ̂β ′ X ′ RDȲDemostración:Sea M una matriz n × k de forma que cada columna i es(0, . . . , 0, 1, . . . , 1, 0, . . . , 0} {{ } } {{ } } {{ }n ′ n in ′′ ) ′donde k es el número de condiciones experimentales (número de filas distintas de X), n iel número de réplicas bajo la condición i, y ademásn ′ = n 1 + · · · + n i−1n ′′ = n i+1 + · · · + n kSe verificaM ′ Y = DȲ MX R = X M ′ M = D X ′ Y = X ′ RM ′ Y = X ′ RDȲde donde se siguen inmediatamente las fórmulas del teorema.Ejemplo 2.7.1Con los datos del ejemplo 2.4.2⎛⎞1 1 11 −1 1X =⎜ 1 1 −1⎟⎝ 1 1 1 ⎠1 −1 1⎛Y =⎜⎝5,531,720,645,481,70⎞⎟⎠35


Agrupando las filas 1, 4 y 2, 5 obtenemos⎛1 1⎞1⎛X R = ⎝ 1 −1 1 ⎠ D = ⎝1 1 −1donde n 1 = n 2 = 2, n 3 = 1, k = 3.⎛⎞ ⎛(5,53 + 5,48)/2Ȳ = ⎝ (1,72 + 1,70)/2 ⎠ = ⎝0,642 0 00 2 00 0 15,5051,7100,640⎞⎠⎞⎠La matriz M es⎛M =⎜⎝1 0 01 0 00 1 00 1 00 0 1⎞⎟⎠Ejemplo 2.7.2Consideremos el modeloy ij = µ + α i + β j + ɛ ijcorrespondiente al diseño de dos factores sin interacción.Supongamos que el primer factor tiene 2 niveles y el segundo tiene 3 niveles, y que losnúmeros de réplicas sonLa matriz de diseño reducida esn 11 = 2 n 21 = 1 n 12 = 3 n 22 = 3 n 13 = 5 n 23 = 4µ α 1 α 2 β 1 β 2 β 31 1 0 1 0 01 0 1 1 0 01 1 0 0 1 01 0 1 0 1 01 1 0 0 0 11 0 1 0 0 1Sin embargo, la matriz de diseño ampliada tiene 6 columnas y ∑ n ij = 18 filas.2.8. Matrices de diseño de rango no máximoCuando el modelo lineal corresponde al análisis de los datos de un diseño experimental,la matriz X tiene todos sus elementos con valores 0 ó 1 y sus columnas acostumbran a serlinealmente dependientes. Ya sabemos que en este caso es posible hallar el estimador MCde θ = Xβ pero, por desgracia, hay múltiples estimaciones de los parámetros β que másbien podemos considerar como soluciones ̂β de las ecuaciones normales. En todo caso ycomo veremos en el próximo capítulo estamos interesados en concretar una estimaciónde los parámetros β aunque no sea única. A continuación se comentan algunos métodospara hallar una solución ̂β o para hallar la SCR directamente.36


2.8.1. Reducción a un modelo de rango máximoSea X 1 la matriz n×r con las r = rg X columnas linealmente independientes de la matrizde diseño X, entonces P = X 1 (X ′ 1X 1 ) −1 X ′ 1 de forma queSCR = Y ′ (I − P)Y = Y ′ Y − ̂α ′ X ′ 1Ydonde ̂α = (X ′ 1X 1 ) −1 X ′ 1Y es la solución del modelo Y = X 1 α + ɛ de rango máximo.Podemos asumir, sin pérdida de generalidad, que X 1 está formada por las r primeras filasde X de manera que X = (X 1 , X 2 ). Entonces X 2 = X 1 F ya que las columnas de X 2 sonlinealmente dependientes de las de X 1 y, por tanto, X = X 1 (I r , F). Así, éste es un casoespecial de una factorización más general del tipoX = KLdonde K es n × r de rango r, y L es r × m de rango r. Entonces podemos escribiry estimar α.Xβ = KLβ = Kα2.8.2. Imposición de restriccionesEste método consiste en imponer un conjunto de restricciones del tipo Hβ = 0 paraevitar la indeterminación de β. Las restricciones apropiadas, llamadas identificables, sonaquellas que, para cada θ ∈ Ω = 〈X〉, existe un único β que satisface θ = Xβ y 0 = Hβ,es decir, que satisface ( ) ( )θ X= β = Gβ0 HLa solución es simple. Debemos elegir como filas de H un conjunto de m − r vectoresm × 1 linealmente independientes que sean también linealmente independientes de lasfilas de X. Entonces la matriz G de orden (n + m − r) × m tendrá rango m de modo queG ′ G = X ′ X + H ′ H es m × m de rango m y en consecuencia tiene inversa. Luego hemossalvado la deficiencia en el rango de X ′ X introduciendo la matriz H ′ H.Así pues, si añadimos H ′ Hβ = 0 a las ecuaciones normales tenemosG ′ Gβ = X ′ Ycuya solución es ̂β = (G ′ G) −1 X ′ Y. Se puede ver, a partir de ̂θ = X̂β = PY, queP = X(G ′ G) −1 X ′ ya que P es única.La demostración de todos los detalles aquí expuestos puede verse en Seber [65, pág. 74].Es interesante comprobar que, si Hβ = 0, entoncesE(̂β) = (G ′ G) −1 X ′ Xβ= (G ′ G) −1 (X ′ X + H ′ H)β = βde modo que ̂β es un estimador insesgado de β.Este método es particularmente útil en los modelos de análisis de la varianza para los queH se halla con mucha facilidad.37


Ejemplo 2.8.1Consideremos el modelo correspondiente al diseño de un factor con, por ejemplo, 3 nivelesy ij = µ + α i + ɛ ij i = 1, 2, 3 j = 1, . . . , n ientonces, tenemos m = 4 y una matriz de diseño de rango 3. La estimación de losparámetros resulta indeterminada.Sin embargo, si añadimos la restricción ∑ α i = 0, es decir, si hacemos H = (0, 1, 1, 1),el sistema conjunto es de rango 4 y podemos determinar una solución o calcular la sumade cuadrados residual.38


2.9. EjerciciosEjercicio 2.1Una variable Y toma los valores y 1 , y 2 y y 3 en función de otra variable X con los valoresx 1 , x 2 y x 3 . Determinar cuales de los siguientes modelos son lineales y encontrar, en sucaso, la matriz de diseño para x 1 = 1, x 2 = 2 y x 3 = 3.a) y i = β 0 + β 1 x i + β 2 (x 2 i − 1) + ɛ ib) y i = β 0 + β 1 x i + β 2 e x i+ ɛ ic) y i = β 1 x i (β 2 tang(x i )) + ɛ iEjercicio 2.2Dado el modelo lineal( ) (y1 2=y 2 1) ( )ɛ1θ +ɛ 2hallar la estimación MC de θ y la suma de cuadrados residual.Ejercicio 2.3Si ̂β es una estimación MC, probar queEjercicio 2.4(Y − Xβ) ′ (Y − Xβ) = (Y − X̂β) ′ (Y − X̂β) + (̂β − β) ′ X ′ X(̂β − β)Cuatro objetos cuyos pesos exactos son β 1 , β 2 , β 3 y β 4 han sido pesados en una balanzade platillos de acuerdo con el siguiente esquema:β 1 β 2 β 3 β 4 peso1 1 1 1 9,21 −1 1 1 8,31 0 0 1 5,41 0 0 −1 −1,61 0 1 1 8,71 1 −1 1 3,5Hallar las estimaciones de cada β i y de la varianza del error.Ejercicio 2.5Sea ̂β la estimación MC de β. Si Ŷ = X̂β = PY, probar que la matriz P verificaP 2 = P(I − P) 2 = I − PEjercicio 2.6La matriz de diseño reducida de un modelo lineal normal es⎛1 1⎞1X R = ⎝ 1 0 1 ⎠0 1 039


Se sabe además quey 1 = 10 y 2 = 12 y 3 = 17 n 1 = n 2 = n 3 = 10s 2 1 = 1 ∑(yi1 − yn 1 ) 2 = 2,81s 2 2 = 4,2 s 2 3 = 4,0Se pide:a) Hallar la expresión general de las estimaciones MC de los parámetros β.b) Calcular SCR. Estimar la varianza del diseño σ 2 .c) Estudiar si la hipótesis nula H 0 : σ 2 = 3 puede ser aceptada.Ejercicio 2.7Consideremos el modelo linealy i = β 0 + β 1 x i1 + · · · + β m x im + ɛ ii = 1, . . . , nSean ̂β 0 , ̂β 1 , . . . , ̂β m las estimaciones MC de los parámetros y seaŷ i = ̂β 0 + ̂β 1 x i1 + · · · + ̂β m x imi = 1, . . . , nProbar quen∑(y i − ŷ i ) =i=1n∑e i = 0i=140


Capítulo 3Funciones paramétricas estimables3.1. IntroducciónEn los modelos lineales, además de la estimación de los parámetros β i y de σ 2 , interesatambién la estimación de ciertas funciones lineales de los parámetros. Como vamos a ver,esto es especialmente necesario cuando los parámetros carecen de una estimación única.Definición 3.1.1Llamaremos función paramétrica a toda función lineal ψ de los parámetrosψ = a 1 β 1 + · · · + a m β m = a ′ βy diremos que una función paramétrica ψ es estimable si existe un estadístico ̂ψ, combinaciónlineal de las observaciones y 1 , . . . , y ntal quêψ = b 1 y 1 + · · · + b n y n = b ′ YE( ̂ψ) = ψes decir, ̂ψ es estimador lineal insesgado de ψ.Estas funciones paramétricas tienen la siguiente caracterizaciónTeorema 3.1.1Sea ψ = a ′ β una función paramétrica estimable asociada al modelo lineal Y = Xβ + ɛ.Se verifica:i) ψ es estimable si y sólo si el vector fila a ′ es combinación lineal de las filas de X.ii) Si ψ 1 , . . . , ψ q son funciones paramétricas estimables, entonces la combinación linealψ = c 1 ψ 1 + · · · + c q ψ q es también función paramétrica estimable.iii) El número máximo de funciones paramétricas estimables linealmente independienteses r = rango(X).Demostración:41


i) Sea ̂ψ = b ′ Y tal que E( ̂ψ) = ψ. Entoncescualquiera que sea β, luegoa ′ β = E(b ′ Y) = b ′ E(Y) = b ′ Xβa ′ = b ′ Xlo que nos dice que a ′ es combinación lineal de las filas de la matriz de diseño X.Recíprocamente, si suponemos que b ′ X = a ′ , entonces basta tomar ̂ψ = b ′ Y comoestimador lineal insesgado de ψ.ii) y iii) para el lector (ver ejercicio 3.4)Observaciones:1) Si rango X = m, entonces todos los parámetros β i y todas las funciones paramétricasψ son estimables, pues el subespacio generado por las filas de X coincide conR m .2) Si rango X < m, pueden construirse funciones paramétricas que no son estimables.3) Una caracterización algebraica de que ψ = a ′ β es estimable viene dada por laidentidada ′ (X ′ X) − X ′ X = a ′donde (X ′ X) − representa una g-inversa de X ′ X.En efecto, consideremos las matricesentonces se comprueba fácilmente queS = X ′ X S − = (X ′ X) − H = S − SH 2 = HSH = SPuesto que H es idempotenterango H = traza H = rango S = rango X = rPor otra parte tenemos0 = S − SH = (I m − H) ′ (S − SH) = (I m − H) ′ (X ′ X − X ′ XH)= (I m − H) ′ (X ′ (X − XH)) = (X − XH) ′ (X − XH)luegoX = XHEntonces, si ψ = a ′ β es estimable, a ′ = b ′ X ya ′ H = b ′ XH = b ′ X = a ′Recíprocamente, si a ′ H = a ′ , resulta quea ′ = a ′ S − S = (a ′ S − X ′ )X = b ′ Xsiendo b ′ = a ′ S − X ′ .42


3.2. Teorema de Gauss-MarkovVamos a ver en primer lugar que, cuando el rango de la matriz de diseño no es máximoy, por tanto, la estimación MC de los parámetros no es única, la estimación de cualquierfunción paramétrica estimable utilizando cualquiera de los estimadores MC sí es única.Teorema 3.2.1Si ψ = a ′ β una función paramétrica estimable y ̂β es un estimador MC de β, entoncesel estimador ̂ψ = a ′̂β de ψ es único.Demostración:Si ψ es una función paramétrica estimable, tiene un estimador lineal insesgado b ′ Y,donde b es un vector n × 1. Consideremos el subespacio Ω = 〈X〉 de R n generado por lascolumnas de X. El vector b se puede descomponer de forma únicab = ˜b + c ˜b ∈ Ω c ⊥ Ωde modo que c es ortogonal a todo vector de Ω.Consideremos ahora el estimador lineal ˜b ′ Y y veamos que es insesgado y que su valor esúnico. Sabemos que b ′ Y es insesgadoluego E(˜b ′ Y) = a ′ β, puesψ = a ′ β = E(b ′ Y) = E(˜b ′ Y) + E(c ′ Y) = E(˜b ′ Y) = ˜b ′ Xβ (3.1)E(c ′ Y) = c ′ E(Y) = c ′ Xβ = 0β = 0Supongamos que b ∗′ Y es otro estimador insesgado para ψ y b ∗ ∈ Ω. Entonces0 = E(˜b ′ Y) − E(b ∗′ Y) = (˜b ′ − b ∗′ )Xβluego(˜b ′ − b ∗′ )X = 0lo que quiere decir que (˜b ′ − b ∗′ ) es ortogonal a Ω. Como también pertenece a Ω, debeser ˜b − b ∗ = 0, es decir, ˜b = b ∗ .Por último, sabemos que para cualquier estimador MC de β e = Y − X̂β es ortogonal aΩ, de manera que0 = ˜b ′ e = ˜b ′ Y − ˜b ′ X̂βy así ˜b ′ Y = ˜b ′ X̂β. Además, por 3.1 sabemos que ˜b ′ X = b ′ X = a ′ , luego˜b ′ Y = a ′̂βpara cualquier ̂β.A continuación se demuestra la principal ventaja de la utilización de los estimadores MC.Teorema 3.2.2 (Gauss-Markov)Si ψ = a ′ β una función paramétrica estimable y ̂β es un estimador MC de β, entonceŝψ = a ′̂β es el estimador de varianza mínima 1 en la clase de los estimadores linealesinsesgados de ψ.1 BLUE: best linear unbiased estimate43


Demostración:Con la notacióntenemos que‖b‖ 2 = b 2 1 + · · · + b 2 nvar(b ′ Y) = b 2 1σ 2 + · · · + b 2 nσ 2 = ‖b‖ 2 σ 2Si consideramos la descomposición de cualquier estimador insesgado de ψ que hemosutilizado en el teorema anterior y dado que‖b‖ 2 = ‖˜b‖ 2 + ‖c‖ 2resultaObservaciones:var(a ′̂β) = var(˜b′ Y) = ‖˜b‖ 2 σ 2 ≤ (‖˜b‖ 2 + ‖c‖ 2 )σ 2 = var(b ′ Y)1) Estos resultados son válidos incluso para un modelo lineal sin la hipótesis de normalidad.2) La estimación con varianza mínima eŝψ = a ′ (X ′ X) − X ′ Y3) Como la varianza de b ′ Y es b ′ bσ 2 , resulta que la varianza mínima esvar( ̂ψ) = var(a ′̂β) = σ 2 a ′ (X ′ X) − a4) Utilizando la matriz de diseño reducida tenemoŝψ = a ′ (X ′ RDX R ) − X ′ RDȲvar( ̂ψ) = σ 2 a ′ (X ′ RDX R ) − aDe aquí deducimos que ̂ψ es combinación lineal de las medias de las k condicionesexperimentaleŝψ = c 1 Ȳ 1 + · · · + c k Ȳ k = c ′ Ȳdonde c = (c 1 , . . . , c k ) ′ esEntoncesvar( ̂ψ) =c = DX R (X ′ RDX R ) − a( k∑i=1c 2 i /n i)σ 2 = δ 2 σ 2Por otra parte, todo estimador lineal insesgado ̂ψ = b ′ Y de ψ = a ′ β se descompone comohemos visto enb ′ Y = ˜b ′ Y + c ′ YDiremos que ˜b ′ Y (donde ˜b es único) pertenece al espacio estimación y que c ′ Y perteneceal espacio error.44


Más explícitamente, la descomposición de b ′ esb ′ = b ′ P + b ′ (I − P)siendo P = X(X ′ X) − X ′ la matriz del operador que proyecta b en Ω = 〈X〉 (ver ApéndiceB). El vector proyectado es ˜b ′ = b ′ P. Asimismo, I − P es otro operador que proyecta ben el espacio ortogonal a Ω. La proyección es c ′ = b ′ (I − P). Como ˜b ′ c = 0, se verificacov(˜b ′ Y, c ′ Y) = 0Así pues, todo estimador lineal insesgado b ′ Y se descompone enb ′ Y = b ′ PY + b ′ (I − P)Ydonde b ′ PY es el estimador de Gauss-Markov, mientras que b ′ (I − P)Y tiene esperanzacero y provoca un aumento de la varianza mínima del mejor estimador ̂ψ = b ′ PY.Finalmente, observemos quêψ = b ′ PY = b ′ X(X ′ X) − X ′ Y = b ′ X(X ′ X) − X ′ X̂β == b ′ XĤβ = a ′̂β(3.2)Siendo H = (X ′ X) − X ′ X, que verifica XH = X, y siendo a ′ = b ′ X.El aspecto geométrico de las estimaciones se puede resumir en el hecho que el espaciomuestral R n al que pertenece el vector de observaciones Y, se descompone enR n = Ω + Ω ⊥donde Ω representa el espacio estimación. Toda estimación de los parámetros de regresiónestá ligada a Ω. Toda estimación de la varianza del modelo está ligada al espacio errorΩ ⊥ . Ambos espacios son ortogonales y bajo el modelo lineal normal, como veremos másadelante, ambas clases de estimaciones son estocásticamente independientes.Ejemplo 3.2.1Sea y 1 , . . . , y n una muestra aleatoria simple procedente de una población N(µ, σ). El modelolineal asociado es ⎛ ⎞ ⎛ ⎞y 1⎜ ⎟ ⎜ ⎟⎝ . ⎠ = ⎝1. ⎠ µ + ɛy n 1El estimador MC de µ es ̂µ = (1/n) ∑ y i que también es de Gauss-Markov (centrado yde varianza mínima).En este caso R n = Ω + Ω ⊥ , siendoΩ = 〈(1, . . . , 1) ′ 〉Ω ⊥ = {(x 1 , . . . , x n ) ′ | ∑ x i = 0}Sea a ′ Y = ∑ a i y i otro estimador centrado de µ. Entonces E(a ′ Y) = µ implica ∑ a i = 1.Luego se verifica a = ã + b, es decir,⎛ ⎞ ⎛ ⎞ ⎛ ⎞a 1 1/n a 1 − 1/n⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎝ . ⎠ = ⎝ . ⎠ + ⎝ . ⎠a n 1/n a n − 1/n45


con ã ∈ Ω, b ∈ Ω ⊥ . Es fácil ver que ã ′ b = 0. Además∑ai y i = (1/n) ∑ y i + ∑ (a i − 1/n)y iEl primer término es estimador centrado y de varianza mínima σ 2 /n. El segundo términoverificaE( ∑ (a i − 1/n)y i ) = 0cov(1/n ∑ y i , ∑ (a i − 1/n)y i ) = 0La matriz del operador que proyecta a en Ω es⎛ ⎞⎛⎞1/n . . . 1/n⎜ ⎟⎜⎟P = 1/n ⎝1. ⎠ (1, . . . , 1) = ⎝ .... . ⎠11/n . . . 1/nsiendo fácil ver queEjemplo 3.2.2a ′ P = (1/n, . . . , 1/n)Ver especialmente el final del ejemplo 5.3.2.a ′ (I − P) = (a 1 − 1/n, . . . , a n − 1/n)3.3. Varianza de la estimación y multicolinealidadSabemos que a ′ β se dice estimable si tiene un estimador lineal insesgado b ′ Y o, equivalentemente,cuando a = X ′ b. Es decir, cuando a es combinación lineal de las filas de lamatriz X.Teorema 3.3.1La función paramétrica a ′ β es estimable si y sólo sia ∈ 〈X ′ 〉 = 〈X ′ X〉Demostración:Como sabemos, la función paramétrica a ′ β es estimable si y sólo si a es combinaciónlineal de las filas de X, es decir, cuando a ∈ 〈X ′ 〉. De modo que sólo queda probar que〈X ′ 〉 = 〈X ′ X〉Pero X ′ Xc = X ′ d para d = Xc, de forma que 〈X ′ X〉 ⊂ 〈X ′ 〉. Además, las dimensiones deambos subespacios son iguales ya que rg X ′ = rg X ′ X, de donde se deduce la igualdad.Los detalles pueden verse en Seber [65, pág. 385].En el apartado anterior hemos demostrado que para una función paramétrica estimablea ′ β, su estimador MC a ′̂β es el de mínima varianza. Pero, ¿cuanto vale esta varianza?46


Supongamos que X ′ X tiene como valores propios λ 1 , . . . , λ r todos positivos no nulosasociados a los correspondientes vectores propios ortonormales v 1 , . . . , v r , es decirX ′ Xv i = λ i v ii = 1, . . . , ry tales que v iv ′ j = δ ij .Si a ′ β es estimable, entonces a ∈ 〈X ′ X〉 y este subespacio está generado por los vectorespropios. Así pues, a se puede expresar en la formar∑a = c i v iEntoncesi=1var(a ′̂β) = var( ∑ic i v ′ îβ)= ∑ ic 2 i var(v ′ îβ)= σ 2 ∑ ic 2 i λ −1iya quecov(v îβ, ′ v j ′ ̂β) = λ −1i λ −1j cov(v iX ′ ′ X̂β, v jX ′ ′ X̂β)= (λ i λ j ) −1 cov(v iX ′ ′ Y, v jX ′ ′ Y)= (λ i λ j ) −1 σ 2 v ′ iX ′ Xv j= (λ i λ j ) −1 σ 2 λ j v iv ′ j= σ 2 λ −1i δ ijSilvey[67] concluyó que es posible una estimación relativamente precisa en las direccionesde los vectores propios de X ′ X correspondientes a los mayores valores propios, mientrasque se obtienen unas estimaciones relativamente imprecisas (poco eficientes) en lasdirecciones correspondientes a los valores propios más pequeños.Supongamos que X tiene rango máximo pero que sus columnas están cerca de ser linealmentedependientes. Entonces X ′ X está cerca de ser singular (no inversible), en elsentido que uno o varios de sus valores propios no nulos son excesivamente pequeños, casidespreciables, y por lo que hemos visto las estimaciones en algunas direcciones serán muyimprecisas.La presencia de relaciones quasi lineales entre las variables regresoras se conoce en Econometríacon el nombre de multicolinealidad, cuya forma más extrema se presenta cuandola matriz de datos X no tiene rango máximo. Este grave problema debe ser detectadopreviamente a la estimación y se puede corregir de varias formas (ver sección 8.5).Una solución teórica consiste en minimizar o incluso erradicar la multicolinealidad, mediantela incorporación de nuevas observaciones en las direcciones de los vectores propioscon valores propios demasiado pequeños (o cero).Supongamos que una nueva observación se añade al modelo Y = Xβ + ɛ y resulta( YY n+1)=( Xx ′ n+1= X ∗ β + ɛ ∗47)β +( ɛɛ n+1)


donde x n+1 = cv, donde v es un vector propio normalizado de X ′ X correspondiente a unvalor propio λ. Entonces se puede probar que v es también un vector propio de X ′ ∗X ∗correspondiente al valor propio λ + c 2 . Y de esta forma Sylvey propuso un análisis parala elección de las direcciones en las que es conveniente elegir nuevas observaciones paramejorar la precisión de las estimaciones de un a ′ β particular.3.4. Sistemas de funciones paramétricas estimablesConsideremos un sistema de funciones paramétricas estimablesψ 1 = a ′ 1β, . . . , ψ q = a ′ qβsobre el mismo modelo lineal normal y donde los vectores a 1 , . . . , a q (q ≤ r = rango X)son linealmente independientes. Para cada una, tenemos las correspondientes estimacionesde Gauss-Markov̂ψ i = a ′ îβ i = 1, . . . , qque podemos condensar matricialmente en la formâψ = ( ̂ψ 1 , . . . , ̂ψ q ) ′ = ÂβdondeA =⎛⎜⎝a ′ 1.⎞⎟⎠Con esta matriz, ̂ψ es el conjunto de estimadores MC del sistema de funciones paramétricasψ = Aβ.Teorema 3.4.1Bajo el modelo lineal normal, el conjunto de estimadores ̂ψ = Âβ del sistema de funcionesparamétricas ψ = Aβ verifica:i) ̂ψ sigue la distribución normal multivariantedonde ψ = Aβ es el vector de medias yes la matriz de varianzas-covarianzas.a ′ q̂ψ ∼ N q (ψ, Σ ψ )Σ ψ = σ 2 A(X ′ X) − A ′ii) La estimación MC de toda función paramétrica estimable es estocásticamente independientede la suma de cuadrados residualSCR = (Y − X̂β) ′ (Y − X̂β)En particular, ̂ψ = Âβ es estocásticamente independiente de SCR.Demostración:48


i) Es consecuencia de que ̂ψ es una combinación lineal de variables normales independientes:̂ψ i = a ′ i(X ′ X) − X ′ Yluego siA(X ′ X) − X ′ = Csabemos que E(̂ψ) = ψ y la matriz de covarianzas de CY es Σ = σ 2 CC ′ , demanera queΣ ψ = σ 2 CC ′ = σ 2 A(X ′ X) − X ′ X(X ′ X) − A ′ = σ 2 A(X ′ X) − A ′ii) Como en el teorema 2.5.1, consideremos la transformación ortogonalZ = V ′ Ydonde las primeras r columnas de la matriz ortogonal V generan el subespacioΩ = 〈X〉. Entonces las variables z 1 , . . . , z n son normales e independientes, y todaestimación de Gauss-Markov es una combinación lineal dez 1 , . . . , z rpuesto que pertenece al espacio estimación. Sin embargo, la suma de cuadradosresidual esSCR = z 2 r+1 + · · · + z 2 ny, por tanto, será estocásticamente independiente de cualquier estimación ̂ψ i = a ′ îβ.Esto mismo se puede deducir de la expresión 3.2 ya que ̂ψ = BPY, mientras queSCR = Y ′ (I − P)Y = ((I − P)Y) ′ (I − P)Ydonde (I − P)Y pertenece al espacio ortogonal de Ω.Teorema 3.4.2La distribución de U = (Âβ − Aβ) ′ (σ 2 A(X ′ X) − A ′ ) −1 (Âβ − Aβ) es una χ 2 q.Además, U es estocásticamente independiente de SCR/σ 2 cuya distribución es χ 2 n−r.Demostración:Es consecuencia de las propiedades de la distribución normal multivariante y de los teoremas2.5.1 y 3.4.1.Dos resultados importantes que se deducen de los teoremas anteriores son:a) Para el modelo lineal normal y el sistema de q funciones paramétricas estimablesψ = Aβ se verifica que la distribución deF = (Âβ − Aβ) ′ (A(X ′ X) − A ′ ) −1 (Âβ − Aβ)/qSCR/(n − r)(3.3)es una F con q y n − r grados de libertad, ya que se trata de un cociente de dosχ 2 independientes divididas por sus grados de libertad respectivos. Observemos ladesaparición del parámetro σ 2 desconocido.49


) En el caso q = 1, si ̂ψ es la estimación de Gauss-Markov de ψ, entonces ̂ψ ∼N(ψ, σ ̂ψ), siendoσ 2̂ψ = a ′ (X ′ X) − a σ 2 = δ 2 σ 2luego la distribución det =̂ψ − ψ√δ2 SCR√n − r (3.4)es la de una t de Student con n − r grados de libertad. Este resultado se puedeestablecer directamente o a partir de 3.3 ya que F 1,n−r = t 2 n−r.3.5. Intervalos de confianzaConsideremos una función paramétrica estimable ψ = a ′ β, su estimación MC ̂ψ = a ′̂β ysea t α tal queP (−t α < t < t α ) = 1 − αpara una distribución t de Student con n − r grados de libertad. Entonces, de la distribución3.4 deducimos que(P −t α b) = α/2Deducimos entonces que( SCRPb< σ 2 < SCR )= 1 − α (3.6)adefine un intervalo de confianza para la varianza σ 2 del modelo lineal normal, con coeficientede confianza 1 − α.50


3.6. EjerciciosEjercicio 3.1Sea ψ una función paramétrica estimable y ̂ψ 1 , ̂ψ 2 dos estimadores insesgados, estocásticamenteindependientes, de varianzas σ 2 1 y σ 2 2. Hallar la combinación lineal de ̂ψ 1 , ̂ψ 2 cuyavarianza es mínima y además es insesgado.Ejercicio 3.2En un modelo lineal, la matriz de diseño es⎛⎜⎝1 1 1 1 11 0 1 0 01 1 1 0 01 0 1 1 1Hallar la expresión general de las funciones paramétricas estimables.Ejercicio 3.3Probar quêψ = b ′ Y⎞⎟⎠E( ̂ψ) = ψ = a ′ βsiendo b combinación lineal de las columnas de X, implica que a es combinación linealde las filas de X.Ejercicio 3.4Probar que toda combinación lineal de funciones paramétricas estimables es también funciónparamétrica estimable y que r = rg X es el número máximo de funciones linealmenteindependientes.Ejercicio 3.5Si ̂ψ es la estimación de Gauss-Markov, probar que la expresión̂ψ = c 1 ȳ 1 + · · · + c k ȳ kfunción de las medias de las condiciones experimentales, es única.Ejercicio 3.6La matriz de diseño reducida correspondiente a un modelo lineal normal es⎛1 0⎞1X = ⎝ 1 1 0 ⎠0 −1 1Se sabe además queSe pideȳ 1 = 11 ȳ 2 = 10 ȳ 3 = 15n 1 = n 2 = n 3 = 10∑n 1s 2 1 = (1/n 1 ) (y i − ȳ 1 ) 2 = 4,5i=1s 2 2 = 6,0 s 2 3 = 4,351


1) Hallar la expresión general de las estimaciones MC de β.2) Calcular SCR. ¿Se ajustan los datos al modelo definido por X? (nivel de significación0,05)3) Dada la función paramétrica estimableψ = β 1 + β 3contrastar la hipótesis H 0 : ψ = 3 en los casos:a) σ 2 varianza del diseño desconocidab) σ 2 = 5 varianza del diseño conocida(nivel de significación 0,05)4) Hallar la función paramétrica estimable ψ tal quêψ = c 1 ȳ 1 + c 2 ȳ 2 + c 3 ȳ 3verifica c 2 1 + c 2 2 + c 2 3 = 1 y además ̂ψ es máximo.Ejercicio 3.7Consideremos el modelo linealy 1 = β 1 + β 2 + ɛ 1y 2 = β 1 + β 3 + ɛ 2y 3 = β 1 + β 2 + ɛ 3Se pide:1) ¿Es la función paramétricaestimable?ψ = β 1 + β 2 + β 32) Probar que toda función paramétricaψ = a 1 β 1 + a 2 β 2 + a 3 β 3es estimable si y sólo si a 1 = a 2 + a 3 .Ejercicio 3.8Consideremos el modelo linealy 1 = µ + α 1 + β 1 + ɛ 1y 2 = µ + α 1 + β 2 + ɛ 2y 3 = µ + α 2 + β 1 + ɛ 3y 4 = µ + α 2 + β 2 + ɛ 4y 5 = µ + α 3 + β 1 + ɛ 5y 6 = µ + α 3 + β 2 + ɛ 652


(a) ¿Cuando es λ 0 µ + λ 1 α 1 + λ 2 α 2 + λ 3 α 3 + λ 4 β 1 + λ 5 β 2 estimable?(b) ¿Es α 1 + α 2 estimable?(c) ¿Es β 1 − β 2 estimable?(d) ¿Es µ + α 1 estimable?(e) ¿Es 6µ + 2α 1 + 2α 2 + 2α 3 + 3β 1 + 3β 2 estimable?(f) ¿Es α 1 − 2α 2 + α 3 estimable?(g) Hallar la covarianza entre los estimadores lineales MC de las funciones paramétricasβ 1 − β 2 y α 1 − α 2 , si éstas son estimables.(h) Hallar la dimensión del espacio paramétrico.(i) Obtener una expresión del espacio de los errores.Ejercicio 3.9Cuatro objetos A, B, C, D están involucrados en un experimento de pesado. Todos reunidospesan y 1 gramos. Cuando A y C se ponen en el plato izquierdo de la balanza y By D se ponen en el plato derecho, un peso de y 2 gramos es necesario en el plato derechopara equilibrar la balanza. Con A y B en el plato izquierdo y C, D en el plato derecho,y 3 gramos son necesarios en el plato derecho y, finalmente, con A, D en el plato izquierdoy B, C en el plato derecho, y 4 gramos son necesarios en la derecha para equilibrar. Si lasobservaciones y 1 , y 2 , y 3 , y 4 son todas con errores incorrelacionados y con varianza comúnσ 2 , obtener la estimación BLUE del peso total de los cuatro objetos y su varianza.Ejercicio 3.10Con el modelo linealcontestar las siguientes preguntas:y 1 = θ 1 + θ 5 + ɛ 1y 2 = θ 2 + θ 5 + ɛ 2y 3 = θ 3 + θ 6 + ɛ 3y 4 = θ 4 + θ 6 + ɛ 4y 5 = θ 1 + θ 7 + ɛ 5y 6 = θ 3 + θ 7 + ɛ 6y 7 = θ 2 + θ 8 + ɛ 7y 8 = θ 4 + θ 8 + ɛ 8(a) ¿Cuantas funciones paramétricas son estimables? Obtener el conjunto completo detodas ellas.(b) Probar que θ 1 − θ 2 es estimable. Calcular su estimador lineal MC y su varianza.(c) Probar que θ 1 + θ 2 no es estimable.(d) Hallar cuatro estimadores insesgados diferentes de θ 1 − θ 2 y calcular sus varianzas.Compararlas con la varianza del estimador MC.53


(e) Hallar un estimador insesgado de la varianza de los errores σ 2 .Ejercicio 3.11Diremos que el estimador lineal b ′ Y pertenece al espacio error si E(b ′ Y) = 0. Probarque la covarianza entre b ′ Y y todo estimador de Gauss-Markov ̂ψ = a ′ β es siempre cero.Ejercicio 3.12Consideremos el modelo lineal normal Y = Xβ + ɛ, siendo rg X = r. Sea X = U∆V ′una descomposición en valores singulares de X. Se pide:1) Expresar la estimación MC de β en términos de U, ∆, V y Y.2) Sea ψ = a ′ β una función paramétrica. Probar que ψ es estimable si y sólo si severificaa ′ = b ′ V ′para algún vector b.54


Capítulo 4Complementos de estimaciónEn este capítulo se presentan algunas extensiones del método de los mínimos cuadrados.Estos complementos no son estrictamente necesarios para continuar con el desarrollo dela teoría de los modelos lineales y, en particular, para el contraste de hipótesis que seexplica en el capítulo 5. En una primera lectura de este libro se puede pasar directamentea ese capítulo.4.1. Ampliar un modelo con más variables regresoras4.1.1. Una variable extraSupongamos que después de ajustar el modelo linealE(Y) = Xβvar(Y) = σ 2 Idecidimos introducir una nueva variable regresora con las mismas observaciones que yateníamos.Sean x (i) , i = 1, . . . , m las columnas de la matriz X n × m de rango m de modo queE(Y) = Xβ = (x (1) , . . . , x (m) )β = x (1) β 1 + · · · + x (m) β mLa inclusión de la nueva variable regresora x (m+1) proporciona un modelo ampliadoG : E(Y) = x (1) β 1 + · · · + x (m) β m + x (m+1) β m+1 = Xβ + x (m+1) β m+1 = Gγdonde la matriz G = (x (1) , . . . , x (m) , x (m+1) ) es n × (m + 1) de rango m + 1.Para hallar la estimación de los m+1 parámetros γ = (β 1 , . . . , β m , β m+1 ) ′ podemos hacerlodirectamente comôγ G = (G ′ G) −1 G ′ Yvar(̂γ G ) = σ 2 (G ′ G) −1o a partir del modelo original que ya hemos resuelto. Vamos a ver el desarrollo de estasegunda opción que proporciona unos cálculos más simples.Partimos de las ecuaciones normales del modelo ampliado G ′ Ĝγ G = G ′ Y que podemosdescomponer asíX ′ X̂β G + X ′ x (m+1) ̂βm+1 = X ′ Yx ′ (m+1)X̂β G + x ′ (m+1)x (m+1) ̂βm+1 = x ′ (m+1)Y55


De la primera ecuación tenemoŝβ G = (X ′ X) −1 X ′ (Y − x (m+1) ̂βm+1 ) = ̂β − f ̂β m+1 (4.1)donde f = (X ′ X) −1 X ′ x (m+1) , y sustituyendo en la segundaes decirde manera quex ′ (m+1)x (m+1) ̂βm+1 = x ′ (m+1)Y − x ′ (m+1)X(X ′ X) −1 X ′ (Y − x (m+1) ̂βm+1 )x ′ (m+1)(I − X(X ′ X) −1 X ′ )x (m+1) ̂βm+1 = x ′ (m+1)(I − X(X ′ X) −1 X ′ )Ŷβ m+1 = [x ′ (m+1)(I − P)x (m+1) ] −1 x ′ (m+1)(I − P)Y = gx ′ (m+1)(I − P)Y (4.2)donde g = [x ′ (m+1) (I − P)x (m+1)] −1 es un escalar.Observemos que ahora este resultado se puede sustituir en la ecuación 4.1 de modo quêβ G queda determinado.Por otra parteY − X̂β G − x (m+1) ̂βm+1 = Y − X(X ′ X) −1 X ′ (Y − x (m+1) ̂βm+1 ) − x (m+1) ̂βm+1= (I − X(X ′ X) −1 X ′ )(Y − x (m+1) ̂βm+1 )= (I − P)(Y − x (m+1) ̂βm+1 )de manera que la suma de cuadrados de los residuos para el modelo ampliado esSCR G = (Y − Ĝγ G ) ′ (Y − Ĝγ G )= (Y − X̂β G − x (m+1) ̂βm+1 ) ′ (Y − X̂β G − x (m+1) ̂βm+1 )= (Y − x (m+1) ̂βm+1 ) ′ (I − P)(Y − x (m+1) ̂βm+1 )ya que I − P es simétrica e idempotente.Si desarrollamos esta expresión se obtieneSCR G = Y ′ (I − P)Y − Y ′ (I − P)x (m+1) ̂βm+1− x ′ (m+1)(I − P)Y ̂β m+1 + x ′ (m+1)(I − P)x (m+1) ̂β2 m+1= Y ′ (I − P)Y − x ′ (m+1)(I − P)Y ̂β m+1− [x ′ (m+1)(I − P)Y − x ′ (m+1)(I − P)x (m+1) ̂βm+1 ]̂β m+1y por 4.2 resultaSCR G = SCR − x ′ (m+1)(I − P)Y ̂β m+1 (4.3)En cuanto a las varianzas y covarianzas de los estimadores se tiene lo siguiente: A partirde la ecuación 4.2 tenemosAdemásvar(̂β m+1 ) = σ 2 (x ′ (m+1)(I − P)x (m+1) ) −1 = σ 2 gcov(̂β, ̂β m+1 ) = cov[(X ′ X) −1 X ′ Y, gx ′ (m+1)(I − P)Y]= σ 2 g(X ′ X) −1 X ′ (I − P)x (m+1) = 056


ya que X ′ (I − P) = 0. Esto permite calcular la covarianza entre ̂β G y ̂β m+1FinalmenteEn resumencov(̂β G , ̂β m+1 ) = cov[̂β − f ̂β m+1 , ̂β m+1 ]= cov(̂β, ̂β m+1 ) − fvar(̂β m+1 )= 0 − fσ 2 gvar(̂β G ) = var(̂β − f ̂β m+1 )= var(̂β) − 2cov(̂β, f ̂β m+1 ) + var(f ̂β m+1 )= var(̂β) − 2cov(̂β, ̂β m+1 )f ′ + fvar(̂β m+1 )f ′= σ 2 [(X ′ X) −1 + gff ′ ]( (Xvar(̂γ G ) = σ 2 ′ X) −1 + gff ′−gf ′)−gfg(4.4)donde g = [x ′ (m+1) (I − P)x (m+1)] −1 y f = (X ′ X) −1 X ′ x (m+1) .En consecuencia, las fórmulas 4.1, 4.2, 4.3 y 4.4 demuestran que es posible calcular todoslos elementos del modelo ampliado a partir del modelo original, mediante productos dematrices en los que interviene únicamente la matriz (X ′ X) −1 original.4.1.2. Una interpretaciónPartimos del modeloY = Xβ + ɛ E(ɛ) = 0, var(ɛ) = σ 2 I (4.5)donde X = (x (1) , . . . , x (m) ) y β = (β 1 , . . . , β m ) ′ , y queremos ampliar el modelo con unanueva variable regresora para llegar al modeloG : Y = Xβ + x (m+1) β m+1 + ɛ G = Gγ + ɛ G (4.6)donde G = (x (1) , . . . , x (m) , x (m+1) ) y γ = (β 1 , . . . , β m , β m+1 ) ′ .Consideremos ̂β la estimación MC en el modelo original, de forma queY = X̂β + e (4.7)donde e es el vector de residuos o parte de Y no explicada linealmente por X.Sea ĉ la estimación MC en el modelo lineal x (m+1) = Xc + ɛ m+1 , de forma quex (m+1) = Xĉ + e m+1 (4.8)donde el vector de residuos e m+1 representa la parte de x (m+1) no explicada linealmentepor las variables anteriores.Consideremos ahora la regresión lineal simple de ɛ (parte de Y no explicada por X) conɛ m+1 (parte de x (m+1) independiente de X)e = e m+1 ̂d + e∗(4.9)57


Teorema 4.1.1 Si consideramos las estimaciones MC que se han calculado en las ecuaciones4.7, 4.8 y 4.9, resulta que la estimación MC de β m+1 en el modelo ampliado 4.6 eŝβ m+1 = ̂d.Demostración:Si sustituimos 4.9 en la ecuación 4.7, se obtieneY = X̂β + e m+1 ̂d + e ∗ = X̂β + (x (m+1) − Xĉ) ̂d + e ∗La solución MC del modelo ampliado esY = X̂β G + x (m+1) ̂βm+1 + e Gdonde ̂β G = ̂β − (X ′ X) −1 X ′ x (m+1) ̂βm+1 como hemos visto en 4.1. De forma queY = X̂β + (x (m+1) − X(X ′ X) −1 X ′ x (m+1) )̂β m+1 + e GPero por 4.8 sabemos que ĉ = (X ′ X) −1 X ′ x (m+1) , de manera queY = X̂β + (x (m+1) − Xĉ)̂β m+1 + e Gy entonces ̂β m+1 = ̂d y e G = e ∗ .En el gráfico se dibuja la consecuencia de añadir a un modelo con una variable regresorax 1 una nueva variable x 2 .CYe GeODBx 1〈G〉x 2EŶAEn este gráfico tenemos los siguientes datos:ED = e m+1 OD = x 1 ĉ AB = e m+1 ̂d OB = x1 ̂βde forma queED||AB BC ⊥ OB ED ⊥ OD AB ⊥ OB AC ⊥ OAy en especialŶ = −→ −→ OB + ABComo conclusión podemos decir que cualquier coeficiente estimado ̂β i puede interpretarsecomo la pendiente de la recta que relaciona los residuos de la regresión de Y respecto atodas las otras variables, es decir, la parte de Y no explicada por el resto de las variablesregresoras, con la aportación diferencial de x i o parte de x i no común con las demás58


variables regresoras que se obtiene tomando el residuo de la regresión de x i sobre lasrestantes x.Observemos que cuando x (m+1) es independiente de X el paso 4.8 no es posible. En estasituaciónY = X̂β + ee = x (m+1) ̂βm+1 + e Gde modo que la solución del modelo ampliado esY = X̂β + x (m+1) ̂βm+1 + e Gx 1Ye Gex 1 ̂βx 2x 2 ̂β2ŶEsto significa que si excluimos del modelo variables regresoras independientes, esto noafecta a la estimación de los parámetros β i , pero si excluimos variables relevantes estoafecta considerablemente a las estimaciones.4.1.3. Más variablesSupongamos que después de ajustar el modelo linealE(Y) = Xβvar(Y) = σ 2 Idecidimos introducir un grupo de variables regresoras. El modelo es ahoraG : E(Y) = Xβ + Zδ = ( X Z ) ( )β= Wγδy vamos a suponer que las matrices son de rango máximo, de forma que X es n × m derango m, Z es n × t de rango t, y las columnas de Z son linealmente independientes delas columnas de X, de forma que W es n × (m + t) de rango m + t.Si queremos hallar el estimador mínimo cuadrático ̂γ G de γ, podemos hacerlo a partirdel modelo completo Ĝγ G = (W ′ W) −1 W ′ Yvar(̂γ G ) = σ 2 (W ′ W) −1o reducir los cálculos utilizando los resultados del modelo inicial. El siguiente teoremaresume las principales propiedades de esta segunda propuesta.Teorema 4.1.259


Consideremos las matrices P = X(X ′ X) −1 X ′ , P G = W(W ′ W) −1 W ′ , L = (X ′ X) −1 X ′ Z,M = (Z ′ (I − P)Z) −1 y el vector ( )̂βĜγ G =̂δ GEntonces,(i) ̂β G = (X ′ X) −1 X ′ (Y − Ẑδ G ) = ̂β − L̂δ G(ii) ̂δ G = (Z ′ (I − P)Z) −1 Z ′ (I − P)Y(iii) SCR G = Y ′ (I − P G )Y = (Y − Ẑδ G ) ′ (I − P)(Y − Ẑδ G )(iv) SCR G = SCR − ̂δ ′ GZ ′ (I − P)Y(v)( (Xvar(̂γ G ) = σ 2 ′ X) −1 + LML ′−ML ′−LMM)Demostración:Se puede reseguir sin mayor dificultad todos los cálculos que hemos realizado en el apartadoanterior. El único detalle importante es que debe demostrarse que la matriz Z ′ (I−P)Zes inversible. Este resultado y los detalles de la demostración pueden verse en Seber [65,pág. 65].A partir de estas fórmulas se deduce que, una vez invertida la matriz X ′ X, podemos hallar̂γ G y su matriz de varianzas-covarianzas var(̂γ G ) simplemente invirtiendo Z ′ (I−P)Z t×ty no se necesita calcular la inversa de la matriz W ′ W (m + t) × (m + t).Estos resultados se pueden utilizar de diversas formas en modelos de Análisis de la Varianzay de Análisis de la Covarianza. Para introducir un grupo de variables en un modelode regresión es mejor hacerlo de una en una, lo que se llama regresión paso a paso.4.2. Mínimos cuadrados generalizadosHasta este momento se ha presentado la teoría de los modelos lineales Y = Xβ + ɛ conla asunción de las hipótesis E(ɛ) = 0 y var(ɛ) = σ 2 I. Vamos ahora a estudiar lo queocurre cuando permitimos a los ɛ i ser correlacionados. En particular, vamos a considerarel modelo lineal más generalY = Xβ + ɛ E(ɛ) = 0, var(ɛ) = σ 2 V (4.10)donde V es una matriz n × n definida positiva con valores plenamente conocidos.Dado que V es definida positiva, existe una matriz n × n K no singular tal que V = KK ′y con la que podemos transformar el modelo anteriorK −1 Y = K −1 Xβ + K −1 ɛZ = Bβ + η(4.11)donde B es n × r, rgB = rgX y ademásE(η) = K −1 E(ɛ) = 0var(η) = σ 2 K −1 V(K −1 ) ′ = σ 2 I60


de forma que el modelo 4.11 verifica las condiciones del modelo lineal ordinario. Así esposible calcular el estimador MC de β que minimiza η ′ η.Definición 4.2.1Un estimador β ∗ es un estimador MCG de β para el modelo 4.10 si y sólo si β ∗ es unestimador MC ordinario para el modelo 4.11. En el caso particular de que la matriz Vsea diagonal se llama MC ponderado.En consecuencia, un estimador MCG β ∗ de β satisface la ecuaciónB(B ′ B) − B ′ Z = Bβ ∗K −1 X((K −1 X) ′ K −1 X) − (K −1 X) ′ K −1 Y = K −1 Xβ ∗X(X ′ V −1 X) − X ′ V −1 Y = Xβ ∗Como un estimador MCG es simplemente un estimador MC ordinario del modelo transformado,es de esperar que tenga las mismas propiedades óptimas.Propiedades(a) Si X es de rango máximo, la estimación MC se puede obtener de las ecuacionesnormalesβ ∗ = (B ′ B) −1 B ′ Z = (X ′ V −1 X) −1 X ′ V −1 Ycon las siguientes propiedadesE(β ∗ ) = (X ′ V −1 X) −1 X ′ V −1 (Xβ) = βvar(β ∗ ) = σ 2 (B ′ B) −1 = σ 2 (X ′ V −1 X) −1SCR = (Z − Bβ ∗ ) ′ (Z − Bβ ∗ ) = (Y − Xβ ∗ ) ′ V −1 (Y − Xβ ∗ )(b) Una función paramétrica a ′ β es estimable en el modelo 4.10 si y sólo si es estimableen el modelo 4.11.En efecto, si a ′ β es estimable en el modelo 4.10 podemos escribira ′ = b ′ X = (b ′ K)K −1 X = c ′ Bluego también es estimable en el modelo 4.11.Si a ′ β es estimable en el modelo 4.11, entoncesluego es estimable en el modelo 4.10.a ′ = c ′ B = c ′ K −1 X = (c ′ K −1 )X = b ′ X(c) Para una f.p.e. a ′ β, el estimador MCG es el mejor estimador lineal, en el sentidode insesgado y de varianza mínima, y además es único.Aplicando el teorema 3.2.1 de Gauss-Markov al modelo 4.11, sabemos que a ′ β ∗ esel estimador lineal insesgado y de mínima varianza entre todas las combinacioneslineales del vector K −1 Y. Sin embargo, cualquier combinación lineal de Y se puedeobtener de K −1 Y porque K −1 es inversible. Luego el estimador MCG es el mejor.También por una propiedad anterior sabemos que es único.61


Para un modelo de rango no máximo y en el caso ordinario hemos visto que un estimadordebe verificar la ecuación PY = X̂β, donde P es el operador proyección ortogonal sobreel subespacio 〈X〉. Veamos una propiedad similar en el caso generalizado.Teorema 4.2.1Un estimador MCG β ∗ en el modelo 4.10 verifica la ecuación AY = Xβ ∗ donde A =X(X ′ V −1 X) − X ′ V −1 es una matriz idempotente pero no, en general, simétrica.Demostración:Se trata de probar que A es una especie de operador proyección sobre 〈X〉 aunque nonecesariamente ortogonal.Por la definición de estimador MCG ya hemos visto queX(X ′ V −1 X) − X ′ V −1 Y = AY = Xβ ∗Es fácil ver que AA = A de manera que A es idempotente y no necesariamente simétrica,veamos ahora que A es un operador proyección sobre 〈X〉, en el sentido de que 〈A〉 = 〈X〉de modo que AY ∈ 〈X〉.La proyección ortogonal sobre 〈K −1 X〉 esPor la definición de proyección se verificaK −1 X[(K −1 X) ′ (K −1 X)] − (K −1 X) ′K −1 X[(K −1 X) ′ (K −1 X)] − (K −1 X) ′ K −1 X = K −1 XK −1 AX = K −1 XAX = Xy en consecuencia 〈X〉 ⊂ 〈A〉. Pero también tenemos queA = X[(X ′ V −1 X) − X ′ V −1 ]y por tanto 〈A〉 ⊂ 〈X〉.Para una función paramétrica estimable a ′ β con a ′ = b ′ X, el estimador MCG es a ′ β ∗ =b ′ AY. Vamos a calcular su varianza.En primer lugarde forma que si a ′ β es estimablevar(Xβ ∗ ) = var(AY) = σ 2 AVA ′= σ 2 AV= σ 2 X(X ′ V −1 X) − X ′var(a ′ β ∗ ) = σ 2 a ′ (X ′ V −1 X) − aTambién es necesario obtener un estimador para σ 2 .A partir del modelo 4.11SCR = (K −1 Y) ′ [I − K −1 X((K −1 X) ′ (K −1 X)) − ]K −1 Y= Y ′ (I − A) ′ V −1 (I − A)Y62


y como rg(K −1 X) = rg(X), tenemoŝσ 2 = Y ′ (I − A) ′ V −1 (I − A)Y/(n − r)Además, cuando asumimos la hipótesis de normalidad ɛ ∼ N(0, σ 2 V) se verifican otraspropiedades también heredadas del caso ordinario. En especial, cualquier estimador MCGde β es de máxima verosimilitud. También, para cualquier función estimable a ′ β el estimadorMCG es insesgado de varianza mínima.En cuanto a las distribuciones asociadas, si ɛ tiene distribución normal, la SCR es independientede K −1 Xβ ∗ , ya que cov(Bβ ∗ , Z − Bβ ∗ ) = 0, y en consecuencia independientede Xβ ∗ .Es evidente que Xβ ∗ se distribuye normalmente y se demuestra que SCR/σ 2 ∼ χ 2 .Así pues, para una función paramétrica estimable a ′ βa ′ β ∗ − a ′ β[ ̂σ 2 a ′ (X ′ V −1 X)a] 1/2 ∼ t n−rlo que se puede utilizar para el cálculo de intervalos de confianza de a ′ β o en contrastesde hipótesis.Por último nos podemos preguntar si la estimación generalizada β ∗ puede coincidir conla ordinaria ̂β y en qué circunstancias. La respuesta es que ambas estimaciones coincidensi y sólo si 〈V −1 X〉 = 〈X〉 que es equivalente a 〈VX〉 = 〈X〉. La demostración puedeverse en [65, pág. 63].4.3. Otros métodos de estimación4.3.1. Estimación sesgadaDado el modelo lineal ordinario Y = Xβ + ɛ, donde E(ɛ) = 0 y var(ɛ) = σ 2 I, sabemosque el estimador MC a ′̂β es el estimador insesgado de varianza mínima para una f.p.e. a ′ βcuando ɛ tiene distribución normal, y el estimador lineal insesgado de varianza mínimasin la hipótesis de normalidad. Pero el hecho de ser un estimador de varianza mínimano garantiza que ésta sea realmente pequeña. Ya hemos visto en el apartado 3.3 cómo secalcula dicha varianza en función de los valores propios de la matriz X ′ X y una posiblesolución propuesta por Silvey. Veamos ahora otra propuesta cuando en un modelo derango máximo, X ′ X está cerca de la singularidad, es decir, cuando uno o más de susvalores propios son casi cero.Consideremos la llamada varianza total de los estimadores de los parámetros en un modelom∑var(̂β i ) = σ 2 tr[(X ′ X) −1 ] = σ 2i=1m∑i=1λ −1i> σ 2 λ −1mdonde λ m > 0 es el más pequeño de los valores propios de X ′ X. En la práctica, aunque lamatriz X sea de rango máximo, puede ocurrir que λ m sea muy pequeño y en consecuenciaprovocar que la varianza total sea muy grande.63


Para solucionar este problema Hoerl y Kennard (1970) introducen los ridge estimators˜β (k) = (X ′ X + kI) −1 X ′ Y= (X ′ X + kI) −1 X ′ X̂β= (I + k(X ′ X) −1 ) −1̂β= K̂βdonde k ≥ 0 es un escalar a elegir de forma que, si no es cero, ˜β (k) es un estimador sesgadode β.Las principales razones para la utilización de estos estimadores son:Los gráficos de los componentes de ˜β (k) y de sus correspondientes SCR al variar kpermiten estudiar la enfermedad de X.Es posible elegir un valor de k tal que los coeficientes de regresión tengan valoresrazonables y la SCR no sea muy grande.Se ha demostrado que es posible hallar un k que, por un pequeño incremento delsesgo, reduce la varianza total y, en consecuencia, el error cuadrático medio total.El estudio de generalizaciones de estos estimadores y sus propiedades ha tenido bastanteéxito.4.3.2. Estimación robustaEn el capítulo anterior se ha demostrado que, mientras se verifique la hipótesis de normalidadpara las observaciones, los estimadores obtenidos por el método de los mínimoscuadrados gozan de muy buenas propiedades. Sin embargo, también se han estudiadolos resultados cuando las observaciones siguen distribuciones distintas de la normal y seha constatado que el método de los mínimos cuadrados falla en muchos aspectos. Enespecial, cuando la distribución de los errores tiene una alta curtosis los estimadoresmínimo-cuadráticos son muy poco eficientes, comparados con estimadores robustos delocalización (ver Andrews et al.[4, cap. 7]). Puede probarse (ver Peña [54, pág. 465]) queen estas situaciones la estimación de máxima verosimilitud es equivalente a minimizaruna función ponderada de los errores, que proporcione menos pesos a los residuos másgrandes. Se trata de calcular estimadores que minimicen∑ωi (ɛ i )ɛ 2 idonde ω i (ɛ i ) es una función para reducir el efecto de los datos con un residuo muy alto. Losmétodos de estimación robusta que utilicen esta idea requieren la definición de la funciónde ponderación ω y un procedimiento iterativo para acercarnos a los valores ω i (ɛ i ), yaque los errores ɛ i son, en principio, desconocidos. Entre las propuestas más interesantesdestaca la función de ponderación de Huber (1981)⎧1⎪⎨ω i =2 ∣ ⎪⎩c ∣∣∣∣ − 1 ∣ c ∣∣∣2r i 2 ∣r i64si |r i | < csi |r i | ≥ c


donde los r i son los residuos estudentizados y c una constante entre 1,5 y 2 que establece elgrado de “protección”. Para calcular la estimación de los parámetros se toma inicialmentela mínimo cuadrática ordinaria, se calculan los residuos y con ellos las ponderaciones parala siguiente estimación, y así sucesivamente.Otra alternativa es minimizar ∑ i |ɛ i| con respecto a β. Este es un problema de minimizaciónde una norma L1 que se puede reducir a un problema de programación lineal y aun procedimiento similar al método del simplex, aunque la solución no siempre es única yalgunos de los algoritmos proporcionan estimadores sesgados. Otros procedimientos iterativospropuestos no tienen resuelta la cuestión de la convergencia y el sesgo (ver Seber[65, pág. 91]).4.3.3. Más posibilidadesTambién se ha estudiado el problema de la estimación mínimo cuadrática sujeta a lasrestricciones β i ≥ 0, i = 1, . . . , m.Por otra parte, en algunos problemas de regresión, los datos de la variable respuestapueden ser censurados, es decir, los valores de algunas observaciones sólo se conocen sison superiores (o inferiores) a algún valor dado. Esto se suele producir en problemasdonde la variable observada es el tiempo de vida. En estos casos el método clásico de losmínimos cuadrados no sirve y se han estudiado otros procedimientos (ver Seber [65, pág.90]).65


4.4. EjerciciosEjercicio 4.1Sea el modelo linealy 1 = θ 1 + θ 2 + ɛ 1y 2 = θ 1 − 2θ 2 + ɛ 2y 3 = 2θ 1 − θ 2 + ɛ 3Hallar las estimaciones MC de θ 1 y θ 2 . Utilizando el método mínimo-cuadrático en dospasos, hallar la estimación MC de θ 3 , cuando el modelo se amplía en la formaEjercicio 4.2y 1 = θ 1 + θ 2 + θ 3 + ɛ 1y 2 = θ 1 − 2θ 2 + θ 3 + ɛ 2y 3 = 2θ 1 − θ 2 + θ 3 + ɛ 3Un experimentador desea estimar la densidad d de un líquido mediante el pesado dealgunos volúmenes del líquido. Sean y i los pesos para los volúmenes x i , i = 1, . . . , n ysean E(y i ) = dx i y var(y i ) = σ 2 f(x i ). Hallar el estimador MC de d en los siguientes casos:(a) f(x i ) ≡ 1 (b) f(x i ) = x i (c) f(x i ) = x 2 i66


Capítulo 5Contraste de hipótesis lineales5.1. Hipótesis lineales contrastablesConsideremos el modelo lineal Y = Xβ + ɛ, donde E(Y) = Xβ y var(Y) = σ 2 I.Una hipótesis lineal consiste en una o varias restricciones lineales planteadas sobre losparámetros β. En un diseño de rango máximo rg X = m vamos a ver que cualquierhipótesis lineal es contrastable (testable o demostrable), es decir, es posible encontrar unestadístico (el test F del teorema 5.3.1) mediante el cual podemos decidir si se rechaza oacepta la hipótesis. Si rg X = r < m, entonces pueden existir hipótesis estadísticamenteno contrastables.Definición 5.1.1Una hipótesis lineal de rango q sobre los parámetros β es un conjunto de restriccioneslinealesa i1 β 1 + · · · + a im β m = 0 i = 1, . . . , qSi escribimos la matriz de la hipótesis como⎛⎞a 11 · · · a 1m⎜⎟A = ⎝ .... . ⎠a q1 · · · a qmentonces las restricciones se resumen enH 0 : Aβ = 0rg A = qUna hipótesis se dice que es contrastable o demostrable si el conjunto Aβ es un sistemade funciones paramétricas estimables. Entonces, las filas de A son combinación lineal delas filas de la matriz de diseño X, es decir, que existe una matriz B de tamaño q × n talqueA = BXTambién B puede ser q × k si consideramos la matriz de diseño reducida X R k × m.Cuando X no es de rango máximo, un conjunto de restricciones Aβ = 0 donde lasfilas de A son linealmente independientes de las filas de X no forman una alternativa almodelo general, en el sentido de un modelo más sencillo. En realidad son restricciones quepermiten identificar mejor las estimaciones indeterminadas que resultan de las ecuaciones67


normales. Por ello exigimos que las filas de A sean linealmente dependientes de las filas deX y que el rango de la matriz A q × m sea q. De hecho, cualquier ecuación a ′ iβ = 0 parala que a ′ i sea linealmente independiente de las filas de X puede ignorarse y la hipótesiscontrastable estará formada por el resto de las ecuaciones.Una caracterización para saber si una hipótesis lineal es contrastable esA(X ′ X) − X ′ X = AEste resultado es una generalización del que se ha demostrado en la página 42 para unafunción paramétrica estimable (ver ejercicio 5.3).5.2. El modelo lineal de la hipótesisEl modelo lineal inicial Y = Xβ + ɛ, que se supone válido, constituye la hipótesis alternativaH 1 : Y = Xβ + ɛ rg X = rPor otra parte, el modelo lineal junto con la restricción lineal contrastable forman lahipótesis nulaH 0 : Y = Xβ + ɛ Aβ = 0 rg A = qPero esta restricción lineal transforma los parámetros β y la matriz de diseño X en unnuevo modelo llamado el modelo lineal de la hipótesisH 0 : Y = ˜Xθ + ɛ rg ˜X = r − q > 0que es otra forma de plantear la hipótesis nula.Existen varios procedimientos para estimar β o θ bajo la hipótesis nula y calcular la sumade cuadrados residual.Método 1Si la hipótesis es contrastable, las filas de A son combinación lineal de las filas de X. Elsubespacio 〈A ′ 〉 generado por las filas de A está incluido en el subespacio 〈X ′ 〉 generadopor las filas de X. Existe entonces una base ortogonaltal quev 1 , . . . , v q , v q+1 , . . . , v r , v r+1 . . . , v m〈A ′ 〉 = 〈v 1 , . . . , v q 〉 ⊂ 〈v 1 , . . . , v q , v q+1 , . . . , v r 〉 = 〈X ′ 〉 ⊂ R mSea entonces C una matriz m × r ′ , con r ′ = r − q, construida tomando los vectorescolumna v q+1 , . . . , v rC = (v q+1 , . . . , v r )y definamos el vector paramétrico θ = (θ 1 , . . . , θ r ′) ′ tal queβ = CθLos parámetros θ constituyen la reparametrización inducida por la hipótesis H 0 , puesAβ = ACθ = 0θ = 068


El modelo Y = Xβ + ɛ bajo la restricción Aβ = 0, se convierte eny la matriz de diseño se transforma enE(Y) = XCθ = ˜Xθ˜X = XCrelación también válida para la matriz de diseño reducidaLa estimación MC de los parámetros θ es˜X R = X R Ĉθ = ( ˜X ′ ˜X)−1 ˜X′ YLa suma de cuadrados residual bajo la restricción Aβ = 0 esMétodo 2SCR H = mínAβ=0 (Y − Xβ)′ (Y − Xβ) = (Y − ˜X̂θ) ′ (Y − ˜X̂θ)= Y ′ Y − ̂θ ′ ˜X′ YIntroduzcamos q multiplicadores de Lagrangeλ = (λ 1 , . . . , λ q ) ′uno para cada restricción lineal. El mínimo restringido de (Y − Xβ) ′ (Y − Xβ) se hallaigualando a cero las derivadas respecto a cada β i den∑(y i − x i1 β 1 − · · · − x im β m ) 2 +i=1q∑λ i (a i1 β 1 + · · · + a im β m )i=1En notación matricial, donde ahora X es la matriz ampliada, escribiremosf(β, λ) = (Y − Xβ) ′ (Y − Xβ) + (β ′ A ′ )λ∂f/∂β = −2X ′ Y + 2X ′ Xβ + A ′ λ = 0X ′ Xβ = X ′ Y − 1 2 A′ λ (5.1)La solución eŝβ H = (X ′ X) − X ′ Y − 1 2 (X′ X) − A ′̂λH= ̂β − 1 2 (X′ X) − A ′̂λHy como Âβ H = 0, resulta0 = Âβ − 1 2 A(X′ X) − A ′̂λH69


La matriz A(X ′ X) − A ′ posee inversa, puesto que es de rango q, así12 ̂λ H = (A(X ′ X) − A ′ ) −1 (Âβ)y finalmente tenemos que la estimación MC restringida esLa suma de cuadrados residual eŝβ H = ̂β − (X ′ X) − A ′ (A(X ′ X) − A ′ ) −1 Âβ (5.2)SCR H = (Y − X̂β H ) ′ (Y − X̂β H )Hemos visto (teorema 2.5.1) que la forma canónica de la suma de cuadrados residual bajoel modelo sin restricciones esSCR = z 2 r+1 + · · · + z 2 nLa hipótesis H 0 : Aβ = 0, que implica ˜X = XC, significa que las columnas de ˜X soncombinación lineal de las de X. Luego los subespacios generados por dichas columnasverifican〈 ˜X〉 ⊂ 〈X〉 ⊂ R n (5.3)Podemos entonces construir una base ortogonaltal queu 1 , . . . , u r ′, u r ′ +1, . . . , u r , u r+1 , . . . , u n〈 ˜X〉 = 〈u 1 , . . . , u r ′〉 ⊂ 〈X〉 = 〈u 1 , . . . , u r 〉Entonces, si se cumple la hipótesis, por idéntico razonamiento al seguido en el teorema2.5.1 tendremos que la forma canónica de la suma de cuadrados residual bajo el modeloH 0 esSCR H = z 2 r ′ +1 + · · · + z 2 nAdemás, siempre se verificará que SCR H > SCR puesEjemplo 5.2.1SCR H − SCR =Consideremos el siguiente modelo lineal normaly la hipótesis linealr∑r ′ +1y 1 = β 1 + β 2 + ɛ 1y 2 = 2β 2 + ɛ 2y 3 = −β 1 + β 2 + ɛ 3H 0 : β 1 = 2β 2Las matrices de diseño y de la hipótesis son⎛1⎞1X = ⎝ 0 2 ⎠ A = (1 − 2) rg X = 2 rg A = 1−1 170z 2 i


Como A es combinación lineal de las filas de X, H 0 es una hipótesis contrastable. Además,en este caso particular el rango de la matriz de diseño es máximo, de modo que todahipótesis lineal es contrastable.Con unos sencillos cálculos, tenemos:Ecuaciones normales2β 1 + 0β 2 = y 1 − y 3 0β 1 + 6β 2 = y 1 + 2y 2 + y 3Estimaciones MĈβ 1 = (y 1 − y 3 )/2 ̂β2 = (y 1 + 2y 2 + y 3 )/6Suma de cuadrados residualSCR = y1 2 + y2 2 + y3 2 − 2̂β 1 2 − 6̂β 22Si consideramos los vectores columnav 1 = (1, −2) ′ v 2 = (2, 1) ′que constituyen una base ortogonal de R 2 , se verifica〈A ′ 〉 = 〈v 1 〉 ⊂ 〈X ′ 〉 = 〈v 1 , v 2 〉Podemos entonces tomar la matrizC = (2, 1) ′que verifica AC = 0. La reparametrización β = Cθ esβ 1 = 2θβ 2 = θEl modelo bajo la hipótesis es ahoray 1 = 3θ + ɛ 1y 2 = 2θ + ɛ 2y 3 = −θ + ɛ 3Finalmentêθ = (3y 1 + 2y 2 − y 3 )/14SCR H = y 2 1 + y 2 2 + y 2 3 − 14 ̂θ 25.3. Teorema fundamental del Análisis de la VarianzaEn esta sección vamos a deducir el test F que nos permite decidir sobre la aceptación deuna hipótesis lineal contrastable.71


Teorema 5.3.1Sea Y = Xβ+ɛ un modelo lineal normal, de manera que Y ∼ N(Xβ, σ 2 I). Consideremosuna hipótesis lineal contrastableH 0 : Aβ = 0rango A = qentonces, los estadísticosSCR = (Y − X̂β) ′ (Y − X̂β)SCR H = (Y − ˜X̂θ) ′ (Y − ˜X̂θ)verifican:(i) SCR/σ 2 ∼ χ 2 n−r(ii) Si H 0 es ciertaSCR H /σ 2 ∼ χ 2 n−r ′ (r′ = r − q)(SCR H − SCR)/σ 2 ∼ χ 2 q(iii) Si H 0 es cierta, los estadísticos SCR H − SCR y SCR son estocásticamente independientes.(iv) Si H 0 es cierta, el estadísticoF = (SCR H − SCR)/qSCR/(n − r)(5.4)sigue la distribución F de Fisher-Snedecor con q y n − r grados de libertad.Demostración:(i) Aunque este resultado ya se ha establecido en el teorema 3.4.2, nos interesa ahorasu demostración explícita. En el teorema 2.5.1 se ha visto queSCR = z 2 r+1 + · · · + z 2 ndonde las z i son normales, independientes y además E(z i ) = 0, var(z i ) = σ 2 . LuegoSCR/σ 2 es suma de los cuadrados de n − r variables N(0, 1) independientes.(ii) La forma canónica de la suma de cuadrados residual bajo la restricción Aβ = 0 esSCR H = z 2 r ′ +1 + · · · + z 2 nluego análogamente tenemos que SCR H /σ 2 ∼ χ 2 n−r ′, donde r′ = r − q. AdemásSCR H − SCR = z 2 r ′ +1 + · · · + z 2 res también una suma de cuadrados en las mismas condiciones.(iii) Las variables z r ′ +1, . . . , z n son normales e independientes. SCR H − SCR depende delas q primeras, mientras que SCR depende de las n − r últimas y no hay términoscomunes. Luego son estocásticamente independientes.72


(iv) Es una consecuencia evidente de los apartados anteriores de este teorema. Si H 0 escierta, el estadísticoF = [(SCR H − SCR)/σ 2 ]/q(SCR/σ 2 )/(n − r)= (SCR H − SCR)/qSCR/(n − r)sigue la distribución F de Fisher-Snedecor con q y n − r grados de libertad.Obsérvese que F no depende del parámetro desconocido σ 2 y se puede calcular exclusivamenteen función de las observaciones Y.La expresión de SCR esSCR = Y ′ (I − P)Y = Y ′ Y − ̂β ′ X ′ YVeamos que, del mismo modo, la expresión de SCR H esSCR H = Y ′ Y − ̂β ′ HX ′ Ydonde ̂β H es la estimación MC de β restringida a Aβ = 0.En efecto,SCR H = (Y − X̂β H ) ′ (Y − X̂β H ) = Y ′ Y − 2Y ′ X̂β H + ̂β ′ HX ′ X̂β HAdemás (ver página 69), se verificaX ′ X̂β H = X ′ Y − 1 2 A′̂λHluegoSCR H = Y ′ Y − 2Y ′ X̂β H + ̂β ′ H(X ′ Y − 1 2 A′̂λH )= Y ′ Y − 2Y ′ X̂β H + Y ′ X̂β H − 1 2 ̂β ′ HA ′̂λHPero como Âβ H = 0, nos quedaSCR H = Y ′ Y − Y ′ X̂β HCalculemos ahora SCR H − SCR. Considerando 5.2 tenemoŝβ ′ − ̂β ′ H = (Âβ) ′ (A(X ′ X) − A ′ ) −1 A(X ′ X) −luegoSCR H − SCR = (̂β ′ − ̂β ′ H)X ′ Y= (Âβ) ′ (A(X ′ X) − A ′ ) −1 A(X ′ X) − X ′ Y= (Âβ) ′ (A(X ′ X) − A ′ ) −1 (Âβ)(5.5)73


El estadístico F puede escribirse entoncesF = (Âβ) ′ (A(X ′ X) − A ′ ) −1 (Âβ)q ̂σ 2 (5.6)donde ̂σ 2 = SCR/(n − r).Cuando q > 2 es mejor obtener SCR y SCR H directamente por minimización de ɛ ′ ɛ sinrestricciones y con restricciones, respectivamente. Sin embargo, si q ≤ 2 se puede utilizarla fórmula 5.6, ya que la matriz a invertir A(X ′ X) − A ′ es sólo de orden uno o dos.Obsérvese que si Aβ = 0 es cierta, entonces Âβ ≈ 0. Luego es probable que F no seasignificativa.Cuando sea posible, también se puede utilizar la matriz de diseño reducida X R , junto conlas matrices D y Ȳ. Las expresiones son entoncesSCR = Y ′ Y − Ȳ ′ DX R (X ′ RDX R ) − X ′ RDȲSCR H − SCR = (Âβ) ′ (A(X ′ RDX R ) − A ′ ) − (Âβ)El cálculo de ambas cantidades se suele expresar en forma de tabla general del análisisde la varianza (ver tabla 5.1).grados de suma de cuadradoslibertad cuadrados medios cocienteDesviaciónhipótesis q SCR H − SCR (SCR H − SCR)/q FResiduo n − r SCR SCR/(n − r)Cuadro 5.1: Tabla general del análisis de la varianzaCriterio de decisiónSi F > F α se rechaza H 0 ; si F ≤ F α se acepta H 0 .Donde, para un nivel de significación α, F α se eligede forma que P (F q,n−r > F α ) = α.Del teorema 5.3.1 deducimos que, si H 0 es cierta, entoncesE[(SCR H − SCR)/q] = σ 2Luego (SCR H −SCR)/q y SCR/(n−r) son dos estimaciones independientes de la varianzaσ 2 . El test F nos indica hasta que punto coinciden. Un valor grande de F indica que laprimera estimación difiere demasiado de la varianza σ 2 y entonces H 0 debe ser rechazada.Se puede demostrar además (ver ejercicio 5.7) que en generalE(SCR H − SCR) = qσ 2 + (Aβ) ′ (A(X ′ X) − A ′ ) − (Aβ) (5.7)74


Ejemplo 5.3.1Para decidir sobre la hipótesis H 0 : β 1 = 2β 2 en el ejemplo 5.2.1 calcularemosF = (SCR H − SCR)/1SCR/(3 − 2)=−14̂θ 2 + 2̂β 2 1 + 6̂β 2 2y 2 1 + y 2 2 + y 2 3 − 2̂β 2 1 − 6̂β 2 2Si utilizamos 5.6, se obtiene una expresión más sencillaF = (̂β 1 − 2̂β 2 ) 2(SCR/1)(7/6)En cualquier caso, se decide por la significación en una distribución F 1,1 con 1 y 1 gradosde libertad.Ejemplo 5.3.2Diseño “cross-over” simplificadoSupongamos una experiencia clínica en la que se desean comparar dos fármacos a y b,para combatir una determinada enfermedad. El estado de los pacientes se valora medianteuna cierta variable cuantitativa Y .En el diseño “cross-over” la experiencia se organiza asignando a N a pacientes el tratamientoa y a N b pacientes el tratamiento b, en un primer periodo. En un segundo periodo,los que tomaban a pasan a tomar b y recíprocamente. En este diseño los datos son de laforma:IndicandoGrupo 1 media varianza∑a (primera vez) y 11 y 12 . . . y 1Na ȳ 1· s 2 1 = 1 NaN a i=1 (y 1i − ȳ∑ 1·) 2b (después de a) y 21 y 22 . . . y 2Na ȳ 2· s 2 2 = 1 NaN a i=1 (y 2i − ȳ 2·) 2Grupo 2∑b (primera vez) y 31 y 32 . . . y 3Nb ȳ 3· s 2 3 = 1 NbN b i=1 (y 3i − ȳ 3·) 2∑a (después de b) y 41 y 42 . . . y 4Nb ȳ 4· s 2 4 = 1 NbN b i=1 (y 4i − ȳ 4·) 2se propone el siguiente modelo:µ = media generalα = efecto fármaco aβ = efecto fármaco bγ = efecto recíproco entre a y ba (primera vez) y 1i = µ + α + ɛ 1i i = 1, . . . , N ab (después de a) y 2i = µ + β + γ + ɛ 2i i = 1, . . . , N ab (primera vez) y 3i = µ + β + ɛ 3i i = 1, . . . , N ba (después de b) y 4i = µ + α + γ + ɛ 4i i = 1, . . . , N b75


Es decir, cuando sólo se ha tomado un fármaco actúa un solo efecto, pero cuando se hatomado uno después del otro actúa entonces un efecto aditivo γ que recoge la mejoría delenfermo que ya ha tomado el primer medicamento.Tenemos k = 4 condiciones experimentales, que en el “cross-over” simplificado se consideranindependientes, y N 1 = N 2 = N a , N 3 = N 4 = N b . El vector de observaciones Y yla matriz de diseño reducida X R sonY = (y 11 , . . . , y 1Na , y 21 , . . . , y 2Na , y 31 , . . . , y 3Nb , y 41 , . . . , y 4Nb ) ′X R =⎛⎜⎝1 1 0 01 0 1 11 0 1 01 1 0 1La hipótesis nula de mayor interés es⎞⎟⎠ rg X R = 3H 0 : α = βa y b tienen la misma efectividadque expresada en forma de hipótesis lineal es⎛H 0 : ( 0 1 −1 0 ) ⎜⎝µαβγ⎞⎟⎠ = 0Como el vector ( 0 1 −1 0 ) es combinación lineal de las filas de X R , se trata de unahipótesis contrastable. Para reparametrizar el diseño bajo H 0 tomaremos como matrizortogonal a A⎛ ⎞2/3 0C = ⎜ 1/3 0⎟⎝ 1/3 0 ⎠0 1Obsérvese que las columnas de C son también combinación lineal de las filas de X R .Al establecer la relación β = Cθ tendremos( )θ1θ =θ 2siendo θ 1 = µ + α = µ + β y θ 2 = γ.Es decir, bajo H 0 el diseño reparametrizado depende de dos parámetros:θ 1 : efecto debido a la medicación (común a a y b bajo H 0 )θ 2 : efecto recíproco entre a y by la nueva matriz de diseño es˜X R = X R C =⎛⎜⎝1 01 11 01 1⎞⎟⎠76


siendo rg ˜X R = r − t = 3 − 1 = 2.Si el diseño es balanceado (N a = N b ), entonces N = 4N a = 4N b y se puede calcular que)con N − 3 grados de libertad( 4∑SCR = N a4 (y 1· + y 2· − y 3· − y 4·) 2 + N a s 2 ii=1( 4∑SCR H = N a4 [(y 1· + y 2· − y 3· − y 4·) 2 + (y 1· − y 2· − y 3· + y 4·) 2 ] + N a s 2 ii=1con N − 2 grados de libertad.Luego, si H 0 es cierta, bajo el modelo lineal normal, el estadísticoF = (y 1· − y 2· − y 3· + y 4·) 2N a (4N a − 3)4 SCRsigue la distribución F con 1 y N − 3 g.l..La tabla 5.2 contiene los datos de dos grupos de 10 y 10 enfermos reumáticos a los que sevaloró la variación del dolor respecto del estado inicial, mediante una escala convencional,con el deseo de comparar dos fármacos antirreumáticos a y b, administrados a lo largode dos meses. Se incluye además la tabla del análisis de la varianza para contrastar H 0 .Grupo 1 Grupo 2a (mes 1) b (mes 2) b (mes 1) a (mes 2)17 17 21 1034 41 20 2426 26 11 3210 3 26 2619 -6 42 5217 -4 28 288 11 3 2716 16 3 2813 16 16 2111 4 -10 42)Cuadro 5.2: Datos de los enfermos reumáticosg.l. suma de cuadrados Fcuadrados mediosEntre fármacos 1 783.2 783.2 4.71 (p < 0,05)Residuo 37 6147.9 166.2Cuadro 5.3: Tabla del análisis de la varianza para H 0 : α = βCon estos datos se han detectado diferencias significativas entre los dos fármacos a yb. Para estimar la eficacia de cada fármaco, pasaremos a considerar las funciones paramétricasψ a = µ + α ψ b = µ + β77


que son ambas estimables.Para estimar ψ a , ψ b hallaremos primeramente “una” estimación MC de los parámetros:̂µ = 0 ̂α = 20,975 ̂β = 12,125Aplicando el teorema de Gauss-Markov, las estimaciones óptimas de ψ a , ψ b se obtienensustituyendo parámetros por estimaciones MC, es decir̂ψ a = ̂µ + ̂α = 20,975 ̂ψb = ̂µ + ̂β = 12,125Por otra parte, las expresiones en función de las medias y las varianzas mínimas correspondientesson:̂ψ a = 3/4ȳ 1 − 1/4ȳ 2 + 1/4ȳ 3 + 1/4ȳ 4 var(̂ψ a ) = 0,075σ 2̂ψ b = 1/4ȳ 1 + 1/4ȳ 2 + 3/4ȳ 3 − 1/4ȳ 4 var(̂ψ b ) = 0,075σ 25.3.1. Un contraste más generalConsideremos la hipótesis nulaH 0 : Aβ = cA es q × m, rg A = qdonde c es un vector columna que lógicamente debe ser combinación lineal de las columnasde A. También suponemos que las filas de A son combinación lineal de las filas de X, demanera que Aβ es un conjunto de funciones paramétricas estimables.Sea β 0 tal que Aβ 0 = c y consideremos γ = β − β 0 . Entonces, si en el modelo linealY − Xβ 0 = X(β − β 0 ) + ɛponemos Ỹ = Y − Xβ 0, obtenemos el modelo transformadoy en este modelo la hipótesis planteada adopta la expresiónỸ = Xγ + ɛ (5.8)H 0 : Aγ = 0La estimación MC del conjunto de funciones paramétricas estimables Aγ en este modelotransformado esÂγ =BX(X ′ X) − X ′ Ỹ= BP(Y − Xβ 0 ) = BX̂β − BXβ 0= Âβ − Aβ 0 = Âβ − cEn consecuencia, de la ecuación 5.5 se deduceSCR H − SCR = (Âγ) ′ (A(X ′ X) − A ′ ) −1 (Âγ)= (Âβ − c) ′ (A(X ′ X) − A ′ ) −1 (Âβ − c)donde ̂β es tal que X ′ X̂β = X ′ Y. Se verifica tambiénE(SCR H − SCR) = q σ 2 + (Aβ − c) ′ (A(X ′ X) − A ′ ) −1 (Aβ − c)78


Finalmente, a partir de la fórmula 5.6 el test para contrastar la hipótesis esF = (Âβ − c) ′ (A(X ′ X) − A ′ ) −1 (Âβ − c)/qSCR/(n − r)(5.9)donde, si es cierta la hipótesis nula, el estadístico F sigue una distribución F q,n−r .En el caso particular q = 1, donde la hipótesis es H 0 : a ′ β = c, el test F se puedesimplificar en un test t cona ′̂β − ct =(5.10)(̂σ 2 (a ′ (X ′ X) − a)) 1/2que sigue una distribución t n−r , si H 0 es cierta.Ejemplo 5.3.3Contraste de medias en poblaciones normales con igual varianzaSean u 1 , u 2 , . . . , u n1 y v 1 , v 2 , . . . , v n2 dos muestras aleatorias simples de dos poblacionesnormales N(µ 1 , σ 2 ) y N(µ 2 , σ 2 ), respectivamente.Vamos a contrastar la hipótesis lineal H 0 : µ 1 − µ 2 = d con la ayuda de la teoría de losmodelos lineales.Podemos pensar que las observaciones son de la formau i = µ 1 + ɛ i i = 1, . . . , n 1v j = µ 2 + ɛ n1 +j j = 1, . . . , n 2o en notación matricial⎛⎜⎝u 1.u n1v 1.v n2⎞ ⎛ ⎞1 0. .1 0=0 1⎟ ⎜ ⎟⎠ ⎝ . . ⎠0 1)+µ 2 ⎜⎝(µ1⎛ɛ 1.ɛ n1ɛ n1 +1.ɛ n⎞⎟⎠donde n = n 1 + n 2 . Observemos que, gracias a la igualdad de varianzas en las dos poblaciones,se trata de un modelo lineal y se verifican las condiciones de Gauss-Markov.En este modelo, la matriz de diseño reducida es 2 × 2 de rango máximoX R =( 1 00 1)y D =Así pues, la hipótesis nula es lineal y contrastable( )n1 00 n 2H 0 : µ 1 − µ 2 = d ⇔ H 0 : ( 1 −1 ) ( µ 1µ 2)= d q = 1Con unos sencillos cálculos se obtienêβ = (ˆµ 1 , ˆµ 2 ) ′ = (X ′ RDX R ) −1 X ′ RDȲ = Ȳ = (ū, ¯v) ′Âβ = ˆµ 1 − ˆµ 2 = ū − ¯v79


SCR = Y ′ Y − Ȳ ′ DX R (X ′ RDX R ) − X ′ RDȲ= ∑ iu 2 i + ∑ jv 2 j − n 1 ū 2 − n 2¯v 2= ∑ i(u i − ū) 2 + ∑ j(v j − ¯v) 2A(X ′ RDX R ) −1 A ′ = 1 n 1+ 1 n 2de modo queF = (Âβ − c) ′ (A(X ′ R DX R) −1 A ′ ) −1 (Âβ − c)q ̂σ 2 =(ū − ¯v − d)2̂σ 2 (1/n 1 + 1/n 2 )donde ̂σ 2 = SCR/(n 1 + n 2 − 2) y cuya distribución, bajo H 0 , es una F 1,n1 +n 2 −2.Pero cuando q = 1, tenemos que F 1,n1 +n 2 −2 ≡ t 2 n 1 +n 2 −2 y se deduce que el contraste esequivalente al test t usual, en especial el caso d = 0.5.3.2. Test de la razón de verosimilitudPara simplificar, consideremos un modelo de rango máximo. Bajo la hipótesis de normalidadde las observaciones, ya sabemos (ver pág. 33) que las estimaciones de máximaverosimilitud de los parámetros son̂β = (X ′ X) −1 X ′ Ŷσ 2 MV = SCR/ny el valor máximo de la función de verosimilitud esL(̂β, ̂σ 2 MV ) = (2π̂σ 2 MV ) −n/2 e −n/2Del mismo modo, los estimadores de máxima verosimilitud de los parámetros con lasrestricciones Aβ = c son̂β H ̂σ 2 H = SCR H /ny el valor máximo de la función de verosimilitud, bajo la hipótesis nula, esL(̂β H , ̂σ 2 H) = (2π̂σ 2 H) −n/2 e −n/2De modo que el estadístico de la razón de verosimilitud esEs fácil ver queluego son contrastes equivalentes.Λ = L(̂β H , ̂σ H 2 ) ]2 n/2 [̂σL(̂β, ̂σMV 2 ) = MV̂σH2F = n − m (Λ −2/n − 1)q80


5.4. Cuando el test es significativoSi el estadístico F para H 0 : Aβ = c es significativo, podemos investigar la causa delrechazo de dicha hipótesis. Una posibilidad consiste en contrastar cada una de las restriccionesa ′ iβ = c i , i = 1, . . . , q por separado, utilizando un test t para ver cual es laresponsable.Hemos visto de varias formas que, bajo la hipótesis lineal H i : a ′ iβ = c i , el estadístico t iverificaa ′t i =îβ − c i[̂σ 2 a ′ i (X′ X) − a i ] ∼ t 1/2 n−rde modo que podemos rechazar H i : a ′ iβ = c i con un nivel de significación α si|t i | ≥ t n−r (α)donde t n−r (α) es el valor de la tabla tal que P (|t n−r | ≥ t n−r (α)) = α.También podemos construir intervalos de confianza para cada a ′ iβa ′ îβ ± t n−r (α) · ̂σ(a ′ i(X ′ X) − a i ) 1/2Este procedimiento en dos etapas para el contraste de H 0 : Aβ = c, es decir, un contrasteglobal F seguido de una serie de test t cuando F es significativo, se conoce con el nombrede MDS 1 o mínima diferencia significativa. El valor significativo mínimo es t n−r (α) y lapalabra “diferencia” se refiere a que este método se utiliza con frecuencia para compararparámetros tales como medias dos a dos.Este método es simple y versátil, sin embargo tiene sus debilidades: es posible rechazarH 0 y no rechazar ninguna de las H i . Este problema, otras dificultades y, en general, otrosmétodos de inferencia simultánea se estudian de forma más completa en lo que se llamaMétodos de comparación múltiple.5.5. Contraste de hipótesis sobre funciones paramétricasestimablesSea ψ = (ψ 1 , . . . , ψ q ) ′ = Aβ un sistema de funciones paramétricas estimables, de modoque las filas de la matriz A sean linealmente independientes. La distribución F que siguela expresión 3.3 permite construir diferentes contrastes de hipótesis bajo el modelo linealnormal.Sea c = (c 1 , . . . , c q ) ′ un vector de constantes, con la condición de que c sea combinaciónlineal de las columnas de A. Planteamos la hipótesis nulaH 0 : Aβ = c (5.11)Para decidir la aceptación de H 0 , como una consecuencia de 3.3, podemos utilizar elestadísticoF = (Âβ − c) ′ (A(X ′ X) − A ′ ) −1 (Âβ − c)/q(5.12)SCR/(n − r)1 en inglés: LSD o least significant difference81


con distribución F q,n−r . Pero es evidente que 5.11 es una hipótesis lineal contrastable, demodo que podemos utilizar el test F que resulta ser idéntico al anterior. Es otra formade demostrar 5.9 y también queSCR H − SCR = (Âβ − c) ′ (A(X ′ X) − A ′ ) −1 (Âβ − c)Además, podemos plantear otras hipótesis sobre las funciones paramétricas estimables ψ,siempre que sean lineales. Por ejemplo, consideremos ahora la hipótesis lineal planteadasobre las q funciones linealmente independientesH 0 : ψ 1 = ψ 2 = · · · = ψ q (5.13)es decir, bajo H 0 las q funciones son iguales. Si consideramos las nuevas funciones˜ψ i = ψ 1 − ψ i+1 i = 1, . . . , q − 1entonces 5.13 se reduce a 5.11 tomando ˜ψ = ( ˜ψ 1 , . . . , ˜ψ q−1 ) ′ , c = 0 y sustituyendo q porq − 1. Dicho de otra manera, sea la matriz⎛⎞a 11 a 12 . . . a 1ma 21 a 22 . . . a 2mA = ⎜⎟⎝ . . . ⎠a q1 a q2 . . . a qmEntonces 5.13 es equivalente a la hipótesis linealH 0 : A ∗ β = 0tomando como matriz de hipótesis⎛⎞a 11 − a 21 a 12 − a 22 . . . a 1m − a 2mA ∗ ⎜⎟= ⎝ . .. ⎠a 11 − a q1 a 12 − a q2 . . . a 1m − a qmLuego podemos utilizar el estadístico F de 5.6, con A ∗ y q − 1, que bajo H 0 tiene distribuciónF q−1,n−r , para decidir si 5.13 debe ser aceptada.5.6. Elección entre dos modelos lineales5.6.1. Sobre los modelosPara la estimación en el modelo linealY = Xβ + ɛE(ɛ) = 0, var(ɛ) = σ 2 Ihemos establecido (ver pág. 28) que el punto crucial es la utilización de la matriz P,proyección ortogonal sobre el espacio de las estimaciones Ω = 〈X〉. Así, dos modelos soniguales si tienen el mismo espacio de las estimaciones. Dos de estos modelos darán lasmismas predicciones y el mismo estimador de σ 2 .82


Sean Y = X 1 β 1 + ɛ 1 y Y = X 2 β 2 + ɛ 2 dos modelos lineales tales que 〈X 1 〉 = 〈X 2 〉. Lamatriz proyección no depende de X 1 o X 2 sino sólo de Ω(= 〈X 1 〉 = 〈X 2 〉). La estimaciónde σ 2 es la misma ̂σ 2 = SCR/(n − r) y las predicciones tambiénŶ = PY = X 1̂β1 = X 2̂β2En cuanto a las funciones paramétricas estimables, hemos visto que la estimabilidad serestringe a las combinaciones lineales de las filas X 1 , es decir, a ′ 1β 1 es estimable si seescribe como b ′ X 1 β 1 . Pero X 1 β 1 pertenece a Ω de forma que X 1 β 1 = X 2 β 2 para algúnβ 2 y asía ′ 1β 1 = b ′ X 1 β 1 = b ′ X 2 β 2 = a ′ 2β 2Las funciones paramétricas estimables son las mismas pero están escritas con diferentesparámetros. Su estimador b ′ PY también es único.Ejemplo 5.6.1El ANOVA de un factor se puede escribir de dos formas:y ij = µ + α i + ɛ ijy ij = µ i + ɛ iji = 1, . . . , I, j = 1, . . . , n ii = 1, . . . , I, j = 1, . . . , n ipero son equivalentes puesto que 〈X 1 〉 = 〈X 2 〉.En este modelo las relaciones entre los dos conjuntos de parámetros son sencillasEjemplo 5.6.2µ i = µ + α i µ 1 − µ 2 = α 1 − α 2 etc.La regresión lineal simple admite dos modelos:y i = β 0 + β 1 x i + ɛ iy i = γ 0 + γ 1 (x i − ¯x) + ɛ ii = 1, . . . , ni = 1, . . . , npero son equivalentes ya queγ 0 = β 0 + β 1¯xγ 1 = β 1En resumen, en un modelo lineal Y = Xβ + ɛ la esencia es el subespacio Ω = 〈X〉. Siconservamos Ω, podemos cambiar X a nuestra conveniencia.5.6.2. Contraste de modelosEl contraste de hipótesis en modelos lineales se reduce esencialmente a restringir el espaciode las estimaciones.Si partimos de un modelo que sabemos o suponemos válidoModelo inicial: Y = Xβ + ɛ rg X = rdebemos intentar reducir este modelo, es decir, ver si algún modelo más simple se ajustaaceptablemente a los datos, comoModelo restringido: Y = ˜Xθ + ɛ rg ˜X = ˜r83


Dado que la esencia de un modelo está en el subespacio generado por las columnas de lamatriz de diseño o espacio de las estimaciones, es absolutamente necesario que el modelorestringido verifiqueΩ 0 = 〈 ˜X〉 ⊂ 〈X〉 = ΩSólo en este caso se puede plantear la elección entre dos modelos alternativos como uncontraste de hipótesisH 0 : Y = ˜Xθ + ɛH 1 : Y = Xβ + ɛ ⇔ H 0 : E(Y) ∈ Ω 0 = 〈 ˜X〉H 1 : E(Y) ∈ Ω = 〈X〉(5.14)donde E(Y) = ˜Xθ y E(Y) = Xβ, respectivamente.Sean P Ω y P Ω0 las proyecciones ortogonales sobre Ω = 〈X〉 y Ω 0 = 〈 ˜X〉 respectivamente.Bajo el modelo inicial el estimador de E(Y) es P Ω Y, mientras que bajo el modelorestringido el estimador es P Ω0 Y. Si la hipótesis H 0 es cierta, ambas estimaciones debenestar próximas.Teorema 5.6.1La condición necesaria y suficiente para que 5.14 sea contrastable es que se verifiqueEl test F se basa entonces en el estadísticoΩ 0 = 〈 ˜X〉 ⊂ 〈X〉 = Ω (5.15)F = (SCR H − SCR)/(r − ˜r)SCR/(n − r)cuya distribución, bajo H 0 , es F r−˜r,n−r y dondeSCR H = Y ′ (I − P Ω0 )Y SCR = Y ′ (I − P Ω )YDemostración:La expresión 5.15 implica la relación ˜X = XC para una cierta matriz C. Entonces H 0significa formular una hipótesis lineal contrastable al modelo E(Y) = Xβ, que lo reducea E(Y) = ˜Xθ. El resto es consecuencia del Método 1 explicado en la sección 5.2 y elteorema 5.3.1.Observemos que si Ω 0 Ω, entonces estamos ante modelos de naturaleza diferente. Nopodemos decidir entre ambos modelos mediante ningún criterio estadístico conocido. Sise verifica Ω 0 = Ω, entonces tenemos dos versiones paramétricas del mismo modelo,pudiendo pasar del uno al otro por una reparametrización. Un modelo Y = Xβ + ɛdetermina el espacio Ω = 〈X〉, y recíprocamente el espacio Ω determina el modelo (salvoreparametrizaciones que no disminuyan el rango).Como ya hemos visto, la interpretación geométrica de la solución al modelo lineal Y =Xβ + ɛ es considerar la proyección del vector Y sobre el subespacio Ω = 〈X〉 de R n . Larelación 5.15 indica que las columnas de ˜X generan un subespacio de 〈X〉. Entonces SCRy SCR H son distancias de la observación Y a los subespacios 〈X〉 y 〈 ˜X〉, respectivamente.El test F nos dice hasta que punto la diferencia SCR H − SCR es pequeña (comparadacon SCR) para poder afirmar que el modelo se ajusta al subespacio 〈 ˜X〉 en lugar de 〈X〉(ver figura).84


Ye He〈X〉〈 ˜X〉La longitud al cuadrado de la diferencia P Ω Y − P Ω0 Y es((P Ω − P Ω0 )Y) ′ ((P Ω − P Ω0 )Y) = Y ′ (P Ω − P Ω0 )Yya que P Ω − P Ω0 = P Ω ⊥0 ∩Ω es una matriz proyección (ver Apéndice). Pero ademásY ′ (P Ω − P Ω0 )Y = Y ′ (I − P Ω0 )Y − Y ′ (I − P Ω )Y = SCR H − SCRCuando la hipótesis nula se plantea en términos de un grupo de funciones paramétricasestimables del tipo H 0 : Aβ = 0, sabemos que existe una matriz B = A(X ′ X) − X ′ talque A = BX. De modo que0 = Aβ = BXβ = BE(Y) ⇔ E(Y) ∈ ker(B)y el subespacio que define la hipótesis nula es Ω 0 = ker(B) ∩ Ω. En este caso se puededemostrar (ver Apéndice) que Ω ⊥ 0 ∩ Ω = 〈P Ω B ′ 〉 y reencontrar así el test 5.6.Ejemplo 5.6.3Consideremos de nuevo el diseño cross-over explicado en el ejemplo 5.3.2. Supongamosahora que la influencia γ de un fármaco sobre el otro no es recíproca. El efecto aditivono es necesariamente el mismo cuando se administra a después de b, que cuando seadministra b después de a. Entonces debemos introducir los parámetrosγ 1 : influencia de a sobre bγ 2 : influencia de b sobre ay admitir que la matriz de diseño reducida, para los parámetros µ, α, β, γ 1 , γ 2 es⎛⎞1 1 0 0 0X R = ⎜ 1 0 1 1 0⎟⎝ 1 0 1 0 0 ⎠ rg X R = 41 1 0 0 1que representa una alternativa a la propuesta inicialmente para los parámetros µ, α, β, γ⎛⎞1 1 0 0˜X R = ⎜ 1 0 1 1⎟⎝ 1 0 1 0 ⎠ rg ˜X R = 31 1 0 1Es fácil ver que se verifica 5.15. El análisis de la varianza para decidir entre ˜X R y X R ,sobre los datos de la tabla 5.2, se encuentra en la tabla 5.4. Como F no es significativose admite como válido el modelo más simple representado por ˜X R .85


grados de suma de cuadradoslibertad cuadrados medios FDesviaciónhipótesis 1 600,6 600,6 3,898Residuo 36 5547,3 154,1Cuadro 5.4: Tabla del análisis de la varianza para contrastar dos modelos de cross-over5.7. Ejemplos con REn esta sección vamos a ver como se contrastan las hipótesis que hemos planteado en elejemplo 5.3.2 sobre el diseño cross-over simplificado.En primer lugar procedemos a introducir los datos en el vector de observaciones.> y alpha beta gamma crossover.lm crossover.lm0 anova(crossover.lm0,crossover.lm)Analysis of Variance TableModel 1: y ~ gammaModel 2: y ~ alpha + beta + gammaRes.Df RSS Df Sum of Sq F Pr(>F)1 38 6931.12 37 6147.9 1 783.2 4.7137 0.03641 *---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 186


Del mismo modo también se puede realizar el contraste de modelos propuesto en el ejemplo5.6.3. En este caso, el modelo más general necesita las columnas correspondientes a losparámetros γ 1 , γ 2 .> gamma1 gamma2 crossover.lm1 anova(crossover.lm,crossover.lm1)Analysis of Variance TableModel 1: y ~ alpha + beta + gammaModel 2: y ~ alpha + beta + gamma1 + gamma2Res.Df RSS Df Sum of Sq F Pr(>F)1 37 6147.92 36 5547.3 1 600.6 3.8978 0.05606 .---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 187


5.8. EjerciciosEjercicio 5.1Sean X ∼ N(µ 1 , σ), Y ∼ N(µ 2 , σ) variables independientes. En muestras de extensión n 1de X, n 2 de Y , plantear la hipótesis nulaH 0 : µ 1 = µ 2mediante el concepto de hipótesis lineal contrastable y deducir el test t de Student decomparación de medias como una consecuencia del test F .Ejercicio 5.2Una variable Y depende de otra x (variable control no aleatoria) que toma los valoresx 1 = 1, x 2 = 2, x 3 = 3, x 4 = 4 de acuerdo con el modelo lineal normaly i = β 0 + β 1 x i + β 2 x 2 i + ɛ iEncontrar la expresión del estadístico F para la hipótesisH 0 : β 2 = 0Ejercicio 5.3Probar que una hipótesis lineal de matriz A es contrastable si y sólo siA(X ′ X) − X ′ X = AEjercicio 5.4Con el modelo del ejercicio 3.10:(a) ¿Podemos contrastar la hipótesis H 0 : θ 1 + θ 8 = 0?(b) Contrastar la hipótesis H 0 : θ 1 = θ 2 .Ejercicio 5.5Dado el siguiente modelo lineal normalβ 1 + β 2 = 6,62β 1 + β 2 = 7,8−β 1 + β 2 = 2,12β 1 − β 2 = 0,4estudiar si se puede aceptar la hipótesis H 0 : β 2 = 2β 1 .Ejercicio 5.6Consideremos el modelo lineal normal Y = Xβ + ɛ. Probar que para la hipótesis linealH 0 : Xβ = 0se verifica SCR H − SCR = ̂β ′ X ′ Y. Hallar el estadístico F correspondiente.88


Ejercicio 5.7Demostrar que para una hipótesis lineal contrastable se verificaE(SCR H − SCR) = qσ 2 + (Aβ) ′ (A(X ′ X) − A ′ ) − (Aβ)Indicación: Utilizar la propiedad 2 del Apéndice de Estadística Multivariante con la expresión5.5.Ejercicio 5.8Demostrar que para una hipótesis lineal contrastable se verifica la siguiente descomposiciónen suma de cuadradosEjercicio 5.9‖Y − ŶH‖ 2 = ‖Y − Ŷ‖2 + ‖Ŷ − ŶH‖ 2Supongamos que cada uno de los valores x 1 , x 2 , . . . , x 12 son las observaciones de los ángulosa, a ′ , A, A ′ , b, b ′ , B, B ′ , c, c ′ , C, C ′ del triángulo del gráfico adjunto. Los errores de lasobservaciones ɛ 1 , . . . , ɛ 12 se asume que son independientes y con distribución N(0, σ).B ′b ′ Bba ′A ′AacCC ′c ′Antes de escribir el modelo asociado a estos datos observemos que, aunque aparentementehay 12 parámetros a, a ′ , . . . , éstos están ligados por las conocidas propiedades de untriángulo, es decira = a ′ A = A ′ a + A = 180 a + b + c = 180y de forma similar para b, b ′ , B, B ′ y c, c ′ , C, C ′ . El conjunto de estas relaciones nos conducea que, realmente, sólo hay dos parámetros independientes, les llamaremos α y β. Sitrasladamos a la izquierda las cantidades 180 y con estos parámetros, el modelo esy 1 = α + ɛ 1 y 2 = α + ɛ 2 y 3 = −α + ɛ 3 y 4 = −α + ɛ 4y 5 = β + ɛ 5 y 6 = β + ɛ 6 y 7 = −β + ɛ 7 y 8 = −β + ɛ 8y 9 = −α − β + ɛ 9 y 10 = −α − β + ɛ 10 y 11 = α + β + ɛ 11 y 12 = α + β + ɛ 12dondey 1 = x 1 y 2 = x 2 y 3 = x 3 − 180 y 4 = x 4 − 180y 5 = x 5 y 6 = x 6 y 7 = x 7 − 180 y 8 = x 8 − 180y 9 = x 9 − 180 y 10 = x 10 − 180 y 11 = x 11 y 12 = x 1289


Deseamos contrastar la hipótesis de que el triángulo es equilátero, es decir, que a = b =c = 60. Pero si a = 60, b = 60, c es automáticamente 60, luego la hipótesis esH 0 : α = β = 60con 2 grados de libertad, no 3. Resolver el contraste.Ejercicio 5.10Con el modelo cross-over expuesto en el ejemplo 5.3.2 calcular los siguientes elementos:(a) Una estimación de los parámetros mediante la fórmula (X ′ R DX R) − X ′ R DȲ.(b) La suma de cuadrados residualSCR = Y ′ Y − Y ′ PY = ∑ yij 2 − Y ′ PY( 4∑ 4∑= N a ȳi· 2 +i=1 i=1( 4∑ 4∑= N a ȳi· 2 +i=1i=1s 2 is 2 i))− Y ′ PY(c) La estimación de la función paramétrica α − β y su varianza.− Ȳ ′ DX R (X ′ RDX R ) − X ′ RDȲ(d) El estadístico con distribución t de Student para contrastar la hipótesis H 0 : α = βt =ˆα − ˆβee(ˆα − ˆβ)cuyo cuadrado coincide con el estadístico F del ejemplo.90


Capítulo 6Regresión lineal simpleSea Y una variable aleatoria y x una variable controlable, es decir, los valores que toma xson fijados por el experimentador. Supongamos que calculamos Y para diferentes valoresde x de acuerdo con el siguiente modeloy i = β 0 + β 1 x i + ɛ i i = 1, . . . , n (6.1)donde E(ɛ i ) = 0, var(ɛ i ) = σ 2 i = 1, . . . , n.Este modelo es la formulación lineal del problema de hallar la recta de regresión de Y sobrex. Los parámetros β 0 , β 1 reciben el nombre de coeficientes de regresión. El parámetro β 0es la ordenada en el origen, intercept en inglés, y β 1 es la pendiente de la recta, slope eninglés. La expresión matricial de 6.1 es⎛ ⎛⎛⎜⎝⎞y 1⎟. ⎠ =y n⎜⎝⎞1 x 1⎟. . ⎠1 x n(β0)+β 1⎜⎝⎞ɛ 1⎟. ⎠ rg X = 2ɛ nAhora podemos aplicar toda la teoría general desarrollada en los capítulos anteriores paraun modelo lineal cualquiera, al caso particular de la regresión lineal simple.6.1. Estimación de los coeficientes de regresiónCon los datos observados se pueden calcular los siguientes estadísticos¯x = (1/n) ∑ x i s 2 x = (1/n) ∑ (x i − ¯x) 2ȳ = (1/n) ∑ y i s 2 y = (1/n) ∑ (y i − ȳ) 2s xy = (1/n) ∑ (x i − ¯x)(y i − ȳ)donde ¯x, ȳ, s 2 x, s 2 y, s xy son las medias, varianzas y covarianzas muestrales, aunque el significadode s 2 x y s xy es convencional pues x no es variable aleatoria. Con esta notación lasecuaciones normales son:( ) ( ) ( )n n¯xX ′ Xβ = X ′ Y ⇔n¯x∑ β0x 2 = ∑ nȳi β 1 xi y iy como(X ′ X) −1 = 1 ( ∑ (1/n) x2i −¯xns 2 −¯x 1x91)


la solución esˆβ 0 = ȳ − ˆβ 1¯xˆβ 1 = S xyS x= s xys 2 xdondeS xy = ∑ x i y i − (1/n) ∑ x i∑yi = ∑ (x i − ¯x)(y i − ȳ) = n s xyS x = ∑ x 2 i − (1/n)( ∑ x i ) 2 = ∑ (x i − ¯x) 2 = n s 2 xEn el ejercicio 6.2 se ven otras formas de expresar ˆβ 1 .La recta de regresión esy = ˆβ 0 + ˆβ 1 xque se expresa también en la formay − ȳ = ˆβ 1 (x − ¯x)lo que deja claro que la recta pasa por el punto (¯x, ȳ) y que el modelo es válido en elrango de las x i , centrado en ¯x. Ésta es también la recta que se obtiene a partir del modeloequivalente con los datos x i centrados (ver ejemplo 5.6.2 y ejercicio 6.3).Recordemos que por lo que hemos estudiado, estas estimaciones son insesgadas y devarianza mínima entre todos los estimadores lineales (teorema de Gauss-Markov). Lasvarianzas y covarianza de los estimadores son( var( ˆβ0 ) cov(var(̂β) =ˆβ 0 , ˆβ )1 )cov( ˆβ 0 , ˆβ 1 ) var( ˆβ = σ 2 (X ′ X) −1 (6.2)1 )Es decirE( ˆβ 0 ) = β 0 var( ˆβ 0 ) = σ 2 ( 1n + ¯x2S x)(6.3)E( ˆβ 1 ) = β 1 var( ˆβ 1 ) = σ2S x(6.4)cov( ˆβ 0 , ˆβ 1 ) = −σ 2 ¯x S x(6.5)Ejemplo 6.1.1Vamos a ilustrar el cálculo “manual” de las estimaciones de los parámetros con un ejemplomuy sencillo de muy pocos datos.Supongamos que una empresa de compra-venta de automóviles organiza exposiciones losfines de semana i contrata un número variable de vendedores que oscila entre 3 y 8.El gerente de esta empresa quiere estudiar la relación entre el número de vendedoresy el número de coches vendidos ya que, si es posible, podría prever las ventas a partirdel número de vendedores que contrata. Para aclararlo, el gerente examina el registrode ventas de los últimos cuatro meses y localiza un período de 10 semanas durante lascuales no hubo ningún incentivo especial ni a la venta ni a la compra. El número de92


Semana Vendedores Coches1 5 102 6 203 5 184 4 105 3 76 4 147 7 218 6 159 5 1310 8 22Coches3020100Gráfico de dispersión0 2 4 6 8 10VendedoresCuadro 6.1: Datos de las ventas en 10 semanas y gráfico de dispersióncoches vendidos durante este período y el número de vendedores empleados en cada casose muestra en la tabla adjunta.Para examinar esta relación es muy útil empezar por dibujar un diagrama de dispersión.Este gráfico muestra una relación bastante evidente entre el número de vendedores y lasventas, relación que se podía esperar. Vamos a cuantificarla con la ayuda de la recta deregresión MC.En la siguiente tabla tenemos los cálculos necesarios para obtener los coeficientes deregresión, las predicciones, los residuos y la suma de cuadrados de los errores para losdatos de las 10 semanas. Esta tabla se ha calculado con una hoja de cálculo, lo que permiteuna mayor precisión en los cálculos sucesivos.i x i y i x 2 i x i y i ŷ i e i e 2 i1 5 10 25 50 14,10 −4,10 16,852 6 20 36 120 17,09 2,91 8,473 5 18 25 90 14,10 3,90 15,184 4 10 16 40 11,12 −1,12 1,255 3 7 9 21 8,13 −1,13 1,296 4 14 16 56 11,12 2,88 8,307 7 21 49 147 20,07 0,93 0,868 6 15 36 90 17,09 −2,09 4,379 5 13 25 65 14,10 −1,10 1,2210 8 22 64 176 23,06 −1,06 1,12Suma 53 150 301 855 0 58,90Media 5,3 15Cuadro 6.2: Cálculos de regresión simple para los datos de ventasCon estos cálculos, las estimaciones de los coeficientes de regresión sonˆβ 1 = 855 − 1 53 · 15010301 − 1 = 2,985074610 (53)2ˆβ 0 = 15 − ˆβ 1 · 5,3 = −0,82089693


La ecuación de la recta de regresión eso tambiény = −0,821 + 2,985xy − 15 = 2,985 (x − 5,3)Para calcular la precisión de estas estimaciones, primero debemos estimar la varianza delmodelo.Nota: Una aplicación de hojas de cálculo como Microsoft Excel tiene la función ESTI-MACION.LINEAL que calcula de forma directa los coeficientes de regresión y algunosestadísticos más. Otra función matricial es TENDENCIA que permite calcular directamentelas predicciones. Además, Excel lleva un conjunto de macros opcionales llamadas“Herramientas para análisis” que, entre otras cosas, calculan una regresión lineal completa.En el ejemplo anterior, se comprueba que las suma de los residuos es cero, salvo problemasde redondeo. Esto no es una casualidad. Vamos a ver algunas propiedades adicionales paralas predicciones ŷ i = ˆβ 0 + ˆβ 1 x i y para los residuos e i = y i − ŷ i , cuya demostración se dejapara el lector (ver ejercicio 6.4).(i) La suma de los residuos es cero: ∑ e i = 0.(ii) La suma de los residuos ponderada por los valores de la variable regresora es cero:∑xi e i = 0.(iii) ∑ y i = ∑ ŷ i(iv) La suma de los residuos ponderada por las predicciones de los valores observadoses cero: ∑ ŷ i e i = 0.6.2. Medidas de ajusteLa evaluación global del ajuste de la regresión se puede hacer con la SCR o, mejor, conla varianza muestral de los residuos (1/n) ∑ e 2 i . Pero los residuos no son todos independientes,si no que están ligados por dos ecuaciones (la (i) y la (ii) de arriba), de formaque utilizaremos la llamada varianza residual o estimación MC de σ 2 :ˆσ 2 = SCR/(n − 2)Su raíz cuadrada ˆσ, que tiene las mismas unidades que Y , es el llamado error estándarde la regresión. La varianza residual o el error estándar son índices de la precisión delmodelo, pero dependen de las unidades de la variable respuesta y no son útiles paracomparar rectas de regresión de variables diferentes. Otra medida de ajuste requiere unaadecuada descomposición de la variabilidad de la variable respuesta.Teorema 6.2.1Consideremos el coeficiente de correlación muestral, cuyo significado es convencional,r = s xys x s y=Entonces se verifican las siguientes relaciones94S xy(S x S y ) 1/2


Luego ∑(yi − ŷ i ) 2 = (1 − r 2 ) ∑ (y i − ȳ) 2(i) ∑ (y i − ȳ) 2 = ∑ (y i − ŷ i ) 2 + ∑ (ŷ i − ȳ) 2(ii) SCR = ∑ (y i − ŷ i ) 2 = (1 − r 2 ) ∑ (y i − ȳ) 2 = (1 − r 2 )S y(iii) ˆσ 2 = ( ∑ e 2 i )/(n − 2) = (1 − r 2 )S y /(n − 2)Demostración:∑(yi − ȳ) 2 = ∑ (y i − ŷ i + ŷ i − ȳ) 2= ∑ (y i − ŷ i ) 2 + ∑ (ŷ i − ȳ) 2 + 2 ∑ (y i − ŷ i )(ŷ i − ȳ)pero ∑ (y i −ŷ i )(ŷ i −ȳ) = ∑ (y i −ŷ i )ŷ i −ȳ ∑ (y i −ŷ i ) = 0 por las propiedades del apartadoanterior. También podemos recordar la ortogonalidad de los subespacios de los errores yde las estimaciones. Queda así demostrada la relación (i).Por otra parte, es fácil ver que∑(ŷi − ȳ) 2 = ˆβ∑12 (xi − ¯x) 2 = r ∑ 2 (y i − ȳ) 2de forma que finalmente∑(yi − ȳ) 2 = ∑ (y i − ŷ i ) 2 + r 2 ∑ (y i − ȳ) 2Como consecuencia tenemos que el estimador centrado de la varianza σ 2 del modelo 6.1esˆσ 2 = SCR/(n − 2) = (1 − r 2 )S y /(n − 2) (6.6)La descomposición de la suma de cuadrados de las observaciones en dos términos independientesse interpreta así: la variabilidad de la variable Y se descompone en un primertérmino que refleja la variabilidad no explicada por la regresión, que es debida al azar, yel segundo término que contiene la variabilidad explicada o eliminada por la regresión ypuede interpretarse como la parte determinista de la variabilidad de la respuesta.Podemos definir:Variación total = VT = ∑ (y i − ȳ) 2 = S yVariación no explicada = VNE = ∑ (y i − ŷ i ) 2 = SCRVariación explicada = VE = ∑ (ŷ i − ȳ) 2 = ˆβ 2 1S xde forma queVT = VNE + VE (6.7)Definición 6.2.1Una medida del ajuste de la recta de regresión a los datos es la proporción de variabilidadexplicada que definimos con el nombre de coeficiente de determinación así:R 2 = VEVT = 1 − SCRS y95


Esta medida se puede utilizar en cualquier tipo de regresión, pero en el caso particularde la regresión lineal simple con una recta tenemosR 2 = 1 − (1 − r2 )S yS y= r 2que es el cuadrado del coeficiente de correlación lineal entre las dos variables.El coeficiente de determinación R 2 es una medida de la bondad del ajuste, 0 ≤ R 2 ≤ 1,mientras que el coeficiente de correlación es una medida de la dependencia lineal entrelas dos variables, cuando son aleatorias y sólo hay una variable regresora.Ejemplo 6.2.1Continuando con el ejemplo de los datos de ventas tenemos:SCR = 58,896ˆσ 2 = 58,896/8 = 7,362 ˆσ = 2,713VT = S y = 238R 2 = 1 − 58,896238= 0,75256.3. Inferencia sobre los parámetros de regresiónSupongamos que el modelo 6.1 es un modelo lineal normal. Entonces (ver teorema 2.6.1)se verifica quêβ = ( ˆβ 0 , ˆβ 1 ) ′ ∼ N 2 (β, var(̂β))donde( )1/n +var(̂β) = σ 2 (X ′ X) −1 = σ 2 ¯x/Sx −¯x/S x−¯x/S x 1/S xcomo hemos visto en 6.2–6.5. Además sabemos que ̂β es independiente de SCR.Como consecuencia de estas distribuciones hemos demostrado (ver 3.4 o 5.10) que paracontrastar una hipótesis del tipo H 0 : a ′ β = c se utiliza el estadísticot =que seguirá una distribución t n−2 , si H 0 es cierta.a ′̂β − c(ˆσ 2 (a ′ (X ′ X) −1 a)) 1/2 (6.8)6.3.1. Hipótesis sobre la pendienteEl contraste de la hipótesis H 0 : β 1 = b 1 frente a H 1 : β 1 ≠ b 1 se resuelve rechazando H 0si ∣ ∣∣∣∣ ˆβ1 − b 1(ˆσ 2 /S x ) 1/2 ∣ ∣∣∣∣> t n−2 (α)donde P [|t n−2 | > t n−2 (α)] = α.En particular, estamos interesados en contrastar si la pendiente es cero, es decir, la hipótesisH 0 : β 1 = 0. Vamos a deducir este contraste directamente.96


Si H 0 : β 1 = 0 es cierta, el modelo 6.1 se simplifica y se convierte eny i = β 0 + ɛ ide dondeSCR H = ∑ (y i − ˆβ 0|H ) 2 = ∑ (y i − ȳ) 2 = S y (6.9)dado que ˆβ 0|H = ȳ.Por el teorema 6.2.1 sabemos que SCR = (1 − r 2 )S y , de manera queF = SCR H − SCRSCR/(n − 2) =S y − (1 − r 2 )S y(1 − r 2 )S y /(n − 2) = (n − 2) r 21 − r 2 ∼ F 1,n−2Finalmente,t = √ √ n − 2F = r √1 − r2(6.10)sigue la distribución t de Student con n − 2 grados de libertad.Este contraste H 0 : β 1 = 0 se llama contraste para la significación de la regresión y seformaliza en una tabla de análisis de la varianza donde se explicita la descomposición dela suma de cuadrados 6.7.Fuente de grados de suma de cuadradosvariación libertad cuadrados medios FRegresión 1 ˆβ1 S xy CM R CM R /ECMError n − 2 SCR ECMTotal n − 1 S yCuadro 6.3: Tabla del análisis de la varianza para contrastar la significación de la regresiónEl hecho de aceptar H 0 : β 1 = 0 puede implicar que la mejor predicción para todas lasobservaciones es ȳ, ya que la variable x no influye, y la regresión es inútil. Pero tambiénpodría pasar que la relación no fuera de tipo recta.Rechazar la hipótesis H 0 : β 1 = 0 puede implicar que el modelo lineal 6.1 es adecuado.Pero también podría ocurrir que no lo sea. En todo caso, es muy importante no confundirla significación de la regresión con una prueba de causalidad. Los modelos de regresiónúnicamente cuantifican la relación lineal entre la variable respuesta y las variables explicativas,una en el caso simple, pero no justifican que éstas sean la causa de aquella.Tanto la adecuación del modelo 6.1, como la hipótesis de normalidad han de estudiarsea través del análisis de los residuos.6.3.2. Hipótesis sobre el punto de intercepciónPara el contraste de hipótesis H 0 : β 0 = b 0 , se utiliza el estadísticot =ˆβ 0 − b 0(ˆσ 2 (1/n + ¯x 2 /S x )) 1/2que, si la hipótesis es cierta, sigue una distribución t de Student con n − 2 grados delibertad.97


6.3.3. Intervalos de confianza para los parámetrosAdemás de los estimadores puntuales de β 0 , β 1 y σ 2 , con las distribuciones estudiadaspodemos proporcionar intervalos de confianza para estos parámetros. El ancho de estosintervalos estará en función de la calidad de la recta de regresión.Con la hipótesis de normalidad y teniendo en cuenta las distribuciones de ˆβ 0 y ˆβ 1 estudiadas,un intervalo de confianza para la pendiente β 1 con nivel de confianza 100(1−α) %esˆβ 1 ± t n−2 (α) · (ˆσ 2 /S x ) 1/2donde t n−2 (α) es tal que P [|t n−2 | < t n−2 (α)] = 1 − α.Análogamente, para β 0 esLas cantidadesˆβ 0 ± t n−2 (α) · (ˆσ 2 (1/n + ¯x 2 /S x )) 1/2ee( ˆβ 1 ) = (ˆσ 2 /S x ) 1/2 ee( ˆβ 0 ) = (ˆσ 2 (1/n + ¯x 2 /S x )) 1/2son los errores estándar de la pendiente ˆβ 1 y la intercepción ˆβ 0 , respectivamente. Se tratade estimaciones de la desviación típica de los estimadores. Son medidas de la precisiónde la estimación de los parámetros.Como sabemosˆσ 2 = SCRn − 2 = 1n − 2 S y(1 − r 2 )es el estimador insesgado de σ 2 y la distribución de SCR/σ 2 es ∼ χ 2 n−2. Así, el intervalode confianza al 100(1 − α) % de σ 2 esSCRχ 2 n−2(α/2) ≤ σ2 ≤SCRχ 2 n−2(1 − α/2)donde χ 2 n−2(α/2) y χ 2 n−2(1 − α/2) son los valores de una χ 2 n−2 para que la suma de lasprobabilidades de las colas sea α.6.3.4. Intervalo para la respuesta mediaUno de los usos principales de los modelos de regresión es la estimación de la respuestamedia E[Y |x 0 ] para un valor particular x 0 de la variable regresora. Asumiremos que x 0 esun valor dentro del recorrido de los datos originales de x. Un estimador puntual insesgadode E[Y |x 0 ] se obtiene con la predicciónŷ 0 = ˆβ 0 + ˆβ 1 x 0 = ȳ + ˆβ 1 (x 0 − ¯x)Podemos interpretar β 0 + β 1 x 0 como una función paramétrica estimablecuyo estimador es ŷ 0 = x ′ 0̂β, de manera queβ 0 + β 1 x 0 = (1, x 0 )β = x ′ 0βvar(x ′ 0̂β) = σ 2 x ′ 0(X ′ X) −1 x 098


y el error estándar de x ′ 0̂β esee(x ′ 0̂β) = [ˆσ 2 (1/n + (x 0 − ¯x) 2 /S x )] 1/2Entonces, el intervalo de confianza para la respuesta media E[Y |x 0 ] es√1ŷ 0 ± t n−2 (α) · ˆσn + (x 0 − ¯x) 2S xDestacaremos el hecho de que evidentemente el ancho del intervalo depende de x 0 , esmínimo para x 0 = ¯x y crece cuando |x 0 − ¯x| crece. Esto es intuitivamente razonable.6.3.5. Predicción de nuevas observacionesOtra de las importantes aplicaciones de los modelos de regresión es la predicción denuevas observaciones para un valor x 0 de la variable regresora. El intervalo definido en elapartado anterior es adecuado para el valor esperado de la respuesta, ahora queremos unintervalo de predicción para una respuesta individual concreta. Estos intervalos reciben elnombre de intervalos de predicción en lugar de intervalos de confianza, ya que se reservael nombre de intervalo de confianza para los que se construyen como estimación de unparámetro. Los intervalos de predicción tienen en cuenta la variabilidad en la prediccióndel valor medio y la variabilidad al exigir una respuesta individual.Si x 0 es el valor de nuestro interés, entoncesŷ 0 = ˆβ 0 + ˆβ 1 x 0es el estimador puntual de un nuevo valor de la respuesta Y 0 = Y |x 0 .Si consideramos la obtención de un intervalo de confianza para esta futura observaciónY 0 , el intervalo de confianza para la respuesta media en x = x 0 es inapropiado ya que esun intervalo sobre la media de Y 0 (un parámetro), no sobre futuras observaciones de ladistribución.Se puede hallar un intervalo de predicción para una respuesta concreta de Y 0 del siguientemodo:Consideremos la variable aleatoria Y 0 − ŷ 0 ∼ N(0, var(Y 0 − ŷ 0 )) donde( 1var(Y 0 − ŷ 0 ) = σ 2 + σ 2 n + (x )0 − ¯x) 2S xya que Y 0 , una futura observación, es independiente de ŷ 0 .Si utilizamos el valor muestral de ŷ 0 para predecir Y 0 , obtenemos un intervalo de predicciónal 100(1 − α) % para Y 0√ŷ 0 ± t n−2 (α) · ˆσ 1 + 1 n + (x 0 − ¯x) 2S xEste resultado se puede generalizar al caso de un intervalo de predicción al 100(1 − α) %para la media de k futuras observaciones de la variable respuesta cuando x = x 0 . Si ȳ 0 esla media de k futuras observaciones para x = x 0 , un estimador de ȳ 0 es ŷ 0 de forma queel intervalo es√1ŷ 0 ± t n−2 (α) · ˆσk + 1 n + (x 0 − ¯x) 2S x99


6.3.6. Región de confianza y intervalos de confianza simultáneosHabitualmente, los intervalos de confianza se dan de forma conjunta para los dos parámetrosβ 0 , β 1 de la regresión simple. Sin embargo, la confianza conjunta de ambos intervalosno es 100(1−α) %, aunque los dos se hayan construido para verificar ese nivel de confianza.Si deseamos que el nivel de confianza conjunta sea el 100(1 − α) % debemos construir unaregión de confianza o, alternativamente, los llamados intervalos de confianza simultáneos.A partir de la distribución de la ecuación 5.9 sabemos que, en general,F = (Âβ − Aβ) ′ (A(X ′ X) − A ′ ) −1 (Âβ − Aβ)/qSCR/(n − r)∼ F q,n−rdonde, en este caso, Âβ = Îβ = ( ˆβ 0 , ˆβ 1 ) ′ y q = 2. Así puesy(̂β − β) ′ X ′ X(̂β − β)2ECM( ) n n¯xX ′ X =n¯x∑ x 2 i∼ F 2,n−2Con esta distribución se puede construir una región de confianza al 100(1 − α) % paraβ 0 , β 1 conjuntamente que viene dada por la elipse(̂β − β) ′ X ′ X(̂β − β)2ECM≤ F 2,n−2 (α)Con el mismo objetivo, se pueden utilizar diversos métodos de obtención de intervalossimultáneos del tipoˆβ j ± ∆ · ee( ˆβ j ) j = 0, 1Por ejemplo, el método de Scheffé proporciona los intervalos simultáneosˆβ j ± (2F 2,n−2 (α)) 1/2 · ee( ˆβ j ) j = 0, 16.4. Regresión pasando por el origenSupongamos que, por alguna razón justificada, el experimentador decide proponer elmodelo de regresión simpley i = β 1 x i + ɛ ii = 1, . . . , nque carece del término β 0 .El estimador MC del parámetro β 1 esˆβ 1 =∑xi y i∑ x2iy su varianza esvar( ˆβ 1 ) =1( ∑ ∑x2x 2 i var(y i ) = σ 2 1∑i )2 x2i100


El estimador de σ 2 esˆσ 2 = SCR/(n − 1) = 1n − 1(∑y2i − ˆβ 1∑xi y i)(6.11)Con la hipótesis de normalidad se pueden construir intervalos de confianza al 100(1−α) %para β 1ˆβ1 ± t n−1 (α) · ˆσ√1∑ x2ipara E[Y |x 0 ]√x 2 0ŷ 0 ± t n−1 (α) · ˆσ ∑ x2iy para predecir una futura observaciónŷ 0 ± t n−1 (α) · ˆσ√1 + x2 0∑ x2iEs preciso estar muy seguros para utilizar este modelo. Frecuentemente la relación entrela variable respuesta Y y la variable regresora x varía cerca del origen. Hay ejemplosen química y en otras ciencias. El diagrama de dispersión nos puede ayudar a decidir elmejor modelo. Si no estamos seguros, es mejor utilizar el modelo completo y contrastarla hipótesis H 0 : β 0 = 0.Una medida del ajuste del modelo a los datos es el error cuadrático medio 6.11 que sepuede comparar con el del modelo completo 6.6. El coeficiente de determinación R 2 noes un buen índice para comparar los dos tipos de modelos.Para el modelo sin β 0 , la descomposición∑y2i = ∑ (y i − ŷ i ) 2 + ∑ ŷ 2 ijustifica que la definición del coeficiente de determinación seaR 2 0 =∑ŷ2 i∑y2ique no es comparable con el R 2 de la definición 6.2.1. De hecho puede ocurrir que R 2 0 > R 2 ,aunque ECM 0 < ECM.6.5. CorrelaciónConsideremos la situación en la que las dos variables son aleatorias, tanto la la variablerespuesta como la variable explicativa o regresora. De modo que tomamos una muestraaleatoria simple de tamaño n formada por las parejas (x 1 , y 1 ), . . . , (x n , y n ) de dos variablesaleatorias (X, Y ) con distribución conjunta normal bivariante( )σ(X, Y ) ′ ∼ N 2 (µ, Σ) µ = (µ 1 , µ 2 ) ′ 2Σ = 1 σ 1 σ 2 ρσ 1 σ 2 ρ σ22donde cov(X, Y ) = σ 1 σ 2 ρ y ρ es el coeficiente de correlación entre Y y X.101


La distribución condicionada de Y dado un valor de X = x esdondeY |X = x ∼ N(β 0 + β 1 x, σ 2 2·1)β 0 = µ 1 − µ 2σ 2σ 1ρβ 1 = σ 2σ 1ρσ 2 2·1 = σ 2 2(1 − ρ 2 )De modo que la esperanza de Y |X = x es el modelo de regresión lineal simpleE[Y |X = x] = β 0 + β 1 xAdemás, hay una clara relación entre β 1 y ρ, ρ = 0 ⇔ β 1 = 0, en cuyo caso no hayregresión lineal, es decir, el conocimiento de X = x no nos ayuda a predecir Y .El método de la máxima verosimilitud proporciona estimadores de β 0 y β 1 que coincidencon los estimadores MC.Ahora también es posible plantearse inferencias sobre el parámetro ρ. En primer lugar,el estimador natural de ρ esS xyr =(S x S y ) 1/2yˆβ 1 =(SyS x) 1/2rAsí, ˆβ 1 y r están relacionados, pero mientras r representa una medida de la asociaciónentre X e Y , ˆβ 1 mide el grado de predicción en Y por unidad de X.Nota: Ya hemos advertido de que cuando X es una variable controlada, r tiene un significadoconvencional, porque su magnitud depende de la elección del espaciado de losvalores x i . En este caso, ρ no existe y r no es un estimador.También sabemos que r 2 = R 2 , de modo que el coeficiente de determinación es el cuadradode la correlación.Finalmente, el principal contraste sobre ρ es el de incorrelación H 0 : ρ = 0 que es equivalentea H 0 : β 1 = 0 y se resuelve con el estadísticot = r√ n − 2√1 − r2que, si H 0 es cierta, sigue una distribución t n−2 .6.6. Carácter lineal de la regresión simpleSupongamos ahora que estamos interesados en decidir si la regresión de Y sobre x esrealmente lineal. Consideremos las hipótesisH 0 : Y i = β 0 + β 1 x i + ɛ iH 1 : Y i = g(x i ) + ɛ i102


donde g(x) es una función no lineal desconocida de x. Sin embargo, vamos a ver quepodemos reconducir el contraste a la situación prevista en la sección 5.6.2 para la elecciónentre dos modelos lineales.Necesitamos n i valores de Y para cada x i . Con un cambio de notación, para cada i =1, . . . , k, seanx i : y i1 , . . . , y ini ȳ i = (1/n i ) ∑ j y ij s 2 y i= (1/n i ) ∑ j (y ij − ȳ i ) 2ȳ = (1/n) ∑ i,j y ij s 2 y = (1/n) ∑ i,j (y ij − ȳ) 2 n = n 1 + · · · + n kIntroducimos a continuación el coeficienteˆη 2 = 1 − 1 nk∑i=1n is 2 y is 2 y(6.12)que verifica 0 ≤ ˆη 2 ≤ 1, y mide el grado de concentración de los puntos (x i , y ij ) a lo largode la curva y = g(x) (ver figura 6.1).Figura 6.1: Curva que mejor se ajusta a los datosSi indicamos δ i = g(x i ) i = 1, . . . , k convertimos la hipótesis H 1 en una hipótesis linealcon k parámetros. Cuando H 1 es cierta, la estimación de δ i es ˆδ i = ȳ i . La identidadSCR H = SCR + (SCR H − SCR)es entonces∑(y ij − ˆβ 0 − ˆβ 1 x i ) 2 = ∑i,ji,jDividiendo por n tenemos(y ij − ȳ i ) 2 + ∑ in i (ȳ i − ˆβ 0 − ˆβ 1 x i ) 2s 2 y(1 − r 2 ) = s 2 y(1 − ˆη 2 ) + s 2 y(ˆη 2 − r 2 )y el contraste para decidir si la regresión es lineal se resuelve a través del estadísticoF = (ˆη2 − r 2 )/(k − 2)(1 − ˆη 2 )/(n − k)(6.13)que tiene (k − 2) y (n − k) grados de libertad. Si F resulta significativa, rechazaremos elcarácter lineal de la regresión.Observaciones:103


1) Solamente se puede aplicar este test si se tienen n i > 1 observaciones de Y paracada x i (i = 1, . . . , k).2) ˆη 2 es una versión muestral de la llamada razón de correlación entre dos variablesaleatorias X, Yη 2 = E[(g(X) − E(Y ))2 ]var(Y )siendoy = g(x) = E(Y |X = x)la curva de regresión de la media de Y sobre X. Este coeficiente η 2 verifica:a) 0 ≤ η 2 ≤ 1b) η 2 = 0 =⇒ y = E(Y ) (la curva es la recta y = constante).c) η 2 = 1 =⇒ y = g(X) (Y es función de X)3) Análogamente, podemos también plantear la hipótesis de que Y es alguna función(no lineal) de x frente a la hipótesis nula de que no hay ningún tipo de relación.Las hipótesis son:H 0 : y i = µ + ɛ iH 1 : y i = g(x i ) + ɛ isiendo µ constante. Entonces, con las mismas notaciones de antes,SCR H = ∑ i,jSCR = ∑ i,j(y ij − ȳ) 2 con n − 1 g.l.(y ij − ȳ i ) 2 con n − k g.l.Operando, se llega al estadísticoF =ˆη 2 /(k − 1)(1 − ˆη 2 )/(n − k)(6.14)Comparando 6.14 con 6.10, podemos interpretar 6.14 como una prueba de significaciónde la razón de correlación.Ejemplo 6.6.1Se mide la luminosidad (en lúmenes) de un cierto tipo de lámparas después de un tiempodeterminado de funcionamiento (en horas). Los resultados para una serie de 3, 2, 3, 2 y 2lámparas fueron:Tiempo (x)Luminosidad (Y)250 5460 5475 5400 (n 1 = 3)500 4800 4700 (n 2 = 2)750 4580 4600 4520 (n 3 = 3)1000 4320 4300 (n 4 = 2)1250 4000 4010 (n 5 = 2)104


Con estos datos podemos ilustrar algunos aspectos de la regresión lineal de la luminosidadsobre el tiempo de funcionamiento.Recta de regresión y coeficiente de correlación:¯x = 708,33 ȳ = 4680,42 n=12s x = 351,09 s y = 500,08 s xy = −170190,97r = −0,969 ˆβ1 = −1,381y − 4680,42 = −1,381(x − 708,33)La hipótesis H 0 : β 1 = 0 debe ser rechazada pues (ver 6.10) obtenemos t = 12,403(10 g.l.) que es muy significativo.Razón de correlación y carácter lineal de la regresión:ȳ 1 = 5445 ȳ 2 = 4750 ȳ 3 = 4566,7 ȳ 4 = 4310 ȳ 5 = 4005s 2 y 1= 1050 s 2 y 2= 2500 s 2 y 3= 1155,5 s 2 y 4= 100 s 2 y 5= 25ȳ = 4680,42 s 2 y = 250077 n = 12 k = 5Aplicando 6.13ˆη 2 = 1 − 1 nF =k∑i=1n is 2 y is 2 y(0,996 − 0,939)/3(1 − 0,996)/7= 0,996= 33,3con 3 y 7 g.l. Se puede rechazar que la regresión es lineal.Aplicando ahora 6.14F =0,996/4(1 − 0,996)/7 = 435,7vemos que la razón de correlación es muy significativa.6.7. Comparación de rectasEn primer lugar, vamos a estudiar detalladamente la comparación de dos rectas, ya queen este caso las fórmulas son un poco más sencillas. A continuación presentaremos el casogeneral cuyos detalles pueden verse en Seber[65] pág. 197-205.6.7.1. Dos rectasConsideremos dos muestras independientes de tamaños n 1 y n 2(x 11 , y 11 ), (x 12 , y 12 ), . . . , (x 1n1 , y 1n1 )(x 21 , y 21 ), (x 22 , y 22 ), . . . , (x 2n1 , y 2n1 )sobre la misma variable regresora x y la misma variable respuesta Y con distribuciónnormal, pero para dos poblaciones distintas.105


Los dos modelos de regresión simple para las dos poblaciones por separado sony 1i = α 1 + β 1 x 1i + ɛ 1i i = 1, . . . , n 1y 2i = α 2 + β 2 x 2i + ɛ 2i i = 1, . . . , n 2y sus estimadores MC sonˆα h = ȳ h − ˆβ h¯x hˆβh = r h(SyhS xh) 1/2h = 1, 2donde ¯x h , S xh , ȳ h , S yh , r h son las medias, sumas de cuadrados de las desviaciones y coeficientede correlación para cada una de las muestras h = 1, 2 respectivamente.También deberemos considerar ¯x, S x , ȳ, S y , r las medias, sumas de cuadrados de las desviacionesy coeficiente de correlación de las dos muestras conjuntamente.Vamos a considerar las dos regresiones simples como un único modelo lineal. Para ellohacemosY = (y 11 , . . . , y 1n1 , y 21 , . . . , y 2n2 ) ′y⎛⎞1 0 x 11 0⎛ ⎞. . . .α 11 0 xXγ =1n1 0⎜α 2⎟0 1 0 x 21⎝β 1⎠⎜⎟⎝.. . . ⎠ β 20 1 0 x 2n2donde X es (n 1 + n 2 ) × 4 de rg(X) = 4.Así pues, el modelo que presenta a las dos regresiones simples conjuntamente Y = Xγ +ɛes un modelo lineal siempre que los errores verifiquen las condiciones de Gauss-Markov.Entonces es necesario suponer que las varianzas de los errores para las dos poblacionesson iguales σ 2 1 = σ 2 2.Para este modelo lineal, las estimaciones MC de los parámetros α 1 , α 2 , β 1 , β 2 coincidencon las estimaciones MC de las rectas por separado ˆα 1 , ˆα 2 , ˆβ 1 , ˆβ 2 y la suma de cuadradosresidual es∑n 1SCR = (y 1i − ˆα 1 − ˆβ∑n 21 x 1i ) 2 + (y 2i − ˆα 2 − ˆβ 2 x 2i ) 2i=1i=1(6.15)= SCR 1 + SCR 2 = S y1 (1 − r1) 2 + S y2 (1 − r2)2= S y1 − ˆβ 1S 2 x1 + S y2 − ˆβ 2S 2 x2Para contrastar la hipótesis de homogeneidad de varianzas H 0 : σ 2 2 = σ 2 2 podemos utilizarel estadísticoF = SCR 1/(n 1 − 2)SCR 2 /(n 2 − 2) ∼ F n 1 −2,n 2 −2y la estimación de la varianza común esECM = SCR/(n 1 + n 2 − 4)También se pueden utilizar los contrastes que se explican en la sección 6.7.3.106


Test de coincidenciaSe trata de investigar si las dos rectas se pueden considerar iguales, es decir, vamos acontrastar la hipótesisH 0 : α 1 = α 2 , β 1 = β 2Ésta es una hipótesis lineal contrastable (el modelo es de rango máximo) del tipo H 0 :Aγ = 0 con⎛ ⎞( )α 11 −1 0 0Aγ =⎜α 2⎟0 0 1 −1 ⎝β 1⎠β 2donde A es 2 × 4 y q = rg A = 2. Luego podríamos utilizar las fórmulas obtenidas parael contraste. Sin embargo, en este caso es mucho más fácil calcular directamente la sumade cuadrados bajo la hipótesis.Bajo H 0 la estimación MC de los parámetros comunes α = α 1 = α 2 y β = β 1 = β 2 essencillamente la que se obtiene del modelo lineal conjunto, es decir, una única recta deregresión con todos los datos juntos:Luegoα ∗ = ȳ − β ∗¯x( ) 1/2β ∗ Sy= rS x∑n 1∑n 2SCR H = (y 1i − α ∗ − β ∗ x 1i ) 2 + (y 2i − α ∗ − β ∗ x 2i ) 2i=1= S y (1 − r 2 )De modo que el estadístico F esi=1F = (SCR H − SCR)/2SCR/(n 1 + n 2 − 4) = (S y(1 − r 2 ) − SCR)/2ECM(6.16)con distribución F 2,n1 +n 2 −4, si H 0 es cierta.Test de paralelismoAhora queremos comprobar la hipótesisH ′ 0 : β 1 = β 2para la que A es 1 × 4 y q = rg A = 1.Bajo H ′ 0, la estimación MC de los parámetros α 1 , α 2 y β = β 1 = β 2 se obtiene de laminimización de∑n 1∑n 2ξ = (y 1i − α 1 − βx 1i ) 2 + (y 2i − α 2 − βx 2i ) 2i=1i=1107


Las derivadas parciales son∂ξ∂α 1=∂ξ∂α 2=∑n 1i=1n 22(y 1i − α 1 − βx 1i )(−1)∑2(y 2i − α 2 − βx 2i )(−1)i=1n∂ξ1∂β = ∑∑n 22(y 1i − α 1 − βx 1i )(−x 1i ) + 2(y 2i − α 2 − βx 2i )(−x 2i )i=1Al igualar a cero, de las dos primeras ecuaciones tenemosy si sustituimos en la tercera ecuación˜β =i=1˜α 1 = ȳ 1 − ˜β¯x 1 ˜α 2 = ȳ 2 − ˜β¯x 2∑ n1∑ n1=∑ 2h=1De modo que la suma de cuadrados esi=1 x 1i(y 1i − ȳ 1 ) + ∑ n 2i=1 x 2i(y 2i − ȳ 2 )i=1 x 1i(x 1i − ¯x 1 ) + ∑ n 2i=1 x 2i(x 2i − ¯x 2 )∑ nhi=1 (x hi − ¯x h )(y hi − ȳ h )∑ 2h=1∑ nhi=1 (x hi − ¯x h ) 2= r 1(S x1 S y1 ) 1/2 + r 2 (S x2 S y2 ) 1/2S x1 + S x2∑n 1SCR H ′ = (y 1i − ˜α 1 − ˜βx∑n 21i ) 2 + (y 2i − ˜α 2 − ˜βx 2i ) 2==i=1i=12∑ ∑n h(y hi − ȳ h − ˜β(x hi − ¯x h )) 2h=1i=1n h2∑ ∑(y hi − ȳ h ) 2 − ˜β2∑ ∑n h2 (x hi − ¯x h ) 2h=1y el numerador del test F esSCR H ′ − SCR =i=12∑∑n hˆβ h2h=1 i=1Finalmente el estadístico F se puede escribirh=1i=1(x hi − ¯x h ) 2 − ˜β2∑ ∑n h2 (x hi − ¯x h ) 2h=1F = ˆβ 2 1S x1 + ˆβ 2 2S x2 − ˜β 2 (S x1 + S x2 )ECMque bajo la hipótesis sigue una distribución F 1,n1 +n 2 −4.En la práctica, primero se realiza un test de paralelismo y, si se acepta, se realiza el testcuyo estadístico esF =SCR H ′ − SCR HSCR H /(n 1 + n 2 − 3)Finalmente, y si este último ha sido no significativo, procederemos con el contraste decoincidencia.108i=1


Test de concurrenciaSe trata de comprobar la igualdad de los términos independientes de las dos rectas, esdecirH ′′0 : α 1 = α 2Como en el apartado anterior, se puede ver que el mínimo de la funciónse alcanza cuandoᾰ =∑n 1∑n 2ξ ∗ = (y 1i − α − β 1 x 1i ) 2 + (y 2i − α − β 2 x 2i ) 2i=1(n 1 + n 2 − x2 1·∑ n1i=1 x2 1i˘β 1 =) −1 (− x2 2·∑ n2i=1 x2 2i∑ n1i=1 (y 1i − ᾰ)x 1i∑ n1i=1 x2 1ii=1y·· − x 1·˘β 2 =∑ n1i=1 x 1iy 1i∑ n1i=1 x2 1i∑ n2i=1 (y 2i − ᾰ)x 2i∑ n2i=1 x2 2idonde y·· = ∑ 2 ∑ nhh=1 i=1 y hi, x 1· = ∑ n 1i=1 x 1i y x 2· = ∑ n 2i=1 x 2i.Con estos resultados se puede calcular la suma de cuadrados− x 2·∑ n2i=1 x 2iy 2i∑ n2i=1 x2 2i)SCR H ′′ =2∑ ∑n h(y hi − ᾰ − ˘β h x hi ) 2h=1 i=1y el estadísticoF = SCR H ′′ − SCRECMque, bajo H 0 ′′ , sigue una distribución F 1,n1 +n 2 −4.El test que acabamos de ver contrasta la concurrencia de las dos rectas en x = 0. Sideseamos comprobar la concurrencia en un punto x = c, bastará aplicar este mismo testsustituyendo los datos x hi por x hi − c. Si lo que queremos es saber simplemente si lasrectas se cortan (en algún punto), es suficiente con rechazar la hipótesis de paralelismo.6.7.2. Varias rectasSupongamos que tenemos la intención de comparar H rectas de regresiónY = α h + β h x h + ɛh = 1, . . . , Hdonde E(ɛ) = 0 y var(ɛ) = σ 2 es la misma para cada recta. Esta última condiciónes absolutamente imprescindible para poder aplicar los contrastes estudiados al modelolineal conjunto que ahora describiremos.Para cada h, consideremos los n h pares (x hi , y hi ) i = 1, . . . , n h de modo quey hi = α h + β h x hi + ɛ hii = 1, . . . , n hcon ɛ hi independientes e idénticamente distribuidos como N(0, σ 2 ).109


Sea Y = (y 11 , . . . , y 1n1 , . . . , y H1 , . . . , y Hn2 ) ′ y⎛⎞1 0 · · · 0 x 1 0 · · · 00 1 · · · 0 0 x 2 · · · 0Xγ = ⎜⎝.. . . ... . . .⎟. . ⎠0 0 · · · 1 0 0 · · · x H ⎜⎝donde x h = (x h1 , . . . , x hnh ) ′ , para cada h = 1, . . . , H.Con todo ello disponemos del modelo linealY = Xγ + ɛ⎛α 1α 2.α Hβ 1β 2.β H⎞⎟⎠donde X es N × 2H, con rg(X) = 2H y N = ∑ Hh=1 n h.De esta forma podemos contrastar cualquier hipótesis lineal de la forma H 0 : Aγ = c.La estimación MC de los parámetros α h , β h de este modelo se obtiene de cada rectaparticularˆβ h =∑i (y hi − ȳ h·)(x hi − ¯x h·)∑i (x hi − ¯x h·) 2ˆα h = ȳ h· − ˆβ h¯x h·= r h(SyhS xh) 1/2donde ¯x h·, S xh , ȳ h·, S yh , r h son las medias, sumas de cuadrados de las desviaciones y coeficientede correlación para cada una de las muestras h = 1, . . . , H respectivamente.También la suma de cuadrados general SCR es simplemente la suma de las sumas decuadrados de los residuos de cada recta de regresión por separado(H∑ nh)∑SCR = (y hi − ȳ h·) 2 − ˆβ∑n hh2 (x hi − ¯x h·) 2Test de coincidencia==h=1i=1H∑SCR h =h=1i=1H∑S yh (1 − rh)2h=1H∑S yh − ˆβ hS 2 xhh=1Se trata de investigar si las rectas son iguales, es decir, siH 0 : α 1 = α 2 = · · · = α H (= α) ; β 1 = β 2 = · · · = β H (= β)que podemos escribir matricialmente con una matriz A de tamaño (2H − 2) × 2H derango 2H − 2.110


A partir de las estimaciones MC de los parámetros α, β que se obtienen de la rectaajustada con todos los puntos reunidos en una única muestra, la suma de cuadradosresidual esdondeSCR H ==β ∗ =H∑ ∑n h(y hi − ȳ·· − β ∗ (x hi − ¯x··)) 2h=1i=1H∑ ∑n h∑ H∑n h(y hi − ȳ··) 2 − (β ∗ ) 2 (x hi − ¯x··) 2h=1i=1= S y (1 − r 2 )∑hh=1∑∑ i(y hi − ȳ··)(x hi − ¯x··)∑i (x = rhi − ¯x··) 2hi=1(SyS x) 1/2y los estadísticos ¯x··, S x , ȳ··, S y , r son las medias, sumas de cuadrados de las desviacionesy coeficiente de correlación de la muestra conjunta.Entonces el estadístico F para el contraste de esta hipótesis esF = (SCR H − SCR)/(2H − 2)SCR/(N − 2H)(6.17)Contraste de paralelismoAhora se trata de investigar si las pendientes de las rectas son iguales, es decir, siH ′ 0 : β 1 = β 2 = · · · = β Hque matricialmente es equivalente a⎛0 0 · · · 0 1 0 · · · 0 −1H 0 ′ 0 0 · · · 0 0 1 · · · 0 −1: ⎜⎝ . .... . . .... . .0 0 · · · 0 0 0 · · · 1 −1⎞( α⎟⎠ β)= 0En este caso, la matriz A que representa las restricciones de los parámetros es (H−1)×2Hy su rango es H − 1. De modo que tomando, en el contraste F , los valores q = H − 1,n = N y k = 2H, el estadístico especificado para este contraste esF = (SCR H ′ − SCR)/(H − 1)SCR/(N − 2H)Para calcular el numerador de este estadístico podemos proceder con las fórmulas generalesestudiadas u observar las peculiaridades de este modelo que permiten obtenerSCR H ′.Primero hay que minimizar ∑ ∑h i (y hi−α h −βx hi ) 2 , de donde se obtienen los estimadores˜α h = ȳ h· − ˜β¯x h·h = 1, . . . , H111


∑ ∑h i ˜β =x hi(y hi − ȳ∑ ∑h·)h i x hi(x hi − ¯x∑ ∑h·)h= ∑ i(y hi − ȳ h·)(x hi − ¯x∑h·)h i (x hi − ¯x h·) 2∑h=r h(S xh S yh )∑1/2h S xhEste último estimador es un estimador conjunto (pooled) de la pendiente común.Con estas estimaciones se procede a calcular la suma de cuadradosSCR H ′ =H∑S yh − ˜β 2h=1h=1∑ HS xhy el estadístico F esF = (∑ h ˆβ 2 h S xh − ˜β 2 ∑ h S xh)/(H − 1)SCR/(N − 2H)que bajo H ′ 0 sigue una distribución F H−1,N−2H .En la práctica, es aconsejable comenzar por un contraste de paralelismo y, si se acepta,continuar con el contraste cuyo estadístico esF = (SCR H ′ − SCR H)/(H − 1)SCR H /(N − H − 1)Finalmente, y si este último ha sido no significativo, procederemos con el contraste 6.17.Test de concurrenciaDeseamos contrastar la hipótesis de que todas las rectas se cortan en un punto del eje delas Y , es decir, para x = 0:H ′′0 : α 1 = α 2 = · · · = α H (= α)En este caso, las estimaciones de los parámetros bajo la hipótesis sonᾰ =(N − x2 1·∑i x2 1i) −1 (− · · · − x2 H·∑i x2 Hi˘β h =∑i (y hi − ᾰ)x hi∑i x2 hidonde x h· = ∑ i x hi y y·· = ∑ ∑h i y hi.La suma de cuadrados residual esSCR H ′′ = ∑ hy·· − x ∑1·∑ i x 1iy 1i− · · · − x ∑H·∑ i x Hiy Hii x2 1ih = 1, 2, . . . , H∑(y hi − ᾰ − ˘β h x hi ) 2y con ella se puede calcular el estadístico F para el contrasteiF = (SCR H ′′ − SCR)/(H − 1)SCR/(N − 2H)112i x2 Hi)−


Cuando los valores de las x son los mismos para todas las rectas, tenemos que n h = n yx hi = x i para toda h = 1, . . . , H y así las fórmulas son más simplesᾰ =(Hn − ∑Hx2·i x2 i) −1 (y·· − x·∑∑ i x )iy·ii x2 i= ȳ·· − ¯x ∑ ∑h i y ∑hi(x i − ¯x)H ∑ hi (x =i − ¯x) 2 ȳ·· − ¯xˆβ hHdonde cada ˆβ h es la estimación de la pendiente de la h-ésima recta, mientras que ᾰ es elcorte de la recta de regresión media.En este casoSCR H ′′ = ∑ h∑yhi 2 − (∑ h∑i x iy hi ) 2− ᾰ 2 Hni∑i x2 iAdemás, como ȳ·· y ˆβ h están incorrelacionadosvar(ᾰ) = var(ȳ··) + H ¯x 2 var( ˆβ h )= σ2HH 2( 1n + ¯x 2∑i (x i − ¯x) 2 )=∑i (x i − ¯x) 2∑i x2 iσ 2 ∑ i x2 inH ∑ i (x i − ¯x) 2de modo que tenemos la posibilidad de construir un intervalo de confianza para α ya que( nH∑i(ᾰ − α)(x )i − ¯x) 2 1/2ECM ∑ ∼ t H(n−2)i x2 idonde ECM = SCR/(nH − 2H).Por otra parte, también podemos estudiar si las rectas se cortan en un punto x = c distintodel cero. Simplemente reemplazaremos x hi por x hi − c en todas las fórmulas anteriores.La coordenada y del punto de corte sigue siendo estimada por ᾰ.Sin embargo, si el punto de corte es desconocido x = φ, la hipótesis a contrastar es muchomás complicadao tambiény desgraciadamente no es lineal.H ′′′0 : α h + β h φ = cte. = ᾱ + ¯βφ h = 1, 2, . . . , hH 0 ′′′ : α 1 − ᾱβ 1 − ¯β = · · · = α H − ᾱβ H − ¯β6.7.3. Contraste para la igualdad de varianzasEn los contrastes de comparación de rectas se hace la suposición de la igualdad de lasvarianzas σh 2 de los modelos lineales simples h = 1, . . . , H.Los estimadores de dichas varianzas son los errores cuadráticos medios particularesS 2 h =∑i (y hi − ȳ h· − ˆβ h (x hi − ¯x h·)) 2n h − 2113


y sabemos quePara contrastar la hipótesis(n h − 2)S 2 h/σ 2 h ∼ χ 2 n h −2 h = 1, . . . , H indep.H 0 : σ 2 1 = · · · = σ 2 Hhay varios métodos, desde los más clásicos de Bartlett(1937) o Hartley(1950), muy sensiblesa la no normalidad de los datos, hasta los más robustos entre los que destaca el deLevene con sus variantes.Si hacemos f h = n h − 2, el test de Bartlett esdondeS 2 =T = (∑ f h )logS 2 − ∑ (f h logS 2 h )C∑ ∑fh Sh∑ 2 f−1h− ( ∑ f h ) −1C = 1 +fh 3(H − 1)Si H 0 es cierta, aproximadamente T ∼ χ 2 H−1 .Cuando los f h son todos iguales, Hartley propone el estadísticoF = máx{S2 1, . . . , S 2 H }mín{S 2 1, . . . , S 2 H }Sin embargo, como se trata de comparar las varianzas a partir de las observaciones oréplicas de H poblaciones, es mejor considerar el problema como un análisis de la varianzade un factor. La prueba robusta de Levene sobre la homogeneidad de varianzas se basaen el análisis de la varianza de un factor con los datos z hi = |y hi − ȳ h·|. Para reforzar laresistencia del método se puede utilizar como medida de localización la mediana.Finalmente podemos añadir que, cuando la heterogeneidad de las varianzas es evidente,siempre es posible estudiar alguna transformación potencia de los datos originales y hi quemejore la situación.6.8. Un ejemplo para la reflexiónLa siguiente tabla presenta cinco conjuntos de datos para cinco modelos de regresiónsimple diferentes: los datos bajo el encabezamiento x 1 (a-d) son los valores de una variableregresora que es común en las cuatro regresiones con las variables respuesta y(a), y(b),y(c) y y(d). Las series de datos x(e) y y(e) definen otra regresión.Se puede comprobar que, en los cinco casos, la regresión de y sobre x conduce exactamentea la misma rectay = 0,520 + 0,809xLa varianza explicada, la no explicada i la varianza residual son idénticas en todas lasregresiones, así como también el coeficiente de determinación.Por lo tanto, las cinco regresiones parecen ser formalmente idénticas. A pesar de ello, sidibujamos en cada caso los diagramas de dispersión y la recta de regresión, observaremosque nuestra impresión se modifica radicalmente: en la página 116 tenemos los gráficospara los cinco conjuntos de datos.114


obs. x 1 (a-d) y(a) y(b) y(c) y(d) x(e) y(e)1 7 5,535 0,103 7,399 3,864 13,715 5,6542 8 9,942 3,770 8,546 4,942 13,715 7,0723 9 4,249 7,426 8,468 7,504 13,715 8,4964 10 8,656 8,792 9,616 8,581 13,715 9,9095 12 10,737 12,688 10,685 12,221 13,715 9,9096 13 15,144 12,889 10,607 8,842 13,715 9,9097 14 13,939 14,253 10,529 9,919 13,715 11,3278 14 9,450 16,545 11,754 15,860 13,715 11,3279 15 7,124 15,620 11,676 13,967 13,715 12,74610 17 13,693 17,206 12,745 19,092 13,715 12,74611 18 18,100 16,281 13,893 17,198 13,715 12,74612 19 11,285 17,647 12,590 12,334 13,715 14,16413 19 21,385 14,211 15,040 19,761 13,715 15,58214 20 15,692 15,577 13,737 16,382 13,715 15,58215 21 18,977 14,652 14,884 18,945 13,715 17,00116 23 17,690 13,947 29,431 12,187 33,281 27,435Cuadro 6.4: Datos de cinco regresiones simplesnúmero de obs. n = 16 ˆβ1 = 0,809 ee( ˆβ 1 )=0,170media de las x 1 ¯x 1 = 14,938 ˆβ0 = 0,520 ee( ˆβ 0 )=2,668media de las y ȳ = 12,600 R 2 = 0,617∑ (yi − ȳ) 2 = 380,403 con 15 g.l.∑ (yi − ŷ i ) 2 = 145,66 con 14 g.l.ˆσ = 3,226Cuadro 6.5: Principales resultados de la regresión simpleLa figura a es la que representan todos los manuales que explican la regresión simple.El modelo de la regresión lineal simple parece correcto y adaptado a los datos quepermite describir correctamente. El modelo parece válido.La figura b sugiere que el modelo lineal simple no está absolutamente adaptadoa los datos que pretende describir. Más bien, la forma adecuada es la cuadráticacon una débil variabilidad. El modelo lineal simple es incorrecto; en particular,las predicciones que él proporciona son sesgadas: subestimaciones para los valorespróximos a la media de x y sobreestimaciones para el resto.La figura c sugiere todavía que el modelo lineal simple no se adapta a los datos,pero una única observación parece ser la causa. Por contra, las otras observacionesestán bien alineadas pero respecto a otra recta de ecuación y = 4,242+0,503x 1 . Haypues, un dato verdaderamente sospechoso. La reacción natural del experimentadorserá la de investigar con detalle la razón de esta desviación. ¿No será un error detranscripción? ¿Hay alguna causa que justifique la desviación y que no tiene encuenta el modelo lineal simple?115


30a30b2020101000 10 20 3000 10 20 3030c30d2020101000 10 20 3000 10 20 3030e201000 10 20 30Figura 6.2: Gráficos de los cinco conjuntos de datos con la recta de regresiónLa figura d tiene un análisis más sutil: los puntos rodean la recta, pero aumentanlas desviaciones a medida que crecen los valores de la variable regresora. Se haceevidente que la suposición de una varianza común de los residuos no se verifica.Finalmente, la figura e es más contundente: el modelo parece correcto. Si la calidadde los datos no puede ponerse en duda, este conjunto es tan válido como el primeroy los resultados numéricos de la regresión son correctos. Pero nosotros intuimos queeste resultado no es lo suficientemente satisfactorio: todo depende de la presencia116


de un único punto, si lo suprimimos, incluso no será posible calcular la pendientede la recta, ya que la suma de los cuadrados de las desviaciones de las x es cero.Éste no es el caso del primer conjunto de datos, donde la supresión de un punto noconduce más que a una ligera modificación de los resultados. Así pues, deberíamosser extremadamente cautos con las posibles utilizaciones de este modelo. Además,debemos indicar que el experimento definido por los valores de x es muy malo.Naturalmente, los conjuntos de datos b, c, d y e muestran casos extremos que, en lapráctica, no hallaremos de forma tan clara. Ésta es una razón suplementaria para dotar alexperimentador de medios para detectarlos. Cuando las desviaciones de las suposicionesdel modelo son débiles, los resultados no serán erróneos, pero si las suposiciones songroseramente falsas, las conclusiones pueden incluso no tener sentido. La herramientafundamental para la validación de las hipótesis del modelo es el análisis de los residuosdel modelo estimado.El análisis de los residuos (ver capítulo 9) tiene como objetivo contrastar a posteriorilas hipótesis del modelo lineal. Es especialmente importante cuando, si tenemos un únicovalor de y para cada x, los contrastes de homocedasticidad, normalidad e independenciano se pueden hacer a priori. Analizaremos los residuos para comprobar:a) si la distribución es aproximadamente normal;b) si su variabilidad es constante y no depende de x o de otra causa;c) si presentan evidencia de una relación no lineal entre las variables;d) si existen observaciones atípicas o heterogéneas respecto a la variable x, la y oambas.6.9. Ejemplos con RVamos a recuperar el ejemplo de la sección 1.8 donde se calculan algunas regresiones apartir del ejemplo inicial con los datos de la tabla 1.1. En esa sección, el cálculo de laregresión simple se realiza con la función lsfit(x,y) que asignamos al objeto recta.ls> recta.ls recta rectaCall:lm(formula = rvel ~ dens)Coefficients:(Intercept) dens8.089813 -0.05662558Degrees of freedom: 24 total; 22 residualResidual standard error: 0.2689388117


También se pueden obtener otros datos importantes con la función summary:> recta.resumen recta.resumenCall: lm(formula = rvel ~ dens)Residuals:Min 1Q Median 3Q Max-0.3534 -0.2272 -0.03566 0.1894 0.5335Coefficients:Value Std. Error t value Pr(>|t|)(Intercept) 8.0898 0.1306 61.9295 0.0000dens -0.0566 0.0022 -26.0076 0.0000Residual standard error: 0.2689 on 22 degrees of freedomMultiple R-Squared: 0.9685F-statistic: 676.4 on 1 and 22 degrees of freedom, the p-value is 0Correlation of Coefficients:(Intercept)dens -0.9074Además se puede acceder a muchos valores de los objetos recta y recta.resumen deforma directa.> recta$coef(Intercept) dens8.089813 -0.05662558> recta.resumen$sigma[1] 0.2689388En general, podemos saber los diferentes resultados que se obtienen con el comando lmsi escribimos names(recta) o names(summary(recta)).> names(recta)[1] "coefficients" "residuals" "fitted.values" "effects" "R" "rank"[7] "assign" "df.residual" "contrasts" "terms" "call"> names(summary(recta))[1] "call" "terms" "residuals" "coefficients" "sigma" "df"[7] "r.squared" "fstatistic" "cov.unscaled" "correlation"De modo que podemos utilizar estos datos para nuevos cálculos. Por ejemplo podemos calcularla matriz estimada de covarianzas entre los estimadores de los parámetros ˆσ 2 (X ′ X) −1así:> cov.beta cov.beta(Intercept) dens(Intercept) 0.017064 -0.000258dens -0.000258 0.000005118


Por otra parte, y aunque el resumen proporcionado por la función summary(recta) incluyeel test F de significación de la regresión, la tabla del Análisis de la Varianza se puedecalcular con la función aov.> summary(aov(recta))Df Sum of Sq Mean Sq F Value Pr(F)dens 1 48.92231 48.92231 676.3944 0Residuals 22 1.59122 0.07233También se pueden calcular intervalos de confianza al 95 % para los parámetros β 0 , β 1 .> coef(recta)(Intercept) dens8.089813 -0.05662558> coef.recta names(coef.recta)[1] "(Intercept)" "dens"> names(coef.recta) coef.recta1 28.089813 -0.05662558> ee0 ee1 c(coef.recta[1]+qt(0.025,22)*ee0,coef.recta[1]+qt(0.975,22)*ee0)[1] 7.818905 8.360721> c(coef.recta[2]+qt(0.025,22)*ee1,coef.recta[2]+qt(0.975,22)*ee1)[1] -0.06126290 -0.05198826Cabe señalar que si el modelo de regresión simple debe pasar por el origen, es decir, notiene término de intercepción, podemos utilizar la función lsfit(x,y,int=F) o la funciónlm(y ~ x - 1).La predicción puntual o por intervalo de nuevos valores de la variable respuesta se puedehacer con la función predict del modelo lineal. Atención, porque los argumentos en R yS-PLUS difieren.Por último, podemos añadir que en R existe un conjunto de datos similares a los explicadosen la sección 6.8:> data(anscombe)> summary(anscombe)119


6.10. EjerciciosEjercicio 6.1Probar que bajo el modelo lineal normal y i = β 0 + β 1 x i + ɛ i las estimaciones MC ˆβ 0 , ˆβ 1son estocásticamente independientes si y sólo si ∑ x i = 0.Ejercicio 6.2Comprobar que la pendiente de la recta de regresión esdonde r es el coeficiente de correlaciónEjercicio 6.3r =ˆβ 1 = r S1/2 ySx1/2= r s ys xS xy(S x S y ) 1/2 = s xys x s yConsideremos el modelo de regresión simple alternativoy i = γ 0 + γ 1 (x i − ¯x) + ɛ ii = 1, . . . , nLa matriz de diseño asociada es X ∗ = (1, x−¯x1) donde 1 = (1, . . . , 1) ′ y x = (x 1 , . . . , x n ) ′ .Este modelo es equivalente al modelo 6.1 ya que 〈X ∗ 〉 = 〈X〉.Calcular las estimaciones ̂γ = (X ′ ∗X ∗ ) −1 X ′ ∗Y para comprobar queˆγ 0 = ȳˆγ 1 = ˆβ 1 = ∑ x i − ¯xS xCalcular la matriz de varianzas-covarianzas var(̂γ) = σ 2 (X ′ ∗X ∗ ) −1 y comprobar queˆγ 0 = ȳ está incorrelacionado con ˆγ 1 = ˆβ 1 . A partir de este resultado, calcular var( ˆβ 1 ) =var(ˆγ 1 ) y var( ˆβ 0 ) = var(ȳ − ˆβ 1¯x).Calcular también la matriz proyección P = X ∗ (X ′ ∗X ∗ ) −1 X ′ ∗ = X(X ′ X) −1 X ′ .Ejercicio 6.4En un modelo de regresión simple, con β 0 , demostrar que se verifican las siguientes propiedadespara las predicciones ŷ i = ˆβ 0 + ˆβ 1 x i y los residuos e i = y i − ŷ i :(i) La suma de los residuos es cero: ∑ e i = 0.(ii) ∑ y i = ∑ ŷ i(iii) La suma de los residuos ponderada por los valores de la variable regresora es cero:∑xi e i = 0.y i(iv) La suma de los residuos ponderada por las predicciones de los valores observadoses cero: ∑ ŷ i e i = 0.120


Ejercicio 6.5 Modelo de regresión simple estandarizadoA partir de los datos observados de una variable respuesta y i y de una variable regresorax i se definen unas nuevas variables estandarizadas comou i = x i − ¯xS 1/2xv i = y i − ȳS 1/2yi = 1, . . . , nLa estandarización significa que los datos transformados están centrados y los vectoresu = (u 1 , . . . , u n ) ′ , v = (v 1 , . . . , v n ) ′ son de longitud uno, es decir, ||u|| = 1 y ||v|| = 1.Se define el modelo de regresión simple estandarizado comov i = b 1 u i + ɛ ii = 1, . . . , nEn este modelo desaparece de manera natural la ordenada en el origen al realizar elcambio de variables.Comprobar queˆβ 1 = ˆb 1√SyS xˆβ 0 = ȳ − ˆβ 1¯xAdemás, la “matriz” u ′ u = ||u|| 2 = 1 y la estimación de b 1 es muy sencilla ˆb 1 = r.Ejercicio 6.6En el caso de una regresión lineal simple pasando por el origen y con la hipótesis denormalidad, escribir el contraste de la hipótesis H 0 : β 1 = b 1 , donde b 1 es una constanteconocida.Ejercicio 6.7Para el modelo lineal simple consideremos la hipótesisH 0 : y 0 = β 0 + β 1 x 0donde (x 0 , y 0 ) es un punto dado. Esta hipótesis significa que la recta de regresión pasapor el punto (x 0 , y 0 ). Construir un test para esta hipótesis.Ejercicio 6.8Hallar la recta de regresión simple de la variable respuesta raíz cuadrada de la velocidadsobre la variable regresora densidad con los datos de la tabla 1.1 del capítulo 1.Comprobar las propiedades del ejercicio 6.4 para estos datos.Calcular la estimación de σ 2 y, a partir de ella, las estimaciones de las desviacionesestándar de los estimadores de los parámetros ˆβ 0 y ˆβ 1 .Escribir los intervalos de confianza para los parámetros con un nivel de confianza del95 %.Construir la tabla para la significación de la regresión y realizar dicho contraste.Hallar el intervalo de la predicción de la respuesta media cuando la densidad es de 50vehículos por km. Nivel de confianza: 90 %.121


Ejercicio 6.9Comparar las rectas de regresión de hombres y mujeres con los logaritmos de los datosdel ejercicio 1.4.Ejercicio 6.10Se admite que una persona es proporcionada si su altura en cm es igual a su peso en kgmás 100. En términos estadísticos si la recta de regresión de Y (altura) sobre X (peso)esY = 100 + XContrastar, con un nivel de significación α = 0,05, si se puede considerar válida estahipótesis a partir de los siguientes datos que corresponden a una muestra de mujeresjóvenes:X : 55 52 65 54 46 60 54 52 56 65 52 53 60Y : 164 164 173 163 157 168 171 158 169 172 168 160 172Razonar la bondad de la regresión y todos los detalles del contraste.Ejercicio 6.11√El período de oscilación de un péndulo es 2πlg, donde l es la longitud y g es la constantede gravitación. En un experimento observamos t ij (j = 1, . . . , n i ) períodos correspondientesa l i (i = 1, . . . , k) longitudes.(a) Proponer un modelo, con las hipótesis que se necesiten, para estimar la constante2π√ gpor el método de los mínimos cuadrados.(b) En un experimento se observan los siguientes datos:Contrastar la hipótesis H 0 : 2π √ g= 2.longitud período18,3 8,58 7,9 8,2 7,820 8,4 9,221,5 9,7 8,95 9,215 7,5 8122


Capítulo 7Una recta resistentePara ajustar una linea recta de la formay = a + bxa un conjunto de datos (x i , y i ), i = 1, . . . , n se han desarrollado varios métodos a lo largode la historia. La regresión por mínimos cuadrados que hemos explicado es el métodomás conocido y más ampliamente utilizado. Es un método que involucra cálculos algebraicamentesimples, utiliza la inferencia deducida para la distribución normal y requiereúnicamente una derivación matemática sencilla. Desgraciadamente, la recta de regresiónmínimo-cuadrática no es resistente. Un dato “salvaje” puede tomar fácilmente el controlde la recta ajustada y conducirnos a conclusiones engañosas sobre la relación entre y yx. La llamada recta resistente de los tres grupos evita esta dificultad. Así, esta recta esmuy útil en la exploración de los datos y-versus-x.A continuación exponemos las principales ideas en este tema del clásico libro UnderstandingRobust and Exploratory Data Analysis de Hoaglin, Mosteller y Tukey [39].7.1. Recta resistente de los tres grupos7.1.1. Formación de los tres gruposEmpezaremos por ordenar los valores x de manera que x 1 ≤ x 2 ≤ · · · ≤ x n . Entonces,sobre la base de estos valores ordenados, dividiremos los n puntos (x i , y i ) en tres grupos:un grupo izquierdo, un grupo central y un grupo derecho, de tamaño tan igual como seaposible. Cuando no hay repeticiones en les x i , el número de puntos en cada uno de lostres grupos depende del residuo de la división de n por 3:Grupo n = 3k n = 3k + 1 n = 3k + 2Izquierdo k k k + 1Central k k + 1 kDerecho k k k + 1Repeticiones de los x i nos harán estar alerta para formar tres conjuntos que no separenlos puntos con igual x en conjuntos diferentes. Un examen detallado del tratamiento delas repeticiones nos puede llevar incluso a formar únicamente dos grupos. Cuando cadauno de los tercios ha sido definitivamente formado, determinaremos las dos coordenadasde unos puntos centrales, uno para cada grupo, con la mediana de los valores de las x y123


la mediana de los valores de las y, por separado. Etiquetaremos las coordenadas de estostres puntos centrales con las letras I de izquierda, C de centro i D de derecha:(x I , y I ), (x C , y C ), (x D , y D )La figura 7.1 muestra los puntos observados y los puntos centrales de un ejemplo hipotéticocon 9 puntos. Como se ve en este gráfico, ninguno de los puntos centrales coincide con unpunto de los datos, ya que las medianas de les x y de las y se han calculado separadamente.A pesar de ello, los tres podrían ser puntos observados, como ocurre a menudo, cuandolas x y las y siguen el mismo orden.Figura 7.1: Puntos observados y puntos centrales en un ejemplo hipotético.Este sistema de determinación de los puntos centrales de cada grupo es el que da a larecta que calcularemos su resistencia. Cuanto mayor es el número de puntos observadosen cada grupo, la mediana proporciona la resistencia a los valores influyentes de x, y oambos.7.1.2. Pendiente e intercepciónAhora utilizaremos los puntos centrales para calcular la pendiente b y la ordenada en elorigen o intercepción a de la recta y = a + bx que ajusta los valores observados y permitela predicción de los valores x i observados y cualquier otro valor apropiado de x. En estesentido, la pendiente b nos dice cuantas unidades de y cambian por una unidad de x. Esrazonable obtener esta información de los datos, en concreto de los puntos centrales delos grupos izquierdo y derecho:b 0 = y D − y Ix D − x ILa utilización de los dos puntos centrales de los grupos extremos nos da la ventaja demedir el cambio de y sobre un intervalo bastante ancho de x, siempre que hayan suficientespuntos observados en estos grupos para asegurar la resistencia.Cuando tomamos la pendiente b 0 para ajustar el valor y de cada punto central, la diferenciaes el valor de la intercepción de una linea con pendiente b 0 que pasa exactamentepor este punto. La intercepción ajustada es la media de estos tres valores:a 0 = 1 3 [(y I − b 0 x I ) + (y C − b 0 x C ) + (y D − b 0 x D )]De nuevo, como los puntos centrales están basados en la mediana, a 0 es resistente.124


El ajuste de una recta en términos de pendiente e intercepción es convencional, perousualmente artificial. La intercepción, que da el valor de y cuando x = 0, puede serdeterminada de forma imprecisa, especialmente cuando los valores de x están todos muyalejados del cero y el cero es un valor sin sentido en el rango de las x. Ajustar la rectaen términos de pendiente y un valor central de las x, como la media, la mediana o x C , esmucho más útil. Nosotros escogeremos x C por conveniencia y entonces la recta inicial esy = a ∗ 0 + b 0 (x − x C )donde b 0 es la de antes y el valor central (también llamado nivel) esa ∗ 0 = 1 3 [(y I − b 0 (x I − x C )) + y C + (y D − b 0 (x D − x C ))]Como ahora explicaremos, esta recta se toma como punto de partida para ajustar unamejor con iteraciones sucesivas.7.1.3. Ajuste de los residuos e iteracionesUna vez que hemos obtenido la pendiente y el nivel de la recta ajustada, el siguiente pasoes calcular los residuos para cada puntor i = y i − [a ∗ + b(x i − x C )]Los gráficos de los residuos son muy útiles en la evaluación del ajuste y para descubrirpatrones de comportamiento inesperados. Pero ahora, de momento, resaltaremos una propiedadgeneral de todo conjunto de residuos, en nuestro problema actual o en situacionesmás complejas:Si substituimos los valores originales de y por los residuos, es decir, si utilizamos(x i , r i ) en lugar de (x i , y i ), i = 1, . . . , n y repetimos el proceso de ajuste,llegaremos a un ajuste cero.Para una linea recta esto significa que, con los puntos (x i , r i ), i = 1, . . . , n como datos, obtendremosuna pendiente cero y un nivel cero. En otras palabras, los residuos no contienenmás aportación a la recta ajustada.Una importante característica de los procedimientos resistentes es que habitualmenterequieren iteraciones. Es el caso de la recta resistente de los tres grupos. Los residuos dela recta con la pendiente b 0 y el nivel a ∗ 0 no tienen pendiente y nivel cero cuando hacemosel ajuste de la recta con las mismas x i , aunque los nuevos valores de pendiente y nivelson substancialmente menores (en magnitud) que b 0 y a ∗ 0. Por esta razón, pensaremos enb 0 y a ∗ 0 como los valores iniciales de una iteración.El ajuste a una recta de los residuos obtenidos con la recta inicial da unos valores δ 1 y γ 1a la pendiente y el nivel, respectivamente. En concreto, utilizaremos los residuos inicialesr (0)i = y i − [a ∗ 0 + b 0 (x i − x C )], i = 1, . . . , nen lugar de los y i y repetiremos los pasos del proceso de ajuste. Como el conjunto de losx i no ha cambiado, los tres grupos y las medianas de los x en los puntos centrales seránlos mismos.125


Cuadro 7.1: Edad y altura de unos niños en una escuela privada.Niño Edad Altura(meses) (cm)1 109 137,62 113 147,83 115 136,84 116 140,75 119 132,76 120 145,47 121 135,08 124 133,09 126 148,510 129 148,311 130 147,512 133 148,813 134 133,214 135 148,715 137 152,016 139 150,617 141 165,318 142 149,9Fuente: B.G. Greenberg (1953). “The use of analysis of covariance and balancingin analytical studies”, American Journal of Public Health, 43, 692-699(datos de la tabla 1, pág. 694).La pendiente y el nivel ajustados son b 0 + δ 1 y a ∗ 0 + γ 1 y los nuevos residuosr (1)i = r (0)i − [γ 1 + δ 1 (x i − x C )], i = 1, . . . , nAhora podemos avanzar con otra iteración. En general no sabremos si hemos conseguidoun conjunto apropiado de residuos, hasta que verifiquemos el ajuste cero. En la prácticacontinuaremos las iteraciones hasta que el ajuste de la pendiente sea suficientementepequeño en magnitud, del orden del 1 % o del 0,01 % del tamaño de b 0 . Cada iteraciónañade su pendiente y su nivel a los valores previosyb 1 = b 0 + δ 1 , b 2 = b 1 + δ 2 , . . .a ∗ 1 = a ∗ 0 + γ 1 , a ∗ 2 = a ∗ 1 + γ 2 , . . .Las iteraciones son normalmente pocas y los cálculos no muy largos.Ejemplo 7.1.1En una discusión en 1953, Greenberg consideró los datos de edad y altura de dos muestrasde niños, una de una escuela privada urbana y la otra de una escuela pública rural. Enla tabla 7.1 se reproducen los datos de los 18 niños de la escuela privada.Aunque los datos no siguen claramente una linea recta, su patrón no es notablementecurvado y el ajuste a una linea puede resumir cómo la altura y crece con la edad x en126


este grupo de niños. Sólo los niños 13 y 17 tienen puntos muy separados y veremos cómoinfluyen en el conjunto. Dado que 18 es divisible por 3 y los datos x no tienen repeticiones,cada grupo contiene seis puntos. Los puntos centrales de cada grupo son(x I , y I ) = (115,50, 139,15)(x C , y C ) = (127,50, 147,90)(x D , y D ) = (138,00, 150,25)de forma que el valor inicial de la pendiente esy el valor inicial del nivelb 0 =150,25 − 139,15138,00 − 115,50 = 0,4933a ∗ 0 = 1 [(139,15−0,4933(115,5−127,5))+147,9+(150,25−0,4933(138−127,5))] = 146,01333180160Altura140120100 110 120 130 140 150EdadFigura 7.2: Altura versus edad para los niños de una escuela privada.Los datos de la tabla 7.2 están ya ordenados en función de los valores de x = Edad y sehan calculado los residuos de la recta inicial.Para ver cómo van las iteraciones, calcularemos los primeros ajustes de la pendiente ydel nivel−1,0500 − 0,5367δ 1 =138,00 − 115,50 = −0,0705γ 1 = −0,1519Notemos que δ 1 es sustancialmente menor en magnitud que b 0 , pero todavía no es negligible.Dos iteraciones más nos proporcionan unos valores para los que el proceso puedeparar: δ 3 = −0,0006 es menor que un 1 % de la pendiente acumulada.La recta ajustada esy = 145,8643 + 0,4285(x − 127,5)La figura 7.3 representa los residuos de este ajuste. En general, el aspecto global es bastantesatisfactorio. Sólo los dos puntos destacados, el del niño 13 y el del niño 17, seseparan mucho y son atípicos. También hay tres residuos demasiado negativos para niños127


Cuadro 7.2: Edad y altura de los niños en los tres grupos y residuos de la recta inicialNiño Edad Altura Residuo(meses) (cm)1 109 137,6 0,71332 113 147,8 8,94003 115 136,8 −3,04674 116 140,7 0,36005 119 132,7 −9,12006 120 145,4 3,08677 121 135,0 −7,80678 124 133,0 −11,28679 126 148,5 3,226710 129 148,3 1,546711 130 147,5 0,253312 133 148,8 0,073313 134 133,2 −16,020014 135 148,7 −1,013315 137 152,0 1,300016 139 150,6 −1,086717 141 165,3 12,626718 142 149,9 −3,2667128


2010Residuos0-10-20100 110 120 130 140 150EdadFigura 7.3: Residuos de la altura versus edad, después del ajuste por la recta resistente.que tienen alrededor de 120 meses. Si tuviéramos más información, podríamos estudiarporqué estos niños son demasiado altos o demasiado bajos para su edad. Por ejemplo,podríamos separar los niños de las niñas.En este ejemplo hemos visto cómo dos puntos, hasta cierto punto inusuales, han tenidomuy poco efecto, si han tenido alguno, en el ajuste general de los datos. Una recta ajustadapor el método de los mínimos cuadrados corre mucho más riesgo de dejarse influenciarpor estos puntos. Para estos datos la recta de regresión mínimo-cuadrática esy = 79,6962 + 0,5113xoy = 144,8853 + 0,5113(x − 127,5)donde observamos cómo los puntos 5, 7, 8 y 17 han torcido la recta. Además, si el valor dey del punto 13 no fuera tan bajo, la recta mínimo-cuadrática podría ser más empinada. Entodo caso, como la evaluación del ajuste se hace con los residuos, la figura 7.4 nos muestralos residuos mínimo-cuadráticos con la edad. Aunque es bastante similar al anterior,este gráfico nos da la sensación de una ligera tendencia a la baja. Es decir, los residuosmínimo-cuadráticos resultarían más horizontales si elimináramos de ellos una recta conuna pendiente ligeramente negativa.En este ejemplo la variabilidad de los residuos merece más atención que la diferenciaentre las pendientes de la recta de regresión mínimo-cuadrática y la recta resistente. Porejemplo, la desviación estándar de los residuos mínimo-cuadráticos es 6,8188 y el errorestándar de la pendiente es 0,1621, sobre dos veces la diferencia entre las pendientes.Así hemos visto, cualitativamente, cómo algunos datos pueden afectar a la recta mínimocuadráticamucho más que la recta resistente. En todo caso, cuando los datos están razonablementebien dispuestos las dos líneas son parecidas.7.1.4. Mejora del método de ajustePara algunos conjuntos de datos, el procedimiento iterativo explicado para ajustar larecta resistente encuentra dificultades. Los ajustes de la pendiente pueden decrecer muylentamente o, después de unos pocos pasos, dejar de decrecer y oscilar entre dos valores.129


2010Residuos MC0-10-20100 110 120 130 140 150EdadFigura 7.4: Residuos mínimo-cuadráticos versus edad.Afortunadamente, una modificación elimina completamente estos problemas y permiteque el número de iteraciones sea mucho más limitado.La solución propuesta por Johnstone y Velleman (1982) es un procedimiento iterativopara el cálculo de la pendiente que asegura la convergencia hacia un valor único.En el cálculo de la pendiente en la j + 1 iteración tenemosδ j+1 = r(j) D− r(j) Ix D − x Iy esto será 0 justamente cuando el numerador r (j)D− r(j) I= 0. Es decir, lo que debemoshacer es hallar el valor de b que proporciona la misma mediana a los residuos del grupoderecho y del grupo izquierdo. Más formalmente∆r(b) = r D (b) − r I (b)muestra la dependencia funcional de b y prescinde del número de la iteración. Buscamosel valor de b que hace ∆r(b) = 0. Notemos que centraremos el proceso iterativo en b ydejaremos a para el final.Empezaremos por calcular b 0 como antes y calcularemos ∆r(b 0 ) y δ 1 como ya sabemos.A continuación calcularemos ∆r(b 0 + δ 1 ). Generalmente, ∆r(b 0 ) y ∆r(b 0 + δ 1 ) tendránsignos opuestos, indicando que el valor deseado de b cae entre b 0 y b 1 = b 0 + δ 1 . Si pasa locontrario, cuando ∆r(b 0 ) y ∆r(b 0 + δ 1 ) tienen el mismo signo, hace falta seguir los pasosdesde b 0 y b 1 = b 0 + δ 1 hasta que hallamos un b 1 tal que ∆r(b 1 ) tiene el signo contrario a∆r(b 0 ).En este punto tenemos un b 0 con ∆r(b 0 ) y un b 1 con ∆r(b 1 ) y sabemos que ∆r ha deser 0 para algún valor b entre b 0 y b 1 . (Este hecho y que la solución es única requierenuna demostración formal que aquí no reproducimos.) Así que podemos continuar porinterpolación linealb 1 − b 0b 2 = b 1 − ∆r(b 1 )∆r(b 1 ) − ∆r(b 0 )Cuando ∆r(b 2 ) no es todavía 0 (o suficientemente cerca de cero), hace falta repetir lainterpolación con otro paso. Para hacer esto, consideraremos el intervalo que contiene butilizando b 2 en lugar de b 1 o de b 0 , el que tenga ∆r con el mismo signo que ∆r(b 2 ). Yasí los pasos necesarios.130


7.2. Métodos que dividen los datos en gruposOtras técnicas anteriores al método resistente de los tres grupos fueron propuestas einvolucran la división de los datos en grupos. Algunos de estos métodos no pretenden seruna alternativa al método de los mínimos cuadrados y fueron desarrollados para ajustaruna recta “cuando ambas variables están sujetas a error”.Método de WaldWald (1940) propuso dividir los datos en dos grupos de igual tamaño. Idealmente, losvalores teóricos X i del primer grupo son menores que los del segundo. En la práctica,porque los valores de X i son desconocidos, agruparemos los puntos en base a los x iobservados.Supongamos que n es par y sea m = n/2. Entonces, si asumimos que los valores de xestán ordenados en orden creciente, la pendiente propuesta esb W = (y m+1 + · · · + y n ) − (y 1 + · · · + y m )(x m+1 + · · · + x n ) − (x 1 + · · · + x m )Si x m+1 = x m , el método descarta los puntos con repetición en el centro.El punto de intercepción esa W = ȳ − b W ¯xdonde ȳ y ¯x son las medias totales, de la misma forma que en la recta mínimo-cuadrática.Método de Nair y ShrivastavaComo una alternativa computacionalmente atractiva respecto al método de los mínimoscuadrados, Nair y Shrivastava (1942) introdujeron el método de las medias por grupo. Siordenamos las x, podemos considerar un primer grupo con n I puntos, un segundo grupocon n D puntos y descartamos los n − n I − n D restantes. Los puntos resumen de cadagrupo son las medias¯x I = x 1 + · · · + x nIn I¯x D = x n−n D +1 + · · · + x nn Dȳ I = y 1 + · · · + y nIn Iȳ D = y n−n D +1 + · · · + y nn Dy la pendiente y el punto de intercepción resultan de la recta que pasa por (¯x I , ȳ I ) y(¯x D , ȳ D )b NS = ȳD − ȳ I¯x D − ¯x Ia NS = ȳ I − b NS ¯x I = ȳ D − b NS ¯x DPara formar los grupos se puede tomar n I = n D como el entero más próximo a n/3.Método de BartlettBartlett (1949) modificó los dos métodos anteriores con la propuestab B = ȳD − ȳ I¯x D − ¯x Ia B = ȳ − b B ¯x131


de forma que la recta pasa por el punto (¯x, ȳ).Recta de Brown-MoodLa propuesta de Brown y Mood (1951) es un método diferente que utiliza la mediana dedos grupos. La pendiente b BM y el punto de intercepción a BM se calculan de forma quela mediana de los residuos en cada uno de los dos grupos sea cero:medianax i ≤M x{y i − a BM − b BM x i } = 0medianax i >M x{y i − a BM − b BM x i } = 0La inclusión de la mediana M x en el primer grupo es arbitraria: el objetivo es que los dosgrupos sean muy parecidos en su tamaño.Para hallar los valores efectivos se propone un método iterativo similar al de las seccionesanteriores.7.3. Métodos que ofrecen resistenciaEn la sección anterior hemos visto que la recta resistente de los tres grupos no fue laprimera alternativa a la de los mínimos cuadrados. Incluso la última de las rectas propuestas,la recta de Brown-Mood, ofrece también resistencia. Ahora acabaremos estabreve descripción de técnicas con algunas que proporcionan como mínimo un cierto gradode resistencia. Pero primero debemos definir una medida de resistencia.Una de las atractivas características de la recta resistente de los tres grupos es su habilidadpara tolerar puntos “salvajes”, es decir, puntos que son inusuales en su valor x o en su valory o en ambos. Para medir esta resistencia aplicaremos el concepto de colapso (breakdown)introducido por Hampel (1971).Definición 7.3.1El punto de colapso (breakdown bound) de un procedimiento para ajustar una recta a nparejas de datos y-versus-x es la proporción k/n, donde k es el mayor número de puntosque pueden ser reemplazados arbitrariamente mientras dejen la pendiente y el punto deintercepción delimitados.En la práctica, podemos pensar en enviar puntos al infinito al azar o en direccionesproblemáticas hasta que la pendiente y el punto de intercepción no lo puedan tolerar másy se colapsen yendo también ellos hacia el infinito. Nos preguntamos cuan grande debeser una parte de los datos para que un cambio drástico no afecte de forma considerablela recta ajustada.Está claro que la recta mínimo-cuadrática tiene punto de colapso cero.Dado que la recta resistente de los tres grupos usa la mediana dentro de cada grupo,hallaremos su punto de colapso en 1/3 veces el punto de colapso de la mediana de unamuestra ordinaria. La mediana es el valor central, entonces su punto de colapso es 1/2,de manera que el punto de colapso de la recta resistente es 1/6. A pesar de las diversasposibilidades de construcción de los tres grupos y el hecho que los puntos salvajes puedenestar repartidos en los tres grupos, la idea es que 1/6 es lo mejor que podemos garantizaren la más desfavorable de las circunstancias.132


Residuos mínimo-absolutosMinimizar la suma de los residuos en valor absoluto tiene una historia casi tan larga comola del método de los mínimos cuadrados. Para ajustar una recta hace falta hallar b MA ya MA que minimicenn∑|y i − a MA − b MA x i |i=1Al contrario que para los mínimos cuadrados, no hay una fórmula para calcular b MA ya MA . De hecho, la pendiente y el punto de intercepción pueden no ser únicos.Como la mediana es la medida que minimizan∑|y i − t|i=1hace falta esperar que este procedimiento tenga un alto punto de colapso. Desgraciadamente,este colapso es 0. La suma que se minimiza involucra tanto los valores x i como losy i y así es posible pensar en un punto (x i , y i ) que tome el control de la recta.Mediana de las pendientes por parejasOtra forma de aplicar la mediana al ajuste de una recta consiste en determinar, para cadapareja de puntos, la pendiente y entonces calcular la mediana de estas pendientes. Conmás cuidado, supongamos que los x i son todos diferentes, definimosb ij = y j − y ix j − x i1 ≤ i < j ≤ nque son n(n − 1)/2 valores. La pendiente ajustada esb T = Med{b ij }Este método es una propuesta de Theil (1950), mejorada por Sen (1968), para manejarlas repeticiones de los x i .Para deducir el punto de colapso, supongamos que exactamente k de los n puntos sonsalvajes. Entonces el número de pendientes salvajes esk(k − 12+ k(n − k)Si este número es suficientemente grande, b T quedará descontrolada. Para valores den grandes, podemos multiplicar el número de pendientes n(n − 1)/2 por 1/2, el puntode colapso de la mediana, y igualar con la expresión anterior. Si resolvemos la ecuaciónplanteada para k, obtenemos un valor de k/n aproximadamente de 0,29. Esto quiere decirque el punto de colapso de b T es 0,29.Recta con medianas repetidasPara conseguir un alto punto de colapso, Siegel (1982) ideó el método de las medianasrepetidas.133


Empezamos con las pendientes por parejas del método anterior, pero ahora tomaremoslas medianas en dos pasos, primero en cada punto y después para todosb MR = Med{Med{biij}}j≠iEn el primer paso se toma la mediana de las pendientes de n − 1 rectas que pasan por elpunto (x i , y i ) y en el segundo paso se toma la mediana de estas n pendientes.Para el punto de intercepción calcularemos a i = y i − b MR x i y entoncesa MR = Medi{a i }Siegel probó que el punto de colapso de la recta con medianas repetidas es esencialmente1/2.7.3.1. DiscusiónAhora que tenemos diversos métodos con diferentes puntos de colapso, ¿cómo podemoselegir uno?Una consideración es el grado de resistencia que una particular aplicación pide. Otroasunto es la precisión relativa de las pendientes estimadas, especialmente en muestraspequeñas. También es evidente que el tiempo de computación es otro de los factores atener en cuenta.Finalmente, podemos decir que la recta resistente de los tres grupos tiene un comportamientosuficientemente bueno en los tres aspectos considerados y, por ello, es el métodoresistente que hemos destacado.134


Capítulo 8Regresión lineal múltiple8.1. El modeloDe forma análoga al caso de la regresión lineal simple, podemos considerar el modelolineal entre una variable aleatoria respuesta Y y un grupo de k variables no aleatoriasx 1 , . . . , x k explicativas o regresoras.Si y 1 , . . . , y n son n observaciones independientes de Y , el modelo lineal de la regresiónmúltiple se define comoy i = β 0 + β 1 x i1 + · · · + β k x ik + ɛ i i = 1, . . . , n (8.1)donde (x i1 , . . . , x ik ) son los valores observados correspondientes a y iconsabidas hipótesis de Gauss-Markov sobre los errores.En notación matricial, el modelo se escribey se asumen lasY = Xβ + ɛdonde Y = (y 1 , . . . , y n ) ′ , β = (β 0 , β 1 , . . . , β k ) ′ , ɛ = (ɛ 1 , . . . , ɛ n ) ′ y la matriz de diseño es⎛⎞1 x 11 . . . x 1k1 x 21 . . . x 2kX = ⎜⎟⎝ . . . ⎠1 x n1 . . . x nkSe supone además que rg(X) = k + 1 = m coincide con el número de parámetros.Se trata de calcular el ajuste MC a un hiperplano k dimensional, donde β 0 es el punto deintersección del hiperplano con el eje y cuando x 1 = x 2 = · · · = x k = 0.Las ecuaciones normales son X ′ Xβ = X ′ Y donde⎛n ∑ ∑ ∑ ⎞x i1 xi2 . . . xik⎛ ∑ ⎞∑ ∑ ∑ x2i1 xi1 x i2 . . . xi1 x ikX ′ ∑ ∑ ∑ yiX =x2i2 . . . xi2 x ikX ′ xi1 y iY = ⎜ ⎟⎜⎟⎝⎝...∑. ⎠∑. ⎠x2 xik y iiky cuya solución son las estimaciones ˆβ 0 , ˆβ 1 , . . . , ˆβ k , sin ningún problema de estimabilidadya que el modelo es de rango máximo. Además, estas estimaciones son insesgadas y devarianza mínima.135


Las predicciones de los valores de Y dadas las observaciones de las variables regresorasx 1 , . . . , x k sonŶ = X̂β = PYes decirŷ i = ˆβ 0 + ˆβ 1 x i1 + · · · + ˆβ k x ik i = 1, . . . , n (8.2)También podemos considerar el modelo con las variables regresoras centradas⎛ ⎞γβ 1Y = (1, Z) ⎜ ⎟⎝ . ⎠ + ɛβ kdonde las columnas de Z tienen media cero, es decir, z (j) = x (j) − ¯x j 1 oz ij = x ij − ¯x j i = 1, . . . , n j = 1, . . . , kEste modelo es equivalente al anterior con γ = β 0 + ∑ j ¯x jβ j , pero su estimación es mássencilla porque( )1/n 0[(1, Z) ′ (1, Z)] −1 =0 (Z ′ Z) −1ya que Z ′ 1 = 0.Entoncesˆγ = ȳ ( ˆβ 1 , . . . , ˆβ k ) ′ = (Z ′ Z) −1 Z ′ (Y − 1ȳ)Si definimos la matriz simétrica de varianzas-covarianzas, aunque de forma convencional,entre las variables Y, x 1 , . . . , x k( ) s2S = y S xy= n −1 (Y − 1ȳ, Z) ′ (Y − 1ȳ, Z)S yx S xxresulta( ˆβ 1 , . . . , ˆβ k ) ′ = S −1xxS yxPor todo ello, si consideramos las medias de los datosȳ = (1/n) ∑ iy i¯x j = (1/n) ∑ ix ijj = 1, . . . , k8.2 se expresa también en la formaŷ i − ȳ = ˆβ 1 (x i1 − ¯x 1 ) + · · · + ˆβ k (x ik − ¯x k )Finalmente, observemos que el parámetro β j , j = 1, . . . , k, indica el incremento en Ycuando x j aumenta en una unidad manteniéndose constantes el resto de variables regresoras.A veces se les llama coeficientes de regresión parcial porque reflejan el efecto deuna variable regresora dada la presencia del resto que permanece constante.Los residuos de la regresión sone = Y − Ŷ = (I − P)Yque verifican las propiedades que se han explicado para la regresión simple en la página 94(ver ejercicio 6.4).136


8.2. Medidas de ajusteComo en la regresión simple, la evaluación del ajuste del hiperplano de regresión a losdatos se puede hacer con la varianza residual o estimación MC de σ 2 .La suma de cuadrados residual esSCR = e ′ e = ∑ (y i − ˆβ 0 − ˆβ 1 x i1 − · · · − ˆβ k x ik ) 2 = Y ′ Y − Y ′ Xˆβque tiene n − m grados de libertad. Así, la estimación centrada de la varianza del diseñoes el llamado error cuadrático medioˆσ 2 = SCR/(n − m) = ECMSu raíz cuadrada ˆσ, que tiene las mismas unidades que Y , es el error estándar de laregresión múltiple. También aquí, la varianza residual y el error estándar dependen de lasunidades de la variable respuesta y no son útiles para comparar diversas regresiones.En primer lugar, vamos a introducir el coeficiente de correlación múltiple de Y sobrex 1 , . . . , x k . El uso del término correlación es convencional puesto que las variables regresorasno son aleatorias. El coeficiente se define como la correlación muestral entre Y eŶr yx = corr(Y, Ŷ ) = ∑ (yi − ȳ)(ŷ i − ȳ)[ ∑ (y i − ȳ) 2 ∑ (ŷ i − ȳ) 2 ] 1/2ya que (1/n) ∑ ŷ i = ȳ.El coeficiente de correlación múltiple r yx verifica 0 ≤ r yx ≤ 1 y es una buena medida delajuste de Y al modelo Xβ, puesr yx = 1 =⇒ ‖Y − Ŷ‖ = 0El siguiente teorema, idéntico al teorema 6.2.1, justifica la definición del coeficiente dedeterminación como medida de ajuste.Teorema 8.2.1Las sumas de cuadrados asociadas a la regresión múltiple verifican:(i) ∑ (y i − ȳ) 2 = ∑ (y i − ŷ i ) 2 + ∑ (ŷ i − ȳ) 2∑(ii) ryx 2 (ŷi − ȳ) 2= ∑ (yi − ȳ) 2(iii) SCR = ∑ (y i − ŷ i ) 2 = (1 − r 2 yx)S yDemostración:La descomposición en suma de cuadrados (i) se justifica de la misma forma que se havisto en el teorema 6.2.1. También se puede ver el ejercicio 5.8.El hecho fundamental es la ortogonalidad(Y − Ŷ)′ Ŷ = 0pues el vector e = Y − Ŷ = Y − X̂β es ortogonal a Ω = 〈X〉, mientras que Ŷ = X̂β ∈ Ω(ver teorema 2.4.2 y su interpretación geométrica).137


Luego∑(yi − ȳ)(ŷ i − ȳ) = ∑ (y i − ŷ i + ŷ i − ȳ)(ŷ i − ȳ)= ∑ (y i − ŷ i )(ŷ i − ȳ) + ∑ (ŷ i − ȳ) 2= ∑ (ŷ i − ȳ) 2puesto que el primer sumando es nulo. Teniendo en cuenta la definición de r yx , es fácildeducir (ii).Finalmente, combinando (i) y (ii) obtenemos (iii).Como en 6.7, la descomposición (i) del teorema anterior justifica la definición del coeficientede determinaciónR 2 = VEVT = 1 − SCRS yTambién aquí, esta medida del ajuste verifica 0 ≤ R 2 ≤ 1 y coincide con el cuadrado delcoeficiente de correlación múltipleR 2 = 1 − (1 − r2 yx)S yS y= r 2 yxSin embargo, el coeficiente de correlación múltiple r yx es una medida de la asociaciónlineal entre la variable respuesta Y y las regresoras x = (x 1 , . . . , x k ) que, en este caso, esconvencional.Como R 2 es la proporción de variabilidad explicada por las variables regresoras, resultaque si R 2 ≈ 1, entonces la mayor parte de la variabilidad es explicada por dichas variables.Pero R 2 es la proporción de la variabilidad total explicada por el modelo con todas lasvariables frente al modelo y = β 0 , de manera que un R 2 alto muestra que el modelo mejorael modelo nulo y por tanto sólo tiene sentido comparar coeficientes de determinación entremodelos anidados (casos particulares).Además un valor grande de R 2 no necesariamente implica que el modelo lineal es bueno.El coeficiente R 2 no mide si el modelo lineal es apropiado. Es posible que un modelo conun valor alto de R 2 proporcione estimaciones y predicciones pobres, poco precisas. Elanálisis de los residuos es imprescindible.Tampoco está claro lo que significa un valor “grande”, ya que problemas en diversasciencias (física, ingeniería, sociología,. . . ) tienen razonablemente criterios diferentes.Por otra parte, cuando se añaden variables regresoras R 2 crece, pero eso no significa queel nuevo modelo sea superior:R 2 nuevo = 1 − SCR nuevoS y≥ R 2 = 1 − SCRS y⇒ SCR nuevo ≤ SCRpero es posible queECM nuevo =SCR nuevon − (m + p)≥ ECM =SCRn − mluego, en esta situación, el nuevo modelo será peor. Así, como R 2 crece al añadir nuevasvariables regresoras, se corre el peligro de sobreajustar el modelo añadiendo términosinnecesarios. El coeficiente de determinación ajustado penaliza esto.138


Definición 8.2.1Una medida del ajuste de la regresión múltiple a los datos es el coeficiente de determinacióno proporción de variabilidad explicadaR 2 = VEVT = 1 − SCRS ySin embargo, para corregir el peligro de sobreajuste se define el coeficiente de determinaciónajustado como¯R 2 = 1 −SCR/(n − m)S y /(n − 1)= 1 − n − 1n − m (1 − R2 )Cuando ¯R 2 y R 2 son muy distintos, el modelo ha sido sobreajustado y debemos eliminarvariables o términos.8.3. Inferencia sobre los coeficientes de regresiónCuando asumimos la hipótesis de normalidad sobre la distribución de los errores ɛ ∼N n (0, σ 2 I), se deduce la normalidad de la variable respuestaY ∼ N n (Xβ, σ 2 I)lo que nos permite utilizar las distribuciones asociadas a los estimadores de los parámetrosque hemos estudiado.En el capítulo de contraste de hipótesis se ha visto de varias formas (ver 5.10) que parauna función paramétrica estimable a ′ βa ′̂β − a ′ β(ˆσ 2 · a ′ (X ′ X) − a) 1/2 ∼ t n−rEn nuestro caso, todas las funciones paramétricas son estimables ya que r = k + 1 = m.De modo que el estimador ˆβ j verificaˆβ j − β j√ECM cjj∼ t n−m (8.3)donde c jj es el j-ésimo elemento de la diagonal de (X ′ X) −1 y ˆσ 2 = SCR/(n−m) = ECM.En consecuencia, los intervalos de confianza de los coeficientes de regresión β j con unnivel de confianza 100(1 − α) % sonˆβ j ± t n−m (α) · ee( ˆβ j )donde ee( ˆβ j ) = √ ECM c jj .En cuanto a los intervalos de confianza para la respuesta media o los intervalos de predicciónpara una respuesta concreta, su deducción es similar al caso de la regresión simple.Si x 0 = (1, x 01 , . . . , x 0k ) ′ recoge una observación particular del conjunto de variablesregresoras, el intervalo de confianza con nivel 100(1−α) % para la respuesta media E[Y |x 0 ]está centrado en su estimación ŷ 0 = x ′ 0̂βŷ 0 ± t n−m (α) · (ECM x ′ 0(X ′ X) −1 x 0 ) 1/2ya que E(ŷ 0 ) = x ′ 0β = E[Y |x 0 ] y var(ŷ 0 ) = σ 2 x ′ 0(X ′ X) −1 x 0 .139


Extrapolación ocultaEn la estimación de la respuesta media o la predicción de nuevas respuestas en un punto(x 01 , . . . , x 0k ) debemos ser muy cuidadosos con la extrapolación. Si únicamente tenemosen cuenta el producto cartesiano de los recorridos de las variables regresoras, es fácilconsiderar la predicción para un punto que puede estar fuera de la nube de puntos con laque hemos calculado la regresión. Para evitar este problema deberemos ceñirnos al menorconjunto convexo que contiene los n puntos originales y que recibe el nombre de casco(hull) de las variables regresoras (ver figura 8.1).x2-2 -1 0 1 2-2 -1 0 1 2x1Figura 8.1: Conjunto convexo para los puntos de dos variables regresorasSi consideramos los elementos h ii de la diagonal de la matriz proyección P = X(X ′ X) −1 X ′ ,podemos definir h máx = máx{h 11 , . . . , h nn } y se puede comprobar quex ′ (X ′ X) −1 x ≤ h máxes un elipsoide que contiene al casco. No es el menor elipsoide, pero es el más fácil decalcular.Así pues, para evitar en lo posible la extrapolación, podemos comprobar en el puntox 0 = (1, x 01 , . . . , x 0k ) ′ six ′ 0(X ′ X) −1 x 0 < h máxContraste de significación de la regresiónLa hipótesis de mayor interés es la afirmación de que Y es independiente de las variablesx 1 , . . . , x k , es decirH 0 : β 1 = β 2 = · · · = β k = 0 (8.4)El Análisis de la Varianza del teorema 5.3.1 se puede aplicar al contraste de la significaciónconjunta de los coeficientes de regresión puesto que se trata de una hipótesis contrastabledel tipo H 0 : Aβ = 0, donde⎛⎞0 1 0 . . . 00 0 1 . . . 0A = ⎜⎟ rango A = k⎝ . . . . ⎠0 0 0 . . . 1140


Si H 0 es cierta, al igual que en 6.9, la estimación del único parámetro que queda en elmodelo es ˆβ 0|H = ȳ y la suma de cuadrados residual esSCR H = ∑ (y i − ȳ) 2 = S yque tiene n − 1 grados de libertad.La descomposición en suma de cuadrados esS y = SCR + (SCR H − SCR)es decir ∑(yi − ȳ) 2 = ∑ (y i − ŷ i ) 2 + ∑ (ŷ i − ȳ) 2La tabla siguiente recoge esta descomposición y realiza el contraste de la hipótesis. Lahipótesis se rechaza si F > F k,n−k−1 (α).Fuente de grados de suma de cuadradosvariación libertad cuadrados medios FRegresión k SC R = SCR H − SCR CM R CM R /ECMError n − k − 1 SCR ECMTotal n − 1 S yCuadro 8.1: Tabla del análisis de la varianza para contrastar la significación de la regresiónmúltipleTeniendo en cuenta las fórmulas del teorema 8.2.1SCR H − SCR = r 2 yxS yy deducimos una expresión equivalente al estadístico FF =r2 yx1 − r 2 yx· n − k − 1kque también se presenta en forma de tabla.Fuente de Grados de Suma de Fvariación libertad cuadradosrRegresión k ryxS 2 yx2y1 − ryx2Residuo n − k − 1 (1 − ryx)S 2 yTotal n − 1 S y· n − k − 1kCuadro 8.2: Tabla del análisis de la varianza en regresión múltipleDel mismo modo que en la sección 6.5 la hipótesis 8.4 equivale a afirmar que el coeficientede correlación múltiple poblacional es cero y se resuelve con el contraste asociado a latabla anterior.141


Significación parcialEl contraste de significación de un coeficiente de regresión particular H 0 : β j = 0, paraun j fijo, se resuelve con el estadístico 8.3 y la región crítica∣ ˆβ ∣∣∣∣j> t∣(ECM c jj ) 1/2 n−k−1 (α) (8.5)donde c jj es el j-ésimo elemento de la diagonal de (X ′ X) −1 .Aceptar esta hipótesis significa que la variable regresora x j se puede eliminar del modelo.Sin embargo, es preciso actuar con cuidado ya que se trata de un contraste parcial porqueel coeficiente ˆβ j depende de todas las otras variables regresoras x i (i ≠ j). Es un contrastede la contribución de x j dada la presencia de las otras variables regresoras en el modelo.De forma general podemos estudiar la contribución al modelo de un subconjunto delas variables regresoras. Esto se puede hacer mediante la descomposición de la suma decuadrados asociada a un contraste de modelos.Consideremos el modelo lineal completo, dividido en dos grupos de variables regresoras,Y = Xβ + ɛ = ( ) ( )βX 1 X 1 2 + ɛβ 2donde X 1 es n × (m − p) y X 2 es n × p.Para este modelo, la estimación de los parámetros es ̂β = (X ′ X) −1 X ′ Y y la suma decuadrados de la regresión esSC R (β) = SCR H − SCR = Y ′ Y − (Y ′ Y − ̂β ′ X ′ Y) = ̂β ′ X ′ Ycon m grados de libertad. Esto es así porque la hipótesis considerada es H 0 : β = 0 y,bajo esta hipótesis, SCR H = Y ′ Y.Para hallar la contribución de los términos de β 2 en la regresión, podemos considerar lahipótesis H 0 : β 2 = 0 que es equivalente al modelo reducido Y = X 1 β 1 + ɛ. Bajo estahipótesis, la estimación de los parámetros es ̂β 1 = (X ′ 1X 1 ) −1 X ′ 1Y y la suma de cuadradosde la regresiónSC R (β 1 ) = ̂β ′ 1X ′ 1Ycon m − p grados de libertad.Luego la suma de cuadrados de la regresión debida a β 2 , dado que β 1 está ya en el modelo,esSC R (β 2 |β 1 ) = SC R (β) − SC R (β 1 )con m − (m − p) = p grados de libertad.Como SC R (β 2 |β 1 ) es independiente de SCR, la hipótesis H 0 : β 2 = 0 se puede contrastarcon el estadísticoSC R (β 2 |β 1 )/p∼ F p,n−mECMque se puede llamar una F parcial, pues mide la contribución de X 2 considerando queX 1 está en el modelo.Por ejemplo, la suma de cuadrados de la regresión SC R (β j |β 0 , β 1 , . . . , β j−1 , β j+1 , . . . , β k )para 1 ≤ j ≤ k es el crecimiento en la suma de cuadrados debido a añadir x j al modelo142


que ya contiene todas las otras variables, como si fuera la última variable añadida almodelo. El contraste es equivalente al contraste 8.5.Estos contrastes F parciales juegan un papel muy importante en la búsqueda del mejorconjunto de variables regresoras a utilizar en un modelo. Por ejemplo, en el modeloparabólico Y = β 0 + β 1 x + β 2 x 2 + ɛ estaremos interesados en SC R (β 1 |β 0 ) y luego enSC R (β 2 |β 0 , β 1 ) que es la contribución cuadrática al modelo lineal simple.En el modelo Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + ɛ, la descomposición en suma de cuadradosesS y = SC R (β 1 , β 2 , β 3 |β 0 ) + SCRperoSC R (β 1 , β 2 , β 3 |β 0 ) = SC R (β 1 |β 0 ) + SC R (β 2 |β 0 , β 1 ) + SC R (β 3 |β 0 , β 1 , β 2 )= SC R (β 2 |β 0 ) + SC R (β 1 |β 0 , β 2 ) + SC R (β 3 |β 0 , β 1 , β 2 )= . . .Sin embargo, hay que ir con cuidado porque este método no siempre produce una particiónde la suma de cuadrados de la regresión y, por ejemplo,SC R (β 1 , β 2 , β 3 |β 0 ) ≠ SC R (β 1 |β 2 , β 3 , β 0 ) + SC R (β 2 |β 1 , β 3 , β 0 ) + SC R (β 3 |β 1 , β 2 , β 0 )Un resultado interesante se tiene cuando las columnas de X 1 y X 2 son ortogonales, yaque entoncesSC R (β 2 |β 1 ) = SC R (β 2 ) SC R (β 1 |β 2 ) = SC R (β 1 )Región de confianza y intervalos simultáneosDel mismo modo que hemos explicado en 6.3.6, en regresión múltiple la región con unaconfianza conjunta del 100(1 − α) % es(̂β − β) ′ X ′ X(̂β − β)mECM≤ F m,n−m (α)Los intervalos simultáneos para los coeficientes de la regresión son del tipoˆβ j ± ∆ · ee( ˆβ j )para un conjunto de s coeficientes entre los k + 1. Por ejemplo, el método de Scheffé proporcionalos intervalos simultáneosˆβ j ± (sF s,n−k−1 (α)) 1/2 · ee( ˆβ j )Los intervalos simultáneos para un conjunto de s respuestas medias a los puntos x 01 , . . . , x 0ssonŷ x0j ± ∆(ECM x ′ 0j(X ′ X) −1 x 0j ) 1/2donde ∆ = (sF s,n−k−1 (α)) 1/2 por el método de Scheffé.143


8.4. Coeficientes de regresión estandarizadosEs difícil comparar coeficientes de regresión porque la magnitud de ˆβ j refleja las unidadesde medida de la variable regresora. Por ejemplo, en el modeloY = 5 + x 1 + 1000x 2donde x 1 se mide en litros y x 2 en mililitros, aunque ˆβ 2 = 1000 es mucho mayor queˆβ 1 = 1, el efecto sobre Y es el mismo.Generalmente, las unidades de los coeficientes de regresión sonunidades ˆβ j = unidades Yunidades x jPor todo ello, frecuentemente es de gran ayuda trabajar con variables estandarizadas queproducen coeficientes de regresión sin dimensión. Básicamente hay dos técnicas:Escala normal unidaddonde¯x j = 1 nn∑i=1z ij = x ij − ¯x jŝ jyi ∗ = y i − ȳŝ yx ij ŝ 2 j = 1n − 1n∑i=1i = 1, . . . , n; j = 1, . . . , ki = 1, . . . , n(x ij − ¯x j ) 2 ŝ 2 y = 1n − 1n∑(y i − ȳ) 2i=1El modelo esy ∗ i = b 0 + b 1 z i1 + b 2 z i2 + · · · + b k z ik + η ii = 1, . . . , ndonde las variables regresoras y la variable respuesta tienen media cero y varianza muestraluno. La estimación del modelo es ̂b = (ˆb 1 , . . . , ˆb k ) ′ = (Z ′ Z) −1 Z ′ Y ∗ y ˆb 0 = ȳ ∗ = 0.Escala longitud unidaddondeEl modelo esw ij = x ij − ¯x jS 1/2jyi 0 = y i − ȳSy1/2S j =i = 1, . . . , n; j = 1, . . . , ki = 1, . . . , nn∑(x ij − ¯x j ) 2 S y =i=1y 0 i = b 1 w i1 + b 2 w i2 + · · · + b k w ik + η in∑(y i − ȳ) 2i=1i = 1, . . . , ndonde las variables regresoras y la variable respuesta tienen media cero y longitud∑√ n (w ij − ¯w j ) 2 = 1i=1144


y la estimación de los parámetros es ̂b = (W ′ W) −1 W ′ Y 0 .Pero en este modelo tenemos⎛⎞1 r 12 . . . r 1kW ′ r 21 1 . . . r 2kW = R xx = ⎜⎟⎝ . .... . ⎠r k1 r k2 . . . 1donde R xx es la matriz de correlaciones de las variables regresoras ya quer ij =∑ ns=1 (x si − ¯x i )(x sj − ¯x j )(S i S j ) 1/2También podemos considerar que W ′ Y 0 = R xy es el vector de correlaciones de las variablesregresoras con la variable respuesta. También aquí el término correlación es convencional.En todo caso, comoZ ′ Z = (n − 1)W ′ WZ ′ Y ∗ = (n − 1)W ′ Y 0las estimaciones de b = (b 1 , . . . , b k ) ′ por ambos métodos son idénticas.Definición 8.4.1Se llaman coeficientes de regresión estandarizados los que se obtienen como solución delsistema de ecuacionesb 1 + r 12 b 2 + · · · + r 1k b k = r 1yr 21 b 1 + b 2 + · · · + r 2k b k = r 2yes decir. .. .r k1 b 1 + r k2 b 2 + · · · + b k = r kyR xx b = R xydonde R xx es la matriz de coeficientes de correlación entre las variables regresoras yR xy = (r 1y , . . . , r ky ) ′ el vector columna con los coeficientes de correlación entre las variablesregresoras y la respuesta.Los coeficientes de regresión ordinarios se deducen de las ecuacionesˆβ j = ˆb j(SyS j) 1/2= ˆb js yˆβ 0 = ȳ −k∑ˆβ j ¯x jj=1s jj = 1, . . . , kAdemás, el coeficiente de determinación esR 2 = r 2 yx = ˆb 1 r 1y + ˆb 2 r 2y + · · · + ˆb k r ky145


Algunos paquetes estadísticos calculan ambos conjuntos de coeficientes de regresión. Enalgún caso, a los coeficientes de regresión estandarizados les llaman “beta coeficientes” loque para nosotros es confuso.Finalmente señalaremos que debemos cuidar las interpretaciones puesto que los coeficientesestandarizados todavía son parciales, es decir, miden el efecto de x j dada la presenciade las otras variables regresoras. También ˆb j está afectado por el recorrido de los valoresde las variables regresoras, de modo que es peligroso utilizar ˆb j para medir la importanciarelativa de la variable regresora x j .Ejemplo 8.4.1En un estudio sobre la incidencia que puede tener sobre el rendimiento en lenguaje Y ,la comprensión lectora x 1 y la capacidad intelectual x 2 , se obtuvieron datos sobre 10estudiantes tomados al azar de un curso de básica (ver tabla 8.3).Y x 1 x 23 1 32 1 44 3 79 7 96 8 77 7 62 4 56 6 85 6 58 9 7Cuadro 8.3: Tabla de datos del rendimiento en lenguajeLa matriz de correlaciones, las medias y las desviaciones típicas son:Empezaremos planteando el sistemax 1 x 2 Yx 1 1 0,6973 0,8491 ¯x 1 = 5,2 s 1 = 2,82x 2 1 0,7814 ¯x 2 = 6,1 s 2 = 1,86Y 1 ȳ = 5,2 s y = 2,44b 1 + 0,6973 · b 2 = 0,84910,6973 · b 1 + b 2 = 0,7814cuya solución esEntoncesˆb1 = 0,592 ˆb2 = 0,368ˆβ 1 = ˆb 1s ys 1= 0,512ˆβ2 = ˆb 2s ys 2= 0,485ˆβ 0 = ȳ − ˆβ 1¯x 1 − ˆβ 2¯x 2 = −0,424La ecuación de regresión esy = −0,424 + 0,512x 1 + 0,485x 2146


El coeficiente de determinación esR 2 = r 2 yx = ˆb 1 · 0,849 + ˆb 2 · 0,781 = 0,791y puede afirmarse que hay una buena relación entre el rendimiento en lenguaje y lacomprensión lectora y la capacidad intelectual.Finalmente, para decidir sobre la hipótesis H 0 : β 1 = β 2 = 0 calcularemosF =r2 yx1 − r 2 yx· 10 − 33 − 1 = 13,22con 2 y 7 grados de libertad. Así H 0 puede ser rechazada, es decir, la relación anterior essignificativa.8.5. MulticolinealidadCuando la matriz X no es de rango máximo, sabemos que X ′ X es singular y no podemoscalcular su inversa. Ya sabemos que la solución puede ser la utilización de alguna g-inversa,aunque ello implica que la solución de las ecuaciones normales no es única. En el caso dela regresión múltiple es difícil, aunque no imposible, que alguna columna sea linealmentedependiente de las demás. Si ocurriera esto diríamos que existe colinealidad entre lascolumnas de X. Sin embargo, el término colinealidad o multicolinealidad se refiere alcaso, mucho más frecuente, de que la dependencia entre las columnas no es exacta sinoaproximada, es decir, a la quasi-dependencia lineal entre las variables regresoras. Estopuede provocar problemas de computación de los parámetros y en el cálculo de la precisiónde los mismos (ver Apéndice A.4).Entre las múltiples formas de detección de la multicolinealidad vamos a destacar el cálculode los factores de inflación de la varianza. Nosotros hemos visto que la matriz de varianzascovarianzasde los estimadores de los parámetros de un modelo lineal esvar(̂β) = σ 2 (X ′ X) −1Si consideramos el modelo de regresión estandarizado por la escala de longitud unidad,la matriz de varianzas-covarianzas de los coeficientes de regresión estandarizados esvar(̂b) = ˜σ 2 R −1xxdonde ˜σ 2 es la varianza del error del modelo transformado. En particular, la varianza deuno de los coeficientes esvar(ˆb j ) = ˜σ 2 [R −1xx] jjdonde [R −1xx] jj es el j-ésimo elemento de la diagonal de la matriz. Estas varianzas puedenestar “infladas” a causa de la multicolinealidad que puede ser evidente a partir dela observación de los elementos no nulos fuera de la diagonal de R xx , es decir, de lascorrelaciones simples entre las variables regresoras.Definición 8.5.1Los elementos de la diagonal de la matriz R −1xx se llaman FIV o factores de inflación dela varianza ya quevar(ˆb j ) = ˜σ 2 FIV j147


Se demuestra queFIV j = (1 − R 2 j) −1donde Rj 2 es el coeficiente de determinación múltiple de la variable regresora x j con todaslas demás variables regresoras.El factor de inflación de la varianza FIV j = 1 cuando Rj2 = 0, es decir, cuando x j nodepende linealmente del resto de las variables. Cuando Rj 2 ≠ 0, entonces FIV j > 1 y siRj2 ≈ 1, entonces FIV j es grande. Así pues, el factor de inflación de la varianza mideel incremento que se produce en la varianza de los estimadores de los coeficientes deregresión al comparar dicha varianza con la que deberían tener si las variables regresorasfuesen incorrelacionadas.Cuando FIV j > 10 tenemos un grave problema de multicolinealidad. Algunos autoresprefieren calcular la media de los FIV j y alertar sobre la multicolinealidad cuando dichamedia supera el número 10.Una de las posibles soluciones tras la detección de multicolinealidad es la estimación porla regresión ridge (ver 4.3.1).Ejemplo 8.5.1Con los datos del ejemplo 8.4.1, la matriz de correlaciones R xx y su inversa son( )( )1,0000 0,69731,9465 −1,3574R xx =R −1xx =0,6973 1,0000−1,3574 1,9465y los factores de inflación de la varianza son FIV 1 = 1,9465, FIV 2 = 1,9465, que coincidennaturalmente cuando k = 2.8.6. Regresión polinómicaSupongamos que una variable aleatoria Y se ajusta a una variable de control x según unmodelo polinómico de grado my i = β 0 + β 1 x i + β 2 x 2 i + · · · + β m x m i + ɛ i (8.6)Observemos que se trata de un modelo de regresión lineal múltiple de Y sobre las variablesx 1 = x, x 2 = x 2 , . . . , x m = x m . Para una regresión polinómica de grado m, la matriz dediseño es⎛⎞1 x 1 x 2 1 . . . x m 11 x 2 x 2 2 . . . x m 2X = ⎜⎟⎝ . . . . ⎠1 x n x 2 n . . . x m nEstos modelos se pueden aplicar cuando el analista sabe que efectos curvilíneos estánpresentes en la función respuesta. También se pueden utilizar como aproximaciones adesconocidas, y posiblemente muy complejas, relaciones no lineales. Así, los polinomiosse pueden considerar los desarrollos de Taylor de la función desconocida.La regresión polinómica se justifica por el teorema de Weierstrass, el cual dice que todafunción continua f(x) se puede aproximar por un polinomio P m (x) de grado m adecuado.Se puede probar esta propiedad desde el punto de vista probabilístico:148


Sea f(x) una función continua en el intervalo (0, 1) y consideremosP n (x) =n∑f(k/n)x k (1 − x) n−kk=0llamados polinomios de Bernstein. Entonces P n (x) converge a f(x) cuando n → ∞,uniformemente en x.Como en cualquier modelo lineal, la estimación de los parámetros de regresión se hace conlas ecuaciones normales. Sin embargo, hay varios problemas especiales que se presentanen este caso.1) Es muy importante que el orden del polinomio sea tan bajo como sea posible.Para utilizar polinomio de grado m > 2 se debe justificar con razones externas alos datos. Existen transformaciones de las variables, en particular de la respuesta,que hacen que el modelo sea de primer orden. Un modelo de orden bajo con unavariable transformada es casi siempre preferible a un modelo de orden superior conla métrica original. Se trata de mantener el principio de parsimonia o simplicidadde los modelos.2) Hay varias estrategias para elegir el grado del polinomio.Selección hacia adelante (forward selection): Se trata de ir ajustando modelos enorden creciente hasta que el test t para el término de mayor orden es no significativo(α = 0,1).Selección hacia atrás (backward selection): Se trata de ajustar un modelo de altoorden e ir eliminando términos si no son significativos para el test t (α = 0,1).Ambos métodos no necesariamente conducen al mismo modelo. En todo caso, hayque recordar el consejo anterior y tratar con modelos de orden dos o muy bajo.3) Debemos ser muy cuidadosos con la extrapolación (ver página 140), ya que lasconsecuencias pueden ser ruinosas.4) Cuando el orden del polinomio es alto, la matriz X ′ X está mal condicionada (verapéndice A.4 y sección 8.5). Esto provoca problemas graves para el cálculo de loscoeficientes de regresión y deficiencias en la precisión de los mismos. En Seber [65]pág. 214 se ve un ejemplo en el que variaciones del orden de 10 −10 en X ′ Y producenvariaciones del orden de 3 en los elementos de ̂β.De hecho, los modelos de regresión polinómicos están notablemente mal condicionadoscuando el grado es mayor que 5 o 6, particularmente si los valores de x estánigualmente espaciados.5) Si los valores de x tienen un recorrido muy estrecho, esto puede conducir a lamulticolinealidad entre las columnas de X. Por ejemplo, si x varía entre 1 y 2, x 2varía entre 1 y 4, lo que puede provocar una fuerte dependencia entre los datos dex y x 2 .Para reducir el efecto no esencial de la mala condición de los modelos de regresión polinómicosse deben centrar las variables regresoras. Además se pueden utilizar polinomiosde Tchebychev o, mejor, polinomios ortogonales.149


La utilización de polinomios de Tchebychev consiste en considerar el modeloy i = γ 0 T 0 (x i ) + γ 1 T 1 (x i ) + · · · + γ m T m (x i ) + ɛ idonde T j (x) es un polinomio de Tchebychev de grado j. Estos polinomios se generanmediante la relación de recurrenciaT j+1 (x) = 2xT j (x) − T j−1 (x)Tomando inicialmentese obtienenT 0 (x) = 1 T 1 (x) = xT 2 (x) = 2x 2 − 1T 3 (x) = 4x 3 − 3xT 4 (x) = 8x 4 − 8x 2 + 1.El campo de variación de x debe “normalizarse” adecuadamente entre −1 y 1 medianteun cambio de variable. Esto se hace en favor de la estabilidad numérica.Los polinomios de Tchebychev tienen propiedades muy interesantes que sugieren que, paravalores de x razonablemente espaciados, la matriz del modelo ˜X tiene columnas que sonaproximadamente ortogonales, de forma que la matriz ˜X ′ ˜X tiene los elementos de fuerade la diagonal bastante pequeños y generalmente está bien condicionada. Así pues, unprocedimiento de cálculo de regresión polinómica consiste en usar polinomios de Tchebychevjunto con un método de descomposición ortogonal de la matriz de diseño, como elalgoritmo QR.8.6.1. Polinomios ortogonalesEl replanteamiento del modelo 8.6 mediante polinomios ortogonales permite una soluciónsencilla de los problemas numéricos mencionados.Consideremos ahora el modeloy i = γ 0 φ 0 (x i ) + γ 1 φ 1 (x i ) + · · · + γ m φ m (x i ) + ɛ i (8.7)donde φ j (x i ) es un polinomio de grado j en x i (j = 0, 1, . . . , m). Supongamos que los mpolinomios son ortogonales, es decir,El modelo lineal es entoncesdonden∑φ j (x i )φ j ′(x i ) = 0 ∀j ≠ j ′ (8.8)i=1⎛˜X = ⎜⎝Y = ˜Xγ + ɛφ 0 (x 1 ) φ 1 (x 1 ) . . . φ m (x 1 )φ 0 (x 2 ) φ 1 (x 2 ) . . . φ m (x 2 ). ..φ 0 (x n ) φ 1 (x n ) . . . φ m (x n )150⎞⎟⎠


Entonces, debido a la ortogonalidad, tenemos que⎛ ∑ φ20 (x i ) ∑0 . . . 0˜X ′ 0 φ21 (x i ) . . . 0˜X = ⎜⎝ . ....∑.0 0 . . . φ2m (x i )⎞⎟⎠y la solución de las ecuaciones normales es∑ˆγ j = ∑ i φ j(x i )y ii φ2 j (x i)j = 0, 1, . . . , mlo que es cierto para toda m. La estructura ortogonal de ˜X implica que el estimador MCde γ j (j ≤ m) es independiente del grado m del polinomio, lo que es una propiedad muydeseable.Como φ 0 (x) es un polinomio de grado cero, si tomamos φ 0 (x) = 1 tendremos ˆγ 0 = ȳ.La suma de cuadrados residual es entoncesSCR(m) = ∑ m∑(y i − ȳ) 2 − φ 2 j(x i ))ˆγ j 2 (8.9)j=1( ∑ icantidad que indicaremos por Q(m).En efecto:m∑ŷ i = φ j (x i )ˆγ j siendo ȳ = φ 0 (x i )ˆγ 0j=0Aplicando (i) de 8.2.1 tenemosSCR(m) = ∑ i(y i − ŷ i ) 2 = ∑ i(y i − ȳ) 2 − ∑ i(ŷ i − ȳ) 2siendo ahoraPor otra parte(m∑∑(ŷ i − ȳ) 2 = ∑iij=1φ j (x i )ˆγ j ) 2 = ∑ j(∑m∑φ j (x i )ˆγ j ) 2j=1j ′ φ j (x i )ˆγ j · φ j ′(x i )ˆγ j ′y sumando respecto de i tenemos, considerando 8.8,∑(ŷ i − ȳ) 2 = ∑ ∑ˆγ jˆγ j ′( ∑ φ j (x i )φ j ′(x i ))ij j ′im∑ n∑= ˆγ j 2 ( φ 2 j(x i ))lo que demuestra 8.9.j=1Existen diversos procedimientos para generar polinomios ortogonales (Fisher, Forsythe,Hayes, etc.).151i=1


En el caso particular que los valores de x sean igualmente espaciados podemos transformarlosde manera quex i = i − 1 (n + 1)2i = 1, 2, . . . , nEntonces se puede considerar el siguiente sistema de polinomios ortogonalesφ 0 (x) = 1φ 1 (x) = λ 1 xφ 2 (x) = λ 2 (x 2 − 112 (n2 − 1))φ 3 (x) = λ 3 (x 3 − 120 (3n2 − 7)x).donde las λ j se eligen de forma que los valores de φ j (x i ) sean enteros. Estos polinomiosse encuentran tabulados para varios valores de n.8.6.2. Elección del gradoUn aspecto importante de la regresión polinómica es la elección del grado m adecuado.El contraste de hipótesisH 0 : m = m 0H 1 : m = m 1 > m 0(8.10)equivale a plantear una regresión polinómica de grado m y entonces establecer la hipótesislinealH 0 : β m0 +1 = · · · = β m1 = 0sobre el modelo 8.6, o bien, utilizando el modelo equivalente 8.7 en términos de polinomiosortogonalesH 0 : γ m0 +1 = · · · = γ m1 = 0Las sumas de cuadrados residuales sonTeniendo en cuenta 8.9 resultaSCR = Q(m 1 ) SCR H = Q(m 0 )SCR H − SCR = Q(m 0 ) − Q(m 1 ) =∑m 1j=m 0 +1(n∑φ 2 j(x i ))ˆγ j2Entonces, para contrastar H 0 : m = m 0 frente H 1 : m = m 1 , calcularemos el estadísticoi=1F = (Q(m 0) − Q(m 1 ))/(m 1 − m 0 )Q(m 1 )/(n − m 1 − 1)(8.11)cuya distribución, bajo H 0 , es una F con m 1 − m 0 y n − m 1 − 1 grados de libertad.La estrategia para elegir el grado puede ser mediante elección descendente o elección ascendente.En el primer caso empezamos por el grado que se supone máximo. Supongamos,por ejemplo, que m = 5. Entonces se contrasta m = 4 frente a m = 5. Si el test F no es152


significativo, se contrasta m = 3 con m = 4, y así sucesivamente. El proceso es el inversoen el caso de elección ascendente.También es útil tener en cuenta que un descenso importante de la suma de cuadradosresidual Q(m) al pasar de grado k a grado m, es un indicio de que el grado es m.Finalmente, si disponemos de n i observaciones y i1 , . . . , y ini para cada valor de la variablede control x i i = 1, . . . , p, una vez elegido el grado m, podemos analizar la validez delmodelo planteando el contrasteH 0 : y ih = P m (x i ) + ɛ ihH 1 : y ih = g(x i ) + ɛ ihdonde g(x) es una función desconocida de x. La hipótesis nula significa afirmar queg(x) = P m (x) es un polinomio de grado m en x. Tenemos entonces (véase 6.12):SCR = ∑ (y ih − ȳ i ) 2 = ns 2 y(1 − ˆη 2 )i,hn − p g.l.SCR H = Q(m) = ns 2 y(1 − ryx) 2 n − m − 1 g.l.donde r yx es la correlación múltiple de Y sobre x, x 2 , . . . , x m (ver teorema 8.2.1). Calcularemosentonces el estadísticoF = (ˆη2 − r 2 yx)/(p − m − 1)(1 − ˆη 2 )/(n − p)y aceptaremos el ajuste polinómico de grado m si esta F no es significativa.Ejemplo 8.6.1Se dispone de la respuesta a un test de conducta de dos grupos de ratas, uno control yotro experimental, para diez observaciones realizadas cada tres días desde el día 47 al día74 de vida (ver tabla 8.4).dia grupo control grupo experimental47 25,7 34,150 20,1 24,953 16,2 21,256 14,0 23,359 21,3 22,062 20,3 30,965 28,4 31,468 23,5 26,571 16,8 23,074 9,9 17,2Cuadro 8.4: Datos del test de conducta a dos grupos de ratasEl modelo considerado hace depender la variable conducta (medida mediante el test) deltiempo t según una función polinómicavar. obs. = polinomio de grado m en t + error ⇔ y = P m (t) + ɛ153


Para determinar el grado del polinomio al cual se ajustan los valores experimentales seplantea la hipótesis 8.10 que se resuelve mediante el test F 8.11.Los resultados, obtenidos según el método de los polinomios ortogonales, son los siguientesgrupo control g.l. grupo experimental g.l.Q(0) = 273,87 9 Q(0) = 249,99 9Q(1) = 249,22 8 Q(1) = 216,12 8Q(2) = 233,52 7 Q(2) = 213,15 7Q(3) = 41,61 6 Q(3) = 37,80 6Q(4) = 41,52 5 Q(4) = 27,10 5Observemos que hay un fuerte descenso de la suma de cuadrados residual Q(m) al pasarde grado 2 a grado 3, indicio de que los datos experimentales se ajustan a un polinomiode grado 3.Las F obtenidas son:contraste grupo control grupo experimental0 v.s. 1 F = 0,79 (n.s.) F = 1,25 (n.s.)0 v.s. 2 F = 0,60 (n.s.) F = 0,60 (n.s.)0 v.s. 3 F = 11,16 (p < 0,01) F = 11,23 (p < 0,01)1 v.s. 3 F = 14,97 (p < 0,01) F = 14,25 (p < 0,01)2 v.s. 3 F = 27,67 (p < 0,01) F = 27,83 (p < 0,01)3 v.s. 4 F = 0,01 (n.s.) F = 1,98 (n.s.)Efectivamente, tanto los datos del grupo control como los del grupo experimental se ajustana un polinomio de grado 3 (ver Figura 8.2).403530252015105040 50 60 70 80grupo controlgrupoexperimentalFigura 8.2: Gráfico de los dos grupos de ratasEl modelo es:grupo control (◦)grupo experimental (•)y i = 1929,24 − 97,86t i + 1,654t 2 i − 0,0092t 3 i + ɛ iy i = 1892,28 − 94,94t i + 1,593t 2 i − 0,0088t 3 i + ɛ i154


8.7. Comparación de curvas experimentales8.7.1. Comparación globalSi dos curvas experimentales se ajustan bien a modelos de formulación matemática diferente(por ejemplo, dos polinomios de distinto grado) hay que aceptar que las curvasexperimentales son distintas.Si las dos curvas son polinomios del mismo gradoy 1 = P m (x) + ɛy 2 = ¯P m (x) + ɛla comparación se expresa planteando el siguiente contraste de hipótesisH 0 : P m (x) = ¯P m (x)H 1 : P m (x) ≠ ¯P m (x)(8.12)que implica la hipótesis linealH 0 : β i = ¯β ii = 0, 1, . . . , manáloga aH 0 : γ i = ¯γ i i = 0, 1, . . . , m (8.13)si utilizamos el modelo planteado mediante polinomios ortogonales (ver 8.7).Sean SCR 1 = Q 1 (m), SCR 2 = Q 2 (m) las sumas de cuadrados residuales para cada curvay SCR = SCR 1 + SCR 2 la suma de cuadrados residual del modelo conjunto construidomediante la unión de los dos modelos.La construcción del modelo conjunto es sólo posible si los dos modelos poseen varianzasiguales. Por este motivo, es necesario plantear previamente el test de homogeneidad devarianzasque se resuelve mediante el estadísticoH 0 : σ 2 1 = σ 2 2H 1 : σ 2 1 ≠ σ 2 2F = SCR 1/(n 1 − m − 1)SCR 2 /(n 2 − m − 1)(8.14)cuya distribución si H 0 es cierta es una F con n 1 − m − 1 y n 2 − m − 1 g.l..Si aceptamos la igualdad de varianzas, podemos resolver 8.13 mediante el estadísticoF = (SCR H − SCR 1 − SCR 2 )/(m + 1)(SCR 1 + SCR 2 )/(n 1 + n 2 − 2m − 2)(8.15)que bajo H 0 sigue una F con m + 1 y n 1 + n 2 − 2m − 2 g.l.. La suma de cuadradosSCR H = Q 12 (m) es la suma de cuadrados residual bajo H 0 , es decir, considerando quelas dos curvas son iguales y que en consecuencia todos los datos se ajustan a un mismopolinomio de grado m.155


8.7.2. Test de paralelismoLa hipótesis lineal de que las curvas son paralelas se plantea de la siguiente formaH 0 : β i = ¯β ii = 1, . . . , mo bien, si nos referimos a 8.7H 0 : γ i = ¯γ i i = 1, . . . , m (8.16)Es decir, las curvas difieren únicamente respecto a la ordenada en el origen.Esta hipótesis tiene generalmente interés cuando se rechaza H 0 de 8.12. Se resuelve medianteel estadísticoF =(SCR ∗ H − SCR 1 − SCR 2 )/m(SCR 1 + SCR 2 )/(n 1 + n 2 − 2m − 2)(8.17)cuya distribución sigue una F con m y n 1 + n 2 − 2m − 2 g.l. cuando H 0 es cierta. Lasuma de cuadrados SCR ∗ H es la suma de cuadrados residual bajo H 0 que supone aceptarla existencia de dos curvas distintas pero paralelas.Ejemplo 8.7.1En el ejemplo 8.6.1 hemos ajustado los datos del grupo control y del grupo experimentala dos polinomios de grado 3.¿Podemos aceptar que en realidad los dos polinomios son iguales? Esta pregunta equivalea plantear la hipótesis lineal 8.13. Para resolverla es necesario realizar previamente el testde homogeneidad de varianzas utilizando 8.14F =41,61/(10 − 3 − 1)37,80/(10 − 3 − 1) = 1,10con 6 y 6 g.l. (no significativa).Pasamos pues a contrastar 8.13 mediante el estadístico 8.15. La suma de cuadrados residualbajo H 0 es SCR H = Q 12 (3) = 249,06F =(249,06 − 41,61 − 37,80)/(3 + 1)(41,61 + 37,80)/(10 + 10 − 6 − 2) = 6,41con 4 y 12 g.l. que es significativa (p < 0,01). Debemos aceptar en consecuencia que lasdos curvas son diferentes (la conducta de los individuos del grupo control es diferente dela conducta de los individuos del grupo experimental).No obstante, podemos preguntarnos si las dos curvas son paralelas y plantear la hipótesislineal 8.16 que resolveremos utilizando el estadístico 8.17. La suma de cuadrados residualbajo H 0 es ahora SCR ∗ H = Q ∗ 12 = 82,59F =(82,59 − 41,61 − 37,80)/3(41,61 + 37,80)/(10 + 10 − 6 − 2) = 0,16con 3 y 12 g.l. (no significativa). Podemos entonces aceptar que las dos curvas experimentalesson paralelas. La interpretación en términos de la conducta podría realizarseconociendo con más precisión el planteamiento del problema.156


8.8. Ejemplos con RVamos a utilizar los datos del ejemplo 8.4.1 sobre el lenguaje. Las siguientes instruccionespermiten introducir los datos y dibujar los diagramas de dispersión dos a dos de lasvariables del ejemplo (ver figura 8.3).2 4 6 8y2 4 6 82 4 6 8x1x23 4 5 6 7 8 92 4 6 8 3 4 5 6 7 8 9Figura 8.3: Diagramas de dispersión dos a dos entre la variable respuesta y las variablesexplicativas del ejemplo 8.4.1> y x1 x2 exp lenguaje.datos par(pty="s")> pairs(lenguaje.datos)El siguiente paso es calcular el modelo de regresión lineal múltiple que permita predecirlos valores de Y en función de las variables explicativas x 1 y x 2 .> regrem summary(regrem)Call: lm(formula = y ~ x1 + x2)Residuals:Min 1Q Median 3Q Max-2.051 -0.5264 -0.05257 0.7989 1.47Coefficients:Value Std. Error t value Pr(>|t|)(Intercept) -0.4244 1.4701 -0.2887 0.7812x1 0.5123 0.2087 2.4543 0.0438157


x2 0.4853 0.3178 1.5273 0.1705Residual standard error: 1.266 on 7 degrees of freedomMultiple R-Squared: 0.7907F-statistic: 13.22 on 2 and 7 degrees of freedom, the p-value is 0.004196Correlation of Coefficients:(Intercept) x1x1 0.1811x2 -0.8036 -0.6973El plano estimado es ŷ = −0,4244 + 0,5123x 1 + 0,4853x 2 con un coeficiente de determinaciónR 2 = 0,7907 y el estadístico F nos dice que el modelo es útil, si un estudio másprofundo decide finalmente que es realmente válido.Resulta curioso que en S-PLUS se puede obtener el coeficiente de determinación R 2 apartir de la función summary.lm en la forma> summary(regrem)$r.squared[1] 0.790684pero no hay nombre para el coeficiente ajustado. Mientras que en R sí es posible.También se pueden obtener los coeficientes a partir de la matriz X ′ X:> XtX XtX(Intercept) x1 x2(Intercept) 10 52 61x1 52 342 350x2 61 350 403> XtX.inv XtX.inv(Intercept) x1 x2(Intercept) 1.34840753 0.03466479 -0.2342073x1 0.03466479 0.02718635 -0.0288580x2 -0.23420728 -0.02885800 0.0629949> XtX.inv%*%t(cbind(1,exp))%*%y[,1](Intercept) -0.4244237x1 0.5123174x2 0.4853071La matriz XtX.inv se puede obtener de forma directa así:> summary(regrem)$cov.unscaled(Intercept) x1 x2(Intercept) 1.34840753 0.03466479 -0.2342073x1 0.03466479 0.02718635 -0.0288580x2 -0.23420728 -0.02885800 0.0629949También se obtiene más fácilmente con los elementos que proporciona la función lsfit:158


egrem.ls regrem.diag regrem.diag$cov.unscaledLa matriz ˆσ 2 (X ′ X) −1 de varianzas y covarianzas entre los estimadores MC de los coeficientesse obtiene de forma sencilla:> summary(regrem)$sigma^2*summary(regrem)$cov.unscaled(Intercept) x1 x2(Intercept) 2.16117719 0.05555943 -0.37537868x1 0.05555943 0.04357326 -0.04625252x2 -0.37537868 -0.04625252 0.10096587o también> regrem.diag$std.dev^2*regrem.diag$cov.unscaledPara calcular intervalos de confianza sobre los coeficientes de regresión hacemos> beta.est cbind(beta.est+qt(0.025,7)*regrem.diag$std.err,+ beta.est+qt(0.975,7)*regrem.diag$std.err)[,1] [,2](Intercept) -3.90064431 3.051797x1 0.01872084 1.005914x2 -0.26605529 1.236669Observamos que los intervalos correspondientes a β 0 y β 2 contienen al cero, en coherenciacon los test t parciales. Pero también nos puede interesar reproducir la tabla ANOVAsobre la significación de la regresión, aunque el test F ya se ha obtenido con la funciónsummary(regrem). Las funciones anova.lm o summary.aov nos pueden ayudar.> summary.aov(regrem)Df Sum of Sq Mean Sq F Value Pr(F)x1 1 38.64190 38.64190 24.10956 0.0017330x2 1 3.73876 3.73876 2.33270 0.1705213Residuals 7 11.21934 1.60276Sin embargo, los resultados se refieren a contrastes F secuenciales y parciales. ExactamenteSC R (β 0 , β 1 ) = 38,64190 y SC R (β 2 |β 0 , β 1 ) = 3,73876, de manera queSC R = SC R (β 1 , β 0 ) + SC R (β 2 |β 0 , β 1 ) = 42,38066Por otra parte, se observa directamente que SCR = 11,21934. Con estos datos, completarla tabla 8.1 es relativamente sencillo. Sin embargo se puede conseguir dicha tabla, aunquecon otra organización, mediante un contraste de modelos:159


egrem0 anova(regrem0,regrem)Analysis of Variance TableResponse: yTerms Resid. Df RSS Test Df Sum of Sq F Value Pr(F)1 1 9 53.600002 x1 + x2 7 11.21934 2 42.38066 13.22113 0.00419574Otro aspecto que también hemos visto ha sido el cálculo de los coeficientes de regresiónestandarizados, que con R se obtienen así:> cor(exp)x1 x2x1 1.0000000 0.6973296x2 0.6973296 1.0000000> cor(exp,y)[,1]x1 0.8490765x2 0.7813857> solve(cor(exp),cor(exp,y))[,1]x1 0.5921248x2 0.3684796Si queremos más detalles sobre los coeficientes de regresión estandarizados, podemosutilizar el siguiente modelo sin coeficiente de intercepción:> x1.est x2.est y.est regrem.est summary(regrem.est)Por último, podemos estudiar la multicolinealidad calculando los FIV> diag(solve(cor(exp)))[1] 1.946542 1.946542que en este caso no existe.El cálculo de predicciones puntuales o por intervalo se obtiene mediante la funciónpredict.lm del modelo lineal.160


8.9. EjerciciosEjercicio 8.1Consideremos el modelo de la regresión lineal múltipley i = β 0 + β 1 x i1 + · · · + β m x imi = 1, . . . , nSean ˆβ 0 , ˆβ 1 , . . . , ˆβ m las estimaciones MC de los parámetros. Explicar en qué condicionespodemos afirmar que E( ˆβ j ) = β j , j = 0, 1, . . . , m.Por otra parte, ¿es siempre válido afirmar quees una estimación centrada deEjercicio 8.2ŷ i = ˆβ 0 + ˆβ 1 x i1 + · · · + ˆβ m x imβ 0 + β 1 x i1 + · · · + β m x im ?En la regresión múltiple de una variable Y sobre tres variables control x 1 , x 2 , x 3y i = β 0 + β 1 x i1 + β 2 x i2 + β 3 x i3 + ɛ ii = 1, . . . , ndonde ɛ i ∼ N(0, σ 2 ), se desea contrastar la hipótesis nulaH 0 : β 2 = β 3 = 0Sea r yx el coeficiente de correlación múltiple de Y sobre x 1 , x 2 , x 3 y sea r y1 el coeficientede correlación simple entre Y y x 1 . Deducir un test F para contrastar H 0 que sea funciónde r yx y r y1 .Ejercicio 8.3En una gran ciudad, queremos relacionar el número de muertos diarios por enfermedadescardio-respiratorias con la media de humos (mg/m 3 ) i la media de dióxido de azufre(partes/millón) medidas por los equipos del Ayuntamiento en diversas zonas de la ciudad.Consideremos un modelo de regresión lineal no centrado con los siguientes datos:⎛X ′ X = ⎝Se pide:15 6,87 21,095,6569 18,724363,2157⎛X ′ Y = ⎝⎞⎛⎠ (X ′ X) −1 = ⎝39222439,547654,35⎞⎠ Y ′ Y = 12642240,2243 −1,2611 0,298716,1158 −4,35271,20541) Calcular la estimación MC de todos los coeficientes de regresión del modelo.2) Obtener una estimación insesgada de la varianza del modelo.3) Contrastar la significación del modelo propuesto con α = 0,1.161⎞⎠


4) Calcular el intervalo de confianza al 95 % para la media del valor respuesta parauna media de humos de 1 mg/m 3 y una media de SO 2 de 1.Ejercicio 8.4Se dispone de los siguientes datos sobre diez empresas fabricantes de productos de limpiezadoméstica:Empresa V IP P U1 60 100 1,82 48 110 2,43 42 130 3,64 36 100 0,65 78 80 1,86 36 80 0,67 72 90 3,68 42 120 1,29 54 120 2,410 90 90 4,2En el cuadro anterior, V son las ventas anuales, expresadas en millones de euros, IP es uníndice de precios relativos (Precios de la empresa/Precios de la competencia) y P U son losgastos anuales realizados en publicidad y campañas de promoción y difusión, expresadostambién en millones de euros.Tomando como base la anterior información:1) Estimar el vector de coeficientes β = (β 0 , β 1 , β 2 ) ′ del modeloV i = β 0 + β 1 IP i + β 2 P U i + ɛ i2) Estimar la matriz de varianzas-covarianzas del vector ̂β.3) Calcular el coeficiente de determinación.Ejercicio 8.5Dado el modeloy los siguientes datosY t = β 0 + β 1 X 1t + β 2 X 2t + u tY t X 1t X 2t10 1 025 3 −132 4 043 5 158 7 −162 8 067 10 −171 10 2obtener:162


(a) La estimación MC de β 0 , β 1 , β 2 utilizando los valores originales.(b) La estimación MC de β 0 , β 1 , β 2 utilizando los datos expresados en desviaciones respectoa la media.(c) La estimación insesgada de σ 2 .(d) El coeficiente de determinación.(e) El coeficiente de determinación corregido.(f) El contraste de la hipótesis nula H 0 : β 0 = β 1 = β 2 = 0.(g) El contraste de la hipótesis nula H 0 : β 1 = β 2 = 0 utilizando datos originales.(h) El contraste de la hipótesis nula H 0 : β 1 = β 2 = 0 utilizando datos en desviacionesrespecto a la media.(i) La representación gráfica de una región de confianza del 95 % para β 1 y β 2 .(j) El contraste individual de los parámetros β 0 , β 1 y β 2 .(k) El contraste de la hipótesis nula H 0 : β 1 = 10β 2 .(l) El contraste de la hipótesis nula H 0 : 2β 0 + 2β 1 + 7β 2 = 50.(m) El contraste de la hipótesis nula conjunta H 0 : β 1 = 10β 2 , 2β 0 + 2β 1 + 7β 2 = 50.Ejercicio 8.6Supongamos que hemos estimado la siguiente ecuación utilizando MC (con las variablesmedidas en logaritmos)y las estimaciones de los parámetros son:Y t = β 0 + β 1 X 1t + β 2 X 2t t = 1, . . . , 17ˆβ 0 = 1,37 ˆβ1 = 1,14 ˆβ2 = −0,83También hemos obtenido la siguiente expresión escalar:Y ′ [I − X(X ′ X) −1 X ′ ]Y = 0,0028y los elementos triangulares de la matriz (X ′ X) −1 son:⎛510,89 −254,35⎞0,42⎝ 132,70 −6,82⎠7,11Se pide:1. Calcular las varianzas de los estimadores MC de β 0 , β 1 , β 2 .2. Si X 1t aumenta en un 1 por 100 y X 2t en un 2 por 100, ¿cuál sería el efecto estimadoen Y t ?163


3. Efectuar un test estadístico para verificar la hipótesis de que β 1 = 1 y β 2 = −1y dar el valor de dicho estadístico. ¿Cuáles son las tablas que necesitaremos pararealizar el test y cuántos son los grados de libertad?Ejercicio 8.7Una variable Y depende de otra variable control x que toma los valores x 1 = 1, x 2 =2, x 3 = 3, x 4 = 4 de acuerdo con el modelo lineal normaly i = β 0 + β 1 x i + β 2 x 2 i + ɛ i i = 1, 2, 3, 4Estudiar la expresión del estadístico F para contrastar la hipótesis H 0 : β 1 = β 2 .Ejercicio 8.8La puntuación del test open-field para un grupo de 10 ratas control (C) y otro grupo de10 ratas experimentales (E) a lo largo de los días 47, 50, . . . , 74 contados desde el instantedel nacimiento fueDía 47 50 53 56 59 62 65 68 71 74grupo C 34 24 21 23 23 30 31 26 23 17grupo E 25 20 16 15 21 20 28 23 18 9Se ajustaron al grupo control polinomios de grado 0, 1, 2 y 3 respecto la variable “edaden días” y se obtuvieron las siguientes sumas de cuadrados residuales:Se pide:Q(0) = 235,6Q(1) = 202,8Q(2) = 199,4Q(3) = 29,71) Comprobar que se puede aceptar como válido el polinomio de grado 3 como polinomiode regresión de Y (puntuación) sobre x (edad en días).2) El polinomio de grado 3 que ajusta Y a x esy = 318,8 − 93,3x + 1,56x 2 − 0,0086x 3El coeficiente de correlación múltiple de Y sobre x, x 2 , x 3 es r yx = 0,8734. Estudiarsi es significativo.3) Para el grupo experimental es también adecuado un ajuste polinómico de grado 3con suma de cuadrados residual Q(3) = 29,2. Además, juntando todos los datos referentesa Y , es decir, juntando los dos grupos y en consecuencia las 20 observacionesy realizando un ajuste polinómico de grado 3, se obtieneContrastar las hipótesisSCR H = 225,8H 0 : los dos polinomios (C y E) son idénticosH 1 : hay diferencias significativas entre ambos polinomios164


Capítulo 9Diagnosis del modeloEn este capítulo se investiga la detección de posibles deficiencias en el modelo por incumplimientode las hipótesis fijadas en 2.3. Para ello la principal herramienta es el análisisde los residuos que nos permite detectar los siguientes problemas:1. Algunas de las variables explicativas del modelo tienen una relación no lineal conla variable respuesta.2. No hay homocedasticidad, es decir, los errores no tienen varianza constante.3. Los errores no son independientes.4. Muchas observaciones atípicas.5. Hay observaciones demasiado influyentes.6. Los errores no tienen distribución normalTambién estudiaremos la consecución del mejor grupo reducido de variables regresoras.9.1. Residuos9.1.1. Estandarización internaLos residuos de un modelo lineal se obtienen como diferencia entre los valores observadosde la variable respuesta y las predicciones obtenidas para los mismos datos:e = (e 1 , . . . , e n ) ′ = Y − ŶLa media de los residuos es ceroē = 1 nn∑e i = 0i=1y una estimación aproximada de la varianza es1n − k − 1n∑(e i − ē) 2 =i=11n − k − 1n∑e 2 i = SCR/(n − k − 1) = ECMi=1165


que tiene sólo n − k − 1 grados de libertad, donde k es el número de variables regresoras,ya que los n residuos no son independientes,Se llaman residuos estandarizados ad i =e i√ECMi = 1, . . . , nque tienen media cero y varianza aproximada uno.Ahora bien, como el vector de residuos aleatorios es e = Y − Ŷ = (I − P)Y = (I − P)ɛ,donde P es la matriz proyección, la matriz de varianzas-covarianzas de los residuos esvar(e) = σ 2 (I − P) de manera quevar(e i ) = σ 2 (1 − h ii )donde h ii es el i-ésimo elemento 1 de la diagonal de P.La utilización de los residuos e como estimaciones de los errores ɛ requiere que mejoremosla estandarización. Como 0 ≤ h ii ≤ 1, utilizar ECM para estimar la varianza var(e i ) esuna sobreestimación:0 ≤ var(e i ) ≤ σ 20 ≤ ECM(1 − h ii ) ≤ ECMDe modo que muchos autores recomiendan trabajar con los residuos studentizadosr i =e i[ECM(1 − h ii )] 1/2i = 1, . . . , nAdemás, h ii es una medida de la localización del i-ésimo punto x i respecto al punto medio.En la regresión lineal simpleh ii = 1 n + (x i − ¯x) 2∑ ni=1 (x i − ¯x) 2 (9.1)En el modelo de regresión múltipleh ii = 1 n [1 + (x i − ¯x) ′ S −1xx(x i − ¯x)] = 1 n (1 + D2 i ) (9.2)donde D i es la llamada distancia de Mahalanobis.Así, la varianza de un error e i depende de la posición del punto x i . Puntos cercanos alpunto central ¯x tienen mayor varianza (pobre ajuste MC) que los puntos alejados.Como las violaciones de las hipótesis del modelo son más probables en los puntos remotos,pero más difíciles de detectar con los residuos e i (o d i ), porque los residuos son menores,es mejor trabajar con los residuos r i ya que var(r i ) = 1 constante, desde el punto de vistade la localización de los x i .Para n grande se puede trabajar con los d i o con los r i . Pero como valores altos de e iy de h ii pueden indicar un punto de alta influencia en el ajuste MC, se recomienda lautilización de los residuos estudentizados r i . Estos residuos se utilizarán en el diagnósticode valores atípicos.1 En muchos libros escritos en inglés la matriz proyección se llama hat y se escribe H.166


Ejemplo 9.1.1Si recuperamos el ejemplo de regresión simple propuesto en la sección 1.2 con los datosde tráfico, podemos calcular los residuos studentizados de ese modelo.Primero calculamos los elementos de la diagonal de la matriz P, por ejemploy con este valor se obtiene el residuoh 11 = 1 (12,7 − 54,44167)2+24 15257,4383r 1 == 0,1558650,528699= 2,139680,2689388(1 − 0,155865)1/2Los otros residuos se calculan de forma similar, mejor con la ayuda de una hoja de cálculoo con un programa estadístico (ver sección 9.4).9.1.2. Estandarización externaPara calcular los residuos estudentizados r i en el apartado anterior hemos utilizado ECMcomo estimador de la varianza σ 2 . Nos referiremos a esto como una estimación internapuesto que para calcularla se utilizan los n puntos. Otra aproximación consiste en estimarσ 2 con el conjunto de datos sin la i-ésima observación.Si s 2 (i) es la estimación de σ2 así obtenida, se demuestra ques 2 (i) = (n − k − 1)ECM − e2 i /(1 − h ii )n − k − 2= ECM( n − k − 1 − r2in − k − 2Si utilizamos estos estimadores de σ 2 en lugar de ECM, producimos los llamados residuosstudentizados externamente o R-Studente it i =[s 2 (i) (1 − h i = 1, . . . , n (9.3)ii)] 1/2En la mayoría de situaciones los residuos t i no diferirán de los residuos studentizados r i .Sin embargo, si la i-ésima observación es influyente, entonces s 2 (i)puede diferir significativamentede ECM y el estadístico t i será más sensible para este punto. Además, bajo lashipótesis estándar t i ∼ t n−k−2 , de modo que podemos considerar un procedimiento formalpara la detección de valores atípicos mediante el contraste de hipótesis y utilizando algúnmétodo múltiple. En la práctica, un diagnóstico “a ojo” es más útil y rápido. En general,se considera que un residuo es atípico o outlier si |t i | > 2. Además, la detección de losvalores atípicos está ligada a la detección de puntos influyentes.Ejemplo 9.1.2Vamos a calcular el residuo studentizado externamente t 1 para la primera observaciónde la regresión simple continuación del ejemplo 9.1.1. Para ello necesitamos el valor delerror ECM = (0,2689388) 2 = 0,072328 con el que calculamoss 2 24 − 1 − 1 − 2,139682(i) = 0,07232824 − 1 − 2y con esta estimación externat 1 == 0,0600040,528699√0,060004(1 − 0,155865)= 2,349159)167


a) Residuos studentizadosinternamenteb) Residuos studentizadosexternamenter_i-2 -1 0 1 2t_i-2 -1 0 1 25 10 15 20dato5 10 15 20datoFigura 9.1: Gráficos de los residuos studentizados del ejemplo 9.1.1.Siguiendo con la misma idea, también podemos calcular los residuos en función de laspredicciones ŷ i(i) calculadas con el modelo de regresión sin la i-ésima observación. Seane (i) = y i − ŷ i(i) los residuos así obtenidos yPRESS =n∑e 2 (i) (9.4)i=1su suma de cuadrados 2 . También algunos autores llaman error cuadrático de validacióna esta suma de cuadrados por ser una medida externa de precisión del modelo.Se demuestra quee ie (i) =var(e (i) ) = σ2(9.5)1 − h ii 1 − h iide modo que la estandarización de estos residuose (i)[var(e (i) )] 1/2 =e i[σ 2 (1 − h ii )] 1/2también depende del estimador que utilicemos para estimar σ 2 . Si utilizamos el estimadorinterno ECM, recuperamos los residuos studentizados r i y si utilizamos el estimadorexterno s 2 (i) obtenemos los residuos studentizados externamente t i.Los residuos asociados con puntos para los que h ii sea grande, tendrán residuos e (i) grandes.Estos puntos serán puntos de alta influencia. Una gran diferencia entre el residuoordinario e i y el residuo e (i) indicará un punto en el que el modelo, con ese punto, seajusta bien a los datos, pero un modelo construido sin ese punto “predice” pobremente.9.1.3. GráficosAlgunos gráficos de los residuos nos van a ayudar en el diagnóstico del modelo aplicado.2 prediction error sum of squares168


En primer lugar, el análisis de datos univariante de los residuos y, en particular, los gráficoscomo histogramas, diagramas de caja, diagramas de tallo y hojas, etc. nos mostraránalgunos detalles. Por ejemplo, en el diagrama de caja podemos estudiar la centralidad, lasimetría y la presencia de valores atípicos.,6,4,2-,0-,2RESIDUO Stem-and-Leaf PlotFrequency Stem & Leaf14,00 -0 . 000111222223338,00 0 . 011122242,00 0 . 55-,4Stem width: 1,000000Each leaf: 1 case(s)-,6N =24RESIDUOFigura 9.2: Boxplot y diagrama de tallo y hojas de los residuos en la regresión simple delejemplo 9.1.3.Ejemplo 9.1.3También con los datos de tráfico del ejemplo de regresión simple propuesto en la sección1.2 podemos representar algunos gráficos de los residuos sin estandarizar. En la figura9.2 se muestran dos de los gráficos obtenidos con el programa SPSS. En ellos se observauna cierta asimetría de los residuos, aunque no hay ningún valor atípico.Otros gráficos adecuados para el análisis de la regresión son:Gráfico de dispersión de los residuos respecto al índice i = 1, . . . , n.Este diagrama puede indicar algún tipo de correlación no deseada entre los residuoso alguna agrupación contraria a la supuesta aleatoriedad (figura 9.3 a).Gráfico de los residuos versus los datos de la variable respuesta.Permite observar los residuos desde los valores observados de la variable respuesta.Gráfico de los residuos versus los valores ajustados.Este gráfico es muy importante porque debe mostrar una total aleatoriedad. Ladispersión horizontal no debe presentar ninguna tendencia. Una curvatura indica laviolación del supuesto de linealidad del modelo en el caso de regresión lineal simple(figura 9.3 b). Una forma triangular indica una posible heterogeneidad o violaciónde la hipótesis de varianza constante de los errores.Gráficos de los residuos versus las observaciones de la variable o variables regresoras.Sirven para detectar si las variables regresoras o explicativas han de incluirse en elmodelo con alguna transformación no lineal.169


Gráfico de los valores observados versus los valores ajustados.La proximidad de los puntos a la bisectriz muestra el ajuste de la recta de regresión(figura 9.3 c).Gráfico de los cuantiles de la distribución normal o QQ-plot y gráfico de las probabilidadesacumuladas de la distribución normal o PP-plot.Con estos gráficos se pretende visualizar el ajuste de la distribución muestral delos residuos a la ley normal. En el QQ-plot se dibujan los puntos asociados a loscuantiles de la distribución normal (estándar en R o sin estandarizar como en SPSS).En el PP-plot se dibujan las probabilidades acumuladas estimadas y teóricas parala distribución normal. En ambos casos se dibuja también una recta que representael ajuste perfecto a la distribución normal. Los desvíos exagerados de dichas rectasindican una posible violación de la hipótesis de normalidad (figura 9.3 d).El estudio de la normalidad de los residuos se debe completar con algún contrastede ajuste como la prueba ji-cuadrado o el test de Kolmogorov (ver sección 9.4).a) Residuos vs. indiceb) Residuos vs. ajustadosresiduos-0.2 0.0 0.2 0.4residuos-0.2 0.0 0.2 0.45 10 15 20indicec) Ajustados vs. observados3 4 5 6 7ajustadosd) QQ-plotobservados4 5 6 7 8residuos-0.2 0.0 0.2 0.43 4 5 6 7ajustados-2 -1 0 1 2Cuantiles de la normalFigura 9.3: Gráficos en el análisis de la regresión simple del ejemplo 9.1.4.Ejemplo 9.1.4Como continuación del ejemplo de regresión simple 9.1.3 con los datos de tráfico, podemosrepresentar algunos gráficos como los de la figura 9.3. Entre esos gráficos podemos170


destacar la no aleatoriedad manifiesta del gráfico (b) que indica un ajuste no lineal entrelas variables. Ello justifica la introducción del modelo parabólico (ejercicio 9.1).9.2. Diagnóstico de la influenciaOcasionalmente hallamos que algún dato o un pequeño subconjunto de datos ejerce unadesproporcionada influencia en el ajuste del modelo de regresión. Esto es, los estimadoresde los parámetros o las predicciones pueden depender más del subconjunto influyenteque de la mayoría de los datos. Queremos localizar estos puntos influyentes y medir suimpacto en el modelo. Si por alguna razón concreta son puntos “malos” los eliminaremos,pero si no ocurre nada extraño, su estudio puede darnos algunas claves del modelo.9.2.1. Nivel de un puntoCasi siempre los puntos definidos por las variables regresoras o explicativas forman unanube y están razonablemente repartidos alrededor del punto medio. Sin embargo, algunode ellos o un pequeño grupo puede aparecer muy alejado del resto. Estos valores sonpotencialmente peligrosos, puesto que pueden afectar excesivamente al ajuste del modelo.Vamos a definir el concepto de nivel 3 de un punto y señalaremos los que tengan un nivelmuy alto (leverage points).El nivel de un punto es una medida de la distancia del punto al centroide del conjunto dedatos. Existen varias propuestas pero la más extendida se basa en los elementos h ii de ladiagonal de la matriz proyección P. Estos elementos se calculan con las fórmulas 9.1 enel caso de la regresión simple y 9.2 para la regresión múltiple.Comon∑h ii = traza(P) = rango(P) = k + 1i=1el tamaño medio de cada h ii es (k + 1)/n. Así, cuando un punto verifique h ii > 2(k + 1)/ndiremos que dicha observación es un punto de alto nivel. Estos puntos se deben marcarpara su posterior estudio ya que son potencialmente influyentes.Ejemplo 9.2.1Siguiendo con el ejemplo 9.1.1 los datos con mayor nivel sondato nivel1 0,1558645215 0,136018682 0,13354830Dado que 2(k + 1)/n = (2 · 2)/24 = 0,1666, no hay ningún punto de alto nivel.3 leverage171


9.2.2. Influencia en los coeficientes de regresiónEntre las medidas de influencia sobre los coeficientes de regresión la más empleada es ladistancia de Cook (1977,1979)C i = (̂β − ̂β (i) ) ′ X ′ X(̂β − ̂β (i) )(k + 1)ECMi = 1, . . . , n (9.6)donde ̂β son las estimaciones MC en el modelo con todos los puntos, mientras que ̂β (i) sonlas estimaciones sin el i-ésimo punto. Esta medida calcula la distancia cuadrática entrêβ y ̂β (i) , relativa a la geometría fija de X ′ X.Otra versión equivalente de esta distancia esC i = (Ŷ − Ŷ(i)) ′ (Ŷ − Ŷ(i))(k + 1)ECMya que Ŷ = X̂β y Ŷ(i) = X̂β (i) .Sin embargo para el cálculo de esta distancia es mejor utilizar la fórmulaC i =r2 ik + 1 ·h ii1 − h iidonde la primera parte depende del ajuste al modelo de la i-ésima predicción, mientrasque el segundo factor es una función de la distancia del punto x i al centroide del conjuntode observaciones de las variables explicativas. Una demostración de esta fórmula puedeverse en el ejercicio 9.19 del libro de Ugarte y Militino[69].La búsqueda de puntos influyentes se puede iniciar con la identificación de puntos condistancia de Cook elevada. Sin embargo se desconoce la distribución exacta de este estadísticoy no hay reglas fijas para la determinación de los puntos con valor de C i grande.Los puntos con distancias de Cook grandes pueden ser influyentes y podemos extraerlosdel análisis para ver si los cambios son apreciables.Ejemplo 9.2.2Con el ejemplo de regresión simple que estamos estudiando desde el ejemplo 9.1.1 seobserva que los datos con mayor distancia de Cook son:dato h ii r i C i1 0,1559 2,1397 0,422712 0,1227 2,1178 0,3136Estos datos son los de mayor influencia debida al gran residuo studentizado (los dosmayores) y a su alto nivel, especialmente el dato 1.Otra medida de influencia sobre cada coeficiente de regresión por separado fue propuestapor Belsley et al.[6] y consiste en la diferencia estandarizada entre la estimación MC dedicho parámetro con todas las observaciones y la estimación MC del mismo sin la i-ésima:Dfbetas j(i) = ˆβ j − ˆβ j(i)√s 2 (i) c jj172


a) Niveles de los datosb) Distancias de Cookh_ii0.04 0.06 0.08 0.10 0.12 0.14 0.16C_i0.0 0.1 0.2 0.3 0.45 10 15 20dato5 10 15 20datoFigura 9.4: Gráficos de los niveles y distancias de Cook de los datos del ejemplo 9.2.2.para j = 0, 1, . . . , k y i = 1, . . . , n, donde c jj es el j-ésimo elemento de la diagonal dela matriz (X ′ X) −1 y s 2 (i) la estimación MC de la varianza σ2 sin la i-ésima observación.Observemos que s 2 (i) c jj es una estimación de la varianza var( ˆβ j ) = σ 2 c jj .Un valor absoluto desmesurado de esta medida indica una gran influencia de la observacióni-ésima sobre la estimación del coeficiente β j . En la práctica se considera unaobservación influyente cuando |Dfbetas| > 1 para un pequeño conjunto de datos y|Dfbetas| > 2/ √ n en general.9.2.3. Influencia en las prediccionesComo hemos visto, la distancia de Cook es también una medida de la influencia de unpunto sobre el conjunto de predicciones.Otra medida de influencia de la i-ésima observación sobre la predicción de la propiaobservación i es el estadísticoDffits i = |ŷ i − ŷ i(i) |√s 2 (i) h iidonde se estandariza la diferencia entre las predicciones de la i-ésima observación con ysin ella misma.A partir de las ecuaciones 9.3 y 9.5 se demuestra que (ejercicio 9.3)√hiiDffits i = |t i |(9.7)1 − h iidonde t i son los residuos studentizados externamente.En general se considera que la influencia es notable si el Dffits es superior a 2 √ (k + 1)/n,mientras que para un conjunto de datos reducido basta que sea mayor que uno.173


Ejemplo 9.2.3Como continuación del ejemplo 9.2.2 podemos calcular el Dffits 1 para la primera observación:√ 0,155865Dffits 1 = |2,349159|1 − 0,155865 = 1,009439que supera el valor frontera 2 √ 2/24 = 0,577 y muestra la alta influencia de esta observación.9.3. Selección de variablesCon el objetivo de considerar el mejor modelo de regresión posible, el experimentadordebe seleccionar un conjunto de variables regresoras entre las observadas y, si es necesario,entre potencias y productos de las mismas. Una primera decisión fijará el tipo derelación funcional con la variable respuesta pero, en todo caso, la selección de un conjuntoreducido de variables explicativas es un problema complicado. Si consideramos un númerodemasiado pequeño de variables es posible que la potencia del modelo se vea reduciday que las estimaciones obtenidas sean sesgadas, tanto de los coeficientes de regresión,como de las predicciones. Este sesgo se origina ya que los errores calculados con los datosobservados pueden contener efectos no aleatorios de las variables desechadas. Por otraparte, un número muy grande de variables explicativas complica la utilidad práctica delmodelo y, aunque mejora el ajuste aparente, aumenta la varianza de los estimadores delos parámetros.Decidir el mejor conjunto de variables es prácticamente un arte, en el que algunas técnicassirven de apoyo: test t de Student de los coeficientes de regresión, test F de significación dela regresión, estudio de la multicolinealidad, etc. Sin embargo, ya hemos alertado sobre lautilización ciega de los test t parciales para medir la importancia de las variables. Así pues,es preciso añadir algunas técnicas específicas para comparar modelos de regresión quepasamos a detallar.9.3.1. Coeficiente de determinación ajustadoEsta técnica consiste en calcular los coeficientes de determinación de todos los modelosposibles con la combinación de cualquier número de variables explicativas. Para evitar losproblemas que justifican la definición 8.2.1 resulta obvio utilizar el coeficiente ajustadocuando hay muchas variables en juego. El objetivo es reconocer el modelo con mayorcoeficiente. Sin embargo, si el número de variables es considerable esta técnica puedetener dificultades de cálculo.9.3.2. Criterio C P de MallowsCon este criterio se debe fijar en primera instancia un número P de parámetros, incluidoel término independiente, aunque con posterioridad se podrá variar. Se trata de hallar elmejor modelo con P variables explicativas, incluida la constante, utilizando el estadísticode MallowsC P = SCR Pˆσ 2 − (n − 2P )174


donde SCR P es la suma de cuadrados residual del modelo particular y ˆσ 2 un estimadorde la varianza del modelo que acostumbra a ser el ECM del modelo completo.Para el modelo completo P = k + 1, el estadístico de Mallows esC k+1 = SCR − (n − 2(k + 1)) = n − (k + 1) − (n − 2(k + 1)) = k + 1ECMTambién para todo modelo no completo se puede demostrar que aproximadamente E(C P ) =P , si el modelo es adecuado. En consecuencia parece recomendable elegir los conjuntospara los que C P sea aproximadamente P .9.3.3. Selección paso a pasoEl procedimiento se puede realizar hacia adelante (forward stepwise) o hacia atrás (backwardstepwise), seleccionando las variables una a una e incorporándolas desde el modeloinicial o eliminándolas desde el modelo completo en función de su contribución al modelo.Aunque es el método más utilizado por su facilidad de computación, este sistema tiene elinconveniente de que puede conducir a modelos distintos y no necesariamente óptimos.En la selección hacia adelante se incorpora como primera variable la de mayor F de significaciónde la regresión simple. La segunda variable se selecciona por su mayor contribuciónal modelo que ya contiene la primera variable del paso anterior y así sucesivamente.9.4. Ejemplos con RCon los datos de tráfico de la sección 1.2 se calcula la regresión como se explica en lasección 6.9 mediante la instrucción> recta par(mfrow=c(1,2))> par(pty="s")> hist(residuals(recta),xlab="residuos")> title("a) Histograma")> boxplot(residuals(recta))> title("b) Diagrama de caja")> stem(residuals(recta))N = 24 Median = -0.0356607Quartiles = -0.228869, 0.1987335175


a) Histogramab) Diagrama de caja0 2 4 6 8-0.2 0.0 0.2 0.4-0.4 -0.2 0.0 0.2 0.4 0.6residuosFigura 9.5: Gráficos de los residuos de la regresión simple del ejemplo de la sección 1.2.Decimal point is 1 place to the left of the colon-3 : 510-2 : 44332-1 : 711-0 : 6110 : 31 : 0282 : 2453 :4 : 05 : 33Para obtener los gráficos de la figura 9.3 se requieren las siguientes instrucciones:> par(mfrow=c(2,2))> plot(residuals(recta),xlab="indice",ylab="residuos")> title("a) Residuos vs. indice")> plot(fitted(recta),residuals(recta),xlab="ajustados",ylab="residuos")> title("b) Residuos vs. ajustados")> plot(fitted(recta),rvel,xlab="ajustados",ylab="observados")> abline(0,1)> title("c) Ajustados vs. observados")> qqnorm(residuals(recta),xlab="Cuantiles de la normal",ylab="residuos")> qqline(residuals(recta))> title("d) QQ-plot")R también permite obtener 6 gráficos para el análisis de un modelo de regresión lineal deuna forma directa, mediante las instrucciones176


par(mfrow=c(2,3))> plot(recta)En cuanto a los contrastes de ajuste a la distribución normal, podemos optar entre el testde Kolmogorov-Smirnov ks.gof y la prueba ji-cuadrado chisq.gof. En nuestro caso:> ks.gof(residuals(recta), distribution = "normal")One sample Kolmogorov-Smirnov Test of Composite Normalitydata: residuals(recta)ks = 0.129, p-value = 0.5 alternativehypothesis: True cdf is not the normal distn. with estimated parameterssample estimates:mean of x standard deviation of x2.298509e-017 0.2630273También se puede calcular la regresión con la instrucciónrecta.ls recta.diag recta.diag$hat # nivel...> recta.diag$std.res # residuos studentizados...> recta.diag$stud.res # residuos studentizados externamente...> recta.diag$cooks # distancias de Cook...> recta.diag$dfits # medidas Dffits...Los gráficos ...> par(mfrow=c(1,2))> par(pty="s")> plot(recta.diag$hat,type="h",xlab="dato",ylab="h_ii")> title("a) Niveles de los datos")> plot(recta.diag$cooks,type="h",xlab="dato",ylab="C_i")> title("b) Distancias de Cook")> par(mfrow=c(1,2))> par(pty="s")> plot(recta.diag$std.res,xlab="dato",ylab="r_i",ylim=c(-2.5,2.5))> title("a) Residuos studentizados \n internamente")> plot(recta.diag$stud.res,xlab="dato",ylab="t_i",ylim=c(-2.5,2.5))> title("b) Residuos studentizados \n externamente")177


9.5. EjerciciosEjercicio 9.1Realizar el análisis completo de los residuos del modelo de regresión parabólico propuestoen la sección 1.2 con los datos de tráfico.Ejercicio 9.2Realizar el análisis completo de los residuos de los modelos de regresión simple y parabólicopropuestos en la sección 1.2 con los datos de tráfico, pero tomando como variablerespuesta la velocidad (sin raíz cuadrada). Este análisis debe justificar la utilización dela raíz cuadrada de la velocidad como variable dependiente.Ejercicio 9.3Probar la relación 9.7 a partir de las ecuaciones 9.3 y 9.5.Ejercicio 9.4Se define el coeficiente de robustez comoB 2 =SCRPRESSdonde PRESS es la suma de cuadrados 9.4. Este coeficiente está entre 0 y 1 y representauna medida de la robustez del modelo.Calcular el coeficiente de robustez para los cinco conjuntos de datos de la sección 6.8.178


Capítulo 10Análisis de la Varianza10.1. IntroducciónEl Análisis de la Varianza es un conjunto de técnicas estadístico-matemáticas que permitenanalizar cómo operan sobre una variable respuesta diversos factores consideradossimultáneamente según un determinado diseño factorial. Normalmente interesa estudiarcómo se diferencian los niveles de un cierto factor, llamado factor tratamiento, teniendo encuenta la incidencia de otros factores cualitativos o cuantitativos (factores ambientales),cuya influencia es eliminada mediante una adecuada descomposición de la variabilidad dela variable observada. También se pretende detectar la relevancia en el resultado de lasvariables o factores influyentes, es decir, estudiar la causalidad.La variable respuesta se considera del tipo continuo, mientras que las variables experimentaleso factores son variables categóricas o categorizadas en niveles. Un experimento deeste tipo consiste en tomar una unidad experimental o elemento muestral, fijar los valoresde los factores a distintos niveles y observar el valor de la variable respuesta en cada caso.Ahora bien, para llegar a conclusiones estadísticas correctas es preciso, en la mayoría delos problemas, observar el resultado tras la repetición del experimento en varias unidadesexperimentales para cada una de las diversas condiciones que indica el diseño pero lo máshomogéneas posibles dentro de cada una. Esto redundará en la reducción de la variabilidady, por tanto, aumentará la capacidad estadística de detectar cambios o identificarvariables influyentes. Con una variabilidad muy grande respecto al error experimental nose pueden detectar diferencias entre tratamientos.Como ocurre con la varianza de la media muestral, para reducir la variabilidad es posibletomar un pequeño número de observaciones llamadas réplicas en condiciones totalmentehomogéneas o aumentar el número de observaciones. Esto último es preciso cuando tomamosobservaciones fuera del laboratorio o con variables influyentes que escapan a nuestrocontrol.Es muy importante que las réplicas sean exactamente eso, es decir, repeticiones del experimentoen las mismas condiciones y no repeticiones de la observación que pueden darlugar a observaciones dependientes. Así pues, debemos repetir todo el experimento desdeel principio para cada una de las observaciones.Como ya hemos dicho, para investigar el efecto del factor principal o tratamiento es posibleque debamos considerar y eliminar los efectos de muchas variables que influyen enel resultado. Para eliminar el efecto de una variable sobre el resultado del experimentotenemos tres opciones: a) fijar el valor de la variable para toda la investigación y restringirla validez de nuestras conclusiones a ese dato; b) diseñar el experimento de manera179


que dicha variable aparezca como factor con unos determinados valores o niveles y c)aleatorizar su aparición en cada condición experimental. Las dos primeras opciones sonpropias del laboratorio y dependen del experimentador. La tercera resulta útil cuandoqueremos eliminar el efecto de una variable no directamente controlable y de poca influenciaesperada, así la parte de la variabilidad que le corresponde se incluirá en el errorexperimental.Para diseñar correctamente un experimento es preciso trabajar bajo el principio de aleatorización.Este principio consiste en tomar las observaciones de las réplicas asignando alazar todos los factores no directamente controlados por el experimentador y que puedeninfluir en el resultado. En el ejemplo 10.2.1 la comparación entre tres tratamientos sehace con pacientes con ciertas condiciones de homogeneidad pero asignando los pacientesal azar a cada tratamiento. Con la aleatorización se consigue prevenir sesgos, evitar ladependencia entre observaciones y validar estadísticamente los resultados. En particular,debemos aleatorizar el orden de realización de los experimentos.En resumen, es necesario que el experimento esté bien diseñado mediante el control físico,fijando niveles, o estadístico, mediante la aleatorización, de todas las variables o factoresrelevantes. Así se garantizará que las diferencias se deben a las condiciones experimentalesfijadas el diseño y se podrá concluir estadísticamente una relación causal.Además, en Peña[54, pág. 82] se muestra cómo la aleatorización permite la comparaciónde medias mediante los llamados tests de permutaciones que no requieren ningúntipo de hipótesis sobre la distribución del error. Por otra parte, puede demostrarse (verScheffé[63]) que los contrastes F son una buena aproximación a los contrastes de permutaciones,de manera que la aleatorización justifica la utilización de la teoría de los modeloslineales bajo hipótesis de normalidad, aunque dicha hipótesis no esté plenamente validada.Para comparar tratamientos es necesario hacerlo en condiciones homogéneas y para ello sedeben introducir en el diseño todas las variables que pueden influir, para luego promediarla respuesta en situaciones homogéneas. Una vez fijados los factores, la idea básica de losdiseños factoriales es cruzar los niveles de los factores y considerar todas las situaciones.También cuando los efectos de los factores no son puramente aditivos se puede introducirel efecto de las llamadas interacciones.En general, en todo Análisis de la Varianza es necesario considerar tres etapas:a) Diseño del experimento a fin de obtener observaciones de una variable Y , combinandoadecuadamente los factores incidentes.b) Planteo de hipótesis, cálculo de sumas de cuadrados (residuales, de desviación dela hipótesis, etc.) y obtención de los cocientes F . Esta parte del análisis se formulamediante la teoría de los modelos lineales.c) Toma de decisiones e interpretación de los resultados. Planteamiento “a posteriori”de nuevas hipótesis.En Ugarte[69, sec. 8.2] puede consultarse un buen resumen de las estructuras básicas deun diseño de experimentos.180


10.2. Diseño de un factor10.2.1. Comparación de mediasSupongamos que una variable Y ha sido observada bajo k condiciones experimentalesdistintas. Puede ser que las observaciones provengan de k poblaciones, o bien tratarse deréplicas para cada uno de los k niveles de un factor.Indiquemos por y ih la réplica h (h = 1, . . . , n i ) en la población o nivel i (i = 1, . . . , k),donde n i es el número de réplicas en la población i. El conjunto de datos es:Nivel 1Nivel 2.Nivel ky 11 , y 12 , . . . , y 1n1y 21 , y 22 , . . . , y 2n2y k1 , y k2 , . . . , y knkCon estos datos podemos calcular algunas medias que indicaremos de la siguiente forma:Media en la población i o nivel i:Media general:ȳ = y·· = 1 nk∑ ∑n idonde n = ∑ ki=1 n i es el número total de observaciones.El modelo lineal que se adapta a este diseño esi=1h=1y i· = 1 n iy ih∑n iy ihy ih = µ i + ɛ ih i = 1, . . . , k ; h = 1, . . . , n i (10.1)h=1siendo (µ 1 , µ 2 , . . . , µ k ) ′ el vector de parámetros y⎛⎞1 0 . . . 00 1 . . . 0X = ⎜⎟⎝ . .... . ⎠0 0 . . . 1rango X = kla matriz de diseño (reducida).Recordemos en este momento que asumir un modelo lineal significa aceptar las condicionesde Gauss-Markov (ver sección 1.5) y además, en este caso y en todo el capítulo, aceptarla distribución normal de los errores N(0, σ). Entonces, se comprueba fácilmente que laestimación MC de los parámetros esLuego los residuos de este modelo sonˆµ i = y i· i = 1, . . . , ke ih = observación − predicción = y ih − ˆµ ide modo que la suma de cuadrados residual resultaSCR =k∑ ∑n i(y ih − y i·) 2i=1 h=1181


Esta suma se indica por SC Dtambién intragrupos.Consideremos la identidady se denomina suma de cuadrados dentro de grupos oy ih − ȳ = (y i· − ȳ) + (y ih − y i·)Elevando al cuadrado y sumando tenemos∑(y ih − ȳ) 2 = ∑ (y i· − ȳ) 2 + ∑ (y ih − y i·) 2i,hi,hi,h+ 2 ∑ (y i· − ȳ)(y ih − y i·)i,hpero∑(y i· − ȳ)(y ih − y i·) = ∑ (y ih − y i·)y i· − ∑ (y ih − y i·)ȳ = 0i,hi,hi,hEn efecto, el vector {y ih −y i·} pertenece al espacio error y por tanto es ortogonal al vector{y i·} que pertenece al espacio estimación como hemos visto en 2.4.2; por otra parte∑(y ih − y i·) = 0Así pues, con la siguiente notaciónSC T = ∑ i,hi,h(y ih − ȳ) 2 suma de cuadrados totalSC E = ∑ in i (y i· − ȳ) 2suma de cuadrados entre gruposhemos probado que se verifica la identidadSC T = SC E + SC D (10.2)Esta igualdad muestra la descomposición de la variabilidad total que también se puedeexpresar en términos de variabilidad explicada y no explicada como en la ecuación 6.7.La hipótesis nula de mayor interés esH 0 : µ 1 = µ 2 = · · · = µ kSi H 0 es cierta, las medias de las k poblaciones son iguales o, en términos de diseñofactorial, los niveles del factor no son significativos para la variable observable. Entonces,el modelo 10.1 se reduce a la formay ih = µ + ɛ ihi = 1, . . . , k ; h = 1, . . . , n iLa estimación MC de µ es ˆµ = ȳ y la suma de cuadrados residual esSCR H = ∑ i,h(y ih − ȳ) 2 = SC T182


Considerando la relación 10.2 deducimos que la suma de cuadrados debida a la desviaciónde la hipótesis esSCR H − SCR = ∑ n i (y i· − ȳ) 2 = SC EiObsérvese que SC E mide la variabilidad entre las medias y 1·, y 2·, . . . , y k·.Por otra parte y según el teorema 2.5.1, una estimación insesgada del error experimentalσ 2 esˆσ 2 = SC D /(n − k)Además, gracias a la hipótesis de normalidad ɛ ih ∼ N(0, σ) se verifica (ver teorema 5.3.1):a) SC D /σ 2 ∼ χ 2 n−kb) Si H 0 es cierta, entonces SC E /(k − 1) es otra estimación insesgada de σ 2 y ademásc) Si H 0 es cierta, el estadísticoSC E /σ 2 ∼ χ 2 k−1F = SC E/(k − 1)SC D /(n − k)(10.3)sigue la distribución F con k − 1 y n − k grados de libertad.La hipótesis H 0 de igualdad de medias se rechaza si 10.3 es significativo. En todo caso esrecomendable disponer los cálculos de la forma indicada en la tabla 10.1.Fuente de suma de cuadradosvariación cuadrados g.l. medios FEntre grupos SC E = ∑ i n i(y i· − ȳ) 2 k − 1 SC E /(k − 1)SC E /(k − 1)SC D /(n − k)Dentro grupos SC D = ∑ i,h (y ih − y i·) 2 n − k SC D /(n − k)Total SC T = ∑ i,h (y ih − ȳ) 2 n − 1Cuadro 10.1: Tabla del Análisis de la Varianza para diseños de un factorTambién se puede calcular el coeficiente de determinación como medida de la proporciónde la variabilidad explicada por los grupos10.2.2. Un modelo equivalenteR 2 = SC ESC TEl modelo 10.1 no se puede extender al caso de varios factores. Sin embargo, se puedereparametrizar en la formay ih = µ + α i + ɛ ih i = 1, . . . , k ; h = 1, . . . , n i (10.4)183


con la restricciónk∑α i = 0i=1Esta restricción es necesaria para determinar el cálculo de los k + 1 parámetros en unmodelo de rango k.El modelo 10.4 también representa el diseño de un factor a k niveles, pero con la siguienteinterpretación de los parámetrosµ = media generalα i = efecto del nivel iLa hipótesis H 0 de igualdad entre niveles o tratamientos, antes igualdad de medias, seexpresa ahora asíH 0 : α 1 = · · · = α k = 0Las estimaciones de µ y α i sonSe verifica entoncesˆµ = ȳ ˆα i = y i· − ȳSCR H − SCR = SC E = ∑ in i ˆα 2 ide modo que SC E refleja bien la variabilidad entre los diferentes niveles del factor estudiado.La formulación matricial de H 0 esAplicando entonces 5.7, tenemos que⎛⎛⎞0 1 0 . . . 0 00 0 1 . . . 0 0Aβ = ⎜⎟⎝ . . .... . . ⎠⎜0 0 0 . . . 1 0 ⎝µα 1α 2.α k−1α k⎞= 0⎟⎠E(SCR H − SCR) = E(SC E ) = (k − 1)σ 2 + ∑ in i α 2 i (10.5)y como ya sabíamos, si es cierta la hipótesis H 0 , el estadístico SC E /(k − 1) es otroestimador insesgado de σ 2 .En todo caso, como se trata de una reparametrización, el contraste de H 0 se realizaexactamente con la misma tabla 10.1 y el mismo estadístico F de 10.3.Finalmente, si se desean comparar dos niveles, es decir, plantear la hipótesis parcialutilizaremos el estadísticot =H (ij)0 : α i = α j√y i· − y√ j· ni n j(10.6)SCD /(n − k) n i + n j184


que bajo H (ij)0 sigue una t de Student con n − k grados de libertad. Con más generalidad,si se desea estudiar si la función paramétrica estimable, tal que c 1 + · · · + c k = 0,ψ = c 1 α 1 + · · · + c k α kse aparta significativamente de 0, utilizaremos∑it =c iy i·√∑i c2 i /n i√SCD /(n − k)(10.7)también con n − k grados de libertad (ver fórmula 3.4). Del mismo modo se puedenconstruir intervalos de confianza para las funciones paramétricas estimables ψ = c 1 α 1 +· · · + c k α k y en particular para α i − α j .Otro aspecto mucho más complejo es la consideración de varias de estas hipótesis deforma conjunta. Es lo que se llama el problema de las comparaciones múltiples o intervalossimultáneos como en la sección 6.3.6.Ejemplo 10.2.1Se desean comparar dos medicamentos D (diurético), B (betabloqueante) con un productoinocuo P (placebo). Se tomó una muestra de 15 individuos hipertensos cuyas condicionesiniciales eran suficientemente homogéneas y se asignaron los tres tratamientos al azar.El objetivo del estudio es ver cómo actúan los tres tratamientos frente a la hipertensión,concretamente si disminuyen la misma. A tal fin se ha elegido la variable observable“porcentaje de descenso de la presión arterial media”. Los datos obtenidos se presentanen la tabla 10.2.D B P22 20 1018 28 530 35 015 19 1417 33 18PDB0 10 20 30yCuadro 10.2: Datos de los pacientes según el tratamientoVamos a estudiar si hay diferencias significativas entre los tres fármacos y la significaciónde la función paramétricaψ = 1 (D + B) − P2que se puede interpretar como una medida de la diferencia entre los productos activosrespecto al placebo.Las medias son:y 1· = 20,40 y 2· = 27,00 y 3· = 9,40 ȳ = 18,93185


Las sumas de cuadrados son:SC T = 1349,93 SC E = 790,53 SC D = 558,40de manera que podemos disponer las estimaciones en forma de tabla del Análisis de laVarianza como se muestra en la tabla 10.3.Fuente de suma de cuadradosvariación cuadrados g.l. medios FEntre fármacos 790,53 2 395,27 8,49Dentro fármacos 558,40 12 46,53Total 1349,93 14Cuadro 10.3: Ejemplo de Análisis de la Varianza para un diseño de un factorCon 2, 12 grados de libertad y un nivel de significación del 0,01 leemos en la tabla de ladistribución F el valor 6,93. Luego la diferencia entre los tres fármacos es claramentesignificativa.La estimación de Gauss-Markov de la función paramétrica esˆψ = 1 (20,40 + 27,00) − 9,40 = 14,302AdemásAplicando 10.7 obtenemos∑c 2 i /n i = 1 5 (1 4 + 1 + 1) = 0,34iSC D /(n − k) = 46,53t =14,30√ 0,3√ 46,53= 3,827Contrastando con la tabla de la t de Student, para 12 grados de libertad, vemos que ψ essignificativa al nivel 0,01. Finalmente, para analizar si hay diferencias significativas entreD y B, utilizaremos 10.6t =20,40 − 27,00√ 46,53√5 × 55 + 5 = −1,530que no es significativa.Conclusión: Hay variabilidad significativa entre los tres fármacos. La variabilidad resideprincipalmente en la diferencia entre los dos fármacos activos frente al placebo.10.3. Diseño de dos factores sin interacciónUna variable o factor cuyo efecto sobre la respuesta no es directamente de interés peroque se introduce en el experimento para obtener comparaciones homogéneas se denominauna variable bloque. Por ejemplo, en una investigación para comparar la efectividad devarios fertilizantes (tratamientos) se puede considerar las fincas donde se prueban como186


un factor bloque (ver ejemplo 10.3.1). El efecto de la finca sobre la producción no es deinterés y el objetivo es comparar los fertilizantes eliminando el efecto de la pertenenciade una cosecha a una finca. Además, en general, se supone que no hay interacción entrela variable bloque y los factores de interés.En este tipo de diseños los tratamientos se asignan aleatoriamente a un grupo de unidadesexperimentales en cada bloque o nivel de la variable bloque. Para poder detectar diferenciasentre los tratamientos es importante que haya diferencias entre los bloques, mientrasque las unidades experimentales dentro de cada bloque han de ser muy homogéneas. Unbuen resumen de las características más importantes del diseño en bloques puede verseen Ugarte[69, pág. 405].En este apartado vamos a tratar el caso más simple del llamado diseño completamentealeatorizado por bloques o, más brevemente, diseño en bloques aleatorizados con un factorprincipal y una variable bloque.Supongamos que la variable respuesta está afectada por dos causas de variabilidad, esdecir, por dos variables o factores cualitativos A y B, con a y b niveles respectivamente.El factor A es el factor principal, mientras que el factor B es una variable bloque. Supongamostambién que tenemos únicamente una observación por casilla o combinación deniveles. Eso significa tener tantas unidades experimentales por bloque como tratamientoso niveles del factor principal y que la asignación del tratamiento se hace al azar en cadabloque (ver ejemplo 10.3.1). Entonces, podemos disponer las observaciones del siguientemodoB 1 B 2 . . . B bA 1 y 11 y 12 . . . y 1b y 1·A 2 y 21 y 22 . . . y 2b y 2·siendoy i· = 1 b∑jy ij. . . . .A a y a1 y a2 . . . y ab y a·y·1 y·2 . . . y·b y··y·j = 1 a∑iy ijy·· = ȳ = 1 abEn relación a la tabla de datos anterior, diremos que A es el factor fila y B el factorcolumna con A 1 , A 2 , . . . , A a y B 1 , B 2 , . . . , B b niveles respectivamente.∑i,jy ijModelo aditivoSi suponemos que tanto el efecto fila como el efecto columna son aditivos, admitiremosel modelo linealsiendoy ij = µ + α i + β j + ɛ ij i = 1, . . . , a ; j = 1, . . . , b (10.8)µ = media generalα i = efecto del nivel A i del factor Aβ j = efecto del nivel B j del factor B187


Como 10.8 no es un diseño de rango máximo, impondremos las siguientes restriccionesnaturales∑α i = ∑ β j = 0 (10.9)ijEntonces, el modelo depende de los parámetrossiendoµ, α 1 , . . . , α a−1 , β 1 , . . . , β b−1α a = −α 1 − · · · − α a−1β b = −β 1 − · · · − β b−1Por ejemplo, la matriz de diseño reducida X para el caso a = 3, b = 2 esµ α 1 α 2 β 11 1 0 11 0 1 11 −1 −1 11 1 0 −11 0 1 −11 −1 −1 −1Como las columnas de X correspondientes a parámetros con distinta letra son ortogonales,mientras que las correspondientes a parámetros con la misma letra son linealmenteindependientes, deducimos que el rango de X es igual al número de parámetros resultantesdespués de imponer las restricciones 10.9, es decir,rango X = 1 + (a − 1) + (b − 1) = a + b − 1 (10.10)Estimación de parámetrosConsideremos la identidady ij − µ − α i − β j = (ȳ − µ) + (y i· − ȳ − α i ) + (y·j − ȳ − β j )+(y ij − y i· − y·j + ȳ)Elevando al cuadrado, sumando para todo i, j y teniendo en cuenta 10.9, como los productoscruzados se anulan (puede probarse con algo de esfuerzo), obtenemos∑(yij − µ − α i − β j ) 2 = ∑ (ȳ − µ) 2 + ∑ (y i· − ȳ − α i ) 2 (10.11)+ ∑ (y·j − ȳ − β j ) 2+ ∑ (y ij − y i· − y·j + ȳ) 2Entonces 10.11, con las restricciones 10.9, alcanza su mínimo paraˆµ = ȳ ˆα i = y i· − ȳ ˆβj = y·j − ȳ (10.12)de modo que la suma de cuadrados residual esSCR = ∑ i,j(y ij − y i· − y·j + ȳ) 2 (10.13)188


Obsérvese quey ij = ˆµ + ˆα i + ˆβ j + e ijsiendo e ij la estimación del término de errore ij = y ij − y i· − y·j + ȳFinalmente, SCR tiene n − r = ab − (a + b − 1) = (a − 1)(b − 1) grados de libertad, luegoˆσ 2 = SCR/[(a − 1)(b − 1)]es un estimador centrado de la varianza del diseño.Hipótesis linealesLa hipótesis de que el factor principal A no es significativo (no hay efecto fila) esH A 0 : α 1 = · · · = α a = 0 (10.14)Análogamente, la hipótesis para B (no hay efecto columna), esH B 0 : β 1 = · · · = β b = 0 (10.15)El rango de H0 A es a − 1, mientras que el de H0 B es b − 1.Vamos a obtener el test F adecuado para contrastar la hipótesis 10.15. Consideremos lasiguiente descomposición fundamental de la suma de cuadrados (que demostraremos másadelante)∑(y ij − ȳ) 2 = b ∑ (y i· − ȳ) 2 + a ∑ (y·j − ȳ) 2i,jij+ ∑ i,j(y ij − y i· − y·j + ȳ) 2SC T = SC F + SC C + SCR (10.16)donde SC T es la suma de cuadrados total, SC F la suma de cuadrados entre filas, SC Cla suma de cuadrados entre columnas y SCR la suma de cuadrados residual (ver cuadro10.4). La suma de cuadrados residual bajo el modelo 10.8 es 10.13.Ahora bien, si la hipótesis 10.15 es cierta, el modelo se reduce a la formay ij = µ + α i + ɛ ijque corresponde al modelo de un solo factor. La suma de cuadrados residual (ver sección10.2) será entoncesSCR H = ∑ (y ij − y i·) 2i,jpuesto que para cada i, las observaciones y i1 , . . . , y ib hacen el papel de réplicas. Pero dela identidady ij − y i· = (y·j − ȳ) + (y ij − y i· − y·j + ȳ)elevando al cuadrado y teniendo en cuenta que los productos cruzados también se anulan,deducimosSCR H = SC C + SCR189


Luego podemos decidir si puede aceptarse o no la hipótesis 10.15 utilizando el estadísticoF =SC C /(b − 1)SCR/[(a − 1)(b − 1)](10.17)cuya distribución bajo H 0 es F con b − 1 y (a − 1)(b − 1) grados de libertad.Análogamente se procede para estudiar el efecto fila. Así pues, gracias a la descomposiciónfundamental 10.16 es posible contrastar las dos hipótesis 10.14 y 10.15 con los mismoscálculos que deben disponerse en forma de tabla (ver tabla 10.4).Fuente de suma de cuadradosvariación cuadrados g.l. medios FEntre filas SC F = b ∑ i (y i· − ȳ) 2 a − 1 SC F /(a − 1)Entre col. SC C = a ∑ j (y·j − ȳ) 2 b − 1 SC C /(b − 1)SC F /(a−1)SCR/[(a−1)(b−1)]SC C /(b−1)SCR/[(a−1)(b−1)]Residuo SCR = (a − 1)(b − 1)SCR(a−1)(b−1)∑i,j (y ij − y i· − y·j + ȳ) 2Total SC T = ∑ i,j (y ij − ȳ) 2 ab − 1Cuadro 10.4: Tabla del Análisis de la Varianza para diseños de dos factores sin interacciónCuando el efecto de la variable bloque no es significativo se puede considerar el modelo mássimple con un solo factor, prescindiendo de los bloques. Sin embargo, si hay diferenciasentre los bloques, el modelo en bloques aleatorizados es mucho más eficaz en la detecciónde diferencias entre tratamientos.Finalmente, si se desea comparar dos niveles de un mismo factor, plantearemos la hipótesisparcialH A(ij)0 : α i = α j o bien H B(ij)0 : β i = β jsegún se trate de factor fila o columna. El estadístico utilizado en el primer caso serát =y i· − y j·√SCR/[(a − 1)(b − 1)]√b/2cuya distribución bajo la hipótesis es una t de Student con (a − 1)(b − 1) grados delibertad. Análogamente, para comparar dos niveles del factor columna, utilizaremost =y·i − y·j√SCR/[(a − 1)(b − 1)]√a/2con la misma distribución que el estadístico anterior si la hipótesis es cierta.Por otra parte, en Ugarte[69, sec. 8.8] pueden verse algunos ejemplos de comparacionesmúltiples para este modelo.190


Coeficientes de determinación parcialEl coeficiente de determinación se define comoR 2 = 1 − SCRSC T= SC F + SC CSC TDe modo que los coeficientes de determinación parcialR 2 F = SC FSC TR 2 C = SC CSC Tindican el porcentaje de la variabilidad total explicada por el factor principal y por elfactor bloque, respectivamente.Descomposición fundamental de la suma de cuadradosVamos a probar la descomposición aditiva 10.16 en sumas de cuadrados. Para ello expresaremosel modelo 10.8 en notación vectorialY = µ1 + ∑ iα i u i + ∑ jβ j v j + ɛ (10.18)siendo1 = (1, 1, . . . , 1; 1, 1, . . . , 1; . . . ; 1, 1, . . . , 1) ′u 1 = (1, 0, . . . , 0; 1, 0, . . . , 0; . . . ; 1, 0, . . . , 0) ′.u a = (0, . . . , 0, 1; 0, . . . , 0, 1; . . . ; 0, . . . , 0, 1) ′v 1 = (1, 1, . . . , 1; 0, 0, . . . , 0; . . . ; 0, 0, . . . , 0) ′.v b = (0, 0, . . . , 0; 0, 0, . . . , 0; . . . ; 1, 1, . . . , 1) ′La matriz de diseño ampliada esy es evidente que 10.18 es equivalente aX = (1, u 1 , . . . , u a , v 1 , . . . , v b )Y = Xβ + ɛsiendo β = (µ, α 1 , . . . , α a , β 1 , . . . , β b ) ′ .Se verificau ′ i 1u i2 = 0 i 1 ≠ i 2 , u ′ iu i = bu ′ iv j = 1v j ′ 1v j2 = 0 j 1 ≠ j 2 , v jv ′ j = aSustituyendo en 10.18 los parámetros por sus estimaciones MC obtenemosY − ˆµ1 = ∑ iˆα i u i + ∑ jˆβ j v j + e191


Como e es ortogonal al subespacio generado por las columnas de X (teorema 2.4.2),tendremosu ′ ie = v ′ je = 0Entonces‖Y − ˆµ1‖ 2 = ∑ iˆα 2 i ‖u i ‖ 2 + ∑ jˆβ 2 j ‖v j ‖ 2 + ∑ i,jˆα i ˆβj u ′ iv j + ‖e‖ 2Pero∑ˆα i ˆβj = ∑i,ji,j= ∑ i,j= ∑ j(y i· − ȳ)(y·j − ȳ)(y i· − ȳ)y·j − ȳ ∑ (y i· − ȳ)i,j∑y·j (y i· − ȳ) − ȳ ∑ ∑(y i· − ȳ) = 0ij ipues ∑ i (y i· − ȳ) = 0.Luego‖Y − ˆµ1‖ 2 = ∑ iˆα 2 i ‖u i ‖ 2 + ∑ jˆβ 2 j ‖v j ‖ 2 + ‖e‖ 2lo que demuestra la descomposición fundamental 10.16.Ejemplo 10.3.1Para estudiar las diferencias entre los efectos de 4 fertilizantes sobre la producción depatatas, se dispuso de 5 fincas, cada una de las cuales se dividió en 4 parcelas del mismotamaño y tipo. Los fertilizantes fueron asignados al azar en las parcelas de cada finca. Elrendimiento en toneladas fueFincaFert. 1 2 3 4 51 2,1 2,2 1,8 2,0 1,92 2,2 2,6 2,7 2,5 2,83 1,8 1,9 1,6 2,0 1,94 2,1 2,0 2,2 2,4 2,1Algunos gráficos exploratorios pueden verse en la figura 10.4 de la página 213.Se trata de un diseño en bloques aleatorizados. Este diseño utiliza el modelo 10.8 y esespecialmente utilizado en experimentación agrícola. El objetivo es comparar a = 4 tratamientos(fertilizantes en este caso) utilizando b = 5 bloques (fincas) y repartiendo aleatoriamentelos a tratamientos en cada uno de los bloques (los fertilizantes son asignadosal azar en las parcelas de cada finca). Para una correcta aplicación de este diseño debehaber máxima homogeneidad dentro de cada bloque, de modo que el efecto bloque sea elmismo para todos los tratamientos.Interesa pues saber si hay diferencias significativas entre los tratamientos α i y entre losbloques β j estableciendo con este fin las hipótesis lineales 10.14 y 10.15 respectivamente.Los resultados obtenidos sonȳ = 2,14 y 1· = 2,00 y 2· = 2,56 y 3· = 1,84 y 4· = 2,16y·1 = 2,050 y·2 = 2,175 y·3 = 2,075 y·4 = 2,225 y·5 = 2,175192


Bloques1 1 2 4 32 4 3 2 13 2 1 4 34 3 1 4 25 2 4 3 1Cuadro 10.5: Formación correcta de bloques y asignación al azar de los tratamientosLa tabla del Análisis de la Varianza (ver tabla 10.4) esFuente variación suma cuadrados g.l. cuadrados mediosEntre fertiliz. 1,432 3 0,477Entre fincas 0,088 4 0,022Residuo 0,408 12 0,034Total 1,928 19El estadístico F para comparar las fincas esF = 0,0220,034 = 0,65con 4 y 12 grados de libertad. Como no es significativo, admitimos que no hay diferenciasentre las fincas. Asimismo, para comparar los fertilizantes, el estadístico F esF = 0,4770,034 = 14,04con 3 y 12 grados de libertad. Dado que es muy significativo podemos admitir que haydiferencias entre los fertilizantes.Como el efecto del factor bloque no es significativo podemos considerar el modelo de unfactor, añadiendo la suma de cuadrados entre fincas al residuo.Fuente variación suma cuadrados g.l. cuadrados mediosEntre fertiliz. 1,432 3 0,477Residuo 0,496 16 0,031Total 1,928 19El estadístico F vale 15,39 lo que muestra una significativa diferencia entre fertilizantes.10.4. Diseño de dos factores con interacciónSupongamos que la variable observable está influida por dos causas de variabilidad A y B,con a y b niveles respectivamente. Pero ahora, a diferencia del diseño de la sección anterior,los dos factores tienen a priori la misma importancia y aceptamos añadir un nuevo efectodenominado interacción entre factores. Entonces es preciso disponer de r observacionespor casilla, porque con una sola unidad experimental para cada combinación de niveles,el modelo tendría más parámetros que observaciones y la varianza del modelo no seríaestimable.193


Podemos disponer los datos de la siguiente maneraB 1 B 2 . . . B by 111 y 121 y 1b1A 1 y 112 y 122 . . . y 1b2. . .y 11r y 12r y 1br. . . .y a11 y a21 y ab1A a y a12 y a22 . . . y ab2. . .y a1r y a2r y abrIndicaremos las medias con la siguiente notaciónModelo aditivo con interaccióny i·· = 1 ∑y ijk y·j· = 1 ∑y ijkbrarj,ki,ky ij· = 1 ∑y ijk y··· = ȳ = 1 ∑rabrkEn este modelo suponemos que el efecto fila (efecto debido al factor A) y el efecto columna(efecto debido al factor B) son aditivos, pero aceptamos también la presencia del efectointeracción. En otras palabras, el modelo lineal espara todo i = 1, . . . , a; j = 1, . . . , b; k = 1, . . . , r y dondei,j,ky ijky ijk = µ + α i + β j + γ ij + ɛ ijk (10.19)µ = media generalα i = efecto del nivel A i de Aβ j = efecto del nivel B j de Bγ ij = interacción entre los niveles A i y B jPara determinar todos los parámetros, se imponen también las restricciones naturales∑α i = ∑ β j = ∑ γ ij = ∑ γ ij = 0 (10.20)ijijcon lo cual el modelo depende de1 + (a − 1) + (b − 1) + (a − 1)(b − 1) = ab (10.21)parámetros.La interacción γ ij debe añadirse para prever el caso de que no se verifique la aditividadsupuesta en 10.8. Indicando η ij = E(y ijk ), la interacción mide la desviación respecto a unmodelo totalmente aditivoγ ij = η ij − µ − α i − β j (10.22)194


Por otra parte, diremos que un diseño es de rango completo si el número de parámetroses igual al número de condiciones experimentales, es decir, al número de filas distintasde la matriz de diseño. En un diseño que no es de rango completo hay menos parámetrosque condiciones experimentales, por lo que en realidad “admitimos” que los datos seajustan al modelo propuesto. Por ejemplo, en el diseño sin interacción tenemos (ver 10.10)a + b − 1 < ab, luego admitimos de partida el modelo 10.8. Sin embargo, este modelopuede no ser cierto y de hecho existe la llamada prueba de Tukey para comprobarlo(ver Peña[54, pág. 104] y Hoaglin et al.[39, págs. 268-273]). En cambio, por 10.21, elmodelo 10.19 posee tantos parámetros como condiciones experimentales de variabilidad,de modo que es válido por construcción. En general, un modelo de rango completo seajusta intrínsecamente a los datos sin problemas. No obstante, para poder estimar todoslos parámetros es necesario disponer de más de una réplica por condición experimental.Esta es la razón por la cual la interacción no puede ser incluida en 10.8.El modelo 10.19 puede ser reparamentrizado en la formay ijk = η ij + ɛ ijk (10.23)Pasamos del modelo 10.23 al 10.19 mediante las transformaciones( )µ = 1 ∑η ijα i = 1 ∑η ij − µabb(i,j)jβ j = 1 (10.24)∑η ij − µ γ ij = η ij − µ − α i − β jaiEstimación de los parámetrosConsideremos la identidady ijk − µ − α i − β j − γ ij = (ȳ − µ) + (y i·· − ȳ − α i )+(y·j· − ȳ − β j )+(y ij· − y i·· − y·j· + ȳ − γ ij )+(y ijk − y ij·)Elevando al cuadrado y teniendo en cuenta las restricciones 10.20, los productos cruzadosse anulan y queda∑ijk − µ − α i − β j − γ ij )i,j,k(y 2 = ∑ − µ)i,j,k(ȳ 2 + ∑ (y i·· − ȳ − α i ) 2i,j,k+ ∑ i,j,k(y·j· − ȳ − β j ) 2+ ∑ (10.25)(y ij· − y i·· − y·j· + ȳ − γ ij ) 2i,j,k+ ∑ (y ijk − y ij·) 2i,j,kComo el último término de esta expresión no depende de los parámetros, es fácil ver quelas estimaciones MC sonˆµ = ȳ ˆα i = y i·· − ȳ ˆβj = y·j· − ȳ ˆγ ij = y ij· − y i·· − y·j· + ȳ (10.26)195


mientras que la suma de cuadrados residual esSCR = ∑ i,j,k(y ijk − y ij·) 2que tiene ab(r − 1) grados de libertad. Luego la estimación de la varianza esˆσ 2 = SCR/[ab(r − 1)]Por otra parte, considerando 10.23 y 10.24 podemos obtener las estimaciones 10.26 porotro camino. Es obvio que las estimaciones de η ij sonˆη ij = y ij·Interpretando µ, α i , β j , γ ij como funciones paramétricas sobre el modelo 10.23, por elteorema de Gauss-Markov, sus estimaciones se obtendrán sustituyendo η ij por y ij· en10.24, lo que nos dará 10.26.Hipótesis linealesEn el diseño de dos factores con interacción, las hipótesis de mayor interés sonH0 A : α 1 = · · · = α a = 0 (no hay efecto fila)H0 B : β 1 = · · · = β b = 0 (no hay efecto columna)H0 AB : γ ij = 0 ∀i, j (no hay interacción)Los rangos son a − 1, b − 1 y (a − 1)(b − 1) respectivamente.A fin de deducir el test F correspondiente, consideremos la siguiente descomposiciónfundamental de la suma de cuadrados∑ijk − ȳ)i,j,k(y 2 = br ∑ (y i·· − ȳ) 2 + ar ∑ (y·j· − ȳ) 2ij+r ∑ i,j(y ij· − y i·· − y·j· + ȳ) 2+ ∑ (y ijk − y ij·) 2i,j,kEsta relación, que se puede probar con algo de esfuerzo, la expresaremos brevemente comoSC T = SC F + SC C + SC I + SCRdonde SC T es la suma de cuadrados total, SC I es la suma de cuadrados correspondientea la interacción, etc.Consideremos ahora la hipótesis H A 0 . La suma de cuadrados residual es SCR. Supongamosla hipótesis cierta, entonces el modelo 10.19 se convierte eny ijk = µ + β j + γ ij + ɛ ijkAdemás, como no hay α i , el mínimo de 10.25, es decir, la suma de cuadrados residualbajo H0A esSCR H = ∑ (y i·· − ȳ) 2 + ∑ (y ijk − y ij·) 2 = SC F + SCR196


Luego si H A 0es cierta (teorema 5.3.1) tendremos queF = (SCR H − SCR)/(a − 1)SCR/[ab(r − 1)]= SC F /(a − 1)SCR/[ab(r − 1)]sigue la distribución F (a − 1, ab(r − 1)).La obtención del test F para decidir sobre H0B y H0 AB es análoga. En la práctica, loscálculos suelen disponerse en forma de tabla (ver tabla 10.6).Fuente de suma de cuadradosvariación cuadrados g.l. medios FEntre filas SC F = br ∑ i (y i·· − ȳ) 2 a − 1 SC F /(a − 1)Entre col. SC C = ar ∑ j (y·j· − ȳ) 2 b − 1 SC C /(b − 1)Interacción SC I = r ∑ i,j (y ij· − y i·· (a − 1)(b − 1)SC I(a−1)(b−1)−y·j· + ȳ) 2Residuo SCR = ∑ i,j,h (y ijh − y ij·) 2 ab(r − 1)SCRab(r−1)SC F /(a−1)SCR/[ab(r−1)]SC C /(b−1)SCR/[ab(r−1)]SC I /[(a−1)(b−1)]SCR/[ab(r−1)]Total SC T = ∑ i,j,h (y ijh − ȳ) 2 abr − 1Cuadro 10.6: Tabla del Análisis de la Varianza para diseños de dos factores con interacciónEjemplo 10.4.1Se desean comparar tres genotipos distintos de Drosophila melanogaster, observando siexisten diferencias de viabilidad sembrando 100 y 800 huevos. De este modo, para cada unade las 6 casillas del experimento (3 genotipos × 2 siembras) se dispusieron 6 preparados(6 réplicas) y al cabo del tiempo suficiente de ser sembrados los huevos, se obtuvo elporcentaje de huevos que habían eclosionado. Los resultados fueron:HuevosGenotiposembrados ++ +− −−100 93 94 93 95,5 83,5 92 92 91 9090 93 86 92,5 82 82,5 95 84 78800 83,3 87,6 81,9 84 84,4 77 85,3 89,4 85,480,1 79,6 49,4 67 69,1 88,4 87,4 52 77El número X de huevos eclosionados por casilla sigue la distribución binomial con n = 100ó n = 800. Para normalizar la muestra aplicaremos la transformación√ √X porcentajeY = arcsenn = arcsen 100Los datos transformados son:197


HuevosGenotiposembrados ++ +− −−100 74,7 75,8 74,7 77,8 66 73,6 73,6 72,5 71,671,6 74,7 68 74,1 64,9 65,3 77,1 66,4 62800 65,9 69,4 64,8 66,4 66,7 61,3 67,5 71 67,563,5 63,1 44,7 54,9 56,2 70,1 69,2 46,1 61,3Con estos datos se dibujan los gráficos de la figura 10.1 que avanzan el resultado final.a) Diagrama de cajasb) Diagrama de cajasc) Medias100y50 60 70y50 60 70mean of y64 66 68 70++--+-800100 800++ +- --siembragenotiposiembrad) Medianasgenotipoe) PoligonosFactorsmedian of y66 68 70 72100800siembra++--+-genotipomean of y62 64 66 68 70 72++ +- --siembra100800FactorsgenotipoFigura 10.1: Gráficos del análisis exploratorio de los datos del ejemplo 10.4.1A continuación se calculan las siguientes medias:y 11· = 73,231 y 12· = 70,271 y 13· = 70,534 y 21· = 61,899y 22· = 62,626 y 23· = 63,781 y 1·· = 71,346 y 2·· = 62,769y·1· = 67,565 y·2· = 66,449 y·3· = 67,158 ȳ = 67,057Con ellas podemos obtener entonces la tabla del Análisis de la Varianza para un diseñode dos factores con interacción:Fuente variación suma cuadrados g.l. cuadrados medios FEntre siembras 662,086 1 662,086 14,833Entre genotipos 7,665 2 3,832 0,086Interacción 35,354 2 17,677 0,396Residuo 1339,094 30 44,636Total 2044,199 35198


A la vista de los valores F obtenidos, se concluye que no es significativa la diferenciaentre genotipos ni la interacción, pero sí existen diferencias significativas sembrando 100o 800 huevos, siendo el porcentaje de eclosiones mayor en el primer caso, ya que segúnparece al haber menos huevos, las larvas disponen de más alimento.Observación: cuando un factor no es significativo, la interacción generalmente tampocolo es.10.5. Descomposición ortogonal de la variabilidadEn las secciones anteriores han sido tratados los diseños de uno y dos factores y se haestudiado cómo descomponer adecuadamente la variabilidad. Los diseños en los que intervienentres o más factores pueden estudiarse también descomponiendo adecuadamentela variabilidad totalSC T = ∑ (y ij...m − ȳ) 2en diferentes sumas de cuadrados, más una suma de cuadrados residual. Veamos cómodebe procederse para un diseño de cuatro factores que indicaremos A, B, C y D, con a,b, c y d niveles respectivamente. Distinguiremos dos casos:(a) D es el factor réplica, es decir, d es el número de réplicas para cada condiciónexperimental o combinación de los niveles de los factores A, B, C. El modelo linealesy ijkr = µ + α A i + α B j + α C k + α ABij+ α ACik+ α BCjk+ α ABCijkpara i = 1, . . . , a; j = 1, . . . , b; k = 1, . . . , c; r = 1, . . . , d y siendoy ijkr = réplica r para los niveles i, j, k de A, B, Cµ = media generalα A i , α B j , α C kα ABijα ABCijk= efectos principales de A, B, C+ ɛ ijkr, αikAC , αjkBC = interacciones entre los factores A y B, A y C, B y C= interacción entre los tres factoresɛ ijkr = desviación aleatoria N(0, σ)Debe imponerse la restricción de que la suma (respecto a uno o dos subíndices) delos parámetros α sea igual a cero.(b) D es un verdadero factor con d niveles, de modo que el diseño depende de cuatrofactores con una sola observación por casilla. El modelo esy ijkm = µ + α A i + α B j + α C k + α D m + α ABij+α ABCijk+ α ABDijm+ α ACDikm+ α BCDjkmLa interpretación de los parámetros es análoga.+ α ACik+ α ADim+ ɛ ijkm+ α BCjk+ αjm BD + αkmCD199


La tabla 10.7 contiene la descomposición de la variabilidad. Los sumatorios deben desarrollarsepara todos los subíndices i, j, k, m, verificándose por lo tantoSC A =i,j,k,m(y ∑i··· − ȳ) 2 = bcd ∑ (y i··· − ȳ) 2iSC B = ∑(y·j·· − ȳ) 2i,j,k,m(y·j·· − ȳ) 2 = acd ∑ jSC BC = ad ∑ (y·jk· − y·j·· − y··k· + ȳ) 2j,ketcétera.Cuadro 10.7: Descomposición ortogonal de la suma de cuadrados correspondiente a undiseño de cuatro factoresFuente devariación suma de cuadrados grados de libertadABCDABACADBCBDCDABCABDACDBCDABCDTotal∑∑ (yi··· − ȳ) 2 a − 1∑ (y·j·· − ȳ) 2 b − 1∑ (y··k· − ȳ) 2 c − 1∑ (y···m − ȳ) 2 d − 1∑ (yij·· − y i··· − y·j·· + ȳ) 2 (a − 1)(b − 1)∑ (yi·k· − y i··· − y··k· + ȳ) 2 (a − 1)(c − 1)∑ (yi··m − y i··· − y···m + ȳ) 2 (a − 1)(d − 1)∑ (y·jk· − y·j·· − y··k· + ȳ) 2 (b − 1)(c − 1)∑ (y·j·m − y·j·· − y···m + ȳ) 2 (b − 1)(d − 1)∑ (y··km − y··k· − y···m + ȳ) 2 (c − 1)(d − 1)(yijk· − y ij·· − y i·k· − y·jk· (a − 1)(b − 1)(c − 1)∑+y i··· + y·j·· + y··k· − ȳ) 2(yij·m − y ij·· − y i··m − y·j·m (a − 1)(b − 1)(d − 1)∑+y i··· + y·j·· + y···m − ȳ) 2(yi·km − y i·k· − y i··m − y··km (a − 1)(c − 1)(d − 1)∑+y i··· + y··k· + y···m − ȳ) 2(y·jkm − y·jk· − y·j·m − y··km (b − 1)(c − 1)(d − 1)∑+y·j·· + y··k· + y···m − ȳ) 2(yijkm − y ijk· − y ij·m − y i·km − y·jkm (a − 1)(b − 1)(c − 1)(d − 1)+y ij·· + y i·k· + y·jk· + y i··m + y·j·m∑+y··km − y i··· − y·j·· − y··k· − y···m + ȳ) 2(yijkm − ȳ) 2 abcd − 1Estas sumas de cuadrados pueden reunirse convenientemente, sumando también los gradosde libertad, según el tipo de diseño factorial para obtener la suma de cuadradosresidual. Veamos tres casos:1) Supongamos que se trata de un diseño de tres factores y réplicas, como el descritoen (a). Entonces:SC T = SC A + SC B + SC C + SC AB + SC AC + SC BC + SC ABC + SCR200


siendo la suma de cuadrados residualSCR = SC D + SC AD + SC BD + SC CD + SC ABD + SC ACD + SC BCD + SC ABCD= ∑ (y ijkm − y ijk·) 2con (d − 1) + · · · + [(a − 1)(b − 1)(c − 1)(d − 1)] = abc(d − 1) grados de libertad.Para estudiar, por ejemplo, si la interacción entre A y B es significativa, calcularemosF = SC AB/[(a − 1)(b − 1)]SCR/[abc(d − 1)]y consultaremos la tabla F con (a − 1)(b − 1) y abc(d − 1) grados de libertad.2) Supongamos que se trata de un diseño de 4 factores con una sola observación porcasilla, como el descrito en (b). Entonces:SC T = SC A +SC B +SC C +SC D +SC AB +· · ·+SC CD ++SC ABC +· · ·+SC BCD +SCRsiendo SCR = SC ABCD la suma de cuadrados residual. La significación de los efectosprincipales o las interacciones deberá efectuarse dividiendo por SC ABCD .3) Supongamos que C es un factor (por ejemplo, un factor bloque) que no interaccionacon A, B y que D es un “factor réplica”. EntoncessiendoSC T = SC A + SC B + SC C + SC AB + SCRSCR = SC D + SC AC + SC AD + · · · + SC CD + SC ABC + SC ABD + SC BCD + SC ABCDla suma de cuadrados residual.La formulación general de esta descomposición de la suma de cuadrados permite abordarmuchos tipos de diseños que resulten de la combinación de varios factores, con una solaréplica por casilla, o con el mismo número de réplicas por casilla (diseños balanceados).En este caso, las réplicas se consideran como un factor formal y el residuo estará formadopor todas las sumas de cuadrados en los que interviene el factor réplica. Las interaccionesno presentes en un determinado modelo (por condiciones experimentales o por cocientesF claramente no significativos) se añaden al residuo. Esta formulación general no permitetratar ciertos diseños como cuadrados latinos, bloques incompletos balanceados, etc.Esta descomposición ortogonal, para un número cualquiera de factores, puede programarsepor ordenador siguiendo el algoritmo propuesto por Hartley[36].La principal dificultad de estos diseños es la gran cantidad de observaciones necesarias,de modo que en la práctica no se consideran diseños con más de cuatro factores. Enalgunos casos se puede suponer que las interacciones altas son nulas y estimar el restode parámetros. Ésta es la propuesta de los diseños en cuadrados latinos y greco-latinosque permiten estimar los efectos principales con el mínimo de observaciones (ver Peña[54,pág. 116-128] y Cuadras[20, pág. 261-262]).201


10.5.1. Descomposición de la variabilidad en algunos diseñosIndicando simbólicamente por A, B, AB, . . . , T las sumas de cuadrados SC A ,SC B , SC AB ,. . . , SC T , exponemos seguidamente diferentes diseños del Análisis de la Varianza, presentandola descomposición de la variabilidad. Algunos diseños han sido tratados en lassecciones anteriores de este capítulo.1. Un factor y réplicasy ij = µ + α i + ɛ ijT = A + R + AREntre grupos A a − 1Residuo R + AR ar − a2. Dos factores con una observación por casillaT = A + B + AB3. Dos factores con interaccióny ij = µ + α i + β j + ɛ ijEntre filas A a − 1Entre columnas B b − 1Residuo AB (a − 1)(b − 1)y ijk = µ + α i + β j + γ ij + ɛ ijkT = A + B + R + AB + AR + BR + ABREfecto fila A a − 1Efecto columna B b − 1Interacción AB (a − 1)(b − 1)Residuo R + AR + BR + ABR ab(r − 1)4. Dos factores con interacción en bloques aleatorizadosy ijk = µ + α i + β j + b k + γ ij + ɛ ijkT = A + B + R + AB + AR + BR + ABREfecto fila A a − 1Efecto columna B b − 1Efecto bloque R r − 1Interacción AB (a − 1)(b − 1)Residuo AR + BR + ABR (ab − 1)(r − 1)Este modelo se utiliza cuando se combinan dos factores A, B y se obtienen réplicas organizadasen bloques. El factor bloque tiene un efecto principal, pero no interacciona conA, B.5. Tres factores con una observación por casillay ijk = µ + α i + β j + δ k + (αβ) ij + (αδ) ik + (βδ) jk + ɛ ijk202


T = A + B + C + AB + AC + BC + ABCEfecto A A a − 1Efecto B B b − 1Efecto C C c − 1Interacción A × B AB (a − 1)(b − 1)Interacción A × C AC (a − 1)(c − 1)Interacción B × C BC (b − 1)(c − 1)Residuo ABC (a − 1)(b − 1)(c − 1)6. Tres factores con r observaciones por casillay ijkm = µ + α i + β j + δ k + (αβ) ij + (αδ) ik + (βδ) jk + (αβγ) ijk + ɛ ijkmT = A + B + C + R + AB + AC + AR + BC + BR + CR+ ABC + ABR + ACR + BCR + ABCREfecto A A a − 1Efecto B B b − 1Efecto C C c − 1Interacción A × B AB (a − 1)(b − 1)Interacción A × C AC (a − 1)(c − 1)Interacción B × C BC (b − 1)(c − 1)Interacción A × B × C ABC (a − 1)(b − 1)(c − 1)Residuo R + AR + BR + CR + ABR abc(r − 1)+ACR + BCR + ABCR7. Diseño de parcela divididay ijk = µ + α i + γ j + b k + (αγ) ij + (αb) ik + +ɛ ijkT = A + C + B + AC + AB + CB + ACBTratamiento principal A a − 1Subtratamiento C c − 1Bloque B b − 1Interacción A × C AC (a − 1)(c − 1)Interacción A × B AB (a − 1)(b − 1)Residuo CB + ACB a(b − 1)(c − 1)B 1 A 2 A 1 A 3 A 4C 1 C 2 C 2 C 1 C 2 C 1 C 1 C 2B 2 A 1 A 3 A 4 A 2C 2 C 1 C 2 C 1 C 1 C 2 C 1 C 2B 3 A 3 A 4 A 2 A 1C 1 C 2 C 1 C 2 C 2 C 1 C 2 C 1Este diseño se utiliza en investigación agrícola, también en otras ciencias experimentales,para comparar a tratamientos (factor A) que se asignan aleatoriamente en b bloqueso fincas (factor B), a razón de a tratamientos por bloque. Se divide cada una de las203


ab parcelas y se asignan al azar c subtratamientos (factorC), tal como se ilustra en elesquema para el caso a = 4, b = 3, c = 2. Se supone que actúan los efectos principales A,B y C, la interacción A×C y la interacción A×B. La interacción entre A y los bloques esdebida a que estos no pueden considerarse completamente homogéneos. Sin embargo, sesupone que cada una de las ab parcelas dentro de los bloques son homogéneas, de modoque los subtratamientos C no interaccionan con los bloques.Para la significación de C y la interacción A × C debe calcularseF C =C/(c − 1)(CB + ABC)/[a(b − 1)(c − 1)]F AC =AC/[(a − 1)(c − 1)](CB + ABC)/[a(b − 1)(c − 1)]Para estudiar la significación del factor A y del factor bloque debe calcularseF A =A/(a − 1)AB/[(a − 1)(b − 1)]F B =B/(b − 1)AB/[(a − 1)(b − 1)]10.5.2. Estimación de parámetros y cálculo del residuoLa estimación de los efectos principales y las interacciones se obtienen utilizando lostérminos que intervienen en las correspondientes sumas de cuadrados (ver tabla 10.7).Por ejemplo, en un estudio de dos factores con interacción en bloques aleatorizados, lasestimaciones son:ˆµ = ȳ ˆα i = y i·· − ȳ ˆβj = y·j· − ȳˆbk = y··k − ȳˆγ ij = y ij· − y i·· − y·j· + ȳSe puede aplicar una regla sencilla para encontrar la expresión algebraica del residuo. Enel diseño citado, cuyo modelo esy ijk = µ + α i + β j + b k + γ ij + ɛ ijksustituiremos los parámetros por sus estimacionesy ijk = ȳ + (y i·· − ȳ) + (y·j· − ȳ) + (y··k − ȳ)+(y ij· − y i·· − y·j· + ȳ) + e ijkPara que exista identidad entre y ijk y el término de la derecha, la estimación de la desviaciónaleatoria e ijk debe sere ijk = y ijk − y ij· − y··k + ȳEl residuo correspondiente al diseño de dos factores con interacción en bloques aleatorizadoses entonces ∑e 2 ijk = ∑ (y ijk − y ij· − y··k + ȳ) 2i,j,k i,j,kfórmula que coincide con AR + BR + ABR.Esta regla sirve para todos los diseños que admiten descomposición ortogonal de la sumade cuadrados. Por poner otro ejemplo, para el diseño de parcela dividida se compruebade este modo que la estimación de la desviación aleatoria ese ijk = y ijk − y i·k − y ij· + y i··204


Ejemplo 10.5.1Con el fin de valorar la acción de los hongos xilófagos sobre la madera, se han tomado240 muestras de madera procedente de tocones de Pinus silvestris, clasificados atendiendosimultáneamente a 4 factores (edad, orientación, altura y profundidad). La descripciónde los factores es:Edad (E): Años transcurridos desde la fecha de tala (1,4,7,10 o 13 años).Orientación (O): N,S,E,O según la ubicación de la muestra en el tocón.Altura (A): 0, 2, 5, 15 expresada en cm contados a partir de la superficie de corte.Profundidad (P ): 0, 2, 5 expresada en cm contados radialmente a partir de la superficielateral.Cada una de las 5 × 4 × 4 × 3 = 240 muestras era en realidad la homogeneización de 3muestras procedentes de 3 tocones distintos pero de las mismas características en cuantoa la edad, orientación, altura y profundidad.Se estudiaron 8 variables químicas. Para la variable que medía la cantidad de hemicelulosa,se obtuvo la siguiente descomposición ortogonal de la suma de cuadrados:Fuente de Suma de Grados de Cuadradosvariación cuadrados libertad medios FE 1227,53 4 306,88 59,21O 51,94 3 17,31 3,34A 58,59 3 19,53 3,76P 18,04 2 9,02 1,74EO 152,70 12 12,72 2,45EA 137,13 12 11,42 2,20EP 72,22 8 9,03 1,74OA 54,60 9 6,06 1,17OP 37,26 6 6,21 1,20AP 21,04 6 3,50 0,68EOA 189,89 36 5,27 1,01EOP 145,12 24 6,04 1,16EAP 132,22 24 5,50 1,06OAP 60,70 18 3,37 0,65EOAP 373,19 72 5,18Total 2732,64 239Los datos se adaptan a un diseño de 4 factores con una observación por casilla. El residuoes la suma de cuadrados indicada simbólicamente por EOAP y su valor es 373,19 con 72grados de libertad. Un examen inicial de los cocientes F de la tabla, obtenidos dividiendolos cuadrados medios por 373,19/72 = 5,18, para un nivel de significación de 0,05 noslleva a las siguientes conclusiones:a) Son significativos los efectos principales E,O,A. No es significativo el efecto principalP.205


) Son significativas las interacciones EA y EO. No son significativas el resto de lasinteracciones.Prescindiendo de los efectos no significativos, resulta un diseño de tres factores (E,O,A),de los cuales interaccionan E con A y E con O (edad con altura y edad con orientación).Añadiendo las correspondientes sumas de cuadrados al residuo, obtenemos la siguientetabla:Fuente de Suma de Grados de Cuadradosvariación cuadrados libertad medios FE 1227,53 4 306,88 56,97O 51,94 3 17,31 3,21A 58,59 3 19,53 3,63EO 152,70 12 12,72 2,36EA 137,13 12 11,42 2,12Residuo 1104,26 205 5,39Total 2732,64 239Se observa que sigue existiendo variabilidad significativa respecto E,O y A. También sonsignificativas las interacciones EO y EA. Por lo tanto, se confirman las conclusionesiniciales. Una estimación insesgada de la varianza σ 2 es ˆσ 2 = 5,39.10.6. Diagnosis del modeloUna vez decidido el modelo, calculados los parámetros y contrastadas las hipótesis sobrelos parámetros, es necesario comprobar si las hipótesis esenciales del modelo lineal secumplen. En caso contrario debemos analizar las consecuencias y si es preciso un cambiode modelo. Para ello y como en el caso de los modelos de regresión (ver capítulo 9)realizaremos un completo análisis de los residuos. Como ya se ha explicado, dicho análisisdebe comprobar la normalidad, la independencia y la aleatoriedad, la no existencia devalores atípicos y la homocedasticidad. Así pues, en esta sección vamos a comentar losaspectos específicos de este tema en el caso de los modelos de Análisis de la Varianza.Podemos empezar por una exploración previa de las observaciones, especialmente gráfica,como puede ser un diagrama de cajas múltiple o, cuando el número de datos sea muypequeño, un gráfico de puntos como el de la tabla 10.2.Una vez resuelto el modelo, podemos realizar el estudio descriptivo y gráfico de la distribuciónde los residuos. En este sentido los gráficos propuestos en 9.1.3, como diagramasde dispersión frente a las previsiones (medias en cada grupo), QQ-plots, etc., nos proporcionaránmucha información sobre la veracidad de las hipótesis básicas de un modelolineal normal.Por otra parte, como la mayoría de diseños responden a una situación experimental, siempreconviene representar los residuos respecto a su índice temporal de observación. Conello podemos detectar posibles cambios en las condiciones experimentales que provocaríanuna correlación indeseable o una alteración en la variabilidad experimental. Por ejemplo,esto último ocurre cuando se manifiesta el llamado efecto de aprendizaje.206


La falta de normalidad no es un problema grave. Aunque las observaciones no sigan la leynormal, los contrastes son esencialmente válidos y se dice que el Análisis de la Varianzaes en este caso una técnica robusta. Sin embargo, la no normalidad sí afecta a la precisiónde la estimación de la varianza del modelo y su estimación por intervalos.El efecto de varianzas desiguales en los grupos afecta al contraste F si el número deobservaciones en cada grupo es diferente (máx n i /mín n i > 2). En caso contrario, cuandoel número de réplicas por casilla es el mismo, el contraste F es bastante robusto inclusocuando las varianzas son fuertemente distintas (por ejemplo en una relación 1 a 30).Por supuesto, una fuerte desigualdad de la varianza del error en los grupos sí influyemarcadamente en la estimación de σ 2 .En algunos casos se puede aplicar alguna transformación para conseguir homocedasticidad(ver Peña[pág. 59][54]).En cuanto a efectuar un contraste formal de igualdad de varianzas antes del test F , esmejor utilizar un test robusto frente a la falta de normalidad como el test de Levene (ver6.7.3 y Ugarte[69, pág. 375]). Si los datos se desvían ligeramente de la normalidad, esto vaa afectar poco al test F , pero mucho a un test de varianzas no robusto, muy dependientede la normalidad.Finalmente, el efecto de dependencia entre observaciones puede ser muy grave, ya que lasfórmulas para las varianzas de las distribuciones muestrales de las medias son inválidasen este caso, por lo que todos los cálculos sobre la precisión de los estimadores seránerróneos. El procedimiento más eficaz para prevenir la dependencia es la aleatorización.Ejemplo 10.6.1Con el modelo lineal propuesto en el ejemplo 10.2.1 se pueden realizar los gráficos de losresiduos que se presentan en la figura 10.2. No se observan patologías que hagan dudarde las hipótesis básicas del modelo.Ejemplo 10.6.2Con los datos del ejemplo 10.3.1 y el modelo más simple tras el contraste se calculan (verpágina 214) los residuos estandarizados que tenemos en la tabla 10.8. Sólo hay un residuoprod fert finca ajustado resid resid.std atipico1 2.1 A 1 2.00 0.10 0.572 2.2 A 2 2.00 0.20 1.143 1.8 A 3 2.00 -0.20 -1.144 2.0 A 4 2.00 0.00 0.005 1.9 A 5 2.00 -0.10 -0.576 2.2 B 1 2.56 -0.36 -2.04 *7 2.6 B 2 2.56 0.04 0.238 2.7 B 3 2.56 0.14 0.809 2.5 B 4 2.56 -0.06 -0.3410 2.8 B 5 2.56 0.24 1.3611 1.8 C 1 1.84 -0.04 -0.2312 1.9 C 2 1.84 0.06 0.3413 1.6 C 3 1.84 -0.24 -1.3614 2.0 C 4 1.84 0.16 0.9115 1.9 C 5 1.84 0.06 0.3416 2.1 D 1 2.16 -0.06 -0.3417 2.0 D 2 2.16 -0.16 -0.9118 2.2 D 3 2.16 0.04 0.2319 2.4 D 4 2.16 0.24 1.3620 2.1 D 5 2.16 -0.06 -0.34Cuadro 10.8: Residuos estandarizados del ejemplo 10.3.1207


a) Diagrama de cajab) QQ-plot-1.0 0.0 0.5 1.0 1.5residuos est.-1.0 0.0 0.5 1.0 1.5-1 0 1residuos estandarizadosc) residuos est. vs indexcuantiles de la normald) residuos est. vs prediccionesresiduos est.-1.0 0.0 0.5 1.0 1.5residuos est.-1.0 0.0 0.5 1.0 1.52 4 6 8 10 12 14i10 15 20 25prediccionesFigura 10.2: Gráficos para el análisis de los residuos del ejemplo 10.2.1ligeramente atípico, situado en las colas del 5 %, y marcado con un asterisco.Los gráficos de estos residuos, como en el ejemplo anterior, tampoco muestran ningúnindicio de apartarse de las hipótesis básicas del modelo lineal.Ejemplo 10.6.3En el análisis de los residuos del ejemplo 10.4.1 con el modelo simplificado a un factor, elfactor significativo siembra, se observan dos residuos estandarizados con valores atípicos:−2,84 (p < 0,007) y −2,61 (p < 0,01). Habría que estudiar estos dos resultados.Los gráficos pueden verse en la figura 10.3.10.7. Diseños no balanceados y observaciones faltantesUn diseño experimental (observaciones y modelo del experimento) puede describirse medianteel modelo lineal Y = Xβ + ɛ, donde X es la matriz de diseño ampliada. Seann 1 , . . . , n k los números de réplicas para cada una de las condiciones experimentales (versección 2.7). Excepto el diseño de un factor, los demás diseños deben tener el mismo númerode réplicas por condición experimental. Sin embargo, en las aplicaciones no siempre esposible mantener tal restricción. Además, las réplicas de alguna condición experimental208


a) Diagrama de cajab) QQ-plot-3 -2 -1 0 1residuos est.-3 -2 -1 0 1-2 -1 0 1 2residuos estandarizadosc) residuos est. vs indexcuantiles de la normald) residuos est. vs prediccionesresiduos est.-3 -2 -1 0 1residuos est.-3 -2 -1 0 10 10 20 30i64 66 68 70prediccionesFigura 10.3: Gráficos para el análisis de los residuos del ejemplo 10.4.1pueden perderse (un tubo de ensayo que se rompe, unos datos que se extravían, etc.).Veamos como pueden ser tratados ambos problemas.Dado el modelo lineal Y = Xβ + ɛ, diremos que corresponde a:1) Un diseño balanceado si n 1 = n 2 = · · · = n k ≠ 0.2) Un diseño no balanceado si n i ≠ n j para algún i, j.3) Un diseño con observaciones faltantes si n i = 0 para algún i.Supongamos que X R es la matriz de diseño reducida “estándar” para un diseño experimentaldeterminado. Los diseños no balanceados y con observaciones faltantes se puedenmanejar, sin modificar X R , utilizandoD = diag(n 1 , n 2 , . . . , n k )Adoptemos el convenio de que si n i = 0 para algún i, la correspondiente observacióncontenida en Y se sustituye por 0 y en el vector de medias Ȳ = (ȳ 1 , ȳ 2 , . . . , ȳ k ) ′ se tomaȳ i = 0. Entonces se verificâβ = (X ′ RDX R ) − X ′ RDȲSCR = Y ′ Y − ̂β ′ X ′ RDȲSCR H − SCR = (Âβ) ′ (A(X ′ RDX R ) − A ′ ) −1 (Âβ)209


siendo H 0 : Aβ = 0 una hipótesis contrastable. La matriz M que relaciona X con X Rmediante X = MX R se define como en la sección 2.7, pero añadiendo una fila de ceros enel lugar correspondiente a una casilla con observaciones faltantes (ver Cuadras[20]). Paraotros tratamientos del caso no balanceado y de las observaciones faltantes véase Seber[65,pág. 259,290-300].Ejemplo 10.7.1Consideremos un diseño de dos factores A, B sin interacción, con a = 2, b = 3, n 11 = 1,n 12 = 2, n 13 = 0, n 21 = 3, n 22 = 0, n 23 = 1; es decir, no balanceado y con observacionesfaltantes en los niveles A 1 B 3 y A 2 B 2 . Entonces, para los parámetros µ, α 1 , α 2 , β 1 , β 2 , β 3 ,tenemos:⎛X R =⎜⎝1 1 0 1 0 11 1 0 0 1 01 1 0 0 0 11 0 1 1 0 01 0 1 0 1 01 0 1 0 0 1⎞⎟⎠X = MX R =⎜⎝10.8. Ejemplos con R⎛M =⎜⎝D = (1, 2, 0, 3, 1, 0)⎛1 1 0 1 0 01 1 0 0 1 01 1 0 0 1 00 0 0 0 0 01 0 1 1 0 01 0 1 1 0 01 0 1 1 0 00 0 0 0 0 01 0 0 0 0 11 0 0 0 0 00 1 0 0 0 00 1 0 0 0 00 0 0 0 0 00 0 0 1 0 00 0 0 1 0 00 0 0 1 0 00 0 0 0 0 00 0 0 0 0 1Empezamos por reproducir el ejemplo 10.2.1 con el diseño de un factor. En primer lugarintroducimos los datos en una tabla. Observemos en especial la definición del vectortratam como factor.> y tratam pacientes design.table(pacientes)B D P1 20 22 102 28 18 53 35 30 0210⎞⎟⎠⎞⎟⎠


4 19 15 145 33 17 18A continuación podemos presentar algún gráfico de los datos como un diagrama de cajaso un gráfico de puntos (ver figura de la tabla 10.2).> par(pty="s")> boxplot(split(y,tratam))> par(pty="s")> dotplot(formula=tratam~y,data=pacientes)El Análisis de la Varianza se realiza con la función aov.> aov(y~tratam,data=pacientes)Call:aov(formula = y ~ tratam, data = pacientes)Terms:tratam ResidualsSum of Squares 790.5333 558.4000Deg. of Freedom 2 12Residual standard error: 6.821535 Estimated effects are balancedAunque para obtener la tabla 10.3 del Análisis de la Varianza es mejor asignar el resultadoen la forma> pacientes.aov summary(pacientes.aov)Df Sum of Sq Mean Sq F Value Pr(F)tratam 2 790.5333 395.2667 8.494269 0.005031871Residuals 12 558.4000 46.5333Observemos que el estadístico F es significativo, de forma que se rechaza la hipótesis nulade igualdad de tratamientos.Las estimaciones de los parámetros α i son ˆα i = y i· − ȳ> model.tables(pacientes.aov)Tables of effectstratamB D P8.0667 1.4667 -9.5333y las estimaciones de las medias ˆµ = ȳ, ˆµ + ˆα i = y i· son> model.tables(pacientes.aov,type="mean")Tables of means Grand mean211


18.933tratamB D P27.0 20.4 9.4Los residuos estandarizados de este modelo se calculan fácilmente:> ECM resstd outlier2.698,"***",+ ifelse(abs(resstd)>2.576,"**",+ ifelse(abs(resstd)>1.96,"*"," "))))La siguiente tabla muestra los resultados:> cbind(pacientes,ajustado=fitted(pacientes.aov),+ resid=round(residuals(pacientes.aov),2),+ resid.std=round(resstd,2),atipico=outlier)y tratam ajustado resid resid.std atipico1 22 D 20.4 1.6 0.232 18 D 20.4 -2.4 -0.353 30 D 20.4 9.6 1.414 15 D 20.4 -5.4 -0.795 17 D 20.4 -3.4 -0.506 20 B 27.0 -7.0 -1.037 28 B 27.0 1.0 0.158 35 B 27.0 8.0 1.179 19 B 27.0 -8.0 -1.1710 33 B 27.0 6.0 0.8811 10 P 9.4 0.6 0.0912 5 P 9.4 -4.4 -0.6513 0 P 9.4 -9.4 -1.3814 14 P 9.4 4.6 0.6715 18 P 9.4 8.6 1.26Los gráficos de la figura 10.2 se han obtenido con las siguientes instrucciones:> par(mfrow=c(2,2))> boxplot(resstd,xlab="residuos estandarizados")> title("a) Diagrama de caja")> qqnorm(resstd,xlab="cuantiles de la normal",ylab="residuos est.")> qqline(resstd)> title("b) QQ-plot")212


plot((1:length(resstd)),resstd,type="p",xlab="i",ylab="residuos est.")> title("c) residuos est. vs index")> plot(fitted(pacientes.aov),resstd,xlab="predicciones",ylab="residuos est.")> title("d) residuos est. vs predicciones")Veamos ahora la reproducción del ejemplo 10.3.1. Primero la introducción de los datos:> prod fert fert finca finca problema rm(prod,fert,finca)> problemaCon la última instrucción veremos la tabla con todos los datos.Ahora podemos presentar algunos gráficos descriptivos como los de la figura 10.4.> par(mfrow=c(1,3),pty="s")> plot.factor(prod~fert,data=problema)> title("a) Diagrama de cajas")> plot.factor(prod~finca,data=problema)> title("b) Diagrama de cajas")> interaction.plot(finca,fert,prod)> title("c) Poligonos")a) Diagrama de cajasb) Diagrama de cajasc) Poligonosprod1.6 1.8 2.0 2.2 2.4 2.6 2.8A B C Dprod1.6 1.8 2.0 2.2 2.4 2.6 2.81 2 3 4 5mean of prod1.6 1.8 2.0 2.2 2.4 2.6 2.81 2 3 4 5fertBDCAfertfincafincaFigura 10.4: Gráficos para la exploración de los datos del ejemplo 10.3.1También se pueden obtener otros gráficos con las instrucciones:> plot.design(prod~fert,fun="mean") # Medias de prod por fert> plot.design(problema,fun="median") # Medianas de prod> dotplot(fert ~ prod | finca, data = problema)213


Con la última se obtiene un conjunto de gráficos de puntos, uno para cada nivel del factorbloque, en este caso las fincas.A continuación se calcula el Análisis de la Varianza:> attach(problema)> problema.aov summary(problema.aov)Df Sum of Sq Mean Sq F Value Pr(F)fert 3 1.432 0.4773333 14.03922 0.0003137finca 4 0.088 0.0220000 0.64706 0.6395716Residuals 12 0.408 0.0340000Ahora se pueden calcular las estimaciones de los efectos y las medias.> efectos medias simple.aov summary(simple.aov)Df Sum of Sq Mean Sq F Value Pr(F)fert 3 1.432 0.4773333 15.39785 0.00005624767Residuals 16 0.496 0.0310000El análisis de los residuos debe hacerse con simple.aov.214


ECM resstd outlier2.698,"***",+ ifelse(abs(resstd)>2.576,"**",+ ifelse(abs(resstd)>1.96,"*"," "))))> cbind(problema,ajustado=fitted(simple.aov),+ resid=round(residuals(simple.aov),2),+ resid.std=round(resstd,2),atipico=outlier)El resultado puede verse en la tabla 10.8 de la página 207. Los gráficos del análisis deestos residuos se pueden realizar con las mismas instrucciones que en el ejemplo anteriory son muy parecidos a los de la figura 10.2.Veamos ahora cómo se procede con los datos del ejemplo 10.4.1.> huevos genotipo siembra genotipo siembra y y split(round(y,2),genotipo)...> problema rm(y,siembra,genotipo)> attach(problema)> par(mfrow=c(2,3))> plot.factor(y~siembra,data=problema)> title("a) Diagrama de cajas")> plot.factor(y~genotipo,data=problema)> title("b) Diagrama de cajas")> plot.design(problema,fun="mean")> title("c) Medias")> plot.design(problema,fun="median")> title("d) Medianas")> interaction.plot(genotipo,siembra,y)> title("e) Poligonos")Este conjunto de gráficos puede verse en la figura 10.1. Se intuye la falta de diferenciassignificativas entre los genotipos, mientras hay una clara diferencia entre las dos siembras.También es evidente la no interacción entre los dos factores.A continuación resolvemos el Análisis de la Varianza con los dos factores y su interacción.Observemos que la fórmula que se introduce en la función aov es215


siembra + genotipo + siembra:genotipo == siembra*genotipo> problema.aov summary(problema.aov)Df Sum of Sq Mean Sq F Value Pr(F)siembra 1 662.086 662.0865 14.83286 0.0005736genotipo 2 7.665 3.8323 0.08585 0.9179521siembra:genotipo 2 35.354 17.6772 0.39603 0.6764562Residuals 30 1339.094 44.6365> medias simple.aov summary(simple.aov)Df Sum of Sq Mean Sq F Value Pr(F)siembra 1 662.086 662.0865 16.28734 0.00029224Residuals 34 1382.113 40.6504> ECM resstd par(mfrow=c(2,2))> boxplot(resstd,xlab="residuos estandarizados")> title("a) Diagrama de caja")> qqnorm(resstd,xlab="cuantiles de la normal",ylab="residuos est.")> qqline(resstd)> title("b) QQ-plot")> plot((1:length(resstd)),resstd,type="p",xlab="i",ylab="residuos est.")> title("c) residuos est. vs index")> plot(fitted(simple.aov),resstd,xlab="predicciones",ylab="residuos est.")> title("d) residuos est. vs predicciones")> outlier2.698,"***",+ ifelse(abs(resstd)>2.576,"**",+ ifelse(abs(resstd)>1.96,"*",""))))> cbind(problema,ajustado=fitted(simple.aov),+ resid=round(residuals(simple.aov),2),+ resid.std=round(resstd,2),atipico=outlier)216


10.9. EjerciciosEjercicio 10.1Los siguientes datos corresponden a los índices de mortalidad, en un período de 10 años,clasificados por estaciones. Determinar si hay diferencias significativas entre las diferentesestaciones al nivel 0,01.Invierno Primavera Verano Otoño9,8 9,0 8,8 9,49,9 9,3 9,49,8 9,3 8,7 10,310,6 9,2 8,8 9,89,9 9,4 8,6 9,410,7 9,1 8,3 9,69,7 9,2 8,8 9,510,2 8,9 8,7 9,610,9 9,3 8,9 9,510,0 9,3 9,4Por otra parte, ¿difiere significativamente de 10,0 el índice medio registrado en invierno?Ejercicio 10.2Para el diseño de un factor con k nivelesy ih = µ + α i + ɛ ihi = 1, . . . , k; h = 1, . . . , n icon ∑ α i = 0, demostrar:a) La relación entre el contraste de la razón de verosimilitud Λ y el contraste F parala hipótesis H 0 : α 1 = · · · = α k = 0 es(Λ = 1 + k − 1 ) −n/2n − k Fb) El valor esperado de los cuadrados medios entre grupos esE(CM E ) = σ 2 + 1 ∑ni αi2 k − 1c) Cuando H 0 es cierta y mín{n 1 , . . . , n k } → ∞, entonces F P −→1.d) Si k = 2, el contraste F para la hipótesisH 0 : α 1 = α 2 = 0es equivalente al contraste t de Student para comparar las medias µ + α 1 , µ + α 2de dos poblaciones normales suponiendo que las varianzas son iguales.Ejercicio 10.3La siguiente tabla registra las producciones de 4 variedades de maíz, plantadas según undiseño en bloques aleatorizados217


Variedad1 2 3 4a 7 6 6 7b 10 8 7 9Bloque c 6 3 5 7d 4 3 3 3e 8 5 5 6Al nivel 0,05 estudiar si hay diferencias entre variedades y entre bloques. Comparar lavariedad 1 con la variedad 3.Ejercicio 10.4En una experiencia agrícola en la que se combina año con genotipo, se admite el siguientemodeloy ikr = µ + α i + β k + γ ik + ω ir + ɛ ikr (10.27)donde y ikr es la longitud de la planta, α i i = 1, . . . , 5 es el efecto principal del año, β kk = 1, 2, 3 es el efecto principal del genotipo, γ ik es la interacción genotipo × año, ω ir esuna interacción de las réplicas con los años y ɛ ikr es el término de error con distribuciónN(0, σ 2 ). La tabla 10.9 presenta la descomposición ortogonal de la suma de cuadrados.g.l. SC Y Y × T TA (año) 4 742 412 630B (genotipo) 2 118 105 110C (bloque) 3 74 87 97AB 8 647 630 521AC 12 454 478 372BC 6 87 63 79ABC 24 345 247 270Se pide:Cuadro 10.9: Tabla con las sumas de cuadrados para el diseño 10.27a) Hallar la expresión algebraica del residuo y encontrar tres estimaciones independientesde σ 2 .b) Estudiar si los efectos principales y las interacciones son significativas (nivel 0,05).Observación: La variable T es una variable concomitante y su utilidad será estudiada enel siguiente capítulo. Por este motivo, las columnas correspondientes a Y × T y T notienen interés ahora.Ejercicio 10.5En un estudio sobre viabilidad de Drosophila melanogaster se tienen en cuenta los siguientesfactores:Genotipo (G): se estudian 3 genotipos distintosGeneración (N): el experimento se repite durante 4 generaciones sucesivasTemperatura (T ): incubación a 17 y 25 grados centígrados218


Se obtuvieron 5 réplicas para cada una de las combinaciones de los 3 factores. El experimentose realizó sembrando 100 huevos y anotando el número de huevos eclosionados(esto constituye una réplica). Después de transformar adecuadamente los datos originales(ver ejemplo 10.5.1), se obtuvo la siguiente descomposición ortogonal de la suma decuadrados (R es el factor réplica)Se pide:SC g.l.G 621 2N 450 3T 925 1R 347 4GN 35 6GT 210 2GR 48 8NT 23 3NR 34 12T R 110 4GNT 75 6GNR 17 24GT R 22 8NT R 11 12GNT R 107 24a) Sabiendo que las interacciones entre 2 o 3 factores en las que intervenga el factorN no forman parte del modelo lineal asociado al diseño, estudiar la significación delos efectos principales y de las interacciones (nivel de significación: 0,01).b) Hallar tres estimaciones insesgadas de la varianza σ 2 del diseño estocásticamenteindependientes.219


Capítulo 11Análisis de Componentes de laVarianza11.1. IntroducciónEn los diseños del capítulo anterior hemos supuesto que los efectos de los factores son fijos,elegidos por el experimentador, y por este motivo se denominan modelos de efectos fijos.Se trataba de investigar el efecto que producen algunos niveles fijados sobre la variablerespuesta. Sin embargo, en ciertas situaciones es necesario interpretar los efectos de losfactores como aleatorios. En estos diseños los niveles no se eligen, sino que se consideranuna muestra al azar. A los modelos relacionados con los efectos aleatorios se les denominamodelos de efectos aleatorios.En el caso de diseños con efectos fijos estamos interesados en estimar el efecto de losdiversos niveles sobre la respuesta. Por el contrario, en los diseños de efectos aleatoriosdicha estimación no tiene sentido y buscaremos saber si el efecto existe y, si así es, conocersu efecto sobre la variabilidad con la estimación de las varianzas asociadas. Por ello esteestudio se conoce con el nombre de Análisis de Componentes de la Varianza.También pueden presentarse efectos de ambos tipos en un mismo modelo: son los llamadosmodelos mixtos. Veamos como distinguirlos mediante ejemplos.Un modelo de efectos fijosUna experiencia agrícola consistió en comparar la producción de cuatro variedades demaíz. Para ello, se plantaron las cuatro variedades en 40 parcelas idénticas, 10 por variedad.Transcurrido el tiempo necesario se recolectó, estudiándose la variable “peso demaíz por parcela”.Un modelo adecuado para analizar esta experiencia es el de un factory ij = µ + α i + ɛ ij i = 1, 2, 3, 4; j = 1, 2, . . . , 10y ij es la observación j del nivel i, es decir, la producción de laparcela j de la variedad iµ es la media generalα i es un parámetro fijo y representa el efecto de la variedad iɛ ij es el error aleatorio con distribución N(0, σ)220


La hipótesis de interés en este estudio esH 0 : α 1 = α 2 = α 3 = α 4 = 0es decir, no hay efecto variedad y las cuatro pueden considerarse homogéneas en cuantoa la productividad.Un modelo de efectos aleatoriosPara determinar el contenido en DNA de los hepatocitos de rata hemos tomado al azarcinco ratas. De cada hígado realizamos tres preparaciones y evaluamos con las técnicasadecuadas la cantidad de DNA por célula.Un modelo apropiado para estos datos sería también el de un factory ij = µ + A i + ɛ ij i = 1, 2, . . . , 5; j = 1, 2, 3pero la diferencia respecto al anterior estriba en que A i no es un parámetro fijo sino elefecto aleatorio de la rata i que procede de una población de ratas en la cual se suponeque la variable (cantidad DNA / célula hepática) sigue una distribución N(µ, σ y ). Ladistribución de los A i es N(0, σ A ) que se supone independiente de los errores ɛ ij condistribución N(0, σ).La hipótesis de interés en este caso esH 0 : σ 2 A = 0lo que equivale a afirmar que no hay variabilidad entre las distintas ratas de la poblaciónrespecto la variable estudiada.Un modelo mixtoPara un estudio sobre la ecología de un lago se han elegido al azar cuatro tardes de veranoy se ha medido la variable temperatura a diferentes profundidades (0,1,2,3,4 y 5 metros).Nuestro objetivo es examinar mediante los datos obtenidos si hay diferencias significativasentre profundidades y días.El modelo adecuado en este caso es el de dos factores sin interaccióny ij = µ + α i + B j + ɛ ij i = 1, 2, . . . , 6; j = 1, 2, 3, 4y ij es la temperatura a la profundidad i en el día jµ es la media generalα i es un parámetro fijo y representa el efecto de la profundidad iB j es el efecto aleatorio del día j y sigue una distribución N(0, σ B )ɛ ij es el error aleatorio con distribución N(0, σ)La hipótesis de que la temperatura no varía con la profundidad esH 0 : α 1 = · · · = α 6 = 0mientras que la hipótesis de que existe homogeneidad entre los diferentes días del veranoesH 0 : σ 2 B = 0221


11.2. Contraste de hipótesisEl tratamiento mediante Análisis de la Varianza de diseños con efectos aleatorios es, engeneral, muy similar al caso de efectos fijos en diseños balanceados, existiendo diferenciassolamente cuando existen interacciones. En diseños no balanceados el análisis es muchomás complejo.11.2.1. Los test FPara realizar los contrastes principales utilizaremos los test F adaptados a cada situacióny que justificaremos en la sección 11.3. La tabla 11.1 muestra los cuadrados mediosesperados y el cociente a efectuar para obtener la F en diseños de uno y dos factores conefectos fijos, aleatorios o mixtos. Por ejemplo, en el diseño de dos factores sin interacciónse verificaE[SCR B /(b − 1)] = E(CM B ) = σ 2 +a ∑βj2 b − 1si los efectos son fijos yE(CM B ) = σ 2 + aσ 2 Bsi los efectos son aleatorios. Observemos que para este diseño y el de un factor, los cocientesF son iguales tanto si se trata de efectos aleatorios como de efectos fijos.Sin embargo, en el diseño de dos factores con interacción, los cocientes F difieren segúnel modelo sea de efectos fijos, aleatorios o mixto:a) El modelo de efectos fijos ya ha sido ampliamente tratado en la sección 10.4.b) Si los dos factores son aleatorios, los cocientes F que deben calcularse para lasdistintas hipótesis sonH 0 : σ 2 A = 0 F = SCR A /(a − 1)SCR I /[(a − 1)(b − 1)]H ′ 0 : σ 2 B = 0 F = SCR B /(b − 1)SCR I /[(a − 1)(b − 1)]H ′′0 : σ 2 AB = 0 F = SCR I/[(a − 1)(b − 1)]SCR/[ab(r − 1)]En los dos primeros casos es necesario dividir por la interacción para hallar la F .En efecto, si H 0 es cierta σ 2 A = 0 y entonces SCR A/(σ 2 +rσ 2 AB ) y SCR I/(σ 2 +rσ 2 AB )siguen distribuciones ji-cuadrado independientes con a − 1 y (a − 1)(b − 1) gradosde libertad respectivamente. LuegoF = CM ACM Isigue la distribución F con a − 1 y (a − 1)(b − 1) grados de libertad. Observemosque el término desconocido σ 2 +rσAB 2 desaparece. Podemos realizar consideracionesanálogas para H 0 ′ y H ′′0 .j222


223Cuadro 11.1: Tabla de los cuadrados medios esperados y el cociente a efectuar paraobtener la F en diseños de uno y dos factores con efectos fijos, aleatorios o mixtosEFECTOS FIJOS EFECTOS ALEATORIOS MIXTOS(A fijo,B aleatorio)suma de cuadrados medios cuadrados medios cuadrados medioscuadrados esperados F esperados F esperados FSCR A σ 2 + 1k−1∑ni α 2 i CM A /CM R σ 2 + n 0 σ 2 A CM A /CM Run factor (n 0 = n 1 = . . . = n k )SCR σ 2 σ 2SCR A σ 2 + b ∑a−1 α2i CM A /CM R σ 2 + bσA 2 CM A /CM R σ 2 + b ∑a−1 α2i CM A /CM Rdos factores SCR B σ 2 + ab−1∑ β2j CM B /CM R σ 2 + bσ 2 B CM B /CM R σ 2 + aσ 2 B CM B /CM RSCR σ 2 σ 2 σ 2SCR Aσ 2 + br ∑a−1 α2i CM A /CM R σ 2 + rσAB 2 + brσ2 A CM A /CM I σ 2 + rσAB 2 + br ∑ α 2 ia−1CM A /CM Idos factores SCR B σ 2 + arb−1∑ β2j CM B /CM R σ 2 + rσ 2 AB + arσ2 B CM B /CM I σ 2 + arσ 2 B CM B /CM Rcon interacción SCR I σ 2 + r ∑ γ 2 ij(a−1)(b−1)CM I /CM R σ 2 + rσ 2 AB CM I /CM R σ 2 + rσ 2 AB CM I /CM RSCR σ 2 σ 2 σ 2


c) Si A es fijo y B es aleatorio, los cocientes F a efectuar sonH 0 : α 1 = · · · = α a = 0 F =SCR A /(a − 1)SCR I /[(a − 1)(b − 1)]H ′ 0 : σ 2 B = 0 F = SCR B/(b − 1)SCR/[ab(r − 1)]H ′′0 : σ 2 AB = 0 F = SCR I/[(a − 1)(b − 1)]SCR/[ab(r − 1)]En este caso solamente el efecto principal de A debe ser dividido por la interacción.En efecto, si H 0 es cierta α i = 0 i = 1, . . . , a y entonces SCR A /(σ 2 + rσAB 2 ) ySCR I /(σ 2 + rσAB 2 ) siguen distribuciones ji-cuadrado independientes. Al realizar elcociente para obtener la F desaparece el término σ 2 + rσAB 2 .En cambio, para σ 2 B = 0 (H′ 0 cierta), tenemos queSCR B /σ 2 SCR I /(σ 2 + σ 2 AB) SCR/σ 2siguen distribuciones ji-cuadrado independientes entre sí con b − 1, (a − 1)(b − 1)y ab(r − 1) g.l. respectivamente. Luego es necesario para obtener la F realizar elcociente entre CM B /σ 2 y CM R /σ 2 de modo que el término desconocido σ 2 desaparezca.Observemos que dividiendo por la interacción los términos σ 2 y σ 2 + σ 2 AB nose anulan, imposibilitando el cálculo de la F .Ejemplo 11.2.1Se desea estudiar y comparar la acción de tres fármacos tranquilizantes A, B C en la conducciónde automóviles. La variable que sirvió de referencia fue el tiempo que un individuotarda en iniciar la frenada ante la puesta repentina en rojo de un semáforo. Se eligieron8 hombres al azar y se sometió a cada hombre a los 3 tratamientos, en períodos sucesivosy secuencias al azar, mediante el procedimiento del doble ciego (ni el médico ni el pacientesaben cual es el fármaco suministrado en un determinado momento). Los resultadosfueron, en milésimas de segundo (cada dato es el promedio de varias observaciones):1 2 3 4 5 6 7 8A 548 619 641 846 517 876 602 628Tratamiento B 519 776 678 858 493 741 719 595C 637 818 701 855 618 849 731 687Como hay tres tratamientos fijos y ocho individuos elegidos al azar de la población, nosencontramos ante un diseño mixto, donde el efecto individuo (efecto bloque) es aleatorio.Las hipótesis a contemplar sondonde σ 2 BH 0 : α 1 = α 2 = α 3 (no hay efecto tratamiento)H 0 ′ : σB 2 = 0 (no hay homogeneidad entre individuos)es la varianza del efecto individuo. La tabla del Análisis de la Varianza esFuente de suma de cuadradosvariación cuadrados g.l. medios FEntre tratam. 27535,6 2 13767,79 5,15Entre individuos 258040,7 7 36862,95 13,78Residuo 37451,1 14 2675,08Total 323027,4 23224


Para 2 y 14 g.l. F = 5,15 es significativa al nivel 0,025, aceptamos pues que hay diferenciasentre fármacos. Para 7 y 14 g.l. F = 13,78 es significativa al nivel 0,005, aceptamos quehay variabilidad entre individuos.11.2.2. Estimación de los componentes de la varianzaUna estimación aproximada de las varianzas σ 2 , σA 2 , σ2 B , σ2 AB se puede obtener igualandolos cuadrados medios con los cuadrados medios esperados y resolviendo el sistemaresultante. Por ejemplo, en el diseño de un factor tenemoŝσ 2 + n 0̂σ A 2 = CM Âσ 2 = CM Ry para el diseño de dos factores con interacción̂σ 2 + r̂σ AB 2 + br̂σ2 A = CM Âσ 2 + r̂σ AB 2 + ar̂σ2 B = CM B̂σ 2 + r̂σ AB 2 = CM Îσ 2 = CM RPuede ocurrir que la estimación puntual de un componente de la varianza resulte negativa.En este caso aceptaremos que su valor es cero dado que la varianza es un parámetroestrictamente positivo.Ejemplo 11.2.2Para estimar la variabilidad entre individuos del ejemplo anterior, igualaremos los cuadradosmedios a sus valores esperadosde donde36862,95 = ̂σ 2 + 3̂σ B22675,08 = ̂σ 2̂σ 2 B = (36862,95 − 2675,08)/3 = 11395,96El tiempo de frenado entre los individuos varía con una desviación típica estimada ̂σ B =106,75 milésimas de segundo.11.3. Comparación entre modelos de efectos fijos ymodelos de efectos aleatoriosEn esta sección vamos a probar los principales resultados teóricos que desembocan enlos test F prescritos en cada caso para modelos sencillos, tanto de efectos fijos como deefectos aleatorios . A los modelos de efectos fijos los denominaremos también modelos detipo I y a los de efectos aleatorios modelos de tipo II.225


11.3.1. Diseño de un factor con efectos fijosTal como se ha visto en la sección 10.2, el modelo lineal que se adapta a este diseño esy ij = µ i + ɛ ijo, reparametrizado,y ij = µ + α i + ɛ iji = 1, . . . , k; j = 1, . . . , n icon la restricción ∑ ki=1 α i = 0. Las y ij son independientes y normales N(µ i , σ). Las ɛ ijson independientes y normales N(0, σ).La descomposición de la variabilidad viene dada por∑(y ij − ȳ) 2 = ∑ (y i· − ȳ) 2 + ∑ (y ij − y i·) 2i,ji,ji,jes deciro tambiénSC T = SC e + SC dSCR H = (SCR H − SCR) + SCRcon n − 1, k − 1 y n − k grados de libertad respectivamente, siendo n 1 + · · · + n k = n.Teorema 11.3.1El valor esperado de la suma de cuadrados entre grupos esluegoE(CM e ) = EE(SC e ) = (k − 1)σ 2 +Demostración:Por definición SC e = ∑ ki=1 n i(y i· − ȳ) 2 .Del modelo y ij = µ + α i + ɛ ij se obtienek∑n i αi2i=1( ) SCe= σ 2 + 1k − 1 k − 1y i· = µ + α i + ɛ i·ȳ = µ + ɛ··ya que ∑ ki=1 α i = 0 y en consecuencia α· = (1/k) ∑ ki=1 α i = 0.Entoncesk∑SC e = n i (α i + ɛ i· − ɛ··) 2=i=1k∑n i αi 2 +i=1− 2ɛ··k∑n i ɛ 2 i· + nɛ 2·· + 2i=1k∑n i α i − 2ɛ··i=1226k∑n i ɛ i·i=1k∑n i αi2i=1k∑n i α i ɛ i·i=1


peroɛ··k∑n i ɛ i· = ɛ··i=1(k∑ 1n ii=1n i∑n iɛ ij)j=1i,j∑= ɛ·· ɛ ij = nɛ 2··luegok∑k∑E(SC e ) = n i αi 2 + n i E(ɛ 2 i·) + n E(ɛ 2··)i=1(k∑k∑)+ 2 n i α i E(ɛ i·) − 2 n i α i E(ɛ··)i=1i=1− 2n E(ɛ 2··)Recordando que las v.a. ɛ ij son independientes y normales N(0, σ) se verificaɛ i· ∼ N(0, σ/ √ n i ) ɛ·· ∼ N(0, σ/ √ n)Por ser centradas, la esperanza de su cuadrado coincide con la varianza, es deciri=1y por tantoE(ɛ 2 i·) = var(ɛ i·) = σ2n iE(ɛ 2··) = var(ɛ··) = σ2nE(SC e ) ==k∑n i αi 2 +i=1k∑i=1σ 2n i + n σ2n i n − 2nσ2 nk∑n i αi 2 + kσ 2 + σ 2 − 2σ 2i=1= (k − 1)σ 2 +k∑n i αi2i=1Teorema 11.3.2El valor esperado de la suma de cuadrados dentro de los grupos esE(SC d ) = (n − k)σ 2y por lo tantoE(CM d ) = E( ) SCd= σ 2n − kDemostración:Teniendo en cuenta que SC d = SCR, este resultado es evidente y ya se probó en el teorema2.5.1 para un modelo lineal general. También se puede demostrar siguiendo un procesoparecido al del teorema anterior.227


Caso particularSi el diseño es balanceado, es decir, igual número de réplicas por condición experimental(n 1 = · · · = n k = n 0 ), entonces de los teoremas 11.3.1 y 11.3.2 se deducen las fórmulasE(CM e ) = σ 2 + n k∑0αi2 k − 1i=1( ) SCdE(CM d ) = E= σ 2k(n 0 − 1)Inferencia en el modelo de un factor con efectos fijosLa hipótesis nula de mayor interés eso, utilizando el modelo alternativo,H 0 : µ 1 = µ 2 = · · · = µ k = µH 0 : α 1 = α 2 = · · · = α k = 0Por el teorema 11.3.1, CM e es un estimador insesgado de σ 2 si H 0 es cierta. Por el teorema11.3.2 es siempre un estimador insesgado de σ 2 , sea H 0 cierta o no. Además, suponiendoque ɛ ij ∼ N(0, σ), se verifica el teorema 5.3.1 de la teoría general del modelo lineal normal(Teorema fundamental del Análisis de la Varianza) como hemos visto en 10.3:a) SC d /σ 2 ∼ χ 2 n−kb) Si H 0 es cierta, entonces CM e = SC e /(k − 1) es otra estimación insesgada de σ 2 yademásSC e /σ 2 ∼ χ 2 k−1c) Si H 0 es cierta, el estadísticoF = SC e/[σ 2 (k − 1)]SC d /[σ 2 (n − k)] = CM eCM dsigue la distribución F con k − 1 y n − k grados de libertad. La hipótesis H 0 serechaza si el estadístico es significativo.11.3.2. Diseño de un factor con efectos aleatoriosEl modelo lineal que se adapta a este diseño esy ij = µ + A i + ɛ iji = 1, . . . , k; j = 1, . . . , n icon las siguientes particularidades1) E(A i ) = 0, var(A i ) = σA 2 i = 1, . . . , k2) E(A i · A i ′) = 0 ∀i ≠ i ′3) E(A i · ɛ ij ) = 0 ∀i, j228


es decir, {A i } son variables aleatorias de media cero y varianza σA 2 , independientes entresí y de los errores {ɛ ij }. Luegovar(y ij ) = var(A i ) + var(ɛ ij )σ 2 y = σ 2 A + σ 2y por este motivo es apropiado denominar componentes de la varianza a σ 2 A y σ2 .Para su tratamiento clásico mediante Análisis de la Varianza de un factor es necesarioademás que4) A i ∼ N(0, σ A ), ɛ ij ∼ N(0, σ) y por lo tanto y ij ∼ N(µ, σ y )5) el diseño sea balanceado n 1 = n 2 = · · · = n k = n 0Este modelo de efectos aleatorios que hemos formulado y en general cualquier modelode efectos aleatorios, difiere de un modelo de efectos fijos en que bajo las asuncionesrealizadasa) Para un i dado, todas las observaciones tienen igual esperanzaE(y ij ) = µ + A i∀jb) Para un i dado, las observaciones no son estocásticamente independientes entre sí.c) La variable ∑ ki=1 A i es aleatoria y puede tomar un valor distinto de cero.Teorema 11.3.3Para el diseño de un factor con efectos aleatorios el valor esperado de la suma de cuadradosentre grupos esE(SC e ) = (k − 1)σ 2 + n 0 (k − 1)σ 2 AluegoE(CM e ) = EDemostración:Por definición SC e = n 0∑ ki=1 (y i· − ȳ) 2 .Del modelo se obtienede dondeSC e = n 0( ) SCe= σ 2 + n 0 σA2 k − 1y i· = µ + A i + ɛ i·ȳ = µ + A· + ɛ··k∑[(A i − A·) + (ɛ i· − ɛ··)] 2i=1= n 0[ k∑i=1A 2 i ++kɛ 2·· − 2ɛ··k∑A 2· − 2A·i=1k∑ɛ i· + 2i=1229k∑A i +i=1k∑i=1ɛ 2 i·]k∑(A i − A·)(ɛ i· − ɛ··)i=1


peroya queEntoncesk∑ɛ i· =i=1k∑ 1 ∑n 0ɛ ij = 1 n 0 n 0i=1j=1SC e = n 0[ k∑i=1A 2 i + kA 2· +ɛ·· = 1kn 0k∑ ∑n 0ɛ ij = 1 kn 0 ɛ·· = kɛ··n 0i=1j=1k∑ ∑n 0i=1j=1ɛ ijk∑ɛ 2 i· − kɛ 2·· + 2i=1]k∑(A i − A·)(ɛ i· − ɛ··)i=1k∑E(SC e ) = n 0 E(A 2 i ) − n 0 kE(A 2· ) + n 0i=1Por las hipótesis del modelo se verifica−n 0 kE(ɛ 2··) + 2n 0k∑i=1E(ɛ 2 i·)k∑E[(A i − A·)(ɛ i· − ɛ··)]A· ∼ N(0, σ A / √ k) ɛ i· ∼ N(0, σ/ √ n 0 ) ɛ·· ∼ N(0, σ/ √ kn 0 )Debido a que las variables aleatorias A i , A·, ɛ i·, ɛ·· son centradas, la esperanza de sucuadrado coincide con su varianza, es decir,i=1E(A 2 i ) = var(A i ) = σ 2 AE(A 2· ) = var(A·) = σ 2 A/kE(ɛ 2 i·) = var(ɛ i·) = σ 2 /n 0E(ɛ 2··) = var(ɛ··) = σ 2 /(kn 0 )Además, al ser independientes las variables A i con las ɛ ijPor lo tantoTeorema 11.3.4E[(A i − A·)(ɛ i· − ɛ··)] = E(A i − A·) · E(ɛ i· − ɛ··) = 0 · 0 = 0E(SC e ) = n 0 kσ 2 A − n 0 k σ2 Ak + n 0k σ2n 0− n 0 k σ2kn 0= n 0 kσ 2 A − n 0 σ 2 A + kσ 2 − σ 2= (k − 1)σ 2 + n 0 (k − 1)σ 2 AEl valor esperado de la suma de cuadrados dentro de los grupos esE(SC d ) = k(n 0 − 1)σes decirE(CM d ) = E( ) SCd= σ 2k(n 0 − 1)230


Demostración:Por definición SC e = ∑ k ∑ n0i=1 j=1 (y ij − y i·) 2 .Del modelo se obtieney i· = µ + A i + ɛ i·EntoncesSC d =====k∑ ∑n 0(ɛ ij − ɛ i·) 2i=1j=1k∑ ∑n 0ɛ 2 ij +i=1 j=1 i=1 j=1k∑ ∑n 0ɛ 2 ij + n 0i=1j=1k∑ ∑n 0ɛ 2 ij + n 0i=1j=1k∑ ∑n 0ɛ 2 ij − n 0k∑ ∑n 0ɛ 2 i· − 2k∑ɛ 2 i· − 2i=1k∑ɛ 2 i· − 2i=1k∑i=1 j=1i=1ɛ 2 i·k∑ ∑n 0i=1k∑i=1j=1∑ɛ i·n 0j=1k∑ɛ i·n 0 ɛ i·i=1ɛ i·ɛ ijɛ ijde manera queE(SC d ) =k∑ ∑n 0E(ɛ 2 ij) − n 0i=1j=1= kn 0 σ 2 − n 0 k σ2n 0= kn 0 σ 2 − kσ 2k∑i=1E(ɛ 2 i·)= k(n 0 − 1)σ 2 Inferencia en el modelo de un factor con efectos aleatoriosLa hipótesis de interés en este modelo esRecordemos queH 0 : σ 2 A = 0k∑k∑SC A = n 0 (y i· − ȳ) 2 = n 0 (A i + ɛ i· − A· − ɛ··) 2SCR = ∑ i,ji=1(y ij − y i·) 2 = ∑ i,ji=1(ɛ ij − ɛ i·) 2siendo SC A la suma de cuadrados entre grupos o suma de cuadrados del factor y SCRla suma de cuadrados dentro de los grupos o suma de cuadrados residual, representadashasta ahora por SC e y SC d respectivamente. Recuérdese también que A· es una variablealeatoria y en consecuencia susceptible de tomar un valor distinto de cero.231


Realizando el cambio g i = A i + ɛ i· obtenemos k v.a. independientes con distribuciónnormal de media cero y varianzavar(g i ) = var(A i ) + var(ɛ i·) = σ 2 A + σ2n 0Por el teorema de Fisher, la variable aleatoriaks 2 g/σ 2 gse distribuye según una ji-cuadrado con k − 1 g.l., es decir,∑ ki=1 (g i − ḡ) 2σA 2 + = n ∑ k0 i=1 (g i − ḡ) 2 SC Aσ2 nn 0 σ 20A + =σ2 n 0 σA 2 + ∼ χ2 σ2 kEntoncesSC A = (n 0 σA 2 + σ 2 ) · χ 2 k−1( ) SCAE(CM A ) = E = n 0 σA 2 + σ 2k − 1A este resultado habíamos llegado también anteriormente por el teorema 11.3.3.Por otra parte, SCR está distribuida de idéntica forma que en los modelos de efectos fijos.Los ɛ ij desempeñan el papel de las observaciones, con media cero y varianza σ 2 . LuegoSCR = σ 2 · χ 2 k(n 0 −1)( ) SCRE(CM R ) = E= σ 2k(n 0 − 1)Para efectuar comparaciones falta demostrar que SC A y SCR son independientes. Paraello, basta probar la independencia entre A i + ɛ i· − A· − ɛ·· y ɛ ij − ɛ i·. Tenemos que A i − A·y ɛ ij − ɛ i· son obviamente independientes. Si expresamos ɛ ij = ɛ·· + (ɛ i· − ɛ··) + (ɛ ij − ɛ i·),utilizando otra vez la analogía con los modelos de efectos fijos, ɛ i· −ɛ·· pertenece al espaciode las estimaciones y ɛ ij −ɛ i· pertenece al espacio error, espacios que son ortogonales entresí. Debido a la normalidad del modelo, sus vectores son independientes, luego SC A y SCRson independientes. Entonces, si H 0 es cierta, el estadísticoF = SC A/[σ 2 (k − 1)]SCR/[σ 2 k(n 0 − 1)] = SC A/(k − 1)SCR/[k(n 0 − 1)] = CM ACM Rsigue la distribución F con k−1 y k(n 0 −1) g.l.. La hipótesis H 0 se rechaza si el estadísticoes significativo.Como resumen de lo expuesto en los apartados anteriores véase el cuadro 11.2. Obsérveseque, si bien la hipótesis a contrastar del modelo I es formalmente distinta de la hipótesisdel modelo II, se utiliza el mismo estadístico de contrasteF = CM ACM R∼ F k−1,k(n0 −1)Una estimación de los componentes de la varianza eŝσ 2 = CM R ̂σ A 2 = CM A − CM Rn 0solución obtenida resolviendo el sistema resultante de igualar los cuadrados medios conlos cuadrados medios esperados (ver sección 11.2.2). Obsérvese que los estimadores ̂σ 2 ŷσ A 2 son siempre estimadores insesgados de los parámetros σ2 y σA 2 respectivamente.232


Esperanza del cuadrado medioFuente decuadradosvariación g.l. medios Modelo I Modelo IITratamientos k − 1 CM A = SC A /(k − 1) σ 2 + n ∑0 α2ik − 1σ 2 + n 0 σ 2 AError k(n 0 − 1) CM R = SCR/[k(n 0 − 1)] σ 2 σ 2Total n 0 k − 1Cuadro 11.2: Tabla comparativa para diseños de un factor con efectos fijos y efectosaleatorios11.3.3. Diseño de dos factores sin interacción con efectos fijos odiseño en bloques al azar completosEste diseño recibe también el nombre de bloques aleatorizados. Un desarrollo típico paraeste diseño, utilizando tres tratamientos en cuatro bloques, es el siguienteBloque 1 Bloque 2 Bloque 3 Bloque 4t 3 t 2 t 1 t 1t 2 t 3 t 3t 1 t 1 t 2 t 3Las letras t indican la asignación aleatoria de los tratamientos en los bloques. Comoejemplo véase el ejemplo 10.3.1.Generalizando, consideremos el caso de a tratamientos en b bloques. La observación y ijindica la respuesta del i-ésimo tratamiento aplicado al j-ésimo bloque. Se supondrá quey ij (i = 1, . . . , a; j = 1, . . . , b) son valores de v.a. independientes con distribución normalde media µ ij y varianza común σ 2 . Serán de utilidad tambiény i· = media del i-ésimo tratamientoy·j = media del j-ésimo bloquey·· = media generalEl promedio de las medias poblacionales para el i-ésimo tratamiento está definido porb∑t 2µ i· = 1 bj=1µ ijAsimismo, el promedio de las medias poblacionales para el j-ésimo bloque está definidopora∑µ·j = 1 ai=1µ ij233


y el promedio de las ab medias poblacionales esµ·· = 1 aba∑b∑i=1 j=1µ ijSi representamos por A al factor tratamiento y por B al factor bloque, las hipótesislineales de interés sonH A 0 : µ 1· = µ 2· = · · · = µ a· = µH B 0 : µ·1 = µ·2 = · · · = µ·b = µSi se cumple la primera hipótesis, el factor A no es significativo o, equivalentemente, noexisten diferencias significativas entre los tratamientos. También se dice que no hay efectofila. En el caso de que se cumpla la segunda hipótesis, el factor B no es significativo, esdecir, no existen diferencias significativas entre los bloques; no hay efecto columna.Cada observación puede descomponerse eny ij = µ ij + ɛ ijdonde ɛ ij mide la desviación del valor observado y ij frente la media poblacional µ ij . Laforma más común de expresar esta ecuación se obtiene al sustituirµ ij = µ + α i + β jdonde α i es el efecto del i-ésimo tratamiento y β j el efecto del j-ésimo bloque. Se suponeque los efectos del tratamiento y del bloque son aditivos. Así, el modelo esy ij = µ + α i + β j + ɛ ijObsérvese que se asemeja al modelo de un criterio de clasificación, pero con la adicióndel efecto bloque. Ahora la variación se controla sistemáticamente en dos direcciones.Si se imponen las restricciones naturalesa∑α i = 0i=1b∑β j = 0j=1entoncesµ i· = 1 bµ·j = 1 ab∑(µ + α i + β j ) = µ + α ij=1a∑(µ + α i + β j ) = µ + β jLas hipótesis pueden ahora plantearse del siguiente modoH0 A : α 1 = α 2 = · · · = α a = 0H0 B : β 1 = β 2 = · · · = β b = 0i=1234


En la sección 10.3 se vio que la descomposición fundamental de la suma de cuadrados(descomposición de la variabilidad) viene dada por∑(y ij − ȳ) 2 = b ∑ (y i· − ȳ) 2 + a ∑ (y·j − ȳ) 2i,jij+ ∑ i,j(y ij − y i· − y·j + ȳ) 2es decirSC T = SC F + SC C + SCRdonde SC T es la suma de cuadrados total, SC F la suma de cuadrados entre filas, SC C lasuma de cuadrados entre columnas y SCR la suma de cuadrados residual.Teorema 11.3.5El valor esperado de la suma de cuadrados entre filas esluegoDemostración:Es análoga a la del teorema 11.3.1.Teorema 11.3.6E(SC F ) = (a − 1)σ 2 + ba∑i=1E(CM F ) = E(SC F /(a − 1)) = σ 2 +α 2 iba − 1El valor esperado de la suma de cuadrados entre columnas esE(SC C ) = (b − 1)σ 2 + ab∑j=1β 2 ja∑i=1α 2 iluegoE(CM C ) = E(SC C /(b − 1)) = σ 2 +ab − 1b∑j=1β 2 jDemostración:Es análoga a la del teorema 11.3.1.Teorema 11.3.7El valor esperado de la suma de cuadrados residual esE(SCR) = (a − 1)(b − 1)σ 2luegoE(CM R ) = E(SCR/[(a − 1)(b − 1)]) = σ 2Demostración:Es análoga a la del teorema 11.3.2.235


Inferencia en el diseño de dos factores sin interacción con efectos fijosUna de las hipótesis a contrastar esH A 0 : α 1 = α 2 = · · · = α a = 0Por el teorema 11.3.5, CM F es un estimador insesgado de σ 2 si H0 A es cierta. Por elteorema 11.3.7, SCR es siempre un estimador insesgado de σ 2 , tanto si H0A es cierta comosi no lo es. Además, suponiendo que ɛ ij ∼ N(0, σ), se verifica el teorema 5.3.1 de la teoríageneral del modelo lineal formal:a) SCR/σ 2 ∼ χ 2 (a−1)(b−1)b) Si H A 0 es cierta, entonces CM F = SC F /(a − 1) es otra estimación insesgada de σ 2 yademásSC F /σ 2 ∼ χ 2 a−1c) Si H A 0 es cierta, el estadísticoF =SC F /[σ 2 (a − 1)]SCR/[σ 2 (a − 1)(b − 1)] = CM FCM Rsigue la distribución F con a − 1 y (a − 1)(b − 1) g.l.. La hipótesis H0Asi el estadístico es significativo.se rechazaOtra hipótesis a contrastar esH B 0 : β 1 = β 2 = · · · = β b = 0Análogamente al caso anterior, el estadísticoF =SC C /[σ 2 (b − 1)]SCR/[σ 2 (a − 1)(b − 1)] = CM CCM Rsigue la distribución F con b − 1 y (a − 1)(b − 1) g.l.. La hipótesis H0Bestadístico es significativo.se rechaza si el11.3.4. Diseño de dos factores sin interacción con efectos aleatoriosEl modelo lineal que se adapta a este diseño esy ij = µ + A i + B j + ɛ iji = 1, . . . , a; j = 1, . . . , bsiendo A i , B j , ɛ ij variables aleatorias normales independientes con media cero y varianzasσA 2 , σ2 B , σ2 respectivamente. La descomposición fundamental de la suma de cuadrados(descomposición de la variabilidad) viene dada por∑(y ij − ȳ) 2 = b ∑ (y i· − ȳ) 2 + a ∑ (y·j − ȳ) 2i,jij+ ∑ i,j(y ij − y i· − y·j + ȳ) 2es decirSC T = SC F + SC C + SCR236


Teorema 11.3.8El valor esperado de la suma de cuadrados entre filas esluegoDemostración:Es análoga a la del teorema 11.3.3.Teorema 11.3.9E(SC F ) = (a − 1)σ 2 + b(a − 1)σ 2 AE(CM F ) = E(SC F /(a − 1)) = σ 2 + bσ 2 AEl valor esperado de la suma de cuadrados entre columnas esluegoDemostración:Es análoga a la del teorema 11.3.3.Teorema 11.3.10E(SC C ) = (b − 1)σ 2 + a(b − 1)σ 2 BE(CM C ) = E(SC C /(b − 1)) = σ 2 + aσ 2 BEl valor esperado de la suma de cuadrados residual esE(SCR) = (a − 1)(b − 1)σ 2luegoE(CM R ) = E(SCR/[(a − 1)(b − 1)]) = σ 2Demostración:Es análoga a la del teorema 11.3.4.Inferencia en el diseño de dos factores sin interacción con efectos aleatoriosLas hipótesis de interés en este modelo sonH 0 : σ 2 A = 0 H ′ 0 : σ 2 B = 0Para contrastar la primera se utiliza el estadísticoF =SC F /[σ 2 (a − 1)]SCR/[σ 2 (a − 1)(b − 1)] = CM FCM Rque sigue bajo H 0 la distribución F con a − 1 y (a − 1)(b − 1) g.l.. La hipótesis H 0 serechaza si el estadístico es significativo.De manera análoga, para contrastar la segunda hipótesis se utiliza el estadísticoF =SC C /[σ 2 (b − 1)]SCR/[σ 2 (a − 1)(b − 1)] = CM CCM R237


Esperanza del cuadrado medioFuente decuadradosvariación g.l. medios Modelo I Modelo IIEntre filas a − 1 CM F = SC F /(a − 1) σ 2 + b ∑α2a − 1 iEntre col. b − 1 CM C = SC C /(b − 1) σ 2 + a ∑β2b − 1 jσ 2 + bσ 2 Aσ 2 + aσ 2 BError (a − 1)(b − 1) CM R =SCR(a − 1)(b − 1)σ 2 σ 2Total ab − 1Cuadro 11.3: Tabla comparativa para diseños de dos factores con efectos aleatorios y sininteracciónque sigue bajo H ′ 0 la distribución F con b − 1 y (a − 1)(b − 1) g.l.. La hipótesis H ′ 0 serechaza si el estadístico es significativo.A modo de resumen de lo expuesto en los apartados anteriores, véase el cuadro 11.3.Las estimaciones insesgadas de las componentes de la varianza se obtienen igualando loscuadrados medios a los cuadrados medios esperados y resolviendo el sistema de ecuacionesresultante (ver sección 11.2.2). Las soluciones en este caso sonverificándosêσ 2 = CM R ̂σ 2 A = (CM F − CM R )/b ̂σ 2 B = (CM C − CM R )/aE(̂σ 2 ) = σ 2 E(̂σ 2 A) = σ 2 A E(̂σ 2 B) = σ 2 B11.3.5. Diseño de dos factores aleatorios con interacciónEl modelo lineal que se adapta a este diseño esy ijk = µ + A i + B j + (AB) ij + ɛ ijki = 1, . . . , a; j = 1, . . . , b; k = 1, . . . , rsiendo A i , B j , (AB) ij y ɛ ijk variables aleatorias normales independientes con media ceroy varianza σ 2 A , σ2 B , σ2 AB y σ2 respectivamente.En el cuadro 11.4 figuran las esperanzas de los cuadrados medios tanto para el modelo Icomo para el modelo II, indicando por modelo I cuando los dos factores son fijos y pormodelo II cuando los dos factores son aleatorios. La demostración de las fórmulas de estasesperanzas se hace de forma análoga a la de los teoremas 11.3.5, 11.3.6 y 11.3.7 para elmodelo I, y 11.3.8, 11.3.9 y 11.3.10 para el modelo II.Las hipótesis a contrastar en el modelo II sonH A 0 : σ 2 A = 0 H B 0 : σ 2 B = 0 H AB0 : σ 2 AB = 0238


Para contrastar la primera se utiliza el estadísticoF =SC A /[(a − 1)(σ 2 + rσAB 2 )]SC AB /[(a − 1)(b − 1)(σ 2 + rσAB 2 )] = SC A /(a − 1)SC AB /(a − 1)(b − 1) = CM ACM ABque sigue bajo H A 0 la distribución F con a − 1 y (a − 1)(b − 1) g.l.. La hipótesis H A 0 serechaza si el estadístico es significativo.De manera análoga para contrastar la segunda hipótesis se utiliza el estadísticoF =SC B /[(b − 1)(σ 2 + rσ 2 AB )]SC AB /[(a − 1)(b − 1)(σ 2 + rσ 2 AB )] = SC B /(b − 1)SC AB /(a − 1)(b − 1) = CM BCM ABque sigue bajo H0B la distribución F con b − 1 y (a − 1)(b − 1) g.l..En el contraste de las dos hipótesis anteriores se divide por el cuadrado medio de lainteracción; en cambio, para contrastar la tercera hipótesis se divide por el cuadradomedio del error, es decir, se utiliza el estadísticoF = SC AB/[(a − 1)(b − 1)σ 2 ]SCR/[ab(r − 1)σ 2 ]= SC AB/[(a − 1)(b − 1)]SCR/[ab(r − 1)]= CM ABCM Rque sigue bajo H0 AB la distribución F con (a − 1)(b − 1) y ab(r − 1) g.l.. La hipótesis H0ABse rechaza si el estadístico es significativo.Las estimaciones insesgadas de las componentes de la varianza (ver sección 11.2.2) son̂σ 2 = CM R E(̂σ 2 ) = σ 2̂σ 2 A = (CM A − CM AB )/(br)̂σ 2 B = (CM B − CM AB )/(ar)̂σ 2 AB = (CM AB − CM R )/rE(̂σ 2 A ) = σ2 AE(̂σ 2 B ) = σ2 BE(̂σ 2 AB ) = σ2 AB11.3.6. Diseño de tres factores aleatorios y réplicasLa esperanza de los cuadrados medios se muestra en el cuadro 11.5. De tales esperanzas sededuce que se pueden formar las razones F apropiadas para contrastar las hipótesis relativasa los componentes de la varianza de las interacciones. Sin embargo, para contrastarlas hipótesis relativas a los efectos principales, es decir,H A 0 : σ 2 A = 0 H B 0 : σ 2 B = 0 H C 0 : σ 2 C = 0no hay una razón F apropiada a menos que uno o más de los componentes de la varianzade la interacción de dos factores no sean significativos. Por ejemplo, supongamos que seha comprobado previamente la hipótesis H 0 : σAC 2 = 0 y ha resultado no significativa.Se puede afirmar entonces que el término σAC 2 puede excluirse de todas las esperanzasde los cuadrados medios en las que intervenga. Si deseamos ahora contrastar la hipótesisH0 A : σA 2 = 0 es posible utilizar el estadístico F = CM A/CM AB .En definitiva, si se desea contrastar las hipótesis relativas a los efectos principales, habráque estudiar primero la significación de los componentes de la varianza relativos a lasinteracciones.239


Esperanza del cuadrado medioFuente decuadradosvariación g.l. medios Modelo I Modelo IIEntre filas a − 1 CM A = SC Aa−1Entre col. b − 1 CM B = SC Bb−1σ 2 + rba−1∑ α2i σ 2 + rσ 2 AB + brσ2 Aσ 2 + rab−1∑ β2j σ 2 + rσ 2 AB + arσ2 BInterac. g ∗ CM AB = SC ABgσ 2 + r g∑τij σ 2 + rσ 2 ABResiduo ab(r − 1) CM R = SCRab(r−1)σ 2 σ 2Total abr − 1 ∗ g = (a − 1)(b − 1)Cuadro 11.4: Tabla comparativa para diseños de dos factores con efectos aleatorios y coninteracciónFuente de cuadrados Esperanza del cuadrado mediovariación g.l. medios Modelo IIA a − 1 CM A σ 2 + rσ 2 ABC + crσ2 AB + brσ2 AC + bcrσ2 AB b − 1 CM B σ 2 + rσ 2 ABC + crσ2 AB + arσ2 BC + acrσ2 BC c − 1 CM C σ 2 + rσ 2 ABC + brσ2 AC + arσ2 BC + abrσ2 CAB (a − 1)(b − 1) CM AB σ 2 + rσ 2 ABC + crσ2 ABAC (a − 1)(c − 1) CM AC σ 2 + rσ 2 ABC + brσ2 ACBC (b − 1)(c − 1) CM BC σ 2 + rσ 2 ABC + arσ2 BCABC (a − 1)(b − 1)(c − 1) CM ABC σ 2 + rσ 2 ABCResiduo abc(r − 1) CM R σ 2Total abcr − 1Cuadro 11.5: Tabla para diseños de tres factores con efectos aleatorios11.3.7. Diseño anidado de dos factores aleatoriosEn muchas situaciones experimentales los niveles o elementos observados de un factoraleatorio no pueden ser los mismos para cada nivel del factor aleatorio principal. Porejemplo, cuando queremos estudiar algún resultado académico y el factor principal sonlas diversas universidades, pero los resultados se observan en estudiantes de dichas uni-240


versidades como segundo factor aleatorio, entonces los estudiantes son necesariamentedistintos (ver figura 11.1). En estos casos no se pueden cruzar los factores y se debetrabajar con los llamados diseños jerarquizados o diseños anidados.Universidad 1Universidad 2 . . . Universidad aestudiante E11estudiante E12estudiante E13. . .estudiante E1n1estudiante E21estudiante E22estudiante E23. . .estudiante E2n2estudiante Ea1estudiante Ea2estudiante Ea3. . .estudiante EanaFigura 11.1: Niveles en un ejemplo de diseño de clasificación jerárquicaComo no hay cruces entre niveles de los factores, no puede haber interacciones y el modeloes el siguientey ijk = µ + A i + B j(i) + ɛ ijki = 1, . . . , a; j = 1, . . . , n i ; k = 1, . . . , rsiendo A i , B j(i) , y ɛ ijk variables aleatorias normales independientes con media cero yvarianza σA 2 , σ2 B y σ2 respectivamente. Así pues, la variabilidad de las observaciones esvar(y ijk ) = σ 2 y = σ 2 A + σ 2 B + σ 2Observemos que hemos señalado los diversos niveles del segundo factor con el subíndicej(i) para mostrar la jerarquía del primer factor. Como siempre se ha tomado el mismonúmero de réplicas r para cada situación j(i). También podemos simplificar mucho elmodelo si decidimos tomar el mismo número de niveles del segundo factor de forma quen 1 = · · · = n a = b. En este caso, incluso podemos disponer los datos en una tabla de dobleentrada. Pero no nos dejemos engañar, los elementos del segundo factor son distintos.La descomposición fundamental de la suma de cuadrados es∑ijk − ȳ)i,j,k(y 2 = ∑ i·· − ȳ)i,j,k(y 2 + ∑ ij· − y i··)i,j,k(y 2 + ∑ (y ijk − y ij·) 2i,j,k= br ∑ (y ijk − ȳ) 2 + r ∑ ∑(y ij· − y i··) 2 + ∑ (y ijk − y ij·) 2ii ji,j,klo que podemos escribir en la formaSC T = SC A + SC B|A + SCRAhora debemos hallar el valor esperado de cada una de las sumas de cuadrados. Tomandolas medias de las observaciones, tenemosy i·· = µ + A i + B·(i) + ɛ i··ȳ = µ + A· + B·(·) + ɛ···241


de modo quey i·· − ȳ = A i − A· + B·(i) − B·(·) + ɛ i·· − ɛ···Si elevamos al cuadrado, sumamos para todos los n = abr datos y tomamos esperanzas,resulta( ) ( ) ( )∑ ∑ ∑E(SC A ) = brE (A i − A·) 2 + brE (B·(i) − B·(·) ) 2 + brE (ɛ i·· − ɛ···) 2iiiya que las esperanzas de los dobles productos son cero porque las variables que intervienenson independientes de media cero.De manera que si dividimos por los grados de libertad a − 1 obtenemosE(CM A ) = E(SC A /(a − 1)) = brσ 2 A + rσ 2 B + σ 2ya que()1 ∑E(A i − A·) 2 = var(A i ) = σA2 a − 1i()1 ∑E(B·(i) − B·(·) ) 2 = var(B·(i) ) = σ2 Ba − 1bi()1 ∑E(ɛ i·· − ɛ···) 2 = var(ɛ i··) = σ2a − 1briDel mismo modo, podemos calcular la esperanza de la suma de cuadrados del factorjerarquizado, ya quey ij· − y i·· = B j(i) − B·(i) + ɛ ij· − ɛ i··y resultaE(CM B|A ) = rσ 2 B + σ 2En la tabla 11.6 se resume la información relevante para el Análisis de los Componentesde la Varianza de este modelo.Fuente de cuadrados Esperanza delvariación g.l. medios cuadrado medioA a − 1 CM A brσ 2 A + rσ2 B + σ2B|A a(b − 1) CM B|A rσ 2 B + σ2Residuo ab(r − 1) CM R σ 2Total abr − 1Cuadro 11.6: Tabla para el diseño anidado de dos factores con efectos aleatoriosA la vista de estos resultados, la hipótesis H0 A : σA 2 = 0 se puede contrastar con elestadístico CM A /CM B|A , ya que bajo la hipótesis, numerador y denominador tienen el242


mismo valor esperado. Del mismo modo, la hipótesis H0B : σB 2 = 0 se puede contrastarcon el estadístico CM B|A /CM R .En general estas hipótesis son rechazadas y las varianzas no son nulas. Entonces podemosestimar su valor con la resolución del sistemaCM A = brσ 2 A + rσ 2 B + σ 2CM B|A = rσ 2 B + σ 2CM R = σ 2de donde los estimadores insesgados propuestos sonˆσ 2 A = 1 br (CM A − CM B|A )ˆσ 2 B = 1 r (CM B|A − CM R )11.3.8. ResumenComo hemos visto con los diversos modelos estudiados en esta sección, el análisis deambos tipos de modelos, de efectos fijos o de efectos aleatorios, presenta una base comúncon planteamientos y interpretaciones diferentes.En resumen podemos destacar:1. La formulación del modelo es muy parecida, pero los efectos fijos que representanla respuesta media son parámetros a estimar, mientras que los efectos aleatoriosson variables aleatorias normales de media cero y varianzas a estimar. Esto significaque:a) Los efectos fijos son constantes y los efectos aleatorios son variables aleatorias.b) Los efectos fijos influyen en la respuesta media, mientras que los efectos aleatoriosinfluyen en la variabilidad.c) En los efectos aleatorios no tiene sentido imponer restricciones del tipo ∑ α i =0.d) Los niveles de un factor de efectos fijos se fijan arbitrariamente por el experimentador,mientras que los niveles de un factor aleatorio son una muestra alazar de una población.e) Para un factor de efectos fijos nuestro interés es estimar los parámetros ycontrastar su nulidad. Para un factor de efectos aleatorios nos proponemosestimar su varianza y contrastar si es nula.2. La descomposición de la varianza en sus fuentes de variabilidad, la tabla del Análisisde la Varianza y los contrastes son muy similares para ambos tipos de modelos.Especialmente cuando no hay interacción, en cuyo caso los contrastes son idénticos.Cuando hay interacción, en lugar de comparar los cuadrados medios del factorcon los cuadrados medios del error, se compara con los cuadrados medios de lainteracción.Observemos que la tabla del Análisis de la Varianza tiene formalmente la mismaapariencia, pero las esperanzas de los cuadrados medios son distintas (ver tabla11.4).243


3. En un modelo de efectos aleatorios el objetivo es contrastar si los efectos existen,a través de sus varianzas, y estimar dichas varianzas. No tiene sentido plantearsecontrastes múltiples como en el caso de los efectos fijos.Por último, debemos advertir que en todos los problemas se precisa una diagnosis delmodelo a través de los residuos como se ha visto en la sección 10.6.11.4. Correlación intraclásicaSea el modelo de un factor con efectos aleatoriosy ij = µ + A i + ɛ ij i = 1, . . . , k; j = 1, . . . , n 0donde var(A i ) = σ 2 A , var(ɛ ij) = σ 2 . Se llama correlación intraclásica al coeficiente decorrelación entre dos observaciones y ij , y ij ′ de un mismo grupo i.El coeficiente de correlación intraclásica viene dado porρ I =σ2 Aσ 2 A + σ2 0 ≤ ρ I ≤ 1En efectocov(y ij , y ij ′)ρ I (y ij , y ij ′) = √var(yij ) √ var(y ij ′)= E[(y ij − µ)(y ij ′ − µ)]σA 2 + σ2= E(A2 i + A i ɛ ij + A i ɛ ij ′ + ɛ ij ɛ ij ′)σ 2 A + σ2= E(A2 i )σ 2 A + σ2 =σ2 Aσ 2 A + σ2La correlación intraclásica nos expresa el porcentaje de la variabilidad entre grupos respectola variabilidad total y se utiliza para estudiar la dependencia entre los individuosde un mismo grupo respecto a una variable observable Y . Por ejemplo, es utilizado enGenética descomponiendo la variabilidad total σ 2 y (varianza de la componente genética)y σ 2 (varianza de la componente ambiental).Estimación y contraste de significaciónUna estimación adecuada de ρ I essiendor I =̂ρ I = max{0, r I }̂σ2 ÂσA 2 + = F − 1̂σ2 F + n 0 − 1donde F = CM A /CM R .Para ver si r I es significativo hemos de plantear el contraste de la hipótesis H 0 : ρ I = 0equivalente a H 0 : σA 2 = 0 que se resuelve mediante Análisis de la Varianza.244


Ejemplo 11.4.1En un estudio sobre los guisantes se tomaron 5 vainas, cada una de las cuales contenía 8guisantes. Los pesos en centigramos fueron1 44 41 42 40 48 46 46 422 43 46 48 42 50 45 45 49vaina 3 33 34 37 39 32 35 37 414 56 52 50 51 54 52 49 525 36 37 38 40 40 41 44 44Los datos se asimilan a un diseño de un factor de efectos aleatorios. Las sumas de cuadradosson (n 0 = 8)SC A = 1176,1SCR = 273,9con 4 g.l.con 35 g.l.y entoncesF = CM ACM R= 37,57El coeficiente de correlación intraclásica esya quêρ I = max{0, 0,8205} = 0,8205r I = F − 1F + n 0 − 1 = 36,5744,57 = 0,8205Realicemos el contraste de hipótesis para comprobar que es significativo. La hipótesisH 0 : ρ I = 0 equivale a plantear el contraste H 0 : σA 2 = 0, que se resuelve medianteAnálisis de la Varianza. Como F = 37,57 con 4 y 35 g.l. es muy significativa, aceptamosque es distinto de cero. La interpretación en este caso es la siguiente: aproximadamente el80 % de la variabilidad se explica por la componente genética, el resto es debido a factoresambientales.11.5. Ejemplos con REmpecemos con los datos del ejemplo 11.2.1. Observemos la definición del factor aleatoriocon la instrucción is.random que se aplica a factores o data.frame.> tiempo farmaco indiv is.random(indiv) frenada rm(tiempo,farmaco,indiv)> attach(frenada)En este caso no hay interacción entre el efecto individuo (bloque) y el efecto fármaco(tratamiento). Por ello los estadísticos F se calculan como en el Análisis de la Varianzacon efectos fijos.245


frenada.aov summary(frenada.aov)Df Sum of Sq Mean Sq F Value Pr(F)farmaco 2 27535.6 13767.79 5.14669 0.02110964indiv 7 258040.7 36862.95 13.78014 0.00002651Residuals 14 37451.1 2675.08La estimación de las varianzas y los coeficientes del modelo se consigue con varcom:> frenada.var summary(frenada.var)Call: varcomp(formula = tiempo ~ farmaco + indiv, data = frenada)Variance Estimates:Varianceindiv 11395.958Residuals 2675.077 Method: minque0Coefficients:(Intercept) farmaco1 farmaco2689.6667 6.375 23.66667Approximate Covariance Matrix of Coefficients:(Intercept) farmaco1 farmaco2(Intercept) 1535.956 0.000 0.000farmaco1 0.000 167.192 0.000farmaco2 0.000 0.000 55.731Con el ejemplo 11.4.1 procederemos de otra forma. En primer lugar, introducimos losdatos:> peso vaina estudio rm(peso,vaina)> attach(estudio)Pero ahora no hace falta definir el factor como de efectos aleatorios, ya que vamos autilizar la función raov, que supone que todos los factores son aleatorios.> estudio.raov summary(estudio.raov)Df Sum of Sq Mean Sq Est. Var.vaina 4 1176.100 294.025 35.775Residuals 35 273.875 7.825 7.825Para validar estos modelos realizaremos los cálculos y gráficos de los residuos de formaidéntica al caso de los factores fijos que hemos visto en el capítulo anterior.246


11.6. EjerciciosEjercicio 11.1Eligiendo 4 tardes al azar del verano, se midió la temperatura de un lago a diferentesprofundidades con los siguientes resultadosFechaProfundidad (m) 1 2 3 40 23,8 24,0 34,6 24,81 22,6 22,4 22,9 23,22 22,2 22,1 22,1 22,23 21,2 21,8 21,0 21,24 18,4 19,3 19,0 18,85 13,5 14,4 14,2 13,8Determinar si son factores de efectos fijos o de efectos aleatorios y si hay diferencias entreprofundidades y entre fechas.Ejercicio 11.2Para valorar la variabilidad del contenido de zumo de una cierta variedad de limón, setomaron 4 árboles al azar y se midió el contenido de zumo de 3 limones de cada árbol.Esta observación se hizo durante 5 días, eligiendo fechas al azar. Los resultados fueron(en cm 3 ):ÁrbolDía 1 2 3 41 24 26 26 28 20 27 28 18 21 27 24 202 18 25 19 21 24 23 27 19 17 25 23 223 16 21 15 24 20 21 22 25 24 29 27 274 21 24 22 23 20 26 24 24 23 20 21 275 23 24 28 27 21 28 26 25 27 25 27 28Estudiar si existe variabilidad entre árboles, entre días y entre las interacciones árboles× días.Ejercicio 11.3En una población, de entre las mujeres que habían concebido tres hijos varones, se seleccionaron5 al azar y se anotó el peso que registró cada hijo al nacer:1 3,250 3,125 3,4002 2,800 3,100 2,9003 3,400 3,500 3,3504 4,100 4,200 4,1505 2,900 2,750 2,800Calcular la correlación intraclásica y estudiar si es significativa.Ejercicio 11.4247


Se han obtenido réplicas de una variable observable y combinado dos factores A, B. Elnúmero de réplicas (“factor” R) por casilla es de tres. La descomposición de la suma decuadrados es la siguiente:Fuente variación g.l. Suma cuadradosA 3 420B 1 143AB 3 32R 2 109AR 6 197BR 2 39ABR 6 155Utilizando el nivel de significación 0,01, se pide:a) Suponiendo A, B factores de efectos fijos, estudiar si son significativos. Hallar tresestimaciones independientes de la varianza del diseño.b) Suponiendo A, B factores de efectos aleatorios, estudiar si A y la interacción A × Bson significativos.Ejercicio 11.5Consideremos de nuevo el enunciado del problema 10.4. Supongamos ahora que en el modelo10.27 las interacciones ω ir son nulas, A (año) es de efectos aleatorios y B (genotipo)es de efectos fijos. Estudiar si los efectos principales y las interacciones son significativas.Ejercicio 11.6Los resultados y ijh de un cierto experimento, donde i = 1, . . . , p; j = 1, . . . , q; h = 1, . . . , bcombinan dos factores X, Y , junto con un factor bloque B que no interacciona con X, Y .En este experimento las réplicas son bloques y el modelo esLa tabla de suma de cuadrados es:Se pide:y ijk = µ + X i + Y j + I ij + B h + ɛ ijhFuente variación g.l. Suma cuadradosX 2 625Y 3 1340B 4 402XY 6 227XB 8 289Y B 12 310XY B 24 528a) Suponiendo los efectos fijos, estudiar la significación de los efectos principales y lainteracción (nivel 0,05). Hallar dos estimadores insesgados de la varianza del modelo.b) Suponiendo todos los efectos aleatorios, y sabiendo que los valores esperados de loscuadrados medios son:E(CM X ) = rqσ 2 X + rσ 2 I + σ 2 E(CM Y ) = rpσ 2 Y + rσ 2 I + σ 2E(CM I ) = rσ 2 I + σ 2 E(CM B ) = pqσ 2 B + σ 2 E(CM R ) = σ 2248


Apéndice AMatricesA.1.Inversa generalizadaPara una matriz A (n × p), A − se llama una g-inversa o inversa generalizada de A siAA − A = AUna inversa generalizada siempre existe aunque en general no es única.Métodos de construcción(1) Utilizando la descomposición en valores singulares de la matriz A (n × p), tenemosA = ULV ′ . Luego es sencillo comprobar quedefine una g-inversa.A − = VL −1 U ′(2) Si rg(A) = r, una permutación de las filas y columnas de A (n × p) nos permitehallar una submatriz no singular A r (r × r). Entonces resulta que( ) AA − −1r 0=0 0es una g-inversa.(3) Si A (p × p) es no singular, entonces A − = A −1 y es única.(4) Si A (p×p) es simétrica de rg(A) = r, podemos escribir A = ΓΛΓ ′ , donde Γ (p×r)es la matriz cuyas columnas son los vectores propios ortonormales correspondientesa los vectores propios no nulos Λ = diag(λ 1 , . . . , λ r ) de A. Entonces se compruebaqueA − = ΓΛ −1 Γ ′Un caso especial de g-inversa es la llamada inversa de Moore-Penrose A + de A (n × p)que verificaAA + A = A A + AA + = A + A + A = (A + A) ′ AA + = (AA + ) ′La inversa de Moore-Penrose es única.249


A.2.Derivación matricialDefinimos la derivada de f(X) con respecto a X n × p como la matriz( )∂f(X) ∂f(X)∂X= .∂x ijEl cálculo matricial de derivadas tiene, entre otras, las siguientes propiedades:1. ∂a′ x∂x = a, ∂Ax∂x = A′2. ∂x′ x∂x = 2x, ∂x ′ Ax∂x= (A ′ + A)x,∂x ′ Ay∂x= AyA.3.Matrices idempotentesUna matriz P es idempotente si P 2 = P. Una matriz simétrica e idempotente se llamamatriz proyección.1. Si P es simétrica, entonces P es idempotente y rg(P) = r si y sólo si P tiene rvalores propios iguales a 1 y el resto son cero.Demostración:Como P 2 = P, entonces Px = λx con x ≠ 0 implica queλx = Px = P 2 x = P(Px) = P(λx) = λ(Px) = λ(λx) = λ 2 xde manera que λ 2 − λ = 0 ó λ(λ − 1) = 0.Luego los valores propios de P son la unidad tantas veces como indica el rango y elresto son cero, ya que la suma de los valores propios es el rango.Recíprocamente, si los valores propios son 0 y 1, entonces podemos pensar sinpérdida de generalidad que los primeros r son unos.Así, debe existir una matriz ortogonal T tal que P = TΛT ′ donde( )Ir 0Λ =0 0Luegoy rg(P) = r.P 2 = TΛT ′ TΛT ′ = TΛ 2 T ′ = TΛT ′ = P2. Si P es una matriz proyección, entonces tr(P) = rg(P).Demostración:Si rg(P) = r, entonces por el apartado anterior, P tiene r valores propios 1 y elresto son cero. De aquí que tr(P) = r.250


3. Si P es idempotente, también I − P lo es.Demostración:(I − P) 2 = I − 2P + P 2 = I − 2P + P = I − P.4. Las matrices proyección son semidefinidas positivas.Demostración:x ′ Px = x ′ P 2 x = (Px) ′ (Px) ≥ 0.A.4.Matrices mal condicionadasUn sistema determinado de ecuaciones lineales Bx = c se dice que está mal condicionado(ill-conditioned) si pequeños errores o variaciones en los elementos de B y c tienen ungran efecto en la solución exacta de x. Por ejemplo, la solución exacta del sistema esx = B −1 c, pero si B está cerca de la singularidad, es decir, pequeños cambios en suselementos pueden causar la singularidad, entonces el cálculo de la inversa de B puedeprovocar una gran diferencia con la solución exacta.En el caso de las ecuaciones normales la matriz B = X ′ X y el vector c = X ′ Y contienenerrores de redondeo, fruto del cálculo a partir de las matrices X y Y. Además, su almacenamientoen el ordenador también puede tener inconvenientes de precisión. Esto significaque si la matriz X está mal condicionada, es decir, pequeños cambios en los elementos deX pueden causar grandes cambios en (X ′ X) −1 y en ̂β = (X ′ X) −1 X ′ Y, entonces cualquiererror en la formación de X ′ X puede tener un efecto muy serio en la precisión y la estabilidadde la solución, que en este caso es la estimación de los parámetros. El problema dela mala condición es especialmente preocupante en la regresión polinómica (ver sección8.6).Una medida de la mala condición de una matriz de datos X es el número de condiciónκ[X] que se define como la razón entre el mayor y el menor valor singular no nulo de X.Los valores singulares de X son las raíces cuadradas positivas de los valores propios de lamatriz X ′ X. Entre las propiedades más notorias de κ[X] tenemos queκ[X ′ X] = (κ[X]) 2Por la definición κ > 1, por tanto X ′ X siempre está peor condicionada que X. Luego,a no ser que κ[X] sea un valor moderado, es mejor no calcular X ′ X en los métodos decomputación de las soluciones (ver capítulo 11 de Seber[65]).En la práctica, es muy común que una variable regresora esté altamente correlacionadacon una combinación lineal de las otras variables regresoras, de forma que las columnasde X estarán muy próximas a ser linealmente dependientes. Así X ′ X estará cerca de lasingularidad (o será singular), el menor valor propio será pequeño y κ[X] será grande (versección 8.5).251


Apéndice BProyecciones ortogonalesB.1.Descomposición ortogonal de vectores1. Dado Ω, un subespacio vectorial de E n (un espacio euclídeo n-dimensional), todovector y puede expresarse de forma única como y = u + v, donde u ∈ Ω y v ∈ Ω ⊥ .Demostración:Supongamos que hubiera dos descomposiciones y = u 1 + v 1 = u 2 + v 2 , entonces(u 1 − u 2 ) + (v 1 − v 2 ) = 0. Como u 1 − u 2 ∈ Ω, v 1 − v 2 ∈ Ω ⊥ y Ω ∩ Ω ⊥ = {0}, resultaque u 1 − u 2 = 0 y v 1 − v 2 = 0, es decir, u 1 = u 2 y v 1 = v 2 .2. Si la descomposición adopta la forma y = P Ω y + (I − P Ω )y, la matriz P Ω es única.Demostración:Si fueran dos las matrices P i i = 1, 2, entonces, como u es único para cada y,resulta que (P 1 − P 2 )y = 0 para todo y. Luego P 1 − P 2 = O.3. La matriz P Ω puede expresarse en la forma P Ω = TT ′ , donde las columnas de Tforman una base ortonormal de Ω.Demostración:Sea T = (α 1 , . . . , α r ), donde α 1 , . . . , α r es una base ortonormal de Ω y r es sudimensión. Podemos extender esta base hasta obtener una base ortonormal de todoE n , digamos α 1 , . . . , α r , α r+1 , . . . , α n . Entoncesn∑r∑n∑y = c i α i = c i α i + c i α i = u + vi=1i=1i=r+1donde u ∈ Ω y v ∈ Ω ⊥ . Pero α ′ iα i = δ ij de forma que α ′ iy = c i y podemos escribirr∑r∑u = c i α i = (α ′ iy)α i = (α 1 , . . . , α r )(α ′ 1y, . . . , α ′ ry) ′ = TT ′ yi=1i=1y por el apartado anterior P Ω = TT ′ .4. P Ω es simétrica e idempotente.Demostración:Dado que P Ω = TT ′ es obviamente simétrica yP 2 Ω = TT ′ TT ′ = TI r T ′ = TT ′ = P Ω252


5. El subespacio generado por las columnas de P Ω es 〈P Ω 〉 = Ω.Demostración:Es evidente que 〈P Ω 〉 ⊂ Ω, ya que P Ω es la proyección sobre Ω. Recíprocamente six ∈ Ω, entonces x = P Ω x ∈ 〈P Ω 〉. Luego los dos subespacios son el mismo.6. I n − P Ω representa la proyección ortogonal sobre Ω ⊥ .Demostración:A partir de la igualdad y = P Ω y + (I n − P Ω )y tenemos que v = (I n − P Ω )y. Losresultados anteriores se obtienen intercambiando los papeles de Ω y Ω ⊥ .7. Si P es una matriz cuadrada e idempotente, entonces P representa la proyecciónortogonal sobre 〈P〉.Demostración:Sea y = Py + (I n − P)y. Entonces (Py) ′ (I n − P)y = y ′ (P − P 2 )y = 0, de maneraque la descomposición da las componentes ortogonales de y. El resultado se obtieneal aplicar la propiedad B.1.5.8. Si Ω = 〈X〉, entoncesP Ω = X(X ′ X) − X ′donde (X ′ X) − es una inversa generalizada de X ′ X, es decir, si B = X ′ X, entoncesBB − B = B.Demostración:Las ecuaciones normales X ′ Xβ = X ′ Y se pueden escribir como Bβ = c, si c = X ′ Y.Entonces ̂β = B − c es una solución de dichas ecuaciones normales ya queB̂β = B(B − c) = BB − Bβ = Bβ = c.Por otra parte, si escribimos ̂θ = X̂β, tenemos Y = ̂θ + (Y − ̂θ) dondêθ ′ (Y − ̂θ) = ̂β ′ X ′ (Y − X̂β)= ̂β ′ (X ′ Y − X ′ X̂β) = 0Luego Y = ̂θ + (Y − ̂θ) es una descomposición ortogonal de Y tal que ̂θ ∈ 〈X〉y (Y − ̂θ) ⊥ 〈X〉. Como ̂θ = X̂β = XB − c = X(X ′ X) − X ′ Y tenemos que P Ω =X(X ′ X) − X ′ por la unicidad demostrada en (2).9. Cuando las columnas de la matriz X son linealmente independientes y el rg(X) esmáximo, resulta que P Ω = X(X ′ X) −1 X ′ .Demostración:Cuando el rg(X) es máximo, la matriz cuadrada X ′ X es inversible.253


B.2.Proyecciones en subespacios1. Dado ω ⊂ Ω, entonces P Ω P ω = P ω P Ω = P ω .Demostración:Como ω ⊂ Ω y ω = 〈P ω 〉 (por el punto B.1.5), tenemos que la proyección sobre Ωde las columnas de P ω son las propias columnas, es decir, P Ω P ω = P ω . El resultadocompleto se deduce porque P Ω y P ω son matrices simétricas.2. P Ω − P ω = P ω ⊥ ∩Ω.Demostración:Consideremos la descomposición P Ω y = P ω y + (P Ω − P ω )y. Como P Ω y y P ω ypertenecen a Ω resulta que (P Ω − P ω )y ∈ Ω. Así la ecuación anterior presenta ladescomposición ortogonal de Ω en ω y ω ⊥ ∩Ω ya que P ω (P Ω −P ω ) = O (por B.2.1).3. Si A ∗ es una matriz tal que ω = ker(A ∗ ) ∩ Ω, entonces ω ⊥ ∩ Ω = 〈P Ω A ′ ∗〉.Demostración:En primer lugar, observamos queya que (Ω 1 ∩ Ω 2 ) ⊥ = Ω ⊥ 1 + Ω ⊥ 2Si x ∈ {Ω ⊥ + 〈A ′ ∗〉} ∩ Ω, entoncesω ⊥ ∩ Ω = {Ω ∩ ker(A ∗ )} ⊥ ∩ Ω= {Ω ⊥ + 〈A ′ ∗〉} ∩ Ωy [ker(A ∗ )] ⊥ = 〈A ′ ∗〉.x = P Ω x = P Ω {(I n − P Ω )α + A ′ ∗β} = P Ω A ′ ∗β ∈ 〈P Ω A ′ ∗〉.Recíprocamente, si x ∈ 〈P Ω A ′ ∗〉, entonces x ∈ 〈P Ω 〉 = Ω. También para cualquierz ∈ ω, resulta x ′ z = β ′ A ∗ P Ω z = β ′ A ∗ z = 0, es decir, x ∈ ω ⊥ . Luego x ∈ ω ⊥ ∩ Ω.4. Si A ∗ (q ×n) tiene rg(A ∗ ) = q, entonces rg(P Ω A ′ ∗) = q si y sólo si 〈A ′ ∗〉∩Ω ⊥ = {0}.254


Apéndice CEstadística multivarianteC.1.Esperanza, varianza y covarianza1. Sean X e Y vectores aleatorios no necesariamente de la misma longitud.Definimos la matrizcov(X, Y) = (cov(X i , Y j ))y si X = Y escribimos var(X) = cov(X, X). Entonces se verifican las siguientespropiedades:(a) Si a es un vector constante de la misma dimensión que X, var(a+X) = var(X).(b) Si λ ∈ R, entonces var(λX) = λ 2 var(X).(c) Si A y B son matrices de constantes,cov(AX, BY) = Acov(X, Y)B ′(d) Para cualquier vector aleatorio X, Y, U, V y todo escalar a, b, c, d ∈ R,cov(aX + bY, cU + dV) =ac cov(X, U) + ad cov(X, V) + bc cov(Y, U) + bd cov(Y, V)2. Sea Y un vector aleatorio con esperanza E(Y) = µ y matriz de varianzas y covarianzasvar(Y) = V, entoncesdonde A es una matriz constante.Demostración:Es evidente quede modo queE(Y ′ AY) = tr(AV) + µ ′ Aµ(Y − µ) ′ A(Y − µ) = Y ′ AY − µ ′ AY − Y ′ Aµ + µ ′ AµE((Y − µ) ′ A(Y − µ)) = E(Y ′ AY) − µ ′ AE(Y) − E(Y ′ )Aµ + µ ′ Aµ= E(Y ′ AY) − µ ′ Aµ255


Por otra parte, sabemos que, para dos matrices C y D, la traza del producto verificatr(CD) = tr(DC) = ∑ i,jc ij d jiy por esotr(AV) = ∑ a ij cov(Y j , Y i ) = ∑ a ij E((Y j − µ j )(Y i − µ i ))i,ji,j( )∑= E (Y i − µ i )a ij (Y j − µ j ) = E((Y − µ) ′ A(Y − µ))i,jcon lo que obtenemos el resultado enunciado.C.2.Normal multivariante1. Cuando Y ∼ N n (µ, Σ), se verifica:(a) (Y − µ) ′ Σ −1 (Y − µ) ∼ χ 2 n(b) Para cualquier matriz C constante, CY ∼ N n (Cµ, CΣC ′ ).(c) Si consideramos una partición del vector Y en dos vectores Y 1 y Y 2 , éstos sonindependientes ssi cov(Y 1 , Y 2 ) = O.2. Sea Y ∼ N n (µ, σ 2 I). Sean U = AY, V = BY dos vectores aleatorios combinaciónde Y y sea A ∗ la matriz formada por las filas de A linealmente independientes. Sicov(U, V) = O, entonces(a) A ∗ Y es independiente de V ′ V.(b) U ′ U y V ′ V son independientes.3. Supongamos que Q 1 ∼ χ 2 r y Q 2 ∼ χ 2 s, con r > s. Si Q = Q 1 − Q 2 y Q 2 sonindependientes, entonces Q ∼ χ 2 r−s.256


Bibliografía[1] J. Alegre y J. Arcarons, Aplicaciones de Econometría. Textos Docents, Universitatde Barcelona, 1991.[2] D.A. Allen and F.B. Cady, Analyzing Experimental Data by Regression. Wadsworth,1982.[3] V.L. Anderson and R.A. McLean, Design of Experiments. Marcel Dekker, 1974.[4] D.F. Andrews et al., Robust Estimates of Location: Survey and Advances. PrincetonUniversity Press, 1972.[5] S.F. Arnold, The Theory of Linear Models and Multivariate Observations. Wiley,1981.[6] D.A. Belsley, E. Kuh and R.E. Welsch, Regression Diagnostics: Identifying InfluentialData and Sources of Collinearity. Wiley, 1980.[7] J. Bibby and H. Toutenberg, Prediction and Improved Estimation in Linear Models.Wiley, 1977.[8] D. Birkes and Y. Dodge, Alternative Methods of Regression. Wiley, 1993.[9] G.E.P. Box and N. Draper, Empirical Model Building and Response Surfaces. Wiley,1987.[10] G.E.P. Box, W. Hunter and J.S. Hunter, Estadística para Investigadores. Reverté,1988.[11] R.J. Brook and G.C. Arnold, Applied Regression Analysis and Experimental Design.Marcel Dekker, 1985.[12] R. Christensen, Plane Answers to Complex Questions. Springer-Verlag, 1987.[13] W.G. Cochran and G.M. Cox, Experimental Designs. Wiley, 2nd Edition, 1992.[14] R.D. Cook and S. Weisberg, Residuals and Influence in Regression. Chapman andHall, 1982.[15] R.D. Cook and S. Weisberg, Applied Regression Including Computing and Graphics.Wiley, 1999.[16] J.A. Cornell, Experiments with Mixtures: Designs, Models, and the Analysis of MixtureData. Wiley, 3rd Edition, 2002.[17] D.R. Cox, Planning of Experiments. Wiley, 1958.257


[18] C.M. Cuadras, “Sobre la comparació estadística de corbes experimentals”. Qüestiió,3(1), 1-10, 1979.[19] C.M. Cuadras, “Diseños no balanceados y con observaciones faltantes en MANOVA”,Actas XIII Reun.Anual S.Esp.Est.I.O.Inf., Valladolid, 1982.[20] C.M. Cuadras, Problemas de Probabilidades y Estadística. VOL. 2 Inferencia estadística.EUB, Barcelona 2000.[21] S. Chatterjee and B. Price, Regression Analysis by Example. Wiley, 3rd Edition,1999.[22] C. Daniel, Applications of Statistics to industrial experimentation. Wiley, 1976.[23] C. Daniel and F.S. Wood, Fitting Equations to Data. Wiley, 1980.[24] P.J. Dhrymes, Econometría. Editorial AC, Madrid, 1984.[25] Y. Dodge, Analysis of Experiments with missing data. Wiley, 1985.[26] H.E. Doran, Applied Regression Analysis in Econometrics. Marcel Dekker, 1989.[27] N.R. Draper and H. Smith, Applied Regression Analysis. Wiley, 3rd Edition, 1998.[28] R.A. Fisher, The Design of Experiments. Oliver Boyd, Edimburgo, 1953.[29] J. Fox, Linear Statistical Models & Related Methods. Wiley, 1984.[30] A.R. Gallant, Nonlinear Statistical Models. Wiley, 1987.[31] A.S. Goldberger, A Course in Econometrics. Harvard University Press, 1991.[32] F.A. Graybill, Theory and Application of the Linear Model. Wadsworth, 1976.[33] R.F. Gunst and R.L. Mason, Regression Analysis and its Aplication. Marcel Dekker,1980.[34] I. Guttman, Linear Models. Wiley, 1982.[35] W. Härdle, Applied Nonparametric Regression. Cambridge University Press, 1990.[36] H.O. Hartley, “Analysis of Variance”. Mathematical Methods for Digital Computers.A. Ralston and H. Wilf eds., Wiley, cap. 20, 1962.[37] C.R. Hicks, Fundamental Conceps in the Design of Experiments. Holt, Renehart andWinston, 1982.[38] K. Hinkelmann and O. Kempthorne, Design and Analysis of Experiments , Volume1, Introduction to Experimental Design. Wiley, 1994.[39] D.C. Hoaglin, F. Mosteller, and J.W. Tukey, Understanding Robust and ExploratoryData Analysis. Wiley, 1983.[40] R.R. Hocking, Methods and Applications of Linear Models: Regression and the Analysisof Variance. Wiley, 2nd Edition, 2003.258


[41] P.W.M. John, Statistical Design and Analysis of Experiments. Mc Millan, 1971.[42] J.A. John and M.H. Quenouille, Experiments: Design and Analysis. Charles Griffin,1977.[43] O. Kempthorne, The Design and Analysis of Experiments. Wiley, 1952.[44] M. Kendall, A. Stuart and J.K. Ord, The Avanced Teory of Statistics (vol. 3, Designand Analysis, and Time Series). Charles Griffin, 1983.[45] A. Kshirsagar, A Course on Linear Models. Marcel Dekker, 1983.[46] T.J. Lorenzen and V. L. Anderson, Design of Experiments. Marcel Dekker, 1993.[47] R.L. Mason, R.F. Gunst and J.L. Hess, Statistical Design and Analysis of Experiments:With Applications to Engineering and Science. Wiley, 2nd Edition, 2003.[48] P. McCullagh and J.A. Nelder, Generalized Linear Models. Chapman and Hall, 1989.[49] D.C. Montgomery, Design and Analysis of Experiments. Wiley, 1984.[50] D.C. Montgomery, E.A. Peck and G.G. Vining Introduction to Linear RegressionAnalysis. Wiley, 3rd Edition, 2001.[51] F. Mosteller and J.W. Tukey, Data Analysis and Regression. Addison-Wesley, 1977.[52] R.H. Myers, Clasical and Modern Regression with Application. Duxbury Press, 1986.[53] J. Neter, W. Wasserman and M.H. Kutner, Applied Linear Statistical Models. RichardD. Irwin, 1990.[54] D. Peña, Estadística: Modelos y métodos. 2. Modelos Lineales y Series Temporales.Alianza, 1993.[55] B.L. Raktoe et al., Factorial Designs. Wiley, 1981.[56] C.R. Rao, Linear Statistical Inference and its Applications. Wiley, 1973[57] C.R. Rao and H. Toutenburg, Linear Models. Springer Series in Statistics, 1995.[58] D.A. Ratkowsky, Non Linear Regression Modeling. Marcel Dekker, 1983.[59] P.J. Rousseeuw and A.M. Leroy, Robust Regression and Outlier Detection. Wiley,2003.[60] L. Ruiz-Maya, Métodos Estadísticos de Investigación. INE, Madrid, 1972.[61] T.P. Ryan, Modern Regression Methods. Wiley, 1996.[62] S.R. Searle, Linear Models. Wiley, 1971.[63] H. Scheffé, The Analysis of Variance. Wiley, 1959.[64] G.A.F. Seber and C.J. Wild, Nonlinear Regression, Wiley, 2003.[65] G.A.F. Seber and A.J. Lee, Linear Regression Analysis. Wiley, 2nd. Edition, 2003.259


[66] A. Sen and M. Srivastava, Regression Analysis. Springer-Verlag, 1990.[67] S.D. Silvey, “Multicollinearity and imprecise estimation”, J. R. Stat. Soc. B, 31,539-552, 1969.[68] S.D. Silvey, Optimal Design: An Introduction to the Teory for Parameter Estimation.Chapman and Hall, 1980.[69] M.D. Ugarte y A.F. Militino. Estadística Aplicada con S-Plus. Universidad Públicade Navarra, 2001.[70] H.D. Vinod and A. Ullah, Recent Advances in Regression Methods. Marcel Dekker,1981.[71] S. Weisber, Applied Linear Regression. Wiley, 2nd Edition, 1985.[72] B.J. Winer, Statistical Principes in Experimental Design. McGraw-Hill, 1970.[73] T.H. Wonnacott and R.J. Wonnacott, Regression: a second course in statistics. Wiley,1981260


Índice alfabéticoaleatorización, 180ampliar un modelocon una variable, 55con varias variables, 59análisis de los residuos, 165, 206bloque, 186BLUE, 43breakdown bound, 132coeficientede correlaciónmúltiple, 137muestral, 94poblacional, 101de determinación, 14, 95, 138ajustado, 139de regresión parcial, 136de robustez, 178componentes de la varianza, 220condiciones del modelo lineal, 14, 25contrastede coincidencia, 107, 110de concurrencia, 109, 112de igualdad de varianzas, 106, 114de incorrelación, 102de linealidad, 102de paralelismo, 107, 111, 156de significación de la regresión, 97,140de significación parcial, 142criterio C P de Mallows, 174cuadradogreco-latino, 201latino, 201Dfbetas, 172diseñoanidado, 241con efectos aleatorios, 220con efectos fijos, 220en bloques aleatorizados, 187factorial, 179jerarquizado, 241mixto, 220distancia de Cook, 172distancia de Mahalanobis, 166ecuaciones normales, 26efectosaleatorios, 220fijos, 220error cuadrático de validación, 168espacioerror, 44estimación, 44estadísticoF , 49t, 50estimaciónde la máxima verosimilitud, 33de varianza mínima, 33, 43insesgada, 32mínimo cuadrática, 26resistente, 123ridge, 64robusta, 123sesgada, 63extrapolación oculta, 140factor, 179aleatorio, 220de inflación de la varianza, 147fijo, 220función paramétrica, 41estimable, 41intervalo de confianza, 50Gauss-Markovcondiciones de, 14, 25teorema de, 43gráficode dispersión, 10de los residuos, 168–170261


PP-plot, 170QQ-plot, 170heterocedasticidad, 15hipótesis contrastable, 67homocedasticidad, 15, 25interacción, 187, 193, 221, 222intervalos simultáneos, 143leverage, 171mínimos cuadradosgeneralizados, 60método, 13, 26matrizde diseño, 23de rango no máximo, 36reducida, 34de rango máximo, 47de regresión, 23de varianzas y covarianzas, 255del modelo, 23inversa generalizada, 249proyección, 45, 250modelocentrado, 13de componentes de la varianza, 220lineal, 23lineal normal, 25multicolinealidad, 47, 147número de condición, 251nivelde significación, 74de un factor, 179de un punto, 171máximo, 25recta resistente, 123región de confianza, 100, 143regresiónparabólica, 11paso a paso, 175polinómica, 148simple, 13residuosatípicos, 167estandarizados, 166studentizados, 166studentizados externamente, 167ridge regression, 64selección de variables, 174sobreajuste, 139stepwise, 175suma de cuadradosforma canónica, 32residual, 27tabla del Análisis de la Varianza, 74, 183,190, 197teorema fundamental, 71tratamiento, 179variabilidadexperimental, 179explicada, 95, 138, 182no explicada, 95, 182total, 95, 138, 182varianza del modelo, 15estimación, 31intervalo de confianza, 50varianza residual, 31, 94polinomiosde Bernstein, 149de Tchebychev, 150ortogonales, 150principio de aleatorización, 180puntoatípico, 15de colapso, 132influyente, 15, 171réplica, 179rangodel diseño, 25262

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!