12.07.2015 Views

Un método de remuestreo para la regresión lineal simple

Un método de remuestreo para la regresión lineal simple

Un método de remuestreo para la regresión lineal simple

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Un</strong> <strong>método</strong> <strong>de</strong> <strong>remuestreo</strong> <strong>para</strong> <strong>la</strong> <strong>regresión</strong> <strong>lineal</strong><strong>simple</strong>Supongamos que tenemos el mo<strong>de</strong>lo <strong>de</strong> <strong>regresión</strong> <strong>lineal</strong> <strong>simple</strong> (con diseño jo)Y i = β 0 + β 1 x i + ε i , i = 1, . . . , n,don<strong>de</strong> ε i son variables aleatorias in<strong>de</strong>pendientes con media cero y varianza σ 2 .Dado un conjunto <strong>de</strong> observaciones (x 1 , y 1 ), . . . , (x n , y n ) los estimadores <strong>de</strong> mínimoscuadrados <strong>de</strong> β 0 y β 1 vienen dados por <strong>la</strong>s fórmu<strong>la</strong>sˆβ 1 =∑ ni=1 (x i − x)y iSS x, ˆβ0 = y − ˆβ 1 x,don<strong>de</strong> SS x = ∑ ni=1 (x i−x) 2 . Recor<strong>de</strong>mos que σ 2 se estima insesgadamente mediantedon<strong>de</strong>son los residuos ys 2 = 1n − 2n∑e 2 i , i = 1, . . . , n,i=1e i = y i − ˆµ i , i = 1, . . . , nˆµ i = ˆβ 0 + ˆβ 1 x i , i = 1, . . . , n,es <strong>la</strong> estimación <strong>de</strong> µ i = β 0 + β 1 x i . Es conocido queE( ˆβ 1 ) = β 1 , V ar( ˆβ 1 ) = σ2SS x.Si los errores siguen una distribución normal entoncesT = ˆβ 1 − β 1ˆσ( ˆβ 1 ) ,sigue una distribución t <strong>de</strong> Stu<strong>de</strong>nt con n − 2 grados <strong>de</strong> libertad, siendoˆσ 2 ( ˆβ 1 ) =s2SS x.Así el intervalo <strong>de</strong> conanza <strong>para</strong> β 1 <strong>de</strong> nivel (1 − α) vendría dado por[ ˆβ 1 − c uˆσ ˆβ1, ˆβ 1 − c lˆσ ˆβ1],


don<strong>de</strong>P (c l = −t n−2,α/2 ≤ T n−2 ≤ c u = t n−2,α/2 ) = 1 − α.Si <strong>la</strong> hipótesis <strong>de</strong> normalidad no es cierta los valores <strong>de</strong> c l y c u pue<strong>de</strong>n ser diferentes<strong>de</strong> los valores críticos <strong>de</strong> una t <strong>de</strong> Stu<strong>de</strong>nt. Por supuesto, por el teorema central<strong>de</strong>l límite, esto no ocurrirá si <strong>la</strong> muestra es gran<strong>de</strong>. Sin embargo, <strong>para</strong> muestraspequeñas y con errores c<strong>la</strong>ramente no normales el intervalo anterior pue<strong>de</strong> no sera<strong>de</strong>cuado. En esta situación pue<strong>de</strong> ser útil utilizar el bootstrap <strong>para</strong> aproximar <strong>la</strong>distribución <strong>de</strong> T . ¾Cómo po<strong>de</strong>mos generar <strong>la</strong> muestra bootstrap? <strong>Un</strong>a primerai<strong>de</strong>a, si los errores ε i siguen una distribución normal, sería seleccionar los erroresbootstrap ε ∗ 1, . . . , ε ∗ n aleatoriamente según una N(0, s 2 ) y generar yi∗ mediante <strong>la</strong>fórmu<strong>la</strong>yi ∗ = ˆβ 0 + ˆβ 1 x i + ε ∗ i , i = 1, . . . , n.Esta i<strong>de</strong>a se pue<strong>de</strong> seguir usando en un contexto no <strong>para</strong>métrico. Para ello necesitamostener una buena aproximación <strong>de</strong> <strong>la</strong> distribución <strong>de</strong> los errores. Los valores<strong>de</strong> los residuos {e 1 , . . . , e n } nos dan una i<strong>de</strong>a <strong>de</strong> esa distribución. Sin embargo, sudistribución no es <strong>de</strong>l todo el a <strong>la</strong> <strong>de</strong> los errores originales ya que, por ejemplo, suvarianza no es constante. Se tiene quedon<strong>de</strong>,V ar(e i ) = σ 2 (1 − h i ),h i = 1 n + (x i − x) 2SS x, i = 1, . . . , n.Para corregir este problema se construyen los residuos modicadosr i =e i, i = 1, . . . , n.(1 − h i ) 1 2Estos residuos ya tienen varianza constante σ 2 , como los errores ε i . Sin embargono tienen media cero. Por ello los errores bootstrap se escogen al azar <strong>de</strong>l conjunto{r 1 − r, . . . , r n − r}. El p<strong>la</strong>n <strong>de</strong> <strong>remuestreo</strong> bootstrap <strong>para</strong> construir un intervalo<strong>de</strong> conanza <strong>para</strong> β 1 sería el siguiente:1. Para i = 1, . . . , na) Poner x ∗ i = x i .b) Seleccionar al azar ε ∗ i <strong>de</strong>l conjunto {r 1 − r, . . . , r n − r}.c) Hacer y ∗ i = ˆβ 0 + ˆβ 1 x i + ε ∗ i2. Estimar ˆβ ∗ 0, ˆβ ∗ 1 y los residuos e ∗ 1, . . . , e ∗ n a partir <strong>de</strong> (x ∗ 1, y ∗ 1), . . . , (x ∗ n, y ∗ n)


3. Evaluar T ∗ en <strong>la</strong> muestra bootstrap. Para cada muestra boostrap se obtienet ∗ = ˆβ ∗ 1 − ˆβ 1ˆσ( ˆβ ∗ 1) ,don<strong>de</strong>ˆσ 2 ( ˆβ ∗ 1) = s∗2SS x, s ∗2 = 1n − 2n∑i=1e ∗2i ,4. Repetir los pasos anteriores B veces obteniendo t ∗ 1, . . . , t ∗ B5. Or<strong>de</strong>nar <strong>de</strong> menor a mayor los valores calcu<strong>la</strong>dos <strong>de</strong> T ∗ y tomar el valor queocupa <strong>la</strong> posición α/2 ∗ B, c ∗ l , y el que ocupa <strong>la</strong> posición (1 − α/2) ∗ B, c∗ u.El intervalo bootstrap <strong>para</strong> β 1 <strong>de</strong> nivel (1 − α) es[ˆβ1 − c ∗ uˆσ( ˆβ 1 ), ˆβ 1 − c ∗ l ˆσ( ˆβ 1 )]Ejercicio: Comprueba el funcionamiento <strong>de</strong>l <strong>método</strong> anterior. Para ello toma comovalores <strong>de</strong> x 15 puntos equiespaciados en el intervalo [0, 1], x = 0, 1/15, 2/17, . . . ,.Supongamos a<strong>de</strong>más que los errores <strong>de</strong> medida, ε i , siguen una distribución t <strong>de</strong>Stu<strong>de</strong>nt con 3 grados <strong>de</strong> libertad.1. Genera el mo<strong>de</strong>locon β 0 = β 1 = 1.Y i = β 0 + β 1 x i + ε i , i = 1, . . . , 15,2. Calcu<strong>la</strong> el intervalo bootstrap <strong>para</strong> β 1 . Toma B = 500 y α = 0,053. Comprueba si β 1 está en el intervalo construido.4. Repite los pasos anteriores M = 500 veces. Calcu<strong>la</strong> el porcentaje <strong>de</strong> veces enque β 1 está en el intervalo bootstrap. Este porcentaje <strong>de</strong>bería estar próximoal 95 %5. Con <strong>la</strong>s mismas M muestras generadas anteriormente, calcu<strong>la</strong> el porcentaje<strong>de</strong> veces que β 1 está contenido en el intervalo construido suponiendo que loserrores son normales. ¾Qué <strong>método</strong> da mejores aproximaciones <strong>de</strong>l nivel <strong>de</strong>conanza?6. Realiza <strong>la</strong> misma com<strong>para</strong>ción cuando los errores siguen una distribuciónnormal <strong>de</strong> media cero y σ 2 = 3.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!