13.07.2015 Views

Bioestadística. Curso 2012-2013 Práctica: La recta de regresión

Bioestadística. Curso 2012-2013 Práctica: La recta de regresión

Bioestadística. Curso 2012-2013 Práctica: La recta de regresión

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Bioestadística</strong>. <strong>Curso</strong> <strong>2012</strong>-<strong>2013</strong><strong>Práctica</strong>: <strong>La</strong> <strong>recta</strong> <strong>de</strong> <strong>regresión</strong>Carmen M a Cadarso, M a <strong>de</strong>l Carmen Carollo, Xosé Luis Otero, Beatriz PateiroÍndice1. Introducción 22. El diagrama <strong>de</strong> dispersión 23. Covarianza 44. Coeciente <strong>de</strong> correlación lineal 55. El mo<strong>de</strong>lo <strong>de</strong> <strong>regresión</strong> lineal simple 61


<strong>Bioestadística</strong>. Grado en Medicina<strong>Práctica</strong>: <strong>La</strong> <strong>recta</strong> <strong>de</strong> <strong>regresión</strong>1 IntroducciónComo hemos visto a lo largo <strong>de</strong> las clases <strong>de</strong> teoría, hasta ahora nos hemos ocupado <strong>de</strong> la <strong>de</strong>scripción <strong>de</strong>variables estadísticas unidimensionales, es <strong>de</strong>cir, cada individuo <strong>de</strong> la muestra era <strong>de</strong>scrito <strong>de</strong> acuerdo a unaúnica característica. Sin embargo, lo habitual es que tendamos a consi<strong>de</strong>rar un conjunto amplio <strong>de</strong> característicaspara <strong>de</strong>scribir a cada uno <strong>de</strong> los individuos <strong>de</strong> la población, y que estas características puedan presentar relaciónentre ellas. Nos centraremos en el estudio <strong>de</strong> variables estadísticas bidimensionales, es <strong>de</strong>cir, tendremos doscaracterísticas por cada individuo. Representaremos por (X; Y ) la variable bidimensional estudiada, don<strong>de</strong> X eY son las variables unidimensionales correspondientes a las primera y segunda características, respectivamente,medidas para cada individuo. En el estudio <strong>de</strong> variables bidimensionales tiene mucho interés buscar posiblesrelaciones entre las variables X e Y . El tipo <strong>de</strong> relación más sencilla que se establece entre un par <strong>de</strong> variables esla relación lineal. Estudiaremos como analizar este tipo <strong>de</strong> relaciones con Statistix a través <strong>de</strong>l siguiente ejemplo.Ejemplo:EL Volumen Expiratorio Forzado (VEF) es una medida <strong>de</strong> la función pulmonar. Se cree que el VEFestá relacionado con la estatura. Nos interesa estudiar la variable bidimensional (X; Y ) siendo Xla estatura <strong>de</strong> niños <strong>de</strong> 10 a 15 años <strong>de</strong> edad e Y el VEF. A continuación se muestra la estatura(en cm.) y el VEF (en l.) <strong>de</strong> 12 niños en ese rango <strong>de</strong> edad:Estatura 134 138 142 146 150 154 158 162 166 170 174 178VEF 1.7 1.9 2.0 2.1 2.2 2.5 2.7 3.0 3.1 3.4 3.8 3.9En primer lugar, introduciremos los datos <strong>de</strong> las variables. Recuerda que para introducir datos <strong>de</strong>bes pulsar enel menú superior Data I Insert I Variables. Escribe en el cuadro <strong>de</strong> diálogo el nombre <strong>de</strong> las variables quequieres crear (Figura 1) y pulsa Ok.Figura 1: Cuadro <strong>de</strong> diálogo para introducir variables en Statistix2 El diagrama <strong>de</strong> dispersión<strong>La</strong> representación gráca más útil <strong>de</strong> dos variables continuas es el diagrama <strong>de</strong> dispersión. Consiste en representaren un eje <strong>de</strong> coor<strong>de</strong>nadas los pares <strong>de</strong> observaciones (x i ; y i ). <strong>La</strong> nube así dibujada (nube <strong>de</strong> puntos)reeja la posible relación entre las variables. Realizaremos a continuación un gráco <strong>de</strong> dispersión para nuestrosdatos en el que representaremos la variable Estatura en el eje X y la variable VEF en el eje Y. Debes pulsar enel menú superior Statistics I Summary Statistics I Scatter Plot..., como se muestra en la Figura 2.Carmen M a Cadarso, M a <strong>de</strong>l Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 2 <strong>de</strong> 9


<strong>Bioestadística</strong>. Grado en Medicina<strong>Práctica</strong>: <strong>La</strong> <strong>recta</strong> <strong>de</strong> <strong>regresión</strong>Figura 2: Cuadro <strong>de</strong> diálogo para realizar un gráco <strong>de</strong> dispersiónObtenemos así el diagrama <strong>de</strong> dispersión <strong>de</strong> la Figura 3. A partir <strong>de</strong> la gráca se observa que parece existir unaclara relación lineal entre ambas variables, <strong>de</strong> manera que a medida que aumenta la estatura, también aumentael VEF y a<strong>de</strong>más lo hace <strong>de</strong> forma lineal.Figura 3: Diagrama <strong>de</strong> dispersión para los datos <strong>de</strong> Estatura y VEFCarmen M a Cadarso, M a <strong>de</strong>l Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 3 <strong>de</strong> 9


<strong>Bioestadística</strong>. Grado en Medicina<strong>Práctica</strong>: <strong>La</strong> <strong>recta</strong> <strong>de</strong> <strong>regresión</strong>3 CovarianzaRecuerda que Statistix nos permitía calcular di<strong>recta</strong>mente medidas características <strong>de</strong> posición, dispersión y formaa través <strong>de</strong>l menú Statistics I Summary Statistics I Descriptive Statistics... Por ejemplo, calculamos acontinuación (Figura 4) la media, varianza y <strong>de</strong>sviación típica <strong>de</strong> Estatura y VEF. Obtenemos los siguientesresultados:Descriptive StatisticsVariable Mean SD VarianceEstatura 156.00 14.422 208.00VEF 2.6917 0.7489 0.5608Figura 4: Cuadro <strong>de</strong> diálogo para calcular medidas características <strong>de</strong> variables individualesHemos visto que en el contexto bidimensional surgen nuevas medidas que nos permiten cuanticar la dispersiónconjunta <strong>de</strong> dos variables estadísticas. Consi<strong>de</strong>remos una muestra <strong>de</strong> n observaciones <strong>de</strong> una variablebidimensional cuantitativa (X; Y ). Se <strong>de</strong>ne la covarianza entre X e Y (que se <strong>de</strong>nota por s xy ) como:Cov(X; Y ) = s xy = 1n 1n∑(x i x )(y i y ):i=1<strong>La</strong> covarianza pue<strong>de</strong> interpretarse como una medida <strong>de</strong> relación lineal entre las variables X e Y . En Statistixcalcularemos la covarianza entre dos variables a través <strong>de</strong>l menú Statistics I Linear Mo<strong>de</strong>ls I Variance-Covariance... (ver Figura 5). Obtenemos los siguientes resultados:Variance - Covariance MatrixEstatura VEFEstatura 208.000VEF 10.6727 0.56083Cases Inclu<strong>de</strong>d 12 Missing Cases 0<strong>La</strong> varianza <strong>de</strong> la Estatura es 208 cm 2 , la varianza <strong>de</strong>l VEF es 0.56083 l 2 y la covarianza entre estatura y VEFes 10.6727 cm¡l.Carmen M a Cadarso, M a <strong>de</strong>l Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 4 <strong>de</strong> 9


<strong>Bioestadística</strong>. Grado en Medicina<strong>Práctica</strong>: <strong>La</strong> <strong>recta</strong> <strong>de</strong> <strong>regresión</strong>Figura 5: Cuadro <strong>de</strong> diálogo para el cálculo <strong>de</strong> la covarianza4 Coeciente <strong>de</strong> correlación linealObserva que la covarianza <strong>de</strong>pen<strong>de</strong> <strong>de</strong> las unida<strong>de</strong>s <strong>de</strong> medida <strong>de</strong> las variables. El coeciente <strong>de</strong> correlaciónlineal se calcula dividiendo la covarianza entre el producto <strong>de</strong> las <strong>de</strong>sviaciones típicas <strong>de</strong> ambas variables.r xy =s xys x s y:En Statistix calcularemos el coeciente <strong>de</strong> correlación lineal a través <strong>de</strong>l menú Statistics I Linear Mo<strong>de</strong>ls ICorrelations (Pearson)... (ver Figura 6). Obtenemos el siguiente resultado:Correlations (Pearson)EstaturaVEF 0,9882Cases Inclu<strong>de</strong>d 12 Missing Cases 0Por lo tanto, el coeciente <strong>de</strong> correlación lineal será r xyindica que la relación entre ambas variables es di<strong>recta</strong>.= 0:9882. <strong>La</strong> correlación es próxima a 1, lo que nosCarmen M a Cadarso, M a <strong>de</strong>l Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 5 <strong>de</strong> 9


<strong>Bioestadística</strong>. Grado en Medicina<strong>Práctica</strong>: <strong>La</strong> <strong>recta</strong> <strong>de</strong> <strong>regresión</strong>Figura 6: Cuadro <strong>de</strong> diálogo para el cálculo <strong>de</strong>l coeciente <strong>de</strong> correlación lineal5 El mo<strong>de</strong>lo <strong>de</strong> <strong>regresión</strong> lineal simpleEl mo<strong>de</strong>lo <strong>de</strong> <strong>regresión</strong> lineal simple establece que la relación entre la variable <strong>de</strong>pendiente ( Y ) y la variablein<strong>de</strong>pendiente (X) es <strong>de</strong> la forma:Y = 0 + 1X + ":Dada una muestra (x1,y1),. . . ,(x n ,y n ), el objetivo es <strong>de</strong>terminar los valores <strong>de</strong> los parámetros <strong>de</strong>sconocidos 0y 1 (mediante estimadores ^0 y ^1) <strong>de</strong> manera que la <strong>recta</strong> <strong>de</strong> <strong>regresión</strong> <strong>de</strong>nida Y = ^0 + ^1X ajuste <strong>de</strong>la mejor forma posible a los datos. Los valores <strong>de</strong> los parámetros obtenidos mediante el método <strong>de</strong> mínimoscuadrados son:^1 = s xys 2 xque serán llamados coecientes <strong>de</strong> la <strong>regresión</strong>.; ^0 = y ^1xCalcularemos la <strong>recta</strong> <strong>de</strong> <strong>regresión</strong> en Statistix a través <strong>de</strong>l menú Statistics I Linear Mo<strong>de</strong>ls I LinearRegression... Recuerda que en un mo<strong>de</strong>lo <strong>de</strong> <strong>regresión</strong> lineal Y = 0 +1X +, la variable Y recibe el nombre <strong>de</strong>variable <strong>de</strong>pendiente, respuesta o explicada. <strong>La</strong> variable X recibe el nombre <strong>de</strong> variable in<strong>de</strong>pendiente, regresorao explicativa. En nuestro caso, preten<strong>de</strong>mos explicar el VEF en función <strong>de</strong> la Estatura, por lo tanto la variable<strong>de</strong>pendiente Y será el VEF y la variable in<strong>de</strong>pendiente o explicativa X será la Estatura (ver Figura 7).Carmen M a Cadarso, M a <strong>de</strong>l Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 6 <strong>de</strong> 9


<strong>Bioestadística</strong>. Grado en Medicina<strong>Práctica</strong>: <strong>La</strong> <strong>recta</strong> <strong>de</strong> <strong>regresión</strong>Figura 7: Cuadro <strong>de</strong> diálogo para el cálculo <strong>de</strong> la <strong>recta</strong> <strong>de</strong> <strong>regresión</strong>Least Squares Linear Regression of VEFPredictorVariables Coefficient Std Error T PConstant -5.31288 0.39457 -13,46 0,0000Estatura 0.05131 0.00252 20,37 0,0000R-Squared 0,9765 Resid. Mean Square (MSE) 0.01452Adjusted R-Squared 0,9741 Standard Deviation 0.12051AICc -43.972PRESS 0.2217Source DF SS MS F PRegression 1 6.02393 6.02393 414,78 0,0000Residual 10 0.14523 0.01452Total 11 6.16917Cases Inclu<strong>de</strong>d 12 Missing Cases 0Carmen M a Cadarso, M a <strong>de</strong>l Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 7 <strong>de</strong> 9


<strong>Bioestadística</strong>. Grado en Medicina<strong>Práctica</strong>: <strong>La</strong> <strong>recta</strong> <strong>de</strong> <strong>regresión</strong>Coecientes <strong>de</strong> la <strong>recta</strong> <strong>de</strong> <strong>regresión</strong>. Obtenemos en la primera columna <strong>de</strong> esta tabla (Coefficient)las estimaciones <strong>de</strong> los coecientes <strong>de</strong>l mo<strong>de</strong>lo. En el ejemplo, ^0 = 5:31288 (constante) y ^1 = 0:05131(pendiente). Por lo tanto, la <strong>recta</strong> ajustada será: Y = 5:31288 + 0:05131X.Contrastes sobre los parámetros <strong>de</strong>l mo<strong>de</strong>lo. <strong>La</strong>s dos últimas columnas <strong>de</strong> la tabla <strong>de</strong> coecientes (T, P) nosproporcionan información para realizar los contrastes que nos permiten comprobar si los coecientes <strong>de</strong>l mo<strong>de</strong>loson signicativos (si son distintos <strong>de</strong> cero). Si escribimos el mo<strong>de</strong>lo como Y = 0 + 1X + ", los contrastes seplantean <strong>de</strong> la siguiente forma:Para la constante: {H0 : 0 = 0H1 : 0 6= 0Para la pendiente: {H0 : 1 = 0H1 : 1 6= 0Estos contrastes son importantes, porque en caso <strong>de</strong> no rechazar alguna <strong>de</strong> las hipótesis nulas ( 0 = 0 o1 = 0), podríamos prescindir <strong>de</strong> alguno <strong>de</strong> los coecientes <strong>de</strong>l mo<strong>de</strong>lo y así simplicarlo. En el ejemplo el valor<strong>de</strong>l estadístico para el contraste sobre la constante <strong>de</strong>l mo<strong>de</strong>lo es T = 13; 46, con un p-valor igual a 0, loque nos lleva a rechazar la hipótesis nula H0. Es <strong>de</strong>cir, la constante <strong>de</strong> la <strong>recta</strong> es signicativamente distinta <strong>de</strong>cero. Por otra parte, el valor <strong>de</strong>l estadístico para el contraste sobre la pendiente es T = 20; 37, con un p-valorigual a 0. Por lo tanto, también rechazamos la hipótesis nula H0 y concluimos que la pendiente <strong>de</strong> la <strong>recta</strong> essignicativamente distinta <strong>de</strong> cero. Ambos coecientes son signicativos.Coeciente <strong>de</strong> <strong>de</strong>terminación. Una vez resuelto el problema <strong>de</strong> estimar los parámetros surge la pregunta <strong>de</strong> sila <strong>recta</strong> estimada es o no representativa para los datos. Esto se resuelve mediante el coeciente <strong>de</strong> <strong>de</strong>terminaciónR 2 . En el ejemplo, el coeciente <strong>de</strong> <strong>de</strong>terminación (R-Squared) es R 2 = 0; 9765.Descomposición <strong>de</strong> la variabilidad. Los métodos <strong>de</strong> <strong>regresión</strong> preten<strong>de</strong>n darnos una explicación <strong>de</strong> cómo lavariable respuesta, Y , se comporta <strong>de</strong> distinta manera en función <strong>de</strong>l valor que tome la variable explicativa, X.En consecuencia, parte <strong>de</strong> la variabilidad <strong>de</strong> Y quedaría justicada por la inuencia <strong>de</strong> la variable X, mientrasque otra parte sería fruto <strong>de</strong>l error <strong>de</strong>l mo<strong>de</strong>lo.<strong>La</strong> variabilidad <strong>de</strong> toda la muestra la <strong>de</strong>nominamos variabilidad total (VT) o suma total <strong>de</strong> cuadrados y se<strong>de</strong>scompone en dos sumandos:VT = VE + VNE:<strong>La</strong> variabilidad explicada (VE) sirve como medición <strong>de</strong> la variabilidad que po<strong>de</strong>mos explicar en base al mo<strong>de</strong>lo <strong>de</strong><strong>regresión</strong>. <strong>La</strong> variabilidad no explicada (VNE) se interpreta como variabilidad residual. En Statistix, la <strong>de</strong>composición<strong>de</strong> la variabilidad se muestra en la columna SS (sum of squares). Para los datos <strong>de</strong>l ejemplo tenemosVT=6.16917, VE=6.02393 y VNE=0.14523. Efectivamente, se cumple que VT = VE + VNE:Recuerda que a<strong>de</strong>más el coeciente <strong>de</strong> <strong>de</strong>terminación se <strong>de</strong>nía como la proporción <strong>de</strong> variabilidad <strong>de</strong> la variable<strong>de</strong>pendiente que es explicada por la <strong>regresión</strong>. EfectivamenteR 2 = VEVT = 6:023936:16917 = 0:9765:También pue<strong>de</strong>s comprobar que en el mo<strong>de</strong>lo <strong>de</strong> <strong>regresión</strong> lineal simple, el coeciente <strong>de</strong> <strong>de</strong>terminación coinci<strong>de</strong>con el cuadrado <strong>de</strong>l coeciente <strong>de</strong> correlación, es <strong>de</strong>cir R 2 = r 2 xy .Carmen M a Cadarso, M a <strong>de</strong>l Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 8 <strong>de</strong> 9


<strong>Bioestadística</strong>. Grado en Medicina<strong>Práctica</strong>: <strong>La</strong> <strong>recta</strong> <strong>de</strong> <strong>regresión</strong>El contraste <strong>de</strong> <strong>regresión</strong>. En la misma tabla <strong>de</strong> la <strong>de</strong>scomposición <strong>de</strong> la variabilidad Statistix también nos dael resultado <strong>de</strong>l contraste ANOVA. Esta prueba <strong>de</strong>termina si el mo<strong>de</strong>lo <strong>de</strong> <strong>regresión</strong> aporta información sobre lavariable respuesta. El test es muy útil cuando trabajamos con mo<strong>de</strong>los más generales que el <strong>de</strong> <strong>regresión</strong> linealsimple. En nuestro caso contrasta si la pendiente es signicativa (distinta <strong>de</strong> cero).{H0 : 1 = 0H1 : 1 6= 0En el ejemplo el valor <strong>de</strong>l estadístico <strong>de</strong>l contraste es F = 414:78, con un p-valor igual a 0, lo que nos llevaa rechazar la hipótesis nula H0. Es <strong>de</strong>cir, la pendiente <strong>de</strong> la <strong>recta</strong> es signicativamente distinta <strong>de</strong> cero (es lamisma conclusión que en el contraste correspondiente sobre los parámetros <strong>de</strong>l mo<strong>de</strong>lo).Representación <strong>de</strong> la <strong>recta</strong> <strong>de</strong> <strong>regresión</strong>. Por último, representaremos la <strong>recta</strong> <strong>de</strong> <strong>regresión</strong> estimada. Paraello volvemos al menú <strong>de</strong>s<strong>de</strong> el que realizamos el gráco <strong>de</strong> dispersión (Statistics I Summary Statistics IScatter Plot...). En el cuadro <strong>de</strong> diálogo <strong>de</strong>bes seleccionar en la opción Fitted Curve I Linear Regression(Figura 8). Obtendremos así una gráca como la <strong>de</strong> la Figura 9.Figura 8: Cuadro <strong>de</strong> diálogo para representar la <strong>recta</strong> <strong>de</strong> <strong>regresión</strong>Figura 9: Recta <strong>de</strong> <strong>regresión</strong> para los datos <strong>de</strong> Estatura y VEFCarmen M a Cadarso, M a <strong>de</strong>l Carmen Carollo, Xosé Luis Otero, Beatriz Pateiro Página 9 <strong>de</strong> 9

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!