12.07.2015 Views

Introducción al pensamiento Bayesiano

Introducción al pensamiento Bayesiano

Introducción al pensamiento Bayesiano

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Introducción <strong>al</strong> <strong>pensamiento</strong> <strong>Bayesiano</strong>IntroducciónEn este capítulo se introducen los elementos básicos del proceso inferenci<strong>al</strong> <strong>Bayesiano</strong> usandoun problema de aprendizaje sobre una proporción poblacion<strong>al</strong>. Antes de observar la data, sedispone de cierta información o conocimiento del v<strong>al</strong>or de esta proporción y sobre elcorrespondiente modelo de probabilidad en términos de una distribución a priori. Luego que ladata ha sido observada, se puede actu<strong>al</strong>izar la información o conocimiento sobre esta proporciónc<strong>al</strong>culando la distribución posterior. El cálculo de las medidas de resumen para esta distribuciónde probabilidad posterior permite re<strong>al</strong>izar el proceso de inferencia. También podría ser de interéspredecir el v<strong>al</strong>or con mayor probabilidad de ser observado en una nueva muestra.Proporción de heavy sleepersSuponga que una persona esta interesada en estudiar los hábitos de sueño de los estudiantesuniversitarios. Se sabe que los doctores recomiendan ocho horas de sueño para un adulto. ¿Quéproporción de los estudiantes duermen como mínimo estas ocho horas recomendadas?Sea p la proporción de estudiantes universitarios que duermen <strong>al</strong> menos ocho horas. El interésrecae en conocer el v<strong>al</strong>or aproximado para esta proporción. Desde el punto de vista <strong>Bayesiano</strong> elconocimiento de la incertidumbre sobre esta proporción esta representada por una distribución deprobabilidad. Esta distribución refleja la opinión a priori subjetiva acerca de los v<strong>al</strong>ores posiblesde p.Antes de elegir una muestra de estudiantes universitarios se debe re<strong>al</strong>izar un estudio preliminarpara conocer los hábitos de sueño de estos estudiantes. Este estudio será útil para construir ladistribución a priori.En un artículo de internet “College Student Don’t Get Enough Sleep (2004)” se reporta que lamayoría de los estudiantes universitarios duermen solamente seis horas. Un segundo artículo“Sleep on It: Implementing a Relaxation Program into the College Curriculum (2003)” basado enuna muestra de 100 estudiantes concluyo que aproximadamente el 70% duerme de 5 a 6 horasdurante la semana, 28% de 7 a 8 horas y solo el 2% duerme 9 horas.


Basados en la información anterior se puede considerar que los estudiantes universitariosduermen menos de ocho horas y además es muy probable que p sea menor de 0.5. Luego de <strong>al</strong>gode reflexión se podría considerar que p es aproximadamente 0.3, sin embargo es posible que suv<strong>al</strong>or se encuentre en el interv<strong>al</strong>o que va de 0 a 0.5.Se elige una muestra <strong>al</strong> azar de 27 estudiantes de los cu<strong>al</strong>es 11 durmieron <strong>al</strong> menos 8 horas lanoche anterior. Basados en la información a priori y en la data observada se desea estimar elv<strong>al</strong>or de p y además predecir el número de estudiantes que duermen <strong>al</strong> menos ocho horas en unanueva muestra de 20 estudiantes.Suponga que la distribución a prior se denota por f(p). Si se considera que un éxito consiste entener un estudiante que duerme <strong>al</strong> menos 8 horas y se elige una muestra en la que se observan xéxitos y n – x fracasos, entonces la función de verosimilitud es:x | data 1n xL p p p La distribución posterior para p se obtiene, en términos proporcion<strong>al</strong>es, usando la regla de Bayesmultiplicando la distribución a priori con la función de verosimilitud:data | p | data f L p f pSe muestra a continuación el cálculo de la distribución posterior usando tres diferentesdistribuciones a priori correspondientes a tres métodos para representar el conocimiento inici<strong>al</strong>de la persona sobre esta proporción.Usando una distribución a priori discretaUna primera forma de asignar una distribución a priori para p es a través de un conjunto dev<strong>al</strong>ores posibles a los que se les asigna pesos específicos. Suponga que la persona cree que:0.05, 0.15, 0.25, 0.35, 0.45, 0.55, 0.65, 0.75, 0.85, 0.95son posibles v<strong>al</strong>ores para p. Basado en sus creencias le asigna los siguientes pesos:2, 4, 8, 8, 4, 2, 1, 1, 1, 1que deben convertirse en probabilidades dividiendo cada v<strong>al</strong>or entre la suma:


p = seq(0.05, 0.95, by = 0.1)> priori = c(2, 4, 8, 8, 4, 2, 1, 1, 1, 1)> priori = priori/sum(priori)> plot(p, priori, type = "h", ylab= "Distribución a priori")En nuestro ejemplo, la función de verosimilitud es:11 | data 1 16L p p pque tiene el núcleo de una distribución beta. La función pdisc en la librería LearnBayes c<strong>al</strong>cul<strong>al</strong>a distribución posterior para p.> library(LearnBayes)> data = c(11, 16)


posterior = pdisc(p, priori, data)> cbind(p, priori, posterior)p priori posterior[1,] 0.05 0.06250 2.882642e-08[2,] 0.15 0.12500 1.722978e-03[3,] 0.25 0.25000 1.282104e-01[4,] 0.35 0.25000 5.259751e-01[5,] 0.45 0.12500 2.882131e-01[6,] 0.55 0.06250 5.283635e-02[7,] 0.65 0.03125 2.976107e-03[8,] 0.75 0.03125 6.595185e-05[9,] 0.85 0.03125 7.371932e-08[10,] 0.95 0.03125 5.820934e-15> plot(p, posterior, type = "h", ylab="Distribución posterior")


Observando el gráfico anterior se puede observar que las probabilidades posteriores estánconcentradas sobre los v<strong>al</strong>ores p = 0.35 y p = 0.45. Si se combinan las probabilidades para lostres v<strong>al</strong>ores más probables se podría afirmar que la probabilidad posterior de que p caiga en elconjunto {0.25, 0.35, 0.45} es 0.942.Usando la distribución beta como a prioriComo la proporción es un parámetro continuo una <strong>al</strong>ternativa es construir una densidad a priorisobre el interv<strong>al</strong>o (0, 1) que represente las creencias inici<strong>al</strong>es de la persona. Suponga que se creeque la proporción es igu<strong>al</strong>mente probable que sea mayor o menor de 0.3. Además, la personaestá 90% segura que p es menor de 0.5. Una familia de densidades conveniente para unaproporción es la distribución beta cuyo núcleo es proporcion<strong>al</strong> a: 1 1 p p 1 p f 0 p 1donde los parámetros <strong>al</strong>pha y beta deben elegirse para poder reflejar las creencias que se tienensobre p. Según la información anterior la persona cree que la mediana y el percentil 90 son 0.3 y0.5 respectivamente. Los v<strong>al</strong>ores anterior pueden obtenerse de forma aproximada usando unadistribución beta con <strong>al</strong>pha = 3.4 y beta = 7.4. Luego la distribución posterior es: x1 | data 1n x 1f p p p 0 p 1que corresponde a otra distribución beta con parámetros actu<strong>al</strong>izados <strong>al</strong>pha* = 14.4 y beta* =23.4 (se trata de un ejemplo de análisis conjugado donde las distribuciones a priori y posteriortienen la misma forma funcion<strong>al</strong>).> p = seq(0, 1, length = 500)> <strong>al</strong>pha = 3.4> beta = 7.4> x = 11> n = 27> priori = dbeta(p,<strong>al</strong>pha,beta)> verosimilitud = dbeta(p, x+1, n-x+1)> posterior = dbeta(p, <strong>al</strong>pha+x, beta+n-x)> plot(p,posterior,type="l",ylab="Densidad",lty=2,lwd=3)> lines(p,verosimilitud,lty=1,lwd=3)> lines(p,priori,lty=3,lwd=3)> legend(0.6, 4, c("Priori","Verosimilitud","Posterior"), lty =c(3,1,2), lwd = c(3,3,3))


A continuación se muestran tres formas de resumir la distribución posterior para re<strong>al</strong>izar elproceso de inferencia sobre p. ¿Cuál es la probabilidad que la proporción sea mayor o igu<strong>al</strong> que0.5? Se desea c<strong>al</strong>cular Pr(p >= 0.5 | data):> 1 - pbeta(0.5, <strong>al</strong>pha+x, beta+n-x)[1] 0.0684257El v<strong>al</strong>or obtenido es pequeño por lo que es poco probable que más de la mitad de los estudiantesduerman más de 8 horas. Una estimación por interv<strong>al</strong>o del 90% para p usando los percentiles 5 y95 es:> qbeta(c(0.05, 0.95), <strong>al</strong>pha+x, beta+n-x)[1] 0.2562364 0.5129274


Hay una probabilidad del 90% de que la proporción de interés se encuentre entre 0.256 y 0.513.Las medidas de resumen anteriores son exactas ya que son obtenidas usando las funciones en Rpara la densidad posterior beta. Un método <strong>al</strong>ternativo para el cálculo de estas medidas deresumen se basa en la simulación. Es posible simular una gran cantidad de v<strong>al</strong>ores a partir de ladensidad posterior beta y luego c<strong>al</strong>cular las medidas de resumen sobre estos v<strong>al</strong>ores. Usando elcomando rbeta se simulan 1000 v<strong>al</strong>ores para p:> ps = rbeta(1000, <strong>al</strong>pha+x, beta+n-x)y graficando la distribución posterior a partir de un histograma obtenido sobre los v<strong>al</strong>oressimulados:> hist(ps, xlab="p", main="")


La probabilidad que la proporción sea mayor o igu<strong>al</strong> que 0.5 se c<strong>al</strong>cula usando la proporción dev<strong>al</strong>ores simulados en ese rango:> sum(ps >= 0.5)/1000[1] 0.068Una estimación por interv<strong>al</strong>o del 90% puede estimarse usando los percentiles 5 y 95 sobre losv<strong>al</strong>ores simulados:> quantile(ps, c(0.05, 0.95))5% 95%0.2532591 0.5114119Notar que las medidas de resumen para la densidad posterior de p basados en la simulación estánmuy próximas a los v<strong>al</strong>ores exactos obtenidos a partir de la distribución beta.Histograma a prioriA pesar de que hay ventajas computacion<strong>al</strong>es en el uso de la densidad beta, siempre es posiblere<strong>al</strong>izar cálculos sobre la distribución posterior sea cu<strong>al</strong> sea la distribución a priori. Se presentaun método para cu<strong>al</strong>quier densidad a priori. Seleccionar una m<strong>al</strong>la de v<strong>al</strong>ores para p sobre un interv<strong>al</strong>o que cubra la densidadposterior. C<strong>al</strong>cular el producto de la verosimilitud y la a priori sobre la m<strong>al</strong>la. Norm<strong>al</strong>izar los v<strong>al</strong>ores dividiendo cada producto entre la suma tot<strong>al</strong>, En este paso seaproxima la distribución posterior usando una distribución discreta sobre la m<strong>al</strong>la. Usando el comando sample en R se elige una muestra con reemplazo a partir de ladistribución discreta.Los v<strong>al</strong>ores seleccionados representan una muestra aproximada sobre la distribución posterior.Se ilustra el uso de este <strong>al</strong>goritmo para un histograma a priori que refleje la opinión a prior de lapersona sobre la proporción p. Suponga que se decide dividir el rango de p en 10 subinterv<strong>al</strong>os:(0.0, 0.1), (0.1, 0.2), … , (0.9, 1.0) para luego asignarles probabilidades. En nuestro ejemplo lapersona asignó los pesos: 2, 4, 8, 8, 4, 2, 1, 1, 1, 1 a esos interv<strong>al</strong>os.En R se representa el histograma a priori usando el vector ptomed que contiene el punto mediode los interv<strong>al</strong>os y el vector priori que contiene los pesos mencionados.


ptomed = seq(0.05, 0.95, by = 0.1)> priori = c(2, 4, 8, 8, 4, 2, 1, 1, 1, 1)> priori = priori/sum(priori)> p = seq(0, 1, length = 500)> plot(p, histprior(p,ptomed,priori), type="l",ylab="Densidad apriori", ylim=c(0.0,0.25))Sobre la m<strong>al</strong>la de v<strong>al</strong>ores para p se c<strong>al</strong>cula la densidad posterior multiplicando el histograma apriori por la función de verosimilitud.> verosimilitud = dbeta(p, x+1, n-x+1)> posterior = verosimilitud * histprior(p,ptomed,priori)> plot(p, posterior, type="l", ylab="Distribución posterior")


Para obtener una muestra simulada desde la distribución posterior por el <strong>al</strong>goritmo anterior seconvierten los productos de la m<strong>al</strong>la en probabilidades:> posterior = posterior/sum(posterior)y tomando una muestra con reemplazo a partir de la m<strong>al</strong>la usando la función sample en R:> ps = sample(p, replace = TRUE, prob = posterior)> hist(ps, xlab="p")


Los v<strong>al</strong>ores en la muestra simulada pueden ser usados para resumir cu<strong>al</strong>quier característica deinterés sobre la distribución posterior.PredicciónSuponga que la persona se encuentra también interesada en predecir el número de personas queduermen más de ocho horas y en una futura muestra de m = 20 estudiantes. Si el conocimientoinici<strong>al</strong> sobre p esta contenida en la densidad g(p) la función predictiva de y esta dada por:y f ypgpf |dp


Si g es la densidad a priori, entonces f es la densidad predictiva a priori y si g es la distribuciónposterior entonces f es la densidad predictiva posterior.Se muestra el cálculo de la densidad predictiva usando las diferentes distribuciones a priori vistasen este capitulo. Suponga se usa una distribución a priori discreta donde {p i } representa losposibles v<strong>al</strong>ores de la proporción con probabilidades respectivas {g(p i )}. Sea f B (y|n,p) la funciónde probabilidad muestr<strong>al</strong> dada por la distribución binomi<strong>al</strong>:fB n| para y 0,,n yy nyyn,p p 1 p Entonces, la probabilidad predictiva para y éxitos en una muestra futura de tamaño m esta dadapor:y f y| m p gpf ,BLa función pdiscp puede usarse para c<strong>al</strong>cular las probabilidades predictivas cuando se considerauna distribución de probabilidad discreta para p.> p = seq(0.05, 0.95, by=0.1)> priori = c(2, 4, 8, 8, 4, 2, 1, 1, 1, 1)> priori = priori/sum(priori)> m = 20> y = 0:20> pred = pdiscp(p, priori, m, y)> cbind(0:20, pred)ii


pred[1,] 0 0.02808924[2,] 1 0.04647102[3,] 2 0.05979678[4,] 3 0.07613188[5,] 4 0.09129575[6,] 5 0.10025206[7,] 6 0.10094968[8,] 7 0.09389857[9,] 8 0.08141436[10,] 9 0.06654497[11,] 10 0.05199912[12,] 11 0.03953367[13,] 12 0.02990315[14,] 13 0.02314587[15,] 14 0.01889113[16,] 15 0.01654018[17,] 16 0.01538073[18,] 17 0.01492458[19,] 18 0.01552235[20,] 19 0.01679584[21,] 20 0.01251910Se observa que el número de éxitos con mayor probabilidad corresponde a y = 5 y y = 6.Suponga que la distribución a priori para p es beta con parámetros <strong>al</strong>pha y beta. En este caso ladistribución predictiva es:fy f y| m,pgpmB y, m y Bdp para y 0,,m y B, Las probabilidades predictivas usando la distribución beta pueden c<strong>al</strong>cularse usando la funciónpbetap. Los argumentos de esta función son el vector de parámetros ab correspondientes a <strong>al</strong>phay beta, el tamaño de la muestra futura m y el vector de número de éxitos y. La s<strong>al</strong>ida es el vectorde probabilidades predictivas correspondientes a y.> ab = c(3.4, 7.4)> m = 20> y = 0:20> pred = pbetap(ab, m, y)> cbind(0:20, pred)


pred[1,] 0 1.650355e-02[2,] 1 4.250914e-02[3,] 2 6.995599e-02[4,] 3 9.289238e-02[5,] 4 1.079775e-01[6,] 5 1.141476e-01[7,] 6 1.120140e-01[8,] 7 1.032286e-01[9,] 8 8.992595e-02[10,] 9 7.428665e-02[11,] 10 5.823390e-02[12,] 11 4.325578e-02[13,] 12 3.033522e-02[14,] 13 1.996421e-02[15,] 14 1.221690e-02[16,] 15 6.857229e-03[17,] 16 3.458690e-03[18,] 17 1.518068e-03[19,] 18 5.490883e-04[20,] 19 1.472492e-04[21,] 20 2.228637e-05Una forma conveniente de c<strong>al</strong>cular la distribución predictiva para cu<strong>al</strong>quier densidad a priori esa través del proceso de simulación. Primero se debe simular p* a partir de g(p) y luego simular ydesde la distribución f B (y|p*).Se muestra el proceso de simulación para la distribución priori beta(3.4, 7.4). Lo primero serásimular 1000 v<strong>al</strong>ores desde la distribución a priori.> p = rbeta(1000, 3.4, 7.4)Luego se simulan los v<strong>al</strong>ores de y para los v<strong>al</strong>ores simulados de p.> y = rbinom(1000, 20, p)Para observar los v<strong>al</strong>ores simulados de y usamos el comando table.


table(y)y0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1713 39 78 82 110 102 119 97 99 76 54 44 32 31 12 8 3 1> freq = table(y)> y = c(0:max(y))> y[1] 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17> probpred = freq/sum(freq)> plot(y, probpred, type="h", xlab="y", ylab="Probabilidadespredictivas")Suponga que se desea resumir la distribución predictiva discreta anterior usando un interv<strong>al</strong>o quecubra <strong>al</strong> menos 90% de la probabilidad. La función en R discint resulta útil para este propósito.


dist = cbind(y, probpred)> disty probpred0 0 0.0131 1 0.0392 2 0.0783 3 0.0824 4 0.1105 5 0.1026 6 0.1197 7 0.0978 8 0.0999 9 0.07610 10 0.05411 11 0.04412 12 0.03213 13 0.03114 14 0.01215 15 0.00816 16 0.00317 17 0.001> prob = 0.9> discint(dist,prob)$prob10.9$set1 2 3 4 5 6 7 8 9 10 111 2 3 4 5 6 7 8 9 10 11Los resultados anteriores muestran que la probabilidad que y se encuentre en el interv<strong>al</strong>o {1, 2, 3,4, 5, 6, 7, 8, 9, 10, 11} es 90%. Es decir, sea y/20 la proporción de estudiantes que duermen másde 8 horas en una futura muestra. La probabilidad que esta proporción muestr<strong>al</strong> caiga en elinterv<strong>al</strong>o [1/20, 11/20] es 0.90.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!