11.07.2015 Views

seleccion bayesiana de modelos aplicada al anova usando ...

seleccion bayesiana de modelos aplicada al anova usando ...

seleccion bayesiana de modelos aplicada al anova usando ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Universidad Tecnológica <strong>de</strong> la MixtecaSelección <strong>bayesiana</strong> <strong>de</strong> mo<strong>de</strong>los <strong>aplicada</strong> <strong>al</strong> ANOVA<strong>usando</strong> distribuciones a priori intrínsecasTesis para obtener el título <strong>de</strong>:Licenciado en Matemáticas AplicadasPresenta:Iván Mén<strong>de</strong>z GarcíaDirectora <strong>de</strong> Tesis:M. C. Norma Edith Alamilla LópezHuajuapan <strong>de</strong> León, Oaxaca. Febrero <strong>de</strong>l 2007


vi. Dedicatoria


En ciertos problemas, el conocimiento inici<strong>al</strong> sobre el verda<strong>de</strong>ro v<strong>al</strong>or <strong>de</strong>lparámetro θ pue<strong>de</strong> ser muy débil, o vaga, ésto ha llevado a generar un tipo <strong>de</strong>distribuciones inici<strong>al</strong>es llamada distribuciones a priori no informativas, lascu<strong>al</strong>esreflejan un estado <strong>de</strong> ignorancia inici<strong>al</strong>.Las ventajas princip<strong>al</strong>es <strong>de</strong>l enfoque bayesiano son su gener<strong>al</strong>idad y coherencia,pues todos los problemas <strong>de</strong> inferencia se resuelven con los principios <strong>de</strong>cálculo <strong>de</strong> probabilida<strong>de</strong>s y teoría <strong>de</strong> <strong>de</strong>cisión. A<strong>de</strong>más, posee una capacidad <strong>de</strong>incorporar información a priori adicion<strong>al</strong> que se tenga <strong>de</strong>l parámetro, a la muestra.Esta última también es una <strong>de</strong>sventaja, pues <strong>al</strong>gunos investigadores rechazanque la información inici<strong>al</strong> se incluya en un proceso <strong>de</strong> inferencia científica. Peroesta situación se pue<strong>de</strong> evitar estableciendo una distribución a priori no informativao <strong>de</strong> referencia, la cu<strong>al</strong> se introduce cuando no se posee mucha informaciónprevia acerca <strong>de</strong>l problema.A un problema específico se le pue<strong>de</strong> asignar cu<strong>al</strong>quier tipo <strong>de</strong> distribución apriori, ya que fin<strong>al</strong>mente <strong>al</strong> actu<strong>al</strong>izar la información a priori que se tenga acerca<strong>de</strong>l parámetro, mediante el teorema <strong>de</strong> Bayes y obtener la distribución a posteriori<strong>de</strong>l parámetro, es con ésta distribución con la que se hacen las inferencias acerca<strong>de</strong>l mismo.Se an<strong>al</strong>izará el problema <strong>de</strong> contraste <strong>de</strong> hipótesis. El contraste <strong>de</strong> hipótesisconstituye una técnica inferenci<strong>al</strong> cuyo objetivo es comprobar la plausibilidad <strong>de</strong>dos hipótesis estadísticas contrapuestas mediante la formulación e interpretación<strong>de</strong> una regla <strong>de</strong> <strong>de</strong>cisión.Des<strong>de</strong> el enfoque clásico o frecuentista esta regla <strong>de</strong> <strong>de</strong>cisión esta basada en lascaracterísticas <strong>de</strong>l estadístico <strong>de</strong> contraste y en las <strong>de</strong> su distribución muestr<strong>al</strong>, yla ev<strong>al</strong>uación <strong>de</strong> las hipótesis se re<strong>al</strong>iza en términos <strong>de</strong> las probabilida<strong>de</strong>s <strong>de</strong> dostipos <strong>de</strong> error. Estas probabilida<strong>de</strong>s <strong>de</strong> error representan la “casu<strong>al</strong>idad” <strong>de</strong> quese observe una muestra para la cu<strong>al</strong> el contraste acepte la hipótesis errónea.Des<strong>de</strong> el enfoque bayesiano la tarea <strong>de</strong> ev<strong>al</strong>uación <strong>de</strong> las hipótesis resultaconceptu<strong>al</strong>mente más sencilla. La regla <strong>de</strong> <strong>de</strong>cisión se basa en el cálculo <strong>de</strong> lasprobabilida<strong>de</strong>s a posteriori <strong>de</strong> las hipótesis contrastadas y su ev<strong>al</strong>uación <strong>de</strong>pen<strong>de</strong><strong>de</strong> los resultados obtenidos. La ventaja conceptu<strong>al</strong> <strong>de</strong> este último análisis es quedichas probabilida<strong>de</strong>s a posteriori son las verda<strong>de</strong>ras probabilida<strong>de</strong>s <strong>de</strong> las hipótesisque reflejan los datos observados y la distribución a priori.Se abordará el problema <strong>de</strong> contraste <strong>de</strong> hipótesis asumiendo que las varianzas<strong>de</strong> las distribuciones norm<strong>al</strong>es son distintas, pero cuyo cociente es conocido, a esteprocedimiento se le conoce como análisis <strong>de</strong> varianza bajo heterocedasticidad; asítambién se an<strong>al</strong>izará el análisis <strong>de</strong> varianza bajo homocedasticidad, el cu<strong>al</strong> a diferencia<strong>de</strong>l anterior se supone que las varianzas <strong>de</strong> las distribuciones norm<strong>al</strong>es sonigu<strong>al</strong>es. Se han propuesto distintos procedimientos <strong>de</strong> contraste pero la mayoría<strong>de</strong> ellos han sido tema <strong>de</strong> controversia respecto a su v<strong>al</strong>i<strong>de</strong>z o utilidad.3


4 Capítulo 1. IntroducciónAunque las probabilida<strong>de</strong>s a posteriori <strong>de</strong> las hipótesis son las princip<strong>al</strong>esmedidas en los problemas <strong>de</strong> contraste, se abordará un concepto <strong>de</strong> gran interés:el factor <strong>de</strong> Bayes; el cu<strong>al</strong> utilizaremos para la comparación <strong>de</strong> mo<strong>de</strong>los.En el contexto <strong>de</strong> selección <strong>de</strong> mo<strong>de</strong>los o comparación <strong>de</strong> mo<strong>de</strong>los, éste seconsi<strong>de</strong>ra como un problema estadístico. Existen diferentes criterios para resolverel problema. En Bernardo y Smith (1994) se plantean tres criterios <strong>de</strong> éstos.El primero, el cu<strong>al</strong> es llamado criterio M-cerrado, se cree que uno <strong>de</strong> los mo<strong>de</strong>los{M i ,i∈ I}, es el verda<strong>de</strong>ro, sin el conocimiento explicito <strong>de</strong> cuál <strong>de</strong> ellos es elverda<strong>de</strong>ro mo<strong>de</strong>lo. Des<strong>de</strong> este criterio tiene sentido asignar probabilida<strong>de</strong>s a losmo<strong>de</strong>los, cuyas probabilida<strong>de</strong>s son las que cree el estadístico, por su experienciaque tiene acerca <strong>de</strong> los mismos.El segundo criterio es el llamado M-completo, correspon<strong>de</strong> a una actuación individu<strong>al</strong>,como si {M i ,i∈ I}, fuera un conjunto <strong>de</strong> mo<strong>de</strong>los específicos, disponiblespara comparación <strong>de</strong> mo<strong>de</strong>los. Des<strong>de</strong> esta perspectiva no tiene sentido asignarprobabilida<strong>de</strong>s a los mo<strong>de</strong>los.El tercer criterio, llamado M-abierto, también se consi<strong>de</strong>ra que el conjunto <strong>de</strong>mo<strong>de</strong>los son simplemente un rango <strong>de</strong> mo<strong>de</strong>los específicos, disponibles para comparación,tampoco tiene sentido asignarles probabilida<strong>de</strong>s a los mo<strong>de</strong>los, puestoque no se tiene creencia <strong>de</strong> que el verda<strong>de</strong>ro mo<strong>de</strong>lo esté en el conjunto consi<strong>de</strong>rado.En nuestro caso, se trabajará con el criterio M-cerrado. Consi<strong>de</strong>rando el criterioM-cerrado, tradicion<strong>al</strong>mente los procedimientos para la solución <strong>de</strong> problemas<strong>de</strong> selección <strong>de</strong> mo<strong>de</strong>los se basan en los llamados Factores <strong>de</strong> Bayes. El interésha sido <strong>de</strong>sarrollado cuando se trabaja con distribuciones a priori impropias, yaque éstos no están <strong>de</strong>finidos, con éste tipo <strong>de</strong> distribución a priori. Hay <strong>al</strong>gunosmétodos propuestos por Aikin(1991), O’Hagan (1995), Berger y Pericchi (1996),entre otros, los cu<strong>al</strong>es tratán <strong>de</strong> resolver éste problema.Aikin (1991), propone el uso <strong>de</strong> medias <strong>de</strong> las distribuciones a posteriori <strong>de</strong> laverosimilitud bajo cada mo<strong>de</strong>lo en lugar <strong>de</strong> la usu<strong>al</strong> media inici<strong>al</strong>. Aikin, reiteraque el uso <strong>de</strong> la media fin<strong>al</strong> tiene una gran ventaja, incluyendo la reducción <strong>de</strong>variación en la distribución a priori. Sin embargo éste procedimiento ha sidocriticado severamente por <strong>al</strong>gunos estadísticos entre ellos Lindley, quien dice queéste no es recomendable, él propone un ejemplo en don<strong>de</strong> el uso <strong>de</strong> los factores<strong>de</strong> Bayes fin<strong>al</strong>es, dan un resultado ilógico e inconsistente, el lector interesado eneste caso pue<strong>de</strong> consultar la discusión.O‘Hagan (1995) <strong>de</strong>scribe para comparación <strong>de</strong> mo<strong>de</strong>los una <strong>al</strong>ternativa a losfactores <strong>de</strong> Bayes parci<strong>al</strong>es, los cu<strong>al</strong>es ofrecen una solución <strong>de</strong>l problema eliminandoparte <strong>de</strong> los datos y tomando ésta como una muestra adicion<strong>al</strong>. Estamuestra adicion<strong>al</strong> es usada para obtener una distribución a posteriori informativaque se supone inici<strong>al</strong> <strong>de</strong> los parámetros en cada mo<strong>de</strong>lo, c<strong>al</strong>culando entonces los


6 Capítulo 1. IntroducciónEn el cuarto capítulo, se an<strong>al</strong>izarán los “factores <strong>de</strong> Bayes intrínsecos”. Comoes bien sabido, en el enfoque bayesiano para problemas <strong>de</strong> selección <strong>de</strong> mo<strong>de</strong>losy contraste <strong>de</strong> hipótesis la herramienta princip<strong>al</strong> son los factores <strong>de</strong> Bayes. Enel caso en que <strong>al</strong> <strong>de</strong>finir los factores <strong>de</strong> Bayes, se usa una distribución a prioriimpropia, éstos quedan bien <strong>de</strong>finidos s<strong>al</strong>vo una constante multiplicativa. Los“factores <strong>de</strong> Bayes intrínsecos” (FBI), <strong>de</strong>finidos por Berger y Pericchi (1996),es un método interesante para resolver dicho problema, por lo que se hace unanálisis exhaustivo <strong>de</strong>l método.En el capítulo cinco, se hará un análisis <strong>de</strong> varianza <strong>de</strong>s<strong>de</strong> el enfoque bayesianoasumiendo homocedasticidad, así como también un análisis <strong>de</strong> varianza <strong>de</strong>s<strong>de</strong> elenfoque bayesiano asumiendo heterocedasticidad.Por último se presentan las conclusiones, así como <strong>al</strong>gunos comentarios. Tambiénse incluye <strong>al</strong> fin<strong>al</strong> una sección <strong>de</strong> la notación y abreviaturas usadas en éstatesis.Para las soluciones numéricas <strong>de</strong> este trabajo se usó el paquete computacion<strong>al</strong>Mathematica.


Capítulo 2Conceptos básicos2.1. Probabilidad subjetivaEl concepto clásico <strong>de</strong> probabilidad envuelve una larga secuencia <strong>de</strong> repeticiones<strong>de</strong> una situación dada. Por ejemplo <strong>de</strong>cir que una moneda leg<strong>al</strong> (b<strong>al</strong>anceada)tiene probabilidad 1/2 <strong>de</strong> caer cara cuando fue lanzada, quiere <strong>de</strong>cir que,en una serie larga <strong>de</strong> lanzamientos in<strong>de</strong>pendientes <strong>de</strong> la moneda, el resultadocara ocurre aproximadamente la mitad <strong>de</strong> las veces. Desafortunadamente, esteconcepto frecuentista no es suficiente cuando se asignan probabilida<strong>de</strong>s <strong>al</strong>re<strong>de</strong>dor<strong>de</strong> una varia-ble <strong>al</strong>eatoria θ. Por ejemplo, consi<strong>de</strong>remos el problema <strong>de</strong> intentar<strong>de</strong>terminar θ, la proporción <strong>de</strong> fumadores en <strong>al</strong>guna ciudad <strong>de</strong> México. ¿Qué significaque P (0.3


8 Capítulo 2. Conceptos básicossimple para c<strong>al</strong>cular probabilida<strong>de</strong>s subjetivas es comparar eventos <strong>de</strong>terminandoprobabilida<strong>de</strong>s relativas. Es <strong>de</strong>cir, por ejemplo, si queremos encontrar P (E),simplemente comparamos E con E c (el complemento <strong>de</strong> E). Si es dos veces masfactible que ocurra E que E c , entonces claramente P (E) = 2 3 y P (Ec )= 1 3 .2.2. Distribuciones a priori no informativas2.2.1. IntroducciónLas distribuciones a priori no informativas reflejan un estado <strong>de</strong> ignoranciainici<strong>al</strong>. Por ejemplo, en el contraste <strong>de</strong> dos hipótesis simples, la distribución apriori que asigna una probabilidad <strong>de</strong> 1/2 a cada hipótesis, podría consi<strong>de</strong>rarseno informativa . Un ejemplo más complejo sería el siguiente:Ejemplo 2.1 Supóngase que la variable <strong>de</strong> interés es una norm<strong>al</strong> con media θ,a<strong>de</strong>más que el espacio <strong>de</strong>l parámetro es Θ =(−∞, ∞). Siuna<strong>de</strong>nsidadapriorino informativa es <strong>de</strong>seada, es razonable dar pesos igu<strong>al</strong>es a todos los posiblesv<strong>al</strong>ores <strong>de</strong> θ. Desafortunadamente, si π(θ) =c>0 es elegida, entonces π(θ)tiene masa infinita (esto es R π(θ)dθ = ∞) y esta no es una <strong>de</strong>nsidad propia.Sin embargo, se pue<strong>de</strong> trabajar con t<strong>al</strong> π(θ), satisfactoriamente. La elección <strong>de</strong>c no es importante, a<strong>de</strong>más típicamente la <strong>de</strong>nsidad a priori no informativa paraeste problema es elegida como π(θ) =1. Frecuentemente la llamamos la <strong>de</strong>nsidaduniforme sobre R 1 , la cu<strong>al</strong> fue introducida por Laplace (1812).Como en el ejemplo anterior, con frecuencia ocurre que la distribución a priorino informativa natur<strong>al</strong> es una distribución a priori impropia, es <strong>de</strong>cir, que tiene“masa infinita”.Enseguida consi<strong>de</strong>raremos el problema <strong>de</strong> <strong>de</strong>terminar distribucionesapriorinoinformativas.La situación más simple es consi<strong>de</strong>rar cuando Θ es un conjunto finito, consistente<strong>de</strong> n elementos. La distribución a priori no informativa obvia es asignaracadaelemento<strong>de</strong>Θ una probabilidad <strong>de</strong> 1/n. Uno pue<strong>de</strong> gener<strong>al</strong>izar esto aΘ infinito, dando a cada θ ∈ Θ <strong>de</strong>nsida<strong>de</strong>s igu<strong>al</strong>es, llegando a la distribución apriori no informativa uniforme π(θ) ≡ c. Esta distribución fue introducida porLaplace (1812) y fue criticada duramente <strong>de</strong>bido a una f<strong>al</strong>ta <strong>de</strong> invarianza bajotransformación (ver Jefreys (1983)).Ejemplo 2.2 En lugar <strong>de</strong> consi<strong>de</strong>rar θ, supóngase que el problema ha sido parametrizadoen términos <strong>de</strong> η =exp{θ}. Ésta es una transformación uno a uno. Perosi π(θ) es la <strong>de</strong>nsidad para θ, entonces la correspondiente <strong>de</strong>nsidad para η es(nótese que el Jacobiano <strong>de</strong> la transformación es dθ/dη = d log η/dη = η −1 )π ∗ (θ) =η −1 π(log η).


2.2. Distribuciones a priori no informativas 9Por lo tanto, si la distribución a priori no informativa para θ es elegida comouna constante, <strong>de</strong>bemos elegir la distribución a priori no informativa para η proporcion<strong>al</strong>a η −1 para mantener consistencia. No po<strong>de</strong>mos mantener consistenciay elegir para ambas distribuciones a priori no informativas θ y η, que sean constantes.2.2.2. Distribuciones a priori en problemas <strong>de</strong> loc<strong>al</strong>izaciónyesc<strong>al</strong>aLos esfuerzos para <strong>de</strong>rivar distribuciones a priori no informativas consi<strong>de</strong>randolos problemas <strong>de</strong> invarianza bajo transformación comenzaron con Jeffreys (1961).Definición 2.1 (Parámetros <strong>de</strong> loc<strong>al</strong>ización). Supóngase que χ y Θ son subconjuntos<strong>de</strong> R p , y que la <strong>de</strong>nsidad <strong>de</strong> X es <strong>de</strong> la forma f(x − θ) (esto es, solo<strong>de</strong>pen<strong>de</strong> <strong>de</strong> (x − θ)). La <strong>de</strong>nsidad entonces se dice que es una <strong>de</strong>nsidad <strong>de</strong> loc<strong>al</strong>ización,y θ es llamado un parámetro <strong>de</strong> loc<strong>al</strong>ización (o en <strong>al</strong>gunas ocasiones unvector <strong>de</strong> loc<strong>al</strong>ización cuando p ≥ 2).Ejemplo 2.3 La distribución norm<strong>al</strong> con media θ yvarianzaσ 2 (N (θ, σ 2 )), conσ 2 fija; la distribución t con <strong>al</strong>fa grados <strong>de</strong> libertad, parámetro <strong>de</strong> loc<strong>al</strong>ización µ yparámetro <strong>de</strong> esc<strong>al</strong>a σ 2 (t(α, µ, σ 2 )), con α y σ 2 fijo; y la norm<strong>al</strong> p-variada, conmedia µ y matriz <strong>de</strong> covarianza P , (N p (θ, P )) con P fija, son todas ejemplos <strong>de</strong><strong>de</strong>nsida<strong>de</strong>s <strong>de</strong> loc<strong>al</strong>ización. A<strong>de</strong>más, una muestra <strong>de</strong> variables <strong>al</strong>eatorias i.i.d. sedice que tiene una <strong>de</strong>nsidad <strong>de</strong> loc<strong>al</strong>ización si su <strong>de</strong>nsidad común es una <strong>de</strong>nsidad<strong>de</strong> loc<strong>al</strong>ización.Para <strong>de</strong>rivar una distribución a priori no informativa para esta situación,imagine que, en lugar <strong>de</strong> haber observado X, hemos observado la variable <strong>al</strong>eatoriaY = X +c (c ∈ R p ). Definiendo η = θ +c, es claro que Y tiene <strong>de</strong>nsidad f(y − η).Si ahora χ = θ = R p , entonces el espacio muestr<strong>al</strong> y el espacio paramétrico par<strong>al</strong>os (Y,η) están también en R p . Los problemas (X, θ) y(Y,η), son idénticos enestructura, y es razonable insistir en que ellos tienen la misma distribución apriori no informativa.Sea π y π ∗ que <strong>de</strong>notan las distribuciones a priori no informativas en losproblemas (X, θ) y (Y,η), respectivamente, el mismo argumento implica que π yπ ∗ <strong>de</strong>ben ser igu<strong>al</strong>es, esto esP π (θ ∈ A) =P π∗ (η ∈ A) (2.1)para cu<strong>al</strong>quier conjunto A en R p . Mientras η = θ + c, <strong>de</strong>be ser verda<strong>de</strong>ro (por unsimple cambio <strong>de</strong> variables) que


2.2. Distribuciones a priori no informativas 11(Y,η). Los dos problemas son idénticos en estructura, lo cu<strong>al</strong> nuevamente indicaque ellos <strong>de</strong>ben tener la misma distribución a priori no informativa.Sea π y π ∗ que <strong>de</strong>notan las distribuciones a priori no informativas en losproblemas (X, σ) y (Y,η), respectivamente, esto quiere <strong>de</strong>cir que la igu<strong>al</strong>dadP π (σ ∈ A) =P π∗ (η ∈ A)<strong>de</strong>be cumplirse para todo A ⊂ (0, ∞). Mientras que η = cσ, <strong>de</strong>be ser verda<strong>de</strong>roqueP π∗ (σ ∈ A) =P π (σ ∈ c −1 A)don<strong>de</strong> c −1 A = {c −1 z : z ∈ A}. De lo anterior tenemos que se <strong>de</strong>be satisfacerP π (σ ∈ A) =P π (σ ∈ c −1 A). (2.4)Esta ecuación se <strong>de</strong>be cumplir para toda c > 0. Cu<strong>al</strong>quier distribución π(θ)para la cu<strong>al</strong> esto es verda<strong>de</strong>ro es llamada esc<strong>al</strong>a invariante. Rescribiendo (2.4)(asumiendo <strong>de</strong>nsida<strong>de</strong>s) comoZZZπ(σ)dσ = π(σ)dσ = π(c −1 σ)c −1 dσ.Ac −1 AConcluimos que para todo A ytodaσ <strong>de</strong>be ser verda<strong>de</strong>ro queAEligiendo σ = c, se tiene queπ(σ) =c −1 π(c −1 σ).π(c) =c −1 π(1).Tomando π(1) = 1 por conveniencia y notando que la igu<strong>al</strong>dad <strong>de</strong>be ser para todoc>0, se sigue que una distribución a priori no informativa razonable para unparámetro <strong>de</strong> esc<strong>al</strong>a es π(σ) =σ −1 . Observe que ésta a<strong>de</strong>más es una a distribucióna priori impropia, esto es que R ∞0σ −1 dσ = ∞.2.2.3. Distribuciones a priori no informativas en conjuntosgener<strong>al</strong>esPara problemas más gener<strong>al</strong>es, se han hecho varias propuestas para <strong>de</strong>terminardistribuciones a priori no informativas . El método usado más ampliamenteconsi<strong>de</strong>rado es el propuesto por Jeffreys (1961), que eligeπ(θ) =[I(θ)] 1/2 (2.5)


2.2. Distribuciones a priori no informativas 132.2.4. La distribución margin<strong>al</strong>Si X tiene una <strong>de</strong>nsidad <strong>de</strong> probabilidad f(x|θ), y θ tiene una <strong>de</strong>nsidad <strong>de</strong>probabilidad π(θ), entonces la <strong>de</strong>nsidad conjunta <strong>de</strong> X y θ esh(x, θ) =f(x|θ)π(θ).Definición 2.3 La <strong>de</strong>nsidad margin<strong>al</strong> <strong>de</strong> X esZm(x) =Θ⎧ R⎪⎨ f(x|θ)π(θ)dθΘf(x|θ)dF π (θ) = P⎪⎩ f(x|θ)π(θ)La cu<strong>al</strong> se le conoce como <strong>de</strong>nsidad margin<strong>al</strong> a priori.Θ(caso continuo)(caso discreto).(2.7)2.2.5. La distribución a posterioriEl análisis bayesiano se hace combinando la información a priori π(θ) ylainformación muestr<strong>al</strong> x dando como resultado la así llamada distribución a posteriori<strong>de</strong> θ dado x, sobre la cu<strong>al</strong> se basan todas las <strong>de</strong>cisiones e inferencias.La distribución a posteriori <strong>de</strong> θ dado x, se<strong>de</strong>fine como la distribución condicion<strong>al</strong><strong>de</strong> θ dada la observación x, yse<strong>de</strong>notaporπ(θ|x). Nótese que la <strong>de</strong>nsidadconjunta <strong>de</strong> θ y X esh(x, θ) =π(θ)f(x|θ)y que la <strong>de</strong>nsidad margin<strong>al</strong> <strong>de</strong> X esZm(x) =A<strong>de</strong>más es claro que (con m(x) 6= 0),Θf(x|θ)π(θ)dθ.h(x, θ)π(θ|x) =m(x) .Así como la distribución a priori refleja nuestra creencia acerca <strong>de</strong> la distribución apriori θ antes <strong>de</strong> la experimentación, π(θ|x) reflej<strong>al</strong>acreenciaacerca<strong>de</strong>θ <strong>de</strong>spués<strong>de</strong> haber observado la muestra x.Ejemplo 2.7 Supóngase que X ∼ N (θ, σ 2 ), don<strong>de</strong> θ es <strong>de</strong>sconocida pero σ 2 es


14 Capítulo 2. Conceptos básicosconocida. Sea π(θ) una N (µ, τ 2 ), don<strong>de</strong> µ y τ 2 son conocidos. Entoncesh(x, θ) = π(θ)f(x|θ) =( √ ( " #)2πτ) −1 exp − 1 (θ − µ) 2( √ 2πσ) −12 τ 2½× exp − 1 ∙ ¸¾ (x − θ)22 σ(2"#)= (2πστ) −1 exp − 1 (θ − µ) 2 (x − θ)2+ .2 τ 2 σ 2Para encontrar m(x), noteque<strong>de</strong>finimosy completando cuadrados obtenemos"(θ − µ) 2ρ = τ −2 + σ −2 = τ 2 + σ 2τ 2 σ 2#1(x − θ)2+2 τ 2 σ 2= 1 ∙ θ 2 − 2µθ + µ 2+ x2 − 2xθ + θ 2 ¸2 τ 2 σ 2= 1 ∙µ 12 τ + 1 ³ µθ 2 − 22 σ 2 τ + x ´ µ ¸ µ2θ +2 σ 2 τ + x22 σ 2= 1 ∙2 ρ θ 2 − 2 ³ µρ τ + x ´ ¸θ + 1 µ µ22 σ 2 2 τ + x22 σ 2= 1 ∙2 ρ θ − 1 ³ µρ τ + x ´¸2− 1 ³ µ 2 σ 2 2ρ τ + x µ ´2 1 µ2+ 2 σ 2 2 τ + x22 σ 2= 1 ∙2 ρ θ − 1 ³ µρ τ + x ´¸2− τ µ 2 σ 2 σ 2 µ + τ 2 2x+ 1 µ σ 2 µ 2 + τ 2 x 22 σ 2 2(τ 2 + σ 2 ) τ 2 σ 2 2 τ 2 σ 2= 1 ∙2 ρ θ − 1 ³ µρ τ + x ´¸2− τ µ 2 σ 2 σ 4 µ 2 +2σ 2 τ 2 xµ + τ 4 x 22 σ 2 2(τ 2 + σ 2 )τ 4 σ 4+ 1 µ σ 2 µ 2 + τ 2 x 22 τ 2 σ 2³ µτ + x ´¸2− σ4 µ 2 +2σ 2 τ 2 xµ + τ 4 x 22 σ 2= 1 2 ρ ∙θ − 1 ρ= 1 ∙2 ρ θ − 1 ³ µρ τ + x ´¸22 σ 2+ σ2 µ 2 + τ 2 x 22(τ 2 + σ 2 )τ 2 σ 2 2τ 2 σ 2+ (σ2 µ 2 + τ 2 x 2 )(τ 2 + σ 2 ) − (σ 4 µ 2 +2σ 2 τ 2 xµ + τ 4 x 2 )2(σ 2 + τ 2 ) τ 2 σ 2


22 Capítulo 2. Conceptos básicos<strong>de</strong> mínimos cuadrados X =(X 1 ,X 2 ), don<strong>de</strong>X 2 =SSY =nX(Z i − ¯Z)(Y i − Ȳ )/SSY, X 1 = ¯Z − X 2 Ȳ,i=1nX(Y i − Ȳ ) 2 , ¯Z = 1 ni=1nXZ i , y Ȳ = 1 ni=1nXY i ,i=1por lo tanto, X ∼ N 2 (θ, σ P 2 ), don<strong>de</strong>⎛XnP1 = ⎝ 1 yn i2 −ȳi=1SSY−ȳ 1⎞⎠ .Silaapriorinoinformativaπ(θ) =1se usa para θ, la distribución a posteriori,π(θ|x), es N 2 (θ, σ P 2 ).Supóngase que ahora se <strong>de</strong>sea pre<strong>de</strong>cir el futuro <strong>de</strong> Z correspondiente a uny dado. Claramente g(z|θ) es entonces N (θ 1 + θ 2 y, σ 2 ), y la <strong>de</strong>nsidad conjunta<strong>de</strong> (z, θ) dado x es norm<strong>al</strong>. La distribución predictiva p(z|x), es la distribuciónmargin<strong>al</strong> <strong>de</strong> Z <strong>de</strong> la distribución a posteriori norm<strong>al</strong> conjunta, esta margin<strong>al</strong> <strong>de</strong>beser una distribución norm<strong>al</strong>, y los cálculos nos dan una media <strong>de</strong> (x 1 + x 2 y) yvarianza V = σ 2 (1 + n −1 +(ȳ − y) 2 /SSY ).Esta distribución predictiva pue<strong>de</strong> usarse para cu<strong>al</strong>quier <strong>de</strong>cisión <strong>de</strong> inferencia<strong>bayesiana</strong>. Por ejemplo, un conjunto creíble <strong>al</strong> 100(1 − α)% <strong>de</strong> Z <strong>de</strong>be ser³(x 1 + x 2 y)+z( α 2 )√ V, (x 1 + x 2 y) − z( α ´2 )√ V .


Capítulo 3Contraste <strong>de</strong> hipótesis y análisis<strong>de</strong> varianza3.1. Contraste <strong>de</strong> hipótesisEn el contraste <strong>de</strong> hipótesis clásico se especifica la hipótesis nula H 0 : θ ∈ Θ 0y la hipótesis <strong>al</strong>ternativa H 1 : θ ∈ Θ 1 . Un procedimiento <strong>de</strong> contraste es ev<strong>al</strong>uaren término <strong>de</strong> probabilida<strong>de</strong>s los errores tipo I y tipo II. Estas probabilida<strong>de</strong>s <strong>de</strong>los errores representan la posibilidad <strong>de</strong> que una muestra observada para dichoprocedimiento <strong>de</strong> contraste pueda ser rechazada o no rechazada.En análisis bayesiano la <strong>de</strong>cisión entre H 0 y H 1 es conceptu<strong>al</strong>mente másfácil. Esenci<strong>al</strong>mente se c<strong>al</strong>cula la probabilidad a posteriori α 0 = P (Θ 0 |x) yα 1 = P (Θ 1 |x) y se <strong>de</strong>ci<strong>de</strong> entre H 0 y H 1 respectivamente. La ventaja conceptu<strong>al</strong>es que α 0 y α 1 son las probabilida<strong>de</strong>s (subjetivas) actu<strong>al</strong>es <strong>de</strong> las hipótesisen base a los datos y a la opinión a priori.Definición 3.1 La proporción α 0 /α 1 es llamada la razón <strong>de</strong> probabilidad a posteriori<strong>de</strong> H 0 contra H 1 , y π 0 /π 1 es llamado la razón <strong>de</strong> probabilidad a priori(don<strong>de</strong> π 0 y π 1 son las probabilida<strong>de</strong>s a priori <strong>de</strong> Θ 0 y Θ 1 ). La cantidadB =razón <strong>de</strong> probabilidad a posteriorirazón <strong>de</strong> probabilidad a priori= α 0/α 1π 0 /π 1= α 0π 1α 1 π 0es llamado el factor <strong>de</strong> Bayes en favor <strong>de</strong> Θ 0 .El interés en el factor <strong>de</strong> Bayes es que <strong>al</strong>gunas veces pue<strong>de</strong> ser interpretadocomo “la razón para H 0 contra H 1 dado los datos”. Esta interpretación esclaramente válida cuando las hipótesis son simples, esto es, cuando Θ 0 = {θ 0 } y23


24 Capítulo 3. Contraste <strong>de</strong> hipótesis y análisis <strong>de</strong> varianzaΘ 1 = {θ 1 }, entoncesα 0 =π 0 f(x|θ 0 )π 0 f(x|θ 0 )+π 1 f(x|θ 1 ) , α 1 =α 0= π 0f(x|θ 0 )α 1 π 1 f(x|θ 1 )π 1 f(x|θ 1 )π 0 f(x|θ 0 )+π 1 f(x|θ 1 ) ,y B = α 0π 1α 1 π 0= f(x|θ 0)f(x|θ 1 ) .En otras p<strong>al</strong>abras, B es entonces justamente la razón <strong>de</strong> verosimilitud <strong>de</strong> H 0contra H 1 , que es comúnmente vista como la probabilidad <strong>de</strong> H 0 contra H 1 queesta dada por los datos.En gener<strong>al</strong>, B <strong>de</strong>pen<strong>de</strong>rá <strong>de</strong> la distribución a priori <strong>de</strong> entrada. Para exploraresta <strong>de</strong>pen<strong>de</strong>ncia, es conveniente escribir la distribución a priori como⎧⎨ π 0 g 0 (θ) si θ ∈ Θ 0 ,π(θ) =(3.1)⎩π 1 g 1 (θ) si θ ∈ Θ 1 ,don<strong>de</strong> g 0 y g 1 son <strong>de</strong>nsida<strong>de</strong>s a priori (propias) las cu<strong>al</strong>es <strong>de</strong>scriben, como lamasa a priori se extien<strong>de</strong> sobre las dos hipótesis. (Recor<strong>de</strong>mos que π 0 y π 1 sonlas probabilida<strong>de</strong>s a priori <strong>de</strong> Θ 0 y Θ 1 ). Con esta representación se pue<strong>de</strong> escribirα 0α 1=RRR Θ 0dF π(θ|x) (θ)Θ 1dF π(θ|x) (θ) = R Θ 0f(x|θ)π 0 dF g 0(θ)/m(x)= π 0Θ 1f(x|θ)π 1 dF g 1 (θ)/m(x)RR Θ 0f(x|θ)dF g 0(θ)π 1 Θ 1f(x|θ)dF g 1 (θ)por lo tantoRB = R Θ 0f(x|θ)dF g 0(θ)Θ 1f(x|θ)dF g 1 (θ)el cu<strong>al</strong> es la razón <strong>de</strong> verosimilitud <strong>de</strong> Θ 0 contra Θ 1. Por lo cu<strong>al</strong> g 0 y g 1 no pue<strong>de</strong>nser interpretadas como una medida <strong>de</strong>l soporte relativo para la hipótesis proporcionandosolamente los datos. Algunas veces, B pue<strong>de</strong> ser relativamente insesgadopara elecciones razonables <strong>de</strong> g 0 y g 1, en t<strong>al</strong> caso la interpretación es razonable.La ventaja operacion<strong>al</strong> princip<strong>al</strong> <strong>de</strong> tener t<strong>al</strong> factor <strong>de</strong> Bayes estable es que un reportecientífico pue<strong>de</strong> proporcionar este factor <strong>de</strong> Bayes, y cu<strong>al</strong>quier lector pue<strong>de</strong><strong>de</strong>terminar su probabilidad a posteriori person<strong>al</strong>, simplemente multiplicando elfactor <strong>de</strong> Bayes proporcionado por la probabilidad person<strong>al</strong> a priori.Ejemplo 3.1 (continuación <strong>de</strong>l ejemplo 2.6) Supóngase que el individuo <strong>al</strong> cu<strong>al</strong>se le hace la prueba <strong>de</strong> inteligencia, es clasificadoenrazón<strong>de</strong>suCI,quepue<strong>de</strong>ser menor o igu<strong>al</strong> que el CI medio (menor que 100) o mayor que el CI medio(más gran<strong>de</strong> que 100). Form<strong>al</strong>mente, se tomará una <strong>de</strong>cisión para contrastar H 0 :θ ≤ 100 contra H 1 : θ>100. Recordando que la distribución a posteriori <strong>de</strong> θ es


3.1. Contraste <strong>de</strong> hipótesis 25N (110.39, 69.23), estandarizando los resultados y <strong>usando</strong>tablas<strong>de</strong>ladistribuciónnorm<strong>al</strong> estándar, obtenemos queα 0 = P (θ ≤ 100|x) =0.106, α 1 = P (θ >100|x) =0.894,y por lo tanto la razón <strong>de</strong> probabilidad a posteriori es α 0 /α 1 =8.44. A<strong>de</strong>másπ 0 = P π (θ ≤ 100) = 1 = π 2 1 y la razón <strong>de</strong> probabilidad a priori es 1. (Noteque una razón a priori <strong>de</strong> probabilida<strong>de</strong>s <strong>de</strong> 1 indica que H 0 y H 1 son vistascomo igu<strong>al</strong>mente probables inici<strong>al</strong>mente). El factor <strong>de</strong> Bayes es entonces B =α 0 π 1 /(α 1 π 0 )=8.44.3.1.1. Contraste <strong>de</strong> hipótesis unilater<strong>al</strong>Un contraste <strong>de</strong> hipótesis unilater<strong>al</strong> ocurre cuando Θ ⊂ R 1 , éste contraste notiene una característica especi<strong>al</strong>. El interés esta en que es una <strong>de</strong> las pocas situaciones<strong>de</strong> contraste clásico para el cu<strong>al</strong> el uso <strong>de</strong>l v<strong>al</strong>or-p tiene una justificación<strong>bayesiana</strong>. Considérese el siguiente ejemplo.Ejemplo 3.2 Cuando X ∼ N (θ, σ 2 ) y θ tiene la distribución a priori no informativaπ(θ) =1, se pue<strong>de</strong> ver que π(θ|x) es N(x, σ 2 ). Consi<strong>de</strong>remos ahora lasituación <strong>de</strong> contraste H 0 : θ ≤ θ 0 contra H 1 : θ>θ 0 . Entoncesα 0 = P (θ ≤ θ 0 |x) =Φ((θ 0 − x)/σ),don<strong>de</strong>, nuevamente Φ es la función <strong>de</strong> distribución acumulada <strong>de</strong> una norm<strong>al</strong> estándar.El v<strong>al</strong>or-p clásico contra H 0 es la probabilidad cuando θ = θ 0 , <strong>de</strong> observarun X “más extremo” que el dato x actu<strong>al</strong>. Aquí el v<strong>al</strong>or-p pue<strong>de</strong> serv<strong>al</strong>or − p = P (X ≥ x) =1− Φ( x − θ 0).σPor la simetría <strong>de</strong> la distribución norm<strong>al</strong>, se sigue que α 0v<strong>al</strong>or-p contra H 0 .es igu<strong>al</strong> que el3.1.2. Contraste <strong>de</strong> hipótesis nula puntu<strong>al</strong>Es muy común en la estadística clásica plantear un contraste <strong>de</strong> la formaH 0 : θ = θ 0 contra H 1 : θ 6= θ 0 . T<strong>al</strong> contraste <strong>de</strong> hipótesis nula puntu<strong>al</strong> esinteresante, particularmente porque el enfoque bayesiano contiene <strong>al</strong>gunas característicasorigin<strong>al</strong>es, pero princip<strong>al</strong>mente porque las respuestas <strong>bayesiana</strong>s difierenradic<strong>al</strong>mente <strong>de</strong> las respuestas clásicas. Antes <strong>de</strong> discutir este tema, se <strong>de</strong>ben hacer<strong>al</strong>gunos comentarios acerca <strong>de</strong> este tipo <strong>de</strong> hipótesis. Primero, los contraste <strong>de</strong>


26 Capítulo 3. Contraste <strong>de</strong> hipótesis y análisis <strong>de</strong> varianzahipótesis nula puntu<strong>al</strong> son comúnmente re<strong>al</strong>izados en situaciones inapropiadas.En re<strong>al</strong>idad nunca se dá el caso que se consi<strong>de</strong>re la posibilidad que θ = θ 0 exactamente.Más razonable sería la hipótesis nula que θ ∈ θ 0 =(θ 0 − b, θ 0 + b),don<strong>de</strong> b>0 es <strong>al</strong>guna constante elegida t<strong>al</strong> que todo θ ∈ θ 0 pueda consi<strong>de</strong>rarse“indistinguible” <strong>de</strong> θ 0 .Dado que uno <strong>de</strong>be contrastar H 0 : θ ∈ (θ 0 − b, θ 0 + b), necesitamos saber¿cuándo es a<strong>de</strong>cuada la apoximación <strong>de</strong> H 0 por H 0 : θ = θ 0 ? Des<strong>de</strong> la perspectiva<strong>bayesiana</strong>, la respuesta es “la aproximación es razonable si la probabilidad aposteriori <strong>de</strong> H 0 está cerca <strong>de</strong> la igu<strong>al</strong>dad en ambos contrastes”. Una condiciónfuerte es que la función <strong>de</strong> probabilidad sea aproximadamente constante en (θ 0 −b, θ 0 + b).Ejemplo 3.3 Sea X 1 , ..., X n una muestra <strong>al</strong>eatoria con una distribución N (θ, σ 2 )don<strong>de</strong> σ 2 es conocida. La función <strong>de</strong> verosimilitud observada es entonces proporcion<strong>al</strong>a una <strong>de</strong>nsidad N (¯x, σ 2 /n) <strong>de</strong> θ. Estopue<strong>de</strong>serconstanteen(θ 0 −b, θ 0 +b)cuando b es pequeña comparada con σ/ √ n. Porejemplo,enuncasointeresantedon<strong>de</strong> es una prueba clásica z = √ n |¯x − θ 0 | /σ más gran<strong>de</strong> que 1, la función <strong>de</strong>verosimilitud pue<strong>de</strong> variar no más <strong>de</strong>l 5% en (θ 0 − b, θ 0 + b) sib ≤ (0.024)z −1 σ/ √ n.Cuando z =2, σ =1, y n =25,estoimponelacotab ≤ 0.024. Note que el límiteen b, <strong>de</strong>pen<strong>de</strong> <strong>de</strong> |¯x − θ 0 | , así como <strong>de</strong> σ/ √ n.Para re<strong>al</strong>izar un contraste bayesiano la hipótesis nula puntu<strong>al</strong> H 0 : θ = θ 0 , nose pue<strong>de</strong> usar una distribución a priori continua. Pues t<strong>al</strong> distribución a prioriy la distribución a posteriori darán una probabilidad <strong>de</strong> cero. Una aproximaciónrazonable es dar a θ 0 una probabilidad positiva π 0 mientras que a θ 6= θ 0 la<strong>de</strong>nsidad π 1 g 1 (θ), don<strong>de</strong> π 1 =1− π 0 y g 1 es propia. Uno pue<strong>de</strong> pensar a π 0 comolamasaqueseleasignaría<strong>al</strong>ahipótesisH 0 : θ ∈ (θ 0 − b, θ 0 + b).La <strong>de</strong>nsidad margin<strong>al</strong> <strong>de</strong> X esZm(x) = f(x|θ)dF π (θ) =f(x|θ 0 )π 0 +(1− π 0 )m 1 (x),don<strong>de</strong>Zm 1 (x) = f(x|θ)dF g 1(θ),(θ6=θ 0 )es la <strong>de</strong>nsidad margin<strong>al</strong> <strong>de</strong> X con respecto a g 1 . Por lo tanto la probabilidad a


3.2. Análisis <strong>de</strong> varianza 27posteriori <strong>de</strong> que θ = θ 0 esπ(θ 0 |x) = f(x|θ 0)π 0m(x)f(x|θ 0 )π 0=f(x|θ 0 )π 0 +(1− π 0 )m 1 (x)∙= 1+ (1 − π 0) m 1 (x)·π 0 f(x|θ 0 )¸−1.(3.2)Note que esto es α 0, yqueα 1 =1− α 0 es por lo tanto la probabilidad aposteriori <strong>de</strong> H 1 . Así la razón a posteriori <strong>de</strong> probabilida<strong>de</strong>s es (recordar queπ 1 =1− π o )α 0α 1=yelfactorH 0 contra H 1 esπ(θ 0|x)1 − π(θ 0 |x) = π 0 · f(x|θ 0 )π 1 · m 1 (x)3.1.3. Contraste <strong>de</strong> hipótesis múltipleB = f(x|θ 0 )/m 1 (x). (3.3)La característica interesante <strong>de</strong>l contraste <strong>de</strong> hipótesis múltiple es que no esmás difícil que un contraste <strong>de</strong> dos hipótesis, <strong>de</strong>s<strong>de</strong> una perspectiva <strong>bayesiana</strong>.Uno simplemente c<strong>al</strong>cula la probabilidad a posteriori <strong>de</strong> cada una <strong>de</strong> las hipótesis.Ejemplo 3.4 (continuación <strong>de</strong>l ejemplo 2.6). Consi<strong>de</strong>rando que el individuo <strong>al</strong>cu<strong>al</strong> se le hace la prueba <strong>de</strong> inteligencia es clasificado <strong>de</strong> acuerdo a su CI, en por<strong>de</strong>bajo <strong>de</strong>l promedio CI (menos que 90), el promedio CI (90 a 110) o por encima<strong>de</strong>l CI promedio (más que 110). Llamando a estas tres regiones como Θ 1, Θ 2, y Θ 3 ,respectivamente, y recordando que la distribución a posteriori es N(110.39,69.23),estandarizando los resultados y <strong>usando</strong> tablas <strong>de</strong> la distribución norm<strong>al</strong> estándar,obtenemos que para x =115: P (Θ 1 |x =115)=0.007, P(Θ 2 |x =115)=0.473 yP (Θ 3 |x =115)=0.520.Lo anterior nos indica que el nivel <strong>de</strong> inteligencia (CI) <strong>de</strong>l individuo encuestión, está por encima <strong>de</strong>l CI medio.3.2. Análisis <strong>de</strong> varianzaEn múltiples ocasiones el an<strong>al</strong>ista o investigador se enfrenta <strong>al</strong> problema <strong>de</strong><strong>de</strong>terminarsidosomásgrupossonigu<strong>al</strong>es,sidosomáscursos<strong>de</strong>acciónarrojanresultados similares o si dos o más conjuntos <strong>de</strong> observaciones son parecidos.


3.2. Análisis <strong>de</strong> varianza 31En sentido práctico, µ representa un efecto medio glob<strong>al</strong>, c<strong>al</strong>culado <strong>al</strong> combinar lask medias poblacion<strong>al</strong>es. Note que si los tamaños muestr<strong>al</strong>es son igu<strong>al</strong>es, entoncesµ es simplemente el promedio <strong>de</strong> las k medias poblacion<strong>al</strong>es. Puesto que d i es ladiferencia entre la media glob<strong>al</strong> µ y la media <strong>de</strong> la i − ésima población, d i mi<strong>de</strong>el efecto <strong>de</strong>l i − ésimo tratamiento. Advierta que:kXn i d i =i=1kXn i (µ i − µ) =i=1kXn i µ i − Nµ =0,por sustitución, el mo<strong>de</strong>lo <strong>de</strong> clasificación unidireccion<strong>al</strong> con efectos fijos pue<strong>de</strong>expresarse en cu<strong>al</strong>quiera <strong>de</strong> las tres formas siguientes:Mo<strong>de</strong>lo <strong>de</strong> efectos fijos<strong>de</strong>clasificación unidireccion<strong>al</strong>Y ij = µ i + ε ijY ij = µ +(µ i − µ)+(Y ij − µ i )Y ij = µ + d i + ε ij .Estos mo<strong>de</strong>los expresan matemáticamente la i<strong>de</strong>a <strong>de</strong> que cada respuesta pue<strong>de</strong>dividirse en tres componentes reconocibles, como sigue:i=1don<strong>de</strong>Y ij = µ +(µ i − µ)+(Y ij − µ i )ó Y ij = µ + d i + ijY ijEs la respuesta <strong>de</strong> la j − ésima unidad experiment<strong>al</strong> <strong>al</strong>i − ésimo tratamientoµ Es la respuesta media glob<strong>al</strong>(µ i − µ o d i ) Es la <strong>de</strong>sviación respecto <strong>de</strong> la media glob<strong>al</strong>, <strong>de</strong>bido a quela unidad recibió el i − ésimo tratamiento(Y ij − µ i o ij ) Es la <strong>de</strong>sviación <strong>al</strong>eatoria respecto <strong>de</strong> la i − ésima mediapoblacion<strong>al</strong> <strong>de</strong>bido a influencias <strong>al</strong>eatorias.La hipótesis nula <strong>de</strong> medias <strong>de</strong> tratamiento igu<strong>al</strong>es pue<strong>de</strong> expresarse <strong>de</strong> manera<strong>al</strong>ternativa <strong>al</strong> tomar nota <strong>de</strong> que si µ 1 = µ 2 = ... = µ k , entonces:Xn iµ = n i µ i /N = Nµ i /N = µ i para cada i =1, ..., ki=1y d i = µ i − µ =0para cada i. Ello implica que verificares equiv<strong>al</strong>ente a probar:H 0 : µ 1 = µ 2 = ... = µ kH 0 : d 1 = d 2 = ... = d k =0.


3.2. Análisis <strong>de</strong> varianza 33puesto que:asíXn ij=1(Y ij − Ȳ i+ ) =Xn ij=1ÃP nij=1Y ij − n i Ȳ i+ = n Y !iji − n i Ȳ i+n i= n i Ȳ i+ − n i Ȳ i+ =0kX Xn i(Y ij − Ȳ ++ ) 2 =i=1 j=1kXn i (Ȳ i+ − Ȳ ++ ) 2 +i=1kX Xn i(Y ij − Ȳ i+ ) 2i=1 j=1se tiene la llamada i<strong>de</strong>ntidad <strong>de</strong> la suma <strong>de</strong> cuadrados <strong>de</strong>l análisis <strong>de</strong> varianza<strong>de</strong> clasificación unidireccion<strong>al</strong>. Cada uno <strong>de</strong> los componentes <strong>de</strong> esta i<strong>de</strong>ntidadpue<strong>de</strong> interpretarse <strong>de</strong> manera que tenga sentido. En particular,kX Xn i(Y ij − Ȳ ++ ) 2 = Medida <strong>de</strong> la variabilidad <strong>de</strong> los datosi=1j=1= Suma <strong>de</strong> cuadrados tot<strong>al</strong> (SC Tot )kXn i (Ȳ i+ − Ȳ ++ ) 2 = Medida <strong>de</strong> la variabilidad <strong>de</strong> los datos atribuida <strong>al</strong>i=1hecho <strong>de</strong> que se usan diferentesniveles<strong>de</strong>factoreso tratamientos= Suma <strong>de</strong> cuadrados <strong>de</strong> los tratamientos (SC Tr )kX Xn i(Y ij − Ȳi+) 2 = Medida <strong>de</strong> la variabilidad <strong>de</strong> los datos atribuida a lai=1j=1fluctuación <strong>al</strong>eatoria entre los sujetos <strong>de</strong> un mismonivel <strong>de</strong> factor= Residuo o suma <strong>de</strong> cuadrados <strong>de</strong> error (SCE).De manera simbólica, la i<strong>de</strong>ntidad <strong>de</strong> la suma <strong>de</strong> cuadrados pue<strong>de</strong> escribirse como:SC Tot = SC Tr + SCE.En caso <strong>de</strong> existir diferencias entre las medias poblacion<strong>al</strong>es, se espera que en granparte <strong>de</strong> la variación en las respuestas se <strong>de</strong>ba <strong>al</strong> hecho <strong>de</strong> que se usan tratamientosdistintos. En otras p<strong>al</strong>abras, se espera que SC Tr sea gran<strong>de</strong> en comparación conSCE. En los procedimientos <strong>de</strong>l análisis <strong>de</strong> varianza, se usa esta i<strong>de</strong>a para probar


34 Capítulo 3. Contraste <strong>de</strong> hipótesis y análisis <strong>de</strong> varianz<strong>al</strong>a hipótesis nula <strong>de</strong> medias <strong>de</strong> tratamientos igu<strong>al</strong>es mediante la comparación <strong>de</strong> lavariación <strong>de</strong> los tratamientos (SC Tr ) contra la variación <strong>de</strong>l tratamiento (SCE)con una razón F apropiada.A fin <strong>de</strong> consi<strong>de</strong>rar una razón F apropiada, <strong>de</strong>ben consi<strong>de</strong>rarse los v<strong>al</strong>oresesperados <strong>de</strong> las estadísticas SC Tr y SCE. Ello requiere suponer en el mo<strong>de</strong>loque los errores <strong>al</strong>eatorios ij son variables <strong>al</strong>eatorias norm<strong>al</strong>mente distribuidas ein<strong>de</strong>pendientes, cada una con media 0 yvarianzaσ 2 . Por principio <strong>de</strong> cuentas,tome nota <strong>de</strong> que para cada i:Ȳ i+ =Xn ij=1(µ + d i + ij )/n iPn i µ + n i d i + n i=n i= µ + d i +¯ i+ .A<strong>de</strong>más, puesto que P ki=1 n id i =0, se tiene:Ȳ ++ =kX Xn iY ij /N =i=1j=1 ijj=1kX Xn i(µ + d i + ij )/Ni=1j=1= Nµ+ P ki=1 n id i + P k P nii=1 j=1 ijN= µ +¯ ++ .Luego <strong>de</strong> sustituir, es posible rescribir SC Tr como se muestra:SC Tr ==kXkXn i (Ȳ i+ − Ȳ ++ ) 2 = n i [(µ + d i +¯ i+ ) − (µ +¯ ++ )] 2i=1i=1kXn i (d i +¯ i+ − ¯ ++ ) 2 =kXkXkXn i d 2 i +2 n i d i¯ i+ + n i¯ 2 i+ − N¯ 2 ++.i=1i=1i=1i=1Al tomar el v<strong>al</strong>or esperado <strong>de</strong> cada término se tiene:E[SC Tr ]=kXkXn i d 2 i +2 n i d i E[¯ i+ ]+i=1i=1kXn i E[¯ 2 i+] − NE[¯ 2 ++]i=1


3.2. Análisis <strong>de</strong> varianza 35pero E[¯ 2 i+] =σ 2 /n i pues⎡E[¯ 2 i+] = E ⎣ÃniXj=1 ij /n i! 2⎤⎦ = E⎡⎣ÃniXj=1 ij! 2⎤⎦ /n 2 i= 1 n 2 iE[ 2 i1 + 2 i2 + ... + 2 in i+ i1 i2 + i1 i3 + ... + i1 ini + i2 i1 + i2 i3 + ... + i2 ini+... + ini i1 + ... + ini ini −1]= 1 [σ 2 + σ 2 + ... + σ 2 ]= n iσ 2= σ2.n 2 in 2 i n iPuesto que E[ 2 ij] =E[(Y ij − µ i ) 2 ]=σ 2 y E[ ij ]=E[(Y ij − µ i )] = E[Y ij ] − µ i =µ i − µ i =0.Un argumento similar muestra que E[¯ 2 ++] = σ2 . Es fácil ver que E[¯ N i+] =0.AsíE[SC Tr ] =kXn i d 2 i +i=1= (k − 1)σ 2 +kXi=1σ 2n i − N σ2n i NkXn i d 2 i .Luego <strong>de</strong> dividir SC Tr entre k − 1, se obtiene el estadístico llamada cuadradomedio <strong>de</strong>l tratamiento, que se <strong>de</strong>nota CM Tr . Dicho <strong>de</strong> otra manera:i=1CM Tr = SC Tr /(k − 1).Se pue<strong>de</strong> apreciar que E[CM Tr ]=σ 2 + P ki=1 n id 2 i /(k − 1). Recuer<strong>de</strong> que la suma<strong>de</strong> los cuadrados <strong>de</strong> los residuos ayuda a estimar σ 2 en el contexto <strong>de</strong> regresión.Lo mismo es válido aquí. A fin <strong>de</strong> obtener un estimador insesgado <strong>de</strong> σ 2 , sedivi<strong>de</strong> la suma <strong>de</strong> cuadrados <strong>de</strong> los residuos SCE entre N − k . Es un estimador<strong>de</strong>nominado cuadrado medio <strong>de</strong>l error y se <strong>de</strong>nota con CM E . En otras p<strong>al</strong>abras:CM E = SCE/(N − k).¿Cómo usar CM Tr y CM E para probar H 0 ?Afin <strong>de</strong> respon<strong>de</strong>r a esta preguntabasta tomar en cuenta que si H 0 es verda<strong>de</strong>ra, entonces d 1 = d 2 = ... = d k =0y,por en<strong>de</strong>, P ki=1 n id 2 i /(k − 1) = 0. En caso <strong>de</strong> que H 0 no sea verda<strong>de</strong>ra, entonceseste término es positivo. Así pues, en el primero <strong>de</strong> estos dos casos, se esperaríaque CM Tr y CM E tengan v<strong>al</strong>ores cercanos, ya que con ambas se estima σ 2 ,


36 Capítulo 3. Contraste <strong>de</strong> hipótesis y análisis <strong>de</strong> varianzamientras que en el segundo cabría esperar que la primera sea un tanto mayorque la segunda. Para probar la hipótesis nula H 0 : µ 1 = µ 2 = ... = µ k contra lahipótesis <strong>al</strong>ternativa H 1 : µ i 6= µ j para <strong>al</strong>gunas i y j se usaF k−1,N−k = CM Tr /CM E ,como estadístico <strong>de</strong> prueba lógico. Si H 0 es verda<strong>de</strong>ra, se espera que su v<strong>al</strong>or seacercano a 1, y en cu<strong>al</strong>quier otro caso, que sea mayor que 1. Esta razón pue<strong>de</strong>usarse como estadística <strong>de</strong> prueba, puesto que si la hipótesis nula es verda<strong>de</strong>ra,se sabe que tiene distribución F ,conk − 1 y N − k grados <strong>de</strong> libertad. La pruebasiempre es <strong>de</strong> cola <strong>de</strong>recha, con rechazo <strong>de</strong> H 0 en el caso <strong>de</strong> v<strong>al</strong>ores <strong>de</strong> la variable<strong>al</strong>eatoria F k−1,N−k que parecen <strong>de</strong>masiado gran<strong>de</strong>s para haber ocurrido <strong>al</strong> azar.Es posible que los v<strong>al</strong>ores <strong>de</strong> F = CM Tr /CM E sean menores que la unidad ya queF es una variable <strong>al</strong>eatoria. Dicho resultado pue<strong>de</strong> ocurrir únicamente por azaro causa <strong>de</strong> que el mo<strong>de</strong>lo line<strong>al</strong> supuesto sea incorrecto. Aunque en la práctica esusu<strong>al</strong> que el análisis <strong>de</strong> varianza se efectue mediante computadora, se cuenta con<strong>al</strong>gunosatajos<strong>de</strong>cálculo.Teorema 3.1SC Tot =kX Xn iYij 2 − T ++2Ni=1j=1SC Tr =kX Ti+2− T ++2ni=1 i NSCE = SC Tot − SC Tr .Demostración 1 Por <strong>de</strong>finición se tiene queSC Tot = SC Tr + SCE ===kXi=1i=1kXn i (Ȳ i+ − Ȳ ++ ) 2 +i=1n i (Ȳ 2i+ − 2Ȳ i+ Ȳ ++ + Ȳ 2 ++)+kXµ T2n i − 2Ȳ ++−2i+n 2 ikXT i+ Ȳ i+ +i=1kXi=1kX Xn i(Y ij − Ȳ i+ ) 2i=1j=1kX Xn i(Yij 2 − 2Y ij Ȳ i+ + Ȳ 2i=1j=1kXn i Ȳ i+ + NȲ++ 2 +i=1n i Ȳ 2i+kX Xn ii=1j=1Y 2iji+)


3.2. Análisis <strong>de</strong> varianza 37=====kXi=1−2i=1T 2i+kX− 2Ȳ ++ n i Ȳ i+ + NȲ++ 2 +n ikXi=1j=1T 2i+n i+kXi=1i=1kX Xn iYij 2 − 2Ȳ++kX Xn iYij 2 − 2Ȳ++i=1i=1j=1j=1n i Ȳ 2i+kXi=1n iT i+n ikX Xn ii=1+ NȲ 2 ++ −kXT i+ + NȲ ++ 2 =i=1kX Xn iYij 2 − 2 T ++N T ++ + N T ++2 kXN = 2kX Xn iYij 2 − T ++2N ,i=1j=1i=1i=1j=1kXi=1j=1Y 2ijT 2i+n i+kXi=1n iT 2i+n 2 ikX Xn iYij 2 − 2Ȳ++T ++ + NȲ ++2Xn ij=1Yij 2 − 2 T ++2N + T ++2Nporloquequeda<strong>de</strong>mostrad<strong>al</strong>aecuación1.Par<strong>al</strong>aecuación2tenemosquekXkXSC Tr = n i (Ȳ i+ − Ȳ ++ ) 2 = n i (Ȳi+ 2 − 2Ȳ i+ Ȳ ++ + Ȳ++)2======i=1kXµ T2n ii=1kXi=1kXi=1kXi=1kXi=1kXi=1i+n 2 iTi+2− 2Ȳ++n iTi+2− 2 T ++n i N− 2Ȳ++kXi=1i=1kXn i Ȳ i+ + NȲ ++2i=1n iT i+n i+ NȲ 2 ++kXiT i+ + Ni=1Ti+2− 2 T ++n i N T ++ + T ++2NTi+2− 2 T ++2n i N + T ++2NTi+2− T ++2n i Nµ T2++N 2Por lo tanto se cumple la ecuación 2. La ecuacion 3 es solo un <strong>de</strong>speje <strong>de</strong> SC Tot =SC Tr + SCE.¥


38 Capítulo 3. Contraste <strong>de</strong> hipótesis y análisis <strong>de</strong> varianzaLas i<strong>de</strong>as teóricas subyacentes <strong>al</strong> procedimiento <strong>de</strong> análisis <strong>de</strong> varianza en elcaso <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> efectos fijos<strong>de</strong>clasificación unidireccion<strong>al</strong> se resume en lasiguiente tabla.Tabla 3.2.ANOVA para clasificación unidireccion<strong>al</strong> con efectos fijosF. <strong>de</strong> var. G.l S.C C.M CME FTrat. o nivel k − 1kPi=1Ti+2n i− T ++2NSC Trk−1Error o residuo N − k SCESCETot<strong>al</strong> N − 1kP P nij=1 Y ij 2 − T ++2Ni=1σ 2 + P k n i d 2 ii=1 k−1N−kσ 2CM TrCM Edon<strong>de</strong> G.l son los grados <strong>de</strong> libertad, S.C la suma <strong>de</strong> cuadrados, C.M cuadradomedio y CME cuadrado medio esperado.Eluso<strong>de</strong>larazonF se ilustra con la continuación <strong>de</strong>l análisis <strong>de</strong> los datos<strong>de</strong>l carbón iniciado en el ejemplo 3.5.Ejemplo 3.7 Se ponen a pruebaH 0 : µ 1 = µ 2 = µ 3 = µ 4 = µ 5oH 0 : d 1 = d 2 = d 3 = d 4 = d 5 =0con base en los datos previos. Recuer<strong>de</strong> que µ i , i=1,2,3,4,5, <strong>de</strong>nota el contenidomedio <strong>de</strong> azufre <strong>de</strong> las cinco vetas <strong>de</strong> carbón princip<strong>al</strong>es <strong>de</strong> una región geográfica.Se tienen las estadísticas <strong>de</strong> resumen siguientes:T 1+ =11.62 T 4+ =7.04 n 1 =7 n 4 =8T 2+ =9.36 T 5+ =8.8 n 2 =9 n 5 =10T 3+ =13.14 T ++ =49.96 n 3 =9 N =42La única estadística adicion<strong>al</strong> necesaria es P 5i=1P nij=1 Y 2ij. En relación con losdatos <strong>de</strong>l ejemplo 3.5, esta estadística asume el v<strong>al</strong>or 67.81. Luego <strong>de</strong> sustituir en


3.2. Análisis <strong>de</strong> varianza 39las fórmulas <strong>de</strong> cálculo, se obtiene:SC Tot =SC Tr =5X Xn iYij 2 − T ++2Ni=15Xi=1j=1Ti+2− T ++2n i N=67.861 −(49.96)242= (11.62)2 + (9.36)2 + (13.14)2 + (7.04)27 8 9 8= 3.935SCE = SC Tot − SC Tr =8.432 − 3.935 = 4.497CM Tr = SC Trk − 1 = 3.935 =0.9844CM E = SCEN − k = 4.497 =0.122.37=8.432+ (8.8)210− (49.96)242El v<strong>al</strong>or observado <strong>de</strong> la estadística <strong>de</strong> prueba F k−1,N−k = F 4,37 es:F 4,37 = CM TrCM E= 0.9840.122 =8.066.Puesto que f 0,05 (4,37) . =2.626, es posible rechazar H 0 con p


40 Capítulo 3. Contraste <strong>de</strong> hipótesis y análisis <strong>de</strong> varianzaparticular cuando los tamaños muestr<strong>al</strong>es difieren mucho. Antes <strong>de</strong> empren<strong>de</strong>r elanálisis <strong>de</strong> varianza, es necesario probar las hipótesis:H 0 : σ 2 1 = σ 2 2 = ... = σ 2 kH 1 : σ 2 i 6= σ 2 j para <strong>al</strong>gunas i y j.Si se rechaza H 0 , se <strong>de</strong>be usar un análisis no paramétrico o re<strong>al</strong>izar una transformación<strong>de</strong> los datos con la esperanza <strong>de</strong> estabilizar las varianzas. La prueba másusada para poner a prueba la hipótesis nula <strong>de</strong> varianzas igu<strong>al</strong>es es la prueba <strong>de</strong>Bartlett. La prueba <strong>de</strong> Bartlett se inicia con el cálculo <strong>de</strong> las varianzas muestr<strong>al</strong>esS1,S 2 2, 2 ..., Sk 2 <strong>de</strong> cada una <strong>de</strong> las k muestras. También se <strong>de</strong>termina el cuadradomedio <strong>de</strong>l error, la estimacion pon<strong>de</strong>rada <strong>de</strong> σ 2 bajo el supuesto <strong>de</strong> que la hipótesisnula es verda<strong>de</strong>ra. En este contexto, resulta conveniente el cálculo directo <strong>de</strong>CM E a partir <strong>de</strong> las varianzas muestr<strong>al</strong>es individu<strong>al</strong>es, mediante la ecuación:CM E = S 2 p =kXi=1(n i − 1)S 2 iN − k .Luego se forma la estadística Q, <strong>de</strong>finida por:Q =(N − k)log 10 S 2 p −kX(n i − 1) log Si 2 .i=1El v<strong>al</strong>or esperado <strong>de</strong> ésta estadística es gran<strong>de</strong> cuando las varianzas muestr<strong>al</strong>esS 2 i ,i=1, 2,...,k son muy distintas, y es cercano a 0 si dichas varianzas tambiénguardan cercanía en sus v<strong>al</strong>ores. Para probar la hipótesis nula H 0 : σ 2 1 = σ 2 2 =... = σ 2 k contra la hipótesis <strong>al</strong>ternativa H 1 : σ 2 i 6= σ 2 j para <strong>al</strong>gunas i y j, se usa elestadístico <strong>de</strong> Bartlett <strong>de</strong>finido por:don<strong>de</strong>h =1+B =2.3026Q/hà kX13(k − 1)i=1A continuación se mostrará el uso <strong>de</strong> esta prueba.!1n i − 1 − 1 .N − kEjemplo 3.8 Nuevamente regresemos a los datos <strong>de</strong> las vetas <strong>de</strong> carbón <strong>de</strong>l ejemplo3.5. Deben c<strong>al</strong>cularse las varianzas muestr<strong>al</strong>es y sus logaritmos para cada uno<strong>de</strong> los cinco niveles <strong>de</strong>l factor. Los resultados <strong>de</strong> esos cálculos se resumen a continuación:


3.2. Análisis <strong>de</strong> varianza 41veta <strong>de</strong> carbón varianza muestr<strong>al</strong> (Si 2 ) log 10 S 2 i Tamaño muestr<strong>al</strong> (n i )1 0.175 -0.757 72 0.144 -0.842 83 0.115 -0.939 94 0.123 -0.910 85 0.074 -1.131 10La estimación agrupada <strong>de</strong> σ 2 es:kXCM E = Sp 2 (n i − 1)Si2 =N − kpor sustitución, se tiene:yi=16(0.175) + 7(0.144) + 8(0.115) + 7(0.123) + 9(0.074)=42 − 5= 0.122,Q = (N − k)log 10 S 2 p −kX(n i − 1) log Si2i=1= 37log 10 0.122−[6(−0.757) + 7(−0.842) + 8(−0.939) + 7(−0.910) + 9(−1.131)]= 0.692,Ã kX!11h = 1+3(k − 1) ni=1 i − 1 − 1N − k= 1+ 1 ∙ 13(4) 6 + 1 7 + 1 8 + 1 7 + 1 9 37¸− 1= 1.055.El v<strong>al</strong>or observado <strong>de</strong> la estadística <strong>de</strong> Bartlett es:B = 2.3026Q/h= 2.3026(0.692)/1.055= 1.510.Basado en la distribución ji − cuadrada, X 2 k−1 = X2 4, el v<strong>al</strong>or-p se ubica entre0.75 y 0.9. Puesto que es un v<strong>al</strong>or gran<strong>de</strong> resulta imposible rechazar:H 0 : σ 2 1 = σ 2 2 = σ 2 3 = σ 2 4 = σ 2 5.


42 Capítulo 3. Contraste <strong>de</strong> hipótesis y análisis <strong>de</strong> varianza3.3. Análisis <strong>de</strong> varianza bidireccion<strong>al</strong>Se recurre <strong>al</strong> procedimiento llamado uso <strong>de</strong> bloques cuando se preten<strong>de</strong> compararlas medias <strong>de</strong> k poblaciones en presencia <strong>de</strong> una variable extraña. Un bloquees un conjunto <strong>de</strong> k unida<strong>de</strong>s experiment<strong>al</strong>es tan parecidas como sea posible enlo relativo a la variable extraña. Cada tratamiento asigna <strong>al</strong>eatoriamente a unaunidad <strong>de</strong> cada bloque. Puesto que el efecto <strong>de</strong> la variable extraña se controlacon el emparejamiento <strong>de</strong> unida<strong>de</strong>s experiment<strong>al</strong>es similares, toda diferencia enla respuesta se atribuye a los efectos <strong>de</strong>l tratamiento.El diseño experiment<strong>al</strong> an<strong>al</strong>izado en esta sección se llama diseño <strong>de</strong> bloquescompletos <strong>al</strong>eatorizados con efectos fijos. En dicha expresión, bloques se refiere aque las unida<strong>de</strong>s experiment<strong>al</strong>es se emparejan en lo concerniente a una variableextraña; <strong>al</strong>eatorizados, a que los tratamientos se asignan <strong>de</strong> manera <strong>al</strong>eatoria <strong>al</strong>interior <strong>de</strong> los bloques, y completo, a que cada tratamiento se usa exactamenteuna vez en cada bloque. La expresión “efectos fijos” es aplicable a los bloquesy tratamientos, es <strong>de</strong>cir, se supone que ni los bloques ni los tratamientos se<strong>seleccion</strong>an <strong>al</strong> azar. Todas las inferencias elaboradas se aplican únicamente a losk tratamientos y b bloques usados re<strong>al</strong>mente.La hipótesis que interesa es la <strong>de</strong> media <strong>de</strong> tratamientos igu<strong>al</strong>es, dada por:H 0 : µ 1+ = µ 2+ = ... = µ k+don<strong>de</strong> µ k+ <strong>de</strong>nota la media <strong>de</strong>l i − ésimo tratamiento.En cuanto a la notación, Y ij <strong>de</strong>nota la respuesta <strong>de</strong>l i−ésimo tratamiento en elj−ésimo bloque, con i =1, 2, ..., k y j =1, 2, ..., b. Advierta que b indica el número<strong>de</strong> bloques usado en el experimento y el número <strong>de</strong> observaciones por tratamiento;k <strong>de</strong>nota el número <strong>de</strong> tratamientos que se estudia y el <strong>de</strong> observaciones porbloque, y N = kb, el número tot<strong>al</strong> <strong>de</strong> respuestas. Los datos recopilados en unexperimento <strong>de</strong> bloques completos <strong>al</strong>eatorizados y <strong>al</strong>gunas estadísticas muestr<strong>al</strong>esimportantes se presentan <strong>de</strong> manera conveniente en la siguiente tabla:Tabla 3.4.Disposición <strong>de</strong> datos <strong>de</strong> bloques completos <strong>al</strong>eatorizadosTratamientoBloque 1 2 3 ··· k Bloq.tot. Med.<strong>de</strong>lbloque1 Y 11 Y 21 Y 31 Y k1 T +1 Ȳ +12 Y 12 Y 22 Y 32 Y k2 T +2 Ȳ +23 Y 13 Y 23 Y 33 Y k3 T +3 Ȳ +3. . . . . ..b Y 1b Y 2b Y 3b Y kb T +b Ȳ +bTot. <strong>de</strong>l trat. T 1+ T 2+ T 3+ ···Med. <strong>de</strong>l trat. Ȳ 1+ Ȳ 2+ Ȳ 3+ ···T k+Ȳ k+T ++Ȳ ++


3.3. Análisis <strong>de</strong> varianza bidireccion<strong>al</strong> 43Note que:T i+ = tot<strong>al</strong><strong>de</strong>todaslasrespuestas<strong>al</strong>i − ésimo tratamiento =Ȳ i+ = media muestr<strong>al</strong> <strong>de</strong>l i − ésimo tratamiento = T i+ /bkXT +j = tot<strong>al</strong> <strong>de</strong> respuestas <strong>de</strong>l j − ésimo bloque =Ȳ +j = media muestr<strong>al</strong> <strong>de</strong>l j − ésimo bloque = T +j /kT ++ =kX bX kXtot<strong>al</strong><strong>de</strong>todaslasrespuestas = Y ij = T i+ =i=1j=1Ȳ ++ = media<strong>de</strong>todaslasrepuestas = T ++ /N.3.3.1. El mo<strong>de</strong>loEn la redacción <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong>l diseño <strong>de</strong> bloques completos <strong>al</strong>eatorizados conefectos fijos, se requiere la notación siguiente:µ ij = media <strong>de</strong>l i − ésimo tratamiento <strong>al</strong> j − ésimo bloquebXµ i+ = media <strong>de</strong>l i − ésimo tratamiento= µ ij /bµ +j = media <strong>de</strong>l j − ésimo bloque=µ = media glob<strong>al</strong> =kXi=1bXµ ij /kbj=1j=1kXµ ij /kτ i = µ i+ − µ = efecto <strong>de</strong>bido <strong>al</strong> hecho <strong>de</strong> que la unidad experiment<strong>al</strong>recibió el i − ésimo tratamientoβ j = µ +j − µ = efecto <strong>de</strong>bido <strong>al</strong> hecho <strong>de</strong> que la unidad experiment<strong>al</strong>está en el j − ésimo bloque ij = Y ij − µ ij = error residu<strong>al</strong> o <strong>al</strong>eatorio.i=1i=1i=1Y ijbXj=1bXj=1Y ijT +jAhora, es posible expresar el mo<strong>de</strong>lo como sigue:Mo<strong>de</strong>lo para el diseño <strong>de</strong> bloques completos <strong>al</strong>eatorizadosY ij = µ + τ i + β j + ij .


44 Capítulo 3. Contraste <strong>de</strong> hipótesis y análisis <strong>de</strong> varianzaEste mo<strong>de</strong>lo expresa simbolicamente el concepto <strong>de</strong> que cada observación se pue<strong>de</strong>dividir en cuatro componentes reconocibles: la media <strong>de</strong> efecto glob<strong>al</strong> µ, el efecto<strong>de</strong> tratamiento τ i , el efecto <strong>de</strong> bloque β j y una <strong>de</strong>sviación <strong>al</strong>eatoria ij que seatribuye a fuentes inexplicadas. Se tienen los siguientes supuestos <strong>de</strong>l mo<strong>de</strong>lo:1. Las k ·b observaciones constituyen muestras <strong>al</strong>eatorias in<strong>de</strong>pendientes, cadauno <strong>de</strong> tamaño 1, <strong>de</strong> k · b poblaciones con medias <strong>de</strong>sconocidas µ ij .2. Cada una <strong>de</strong> las k · b poblaciones tienen distribución norm<strong>al</strong>.3. Cada una <strong>de</strong> las k · b poblaciones tienen la misma varianza, σ 2 .4. Los efectos <strong>de</strong> bloque y tratamiento son aditivos, es <strong>de</strong>cir, no existe interacción<strong>de</strong> los bloques con los tratamientos.Los supuestos 1-3 son idénticos a los <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> clasificación unidireccion<strong>al</strong>,s<strong>al</strong>vo que se consi<strong>de</strong>ran k · b, no k, poblaciones. Afirmarquelosefectos<strong>de</strong>bloquey tratamiento son aditivos significa que los tratamientos tienen comportamientoconstante <strong>de</strong> un bloque a otro, y los bloques lo tienen <strong>de</strong> un tratamiento a otro.En lo matemático, esa natur<strong>al</strong>eza aditiva significa que:µ ij = µ + τ i + β j= µ +(µ i+ − µ)+(µ +j − µ).Al sustituir, pue<strong>de</strong> reescribirse el mo<strong>de</strong>lo teórico como sigue:µ ij − µ = τ i + β j= (µ i+ − µ)+(µ +j − µ)+ © µ ij − £ µ +(µ i+ − µ)+(µ +j − µ) ¤ª .El remplazo <strong>de</strong> los parámetros con sus estimadores insesgados respectivos lleva a:Y ij −Ȳ++ =(Ȳi+−Ȳ++)+(Ȳ+j−Ȳ++)+ © Y ij − £ Ȳ ++ +(Ȳi+ − Ȳ++)+(Ȳ+j − Ȳ++) ¤ª .Si cada miembro <strong>de</strong> esta idéntidad se eleva <strong>al</strong> cuadrado, se suma respecto <strong>de</strong> todoslos v<strong>al</strong>ores posibles <strong>de</strong> i y j, y se simplifica, resulta la idéntidad siguiente <strong>de</strong> suma<strong>de</strong> cuadrados <strong>de</strong>l diseño <strong>de</strong> bloques completamente <strong>al</strong>eatorizados:kX bX(Y ij − Ȳ ++ ) 2 =i=1 j=1kXbXb(Ȳ i+ − Ȳ ++ ) 2 + k(Ȳ +j − Ȳ ++ ) 2i=1+kXi=1 j=1j=1bX(Y ij − Ȳ i+ − Ȳ +j − Ȳ ++ ) 2 .La interpretación práctica <strong>de</strong> cada componente es similar a la <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong>


3.3. Análisis <strong>de</strong> varianza bidireccion<strong>al</strong> 45clasificación unidireccion<strong>al</strong>. En particular:kX bX(Y ij − Ȳ++) 2 = medida <strong>de</strong> la variabilidad tot<strong>al</strong> <strong>de</strong> los datoskXi=1i=1j=1= suma <strong>de</strong> cuadrados tot<strong>al</strong> (SC Tot )kXb(Ȳ i+ − Ȳ ++ ) 2 = medida <strong>de</strong> la variabilidad tot<strong>al</strong> <strong>de</strong> los datosi=1atribuibles <strong>al</strong> uso <strong>de</strong> tratamientos distintos= suma <strong>de</strong> cuadrados <strong>de</strong> los tratamientos (SC Tr )bXk(Ȳ+j − Ȳ++) 2 = medida <strong>de</strong> la variabilidad tot<strong>al</strong> <strong>de</strong> los datosj=1atribuibles <strong>al</strong> uso <strong>de</strong> bloques distintos= suma <strong>de</strong> cuadrados <strong>de</strong> los bloques (SCB)bX(Y ij − Ȳi+ − Ȳ+j − Ȳ++) 2 = medida <strong>de</strong> la variabilidad <strong>de</strong> los datos <strong>de</strong>bidaj=1a factores <strong>al</strong>eatorios= residuo o suma <strong>de</strong> cuadrados <strong>de</strong>l error (SCE).En forma simbólica, la i<strong>de</strong>ntidad <strong>de</strong> la suma <strong>de</strong> cuadrados es:I<strong>de</strong>ntidad conceptu<strong>al</strong> <strong>de</strong> suma <strong>de</strong> cuadrados <strong>de</strong> bloques <strong>al</strong>eatorizadosSC Tot = SC Tr + SCB + SCE.La hipótesis <strong>de</strong> medias <strong>de</strong> tratamientos igu<strong>al</strong>es pue<strong>de</strong> expresarse con base enlos efectos <strong>de</strong> tratamientos τ i . A fin <strong>de</strong> ver cómo se logra, note que si µ 1+ = µ 2+ =... = µ k+ ,entoncesµ ==kXi=1bXµ ij /kbj=1kXµ i+ /ki=1= µ i+ para cada i =1, 2, ..., k.Por <strong>de</strong>finición, τ i = µ i+ − µ. Por en<strong>de</strong>, si las medias <strong>de</strong> tratamiento son igu<strong>al</strong>es,su v<strong>al</strong>or común es µ y cada efecto <strong>de</strong> tratamiento tiene v<strong>al</strong>or 0. La hipótesis nula<strong>de</strong>l experimento:H 0 : µ 1+ = µ 2+ = ... = µ k+


46 Capítulo 3. Contraste <strong>de</strong> hipótesis y análisis <strong>de</strong> varianzaes equiv<strong>al</strong>ente a:H 0 : τ 1 = τ 2 = ... = τ k =0.Al igu<strong>al</strong> que el caso <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> clasificación unidireccion<strong>al</strong>, esta forma <strong>de</strong> H 0 esútil si se preten<strong>de</strong> consi<strong>de</strong>rar el diseño <strong>de</strong> bloques completos <strong>al</strong>eatorizados comoun mo<strong>de</strong>lo line<strong>al</strong> gener<strong>al</strong> y an<strong>al</strong>izar los datos mediante técnicas <strong>de</strong> regresión.3.3.2. Prueba <strong>de</strong> H 0La prueba <strong>de</strong> esta hipótesis se obtiene <strong>de</strong> manera similar a la utilizada en eldiseño <strong>de</strong> clasificación unidireccion<strong>al</strong>. El uso <strong>de</strong> los supuestos <strong>de</strong>l mo<strong>de</strong>lo y lasreglas <strong>de</strong> la esperanza permite <strong>de</strong>mostrar que el cuadrado <strong>de</strong> medias esperadas<strong>de</strong> los tratamientos esta dada por:E[CM Tr ] = E[SC Tr /(k − 1)]Pb k τ 2 i= σ 2 i=1+(k − 1) .Definir el cuadrado medio <strong>de</strong>l error requiere notar en primer término que losgrados <strong>de</strong> libertad relacionados con esta estadística correspon<strong>de</strong>n a lo usu<strong>al</strong>, asaber:kb − 1 − [(k − 1) + (b − 1)] = (k − 1)(b − 1).Al igu<strong>al</strong> que antes, el cuadrado medio <strong>de</strong>l error es un estimador insesgado <strong>de</strong> σ 2 .En otras p<strong>al</strong>abras :E[CM E ]=E[SC E /(k − 1)(b − 1)] = σ 2 .A fin <strong>de</strong> probar la hipótesis nula siguiente:H 0 : τ 1 = τ 2 = ... = τ k =0 ó H 0 : µ 1+ = µ 2+ = ... = µ k+se usa la razón F :F = CM Tr,CM Edon<strong>de</strong> CM Tr = SC Tr. La hipótesis H (k−1) 0 se <strong>de</strong>bería <strong>de</strong> rechazar si CM TrCM E>c,don<strong>de</strong> ces una constante apropiada cuyo v<strong>al</strong>or se pue<strong>de</strong> <strong>de</strong>terminar para cu<strong>al</strong>quier nivel <strong>de</strong>significación a partir <strong>de</strong> una tabla <strong>de</strong> la distribución F con (k −1) y (k −1)(b −1)grados <strong>de</strong> libertad. La prueba sirve para rechazar H 0 si el v<strong>al</strong>or observado <strong>de</strong>lestadístico <strong>de</strong> prueba es excesivamente gran<strong>de</strong> para haber ocurrido <strong>al</strong> azar.


3.3. Análisis <strong>de</strong> varianza bidireccion<strong>al</strong> 47Análogamente, supóngase ahora que se van a contrastar las siguientes hipótesis:H 0 : β 1 = β 2 = ... = β b =0H 1 : La hipótesis H 0 no es cierta.Cuando la hipótesis nula H 0 es cierta el estadístico <strong>de</strong> prueba tendrá unadistribución F con (b − 1) y (k − 1)(b − 1) grados <strong>de</strong> libertad:F = CM BCM E,don<strong>de</strong> CM B = SCB . La hipótesis H (b−1) 0 se <strong>de</strong>bería <strong>de</strong> rechazar si CM BCM E>c,don<strong>de</strong> ces una constante apropiada cuyo v<strong>al</strong>or se pue<strong>de</strong> <strong>de</strong>terminar para cu<strong>al</strong>quier nivel <strong>de</strong>significaciónapartir<strong>de</strong>unatabla<strong>de</strong>ladistribuciónF con (b − 1) y (k − 1)(b − 1)grados <strong>de</strong> libertad. En la tabla 5.5 se resumen las i<strong>de</strong>as <strong>de</strong>sarrolladas en estasección y se incluyen <strong>al</strong>gunas fórmulas <strong>de</strong> cálculo <strong>de</strong> SC Tr y SCB.Tabla 3.5.ANOVA para diseño <strong>de</strong> bloques completos <strong>al</strong>eatorizados <strong>de</strong> efectos fijosF. <strong>de</strong> var. G.l. S.C C.M CME FkPPTrat. k − 1σ 2 + b kBloque b − 1i=1bPj=1Ti+2 − T ++2b kbT+j2 − T ++2k kbSC Tr(k−1)SCB(b−1)Error (k − 1)(b − 1) sustracciónSCETot<strong>al</strong> kb − 1kP bPYij 2 − T ++2Ni=1 j=1(k−1)(b−1)i=1σ 2 + k b PA manera <strong>de</strong> ilustración, se an<strong>al</strong>izan los datos <strong>de</strong>l siguiente ejemplo:j=1τ 2 i(k−1)β 2 j(b−1)Ejemplo 3.9 Los funcionarios <strong>de</strong> un sistema <strong>de</strong> transporte pequeño, con apenascinco autobuses, necesitan ev<strong>al</strong>uar el <strong>de</strong>sgaste <strong>de</strong> cuatro tipos <strong>de</strong> neumáticos.Cada uno <strong>de</strong> los autobuses tiene ruta distinta, <strong>de</strong> modo que las condiciones <strong>de</strong>terreno y <strong>de</strong> conducción difieren <strong>de</strong> un vehiculo a otro. Es apropiado un diseño<strong>de</strong> bloques bidireccion<strong>al</strong> para controlar el efecto <strong>de</strong> esta variable extraña. Cadaautobús constituye un bloque y cada tipo <strong>de</strong> neumático, un tratamiento. En otrasp<strong>al</strong>abras se intenta probar :H 0 : µ 1+ = µ 2+ = µ 3+ = µ 4+ .CM TrCM ECM BCM E


48 Capítulo 3. Contraste <strong>de</strong> hipótesis y análisis <strong>de</strong> varianzaSe tienen c<strong>al</strong>culadas las estadísticas <strong>de</strong> resumen siguientes:T 1+ =61.8 T +1 =58.8 T ++ =355T 2+ =100 T +2 =78.0T 3+ =119.3 T +3 =80.1T 4+ =73.9 T +4 =64.7T +5 =73.4Tabla 3.6.ANOVA <strong>de</strong> datos <strong>de</strong> <strong>de</strong>sgaste <strong>de</strong> neumáticosF. <strong>de</strong> variación G.l S.C C.M FTratamientos 3 401.338 133.779 61.340Bloque 4 81.525 20.381 9.345 ∗Error 12 26.167 2.181Tot<strong>al</strong> 19 509.030En relación con los datos que se tienen X 4 X 5 Y ij2 =6810.28. El usoi=1 j=1<strong>de</strong> las fórmulas <strong>de</strong> cálculo <strong>de</strong> la tabla (3.5) <strong>de</strong>be permitir que el lector verifiquemuchas <strong>de</strong> las cifras <strong>de</strong> la tabla ANOVA mostradas en la tabla anterior (3.6).Puesto que f 0.05 (3, 12) = 3.49 y 61.34 > 3.49, es posible rechazar:H 0 : µ 1+ = µ 2+ = µ 3+ = µ 4+con p 3.26, es posible rechazar la hipótesis nula H 0 : β 1 =β 2 = ... = β 5 =0.


Capítulo 4Factores <strong>de</strong> Bayes intrínsecos4.1. Factores <strong>de</strong> Bayes intrínsecos para selección<strong>de</strong> mo<strong>de</strong>los¿Es necesario otro criterio para la selección <strong>de</strong> mo<strong>de</strong>los? Obviamente pensamos,¿para qué? Primero, sentimos que el mo<strong>de</strong>lo <strong>de</strong> selección <strong>de</strong>be tener unabase <strong>bayesiana</strong>. La selección <strong>de</strong> mo<strong>de</strong>los <strong>de</strong> métodos bayesianos y contraste <strong>de</strong>hipótesis son particularmente necesarios por las siguientes razones:a) Medidas basadas en cálculos frecuentistas, t<strong>al</strong> como v<strong>al</strong>or-p son las másgran<strong>de</strong>s dificulta<strong>de</strong>s y las más engañosas.b)Análisis<strong>de</strong>mo<strong>de</strong>losnoanidadosy/ocontraste<strong>de</strong>hipótesisesmuydificultosoen un marco frecuentista.c) Métodos no bayesianos tienen dificultad incorporada. Si dos mo<strong>de</strong>los explicandatos igu<strong>al</strong>mente <strong>de</strong> bien, entonces el mo<strong>de</strong>lo más simple será preferido, losfactores <strong>de</strong> Bayes hacen esto automáticamente.d) La predicción es frecuentemente la meta re<strong>al</strong>.Una premisa básica <strong>de</strong> nuestra motivación es que uno necesita métodos automáticos<strong>de</strong> selección <strong>de</strong> mo<strong>de</strong>los. La comunidad <strong>bayesiana</strong> continua un <strong>de</strong>batesobre que métodos <strong>de</strong>ben ser usados, objetivos o subjetivos; muchos bayesianosaceptan que ambos métodos pue<strong>de</strong>n ser usados. El argumento a favor <strong>de</strong> métodosautomáticos <strong>de</strong> selección <strong>de</strong> mo<strong>de</strong>los es particularmente evi<strong>de</strong>nte, porque frecuentementeuno tiene inici<strong>al</strong>mente una gran variedad <strong>de</strong> mo<strong>de</strong>los, y una especificacióncuidadosa <strong>de</strong> distribuciones a priori para todos los parámetros <strong>de</strong> todoslos mo<strong>de</strong>los es típicamente no factible. Sin embargo, estos procedimientos tienenla limitación <strong>de</strong> que si se trabaja con distribuciones a priori impropias, entonceslosfactores<strong>de</strong>Bayesquedan<strong>de</strong>finidos s<strong>al</strong>vo una constante multiplicativa.A continuación an<strong>al</strong>izaremos una técnica para el <strong>de</strong>sarrollo <strong>de</strong> factores <strong>de</strong>49


50 Capítulo 4. Factores <strong>de</strong> Bayes intrínsecosBayespor<strong>de</strong>fecto,loscu<strong>al</strong>esllamaremosFactores<strong>de</strong>Bayesintrínsecos(FBI).4.1.1. PreliminaresConsi<strong>de</strong>remos los mo<strong>de</strong>los M 1 ,M 2 ,...,M n bajo la consi<strong>de</strong>ración que los datostienen <strong>de</strong>nsidad f i (x|θ i ) bajo el mo<strong>de</strong>loM i . Los vectores <strong>de</strong> parámetros θ i son<strong>de</strong>sconocidos y <strong>de</strong> dimensión k i .En el procedimiento bayesiano <strong>de</strong> selección <strong>de</strong> mo<strong>de</strong>los, bajo el enfoque M-cerrado se proce<strong>de</strong> <strong>seleccion</strong>ando distribuciones a priori π i (θ i ), para los parámetros<strong>de</strong> cada mo<strong>de</strong>lo, junto con probabilida<strong>de</strong>s a priori p i <strong>de</strong> que cada mo<strong>de</strong>lo seaverda<strong>de</strong>ro. La probabilidad a posteriori que M i es verda<strong>de</strong>ro es entonces:P (M i |x) =Ã nXj=1don<strong>de</strong> B ji es el factor <strong>de</strong> Bayes <strong>de</strong> M j a M i ,<strong>de</strong>finido por:p jp i· B ji! −1, (4.1)B ji = m Rj(x)m i (x) = fj (x|θ j )π j (θ j )dθR j, (4.2)fi (x|θ i )π i (θ i )dθ iaquí m j (x) es la margin<strong>al</strong> o <strong>de</strong>nsidad predictiva <strong>de</strong> X bajo el mo<strong>de</strong>lo M j .La <strong>de</strong>mostración <strong>de</strong> la ecuación (4.1) es como sigueP (M i |x) = P (x|M i)P (M i )=P (x)P (x|Mi)P (Mi)nXP (x|M j )P (M j )j=1=Ã nXm i (x)p i= nXj=1m j (x)p jj=1! −1 Ã nX! −1m j (x)p jp j= · B ji .m i (x)p i pj=1 iAunque usamos un lenguaje bayesiano estándar, note que no asumimos estrictamenteque uno <strong>de</strong> los mo<strong>de</strong>los es el verda<strong>de</strong>ro; en particular B ji pue<strong>de</strong> ser vistocomo el cociente <strong>de</strong> verosimilitud <strong>de</strong> M j con M i , y por lo tanto pue<strong>de</strong> interpretarsesolamente en términos comparativos <strong>de</strong> soporte <strong>de</strong> los datos para los dos mo<strong>de</strong>los.Aunque form<strong>al</strong>mente se discutirá solo el problema <strong>de</strong> selección <strong>de</strong> mo<strong>de</strong>los, éste<strong>de</strong>sarrollo pue<strong>de</strong> ser aplicable <strong>al</strong> contraste <strong>de</strong> hipótesis.Para c<strong>al</strong>cular B ji se requiere la especificación <strong>de</strong> π i (θ i ) y π j (θ j ). Frecuentementeen análisis bayesiano, uno pue<strong>de</strong> usar distribuciones a priori no informativasπ N i (θ i ). Comúnmente se elige la “distribución a priori uniforme”, π U i (θ i )=1;la


4.1. Factores <strong>de</strong> Bayes intrínsecos para selección <strong>de</strong> mo<strong>de</strong>los 51distribución a priori <strong>de</strong> Jeffreys, π J i (θ i )=(<strong>de</strong>t(I i (θ i ))) 1 2 ,don<strong>de</strong>I i (θ i ) es la matriz<strong>de</strong> información esperada <strong>de</strong> Fisher correspondiente <strong>al</strong> mo<strong>de</strong>lo M i ;yladistribucióna priori <strong>de</strong> referencia, π R i (θ i )) la cu<strong>al</strong> ha sido probada por Bernardo (1979)y Berger y Bernardo (1992).Usando cu<strong>al</strong>quiera <strong>de</strong> las distribuciones a priori antes mencionadas, obtenemosRBji N = mN j (x)m N i (x) = fj (x|θ j )π N j (θ j )dθ jRfi (x|θ i )π N i (θ , (4.3)i)dθ ila dificultad con la ecuación (4.3) es que π N i (θ i ) son típicamente impropias, ypor lo tanto son <strong>de</strong>finidas s<strong>al</strong>vo constantes arbitrarias c i .PorlotantoB ji esta<strong>de</strong>finido s<strong>al</strong>vo una constante c j /c i la cu<strong>al</strong> es arbitraria.Una solución común a este problema es usar parte <strong>de</strong> los datos como unamuestra <strong>de</strong> entrenamiento. Sea x(l) que<strong>de</strong>not<strong>al</strong>aparte<strong>de</strong>losdatosqueseráusada. La i<strong>de</strong>a es que x(l) será usada para convertir la π N i (θ i ) a una distribucióna posteriori propiaπ N i (θ i |x(l)) = f i (x(l)|θ i )π N i (θ i )/m N i (x(l)),don<strong>de</strong> (ab<strong>usando</strong> un poco <strong>de</strong> la notación) f i (x(l)|θ i ) es la <strong>de</strong>nsidad margin<strong>al</strong> <strong>de</strong>X(l) bajo M i ,yZm N i (x(l)) = f i (x(l)|θ i )π N i (θ i )dθ i . (4.4)La i<strong>de</strong>a es entonces c<strong>al</strong>cular los factores <strong>de</strong> Bayes con el resto <strong>de</strong> los datos, u-sando π N i (θ i |x(l)) como distribución a priori, esto pue<strong>de</strong> facilitarse con el siguientelema.Lema 4.1 El factor <strong>de</strong> Bayes <strong>de</strong>l mo<strong>de</strong>lo j <strong>al</strong> mo<strong>de</strong>lo i, condicion<strong>al</strong> a x(l) yasumiendo que π N i (θ i |x(l)) es propia, esta dado por:don<strong>de</strong>B ji (x(l)) = B N ji · B N ij (x(l)), (4.5)B N ij (x(l)) = m N i (x(l))/m N j (x(l)).Demostración 2 Denotando el resto <strong>de</strong> los datos por x(n − l) el resultado sesigue<strong>de</strong>la<strong>de</strong>finición.B ji (x(l)) =Rfj (x(n − l)|θ j ,x(l))π N j (θ j |x(l))dθ jRfi (x(n − l)|θ i ,x(l))π N i (θ i|x(l))dθ i,


52 Capítulo 4. Factores <strong>de</strong> Bayes intrínsecosperoytambiényf j (x(n − l)|θ j ,x(l)) · f j (x(l)|θ j )=f j (x|θ j ),π N j (θ j |x(l)) = f j(x(l)|θ j )π N j (θ j )m N j (x(l)) ,f i (x(n − l)|θ i ,x(l)) · f i (x(l)|θ i )=f i (x|θ i ),π N i (θ i |x(l)) = f i(x(l)|θ i )π N i (θ i )m N i (x(l)) ,así sustituyendo en B ji (x(l))B ji (x(l)) =R fj (x|θ j ) · fj(x(l)|θ j )π N j (θ j)f j (x(l)|θ j ) m N jR (x(l))fi (x|θ i )dθ j=dθm N i (x(l)) if i (x(l)|θ i ) · fi(x(l)|θ i )π N i (θ i)R fj (x|θ j )π N j (θ j)m N j (x(l))dθ jR fi (x|θ i )π N i (θ i)dθm N i (x(l)) i=Rfj (x|θ j )π N j (θ j )m N i (x(l))dθ jRfi (x|θ i )π N i (θ i)m N j (x(l))dθ i= B N ji · B N ij (x(l)).¥Claramente, quitando la arbitrariedad en la elección <strong>de</strong> las constantes multiplicativas<strong>de</strong> las π N i (θ i );elcocientec j /c i que multiplica a B N ji <strong>de</strong>be ser cancelado porel cociente c i /c j que<strong>de</strong>bemultiplicaraB N ji (x(l)). El uso <strong>de</strong> muestras <strong>al</strong>eatoriastiene sentido, sólo si m N i (x(l)) en (4.4) son finitas. Esto se form<strong>al</strong>iza en la siguiente<strong>de</strong>finición.Definición 4.1 Una muestra <strong>de</strong> entrenamiento, x(l), sera llamada propia si 0


4.1. Factores <strong>de</strong> Bayes intrínsecos para selección <strong>de</strong> mo<strong>de</strong>los 53De la <strong>de</strong>finición se sigue queZm N 1 (x(l)) = f 1 (x(l)|θ 1 )π N 1 (θ 1 )dθ 1 =Z ∞tomando u = − 1 (x 2 2σ 2 i + x 2 j), du = (x2 i +x2 j )dσ1σ 3 1 ,1m N 1 (x(l)) =Z 01−∞ 2π eudu(x 2 i + x2 j ) = 10112π e− 2σ 2 (x 2 i +x2 j ) 11 dσσ 3 1 ,112σ 2 (x 2 i +x2 j )2π(x 2 i + 1 | ∞x2 j )e− 0 =12π(x 2 i + x2 j ),tambiénm N 2 (x(l)) ====ZZ ∞−∞Z ∞−∞Z ∞0f 2 (x(l)|θ 2 )π N 2 (θ 2 )dθ 2Z ∞10 2πσ 2 2Z ∞10 2πσ 2 2e − 14σ 2 (x i +x j ) 21 · e 1σ 2 x i x j12πe − 12σ 2 [(x i −µ) 2 +(x j −µ) 2 ]1dσ2 dµn he − 12σ 2 2 ( µ− 1 2 (x i+x j )) 2 i−x i x j + 1 2 (x i+x j ) 2o 111σ 3 2−∞σ 2 2dσ 2 dµ∙Z ∞¸e − 1σ 2 (µ− 1 2 (x i+x j )) 2 11 · dµ dσ 2 ,σ 2eligiendo u = ¡ µ − 1 2 (x i + x j ) ¢ /σ,du = dµ/σ,haciendo u = − 14σ 2 1m N 2 (x(l)) =Z ∞0e − 14σ 2 [(x i +x j ) 2 −4x i x j]12π1 √ πdσ2 ,£(xi + x j ) 2 ¤ [(x i +x j )− 4x i x j , du = 2 −4x i x j]dσ2σ 3 2 ,2σ 3 2m N 2 (x(l)) ==Z10√ £π (xi + x j ) 2 ¤ e u du− 4x i x j −∞1√ π£(xi + x j ) 2 − 4x i x j¤ =1√ π (xi − x j ) 2 .Típicamente, para una muestra <strong>de</strong> entrenamiento minim<strong>al</strong> todos los parámetrosson i<strong>de</strong>ntificables. Frecuentemente será una muestra <strong>de</strong> tamaño max{k i },recor<strong>de</strong>mos que k i es la dimensión <strong>de</strong> θ i .Silosπ N i son <strong>de</strong>nsida<strong>de</strong>s propias entoncesla muestra <strong>de</strong> entrenamiento minim<strong>al</strong> es el conjunto vacío y B ji (x(l) =Bji N .


54 Capítulo 4. Factores <strong>de</strong> Bayes intrínsecos4.1.2. Relación con otros métodos bayesianos automáticosUso <strong>de</strong> distribuciones a priori convencion<strong>al</strong>esJeffereys (1961) introdujo el uso <strong>de</strong> distribuciones a priori convencion<strong>al</strong>es par<strong>al</strong>a selección <strong>de</strong> mo<strong>de</strong>los y contraste <strong>de</strong> hipótesis. En la situación <strong>de</strong>l ejemplo (4.1),él argumentó el uso <strong>de</strong>π 1 (σ 1 )= 1 σ 1, π 2 (µ, σ 2 )= 1 σ 2·1πσ 2 (1 + µ 2 /σ 2 2) , (4.7)para la cu<strong>al</strong> utilizó la distribución a priori no informativa estándar para parámetros<strong>de</strong> esc<strong>al</strong>a pero una <strong>de</strong>nsidad (propia) <strong>de</strong> Cauchy(0,σ 2 ) para la a priori condicion<strong>al</strong><strong>de</strong> µ dado σ 2 .Eligiendoπ(µ|σ 2 ) propia, la in<strong>de</strong>terminación s<strong>al</strong>vo una constante<strong>de</strong>l factor <strong>de</strong> Bayes es eliminada, <strong>al</strong> menos en términos <strong>de</strong> µ. Jeffreys i<strong>de</strong>ntificóσ 2 1 = σ 2 2 = σ 2 en esta situación y por lo tanto no se preocupó acerca <strong>de</strong>la in<strong>de</strong>terminación <strong>de</strong> π(σ) =1/σ, si esta a priori ocurre en ambos mo<strong>de</strong>los,entonces una constante multiplicativa <strong>de</strong>be ser cancelada.El argumento <strong>de</strong> Jeffreys para (4.7) es bastante largo y pue<strong>de</strong> o no ser convincente.Su solución no obstante es bastante razonable, eligiendo la “constante” <strong>de</strong>laapriori<strong>de</strong>µ dado σ 2 es <strong>de</strong> forma natur<strong>al</strong>, y se sabe que las a priori <strong>de</strong> Cauchyson robustas en varios sentidos. Aunque es fácil objetar teniendo t<strong>al</strong>es “imposiciones”sobre el análisis, es cruci<strong>al</strong> recordar que no hay otra <strong>al</strong>ternativa (exceptosubjetividad). Cu<strong>al</strong>quier método <strong>al</strong>ternativo correspon<strong>de</strong> a la imposición <strong>de</strong> <strong>al</strong>guna(propia) a priori, o peor aun, termina por no correspon<strong>de</strong>r a cu<strong>al</strong>quier análisisbayesiano actu<strong>al</strong>. Este problema es suficientemente importante para merecer énfasis.Principio 1. Los métodos que correspon<strong>de</strong>n a el uso <strong>de</strong> distribuciones a priori(propias) por <strong>de</strong>fecto plausibles son preferibles a aquellas que no correspon<strong>de</strong>n acu<strong>al</strong>quier análisis bayesiano actu<strong>al</strong>.Se intentará mencionar cu<strong>al</strong>es métodos bayesianos por <strong>de</strong>fecto son consistentesy no consistentes con este principio. Algunas propuestas que son consistentes condicho principio son las siguientes: Albert (1990), George y McCulloch (1993),Madigan Y Raftery (1994), McCulloch y Rosi (1993), Mitchel y Beauchamp(1988), Poirier (1985), Raftery (1993), Stewart (1987), Verdinelli y Wasserman(1995) y Sellner y Siow (1980). La limitación <strong>de</strong> estas aproximaciones es queellas fueron construidas para problemas específicos y nuestra meta es construirun método completamente gener<strong>al</strong> y automático, pero que sea consistente con elprincipio anterior.


4.1. Factores <strong>de</strong> Bayes intrínsecos para selección <strong>de</strong> mo<strong>de</strong>los 55Métodos asintóticos y criterio <strong>de</strong> información <strong>de</strong> BayesEl método asintótico <strong>de</strong> Laplace (Haughton 1988, Kass y Raftery 1995) esproducido como una aproximación a B ji .Bji L = f j(x|ˆθ j )(<strong>de</strong>t Î j ) −1/2f i (x|ˆθ i )(<strong>de</strong>t Îi) · (2π)kj/2 π j (ˆθ j )−1/2 (2π) k i/2π i (ˆθ i ) , (4.8)don<strong>de</strong> Î i ,yˆθ i , son la matriz <strong>de</strong> observación y el estimador <strong>de</strong> máxima verosimilitud(EMV) bajo el mo<strong>de</strong>lo M i .Cuandoeltamaño<strong>de</strong>lamuestratien<strong>de</strong>ainfinito,el primer factor <strong>de</strong> Bji L típicamente tien<strong>de</strong> a cero o a infinito,mientraselsegundofactor esta acotado. El criterio <strong>de</strong> información <strong>de</strong> Bayes (CIB) <strong>de</strong> Schwarz(1978) surgió reemplazando el segundo factor por una constante apropiada. Kass yWaserman (1995) argumentaron que, para mo<strong>de</strong>los anidados, el CIB correspon<strong>de</strong>a un análisis bayesiano.La expresión asintótica (4.8) tiene mucha utilidad teórica. Esta pue<strong>de</strong> serusada para ayudar a <strong>de</strong>sarrollar distribuciones a priori propias por <strong>de</strong>fecto ycomparar criterios en la selección <strong>de</strong> mo<strong>de</strong>los.Como un comentario fin<strong>al</strong>, existen muchos problemas <strong>de</strong> selección <strong>de</strong> mo<strong>de</strong>lospara los cu<strong>al</strong>es el resultado asintótico difiere <strong>de</strong> (4.8) (ver Haughton y Dudley1992). Es interesante ver que los factores <strong>de</strong> Bayes intrínsecos (FBI) son compatibles<strong>bayesiana</strong>mente.Distribuciones a priori no informativas convencion<strong>al</strong>esEn la sección (4.1.1) se observó que el problema con las distribuciones a priorino informativas, π N i es que ellas están <strong>de</strong>finidas s<strong>al</strong>vo constantes multiplicativasarbitrarias c i y que t<strong>al</strong>es constantes <strong>de</strong>ben ser factores multiplicativas <strong>de</strong> losfactores <strong>de</strong> Bayes. Se han hecho esfuerzos para especificar convencion<strong>al</strong>mente lasconstantes c i . Para instanciarlas, Smith y Spiegelhater (1980) y Spiegelh<strong>al</strong>ter ySmith (1982) proponen elegir los c i <strong>de</strong> t<strong>al</strong> forma que B ji (x(l)) sea igu<strong>al</strong> a 1,cuando x(l) se elige como la muestra <strong>de</strong> entrenamiento minim<strong>al</strong>, que favorecemas <strong>al</strong> mo<strong>de</strong>lo simple.Este método se acerca a satisfacer el principio 1. El f<strong>al</strong>lo es que tiene unaten<strong>de</strong>ncia en favor <strong>de</strong>l mo<strong>de</strong>lo más complejo. Esta ten<strong>de</strong>ncia surge <strong>de</strong> la especificaciónque B ji (x(l)) va a ser 1, aunque la muestra <strong>de</strong> entrenamiento sea escogidapara favorecer <strong>al</strong> máximo <strong>al</strong> mo<strong>de</strong>lo más simple.Métodos <strong>de</strong> entrenamiento y métodos <strong>de</strong> verosimilitud parci<strong>al</strong>La i<strong>de</strong>a <strong>de</strong> muestras <strong>de</strong> entrenamiento, ha sido usada muchas veces inform<strong>al</strong>mente.Desarrollos más form<strong>al</strong>es <strong>de</strong> esta i<strong>de</strong>a pue<strong>de</strong>n ser encontrados en trabajos


56 Capítulo 4. Factores <strong>de</strong> Bayes intrínsecos<strong>de</strong> Atkinson (1978), Geisser y Eddy (1979), Gelfand, Dey y Chang (1992), Lempers(1971),San Martíni y Spezzaferri (1984), y Spiegelh<strong>al</strong>ter y Smith (1982),aunque no todos estos trabajos utilizan la i<strong>de</strong>a con factores <strong>de</strong> Bayes ordinarios.Otras referencias y el comportamiento asintótico gener<strong>al</strong> <strong>de</strong> los mo<strong>de</strong>los <strong>de</strong>muestra <strong>de</strong> entrenamiento han sido probados por Gelfand y Dey (1994).Se pue<strong>de</strong> mostrar que si el tamaño <strong>de</strong> la muestra <strong>de</strong> entrenamiento se incrementaconlamuestra<strong>de</strong>tamañon,entonces la muestra <strong>de</strong>l factor <strong>de</strong> Bayes esno asintoticamente equiv<strong>al</strong>ente a (4.8).El método <strong>de</strong> Aitkin (1991) pue<strong>de</strong> ser consi<strong>de</strong>rado como un método <strong>de</strong> muestra<strong>de</strong> entrenamiento, tomando la muestra entera x, como una muestra <strong>de</strong> entrenamientoparaobtenerπN i (θ i |x) yentoncesusarestacomoladistribuciónapriori en (4.5) para c<strong>al</strong>cular el factor <strong>de</strong> Bayes. Este doble uso <strong>de</strong> los datos espor supuesto no consistente con la lógica <strong>bayesiana</strong> usu<strong>al</strong>, y el método viola elcriterio asintótico <strong>de</strong> forma severa.O’Hagan (1995) propuso usar una parte fraccion<strong>al</strong> <strong>de</strong> la verosimilitud entera,[f(x|θ)] α , en lugar <strong>de</strong> una muestra <strong>de</strong> entrenamiento. Esto tien<strong>de</strong> a produciruna respuesta más estable que la producida por el uso <strong>de</strong> una muestra <strong>de</strong> entrenamientoparticular, pero f<strong>al</strong>la el criterio asintótico a menos que α ∝ 1/n cuandola muestra <strong>de</strong> tamaño n crece. El tamaño <strong>de</strong>l factor fraccion<strong>al</strong> <strong>de</strong> Bayes ha sidobastante estudiado, particularmente para las elecciones t<strong>al</strong>es que α = m 0 /n,don<strong>de</strong> m 0 es la muestra <strong>de</strong> entrenamiento minim<strong>al</strong>. Esta elección pue<strong>de</strong> resultaren los factores <strong>de</strong> Bayes que correspon<strong>de</strong>n a el uso <strong>de</strong> distribuciones a priori por<strong>de</strong>fecto, <strong>al</strong> menos para mo<strong>de</strong>los line<strong>al</strong>es y ciertas elecciones <strong>de</strong> distribuciones apriori no informativas, t<strong>al</strong> justificación <strong>de</strong>be ser form<strong>al</strong>mente establecida.In<strong>de</strong>pendientemente <strong>de</strong>l trabajo <strong>de</strong> Berger y Pericchi, <strong>de</strong> Vos (1993) ha propuestoun método <strong>de</strong> muestra <strong>de</strong> entrenamiento para mo<strong>de</strong>los line<strong>al</strong>es que essimilar <strong>al</strong> método propuesto por Berger y Pericchi.4.2. Factores <strong>de</strong> Bayes para mó<strong>de</strong>los anidados4.2.1. Mo<strong>de</strong>los anidadosAsumamos que M 1 es anidado en M 2 , en el sentido que nosotros po<strong>de</strong>mosescribir θ 2 =(ζ,η) yquef 1 y f 2 satisfacenf 1 (x|θ 1 )=f 2 (x|ζ = θ 1 ,η = η 0 ) (4.9)don<strong>de</strong> η 0 es un v<strong>al</strong>or específico <strong>de</strong> η. Algunas veces simplemente escribimos θ 2 =(θ 1 ,η), aunque esto es peligroso (pero común) en la práctica. El peligro es queθ 1 en f 1 (x|θ 1 ) y θ 2 en f 2 (x|θ 1 ,η) pue<strong>de</strong>n tener interpretaciones muy diferentes,


4.2. Factores <strong>de</strong> Bayes para mó<strong>de</strong>los anidados 57porque los símbolos son los mismos, es <strong>de</strong>masiado fácil asignar entonces la mismadistribución a priori (especi<strong>al</strong>mente cuando se usan las distribuciones a priori por<strong>de</strong>fecto). Esta es una importante cuestión, porque muchos <strong>de</strong> los esquemas parael <strong>de</strong>sarrollo <strong>de</strong> a priori condicion<strong>al</strong>es son basados en una form<strong>al</strong>ización en lai<strong>de</strong>ntificación <strong>de</strong> t<strong>al</strong>es parámetros.El siguiente supuesto es siempre verda<strong>de</strong>ro para mo<strong>de</strong>los anidados.Supuesto 1. Si M 1 es anidado en M 2 , entonces asumimos que como el tamaño<strong>de</strong> la muestra tien<strong>de</strong> a infinito (n →∞),ˆθ2bajo M 1−→θ ∗ 2 =(θ 1 ,η 0 ). (4.10)4.2.2. Los factores <strong>de</strong> Bayes intrínsecosPara un conjunto dado <strong>de</strong> datos x, típicamente existen muchas muestras <strong>de</strong>entrenamiento como la que se <strong>de</strong>finió en la sección 4.1.1. SeaX T = {x(1),x(2), ..., x(L)} (4.11)que <strong>de</strong>nota el conjunto <strong>de</strong> todas las muestras minim<strong>al</strong>es x(l). Claramente el factor<strong>de</strong> Bayes B 21 (x(l)), <strong>de</strong>finida en (4.5), <strong>de</strong>pen<strong>de</strong> <strong>de</strong> la elección <strong>de</strong> la muestra <strong>de</strong>entrenamiento minim<strong>al</strong>. Para eliminar esta <strong>de</strong>pen<strong>de</strong>ncia e incrementar estabilidad,una i<strong>de</strong>a natur<strong>al</strong> es promediar los B 21 (x(l)) sobre todos los x(l) ∈ X T . Estepromedio pue<strong>de</strong> ser hecho aritméticamente o geométricamente, primero el factor<strong>de</strong> Bayes intrínseco aritmético (FBIA) y enseguida el factor <strong>de</strong> Bayes intrínsecogeométrico (FBIG) quedan <strong>de</strong>finidos <strong>de</strong> la siguiente manera:B IA21 = 1 LB IG21 =LXl=1B 21 (x(l)) = B N 21 · 1LLXB12(x(l)) N (4.12)l=1ÃY L 1/L Ã L 1/LYB 21 (x(l))!= B21 N · B21(x(l))! N , (4.13)l=1don<strong>de</strong> el B12(x(l)) N esta <strong>de</strong>finido en (4.5). Note que B21 IG ≤ B21 IA porque la mediageométrica es menor o igu<strong>al</strong> que la media aritmética. Por tanto B21 IG favorecerá<strong>al</strong> mo<strong>de</strong>lo anidado más simple que B21 IA .Nota 1: Definimos B12 IA como 1/B12 IA , y no por (4.12) con los índices invertidos.La asimetría surge porque M 1 esta anidado en M 2 .ParaB21 IG no hay problema,invirtiendo los índices en (4.13) claramente resulta 1/B IGl=121 .


58 Capítulo 4. Factores <strong>de</strong> Bayes intrínsecosB IG12 =ÃY L 1/L Ã L 1/L ÃYY LB 12 (x(l))!= B12 N · B21(x(l))! N = B 21 (x(l))l=1⎛= B12 N 1·⎜ LY ⎟⎝B12(x(l))N ⎠l=1⎞1/Ll=1l=1Ã L! −1/LY= B12 N · B12(x(l))N =1/B IGl=121 .! 1/LNota 2: Si el tamaño <strong>de</strong> la muestra es muy pequeña, entonces claramente setendrá problema <strong>usando</strong> una parte <strong>de</strong> los datos como muestra <strong>de</strong> entrenamiento.Ejemplo 4.2 Sea X =(X 1 ,X 2 , ..., X n ) una muestra i.i.d. <strong>de</strong> M 1 : N (0,σ 2 1) oM 2 : N (µ, σ 2 2). Usando π N 1 (σ 1 )=1/σ 1 y π N 2 (µ, σ 2 )=1/σ 2 2, y haciendo <strong>al</strong>gunoscálculos se tiener n/2 2πB21 N =µ1+n · n¯x2 , (4.14)s 2don<strong>de</strong>nXs 2 = (xi − ¯x) 2 .Sabemos quei=1RB21 N = mN 2 (x)m N 1 (x) = R θ 2f 2 (x|θ 2 )π N 2 (θ 2 )dθ 2,θ 1f 1 (x|θ 1 )π N 1 (θ 1 )dθ 1m N 2 (x) =y si tenemos quenX(xi − µ) 2 =i=1m N 2 (x) ===Z1θ 2(2π) n/2 σ n 2Z ∞ Z ∞0−∞− 12σ 2e1(2π) n/2 σ n 2nXi=1− 12σ 2enXx 2 i − n¯x 2 + n(µ − ¯x) 2 ,i=1Z ∞ Z ∞0Z ∞01−∞ (2π) n/2 σ n 21(2π) n/2 σ n 2(x i −µ) 2 1·σ 2 2nXi=1dθ 2(x i −µ) 2 1·σ 2 2e − 12σ 2[ P ni=1x 2 i −n¯x2 +n(µ−¯x) 2 ] ·e − 12σ 2( P ni=1x 2 i −n¯x2 )Z ∞−∞dµdσ 2 ,1dµdσ 2σ 2 2e − 12σ 2(n(µ−¯x) 2 ) 1dµdσσ 2 2 ,2


4.2. Factores <strong>de</strong> Bayes para mó<strong>de</strong>los anidados 59tomando u = √ n(µ−x)y du = √ ndµ,σσ√ Z 2π ∞m N 2 (x) =(2π) n/2√ n 0haciendo y = σ −22 ,dy= −2σ −32 dσ 2 , se tiene√ Z 2π ∞m N 2 (x) =2(2π) n/2√ n 0√2π=2(2π) n/2√ n ·Ahorae − 12σ 2[ P ni=1x 2 i −n¯x2 ] 1σ n+12dσ 2 ,−y n−22 e−y/2[ P ni=1x 2 i −n¯x2 ] dy¢Γ ¡ n2³ P ni=1. ´n/2x 2 i −n¯x2Z−m N 111 (x) =σ −n−12σ 2(2π) n/2 1 eθ 2eligiendo y = σ −21 ,dy= −2σ −3anterior tenemospor lo tantopero s 2 =B N 21 =√2π2(2π) n/2√ n ·√2π2(2π) n/2 ·2nXi=1x i2dσ 1 ,1 dσ 1 , yprocediendo<strong>de</strong>formaanáloga<strong>al</strong>aintegr<strong>al</strong>√2πm N 1 (x) =2(2π) · Γ ¡ ¢n2.n/2 ´n/2Γ( n 2 )µ P ni=1 x 2 n/2i −n¯x22Γ( n 2 )µ P ni=1 x 2 i2 n/2=nX(xi − ¯x) 2 = P ni=1 x2 i − n¯x 2 , asíi=1³ P ni=1x 2 i2√ µ P 2πn n/2i=1√ x2 iP n ni=1 x2 i − ,n¯x2r µP 2π n n/2r µ B21 N i=1=x2 i 2π s 2 + n¯x 2 n/2r n/2 2π= =µ1+ n¯x2 .n s 2 n s 2 n s 2Usando (4.8) observese que X T consiste en todos los pares <strong>de</strong> observacionesdiferentes L = n(n − 1)/2, <strong>de</strong> esto se sigue queB21 IA = B21 N · 1 LX (x 1 (l) − x 2 (l)) 2L 2 √ π [x 2 1(l)+x 2 2(l)]= B N 21 ·l=11n(n − 1)Xi


60 Capítulo 4. Factores <strong>de</strong> Bayes intrínsecosyB IG21 = B N 21 ×LYl=1(x 1 (l) − x 2 (l)) 22 √ π [x 2 1(l)+x 2 2(l)] . (4.16)Nótese que B IA21 y B IG21 estan <strong>de</strong>finidos esenci<strong>al</strong>mente para cu<strong>al</strong>esquiera mo<strong>de</strong>losanidados inclusive para aquellos no estándares.Ejemplo 4.3 Supóngase que X =(X 1 ,X 2 , ..., X n ) es una muestra i.i.d. <strong>de</strong> M 1 :X 1 ∼ N (θ 1 , 1) con θ 1 < 0 o M 2 : X 2 ∼ N (θ 2 , 1) con θ 2 ∈ R 1 .Una vez mas, esimportante recordar que θ 1 y θ 2 podrían ser cantida<strong>de</strong>s distintas a priori, inclusocuando θ 2 < 0.Esto pue<strong>de</strong> ser peligroso para formular este problema diciendoX i ∼ N (θ, 1) con M 1 : θ 1 < 0 y M 2 : θ ∈ R 1 . Elpeligroes<strong>al</strong>usarelmismosímbolo θ, apareciendo en M 1 y M 2 el cu<strong>al</strong> pue<strong>de</strong> causar que en un momento dadouno asume que π 1 (θ) (bajo M 1 )seaigu<strong>al</strong>a π 2 (θ|θ


4.2. Factores <strong>de</strong> Bayes para mó<strong>de</strong>los anidados 61− 1 nX(x i − θ 2 ) 22i=1= − 1 nX(x 2 i − 2x i θ 2 + θ 222)i=1= − 1 nX nXx 2 i + x i θ 2 − 1 nXθ 2 222i=1 i=1i=1= − 1 nXx 2 i + nθ 2¯x − nθ2 222i=1µ nθ22= −2 − nθ 2¯x − 1 nXx 2 i2i=1µ nθ22= −2 − nθ 2¯x + n¯x2 − 1 nXx 2 i + n¯x22 2 2i=1µr r 2Ã nX!n n= −2 θ 2 −2 ¯x − 1 x 2 i − n¯x 22i=1así, siZ 0−∞1(2π) n/2 e − 1 2nX(x i −θ 2 ) 2 Z 0dθ 2 =i=1−∞1−( √ √ n(2π) e 2 θ n2− n/2⎛2 ¯x ) 2 − 1 ⎝2<strong>al</strong> hacer t = √ 2 ¡p n2 θ 2 − p n2 ¯x¢ dt = √ 2 · p n2 dθ 2, se obtienenXi=1x 2 i −n¯x2 ⎞⎠dθ 2 ,Z ∞0yportanto1(2π) n/2 e − 1 2⎛⎝B N 21(x) =nXi=1x 2 i −θ2 2R −√ n¯x−∞⎞⎠dθ 2 = e − 1 2⎛⎝nXi=1x 2 i −n¯x2 ⎞⎠( p 2π) n−1√ n√12πe − t2 2 dt + R ∞R −√ n¯x−∞− √ n¯x√12πe − t2 2 dt= Φ(−√ n¯x)+(1− Φ(− √ n¯x))Φ(− √ n¯x)Z −√ n¯x−∞√12πe − t2 2 dt=1Φ(− √ n¯x) .1√2πe − t2 2 dt,


62 Capítulo 4. Factores <strong>de</strong> Bayes intrínsecosLuego <strong>de</strong> (4.12) y (4.13) resulta queyB IA21 =B IG21 =1Φ(− √ n¯x) · 1nnXΦ(−x i ) , (4.18)i=1"1Φ(− √ n¯x) · 1n 1/nYΦ(−x i )#. (4.19)ni=1Esto es un ejemplo no estándar que es difícil <strong>de</strong> manejar por métodos ordinariosen parte esto se encuentra indicado por el hecho <strong>de</strong> que la expresión asintótica(4.8) y (por lo tanto el CIB), aquí no es válida. Las correcciones asintóticashan sido probadas por Haughton y Dudley (1992), quienes estudiaron muchosproblemas muy gener<strong>al</strong>es <strong>de</strong> este tipo. Para este caso, la expresión análoga a(4.8) es :B 21∼ π 2 (¯x)=Φ(− √ n¯x)π 1 (mín {¯x, 0})la cu<strong>al</strong> es válida si π 2 es continua, y si π 1 es continua y tiene límite finito.4.2.3. Los factores <strong>de</strong> Bayes intrínsecos esperados(4.20)Para una muestra <strong>de</strong> tamaño pequeño, el promedio <strong>de</strong> las muestras <strong>de</strong> entrenamientoen (4.12) y (4.13) pue<strong>de</strong>n tener varianza gran<strong>de</strong>, lo cu<strong>al</strong> indica unainestabilidad <strong>de</strong> los factores <strong>de</strong> Bayes intrínsecos. También, el cálculo pue<strong>de</strong> serun problema si L es gran<strong>de</strong>. Una atractiva solución fue propuesta por Berger yPericchi (1996), remplazando los promedios en (4.12) y (4.13) por sus respectivasesperanzas, ev<strong>al</strong>uadas en los estimadores <strong>de</strong> máxima verosimilitud. Form<strong>al</strong>menteellos <strong>de</strong>finieron el factor <strong>de</strong> Bayes Intrínseco Aritmético Esperado (FBIAE) y elFactor <strong>de</strong> Bayes Intrínseco Geométrico Esperado (FBIGE) poryB IAE21 = B N 21 · 1L(B21 IGE = B21 N 1· expLLXl=1LXl=1E M 2ˆθ 2£BN12 (X(l)) ¤ (4.21)E M 2ˆθ2£log BN12 (X(l)) ¤) , (4.22)don<strong>de</strong> las esperanzas son bajo el mo<strong>de</strong>lo M 2 ,conθ 2 igu<strong>al</strong> <strong>al</strong> estimador máximoverosímil ˆθ 2 . Si las X(l) son intercambiables, como es común, entonces lospromedios sobre L s<strong>al</strong>en sobrando. Esto es, (4.21) y (4.22) son justificadas como


4.2. Factores <strong>de</strong> Bayes para mó<strong>de</strong>los anidados 63aproximación a (4.12) y (4.13) para L gran<strong>de</strong> y bajo M 2 es obvio. Pero estas tambiénson aproximaciones válidas bajo el mo<strong>de</strong>lo M 1 si asumimos el supuesto 1 enla sección 4.2.1. Es satisfecho por que (bajo el mo<strong>de</strong>lo M 1 ), ˆθ 2∼ = (θ1 ,η 0 ), lo cu<strong>al</strong>junto con (4.9) muestra que las esperanzas en (4.21) y (4.22) son equiv<strong>al</strong>entes.Ejemplo 4.4 Supongamos que las X(l) son intercambiables, así por (4.21) setiene:"# ÃB21 IAE = B21 N · E M (X2 i − X j ) 2ˆθ22 √ π ¡ Xi 2 + ¢ = B N 1 − e ( !−n¯x/s 2 )X2 21 ·j2 √ (4.23)π [n¯x/s 2 ](para el cálculo <strong>de</strong> estas esperanzas ver Berger y Pericchi (1994)). B IGE21 pue<strong>de</strong>ser ev<strong>al</strong>uado únicamente como una serie infinita (ver Berger y Pericchi (1994)),pero el cálculo númerico es directo.Ejemplo 4.5 (continuación <strong>de</strong>l ejemplo 4.4) Usando (4.18) y (4.21), y consi<strong>de</strong>randoque los X(l) son intercambiables se tiene queB IAE21 =1φ(− √ n¯x) · EM 2ˆθ2[φ (−X i )] =1³φ(− √ n¯x) · −¯x/ √ ´2(4.24)aquí X i ∼ N (θ, 1) bajo M 2 y θ 2 =¯x. OtravezB 21 IGE pue<strong>de</strong> no tener una formacerrada. Como ocurría con B12 IA , Berger y Pericchi <strong>de</strong>finen B12 IAE£ =1/B21 IAE . Eneste caso no hay otra opción porque en muchos problemas E M 2ˆθ2 BN21 (X(l)) ¤ =∞. Esto también explica la <strong>de</strong>finición <strong>de</strong> B12 IAE =1/B21 IAE , aunque B12 IA podría<strong>de</strong>finirse como en (4.12) con los índices intercambiados, el promedio <strong>de</strong> B12(x(l))Nnorm<strong>al</strong>mente diverge cuando L →∞, resultando un factor <strong>de</strong> Bayes que viola elprincipio 1.4.2.4. ComparacionesHaremos una pausa para comparar los diferentes factores <strong>de</strong> Bayes intrínsecoscon otros métodos seguros, así como obtener una visión en estos casos simplespara ver si nuestra meta es <strong>al</strong>canzada. Las comparaciones que hacemos son conla expresión asintótica (4.8), la aproximación <strong>de</strong> Schwarz y con los métodos <strong>de</strong>Jeffresys (1961), Smith y Spiegelh<strong>al</strong>ter (1980).Ejemplo 4.6 Se pue<strong>de</strong> <strong>de</strong>mostrar que los estimadores <strong>de</strong> máxima verosimilitudpara ambos mo<strong>de</strong>los son: ˆµ =¯x, ˆσ 1 =( P ni=1 x2 i /n) 1/2 =(¯x 2 + s 2 /n) 1/2 , ˆσ 2 =(s 2 /n) 1/2 .


64 Capítulo 4. Factores <strong>de</strong> Bayes intrínsecosSabemos que X i ∼ N(µ, σ 2 2) bajo M 2 .1f(x i )= √ e − 12σ 2 (x i -µ) 2 12 , f(x 1 ,x 2 , ..., x n )=2πσ2 ( √ e − 1 P n2σ 2 i=1 (x i -µ) 22π) n σ n 1 ,2asiµ 1ln f(x 1 ,x 2 , ..., x n ) = ln( √ − 1 nX(x2π) n σ n 2σ 2 i − µ) 22 2 i=1³√ 1nX= − ln 2πσ2´n− (x2σ 2 i − µ) 22 i=1= −nhln √ i2π +lnσ 2 − 1 nX(x2σ 2 i − µ) 2 ,2 i=1luego∂ ln f(x 1 ,x 2 , ..., x n )∂µ= 2 P ni=1 (x i − µ)=02σ 2 2nX⇒ (x i − µ) =0⇒i=1nXx i − nµ =0⇒ ˆµ =¯x,también∂ ln f(x 1 ,x 2 , ..., x n )= − n P ni=1+(x i − µ) 2=0∂σ 2 σ 2 σ 3 2µP ni=1⇒ σ 2 =(x i − µ) 2 1/2⇒ ˆσ 2 = ¡ s 2 /n ¢ 1/2 .nSe tiene que X i ∼ N(0,σ 2 1) bajo M 1f(x i )=por lo cu<strong>al</strong>1√2πσ1e − 12σ 2 1x 2 iµln f(x 1 ,x 2 , ..., x n ) = lni=11f(x 1 ,x 2 , ..., x n )=( √ 2π) n σ n 1= − ln1− 12σ 2 1( √ 2π) n σ n 1³√ 12πσ1´n−2σ 2 1nXi=1nXi=1= −nhln √ i2π +lnσ 1 − 12σ 2 1e − 12σ 2 1P ni=1x 2 ix 2 ix 2 inXx 2 i ,i=1


4.2. Factores <strong>de</strong> Bayes para mó<strong>de</strong>los anidados 65luego∂ ln f(x 1 ,x 2 , ..., x n )∂σ 1= −n P ni=1+x2 iσ 1 σ 3 1=0⇒ ˆσ 1 =µP ni=1 x2 in 1/2,pero s 2 = P ni=1 (¯x2 i − µ) 2 , asiˆσ 1 ====µP ni=1 x2 inµP ni=1 x2 i 1/2=µP ni=1 x2 in+(¯x − µ) 2 2 1/2+(¯x 2 − 2¯xµ + µ 2 )nµ P n ¯x 2 i=1+(x2 i − 2µx i + µ 2 1/2)nà P !n¯x 2 i=1+(x i − µ) 2 1/2= ¡¯x 2 + s 2 /n ¢ 1/2 .nA continuación se tienen las siguientes aproximaciones:Aproximación Asintótica (4.8) dada por:Solución:De antemano sabemos queB L 21 = B N 21 · ˆσ2 2ˆσ 1· π2(ˆµ, ˆσ 2 )π 1 (ˆσ 1 ) . (4.25)B L ji = f j(x|ˆθ j )(<strong>de</strong>t Î j ) −1/2f i (x|ˆθ i )(<strong>de</strong>t Î i ) −1/2 · (2π)k j/2 π j (ˆθ j )(2π) k i/2 π i (ˆθ i ) ,don<strong>de</strong> Îi y ˆθ i son la matriz <strong>de</strong> información observada y el estimador <strong>de</strong> máximaverosimilitud.Bajo M 1 , Xi ∼ N(0,σ 2 1), asi k 1 =1.⎡ ³ P∙ ¸∂ 2 log f(x|σ 1 )Î 1 (x) = −= − ⎣ ∂ ni=1´ ⎤−n xσ 1+2 iσ 3 1⎦∂σ 2 1 σ 1 =ˆσ 1∂σ 1∙ n= − −σ 2 1como ˆσ 1 =( P ni=1 x2 i /n) 1/2 ,P n ¸i=1 x2 i · 3σ 2 1σ 6 1σ 1 =ˆσ 1= −∙ nσ 2 1− 3 P ni=1 x2 iσ 4 1σ 1 =ˆσ 1¸σ 1 =ˆσ 1,


66 Capítulo 4. Factores <strong>de</strong> Bayes intrínsecosentoncesÎ 1 (x) = − nP ni=1x 2 in= −P n2ni=1 x2 i2n 2= P n ,i=1 x2 i+ 3 P ni=1 x2 i³ P ni=1´2x 2 in+ 3n2 P ni=1 x2 i( P ni=1 x2 i )2(<strong>de</strong>t Î 1 (x)) −1/2 =1(<strong>de</strong>t Î 1 (x)) = 1³1/2 2n 2P ni=1x 2 i´1/2=µP ni=1 x2 i2n 2 1/2=³ Pni=1 ´1/2x 2 i2√2nBajo M 2 X i ∼ N(µ, σ 2 2)Î 2 (x) =−= ˆσ 1√ . 2n" ∂ 2 log f(x|µ,σ 2 ) ∂ 2 log f(x|µ,σ 2 )∂µ 2 ∂µ∂σ 2∂ 2 log f(x|µ,σ 2 ) ∂ 2 log f(x|µ,σ 2 )∂σ 2 ∂µ∂σ 2 2µ1ln(f(x 1 ,x 2 , ..., x n |µ, σ 2 ) = ln(2π) n/2 σ n 2#− 12σ 2 2(µ,σ)=(ˆµ,ˆσ 2 )nX(x i − µ) 2= − £ ln(2π) n/2 +ln(σ n 2) ¤ − 1 nX(x2σ 2 i − µ) 2 ,2 i=1así∂ ln(f(x 1 ,x 2 , ..., x n |µ, σ)= 2 nX(x∂µ2σ 2 i − µ) = 1 nX(x2σ 2 i − µ),i=1 2 i=1∂ 2 ln(f(x 1 ,x 2 , ..., x n |µ, σ)= −n ,∂µ 2 σ 2 2∂ 2 ln(f(x 1 ,x 2 , ..., x n |µ, σ)= ∂2 ln(f(x 1 ,x 2 , ..., x n |µ, σ)= −2 P ni=1 (x i − µ),∂µ∂σ∂σ∂µσ 3 2∂ ln(f(x 1 ,x 2 , ..., x n |µ, σ)= − n P ni=1+(x i − µ) 2,∂σσ 2 σ 3 2∂ 2 ln(f(x 1 ,x 2 , ..., x n |µ, σ)= n − 3 P ni=1 (x i − µ) 2,∂σ 2 σ 2 2 σ 4 2i=1


4.2. Factores <strong>de</strong> Bayes para mó<strong>de</strong>los anidados 67por lo tanto"Î 2 (x) = −"= −−nσ 2 2−2 P ni=1(x i −µ)σ 3 2−nσ 2 2−2 P ni=1(x i −¯x)ˆσ 3 2nσ 2 2−2 P ni=1(x i −µ)σ 3 2− 3 P ni=1(x i −µ) 2σ 4 2−2 P ni=1(x i −¯x)ˆσ 3 2− 2nˆσ 2 2#,#(µ,σ)=(ˆµ,ˆσ 2 )=(¯x,(s 2 /n) 1/2 )luegoa<strong>de</strong>máspero<strong>de</strong>t(Î 2 (x)) = n µ µ P 2n 2 ni=1· −(x i − ¯x)σ 2 2 σ 2 2σ 3 2= 2n2 − 4(P ni=1 (x i − ¯x)) 2σ 4 2 σ 6 2= 2n2 σ 2 2 − 4( P ni=1 (x i − ¯x)) 2σ 6 2B L ji =s 2 == 2n2 σ 2 2σ 6 2= 2n2ˆσ 4 ,2(<strong>de</strong>t Î2(x)) −1/2 )= ³2n 2ˆσ 4 21= ˆσ2 2√ ,´1/2 2nB L ji = f j(x|ˆθ j )(<strong>de</strong>t Î j ) −1/2f i (x|ˆθ i )(<strong>de</strong>t Î i ) −1/2 · (2π)k j/2 π j (ˆθ j )(2π) k i/2 π i (ˆθ i ) ,1( √ 2π) n σ n 21( √ 2π) n σ n 1= σn 1e − 12σ 2 1i=1σ n 2e − 12σ 2 1e − 1 P n ³2σ 2 i=1 (x i -µ) 21 · ˆσ22P ni=1x 2 i³·e − 12σ 2 1√2n´√2n´ˆσ 1 2· (2π) 2/2 · π 2 (ˆθ 2 )· (2π) 1/2 · π 1 (ˆθ 1 )P ni=1(x i -µ) 2 · ˆσ 2 2 · (2π) 1/2 · π 2 (ˆθ 2 )P ni=1x 2 i· ˆσ1 · √n ,· π 1 (ˆθ 1 )nXnX(x i − ¯x) 2 , ˆσ 1 =( x 2 i /n) 1/2 =(¯x 2 + s 2 /n) 1/2 ,ˆσ 2 = (s 2 /n) 1/2 yi=1nXx 2 i = s 2 + n¯x 2 .i=1


68 Capítulo 4. Factores <strong>de</strong> Bayes intrínsecosAsírBji L = σn 1 · ˆσ 2 2 · e − n 2 · (2π) 1/2 · π 2 (ˆθ 2 ) 2πσ n 2 · ˆσ 1 · e −n/2√ =n · π 1 (ˆθ 1 ) n · σn 1 · ˆσ 2 2 · π 2 (ˆθ 2 )σ n 2 · ˆσ 1 · π 1 (ˆθ 1 )r r2π=n · (¯x2 + s 2 /n) n/2 · ˆσ 2 2 · π 2 (ˆθ 2 ) 2π=(s 2 /n) n/2 · ˆσ 1 · π 1 (ˆθ 1 ) n · (n¯x2 + s 2) n/2 ·ˆσ2 2 · π 2 (ˆθ 2 )s 2 ·ˆσ 1 · π 1 (ˆθ 1 )= B21 N · ˆσ2 2· π2(ˆθ 2 )ˆσ 1 π 1 (ˆθ 1 ) .La aproximación <strong>de</strong> Schwarz esta dada porB s 21 = B N 21/ √ 2π. (4.26)es:Mientras que la aproximación <strong>de</strong> Jeffreys, para la distribución a priori en (4.7)B21 J = B21 N 1· ˆσ 2 ·ˆσ 2 π £ ¤.1+ˆµ 2 /ˆσ 2 2El factor <strong>de</strong> Bayes <strong>de</strong> Smith y Spiegelh<strong>al</strong>ter (1980) esB21 ss = B21/ √ N π.Es usu<strong>al</strong> escribir π 2 (µ, σ 2 ) como π 2 (µ, σ 2 )=π 2 (µ|σ 2 )π 2 (σ 2 ).Si ahora elegimos las distribuciones a priori no informativas como π 1 (σ 1 )=1/σ 1 y π 2 (σ 2 )=1/σ 2 , entonces <strong>de</strong> (4.21) tenemosB L 21 = B N 21 · ˆσ 2 · π 2 (ˆµ/ˆσ 2 ). (4.27)Notese que B21 J es <strong>de</strong> esta forma, con π 2 (µ/σ 2 ) una distribución <strong>de</strong> Cauchy(0,σ 2 ) . A<strong>de</strong>más que es consistente con (4.7). Así, reescribiendo (4.23)Ã!B21 IAE = B21 N 1 − e {−ˆµ2 /ˆσ 2 2 }· ˆσ 2 ·2 √ π £ˆµ ¤2 /ˆσ 2 . (4.28)2Recor<strong>de</strong>mos que una <strong>de</strong> las metas <strong>de</strong> Berger y Pericchi (1996) era <strong>de</strong>sarrollarun método automático que reproduzca un factor <strong>de</strong> Bayes verda<strong>de</strong>ro. Resulta queB21 IAE se comporta bien ya queπ ∗ 2(µ|σ 2 )= 1 − e{−ˆµ2 /ˆσ 2 2 }2 √ π £ˆµ ¤, 2 /ˆσ 2 (4.29)2


4.2. Factores <strong>de</strong> Bayes para mó<strong>de</strong>los anidados 69es una distribución a priori propia (integrando sobre µ) y, a<strong>de</strong>más es equiv<strong>al</strong>ente <strong>al</strong>a elección <strong>de</strong> Jeffreys <strong>de</strong> π 2 (µ|σ 2 ) como Cauchy (0,σ 2 ); <strong>de</strong> hecho, las <strong>de</strong>nsida<strong>de</strong>s<strong>de</strong> las dos distribuciones a priori nunca difieren en mas <strong>de</strong> 15 %.Esta interesante propiedad <strong>de</strong> B21 IAE es <strong>de</strong>safortunadamente no compartidacon B21 IGE . Este no correspon<strong>de</strong> a un factor <strong>de</strong> Bayes <strong>de</strong> una disitribución a prioripropia, difiriendo por una constante multiplicativa.Comparando B21 J ó B21 IAE con B21 SS , vemos que el último es más gran<strong>de</strong> por unfactor <strong>de</strong> <strong>al</strong>re<strong>de</strong>dor <strong>de</strong> √ π(1 + ˆµ 2 /ˆσ 2 ), el cu<strong>al</strong> es siempre más gran<strong>de</strong> que 1. Estefenómeno es gener<strong>al</strong>mente verda<strong>de</strong>ro y proporciona soporte para la aceptación <strong>de</strong>que B21 SS esta cargado hacia el mo<strong>de</strong>lo más complejo.Similarmente B21 S es más gran<strong>de</strong> por un factor <strong>de</strong> √ π(1 + ˆµ 2 /ˆσ 2 2), yesteesbasado hacia el mo<strong>de</strong>lo más complejo. Si uno elige π 2 (µ|σ 2 ) aserN (0,σ 2 2), entoncesB21 L = B21 S · exp{−x 2 /2ˆσ 2 2}. Si M 1 fuera el verda<strong>de</strong>ro mo<strong>de</strong>lo y n fuesegran<strong>de</strong>, entonces ¯x ∼ = 0 y B21 L ∼ = B21. S Esta es la base para el argumento <strong>de</strong> Kass yWasserman (1994) esto es que B21es S aproximadamente un factor <strong>de</strong> Bayes cuandoel mo<strong>de</strong>lo simple es el verda<strong>de</strong>ro, en una situación <strong>de</strong> mo<strong>de</strong>los anidados.La historia para B21 IA y B21 IG es similar. Remarcando, el promedio en B21IAnuevamente correspon<strong>de</strong> a una distribución a priori propia. El correspondientetérmino <strong>de</strong> (4.13) es cu<strong>al</strong>itativamente similar, pero nuevamente no es propia.4.2.5. Distribuciones a priori intrínsecasEn el ejemplo 1 en sección 4.2.4 vimos que B IA21 y B IAE21 eran aproximadamenteigu<strong>al</strong>es a los factores <strong>de</strong> Bayes para la distribución a priori (condicion<strong>al</strong>) propia.T<strong>al</strong> distribución a priori si existe es llamada una distribución a priori intrínseca.Vimos los efectos que los FBI tien<strong>de</strong>n a correspon<strong>de</strong>r a los factores <strong>de</strong> Bayes verda<strong>de</strong>roscon respecto a distribuciones a priori intrínsecas para ser su justificaciónmás fuerte. Por lo tanto la <strong>de</strong>terminación <strong>de</strong> las distribuciones a priori intrínsecases teóricamente interesante, a<strong>de</strong>más proviene <strong>de</strong>l mejor comportamiento <strong>de</strong>los FBI.También hay un beneficio potenci<strong>al</strong> en <strong>de</strong>terminar las distribuciones a prioriintrínsecas. Un beneficio obvio es que las distribuciones a priori intrínsecaspue<strong>de</strong>n ser usadas en lugar <strong>de</strong> las π N i , para c<strong>al</strong>cular el factor <strong>de</strong> Bayes actu<strong>al</strong>.Esto eliminaría la necesidad <strong>de</strong> c<strong>al</strong>cular muestras <strong>de</strong> entrenamiento y eliminaríapreocupaciones acerca <strong>de</strong> la estabilidad <strong>de</strong> los factores <strong>de</strong> Bayes intrínsecos. Dehecho, uno pue<strong>de</strong> ver <strong>al</strong>ternativamente el procedimiento <strong>de</strong> los factores <strong>de</strong> Bayes,como un método para aplicar a “muestras <strong>de</strong> entrenamiento imaginarias”, para<strong>de</strong>terminar distribuciones a priori convencion<strong>al</strong>es actu<strong>al</strong>es para ser usadas en laselección <strong>de</strong> mo<strong>de</strong>los y contraste <strong>de</strong> hipótesis.Como con las distribuciones a priori <strong>de</strong> referencia, nuestra <strong>de</strong>finición <strong>de</strong> dis-


70 Capítulo 4. Factores <strong>de</strong> Bayes intrínsecostribuciones a priori intrínsecas será centrada <strong>al</strong>re<strong>de</strong>dor <strong>de</strong> una muestra <strong>de</strong> entrenamientoimaginaria. Frecuentemente, se pue<strong>de</strong>n utilizar argumentos asintóticospara verificar la siguiente aproximación, que Berger y Pericchi establecieron comocondición.Condicion A. Suponga que el tamaño <strong>de</strong> muestra tien<strong>de</strong> a infinito, paradistribuciones a priori en una clase apropiada, Γ, (4.2) pue<strong>de</strong> aproximarse porB ji = Bji N · πj(ˆθ j )π N i (ˆθ i )π i (ˆθ i )π N j (ˆθ · (1 + o(1)), (4.30)j )don<strong>de</strong> ˆθ j y ˆθ i son los estimadores <strong>de</strong> máxima verosimilitud bajo los mo<strong>de</strong>los M iy M j .(aquío(1) → 0 en probabilidad bajo M i y M j ).Esta condición pue<strong>de</strong> verse fácilmente para compren<strong>de</strong>r la situación asintóticaestándar (4.8), pero también para compren<strong>de</strong>r la situación no estándar.Para <strong>de</strong>finir las distribuciones a priori intrínseca, empezaremos igu<strong>al</strong>ando laecuación (4.30) con (4.12) o (4.13) produciendoπ j (ˆθ j )π N i (ˆθ i )π i (ˆθ i )π N j (ˆθ j ) (1 + o(1)) = ˜B N ij , (4.31)<strong>de</strong>finiendo ˜B ijN como la media geométrica o la media aritmética <strong>de</strong> Bij N (x(l)).Enseguida necesitamos asumir <strong>al</strong>go acerca <strong>de</strong>l comportamiento <strong>de</strong> los límites <strong>de</strong>las cantida<strong>de</strong>s en (4.31). La siguiente condición es típicamente satisfecha.Condición B. Cuando el tamaño <strong>de</strong> muestra tien<strong>de</strong> a infinito, se tiene losi-guientei) Bajo M j , ˆθ j −→ θ j , ˆθ i −→ Ψ i (θ j ), y ˜B ij N −→ ˜B j ∗ (θ j ).i) Bajo M i , ˆθ i −→ θ i , ˆθ j −→ Ψ j (θ i ), y ˜B ij N −→ ˜B i ∗ (θ i ).Don<strong>de</strong>, Ψ i (θ j ) <strong>de</strong>nota el límite <strong>de</strong>l estimador máximo verosímil ˆθ imo<strong>de</strong>lo M j en el punto θ j .Típicamente, para k = i o k = jbajo el⎧⎪⎨˜B k(θ ∗ k )=⎪⎩límL→∞ EM kθ knlím exp E M kθL→∞ kh P i1 LL l=1 BN ij (X(l))h P io1 LL l=1 log BN ij (X(l))caso aritmético,caso geométrico.(4.32)Si los X(l) son intercambiables, entonces los límites y los promedios sobre Lpue<strong>de</strong>n eliminarse.


4.2. Factores <strong>de</strong> Bayes para mó<strong>de</strong>los anidados 71Usando la condición B y tomando límites en (4.31), primero bajo M j y <strong>de</strong>spuésbajo M i , resultan las siguientes 2 ecuaciones que <strong>de</strong>finen las distribuciones a prioriintrínsecas (π I j,π I i ).π I j(θ j )π N i (Ψ i (θ j ))π N j (θ j)π I i (Ψ i(θ j )) = B∗ j (θ j ), (4.33)π N i (θ i )π I j(Ψ j (θ i ))π I i (θ j)π N j (Ψ j(θ i )) = B∗ i (θ i ). (4.34)La motivación es otra vez, que las distribuciones a priori que satisfagan lasecuaciones (4.33) y (4.34), tendrán respuestas que serán asintóticamente equiv<strong>al</strong>entesa aquellas obtenidas <strong>usando</strong> los FBI.Notemos que las soluciones no son necesariamente únicas, ni necesariamentepropias.En el escenario <strong>de</strong> los mo<strong>de</strong>los anidados <strong>de</strong> la sección 4.2.1 y bajo el supuesto1, las soluciones a (4.33) y (4.34), están dadas porπ I 1(θ 1 )=π N 1 (θ 1 ), π I 2(θ 2 )=π N 2 (θ 2 ) · B ∗ 2(θ 2 ). (4.35)Típicamente, hay otras soluciones, quizás incluso son soluciones que son distribucionespropias, pero las soluciones en (4.35) son las más simples.Ejemplo 4.7 Para B IA21 sesigue<strong>de</strong>(4.23)y(4.32)queB ∗ 2(θ 2 )=σ 2 · π ∗ 2(µ|σ 2 )don<strong>de</strong> π ∗ 2(µ|σ 2 ) fue <strong>de</strong>finido en (4.29). Por lo tanto las distribuciones a prioriintrínseca sonπ I 1(σ 1 )=π N 1 (σ 1 )=1/σ 1 ,π I 2(µ, σ 2 )=π N 2 (σ 2 )B ∗ 2(µ, σ 2 ). = 1 σ 2· π ∗ 2(µ|σ 2 ). (4.36)B21 IA se comporta (asintóticamente) como un factor <strong>de</strong> Bayes verda<strong>de</strong>ro queusa las distribuciones a priori no informativas <strong>de</strong> referencia para σ 1 y σ 2 , yladistribución propia π ∗ 2(µ|σ 2 ), para la distribución propia condicion<strong>al</strong> <strong>de</strong> µ dadoσ 2 . A<strong>de</strong>más <strong>de</strong> la propiedad <strong>de</strong> π ∗ 2(µ|σ 2 ), es notable que la distribución a prioriintrínseca para σ 2 es la a priori <strong>de</strong> referencia 1/σ 2 , y no la distribución a priori<strong>de</strong> Jeffreys (form<strong>al</strong>) 1/σ 2 2 usada para <strong>de</strong>ducir B21 IA .Berger y Pericchi observaron este último comportamiento en otros ejemplos;los FBI parecen intentar convertir la origin<strong>al</strong> π N i en distribuciones a priori <strong>de</strong>referencia para parámetros comunes o mo<strong>de</strong>los similares.


72 Capítulo 4. Factores <strong>de</strong> Bayes intrínsecosEjemplo 4.8 Para B IA21 , vemos <strong>de</strong> (4.18), (4.25), y (4.32) que B ∗ 2(θ 2 )=Φ(−θ 2 / √ 2).Por lo tanto las distribuciones a priori intrínsecas (4.35) son:π I 1(θ 1 )=π N 1 (θ 1 )=1, π I 2(θ 2 )=1· Φ(−θ 2 / √ 2) . (4.37)Dos características <strong>de</strong> estas distribuciones a priori intrínsecas son particularmenteinteresantes. Primero, en (−∞, 0), π I 1 y π I 2 no son proporcion<strong>al</strong>es.Recor<strong>de</strong>mos que se escribieron los mo<strong>de</strong>los como M 1 : θ 1 < 0, M 2 : θ 2 ∈ R 1 , adiferencia <strong>de</strong> M 1 : θ 1 < 0, M 2 : θ 2 ∈ R 1 , para enfatizar que los θ i pue<strong>de</strong>n tenerdiferentes interpretaciones bajo cada mo<strong>de</strong>lo y distribuciones a priori diferentes,incluso en su dominio común. Esta posibilidad parece haberse re<strong>al</strong>izado. Note,sin embargo que sobre (−∞, 0) ,π I 1 y π I 2 difieren substanci<strong>al</strong>mente cerca <strong>de</strong> cero.LaRsegunda característica interesante <strong>de</strong> la distribución a priori intrínseca es que∞π I 0 2(θ 2 )dθ 2 = R ∞Φ(−θ0 2 / √ 2) dθ 2 =1/ √ π, por lo tanto π I 2(θ 2 |{θ 2 > 0}) espropia.El comportamiento <strong>de</strong> las distribuciones a priori intrínsecas, observadas en losejemplos anteriores es típicamente para mo<strong>de</strong>los anidados. Parámetros “comunes”(o <strong>al</strong> menos parámetros que pue<strong>de</strong>n ser i<strong>de</strong>ntificados en el sentido <strong>de</strong> la ecuación(4.9)) típicamente tienen distribuciones a priori intrínsecas que son distribucionesa priori estándares no informativas o ligeras variantes, mientras que paramétrosque están solo en mo<strong>de</strong>los más complejos (o que tienen dominios extendidosen los mo<strong>de</strong>los más complejos) tienen distribuciones a priori intrínsecas propias(condicion<strong>al</strong>es).Teorema 4.1 Par<strong>al</strong>osFBIAsupongaque(4.32)secumpleyqueπ N 1 (θ 1 ) espropia. Entonces π I 2(θ 2 ), <strong>de</strong>finida en (4.35) es también propia.Demostración 3 Puesto que se asume que el límite existe en (4.32), es ciertoqueZπ I 2(θ 2 )dθ 2 =Z1= límL→∞ L1= límL→∞ LÃπ N 2 (θ 2 ) límL→∞ EM 2LXZ Zl=1l=1θ 2"1L#!LXB12(X(l))N dθ 2l=1π N 2 (θ 2 )f 2 (x(l)|θ 2 )B N 12(x(l))d(x(l)dθ 2LXZm N 2 (x(l)). £ m N 1 (x(l))/m N 2 (x(l)) ¤ d(x(l))


4.2. Factores <strong>de</strong> Bayes para mó<strong>de</strong>los anidados 731= límL→∞ L1= límL→∞ LLXZl=1m N 1 (x(l))d(x(l)LX L(1) = lím =1.¥ (4.38)L→∞ Ll=1La última fila se sigue <strong>de</strong>l efecto que π N 1 (θ 1 ) es propia obteniendo m N 1 tambiénlo es. La gran gener<strong>al</strong>idad <strong>de</strong> este teorema es atenuada por el requerimiento <strong>de</strong>que π N 1 (θ 1 ) es propia. Fin<strong>al</strong>mente nótese que no existe un teorema análogo paraB21 GI .


74 Capítulo 4. Factores <strong>de</strong> Bayes intrínsecos


Capítulo 5Selección <strong>bayesiana</strong> <strong>de</strong> mo<strong>de</strong>los<strong>aplicada</strong> <strong>al</strong> ANOVASean N (x 1 |µ 1 ,σ 2 1),..., N (x k |µ k ,σ 2 k ) las distribuciones norm<strong>al</strong>es con mediasµ 1 , ...µ k yvarianzasσ 2 1, ..., σ 2 k <strong>de</strong>sconocidas. Los tamaños <strong>de</strong> las muestras consi<strong>de</strong>radasson n i ,es<strong>de</strong>cir,x i =(x i1 ,x i2 , ..., x ini ), y las medias muestr<strong>al</strong>es y varianzasson ¯x i y s 2 i /n i ,i=1, 2, ..., k, respectivamente.El análisis clásico <strong>de</strong> varianza unidireccion<strong>al</strong> consiste en contrastar si las mediasµ i son todas igu<strong>al</strong>es.Bajo el punto <strong>de</strong> vista frecuentista este problema posee la dificultad <strong>de</strong> que unF -contraste exacto (Scheffe 1959) solo existe bajo la condición <strong>de</strong> que las varianzassontodasigu<strong>al</strong>es(condición<strong>de</strong>homocedasticidad).Engener<strong>al</strong>,enuncontexto<strong>de</strong>heterocedasticidad la razón <strong>de</strong> verosimilitu<strong>de</strong>s f<strong>al</strong>la (Scheffe 1959, Stuart y Ord1991), <strong>de</strong> t<strong>al</strong> manera que la teoría norm<strong>al</strong> <strong>de</strong> mo<strong>de</strong>los line<strong>al</strong>es no pue<strong>de</strong> aplicarse.Las aproximaciones asintóticas entonces son necesarias: Welch (1951) propuso unaaproximación basada en un interv<strong>al</strong>o <strong>de</strong> confianza asintótico. Una aproximaciónasintótica <strong>al</strong>ternativa basada en una modificación <strong>de</strong>l estadístico F <strong>de</strong>l análisis<strong>de</strong> varianza usu<strong>al</strong> fue dado por Brown y Forsythe (1974). Para comparaciones <strong>de</strong>estas aproximaciones, ver Tan y Tabatabai (1986) y Brown y Forsythe (1974).Bajoelpunto<strong>de</strong>vistabayesianolasolución<strong>al</strong>análisis<strong>de</strong>varianzabajohomocedasticidad(Lindley 1970; Box y Tiao 1973), es basado en la distribución aposteriori <strong>de</strong> los parámetros (λ 1 ,λ 2 , ..., λ k ),don<strong>de</strong>λ i = µ i −µ, i =1, ..., k. Para unα ∈ (0, 1) dado la región más gran<strong>de</strong> que contiene una probabilidad igu<strong>al</strong> a 1 − αes c<strong>al</strong>culada. Entonces, cu<strong>al</strong>quier punto <strong>de</strong> esta región es aceptado como verosímil:en particular, la regla es <strong>aplicada</strong> a la hipótesis nula H 0 : λ 1 = λ 2 = ... = λ k .Esto no pue<strong>de</strong> ser consi<strong>de</strong>rado como una solución <strong>bayesiana</strong>: la hipótesis nula, queno es tomada en cuenta en la formulación <strong>de</strong>l problema, tiene una probabilidada posteriori igu<strong>al</strong> a cero. Esta dificultad proviene como consecuencia <strong>de</strong> que el75


76 Capítulo 5. Selección <strong>bayesiana</strong> <strong>de</strong> mo<strong>de</strong>los <strong>aplicada</strong> <strong>al</strong> ANOVAproblema se ha enfocado como uno <strong>de</strong> estimación cuando re<strong>al</strong>mente es un problema<strong>de</strong> contraste. Para distinguir entre problemas <strong>de</strong> estimación y problemas<strong>de</strong> contraste es recomendable ver Jeffreys (1961, pp. 245-249).La propuesta aquí es formular el análisis clásico <strong>de</strong> varianza como un problema<strong>de</strong> selección <strong>de</strong> mo<strong>de</strong>los, en el cu<strong>al</strong> la condición <strong>de</strong> homocedasticidad no se impone,y para el cu<strong>al</strong> Moreno, Bertolino y Racugno (2001) proponen un procedimientobayesiano por <strong>de</strong>fecto.Consi<strong>de</strong>remos los mo<strong>de</strong>los anidadosyM 1 : f 1 (z(θ 1 )) = N (x 1 |µ, τ 2 1) ···N(x k |µ, τ 2 k), (5.1)M 2 : f 2 (z(θ 2 )) = N (x 1 |µ 1 ,σ 2 1) ···N(x k |µ k ,σ 2 k), (5.2)don<strong>de</strong> z = (x 1 , ..., x k ),θ 1 = (µ, τ 1 , ..., τ k ) y θ 2 = (µ 1 , ..., µ k ,σ 1 , ..., σ k ). Consi<strong>de</strong>randoque µ y τ i son distribuciones a priori in<strong>de</strong>pendientes, las distribucionesa priori convencion<strong>al</strong>es para µ y log τ i son distribuciones uniformes (Jeffreys 1961.p. 138), por tantoπ N 1 (θ 1 )= c 1. (5.3)kQτ iSimilarmente, asumamos que µ y σ 1 son también distribuciones a priori in<strong>de</strong>pendientes,la distribución a priori convencion<strong>al</strong> esi=1π N 2 (θ 2 )= c 2. (5.4)kQσ iEn (5.3) y (5.4), c 1 y c 2 son constantes positivas que no pue<strong>de</strong>n ser especificadasya que π N 1 (θ 1 ) y π N 2 (θ 2 ) no son funciones integrables. Sin la suposición<strong>de</strong> in<strong>de</strong>pen<strong>de</strong>ncia, la regla <strong>de</strong> Jeffreys daría lugar a distribuciones a priori ligeramentediferentes. Una discusión interesante sobre la selección <strong>de</strong> distribuciones apriori por <strong>de</strong>fecto esta dado en Kass y Wasserman (1996).Los mo<strong>de</strong>los a comparar son M 1 : © f 1 (z|θ 1 ),π N 1 (θ 1 ) ª y M 2 : © f 2 (z|θ 2 ),π N 2 (θ 2 ) ª .Dada una distribución a priori P ,sobre{M 1 ,M 2 } , la probabilidad a posteriori<strong>de</strong> M 1 es:µP (M 1 |z) = 1+B21(z) N P (M −12),P (M 1 )don<strong>de</strong> z =(x 1 ,x 2 ,...,x k ) y el factori=1


5.1. El método intrínseco 77RBji N = mN 2 (x)m N 1 (x) = f2 (z|θ 2 )π N 2 (θ 2 )dθR 2, (5.5)f1 (z|θ 1 )π N 1 (θ 1 )dθ 1es el conocido como el factor Bayes <strong>de</strong> M 2 frente a M 1 . Este factor encierra tod<strong>al</strong>a información que tienen los datos <strong>al</strong>re<strong>de</strong>dor <strong>de</strong> la distribución <strong>de</strong> probabilidada posteriori <strong>de</strong> M 1 .Desafortunadamente, el factor <strong>de</strong> Bayes en (5.5) está <strong>de</strong>finido s<strong>al</strong>vo una constantemultiplicativa c 2 /c 1 . Para evitar esta dificultad se han propuesto <strong>al</strong>gunas<strong>al</strong>ternativas t<strong>al</strong>es como: la aproximación asintótica <strong>de</strong> Schwarz (1978), llamadotambién “Criterio <strong>de</strong> Información Bayesiana” (CIB); el factor <strong>de</strong> Bayes fraccion<strong>al</strong>(FBF) y el factor <strong>de</strong> Bayes intrínseco (FBI) propuesto por O’Hagan (1994)y Berger y Pericchi (1996), respectivamente. Críticas y comparaciones <strong>de</strong> estosmétodos relevantes son incluidos en Berger y Pericchi (1998), De Santis y Spezzaferri(1999), Moreno (1997), Moreno, Bertolino y Racugno (1998) y O’Hagan(1995,1997). Debemos enfatizar que aunque el factor <strong>de</strong> Bayes fraccion<strong>al</strong> o elfactor <strong>de</strong> Bayes intrínseco no son factores <strong>de</strong> Bayes verda<strong>de</strong>ros, son asintóticamenteconsistentes. Esto permite, bajo ligeras condiciones, h<strong>al</strong>lar distribucionesa priori intrínsecas y fraccion<strong>al</strong>es, para obtener un factor <strong>de</strong> Bayes verda<strong>de</strong>ro.Motivaciones y justificaciones para el uso <strong>de</strong> distribuciones a priori intrínsecas enproblemas <strong>de</strong> selección <strong>de</strong> mo<strong>de</strong>los han sido dadas por Berger y Pericchi (1997),Moreno (1997), Moreno, Bertolino y Racugno (1998). En este capítulo se construyeny se c<strong>al</strong>culan los correspondientes factores <strong>de</strong> Bayes <strong>de</strong>l mo<strong>de</strong>lo M 2 frentea M 1 . Esta aproximación tiene interesantes propieda<strong>de</strong>s: (i) es un procedimientobayesiano completamente “automático” para comparación <strong>de</strong> mo<strong>de</strong>los, (ii) estosfactores <strong>de</strong> Bayes <strong>de</strong>pen<strong>de</strong>n <strong>de</strong> la muestra a través <strong>de</strong> estadísticos suficientes, (iii)no <strong>de</strong>pen<strong>de</strong>n <strong>de</strong> muestras <strong>de</strong> entrenamiento específicas<strong>de</strong>t<strong>al</strong>maneraquelaestabilidadno representa un problema, (iv) la igu<strong>al</strong>dad B 21 (z) =1/B 12 (z) es váliday consecuentemente se satisface la igu<strong>al</strong>dad P (M 2 |z) =1− P (M 1 |z) .5.1. El método intrínsecoLa i<strong>de</strong>a es dividir la muestra <strong>al</strong>eatoria x en dos partes, x =(x(l),x(n − l)).La muestra <strong>de</strong> entrenamiento x(l) =(x 1 ,x 2 , ..., x l ) será usada para convertir ladistribución a priori impropia a una distribución a priori propiaπ i (θ i |x(l)) = f 1(x(l)|θ i )π N i (θ i )m N i (x(l)) ,don<strong>de</strong> m N i (x(l)) = R f i (x(l)|θ i )π N i (θ i )dθ i ,i=1, 2. El factor <strong>de</strong> Bayes es entoncesc<strong>al</strong>culado <strong>usando</strong> los datos x(n − l) y π i (θ i |x(l)) como la distribución a priori


78 Capítulo 5. Selección <strong>bayesiana</strong> <strong>de</strong> mo<strong>de</strong>los <strong>aplicada</strong> <strong>al</strong> ANOVApropia.Resultando el factor <strong>de</strong> Bayes parci<strong>al</strong>don<strong>de</strong>B 21 (x(n − l)|x(l)) = B N 21(x) · B N 12(x(l)),B12(x(l)) N = mN 1 (x(l))m N 2 (x(l)) .Note que B 21 (x(n − l)|x(l)) esta bien <strong>de</strong>finido sólo si x(l) es t<strong>al</strong> que 0


5.3. Distribuciones a priori intrínsecas 79π I 2(θ 2 )=π N 2 (θ 2 )E M 2x(l)|θ 2B N 12(x(l)), (5.7)don<strong>de</strong> la esperanza es tomada con respecto a la <strong>de</strong>nsidad <strong>de</strong> la muestra <strong>de</strong> entrenamientominim<strong>al</strong> x(l) bajo el mo<strong>de</strong>lo M 2 .El mo<strong>de</strong>lo muestreado en (5.1) esta anidado en (5.2), y para la distribucióna priori dada en (5.4), la muestra <strong>de</strong> entrenamiento minim<strong>al</strong> es un vector <strong>al</strong>eatorioz(l) =(x ij ,i =1, 2, ..., k, j =1, 2), don<strong>de</strong> x i1 ,x i2 son in<strong>de</strong>pendientes y distribuidasbajo M 1 como N (x|µ, τ 2 i ) ybajoM 2 como N (x|µ i ,σ 2 i ).Teorema 5.1 Las distribuciones a priori intrínsecas para comparar los mo<strong>de</strong>losM 1 frente a M 2 ,son © π N 1 (θ 1 ),π I 2(θ 2 ) ª , don<strong>de</strong> π I 2(θ 2 )= R π I 2(θ 2 |θ 1 )π N 1 (θ 1 )dθ 1 yπ I 2(θ 2 |θ 1 )=kYi=1N (µ i |µ, τ 2 i + σ 2 i2HC + (σ i |0,τ i ) <strong>de</strong>nota la media <strong>de</strong>nsidad <strong>de</strong> Cauchy.)HC + (σ i |0,τ i ), (5.8)Demostración 4 Consi<strong>de</strong>remos los mo<strong>de</strong>loskYM 1 : f 1 (z|θ 1 )= N (x i |µ, τ 2 i ), π 1 (θ 1 )=δ(µ, τ 1 , ..., τ k ),yi=1M 2 : f 2 (z|θ 2 )=kYN (x i |µ i ,σ 2 i ), π N 2 (θ 2 )= c 2,kQσ ii=1don<strong>de</strong> δ(µ, τ 1 , ..., τ k ) es la <strong>de</strong>lta <strong>de</strong> Dirac en el punto θ 1 =(µ, τ 1 , ..., τ k ) y c 2 esuna constante positiva arbitraria. Luego tenemosQ k Q 2B12(z(l)) N i=1 j=1=N (x ij|µ, τ 2 i )m N 2 (z(l))don<strong>de</strong>m N 2 (z(l)) = c 2 1.2 k kQ|x i1 − x i2 |Mostraremos el resultado anterior para (x 1 ,x 2 )ylogener<strong>al</strong>izaremospara(x i1 ,x i2 ).Sean X 1 y X 2 observaciones in<strong>de</strong>pendientes <strong>de</strong> una <strong>de</strong>nsidad <strong>de</strong> loc<strong>al</strong>izaciónesc<strong>al</strong>aσ −1 g((x i − µ)/σ) y π N (µ, σ) =1/σ, entonces para x 1 6= x 2 ,m(x 1 ,x 2 )=i=112 |x 1 − x 2 | .i=1


80 Capítulo 5. Selección <strong>bayesiana</strong> <strong>de</strong> mo<strong>de</strong>los <strong>aplicada</strong> <strong>al</strong> ANOVASin perdida <strong>de</strong> gener<strong>al</strong>idad consi<strong>de</strong>remos que x 2 >x 1 y se hacen los cambios <strong>de</strong>variables (µ, σ) → (v, w) ≡ ((x1 − µ)/σ, (x2 − µ)/σ), luego<strong>de</strong>spejandosetieneσ = x 1 − x 2v − wy µ =¯x −(x1 − x2) (v + w)2 (v − w) ,y el jacobiano <strong>de</strong> la transformación es <strong>de</strong> la formaJ =¯∂µ∂v∂σ∂v∂µ∂w∂σ∂w¯ =¯= −σ2v − w = −σ2x1−x2σ(x 1 −x 2 )w −(x 1 −x 2 )v(v−w) 2 (v−w) 2−(x 1 −x 2 ) x 1 −x 2(v−w) 2= −¯¯¯¯¯ (x 1 − x 2 ) 2(v − w) 3(v−w) 2= −σ3x1 − x2 = σ 3|x1 − x2| ,don<strong>de</strong> v ∈ (−∞, ∞) y w ∈ (v, ∞).Consi<strong>de</strong>rando el jacobiano y las nuevas variablesse tiene quem(x 1 ,x 2 ) ==Z ∞ Z ∞1g(v)g(w)dwdv|x 1 − x 2 | −∞ v1 · P (V


5.3. Distribuciones a priori intrínsecas 81dada por la siguiente ecuaciónπ I 2(θ 2 |θ 1 ) = π N 2 (θ 2 )E M 2z(l)|θ 2B12(z(l))Nc 2kYZ Z µ 2 k |x i1 − x i2 |= Q kj=1 σ ×N (x i1 |µ, τ 2 i )N (x i2 |µ, τ 2 i )jc 2i=1==×N (x i1 |µ i ,σ 2 i )N (x i2 |µ i ,σ 2 i )dx i1 dx i21kYZ Z2 k π Q 2k kj=1 σ3 j τ × (|x i1 − x i2 |2j i=1½ ¾− [(xi1 − µ) 2 +(x i2 − µ) 2 ]× exp2τ 2 i½ ¾− [(xi1 − µ× expi ) 2 +(x i2 − µ i ) 2 ])dx2σ 2 i1 dx i2i1kYZ Z2 k π Q 2k kj=1 σ3 j τ × (|x i1 − x i2 |2j i=1½ −(x2× exp i1 + x 2 i2) ¡ ¢τ−2i + σ −2 (x i1 + x i2 )µi +2τ 2 i¾dx i1 dx i2 ,+ (x i1 + x i2 )µ iσ 2 i− µ2τ 2 i− µ2 iσ 2 ihaciendo d 2 i =³x2i1−x 2 i22´2y m i = x i1+x i22, obtenemos=12 k π Q 2k k½¡exp −d 2 i τ−2ij=1 σ3 j τ 2 j×kYZ Z(|x i1 − x i2 |i=1+ σ −2i¢−(m i − µ) 2τ 2 i− (m ¾i − µ i ) 2)dxσ 2 i1 dx i2 . (5.9)iConsi<strong>de</strong>rando las nuevas variables (u i ,v i ), i =1, 2, ..., k <strong>de</strong>finidas comou i = x i1 − x i2 ,v i = x i1 + x i2y <strong>de</strong>spejando, se tiene que x i1 = u i+v iy x2 i2 = v i−u ipara i =1, 2, ..., k. A<strong>de</strong>más2el jacobiano <strong>de</strong> la transformación esJ =¯∂x i1∂u i∂x i2∂u i∂v i¯¯¯¯ =¯∂v i∂x i1∂x i212− 1 21212¯ = 1 2


82 Capítulo 5. Selección <strong>bayesiana</strong> <strong>de</strong> mo<strong>de</strong>los <strong>aplicada</strong> <strong>al</strong> ANOVAasíπ I 2(θ 2 |θ 1 ) ==don<strong>de</strong>1kYZ Z2 k π Q 2k kj=1 σ3 j τ ×2j i=1½ µexp − u2 i τ2i + σ 2 i4 τ 2 i σ2 i1kY2 2k π Q 2k kj=1 σ3 j τ ×2j i=1Z ½|u i | exp − (τ 2 i + σ 2 i ) u 2 i4τ 2 i σ2 iZ( |u i|2− ( v i2− µ) 2τ 2 iZ ∙exp¾du i¸,½|u i | exp − (τ ¾2i + σ 2 i ) u 2 i4τ 2 i σ2 i½u i exp − (τ 2 i + σ 2 i ) u 2 iZ ∞= 20⎡⎤= 2⎣1³ ´ ⎦ · expτ2−2 i+σ 2 i4τ 2 i σ2 i4τ 2 i σ2 i− ( v i2− µ i ) 2σ 2 i½ ∙ (v i− 2− µ) 2du i¾du iτ 2 i½− (τ 2 i + σ 2 i ) u 2 i4τ 2 i σ2 i¾)du i dv i+ ( v i2− µ i ) 2 ¸¾dvσ 2 ii¾ ui =∞u i =0= 4τ 2 i σ 2 iτ 2 i + . (5.10)σ2 iSustituyendo el resultado (5.10) tenemosπ I 2(θ 2 |θ 1 ) ==12 2k π Q 2k kkYZ× expi=11π Q 2k kkYZexpi=1j=1 σ jj=1 σ3 j τ 2 j½−×½−kY 4τ 2 i σ 2 i×τ 2 i=1 i + σ2 i∙ (v i2− µ) 2+ ( v i2− µ i ) 2τ 2 i σ 2 ikY1×τ 2 i=1 i + σ2 i∙ (v i2− µ) 2+ ( v i2− µ i ) 2τ 2 i σ 2 i¸¾dv i¸¾dv i . (5.11)Puesto que A(z − a) 2 + B(z − b) 2 = (A + B)(z − c) 2 + AB (a − A+B b)2 , don<strong>de</strong>c = 1 (Aa + Bb), haciendo z = v iA+B 2,a= µ, b = µ i ,A= τ −2i y B = σ −2i se tiene


5.3. Distribuciones a priori intrínsecas 83queZ= exp½exp∙ (v i− 2− µ) 2+ ( v i2− µ i ) 2 ¸¾dvτ 2 i σ 2 ii∙ 2τ−2i σ −22¸¾iτ −2i + σ −2 (µ i − µ)⎧iÃ⎨√2v iexp⎩ −1 2− √ ! ⎫22c ⎬¡ ¢2 τ−2i + σ −2 −1/2 ⎭ dv ii∙ 2τ−2i σ −22¸¾iτ −2i + σ −2 (µ i − µ)i( ¡ ¢τ−2i + σ −2 µi vi−√ − √ ) 22c dv i ,2 2½− 1 2Z ∞×−∞= exp½− 1 2Z ∞× exp−∞consi<strong>de</strong>rando el cambio <strong>de</strong> variable t = √ v i2t<strong>al</strong> que dt= √ 1 2dv i ,Z= exp½exp½− 1 2−× √ Z ∞2−∞½= exp − 1 2∙ (v i2− µ) 2τ 2 iσ −2iτ −2i i∙ 2τ−2i+ σ −2(exp −∙ 2τ−2iτ −2i¡τ−2iσ −2i+ σ −2i+ ( v i2− µ i ) 2 ¸¾dvσ 2 ii2¸¾(µ i − µ)¢+ σ −2 ³it − √ )´22c dt22¸¾(µ i − µ)h√ √ i× 2 2π(τ−2i + σi−2 ) −1/2 ⎧ ⎡ ³ ´= 2 √ µ τ2π i + σ 2 −1/2 ⎨i× expτ 2 i σ2 i⎩ −1 ⎣ 2 ⎤ ⎫1τ ⎬ 2i σ2 i⎦ (µ2 τ 2 i − µ) 2i +σ2 i⎭τ 2 i σ2 i= 2 √ ½1π ³ × exp − 1 ∙ ¸ ¾2τ2´1/2i+σ 2 2 τ 2 ii + (µ i − µ) 2σ2 iτ 2 i σ2 i= 2√ µπ 2τ2√ i σ 2 i2 τ 2 i + σ2 i√2πτi σ i=³τ2i+σ 2 i2´1/2× exp 1/2 ½× exp − 1 ∙2½− 1 ∙22τ 2 i + σ2 i2τ 2 i + σ2 i¸ ¾(µ i − µ) 2¸(µ i − µ) 2 ¾


84 Capítulo 5. Selección <strong>bayesiana</strong> <strong>de</strong> mo<strong>de</strong>los <strong>aplicada</strong> <strong>al</strong> ANOVA=2πτ i σ i√2π³τ2i+σ 2 i2½× exp − 1 ∙2´1/22 τ 2 i + σ2 i= 2πτ i σ i ·N(µi|µ, τ 2 i + σ 2 i).2Sustituyendo este último resultado en (5.11), se tiene que¸(µ i − µ) 2 ¾π I 2(θ 2 |θ 1 ) ===1π Q 2k kj=1 σ jkY 2 τ iπ τ 2 i + σ2 ii=1kYi=1×kYi=11τ 2 i + σ2 i×·N(µi|µ, τ 2 i + σ 2 i2kYi=1HC + (σ i |0,τ i ) ·N(µi|µ, τ 2 i + σ 2 i2)2πτ i σ i ·N(µi|µ, τ 2 i + σ 2 i2).¥)Este teorema indica que, en la distribución a priori intrínseca π I 2(θ 2 |θ 1 ), lasµ ‘ is son condicion<strong>al</strong>mente in<strong>de</strong>pendientes y norm<strong>al</strong>mente distribuidas y σ i |τ i sonin<strong>de</strong>pendientes <strong>de</strong> σ j |τ j ,i6= j, y se distribuye como una media <strong>de</strong> Cauchy.5.4. Análisis <strong>de</strong> varianza bajo heterocedasticidadDada la muestra z =(x 11 , ..., x 1n1 ,...,x k1 , ..., x knk ),elfactorBayespar<strong>al</strong>asdistribuciones a priori {π N 1 (θ 1 ),π I 2(θ 2 )} dadas en el teorema anterior, esR Q nkQnioB21(z) I i=1 j=1 N (x ij|µ i ,σ 2 i ) π I 2(µ i ,σ i )dµ i dσ i= R n Q o . (5.12)ki=1 {Q n ij=1 N (xij|µ, τ 2 −1i )}τ i dτ i dµTrabajando con el numerador tenemosZ Z kY(ni)YN (x ij |µ i ,σ 2 i ) π I 2(µ i ,σ i )dµ i dσ ii=1=Z Z " kY×i=1j=1(nià Z Z kYi=1)YN (x ij |µ i ,σ 2 i )j=1HC + (σ i |0,τ i ) ×N(µi|µ, τ 2 i + σ 2 i2)τ −1i dµdτ i!#dµ i dσ i


5.4. Análisis <strong>de</strong> varianza bajo heterocedasticidad 85=Z Z⎡⎢⎣⎧kY⎪⎨i=1(2π) −ni/2 σ −n ii⎪⎩⎡ Pn i⎤⎫(x ij − µ i ) 2× exp ⎢⎣ − j=1⎪⎬⎥2σ 2 ⎦i ⎪⎭ −1/2Z Z ( kYµ τ(2π) −1/2 2i + σ 2 i2i=1"× exp − 1 µ #) #τ2i + σ 2 −1i(µ2 2i − µ) 2 2τ iπ(τ 2 i + σ2 i ) × τ −1i dµdτ i dµ i dσ itomando en cuenta (B.2) y (B.3) se cumpleZ"exp − 1 2µ τ2i + σ 2 i2 −1(µ i − µ) 2 #dµ = √ µ τ22π i + σ 2 1/2i,2yZ⎡ Pn i⎤⎡ P(x ij − µ i ) 2n i⎤(xexp ⎢⎣ − j=1⎥⎦ dµ i = (2π)1/2 σ iij − ¯x i ) 2× exp ⎢(n i ) 1/2 ⎣ − j=1⎥⎦ ,2σ 2 i2σ 2 iluego=Z Z⎡⎢⎣⎧kY⎪⎨i=1(2π) −ni/2 σ −n ii⎪⎩⎡ Pn i⎤⎫(x ij − µ i ) 2× exp ⎢⎣ − j=1⎪⎬⎥2σ 2 ⎦i ⎪⎭= −1/2Z ( kYµ τ(2π) −1/2 2i + σ 2 i2i=1µ √ τ22πi + σ 2 1/2) #i 2τ i×2 π(τ 2 i + σ2 i ) × τ −1i dτ i dµ i dσ i⎡ ⎧⎡ Pn i⎤⎫Z ZkY⎪⎨(x ij − µ i ) 2⎢⎣ (2π) −ni/2 σ −n ii × exp ⎢⎣i=1 ⎪⎩− j=1⎪⎬⎥2σ 2 ⎦i ⎪⎭Z ( ) #kY 2π(τ 2 i + σ2 i ) dτ i dµ i dσ ii=1


86 Capítulo 5. Selección <strong>bayesiana</strong> <strong>de</strong> mo<strong>de</strong>los <strong>aplicada</strong> <strong>al</strong> ANOVA==Z⎡⎢⎣⎧kY⎪⎨i=1Z ( kYi=1(2π) −ni/2 σ −n ii × (2π)1/2 σ i⎪⎩) #2π(τ 2 i + σ2 i ) dτ i dσ iµ kQ −1/22 k (2π) k/2 n i ZZ ( kYi=1i=1(2π) n/2 π k= 2 3k−n2 π −(n+k)2Z ( kYi=1= 2 3k−n2 π −(n+k)2Z (∞ kY×0 i=i= 2 3k−n2 π −(n+k)2⎡⎢⎣⎡ Pn i⎤⎫(x ij − ¯x i ) 2× exp ⎢(n i ) 1/2 ⎣ − j=1⎪⎬⎥2σ 2 ⎦i ⎪⎭⎧kY⎪⎨i=1) #1(τ 2 i + σ2 i ) dτ i dσ ià kY! −1/2 Z " kYn ii=1i=1) #1(τ 2 i + σ2 i ) dτ i dσ ià kY! −1/2n ii=1Z ∞0σ −n i+1i⎪⎩⎡ Pn i⎤⎫(x ij − ¯x i ) 2× exp ⎢⎣ − j=1⎪⎬⎥2σ 2 ⎦i ⎪⎭½∙ ¸¾σ −n i+1i × exp − s2 i2σ 2 i∙ ¸ )1(τ 2 i + × exp − s2 idσ σ2 i )σn i−12σ 2 i dτ iiià kY! −1/2n i × I 2. (5.13)i=1Don<strong>de</strong> I 2 = R ½∞ Q k R h i ¾∞ 1× exp − s2 0 0 (τi=i2 i +σ2 i )σn i −1idσ2σ 2 i dτ i .iiAhora trabajando con el <strong>de</strong>nominador, se tiene que=Z Z kY Yn i{i=1 j=1⎛ ⎧Z ZkY⎪⎨⎜⎝i=1N (xij|µ, τ 2 i )}τ −1i dτ i dµ(2π) −ni/2 τ −n ii⎪⎩⎡ Pn i⎤ ⎫⎞(x ij − µ) 2× exp ⎢⎣ − j=1⎪⎬⎥2τ 2 ⎦ τ −1 ⎟i ⎠i ⎪⎭dτ idµ


5.4. Análisis <strong>de</strong> varianza bajo heterocedasticidad 87=(2π) −n/2 Z Z⎛⎜⎝⎧kY⎪⎨i=1τ −n i−1i⎪⎩⎡ Pn i(x ij − µ) 2× exp ⎢⎣ − j=12τ −2i⎤⎫⎞⎪⎬⎥ ⎟⎦ ⎠⎪⎭dτ idµ,pero−= −= −= −= −Pn ij=1Pn ij=1Pn ij=1Pn ij=1Pn ij=1(x ij − µ) 22(x ij − ¯x i +¯x i − µ) 22[(x ij − ¯x i ) 2 +2(x ij − ¯x i )(¯x i + µ)+(¯x i − µ) 2 ]P(x ij − ¯x i ) 2 + n ij=12P(x ij − ¯x i ) 2 + n i(¯x i − µ) 22j=12P2(x ij − ¯x i )(¯x i + µ)+ n i(¯x i − µ) 2.j=1Así(2π) −n/2 Z Z⎛⎜⎝⎧kY⎪⎨i=1τ −n i−1i⎪⎩⎡ Pn i(x ij − µ) 2× exp ⎢⎣ − j=12τ −2i⎤⎫⎞⎪⎬⎥ ⎟⎦ ⎠⎪⎭dτ idµZ Z Ã kY n= (2π) −n/2 τ −(n i+1)ii=1⎡ Pn iP(x ij − ¯x i ) 2 + n i(¯x i − µ) 2× exp ⎢⎣ − j=1j=12τ −2i⎤⎫⎞⎪⎬⎥ ⎟⎦ ⎠⎪⎭dτ idµ,


88 Capítulo 5. Selección <strong>bayesiana</strong> <strong>de</strong> mo<strong>de</strong>los <strong>aplicada</strong> <strong>al</strong> ANOVAtomando p = n i y a =n iPj=1P(x ij −¯x i ) 2 n i+(¯x i −µ) 2j=1en (B.1), tenemos que2Z Z à kY n(2π) −n/2 τ −(n i+1)ii=1⎡ Pn iP(x ij − ¯x i ) 2 + n ⎤⎫⎞i(¯x i − µ) 2× exp ⎢⎣ − j=1j=1⎪⎬τ −2 ⎥ ⎟i2⎦ ⎠⎪⎭dτ idµ⎧ ⎡ Pn iPZ kY ⎪⎨ (x= (2π) −n/2 1ij − ¯x i ) 2 + n ⎤i−n i /2(¯x i − µ) 2j=1j=1⎢⎥2 ⎣2⎦i=1 ⎪⎩( ∙1 s2i + n i (¯x i − µ) 2 ¸−ni /2 ³ ni´)Γ dµ2 22= (2π) −n/2 Z kYi=1= (2π) −n/2 2 n/2 2 −k Z kYi=1n £s2i + n i (¯x i − µ) 2¤ −n i /2 Γ= π −n/2 2 −k kYZ kY×i=1i=1= π −n/2 2 −k kYn ³ ni´oΓ2n £s2i + n i (¯x i − µ) 2¤ −n i /2 o dµi=1Γ³ ni´odµ2³ ni2⎫´ ⎪⎬dµ⎪⎭n ³ ni´oΓ × I 3 . (5.14)2don<strong>de</strong> I 3 = R Q noki=1[s 2 i + n i (¯x i − µ) 2 ] −n i/2dµ.Efectuando el cociente entre (5.13) y (5.14), se tieneB I 21(z) ==n QniR Q oki=1 j=1 N (x ij|µ i ,σ 2 i ) π I 2(µ i ,σ i )dµ i dσ iR Q ki=1 {Q n ij=1 N (xij|µ, τ 2 −1i )}τ i dτ i dµµ kQ −1/22 3k−n2 π −(n+k)2 n i × I 2i=1π −n/2 2 Q −k k© ¡i=1 Γni¢ª .2 × I3


5.5. El factor <strong>de</strong> Bayes para contraste bajo homocedasticidad 89AsíB I 21(z) =I 2µ5k−nkQ 1/2 kY−(2 2 ) π k/2 n ii=1i=1.© ¡Γni¢ª2 × I35.5. El factor <strong>de</strong> Bayes para contraste bajo homocedasticidadEn la sección anterior el factor <strong>de</strong> Bayes es <strong>de</strong>rivado bajo la condición <strong>de</strong> heterocedasticidad.Cuando se asume la condición <strong>de</strong> homocedasticidad los mo<strong>de</strong>losacompararsonf 1 (z|θ 1 )=N (x 1 |η 1 ,τ 2 )...N (x k |η k ,τ 2 ) y f 2 (z|θ 2 )=N (x 1 |µ 1 ,σ 2 )...N (x k |µ k ,σ 2 ).El contraste <strong>de</strong> homocedasticidad frente <strong>al</strong> <strong>de</strong> heterocedasticidad pue<strong>de</strong> hacerseen un contexto frecuentista <strong>usando</strong> la aproximación <strong>de</strong> Bartlett. Des<strong>de</strong> elpunto <strong>de</strong> vista bayesiano los mo<strong>de</strong>los anidados a ser comparados son:yM 1 : f 1 (z|θ 1 )=kYi=1N (x i |η i, τ 2 ), π N 1 (θ 1 )= c 1τ(5.15)M 2 : f 2 (z|θ 2 )=kYN (x i |µ i, σ 2 i ), π N 2 (θ 2 )=i=1c 2Q ki=1 σ i(5.16)don<strong>de</strong> θ 1 = (η 1 ,...,η k ,τ), y θ 2 = (µ 1 , ..., µ k ,σ 1 , ...σ k ) y c 1 , c 2 son constantespositivas arbitrarias. Se supone que los parámetros <strong>de</strong> loc<strong>al</strong>ización y esc<strong>al</strong>a encada <strong>de</strong>nsidad son a priori in<strong>de</strong>pendientes.Teorema 5.2 Las distribuciones a priori intrínseca para comparar el mo<strong>de</strong>lo(5.15) frente <strong>al</strong> (5.16) son {π N 1 (θ 1 ),π HI2 (θ 2 )}, don<strong>de</strong>Zπ HI2 (θ 2 )=π HI2 (θ 2 |θ 1 )π N 1 (θ 1 )dθ 1yπ HI2 (θ 2 |θ 1 )=kYi=1N (µ i |η i , τ 2 + σ 2 i2)HC + (σ i |0,τ).


90 Capítulo 5. Selección <strong>bayesiana</strong> <strong>de</strong> mo<strong>de</strong>los <strong>aplicada</strong> <strong>al</strong> ANOVADemostración 5 Consi<strong>de</strong>remos los mo<strong>de</strong>losyM 1 : f 1 (z|θ 1 )=M 2 : f 2 (z|θ 2 )=kYN (x i |η i, τ 2 ), π 1 (θ 1 )=δ(η 1 , ..., η k, τ)i=1kYN (x i |µ i, σ 2 i ), π N 2 (θ 2 )=i=1c 2Q ki=1 σ ,idon<strong>de</strong> δ(µ, τ 1 , ..., τ k ) es la <strong>de</strong>lta <strong>de</strong> Dirac en el punto θ 1 =(µ, τ 1 , ..., τ k ) y c 2 esuna constante positiva arbitraria. Luego tenemos queB N 12(z(l)) =Q k Q 2i=1 j=1 N (x ij|η i ,τ 2 ),m N 2 (z(l))don<strong>de</strong>m N 2 (z(l)) = c 2 1.2 k kQ|x i1 − x i2 |i=1La distribución a priori intrínseca condicion<strong>al</strong> <strong>de</strong> θ 2 esπ I 2(θ 2 |θ 1 ) = π N 2 (θ 2 )E M 2z(l)|θ 2B12(z(l))Nc 2kYZ Z µ 2 k |x i1 − x i2 |= Q kj=1 σ ×N (x i1 |ηjc i ,τ 2 )N (x i2 |η i ,τ 2 )2i=1==×N (x i1 |µ i ,σ 2 i )N (x i2 |µ i ,σ 2 i )dx i1 dx i21kYZ Z2 k π Q 2k kj=1 σ3 j τ × (|x i1 − x i2 |2i=1½ ¾− [(xi1 − η× expi ) 2 +(x i2 − η i ) 2 ]2τ½ 2¾− [(xi1 − µ× expi ) 2 +(x i2 − µ i ) 2 ])dx i1 dx i212 k π 2k τ 2k Q kj=1 σ3 j×2σ 2 ikYZ Zi=1½(|x i1 − x i2 |×exp − (x2 i1 + x 2 i22× ¡ ¢τ −2 + σ −2 (x i1 + x i2 )ηi − i− (x i1 + x i2 )µ i+ η2 iτ 2σ 2 i τ + µ2 i2 σ 2 i¾)dx i1 dx i2


5.5. El factor <strong>de</strong> Bayes para contraste bajo homocedasticidad 91=12 k π 2k τ Q 2k k½exp −d 2 ij=1 σ3 jסτ −2 + σ −2ikYZ Z(|x i1 − x i2 |i=1¢−(m i − η i ) 2τ 2 − (m i − µ i ) 2σ 2 i¾)dx i1 dx i2 , (5.17)don<strong>de</strong> d 2 i = (x i1−x i2 ) 2y m4 i = x i1+x i2, respectivamente. Consi<strong>de</strong>rando las nuevas2variables (u i ,v i ),i=1, 2, ..., k <strong>de</strong>finidas comou i = x i1 − x i2 , v i = x i1 + x i2 ,<strong>de</strong>spejando se tiene que x i1 = u i+v i,x2 i2 = v i−u i,i=1, 2, ..., k, yeljacobiano<strong>de</strong>2la transformación es:∙ ∂xi1 ∂x i1¸ ∙ ¸∂uJ = i ∂v i 1/2 1/2==1/2.−1/2 1/2∂x i2∂u i∂x i2∂v iSustituyendo las nuevas variables en (5.17) tenemos queπ I 2(θ 2 |θ 1 ) ==12 k π 2k τ Q ×2k kj=1 σ3 j½ µexp − u2 i τ 2 + σ 2 i4 τ 2 σ 2 i12 2k π 2k τ Q 2k kZ|u i | expj=1 σ3 j×kYZ Z( |u i|2i=1− ( v i2− η i ) 2kYZ[i=1½− (τ 2 + σ 2 i ) u 2 i4τ 2 σ 2 iτ 2exp¾du i ],don<strong>de</strong>,Z ½|u i | exp − (τ ¾2 + σ 2 i ) u 2 idu4τ 2 σ 2 i = 2i⎡Z ∞0− ( v i2− µ i ) 2σ 2 i¾)du i dv i½ ∙ (v i− 2− η i ) 2+ ( v i2− µ i ) 2τ 2 σ 2 i= 2⎣³τ−2 2 +σ 2 i× exp= 4τ 2 σ 2 i.τ 2 + σ 2 i½u i exp − (τ 2 + σ 2 i ) u 2 i4τ 2 σ 2 i⎤1´ ⎦4τ 2 σ 2 i½− (τ 2 + σ 2 i ) u 2 i4τ 2 σ 2 i¾ ui =∞u i =0¾du i¸¾dv i


92 Capítulo 5. Selección <strong>bayesiana</strong> <strong>de</strong> mo<strong>de</strong>los <strong>aplicada</strong> <strong>al</strong> ANOVASustituyendo este último resultado tenemosπ I 2(θ 2 |θ 1 ) ==12 2k π 2k τ Q 2k kkYZ× expi=11π 2k τ Q 2k kkYZ× expi=1j=1 σ3 j½−j=1 σ3 j½−×kY 4τ 2 σ 2 iτ 2 + σ 2 ii=1∙ (v i2− η i ) 2+ ( v i2− µ i ) 2τ 2 σ 2 ikY×i=1τ 2 σ 2 iτ 2 + σ 2 i∙ (v i2− η i ) 2+ ( v i2− µ i ) 2τ 2 σ 2 i¸¾dv i¸¾dv i . (5.18)Puesto que A(z − a) 2 + B(z − b) 2 = (A + B)(z − c) 2 + AB (a − A+B b)2 , don<strong>de</strong>c = 1 (Aa + Bb), haciendo z = v iA+B 2,a= η i ,b= µ i ,A= τ −2 y B = σ −2i se tienequeZ ½ ∙ (v iexp − 2− η i ) 2+ ( v i2− µ i ) 2 ¸¾dvτ 2 σ 2 ii½= exp − 1 ∙ 2τ −2 σ −22¸¾i2 τ −2 + σ −2 (µ i − η i )⎧iZ Ã∞ ⎨√2v i× exp−∞ ⎩ −1 2− √ ! ⎫22c ⎬¡ ¢2 τ−2+ σ −2 −1/2 ⎭ dv ii½= exp − 1 ∙ 2τ −2 σ −22¸¾i2 τ −2 + σ −2 (µ i − η i )iZ (∞¡ ¢τ −2 + σ −2 µi vi× exp −√ − √ ) 22c dv i ,−∞2 2consi<strong>de</strong>rando el cambio <strong>de</strong> variable t = √ v i2t<strong>al</strong> que dt= √ 1 2dv i ,Z= exp½exp½− 1 2−× √ Z ∞2 exp−∞∙ (v i2− µ) 2τ 2 i∙ 2τ −2 σ −2iτ −2 + σ −2(−i+ ( v i2− µ i ) 2 ¸¾dvσ 2 ii2¸¾(µ i − η i )¡τ −2 + σ −2i2¢³t − √ )´22c dt


5.5. El factor <strong>de</strong> Bayes para contraste bajo homocedasticidad 93½= exp − 1 2=×∙ 2τ −2 σ −2iτ −2 + σ −2ih√ √2 2π(τ −2 + σ −2i2πτσ i√2π³τ 2 +σ 2 i2´1/2× exp(µ i − η i ) 2¸¾i) −1/2 ½− 1 2σ 2 i + τ 2= 2πτσ i ·N(µ i |η i, ),2∙2τ 2 + σ 2 i¸(µ i − η i ) 2 ¾yporlotantoπ I 2(θ 2 |θ 1 ) ===τ 2kπ 2k τ Q 2k kj=1 σ3 jkYi=1kYi=12πττ 2 + σ 2 i×kYi=1σ 2 iτ 2 + σ 2 i×·N(µi|η i , τ 2 + σ 2 i2)kYi=1HC + (σ i |0,τ) ·N(µi|η i , τ 2 + σ 2 i22πτσ i ·N(µi|µ, τ 2 + σ 2 i2).¥)Para una muestra z, el factor Bayes con las distribuciones a priori intrínsecas{π N 1 (θ 1 ),π HI2 (θ 2 )} es <strong>de</strong> la formaB HI21 (z) =1I2 n−3k1 , (5.19)2 −1 π k Γ( n−k2 )Sn−kPdon<strong>de</strong> S 2 = k s 2 i , yi=1I 1 = R ∞0τ k−1 ½ k QPor <strong>de</strong>finición se tiene lo siguientei=1R ∞0exp{−s 2 i /2σ2 i }(σ 2 i +τ 2 )σ n i −1idσ i¾dτ.B HI21 (z) =R ∙ Q ki=1{ Q µn iRj=1 N (x ij|µ i ,σ 2 i ) } τ−1 Q ki=1N (µ i |η i , τ2 +σ 2 i)HC2 + (σ i |0,τ)dη i¸dµ i dσ iR Q ki=1Q nij=1 N (xij|η i ,τ 2 )τ −1 dη i dτ.


94 Capítulo 5. Selección <strong>bayesiana</strong> <strong>de</strong> mo<strong>de</strong>los <strong>aplicada</strong> <strong>al</strong> ANOVATrabajando con el numerador se tiene=Z Z " kY×Z Zi=1(nià Z Zτ −1⎛⎜⎝⎧kY⎪⎨i=1Z Z "× τ −1"× exp − 1 2)YN (x ij |µ i ,σ 2 i )j=1kYi=1N (µ i |η i , τ 2 + σ 2 i2(2π) −ni/2 σ −n ii⎪⎩(kYµ τ(2π) −1/2 2 + σ 2 i2i=1µ #τ 2 + σ 2 −1i(µ2i − η i ) 2Tomando en cuenta (B.2) y (B.3) se tiene queZ!#)HC + (σ i |0,τ)dη i dτ dµ i dσ i⎡ Pn i⎤⎫(x ij − µ i ) 2× exp ⎢⎣ − j=1⎪⎬⎥2σ 2 ⎦i ⎪⎭ −1/2)# !2τπ(τ 2 + σ 2 i ) dη i dτ dµ i dσ i .⎡ Pn i⎤⎡ P(x ij − µ i ) 2n i⎤(xexp ⎢⎣ − j=1⎥⎦ dµ i = (2π)1/2 σ iij − ¯x i ) 2× exp ⎢(n i ) 1/2 ⎣ − j=1⎥⎦2σ 2 i2σ 2 iyZ"exp − 1 2µ τ 2 + σ 2 i2 −1(µ i − η i ) 2 #dη i = √ µ τ 2 + σ 2 1/2i2π,2asíZ Z⎛⎜⎝⎧kY⎪⎨i=1Z Z "× τ −1"× exp − 1 2(2π) −ni/2 σ −n ii⎪⎩(kYµ τ(2π) −1/2 2 + σ 2 i×2i=1µ #τ 2 + σ 2 −1i(µ2i − η i ) 2 ×⎡ Pn i⎤⎫(x ij − µ i ) 2× exp ⎢⎣ − j=1⎪⎬⎥2σ 2 ⎦i ⎪⎭ −1/2)# !2τπ(τ 2 + σ 2 i ) dη i dτ dµ i dσ i


5.5. El factor <strong>de</strong> Bayes para contraste bajo homocedasticidad 95==ZZ Z⎛⎜⎝Z " τ −1⎧kY⎪⎨i=1(2π) −ni/2 σ −n ii⎪⎩(kY(2π) −1/2 ×i=1¾¸2τ×π(τ 2 + σ 2 i )⎛⎜⎝⎧kY⎪⎨i=1Z " τ −1dτ dµ i dσ i⎡ Pn i⎤⎫(x ij − µ i ) 2× exp ⎢⎣ − j=1⎪⎬⎥2σ 2 ⎦i ⎪⎭µ τ 2 + σ 2 i2(2π) −ni/2 σ −n ii × (2π)1/2 σ i⎪⎩(kY(2π) −1/2 ×i=1¾¸2τ×π(τ 2 + σ 2 i )= (2π)−n/2 (2π) k 2 2 kπ kZ " τ −1Zdτ dσ i⎛⎜⎝⎧kY⎪⎨i=1 −1/2× √ µ τ 2 + σ 2 1/2i2π2⎡ Pn i⎤⎫(x ij − ¯x i ) 2× exp ⎢(n i ) 1/2 ⎣ − j=1⎪⎬⎥2σ 2 ⎦i ⎪⎭µ τ 2 + σ 2 i2σ −n ii × σ i⎪⎩kY½ ¾ # !τ(τ 2 + σ 2 i ) dτ dσ ii=1⎛= 2 3k−n n+k2 π−(2 ) Z ⎜⎝Z " τ −1 −1/2× √ µ τ 2 + σ 2 1/2i2π2⎡ Pn i⎤⎫(x(n i ) × exp ij − ¯x i ) 2⎢1/2 ⎣ − j=1⎪⎬⎥2σ 2 ⎦i ⎪⎭⎧⎡ Pn i⎤⎫kY⎪⎨σ −n ii × σ (xi(n ⎪⎩i ) × exp ij − ¯x i ) 2⎢1/2 ⎣ − j=1⎪⎬⎥2σ 2 ⎦i ⎪⎭i=1kY½ ¾ # !τ(τ 2 + σ 2 i ) dτ dσ i .i=1PHaciendo s 2 i = n i(x ij − ¯x i ) 2j=1à kY=2 3k−n2 π − ( n+k2 )i=1! −1/2 Z (∞kY Zn i τ k−10i=1σ n i−1i∙1(τ 2 + σ 2 i ) × exp− s2 i2σ 2 i¸ )dσ i dτ.


96 Capítulo 5. Selección <strong>bayesiana</strong> <strong>de</strong> mo<strong>de</strong>los <strong>aplicada</strong> <strong>al</strong> ANOVADenotando I 1 = R ∞0τ k−1 ½ k Qi=1R ∞0h i ¾1× exp − s2(τ 2 +σ 2 i )σn i −1idσ2σ 2 i dτiitenemos2 3k−n2 π − (n+k)2 (Z×kYn i ) −1/2i=1Z ∞( kY ∙ ¸ )τ k−1 1× exp − s2 idσi=1 0 (τ 2 + σ 2 i )σn i−12σ 2 i dτiikYn i ) −1/2 × I 1 . (5.20)= 2 3k−n2 π − (n+k)2 (i=1Ahora trabajando con el <strong>de</strong>nominador y tomando en cuenta (B.2)Z⎡ Pn i⎤⎡ P(x ij − η i ) 2n i⎤(xexp ⎢⎣ − j=1⎥2τ 2 ⎦ dη i = (2π)1/2 τij − ¯x i ) 2× exp ⎢(n i ) 1/2 ⎣ − j=1⎥2τ 2 ⎦se tiene que===Z Z kY(ni)YN (x ij |η i ,τ 2 ) τ −1 dη i dτi=1j=1⎧⎡ Pn i⎤⎫Z Z kY⎪⎨(x ij − η i ) 2τ −1 (2π) −ni/2 τ −n i× exp ⎢⎣i=1 ⎪⎩− j=1⎪⎬⎥2τ 2 ⎦ dη i dτ⎪⎭⎧⎡ Pn i⎤⎫Z kY⎪⎨(xτ −1 (2π) −ni/2 τ −n (2π)1/2 τij − ¯x i ) 2i× exp ⎢(ni=1 ⎪⎩i ) 1/2 ⎣ − j=1⎪⎬⎥2τ 2 ⎦ dτ⎪⎭⎡⎤kP Pn iZkY(x ij − ¯x i ) 2τ −(n−k+1) (2π) k−n2 ( n i ) −1/2 × exp ⎢⎣ − i=1 j=1⎥2τ 2 ⎦ dτ.i=1


5.5. El factor <strong>de</strong> Bayes para contraste bajo homocedasticidad 97kPn iP(x ij −¯x i ) 2i=1 j=1Tomando p = n − k y a =en (B.1)2⎡⎤kP Pn iZkY(x ij − ¯x i ) 2τ −(n−k+1) (2π) k−n2 ( n i ) −1/2 × exp ⎢⎣ − i=1 j=1⎥2τ 2 ⎦ dτi=1=k−n(2π) 22(⎛⎞kP Pn ikYn i ) −1/2 Γ( n − k(x ij − ¯x i ) 2i=1 j=1) ⎜⎟2 ⎝ 2 ⎠i=1− (n−k)2= Γ( n − k )π k−n2 2 −1 S −(n−k) (2kYn i ) −1/2 , (5.21)don<strong>de</strong> S 2 = P ki=1 s2 i .Efectuando el cociente <strong>de</strong> las ecuaciones (5.20) y (5.21), tenemos queB HI21 (z) =2 3k−n2 π − (n+k)2 ( k Qi=1i=1n i ) −1/2 × I 1=Γ( n−k k−nQ)π 2 22 −1 S −(n−k) ( k n i ) −1/2i=1A continuación veamos un ejemplo <strong>de</strong> los resultados obtenidos.1I2 n−3k1 . (5.22)2 −1 π k Γ( n−k2 )Sn−kEjemplo 5.1 (Contraste <strong>de</strong> homocedasticidad frente a heterocedasticidad) Comoilustración vamos a consi<strong>de</strong>rar un ejemplo, que aparece en Welch(1951). Supóngaseque los datos proce<strong>de</strong>n <strong>de</strong> tres poblaciones norm<strong>al</strong>es, y son obtenidos lossiguientes resultados: (n 1 ,n 2 ,n 3 )=(20, 10, 10), (¯x1, ¯x2, ¯x3) = (27.8, 24.1, 22.2),(s 2 1,s 2 2,s 2 3) = (1141.9, 56.7, 138.6).Se contrastará si todas las varianzas son todas igu<strong>al</strong>es. Se c<strong>al</strong>cularán los factores<strong>de</strong> Bayes con las distribuciones a priori intrínsecas B21 HI . A<strong>de</strong>más, con elobjeto <strong>de</strong> ilustrar mejor su comportamiento, se c<strong>al</strong>culan el v<strong>al</strong>or-p y los factores <strong>de</strong>Bayes para diferentes v<strong>al</strong>ores <strong>de</strong> s 2 1 y los restantes v<strong>al</strong>ores muestr<strong>al</strong>es fijos. Estosv<strong>al</strong>ores se presentan en la segunda y tercera columna. Para aquellos que prefierenla interpretación <strong>de</strong> la probabilidad a posteriori frente a los factores <strong>de</strong> Bayes, sehan c<strong>al</strong>culado las probabilida<strong>de</strong>s a posteriori <strong>de</strong> M 1 correspondientes a los v<strong>al</strong>ores<strong>de</strong> los factores <strong>de</strong> Bayes y la distribución a priori P (M 1 )=P (M 2 )=1/2.


98 Capítulo 5. Selección <strong>bayesiana</strong> <strong>de</strong> mo<strong>de</strong>los <strong>aplicada</strong> <strong>al</strong> ANOVATabla 5.1.Factores <strong>de</strong> Bayes intrínsecoss 2 1 v<strong>al</strong>or − p B21 HI P HI (M 1 |x)1141.9 0.001 19.20 0.05600 0.04 0.65 0.61300 0.31 0.08 0.93Para v<strong>al</strong>ores <strong>de</strong> s 2 1 lejanos a los <strong>de</strong> s 2 2 y s 2 3 el mo<strong>de</strong>lo bajo heterocedasticidadse encuentra claramente favorecido como indica la primera fila; en la columna<strong>de</strong>l factor <strong>de</strong> Bayes intrínseco po<strong>de</strong>mos observar quel número es mucho mayorque 1, por lo cu<strong>al</strong> es favorecido el mo<strong>de</strong>lo 2 (mo<strong>de</strong>lo bajo heterocedasticidad); yen la columna <strong>de</strong> la probabilidad a posteriori po<strong>de</strong>mos observar que el mo<strong>de</strong>lo 1(mo<strong>de</strong>lo bajo homocedasticidad) es muy poco favorecido. Cuando s 2 1 se aproxima<strong>al</strong>osv<strong>al</strong>ores<strong>de</strong>s 2 2 y s 2 3 las probabilida<strong>de</strong>s a posteriori aumentan favoreciendoel mo<strong>de</strong>lo bajo homocedasticidad. Mientras que los factores <strong>de</strong> Bayes intrínsecosdisminuyen, favoreciendo también el mo<strong>de</strong>lo bajo homocedasticidad.


Capítulo 6ConclusionesEnlamayoría<strong>de</strong>losproblemas<strong>de</strong><strong>de</strong>cisión,aparece<strong>de</strong>formanatur<strong>al</strong>laincertidumbre.Lo que observamos, y po<strong>de</strong>mos medir, es solo una posibilidad entremuchas –como en el lanzamiento <strong>de</strong> una moneda– y, <strong>de</strong> <strong>al</strong>gún modo, necesitamos<strong>de</strong> una esc<strong>al</strong>a que nos represente la verosimilitud <strong>de</strong> lo re<strong>al</strong>mente observadoen relación con el resto. En otras ocasiones, ni siquiera existe la posibilidad <strong>de</strong>observar la re<strong>al</strong>ización <strong>de</strong> un suceso. Así, si nos preguntamos sobre la posibilidad<strong>de</strong> que el hombre ponga el pie en el planeta Marte antes <strong>de</strong>l año 2020, éste es unsuceso incierto <strong>de</strong> tipo no repetitivo, pero <strong>al</strong> que po<strong>de</strong>mos asignar una mayor omenor verosimilitud, <strong>de</strong> modo puramente person<strong>al</strong> o subjetivo y que <strong>de</strong>pen<strong>de</strong>rá,en gran medida, <strong>de</strong> lo informado que esté uno en el tema. Un experto en el áreadaría una respuesta muy distinta que la que nos ofrecería una persona ajena <strong>al</strong>tema.Lo más interesante <strong>de</strong> este tipo <strong>de</strong> resultados es que cada individuo, <strong>de</strong>pendiendo<strong>de</strong> la información que tenga sobre los sucesos inciertos, cuantifica su incertidumbrecon una medida <strong>de</strong> probabilidad person<strong>al</strong> o subjetiva.La conclusión que se sigue es que todas las probabilida<strong>de</strong>s son siempre condicionadasa un cierto estado <strong>de</strong> información, no hay, por consiguiente, probabilida<strong>de</strong>sabsolutas.El teorema <strong>de</strong> Bayes es válido en todas las aplicaciones <strong>de</strong> la teoría <strong>de</strong> la probabilidad.Sin embargo, hay una controversia sobre el tipo <strong>de</strong> probabilida<strong>de</strong>s queemplea. En esencia, los seguidores <strong>de</strong> la estadística tradicion<strong>al</strong> sólo admiten probabilida<strong>de</strong>sbasadas en experimentos repetibles y que tengan una confirmaciónempírica mientras que los llamados estadísticos bayesianos permiten probabilida<strong>de</strong>ssubjetivas. El teorema <strong>de</strong> Bayes pue<strong>de</strong> servir entonces para indicar cómo<strong>de</strong>bemos modificar nuestras probabilida<strong>de</strong>s subjetivas cuando recibimos informaciónadicion<strong>al</strong> <strong>de</strong> un experimento. La estadística <strong>bayesiana</strong> está <strong>de</strong>mostrando suutilidad en ciertas estimaciones basadas en el conocimiento subjetivo a priori y99


100 Capítulo 6. Conclusionespermite revisar esas estimaciones en función <strong>de</strong> la evi<strong>de</strong>ncia.Ahora bien nuestro estudio gira <strong>al</strong>re<strong>de</strong>dor <strong>de</strong> los factores <strong>de</strong> Bayes los cu<strong>al</strong>esutilizan norm<strong>al</strong>mente una distribución a priori impropia que <strong>de</strong>pen<strong>de</strong> <strong>de</strong> una constantearbitraria cuya eliminación pue<strong>de</strong> ser costosa en los problemas <strong>de</strong> contraste<strong>de</strong> hipótesis y selección <strong>de</strong> mo<strong>de</strong>los.De todas las metodologías previamente ensayadas la <strong>de</strong>sarrollada por Bergery Pericchi (1996) con la introducción <strong>de</strong> factores <strong>de</strong> Bayes intrínsecos y distribucionesa priori intrínsecas ha tenido un <strong>de</strong>sarrollo extenso en multitud <strong>de</strong>problemas.Lo que po<strong>de</strong>mos concluir <strong>de</strong>spués <strong>de</strong> haber hecho un estudio minucioso a losfactores <strong>de</strong> Bayes intrínsecos es lo siguiente:Se pue<strong>de</strong> apreciar que los factores <strong>de</strong> Bayes intrínsecos son completamenteautomáticos, en el sentido que son basados solo en los datos y en distribuciones apriori no informativas estándares. Sin embargo, existe el problema <strong>de</strong> la elecciónóptima <strong>de</strong> la muestra <strong>de</strong> entrenamiento minim<strong>al</strong>.Otra ventaja es que correspon<strong>de</strong>n a factores <strong>de</strong> Bayes actu<strong>al</strong>es para distribucionesa priori intrínsecas razonables; a<strong>de</strong>más que los factores <strong>de</strong> Bayes pue<strong>de</strong>nser aplicados para comparación <strong>de</strong> mo<strong>de</strong>los y predicción.Los factores <strong>de</strong> Bayes pue<strong>de</strong>n ser aplicados en situaciones en las cu<strong>al</strong>es losmétodos asintóticos bayesianos no son aplicables. También pue<strong>de</strong>n usarse paracontraste <strong>de</strong> hipótesis bayesianos estándar.Una <strong>de</strong> las <strong>de</strong>sventajas <strong>de</strong> los factores <strong>de</strong> Bayes intrínsecos es que computacion<strong>al</strong>menteson muy costosos, ya que su cálculo pue<strong>de</strong> ser bastante intensivo.Otra <strong>de</strong>sventaja es que no son invariantes para transformaciones multivariadas<strong>de</strong> los datos.Los factores <strong>de</strong> Bayes intrínsecos pue<strong>de</strong>n ser inestables para muestras<strong>de</strong> tamaño pequeño.Ahora con respecto <strong>al</strong> quinto capítulo, po<strong>de</strong>mos <strong>de</strong>cir que tanto el contraste <strong>de</strong>hipótesis bajo homocedasticidad como el contraste <strong>de</strong> hipótesis bajo heterocedasticidadtienen una fundamentación <strong>bayesiana</strong>, pues fueron resueltos estrictamentebajo los principios <strong>de</strong> cálculo <strong>de</strong> probabilida<strong>de</strong>s y teoría <strong>de</strong> <strong>de</strong>cisión.La obtención <strong>de</strong> los factores <strong>de</strong> Bayes intrínsecos para el contraste <strong>de</strong> hipótesisbajo homocedaticidad así como bajo heterocedasticidad es muy laborioso, peroeste procedimiento pue<strong>de</strong> ser omitido utilizando las ecuaciones (5.19) y (5.22),las cu<strong>al</strong>es fueron <strong>de</strong>mostradas minuciosamente.Las ecuaciones antes mencionadas así como la utilización <strong>de</strong> <strong>al</strong>gún paquetecomputacion<strong>al</strong>, reduce ampliamente el trabajo para la selección <strong>de</strong> mo<strong>de</strong>los. Pero<strong>de</strong>sgraciadamente para <strong>al</strong>gunas distribuciones a priori, los factores <strong>de</strong> Bayes intrínsecosson difíciles <strong>de</strong> c<strong>al</strong>cular, ya que surgen integr<strong>al</strong>es que no pue<strong>de</strong>n serresueltas an<strong>al</strong>íticamente, para resolver éste problema existen métodos númericos.Así la conclusión gener<strong>al</strong> a que se llega es que bajo el enfoque bayesiano los


101problemas <strong>de</strong> selección <strong>de</strong> mo<strong>de</strong>los y contraste <strong>de</strong> hipótesis se resuelven a tráves<strong>de</strong> los factores <strong>de</strong> Bayes, cuando la distribución a priori es propia. En el caso enque <strong>al</strong> <strong>de</strong>finir los factores <strong>de</strong> Bayes, la distribución apriori sea una distribución apriori impropia, se utilizarán los “factores <strong>de</strong> Bayes intrínsecos” (FBI), los cu<strong>al</strong>esfueron <strong>de</strong>finidos por Berger y Pericchi (1996).Al fin<strong>al</strong> <strong>de</strong>l capítulo 5 se lleva a cabo una selección <strong>de</strong> mo<strong>de</strong>los, contrastandohomocedasticidad frente a heterocedasticidad. Aunque este ejemplo es muy breveilustra claramente como utilizar los factores <strong>de</strong> bayes intrínsecos.


102 Capítulo 6. Conclusiones


Apéndice ANotaciónµ Media poblacion<strong>al</strong>σ 2 Varianza poblacion<strong>al</strong>Θ Espacio muestr<strong>al</strong>exp (θ) Exponenci<strong>al</strong> <strong>de</strong> θπ(θ) Distribución a priori <strong>de</strong>l parámetro θf(x|θ) Función <strong>de</strong> <strong>de</strong>nsidad <strong>de</strong> los datosI(θ) Matriz <strong>de</strong> información esperada <strong>de</strong> Fisherπ(θ|x) Distribución a posteriori <strong>de</strong>l parámetro θh(x, θ) Distribución conjunta <strong>de</strong> x y θN (θ, σ 2 ) Distribución norm<strong>al</strong> con media θ yvarianzaσ 2Γ(α) La función gammaπ N i (θ) Distribución a priori no informativa <strong>de</strong> θπ I i (θ i ) Distribución a priori intrínseca <strong>de</strong> θ i℘(θ) Distribución PoissonF Estadistico <strong>de</strong> pruebaF m,n Distribución F con m y n grados <strong>de</strong> libertadx(l) Muestra <strong>de</strong> entrenamiento minim<strong>al</strong><strong>de</strong>t Î Determinante <strong>de</strong> la matriz observada <strong>de</strong> Fishert(α, µ, σ 2 ) Distribución t con α grados <strong>de</strong> libertad, parámetro <strong>de</strong>loc<strong>al</strong>ización µ y parámetro <strong>de</strong> esc<strong>al</strong>a σ 2C(µ, σ) Distribución <strong>de</strong> Cauchy con −∞ 0, β>0103


104 Capítulo A. NotaciónN p (θ, P )i.i.dm(x)I pNorm<strong>al</strong> p-variada, con media µ ymatriz<strong>de</strong>covarianza PIn<strong>de</strong>pendiente e idénticamente distribuidaDensidad margin<strong>al</strong> <strong>de</strong> XLa matriz idéntidad <strong>de</strong> (p × p).La función <strong>de</strong> verosimilitudLa media <strong>de</strong> la muestra; esto es ¯x =(1/n) P ni=1 x il x (θ)¯xE M 2Esperanza a ˆθ ˆθ 2 bajo el mo<strong>de</strong>lo M 22Hipótesis nulaH 0H 1Hipótesis <strong>al</strong>ternativaABREVIACIONESFte. <strong>de</strong> var.Trat.G.lS.CC.MCMEBloq. Tot.Med. <strong>de</strong>l bloqueTot. <strong>de</strong>l trat.Med. <strong>de</strong>l trat.Fuente <strong>de</strong> variaciónTratamientoGrados <strong>de</strong> libertadSuma <strong>de</strong> cuadradosCuadrado medioCuadrado medio esperadoBloque tot<strong>al</strong>Media <strong>de</strong>l bloqueTot<strong>al</strong> <strong>de</strong>l tratamientoMedia <strong>de</strong>l tratamiento


Apéndice BIntegr<strong>al</strong>esPara a>0, p>0Z ∞0x −(p+1) e −ax−2 dx = 1 2 a−p/2 Γ(p/2)(B.1)Z⎡ Pn i⎤⎡ P(x ij − µ i ) 2n i⎤(xexp ⎢⎣ − j=1⎥⎦ dµ i = (2π)1/2 σ iij − ¯x i ) 2× exp ⎢(n i ) 1/2 ⎣ − j=1⎥⎦2σ 2 i2σ 2 i(B.2)Z"exp − 1 2µ τ 2 + σ 2 i2 −1(µ i − η i ) 2 #dη i = √ µ τ 2 + σ 2 1/2i2π. (B.3)2Para a>0Z ∞0e −ax2 dx = 1 2r πa(B.4)105


106 Capítulo B. Integr<strong>al</strong>es(B.2) es obtenida <strong>de</strong> la siguiente formaZ⎡ Pn i⎤(x ij − µ i ) 2exp ⎢⎣ − j=1⎥⎦ dµ i2σ 2 i==ZZ⎡ Pn i⎤(x ij − ¯x i +¯x i − µ i ) 2exp ⎢⎣ − j=1⎥⎦ dµ i2σ 2 i⎡ Pn iP(x ij − ¯x i ) 2 +2 n iP(x ij − ¯x i )(¯x i − µ i )+ n ⎤i(¯x i − µ i ) 2exp ⎢⎣ − j=1j=1j=1⎥⎦ dµ i2σ 2 i⎡ Pn i⎤(x ij − ¯x i ) 2 Z= exp⎢⎣ − j=1⎥⎦2σ 2 i⎡ Pn i⎤(x ij − ¯x i ) 2 Z= exp⎢⎣ − j=1⎥⎦2σ 2 i⎡ Pn i⎤(x ij − ¯x i ) 2 Z= exp⎢⎣ − j=1⎥⎦2σ 2 i⎡ Pn iP(¯x i − µ i ) 2 +2 n ⎤i(x ij − ¯x i )(¯x i − µ i )exp ⎢⎣ − j=1j=1⎥⎦ dµ i⎡ Pn i⎤(¯x i − µ i ) 2exp ⎢⎣ − j=1⎥⎦ dµ i2σ 2 iexp∙− n ¸i(¯x i − µ i ) 2dµ i2σ 2 i2σ 2 itomando t = µ i − x i y dt = dµ i⎡ Pn i⎤⎡ P(x ij − ¯x i ) 2n i⎤Z= exp⎢⎣ − j=1⎥2σ 2 ⎦ exp∙− n ¸(xit 2ij − ¯x i ) 2 sdt =exp⎢i2σ 2 ⎣ − j=1⎥ πi2σ 2 ⎦ · n ii2σ 2 i⎡ Pn i⎤(x= (2π)1/2 σ iij − ¯x i ) 2× exp ⎢(n i ) 1/2 ⎣ − j=1⎥⎦ .2σ 2 i


107(B.3) es encontrada <strong>de</strong> la siguiente maneraZ "exp − 1 µ #τ 2 + σ 2 −1i(µ2 2i − η i ) 2 dη itomando t =(η i − µ i ),dt= dη i y <strong>usando</strong> (B.4)Z "∞exp − 1 µ τ 2 + σ 2 −1#i(µ−∞ 2 2i − η i ) 2 dη iZ "∞= 2 exp − 1 µ #τ 2 + σ 2 −1it 2 dt0 2 2⎡⎤v= 2⎢1u π⎥⎣2t ´−1 ⎦qπ(τ = 2 + σ 2 i )=12³τ 2 +σ 2 i2qπ(τ 2 + σ 2 i )= r= √ 2πµ τ 2 + σ 2 i2 1/2.2π( τ 2 + σ 2 i2)


108 Capítulo B. Integr<strong>al</strong>es


Bibliografía[1] Alamilla López Norma Edith (2004). Selección <strong>bayesiana</strong> <strong>de</strong> mo<strong>de</strong>los: Unaaplicación a los mo<strong>de</strong>los <strong>de</strong> regresión line<strong>al</strong> heterocedásticos <strong>usando</strong> factores<strong>de</strong> Bayes intrínsecos. Tesis <strong>de</strong> maestría. IMASS-UNAM.[2] An Intrinsic Limiting Procedure for Mo<strong>de</strong>l Selection and Hypothesis Testing.Journ<strong>al</strong> of the American Statistic<strong>al</strong> Association, 93, 1451-1460.[3] Berger, James O. (1985). Statistic<strong>al</strong> Decision Theory and Bayesian An<strong>al</strong>ysis.Segunda edición, Springer-Verlag.[4] Berger, James O. (1996). The Intrinsic Bayes Factor for mo<strong>de</strong>l selection andPrediction. Journ<strong>al</strong> of the American Statistic<strong>al</strong> Asociation, 91, 109-122.[5] Berger, J. O. and Pericchi, L.R. (1998). On Cristicism and Comparison of<strong>de</strong>fault Bayes Factors for Mo<strong>de</strong>l Selection and Hypothesis Testing. Procedingsof the Workshop on Mo<strong>de</strong>l Selection. Ed. W. Racugno, Pitágora Ed.,Bologna, 1-50.[6] Bernardo, José M. y Smith Adrian F. M. (1994), Bayesian Theory. JohnWiley & Sons Ltd.[7] Box, G. E. P., and Tiao, G. C. (1973). Bayesian Inference in Statistic<strong>al</strong>An<strong>al</strong>ysis. Reading, M. A: Addison Wesley.[8] Box, G. E. P., and Tiao, G. C. (1992). Bayesian Inference in Statistic<strong>al</strong>An<strong>al</strong>ysis. Wiley Classics Library Edition.[9] Casella, George y Berger, Roger I. (2002). Statistic<strong>al</strong> Inference.Duxbury/Tomson Learning.[10] Moreno,E.andGiron,J.(1999).Mo<strong>de</strong>l selection with vague priori information.Technic<strong>al</strong> Report. University of Granada.109


110 BIBLIOGRAFÍA[11] Moreno, E., Bertolino F. and Racugno W. Bayesian Mo<strong>de</strong>l selection Approachto An<strong>al</strong>ysis of variance un<strong>de</strong>r heterocedasticy. The Statiscian Journ<strong>al</strong>of the Roy<strong>al</strong> Stadistic Society - Series D. Vol 49, issue 4. December 2000.[12] Morris, H. Degroot. Probabilidad y Estadística. Segunda edición. AddissonWesley.[13] Susan J. and Arnold J. Probabilidad y estadística con aplicaciones para ingenieríay ciencias computacion<strong>al</strong>es.Cuarta edición. McGrawHill.[14] Zacarías Santiago Adriana (2006). Métodos <strong>de</strong> integración y simulaciónMonte Carlo en la teoría <strong>bayesiana</strong>. Tesis <strong>de</strong> licenciatura. Universidad Tecnológica<strong>de</strong> la Mixteca.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!