Notas de Estadística
Notas de Estadística
Notas de Estadística
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Notas</strong> <strong>de</strong> <strong>Estadística</strong><br />
Autores: Graciela Boente- Víctor Yohai
Contenido<br />
1. Introducción a la inferencia estadística<br />
2. Estimación puntual<br />
3. Estimadores Bayesianos y Minimax<br />
4. Intervalos y regiones <strong>de</strong> confianza<br />
5. Tests <strong>de</strong> hipótesis<br />
6. Estimación robusta
Chapter 2<br />
Introducción a la Inferencia<br />
<strong>Estadística</strong><br />
2.1 Poblaciones finitas<br />
Frecuentemente en los problemas <strong>de</strong> las diferentes disciplinas se estudia el<br />
comportamiento <strong>de</strong> varias variables <strong>de</strong>finidas sobre un conjunto <strong>de</strong> objetos.<br />
El conjunto <strong>de</strong> objetos será <strong>de</strong>nominado población y será representado<br />
por P = {a1,a2,...,an}; a1,a2,...,an serán <strong>de</strong>nominados los elementos<br />
<strong>de</strong> la población P. Sobre esos elementos se observan variables, indicadas<br />
X1,X2,...,Xk, que son características que cambian <strong>de</strong> individuo a individuo.<br />
Luego para cada elemento a en P, estará <strong>de</strong>finido<br />
X1(a),X2(a),...,Xk(a).<br />
Ejemplo 1: Consi<strong>de</strong>remos una población P formada por un conjunto <strong>de</strong><br />
1000 parcelas que constituyen una explotación agrícola y don<strong>de</strong> se cultiva<br />
solamente trigo. Sea X(a) la cosecha en la parcela a durante un <strong>de</strong>terminado<br />
año medida en kilogramos.<br />
Ejemplo 2: Consi<strong>de</strong>remos el conjunto P <strong>de</strong> votantes en una <strong>de</strong>terminada<br />
elección don<strong>de</strong> se presentan 3 candidatos, que <strong>de</strong>nominamos 1, 2 y 3. Definimos<br />
X(a) como el número <strong>de</strong>l candidato votado por a.<br />
Ejemplo 3: Supongamos que la población P consiste <strong>de</strong> todos los pájaros<br />
<strong>de</strong> una especie <strong>de</strong>terminada que habitan en una región <strong>de</strong>terminada. Para<br />
1
2 CHAPTER 2. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA<br />
cada pájaro se <strong>de</strong>fine X(a) como el largo <strong>de</strong>l pájaro y Y (a) el área <strong>de</strong> las<br />
alas.<br />
Distribución <strong>de</strong> una variable en la población. Llamaremos distribución<br />
<strong>de</strong> una variable X en la población P a la distribución que se obtiene cuando<br />
se elige al azar un elemento <strong>de</strong> la población, es <strong>de</strong>cir, cuando se le da a todo<br />
elemento <strong>de</strong> la población la misma probabilidad. Luego se tiene<br />
FX(x) =<br />
# {a ∈P, X(a) ≤ x}<br />
# P<br />
don<strong>de</strong> # A indica el número <strong>de</strong> elementos <strong>de</strong> A. Del mismo modo se <strong>de</strong>fine<br />
distribución conjunta <strong>de</strong> dos o más variables en la población P. Luego si X<br />
e Y son variables <strong>de</strong>finidas sobre la población P será<br />
FXY (x, y) =<br />
# {a ∈P : X(a) ≤ x, Y (a) ≤ y}<br />
# P<br />
Obsérvese que la distribución <strong>de</strong> una variable <strong>de</strong>finida en una población<br />
finita es necesariamente discreta, ya que la variable correspondiente toma<br />
sólo un número finito <strong>de</strong> valores.<br />
2.2 Poblaciones infinitas<br />
En muchos problemas interesa la distribución <strong>de</strong> una variable aleatoria X (o<br />
<strong>de</strong> varias variables X1,X2,...,Xk) que se observan cada vez que se repite un<br />
mismo experimento perfectamente <strong>de</strong>finido. En estos casos, cada elemento<br />
a estudiar correspon<strong>de</strong> al resultado <strong>de</strong> un experimento, pero no existe un<br />
conjunto finito fijo <strong>de</strong> experimentos <strong>de</strong>finido <strong>de</strong> antemano, ya que al menos<br />
teóricamente se pue<strong>de</strong> repetir el experimento tantas veces como se quiera.<br />
Se pue<strong>de</strong> pensar entonces en una población infinita compuesta por los infinitos<br />
posibles experimentos que teóricamente se pue<strong>de</strong>n realizar, aunque tal<br />
población no tiene existencia real.<br />
Ejemplo 1: El experimento consiste en tirar una moneda y X vale 0 ó 1<br />
según caiga ceca o cara.<br />
Ejemplo 2: El experimento consiste en repartir 10 cartas elegidas al azar<br />
<strong>de</strong> un mazo <strong>de</strong> 52. X es el número <strong>de</strong> corazones, e Y el número <strong>de</strong> sietes.
2.3. MODELOS PARA LA DISTRIBUCION DE UNA VARIABLE 3<br />
Ejemplo 3: El experimento consiste en fabricar y probar una lámpara; X<br />
es el tiempo <strong>de</strong> duración <strong>de</strong> la misma.<br />
Ejemplo 4: Se <strong>de</strong>sea medir una magnitud física, cuyo valor verda<strong>de</strong>ro µ es<br />
<strong>de</strong>sconocido. Cada medición está afectada <strong>de</strong> un error aleatorio. Luego lo<br />
que se observa al hacer una medición es una variable X = µ + ε, don<strong>de</strong> ε es<br />
el error. La medición se pue<strong>de</strong> repetir tantas veces como se quiera.<br />
Lo que hace que una población sea infinita es que el experimento pueda<br />
repetirse infinitas veces y no el número <strong>de</strong> posibles resultados que pue<strong>de</strong> ser<br />
finito como pue<strong>de</strong> verse en los ejemplos 1 y 2.<br />
Distribución <strong>de</strong> una variable en una población infinita. En el caso <strong>de</strong><br />
población infinita se pue<strong>de</strong> suponer que cada vez que se repite el experimento<br />
se observa una variable aleatoria X (o varias variables X1,X2,...,Xk) con<br />
una cierta distribución F (x) (o distribución conjunta F (x1,x2,...,xk)), y<br />
que a diferentes experimentos correspon<strong>de</strong>n variables aleatorias in<strong>de</strong>pendientes.<br />
De acuerdo a la ley <strong>de</strong> los gran<strong>de</strong>s números, F (x) pue<strong>de</strong> verse como el<br />
límite en casi todo punto <strong>de</strong> la distribución empírica asociada a n repeticiones<br />
in<strong>de</strong>pendientes <strong>de</strong>l experimento. Es <strong>de</strong>cir, si se realiza una sucesión<br />
<strong>de</strong> experimentos y los valores observados son x1,x2,...,xn,..., entonces si<br />
Fn(x) =#{xi : xi ≤ x, 1 ≤ i ≤ n} /nse tendrá Fn(x) → F (x) en c.t.p.<br />
La distribución F (x) será <strong>de</strong>nominada distribución <strong>de</strong> la variable X en la<br />
población infinita consi<strong>de</strong>rada.<br />
2.3 Mo<strong>de</strong>los para la distribución <strong>de</strong> una variable<br />
en una población<br />
Tanto en el caso <strong>de</strong> poblaciones finitas como en el <strong>de</strong> poblaciones infinitas,<br />
la distribución F pue<strong>de</strong> ser muy complicada e irregular. Sin embargo,<br />
frecuentemente pue<strong>de</strong> ser aproximada por una distribución <strong>de</strong> forma relativamente<br />
sencilla. Consi<strong>de</strong>remos el ejemplo 1 <strong>de</strong> 2.1. Como la población es<br />
finita, la distribución real <strong>de</strong> X es discreta. Sin embargo, como el número<br />
<strong>de</strong> parcelas es muy gran<strong>de</strong>, 1000, y como es muy probable que los valores<br />
X(ai) sean todos diferentes (pue<strong>de</strong>n diferir muy poco, pero es muy difícil<br />
que haya 2 exactamente iguales), resulta que la probabilidad <strong>de</strong> cada uno <strong>de</strong><br />
los valores es muy pequeña (1/1000). Por lo tanto, se pue<strong>de</strong> pensar que la<br />
distribución real pue<strong>de</strong> aproximarse por una distribución continua <strong>de</strong> forma
4 CHAPTER 2. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA<br />
sencilla, por ejemplo una distribución normal. Esto sugiere la introducción<br />
<strong>de</strong>l concepto <strong>de</strong> mo<strong>de</strong>lo.<br />
Llamaremos mo<strong>de</strong>lo <strong>de</strong> la distribución <strong>de</strong> una variable en una población a<br />
un conjunto <strong>de</strong> hipótesis que se suponen válidas para la distribución <strong>de</strong> una<br />
variable en una población. Más formalmente, supongamos que la variable<br />
tiene distribución F perteneciente a una familia F. Al fijar el mo<strong>de</strong>lo, se<br />
establecen hipótesis sobre la familia F que, en general, se cumplirán en forma<br />
aproximada. La bondad <strong>de</strong> un mo<strong>de</strong>lo para <strong>de</strong>scribir la distribución <strong>de</strong> una<br />
población estará dada por el grado <strong>de</strong> aproximación que tengan las hipótesis<br />
<strong>de</strong>l mo<strong>de</strong>lo con la distribución real.<br />
Por lo tanto, <strong>de</strong> acuerdo a lo que dijimos anteriormente, se podría usar<br />
un mo<strong>de</strong>lo continuo para la distribución <strong>de</strong> variables en poblaciones finitas.<br />
Clasificaremos los mo<strong>de</strong>los en paramétricos y no paramétricos.<br />
Mo<strong>de</strong>los paramétricos: Consisten en suponer que la distribución F (x)<br />
<strong>de</strong> la variable en la población pertenece a una familia <strong>de</strong> distribuciones que<br />
<strong>de</strong>pen<strong>de</strong> <strong>de</strong> un número finito <strong>de</strong> parámetros reales. Así, ejemplos <strong>de</strong> mo<strong>de</strong>los<br />
paramétricos son los siguientes:<br />
(a) F (x) pertenece a la familia N(µ, σ 2 ),<br />
(b) F (x) pertenece a la familia Bi(θ, n),<br />
(c) F (x) pertenece a la familia P (λ),<br />
(d) F (x) pertenece a la familia ε(λ),<br />
(e) Si F (x, y) es la distribución <strong>de</strong> dos variables, un mo<strong>de</strong>lo pue<strong>de</strong> ser<br />
F (x, y) pertenece a la familia N(µ1,µ2,σ 2 1 ,σ2 2 ,ρ),<br />
(f) Si F (x1,x2,...,xk) es la distribución <strong>de</strong> k variables un mo<strong>de</strong>lo pue<strong>de</strong><br />
ser F (x1,...,xk) pertenece a la familia M(θ1,θ2,...,θk,n).<br />
En general, un mo<strong>de</strong>lo paramétrico tendrá la siguiente forma. Si F (x)<br />
es la distribución <strong>de</strong> una variable X, entonces F (x) pertenece a la familia<br />
F = {F (x, θ1,θ2,...,θk) θ ∈ Θ}, don<strong>de</strong> θ =(θ1,θ2,...,θk) es el vector<br />
<strong>de</strong> parámetros que toma valores en un conjunto Θ ⊂ R k . Esto significa<br />
que existe algún valor θ ∈ Θ, digamos θ0 tal que F (x, θ0) coinci<strong>de</strong> con la<br />
distribución F (x) (aunque en la realidad no coincidirá, sino que resultará<br />
parecida).
2.3. MODELOS PARA LA DISTRIBUCION DE UNA VARIABLE 5<br />
Ejemplo 1: Para el ejemplo 1 <strong>de</strong> 2.1, po<strong>de</strong>mos usar el mo<strong>de</strong>lo <strong>de</strong>finido por<br />
la familia <strong>de</strong> distribuciones N(µ, σ 2 ).<br />
Ejemplo 2: Para el ejemplo 2 <strong>de</strong> 2.1 , po<strong>de</strong>mos usar el mo<strong>de</strong>lo M(θ1,θ2,θ3, 1).<br />
En este caso, el mo<strong>de</strong>lo será exacto con<br />
θi =<br />
# {a ∈ P ; X(a) =i}<br />
, i =1, 2, 3.<br />
# P<br />
Ejemplo 3: Para el ejemplo 3 <strong>de</strong> 2.1, po<strong>de</strong>mos usar para la distribución<br />
F (x, y) el mo<strong>de</strong>lo N(µ1,µ2,σ 2 1 ,σ2 2 ,ρ).<br />
Ejemplo 4: Para el ejemplo 3 <strong>de</strong> 2.2 po<strong>de</strong>mos usar el mo<strong>de</strong>lo ε(λ).<br />
Ejemplo 5: Para el ejemplo 4 <strong>de</strong> 2.2 se pue<strong>de</strong> usar el mo<strong>de</strong>lo N(µ, σ 2 ).<br />
Mo<strong>de</strong>los no paramétricos: En los mo<strong>de</strong>los no paramétricos se supone<br />
que la distribución F (x) <strong>de</strong> la variable (o <strong>de</strong> las variables si hay más <strong>de</strong> una)<br />
en la población, pertenece a una familia F, pero esta familia no pue<strong>de</strong> ser<br />
indicada con un número finito <strong>de</strong> parámetros reales.<br />
Ejemplo 6: Consi<strong>de</strong>remos nuevamente el ejemplo 4 <strong>de</strong> 2.2. Un mo<strong>de</strong>lo no<br />
paramétrico razonable sería el siguiente. Sea µ el valor verda<strong>de</strong>ro que se<br />
quiere medir, luego la distribución <strong>de</strong> X (el valor observado en una medición<br />
pertenece a la familia F <strong>de</strong> todas las distribuciones tales que:<br />
(i) Son continuas con <strong>de</strong>nsidad f(x),<br />
(ii) f(µ + x) =f(µ − x) es <strong>de</strong>cir son simétricas alre<strong>de</strong>dor <strong>de</strong>l verda<strong>de</strong>ro<br />
valor µ, por lo tanto la “probabilidad” <strong>de</strong> un error positivo es la misma<br />
que <strong>de</strong> uno <strong>de</strong> igual valor absoluto pero negativo.<br />
(iii) Si µ>x>x ′ , entonces f(x ′ )
6 CHAPTER 2. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA<br />
Ventajas relativas <strong>de</strong> los mo<strong>de</strong>los paramétricos y no paramétricos<br />
La ventaja fundamental <strong>de</strong> los mo<strong>de</strong>los paramétricos, consiste en que la<br />
distribución que se elige para representar a la distribución <strong>de</strong> la variable en<br />
la población pue<strong>de</strong> ser <strong>de</strong>scripta por un número finito <strong>de</strong> parámetros. Esto<br />
permite inclusive la posibilidad <strong>de</strong> tabulación. Por ejemplo en el caso <strong>de</strong><br />
la familia N(µ, σ 2 ) basta tabular la distribución N(0, 1). Para obtener otra<br />
distribución <strong>de</strong> la familia basta con realizar una transformación lineal. En<br />
el caso <strong>de</strong> la familia P (λ) basta tabularla para algunos valores <strong>de</strong> λ. Por<br />
ejemplo, para valores <strong>de</strong> λ escalonados <strong>de</strong> 0.1 en 0.1. Para otros valores <strong>de</strong><br />
λ, la distribución se pue<strong>de</strong> obtener por interpolación.<br />
A<strong>de</strong>más, como la <strong>de</strong>scripción <strong>de</strong>l mo<strong>de</strong>lo tiene una formulación analítica<br />
relativamente simple, su tratamiento matemático es más sencillo y las conclusiones<br />
a las que se pue<strong>de</strong>n arribar más fuertes.<br />
Los mo<strong>de</strong>los no paramétricos carecen <strong>de</strong> estas ventajas, pero en recompensa<br />
tienen mucha mayor flexibilidad. Esto se <strong>de</strong>be a que la familia <strong>de</strong> posibles<br />
distribuciones para la población es más numerosa y por lo tanto mayor<br />
es la posibilidad que haya en esta familia una distribución muy próxima a<br />
la real.<br />
Por ejemplo, en el caso <strong>de</strong>l ejemplo 6 <strong>de</strong> 2.3 µ ya no representa el valor<br />
esperado <strong>de</strong> la variable X, que podría no existir. Por lo tanto, su valor aproximado<br />
no podría conocerse promediando los valores observados como en el<br />
caso paramétrico, en el que se supone, por ejemplo, que X tiene distribución<br />
N(µ, σ 2 ).<br />
Elección <strong>de</strong>l mo<strong>de</strong>lo: La elección <strong>de</strong>l mo<strong>de</strong>lo pue<strong>de</strong> ser hecha en base<br />
a consi<strong>de</strong>raciones teóricas, o porque la experiencia indica que ajusta bien.<br />
Por ejemplo, si F es la distribución <strong>de</strong>l tiempo <strong>de</strong> espera hasta que un <strong>de</strong>terminado<br />
mecanismo falle, y por consi<strong>de</strong>raciones teóricas po<strong>de</strong>mos suponer<br />
que el mecanismo tiene “falta <strong>de</strong> <strong>de</strong>sgaste”, po<strong>de</strong>mos suponer como mo<strong>de</strong>lo<br />
para F la familia exponencial ε(λ). En otros problemas pue<strong>de</strong> suce<strong>de</strong>r que<br />
no se pueda elegir el mo<strong>de</strong>lo en base a consi<strong>de</strong>raciones teóricas, pero si la<br />
experiencia indica a través <strong>de</strong> estudios anteriores, por ejemplo, que pue<strong>de</strong><br />
ser bien aproximada por una distribución normal, entonces se usaría como<br />
mo<strong>de</strong>lo la familia N(µ, σ 2 ).<br />
Veremos en el transcurso <strong>de</strong>l curso, métodos para poner a prueba el<br />
mo<strong>de</strong>lo elegido, es <strong>de</strong>cir métodos para <strong>de</strong>terminar si el mo<strong>de</strong>lo elegido pue<strong>de</strong><br />
<strong>de</strong>scribir <strong>de</strong>ntro <strong>de</strong> una aproximación aceptable la distribución <strong>de</strong> la variable<br />
(o variables) en la población. Esto se hará en el capítulo 6.
2.4. INFERENCIA ESTADISTICA 7<br />
2.4 Muestra <strong>de</strong> una distribución. Inferencia estadística<br />
Supongamos que hemos <strong>de</strong>finido un mo<strong>de</strong>lo para la distribución F <strong>de</strong> una<br />
variable en una población, y para fijar i<strong>de</strong>as supongamos que hemos elegido<br />
un mo<strong>de</strong>lo paramétrico F (x, θ) con θ =(θ1,θ2,...,θk) ∈ Θ, don<strong>de</strong> Θ ∈ R k .<br />
En general, va a interesar saber sobre F algo más que el hecho <strong>de</strong> pertenecer<br />
a la familia F (x, θ). Pue<strong>de</strong> interesar conocer totalmente la distribución, es<br />
<strong>de</strong>cir, el valor <strong>de</strong> θ, o algunas características <strong>de</strong> la misma.<br />
Ejemplo 1: Volvamos al ejemplo 1 <strong>de</strong> 2.1 y supongamos que hemos elegido<br />
para la distribución <strong>de</strong> X en la población la familia N(µ, σ 2 ). Consi<strong>de</strong>remos<br />
tres problemas diferentes.<br />
(a) Interesa conocer la distribución F completamente. En este caso hace<br />
falta conocer los valores <strong>de</strong> ambos parámetros, µ y σ 2 .<br />
(b) Se requiere sólo el conocimiento <strong>de</strong> la producción total. Como hay<br />
1000 parcelas la producción total sería 1000 µ y por lo tanto bastaría<br />
con conocer µ.<br />
(c) Se ha fijado una meta <strong>de</strong> producir al menos 200 toneladas <strong>de</strong> trigo y<br />
lo único que interesa es saber si se cumple o no la meta. Luego en este<br />
caso lo único que interesa es saber si µ
8 CHAPTER 2. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA<br />
<strong>de</strong>beríamos conocer la producción <strong>de</strong> todas las parcelas. Observar el valor<br />
<strong>de</strong> la variable para todos los elementos <strong>de</strong> la población pue<strong>de</strong> ser muy costoso,<br />
o aún imposible, como en el caso <strong>de</strong> poblaciones infinitas. Inclusive en<br />
el caso <strong>de</strong> poblaciones finitas pue<strong>de</strong> ser imposible si se quiere la información<br />
con cierta premura. En el ejemplo 1, si se pue<strong>de</strong>n cosechar sólo 20 parcelas<br />
por día, se necesitarían 50 días para conocer cuál es la producción <strong>de</strong> cada<br />
una <strong>de</strong> las 1000 parcelas. Si se quisiera el primer día <strong>de</strong> la cosecha hacer<br />
una estimación <strong>de</strong> la producción total, ésta <strong>de</strong>bería hacerse en base a los<br />
resultados <strong>de</strong> las 20 parcelas cosechadas ese día.<br />
Se pue<strong>de</strong> <strong>de</strong>finir la <strong>Estadística</strong> como la ciencia que estudia los procedimientos<br />
para <strong>de</strong>terminar el valor <strong>de</strong> una o varias características q(θ1,...,θk)<br />
<strong>de</strong> una distribución <strong>de</strong> una variable en una población que se supone pertenece<br />
a una familia F (x, θ1,θ2,...,θk) observando sólo unos pocos elementos si se<br />
trata <strong>de</strong> una población finita o realizando unos pocos experimentos en el<br />
caso <strong>de</strong> una población infinita. Al conjunto <strong>de</strong> estas pocas observaciones en<br />
base a las cuales se <strong>de</strong>terminará q(θ1,θ2,...,θk) se <strong>de</strong>nomina muestra. Si el<br />
mo<strong>de</strong>lo es no paramétrico esta formulación cambiará ligeramente, como se<br />
verá más a<strong>de</strong>lante.<br />
Los procedimientos estadísticos pue<strong>de</strong>n clasificarse en dos gran<strong>de</strong>s tipos:<br />
procedimientos <strong>de</strong> diseño y procedimientos <strong>de</strong> inferencia.<br />
Procedimientos <strong>de</strong> diseño: Son los procedimientos para elegir las observaciones<br />
que componen la muestra, <strong>de</strong> manera que con pocas observaciones<br />
se pueda obtener la mayor información posible sobre q(θ1,θ2,...,θk).<br />
Procedimientos <strong>de</strong> inferencia: Son los procedimientos que permiten a<br />
partir <strong>de</strong> la muestra inferir la característica <strong>de</strong> la distribución <strong>de</strong> la variable<br />
en la población que interesa, es <strong>de</strong>cir q(θ1,θ2,...,θk).<br />
Para ejemplificar, volvemos nuevamente al Ejemplo 1. En este caso un<br />
posible diseño, no necesariamente el óptimo, para la selección <strong>de</strong> la muestra<br />
<strong>de</strong> 20 observaciones pue<strong>de</strong> ser el siguiente. Se elige la primera parcela al azar.<br />
El rendimiento <strong>de</strong> esta parcela será una variable aleatoria que llamaremos<br />
X1 y que tendrá distribución N(µ, σ 2 ). La segunda parcela se elige al azar<br />
entre todas las que quedan. El rendimiento <strong>de</strong> esta parcela será una variable<br />
aleatoria que llamaremos X2. Como la población <strong>de</strong> parcelas es gran<strong>de</strong><br />
(hay 1000 parcelas), la distribución <strong>de</strong> la variable X prácticamente no se<br />
modificará <strong>de</strong>spués <strong>de</strong> la extracción <strong>de</strong> la primera parcela, por lo tanto a<br />
los efectos prácticos, X2 pue<strong>de</strong> ser consi<strong>de</strong>rada como una variable aleatoria
2.4. INFERENCIA ESTADISTICA 9<br />
in<strong>de</strong>pendiente <strong>de</strong> X1 y con la misma distribución N(µ, σ 2 ). Repitiendo este<br />
procedimiento tendremos variables aleatorias X1,X2,...,X20 que po<strong>de</strong>mos<br />
consi<strong>de</strong>rar in<strong>de</strong>pendientes y cada una con una distribución N(µ, σ 2 ). Denominaremos<br />
a X1,X2,...,X20 muestra aleatoria <strong>de</strong> tamaño 20 <strong>de</strong> la distribución<br />
N(µ, σ 2 ).<br />
En general, se dirá que X1, X2,...,Xn es una muestra aleatoria <strong>de</strong><br />
tamaño n <strong>de</strong> una distribución F (x) siX1, X2,...,Xn son variables aleatorias<br />
(o vectores aleatorios) in<strong>de</strong>pendientes e idénticamente distribuídas con<br />
distribución F (x). Es <strong>de</strong>cir si<br />
FX1,X2,...,Xn(x1, x2,...,xn) =F (x1) F (x2) ...F(xn) (2.1)<br />
y en el caso que F (x) sea una distribución discreta o continua con función<br />
<strong>de</strong> frecuencia o <strong>de</strong> probabilidad p, (2.1) será equivalente a<br />
pX1,X2,...,Xn(x1, x2,...,xn) =p(x1) p(x2) ...p(xn)<br />
En el caso <strong>de</strong> poblaciones finitas, una muestra aleatoria <strong>de</strong> tamaño n se obtendrá<br />
observando n elementos <strong>de</strong> la población elegidos al azar. Para que las<br />
variables fuesen estrictamente in<strong>de</strong>pendientes los elementos <strong>de</strong>berían elegirse<br />
uno a uno y ser restituídos en la población antes <strong>de</strong> elegir el próximo. Sin<br />
embargo si el tamaño <strong>de</strong> la muestra es relativamente pequeño respecto al total<br />
<strong>de</strong> la población, aunque no se haga la restitución las variables observadas<br />
serán aproximadamente in<strong>de</strong>pendientes, y a los fines prácticos po<strong>de</strong>mos consi<strong>de</strong>rarla<br />
una muestra aleatoria.<br />
En el caso <strong>de</strong> poblaciones infinitas, la muestra aleatoria se obtendrá simplemente<br />
repitiendo el experimento n veces y observando cada vez el vector<br />
<strong>de</strong> variables correspondiente.<br />
Consi<strong>de</strong>remos ahora cómo a partir <strong>de</strong> la muestra X1,X2,...,X20 que<br />
hemos obtenido, utilizando procedimientos <strong>de</strong> inferencia resolvemos los problemas<br />
(a), (b) y (c) que hemos planteado.<br />
El problema (a) consistía en encontrar aproximadamente la distribución<br />
<strong>de</strong> la variable X en la población, es <strong>de</strong>cir, estimar µ y σ 2 .<br />
Definamos Xn =(1/n) n i=1 Xi; luego para estimar µ se pue<strong>de</strong> usar X20.<br />
Es <strong>de</strong> esperar que X20 se aproxima a µ ya que <strong>de</strong> acuerdo a la ley <strong>de</strong> los<br />
gran<strong>de</strong>s números limn→∞ Xn = µ c.t.p.<br />
El procedimiento estadístico para estimar µ a partir <strong>de</strong> la muestra, es<br />
formar el promedio <strong>de</strong> los valores que la componen; es <strong>de</strong>cir X20. Esto es<br />
un procedimiento <strong>de</strong> inferencia estadística, ya que a partir <strong>de</strong> una muestra
10 CHAPTER 2. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA<br />
<strong>de</strong> 20 observaciones, inferimos el valor µ característico <strong>de</strong> la distribución <strong>de</strong><br />
la variable en la población.<br />
Similarmente se pue<strong>de</strong> estimar σ2 . Partimos <strong>de</strong> σ2 =VarXi = E(X2 i ) −<br />
(E(Xi)) 2 . Dado que E(X2 i ) pue<strong>de</strong> estimarse por (1/20) 20 i=1 X2 i , σ2 pue<strong>de</strong><br />
estimarse por<br />
σ 2 1 20<br />
20 = X<br />
20<br />
2 i − X220<br />
i=1<br />
Haciendo manipulaciones algebraicas, se obtiene<br />
σ 2 20<br />
= 1<br />
20<br />
20<br />
(Xi − X20)<br />
i=1<br />
2<br />
En general, si se tuviese una muestra aleatoria <strong>de</strong> tamaño n, σ2 podría<br />
estimarse por<br />
σ 2 n 1<br />
n =<br />
n<br />
(Xi − Xn)<br />
i=1<br />
2<br />
En el problema (b), cuando se quiere conocer la producción total, es <strong>de</strong>cir<br />
q(µ, σ 2 ) = 1000µ, po<strong>de</strong>mos usar para esta estimación 1000 X20. Es <strong>de</strong>cir,<br />
el procedimiento <strong>de</strong> inferencia sería el siguiente. Se hace el promedio <strong>de</strong> las<br />
observaciones que componen la muestra, y se lo multiplica por 1000.<br />
En el problema (c), es <strong>de</strong>cir el problema <strong>de</strong> <strong>de</strong>cidir si µ
2.4. INFERENCIA ESTADISTICA 11<br />
Θ ⊆ R k , se quiere inferir conocimiento <strong>de</strong> algunas características <strong>de</strong> esta<br />
distribución, <strong>de</strong>finidas por una función q(θ) que va <strong>de</strong> Θ en R h , siendo h el<br />
número <strong>de</strong> características en las que se está interesado.<br />
Ejemplo 2: Volvamos al ejemplo 6 <strong>de</strong> 2.3. Supongamos que se quiere<br />
conocer µ. Observemos que si F es la distribución <strong>de</strong> la variable X, entonces<br />
<strong>de</strong> acuerdo con las hipótesis <strong>de</strong>l mo<strong>de</strong>lo para toda F ∈Fse tiene<br />
que µ es la esperanza correspondiente a la distribución F , si es que esta<br />
existe (pue<strong>de</strong> no existir) y también µ es la mediana correspondiente a F<br />
(la mediana siempre existe). Luego µ es una cierta función <strong>de</strong> F , digamos<br />
µ = q(F ). Si queremos estimar µ, <strong>de</strong>bemos tomar una muestra aleatoria<br />
<strong>de</strong> F , digamos <strong>de</strong> tamaño n; X1,X2,...,Xn. Esto se logrará repitiendo n<br />
veces la medición <strong>de</strong> µ. Consi<strong>de</strong>remos ahora el procedimiento para inferir µ.<br />
Si estuviésemos seguros que F tiene esperanza podríamos usar para estimar<br />
µ, Xn =(1/n) n i=1 Xi, ya que <strong>de</strong> acuerdo a la ley <strong>de</strong> los gran<strong>de</strong>s números<br />
<strong>de</strong>bería converger a E(Xi) =µ. Sin embargo la existencia <strong>de</strong> esperanza no<br />
es una hipótesis que hemos requerido para que F ∈F. En caso que F no<br />
tenga esperanza, se pue<strong>de</strong> mostrar que Xn no converge a µ y por lo tanto<br />
no será un buen estimador.<br />
En este caso, po<strong>de</strong>mos usar el siguiente procedimiento: or<strong>de</strong>namos las<br />
Xi, obteniendo X (1)
12 CHAPTER 2. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA<br />
Ejemplo 3: Supongamos que el rendimiento por hectárea <strong>de</strong> un cierto<br />
cultivo <strong>de</strong>pen<strong>de</strong> <strong>de</strong> la cantidad <strong>de</strong> fertilizante que se usa y que la relación es<br />
<strong>de</strong> la forma<br />
X = aG + b + ε<br />
don<strong>de</strong> G es la cantidad <strong>de</strong> fertilizante usado por hectárea, X el rendimiento<br />
por hectárea y ε un término aleatorio que tiene en cuenta todos los otros<br />
factores que intervienen en la <strong>de</strong>terminación <strong>de</strong> los rendimientos, a y b son<br />
parámetros <strong>de</strong>sconocidos.<br />
Supongamos que se cultivan n parcelas usando respectivamente<br />
G1,G2,...,Gn cantidad <strong>de</strong> fertilizante por hectárea y sean los rendimientos<br />
respectivos observados X1,X2,...,Xn. Luego se tendrá:<br />
Xi = aGi + b + εi 1 ≤ i ≤ n<br />
Supongamos que las εi son variables aleatorias in<strong>de</strong>pendientes igualmente<br />
distribuídas con distribución N(0,σ2 ), don<strong>de</strong> σ2 es <strong>de</strong>sconocido. Los valores<br />
G1,G2,...,Gn son valores numéricos conocidos (no variables aleatorias).<br />
Luego en este caso las variables aleatorias Xi, 1 ≤ i ≤ n, serán in<strong>de</strong>pendientes<br />
con distribución N(aGi + b, σ2 ) y por lo tanto no son igualmente<br />
distribuídas. En este caso estamos interesados en conocer los parámetros a y<br />
b que establecen la relación entre G y X quizás también en σ2 que establece<br />
la varianza <strong>de</strong> ε, es <strong>de</strong>cir <strong>de</strong>l término residual.<br />
Estos parámetros <strong>de</strong>ben ser estimados a partir <strong>de</strong>l vector muestra X =<br />
(X1,X2,...,Xn). Sin embargo, el vector X tiene componentes con diferentes<br />
distribuciones. Se podrían dar ejemplos don<strong>de</strong> las variables no sean tampoco<br />
in<strong>de</strong>pendientes.<br />
Esto nos sugiere un concepto más amplio <strong>de</strong> problema estadístico que los<br />
vistos anteriormente.<br />
Un problema <strong>de</strong> inferencia estadística paramétrica general consistirá en:<br />
dado un vector muestra X =(X1,X2,...,Xn) <strong>de</strong> cuya distribución conjunta<br />
se conoce solamente que pertenece a una familia<br />
F = {F (x1,x2,...,xn,θ1,θ2,...,θk) con θ =(θ1,θ2,...,θk) ∈ Θ ⊂ Rk },<br />
inferir conocimiento sobre una función q(θ) <strong>de</strong> Θ en Rh .<br />
En el ejemplo 3, θ =(a, b, σ2 ) y la <strong>de</strong>nsidad correspondiente a la distribución<br />
es<br />
p(x1,x2,...,xn; a, b, σ 2 )=<br />
1<br />
1<br />
e− 2 σ<br />
(2π) n/2 2<br />
n i=1 (xi−a Gi−b) 2<br />
La función q(θ) <strong>de</strong>pen<strong>de</strong>rá <strong>de</strong>l problema que interesa. Si se quiere conocer<br />
la relación entre G y X lo que interesará será q(θ) =(a, b). Si interesa saber
2.4. INFERENCIA ESTADISTICA 13<br />
cuál es el rendimiento promedio cuando se utilizan 200 kg por hectárea, lo<br />
que interesará conocer será q(θ) =200a + b. Si interesa saber solamente<br />
si el fertilizante tiene un efecto positivo, la función q(θ) estará dada por<br />
0 si a ≤ 0<br />
q(θ) =<br />
1 si a>0 .<br />
Un procedimiento <strong>de</strong> inferencia estadística para este problema se verá en<br />
el ejemplo 1 <strong>de</strong> la sección 3.4. Una teoría general que abarca este problema<br />
se verá en el capítulo 7.<br />
De la misma forma se podría formular el concepto <strong>de</strong> problema <strong>de</strong> inferencia<br />
estadística no paramétrica general.<br />
Concepto <strong>de</strong> estadístico<br />
Supongamos dado un problema <strong>de</strong> inferencia estadística don<strong>de</strong> se observa<br />
un vector muestra X =(X1,X2,...,Xn) con distribución en la familia<br />
F (x1,x2,...,xn; θ) con θ ∈ Θ y don<strong>de</strong> se quiera inferir acerca <strong>de</strong> q(θ). Esta<br />
inferencia se tendrá que hacer a partir <strong>de</strong> X, es <strong>de</strong>cir, por funciones <strong>de</strong> X.<br />
Luego se <strong>de</strong>fine como estadístico a cualquier función medible que tenga como<br />
argumento a X y que tome valores en un espacio eucli<strong>de</strong>o <strong>de</strong> dimensión finita.<br />
En el ejemplo 1, hemos visto que la estimación <strong>de</strong> µ y σ2 se hacía mediante<br />
el estadístico<br />
<br />
n<br />
T = r(X) =<br />
i=1<br />
Xi<br />
n ,<br />
n (Xi − Xn) 2<br />
<br />
En el ejemplo 3, se usó el estadístico T = r(X) =X (p+1) .<br />
Hasta ahora, hemos supuesto que el parámetro <strong>de</strong> existir es fijo. Existe<br />
otra aproximación, en la cual, el parámetro es una variable aleatoria.<br />
Los procedimientos estadísticos bayesianos suponen que θ es una variable<br />
aleatoria no observable, a valores en un espacio Θ con distribución τ. La<br />
distribución a priori τ establecida antes <strong>de</strong> tomar la muestra, se modifica en<br />
base a los datos para <strong>de</strong>terminar la distribución a posteriori, que resume lo<br />
que se pue<strong>de</strong> <strong>de</strong>cir <strong>de</strong>l parámetro θ en base a las suposiciones hechas y a los<br />
datos.<br />
Los métodos estadísticos, que van <strong>de</strong>s<strong>de</strong> el análisis <strong>de</strong> datos hasta el<br />
análisis bayesiano, permiten sacar en forma creciente conclusiones cada vez<br />
más fuertes, pero lo hacen al precio <strong>de</strong> hipótesis cada vez más exigentes y,<br />
por lo tanto, menos verificables.<br />
i=1<br />
n
Chapter 3<br />
Estimación puntual<br />
3.1 Introducción<br />
En este capítulo introduciremos algunos conceptos <strong>de</strong> la teoría <strong>de</strong> estimación<br />
puntual. Los resultados que se <strong>de</strong>sarrollarán, se aplican al problema <strong>de</strong> ajustar<br />
distribuciones <strong>de</strong> probabilidad a los datos. Muchas familias <strong>de</strong> distribuciones,<br />
como la normal, N(µ, σ 2 ), o la Poisson, P (λ), <strong>de</strong>pen<strong>de</strong>n <strong>de</strong> un número<br />
finito <strong>de</strong> parámetros y salvo que éstos se conozcan <strong>de</strong> antemano, <strong>de</strong>ben ser<br />
estimados para conocer aproximadamente la distribución <strong>de</strong> probabilidad.<br />
Consi<strong>de</strong>remos el siguiente problema <strong>de</strong> inferencia estadística paramétrica.<br />
Supongamos se ha observado un vector muestra X =(X1,X2,...,Xn)<br />
<strong>de</strong> cuya distribución sólo se conoce que pertenece a una familia<br />
F = {F (x1,x2,...,xn, θ) don<strong>de</strong> θ =(θ1,...,θp) ∈ Θ ⊂ IR p }. Supongamos<br />
que interese conocer aproximadamente q(θ), don<strong>de</strong> q(θ) es una función<br />
<strong>de</strong> Θ en IR. La única información que se tiene sobre θ es el vector X, por lo<br />
tanto cualquier estimación que se haga <strong>de</strong> θ, <strong>de</strong>berá estar basada en X. Un<br />
estimador puntual <strong>de</strong> q(θ) será cualquier estadístico δ(X) <strong>de</strong>IR n en IR.<br />
Un buen estimador δ(X) <strong>de</strong>berá tener la propiedad <strong>de</strong> que cualquiera sea<br />
el valor <strong>de</strong> θ, que es <strong>de</strong>sconocido, la diferencia δ(X) − q(θ) sea pequeña. En<br />
qué sentido esta diferencia es pequeña será especificado más a<strong>de</strong>lante.<br />
Así en el ejemplo 1 <strong>de</strong> 2.4 se tenía para el problema (a) necesidad <strong>de</strong><br />
estimar q1(µ, σ 2 )=µ y q2(µ, σ 2 )=σ 2 , para el problema (b) se requería<br />
estimar q(µ, σ 2 ) = 1000 µ. En cambio el problema (c) no era <strong>de</strong> estimación,<br />
ya que lo que se buscaba no era aproximar q(µ, σ 2 ) que vale 0 ó 1 según<br />
µ
2 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
También po<strong>de</strong>mos consi<strong>de</strong>rar problemas <strong>de</strong> estimación puntual no<br />
paramétrica. En este caso sólo se conoce que el vector muestra<br />
X =(X1,X2,...,Xn) tiene una distribución F (x1,x2,...,xn) perteneciente<br />
a una familia F, pero esta familia no pue<strong>de</strong> indicarse con un número finito<br />
<strong>de</strong> parámetros, y quiere estimarse una función q(F ) que va <strong>de</strong> F en IR. El<br />
ejemplo 2 <strong>de</strong> 2.4 es un ejemplo <strong>de</strong> este tipo.<br />
El ejemplo 3 <strong>de</strong> 2.4 es otro ejemplo <strong>de</strong> estimación puntual paramétrica.<br />
Comenzaremos <strong>de</strong>scribiendo distintos métodos <strong>de</strong> estimación que intuitivamente<br />
parecen razonables, su justificación queda diferida para más a<strong>de</strong>lante.<br />
3.2 Método <strong>de</strong> los momentos<br />
Sea X =(X1,X2,...,Xn) una muestra aleatoria <strong>de</strong> una familia <strong>de</strong> distribuciones<br />
F (x, θ), don<strong>de</strong> θ ∈ Θ ⊂ IR, y supongamos que se quiera estimar<br />
θ.<br />
Sea g una función <strong>de</strong> IR en IR, luego el método <strong>de</strong> los momentos estima<br />
θ, por el valor θ = δ(X) que satisface la ecuación<br />
n 1<br />
g(Xi) =Eθ n<br />
i=1<br />
(g(X1)), (3.1)<br />
don<strong>de</strong> Eθ(X) significa la esperanza <strong>de</strong> X cuando X tiene la distribución<br />
F (x, θ). La justificación heurística <strong>de</strong> este método se basa en el hecho que<br />
<strong>de</strong> acuerdo a la ley <strong>de</strong> los gran<strong>de</strong>s números<br />
1<br />
n<br />
n<br />
g(Xi) → Eθ(g(X1)) c.t.p.<br />
i=1<br />
y por lo tanto, si θ pue<strong>de</strong> expresarse como una función continua <strong>de</strong> Eθ(g(X1)),<br />
se pue<strong>de</strong> esperar que cuando n es gran<strong>de</strong> el valor θ que satisface la ecuación<br />
(3.1) estará cerca <strong>de</strong> θ.<br />
En general, se toman como funciones g las funciones generadoras <strong>de</strong> momentos,<br />
ya que se supone que los parámetros <strong>de</strong> la distribución se relacionan<br />
con los momentos a través <strong>de</strong> alguna función continua.<br />
Ejemplo 1: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
<strong>de</strong> la cual sólo se conoce que está en la familia N(µ, 1). Usando el método
3.2. MÉTODO DE LOS MOMENTOS 3<br />
<strong>de</strong> los momentos y usando g(x) =x se obtiene<br />
n 1<br />
Xi = Eµ (X1) =µ .<br />
n<br />
i=1<br />
Luego µ =(1/n) n i=1 Xi es el estimador <strong>de</strong> µ resultante.<br />
Ejemplo 2: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
N(0,σ2 ). Usando el método <strong>de</strong> los momentos con g(x) =x2 se obtiene<br />
n 1<br />
X<br />
n<br />
i=1<br />
2 i = Eθ (X2 1 )=σ2 .<br />
Luego σ 2 = δ(X1,...,Xn) =(1/n) n i=1 X2 i es el estimador <strong>de</strong> σ2 resultante.<br />
Ejemplo 3: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
P (λ), usando la función g1(x) =x se obtiene como estimador <strong>de</strong> λ<br />
n 1<br />
Xi = Eλ n<br />
i=1<br />
(Xi) = λ.<br />
Luego el estimador <strong>de</strong> los momentos resultantes usando la función g1 resulta<br />
λ1 = δ1(X1,X2,...,Xn) = 1<br />
n<br />
Xi .<br />
n<br />
i=1<br />
También po<strong>de</strong>mos usar la función g2(x) =x2 . Recordando que<br />
Eλ(X 2 1 )=Varλ(X1)+(Eλ(X1)) 2 = λ + λ 2 ,<br />
obtenemos<br />
n 1<br />
X<br />
n<br />
i=1<br />
2 1 = Eλ (X2 1 )= λ + λ 2 ,<br />
y resolviendo esta ecuación <strong>de</strong> segundo grado el valor resulta<br />
λ = − 1<br />
2 ±<br />
<br />
<br />
<br />
1<br />
4 +<br />
n<br />
i=1<br />
X 2 i<br />
n .<br />
Como el parámetro λ es positivo, la solución que interesa es la positiva.<br />
Luego el estimador correspondiente a g2 vendrá dado por<br />
λ2 = δ2(X1,X2,...,Xn) =− 1<br />
2 +<br />
<br />
<br />
<br />
1<br />
4 +<br />
n X2 i<br />
n<br />
i=1
4 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
Luego observamos que eligiendo distintas funciones g, obtenemos diferentes<br />
estimadores. Todavía no estamos en condiciones <strong>de</strong> comparar uno con otro,<br />
por lo que <strong>de</strong>jamos este punto sin resolver hasta más a<strong>de</strong>lante.<br />
Generalización cuando hay varios parámetros: Supongamos que se<br />
tiene una muestra aleatoria X1,X2,...,Xn <strong>de</strong> una distribución perteneciente<br />
a la familia F = {F (x, θ1,θ2,...,θp) con θ =(θ1,θ2,...,θp) ∈ Θ ⊂ IR p }.<br />
Para estimar θ1,θ2,...,θp por el método <strong>de</strong> los momentos se proce<strong>de</strong><br />
como sigue: Se consi<strong>de</strong>ran k funciones g1,g2,...,gp <strong>de</strong> IR en IR y se resuelve<br />
el siguiente sistema<br />
1<br />
n<br />
n<br />
gj(Xi) =Eθ (gj(X1)) j =1, 2,...,p.<br />
i=1<br />
Ejemplo 4: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
N(µ, σ 2 ). Consi<strong>de</strong>remos g1(x) =x y g2(x) =x 2 . Como se tiene<br />
E µ,σ 2(g1(X1)) = µ y E µ,σ 2(g2(X1)) = σ 2 + µ 2 ,<br />
para estimar µ y σ2 se <strong>de</strong>berá resolver el sistema<br />
n 1<br />
Xi<br />
n<br />
i=1<br />
= µ<br />
n 1<br />
X<br />
n<br />
2 i = µ 2 + σ 2 .<br />
Luego, se tiene<br />
y<br />
i=1<br />
σ 2 = δ2(X1,X2,...,Xn) = 1<br />
n<br />
µ = δ1(X1,X2,...,Xn) = 1<br />
n<br />
n<br />
X<br />
i=1<br />
2 i −<br />
1<br />
n<br />
n<br />
Xi<br />
i=1<br />
n<br />
2 Xi<br />
i=1<br />
= 1<br />
n<br />
n<br />
(Xi − µ)<br />
i=1<br />
2<br />
que coinci<strong>de</strong>n con los estimadores que habíamos propuesto en el ejemplo 1<br />
<strong>de</strong> 2.4.<br />
Ejemplo 5: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
Γ(α, λ). Consi<strong>de</strong>remos g1(x) =x y g2(x) =x 2 . Como se tiene<br />
Eα,λ(g1(X1)) = α<br />
λ y Eα,λ(g2(X1))<br />
α(α +1)<br />
=<br />
λ2 ,
3.3. MÉTODO DE MÁXIMA VEROSIMILITUD 5<br />
para estimar α y λ se <strong>de</strong>berá resolver el sistema<br />
n 1<br />
Xi<br />
n<br />
i=1<br />
n 1<br />
X<br />
n<br />
i=1<br />
2 i<br />
= α<br />
λ<br />
= α(α+1)<br />
λ 2<br />
Indiquemos por X = 1 ni=1 n<br />
Xi yporσ2 = 1 ni=1 n (Xi − X) 2 . Entonces,<br />
<strong>de</strong>spejando <strong>de</strong>l sistema anterior, los estimadores <strong>de</strong> los momentos para λ y<br />
α resultan ser<br />
λ = δ1(X1,X2,...,Xn) = X<br />
σ 2<br />
y<br />
α = δ2(X1,X2,...,Xn) = X2<br />
.<br />
σ 2<br />
Estimación <strong>de</strong> q(θ). Si lo que interesa estimar es una función <strong>de</strong> θ, q(θ)<br />
y esta función es continua, el método <strong>de</strong> los momentos consistirá en estimar<br />
primero θ por θ y luego q(θ) se estimará por q( θ). La justificación <strong>de</strong> esto<br />
resi<strong>de</strong> en que si θ está próximo a θ, entonces como q es continua, q( θ) estará<br />
próxima a q(θ).<br />
3.3 Método <strong>de</strong> máxima verosimilitud<br />
Supongamos que se observa un vector muestra X =(X1,X2,...,Xn) discreto<br />
o continuo cuya función <strong>de</strong> <strong>de</strong>nsidad discreta o continua pertenezca a<br />
una familia p(x, θ), θ ∈ Θ y se quiera estimar θ.<br />
En el caso discreto p(x, θ) representa la probabilidad <strong>de</strong> observar el vector<br />
x =(x1,x2,...,xn), cuando el valor <strong>de</strong>l parámetro es θ. Es razonable pensar<br />
que si hemos observado el vector x, este tendrá alta probabilidad. Luego se<br />
podría estimar θ como el valor que hace máxima p(x, θ). Un razonamiento<br />
análogo se pue<strong>de</strong> hacer en el caso continuo, recordando que la probabilidad<br />
<strong>de</strong> un hipercubo con centro en x y <strong>de</strong> arista ∆, cuando ∆ es pequeño tiene<br />
probabilidad aproximadamente igual p(x, θ) ∆ n . Esto sugiere la siguiente<br />
<strong>de</strong>finición:<br />
.
6 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
Definición 1: Diremos θ(X) es un estimador <strong>de</strong> máxima verosimilitud<br />
(E.M.V.) <strong>de</strong> θ, si se cumple<br />
p(X, θ(X)) = max p(X, θ)<br />
θ∈Θ<br />
Ejemplo 1: Supongamos que θ pue<strong>de</strong> tomar valores θ =1óθ = 0 y que<br />
p(x, θ) viene dado por<br />
x<br />
θ<br />
0 1<br />
0 0.3 0.6<br />
1 0.7 0.4<br />
Σ 1 1<br />
Supongamos que se observe una muestra <strong>de</strong> tamaño 1 con valor X. Luego<br />
el estimador <strong>de</strong> máxima verosimilitud viene dado por<br />
<br />
θ(X)<br />
1 si X =0<br />
=<br />
0 si X =1<br />
Cómputo <strong>de</strong>l E.M.V.: Supongamos ahora que Θ es un subconjunto<br />
abierto <strong>de</strong> IR p , que el soporte <strong>de</strong> p(x, θ) no <strong>de</strong>pen<strong>de</strong> <strong>de</strong> θ y que p(x, θ)<br />
tiene <strong>de</strong>rivadas parciales respecto a todas las componentes θi.<br />
Como la función ln(µ) (logaritmo natural) es monótona creciente, maximizar<br />
p(x, θ) será equivalente a maximizar ln p(x, θ). Luego el E.M.V. θ(X)<br />
<strong>de</strong>be verificar:<br />
∂ ln p(X, θ)<br />
=0 i =1, 2,...,p. (3.2)<br />
∂θi<br />
Hasta ahora hemos supuesto que X es un vector con una distribución<br />
arbitraria. Supongamos ahora que X =(X1,X2,...,Xn) es una muestra<br />
aleatoria <strong>de</strong> una distribución discreta o continua con <strong>de</strong>nsidad p(x, θ). Luego<br />
se tiene<br />
n<br />
p(x, θ) =p(x1,x2,...,xn, θ) = p(xj, θ)<br />
j=1
3.3. MÉTODO DE MÁXIMA VEROSIMILITUD 7<br />
y bajo las condiciones dadas anteriormente, el sistema <strong>de</strong> ecuaciones (3.2)<br />
se transforma en<br />
n ∂ ln p(xi, θ)<br />
=0 j =1, 2,...,p. (3.3)<br />
∂θj<br />
i=1<br />
Supongamos que indicamos por ψj(x, θ) = ∂ ln p(x, θ)<br />
, entonces (3.3) pue<strong>de</strong><br />
∂θj<br />
escribirse como<br />
n<br />
ψj(xi, θ) =0 j =1, 2,...,p.<br />
i=1<br />
Esta ecuación correspon<strong>de</strong> a la forma general <strong>de</strong> los <strong>de</strong>nominados M−estimadores,<br />
que veremos más a<strong>de</strong>lante.<br />
Por supuesto que tanto (3.2) como (3.3) son condiciones necesarias pero<br />
no suficientes para que θ sea un máximo. Para asegurarse que θ es un<br />
máximo <strong>de</strong>berían verificarse las condiciones <strong>de</strong> segundo or<strong>de</strong>n respectivas.<br />
A<strong>de</strong>más <strong>de</strong>be verificarse que no se trata <strong>de</strong> un máximo relativo sino absoluto.<br />
Ejemplo 2: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
Bi(θ, k), con k conocido, luego cada variable Xi tiene función <strong>de</strong> <strong>de</strong>nsidad<br />
<br />
k<br />
p(x, θ) = θ<br />
x<br />
x (1 − θ) k−x<br />
y<br />
∂ ln p(x, θ)<br />
=<br />
∂θ<br />
x k − x x − kθ<br />
− =<br />
θ 1 − θ θ(1 − θ) .<br />
Luego (3.3) se transforma en la ecuación<br />
n Xi − k<br />
i=1<br />
θ<br />
θ(1 − θ) =0,<br />
y <strong>de</strong>spejando θ resulta<br />
θ(X1,X2,...,Xn) = 1<br />
n<br />
Xi .<br />
nk<br />
i=1<br />
Ejemplo 3: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
N(µ, σ2 ). Busquemos los E.M.V. <strong>de</strong> µ y σ2 . La función <strong>de</strong> <strong>de</strong>nsidad <strong>de</strong> cada<br />
variable Xi es<br />
p(x, µ, σ 2 <br />
1<br />
1<br />
−<br />
)= √ e 2 σ2 (x−µ)2<br />
.<br />
2πσ2
8 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
Por lo tanto,<br />
y<br />
∂ ln p(x, µ, σ 2 )<br />
∂σ 2<br />
∂ ln p(x, µ, σ 2 )<br />
∂µ<br />
= x − µ<br />
σ 2<br />
= − 1<br />
2 σ 2 +(σ2 ) 2 1<br />
2 (x − µ)2 .<br />
Luego el sistema (3.3) se transforma en el sistema<br />
que tiene como solución<br />
n<br />
(Xi − µ)/σ<br />
i=1<br />
2 = 0<br />
n<br />
−<br />
i=1<br />
1 1<br />
+<br />
2σ 2 2σ 4 (Xi − µ) 2 = 0<br />
µ(X1,X2,...,Xn) =<br />
σ 2 (X1,X2,...,Xn) =<br />
n<br />
Xi/n = X<br />
i=1<br />
n<br />
(Xi − X)<br />
i=1<br />
2 /n<br />
que son los mismos estimadores que encontramos por el método <strong>de</strong> los momentos.<br />
Ejemplo 4: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
Γ(α, λ). La <strong>de</strong>nsidad <strong>de</strong> Xi está dada por<br />
con lo cual<br />
y<br />
p(x, α, λ) = 1<br />
Γ(α) λα x α−1 e −λx ,<br />
∂ ln p(x, α, λ)<br />
∂α<br />
∂ ln p(x, α, λ)<br />
∂λ<br />
=lnλ +lnx − Γ′ (α)<br />
Γ(α)<br />
= α<br />
− x,<br />
λ<br />
don<strong>de</strong> Γ ′ (α) indica la <strong>de</strong>rivada <strong>de</strong> la función Γ(α). Luego el sistema (3.3) se<br />
transforma en el sistema
3.3. MÉTODO DE MÁXIMA VEROSIMILITUD 9<br />
con X = 1<br />
n<br />
n ln n<br />
λ + ln(Xi) − n<br />
i=1<br />
Γ′ (α)<br />
Γ(α)<br />
= 0<br />
n α<br />
− n X<br />
λ<br />
= 0 ,<br />
ni=1 Xi. Luego λ = α . Pero, este sistema no tiene una solución<br />
X<br />
explícita ya que al reemplazar el valor <strong>de</strong> λ obtenemos la ecuación no lineal<br />
<br />
n<br />
n ln α − ln(X) + ln(Xi) − n Γ′ (α)<br />
Γ(α) =0,<br />
i=1<br />
que pue<strong>de</strong> resolverse, por ejemplo mediante, el algoritmo <strong>de</strong> Newton-Raphson.<br />
Para iniciar el proceso, se pue<strong>de</strong> tomar como estimador inicial el estimador<br />
<strong>de</strong> los momentos, por ejemplo.<br />
En este caso, el estimador <strong>de</strong> máxima verosimilitud no coinci<strong>de</strong> con el<br />
estimador <strong>de</strong> los momentos.<br />
Invarianza <strong>de</strong> los E.M.V. Supongamos que λ = q(θ) es una función<br />
biunívoca <strong>de</strong> Θ sobre Λ, don<strong>de</strong> Λ ⊂ IR p . Luego la <strong>de</strong>nsidad p(x, θ) se pue<strong>de</strong><br />
expresar en función <strong>de</strong> λ ya que θ = q −1 (λ). Denominemos a la <strong>de</strong>nsidad<br />
<strong>de</strong> X como función <strong>de</strong> λ por p ∗ (x, λ). Claramente se tiene<br />
p ∗ (x, λ) =p(x,q −1 (λ))<br />
Luego se <strong>de</strong>finen los E.M.V. θ y λ por<br />
p(x, θ)=maxp(x,<br />
θ) (3.4)<br />
θ∈Θ<br />
y<br />
p ∗ (x, λ)=max<br />
λ∈Λ p∗ (x, λ) (3.5)<br />
El siguiente teorema muestra que los estimadores <strong>de</strong> máxima verosimilitud<br />
son invariantes por transformaciones biunívocas.<br />
Teorema 1: Si θ es E.M.V. <strong>de</strong> θ, entonces λ = q( θ) es E.M.V. <strong>de</strong> λ.<br />
Demostración: Como θ es E.M.V. <strong>de</strong> θ se tendrá que (3.4) vale. Como<br />
λ = q( θ), (3.4) se pue<strong>de</strong> escribir como<br />
p(x,q −1 ( λ)) = max p(x,q<br />
λ∈Λ<br />
−1 (λ))
10 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
pero, esta ecuación <strong>de</strong> acuerdo a la <strong>de</strong>finición <strong>de</strong> p ∗ es equivalente a<br />
p ∗ (x, λ)=maxp<br />
λ∈Λ<br />
∗ (x, λ) ,<br />
luego λ satisface (3.5) y por lo tanto es un E.M.V. <strong>de</strong> λ.<br />
Ejemplo 5: De acuerdo al Teorema 1, en el ejemplo 2, el E.M.V. <strong>de</strong> λ =<br />
q(θ) =lnθserá λ =ln X <br />
θ =ln .<br />
k<br />
En general, si λ = q(θ), aunque q no sea bunívoca, se <strong>de</strong>fine el estimador<br />
<strong>de</strong> máxima verosimilitud <strong>de</strong> λ por<br />
λ = q( θ) .<br />
Ejemplo 6: Supongamos que en el ejemplo 3 interese encontrar el E.M.V.<br />
<strong>de</strong> λ = q(µ, σ2 )=µ/σ2 . Aunque esta transformación no es biunívoca, el<br />
E.M.V. <strong>de</strong> λ será<br />
λ = q(µ, σ 2 )=<br />
X<br />
ni=1 (Xi − X) 2 /n =<br />
ni=1 Xi<br />
ni=1 (Xi − X) 2<br />
pues basta completar la transformación dada a una transformación biunívoca,<br />
tomando por ejemplo, q1(µ, σ 2 )=µ.<br />
3.4 Método <strong>de</strong> cuadrados mínimos<br />
Supongamos que X1,X2,...,Xn son variables aleatorias <strong>de</strong> la forma<br />
Xi = Si(θ1,...,θp)+εi 1 ≤ i ≤ n (3.6)<br />
don<strong>de</strong> θ =(θ1,θ2,...,θp) es un vector <strong>de</strong> parámetros <strong>de</strong>sconocido, <strong>de</strong>l cual<br />
lo único que se conoce es que está en un conjunto Θ ⊂ IR p y εi son variables<br />
aleatorias con<br />
(i) E(εi) =0<br />
(ii) Var(εi) =σ 2
3.4. MÉTODO DE CUADRADOS MÍNIMOS 11<br />
(iii) ε1,ε2,...,εn son variables aleatorias in<strong>de</strong>pendientes.<br />
Ejemplo 1: Consi<strong>de</strong>remos el ejemplo 3 <strong>de</strong> 2.4. Luego, en este caso, poniendo<br />
θ1 en lugar <strong>de</strong> a y θ2 en lugar <strong>de</strong> b, se tiene<br />
Xi = θ1Gi + θ2 + εi<br />
don<strong>de</strong> las variables εi satisfacen (i), (ii) y (iii).<br />
Luego si llamamos:<br />
Si(θ1,θ2) =θ1Gi + θ2<br />
1 ≤ i ≤ n<br />
1 ≤ i ≤ n<br />
estamos en la situación <strong>de</strong>scripta por la ecuación (3.6).<br />
Ejemplo 2: Po<strong>de</strong>mos generalizar el ejemplo 1 por la siguiente situación.<br />
Supongamos que la variable X <strong>de</strong>pen<strong>de</strong> <strong>de</strong> otras dos variables G y H y que<br />
la forma <strong>de</strong> la <strong>de</strong>pen<strong>de</strong>ncia es<br />
X = u(G,H,θ1,θ2,...,θp)+ε<br />
don<strong>de</strong> θ =(θ1,...,θp) se conoce que pertenece a un conjunto Θ ⊂ IR p ,y<br />
don<strong>de</strong> ε es una variable aleatoria que aglutina todos los otros factores que<br />
<strong>de</strong>termina X y que son <strong>de</strong>sconocidos.<br />
Por ejemplo se pue<strong>de</strong>n tener<br />
o<br />
o<br />
u1(G, H, θ) =θ1G + θ2H + θ3<br />
u2(G, H, θ) =θ1G 2 + θ2H 2 + θ3HG + θ4H + θ5G + θ6<br />
u3(G, H, θ) =θ1e θ2G + θ3e θ4H .<br />
Supongamos que se hagan n experimentos. En el experimento i-ésimo<br />
se fijan G y H iguales respectivamente a Gi y Hi y se observa un valor Xi.<br />
Luego se tendrá<br />
Xi = u(Gi,Hi,θ1,θ2,...,θp)+εi<br />
1 ≤ i ≤ n<br />
don<strong>de</strong> se pue<strong>de</strong> suponer que las εi satisfacen (i), (ii) y (iii). Luego, si llamamos<br />
Si(θ1,θ2,...,θp) =u(Gi,Hi,θ1,θ2,...,θp)
12 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
obtenemos que las variables Xi satisfacen (3.6).<br />
Llamaremos estimador <strong>de</strong> cuadrados mínimos (E.C.M.) al valor<br />
θ(X1,X2,...,Xn) que hace mínima la expresión n i=1 (Xi−Si(θ1,θ2,...,θp)) 2 ,<br />
es <strong>de</strong>cir si<br />
n<br />
(Xi − Si(<br />
i=1<br />
θ)) 2 n<br />
= min (Xi − Si(θ))<br />
θ∈Θ i=1<br />
2 . (3.7)<br />
Este estimador tiene la siguiente justificación intuitiva: Se <strong>de</strong>sea que<br />
Si(θ1 ...θp) “ajuste” bien a Xi, y por lo tanto los términos residuales εi<br />
<strong>de</strong>berían ser pequeños. Esto se logra minimizando la suma <strong>de</strong> los cuadrados<br />
<strong>de</strong> las <strong>de</strong>sviaciones respectivas.<br />
Se pue<strong>de</strong> <strong>de</strong>mostrar que si a<strong>de</strong>más <strong>de</strong> satisfacer (i), (ii) y (iii), los εi<br />
tienen distribución normal, entonces el E.M.C. coinci<strong>de</strong> con el E.M.V. Esto<br />
se verá en el problema 3 <strong>de</strong> 3.4.<br />
Computación <strong>de</strong> los E.C.M.: Si Θ es abierto y si las funciones<br />
Si(θ1,θ2,...,θp) son <strong>de</strong>rivables respecto a cada θi, θ <strong>de</strong>berá satisfacer el<br />
sistema <strong>de</strong> ecuaciones siguiente<br />
que es equivalente a:<br />
∂ n i=1 (Xi − Si( θ)) 2<br />
∂θj<br />
=0 j =1, 2,...,p,<br />
n<br />
(Xi − Si(<br />
i=1<br />
θ)) ∂Si( θ)<br />
=0 j =1, 2,...,p.<br />
∂θj<br />
Igual que en el caso <strong>de</strong> los E.M.V. estas condiciones son necesarias para el<br />
E.M.C. pero no son suficientes. También se <strong>de</strong>berán cumplir las condiciones<br />
<strong>de</strong> segundo or<strong>de</strong>n, y se <strong>de</strong>berá verificar que se trata <strong>de</strong> un mínimo absoluto<br />
y no local.<br />
Ejemplo 3: Volvemos al ejemplo 1. Luego se tiene<br />
∂Si(θ)<br />
= Gi<br />
∂θ1<br />
Luego (3.7) se transforma en<br />
y<br />
∂Si(θ)<br />
=1.<br />
∂θ2
3.5. CRITERIOS PARA MEDIR LA BONDAD DE UN ESTIMADOR 13<br />
n<br />
(X −<br />
i=1<br />
θ1Gi − θ2)Gi = 0<br />
n<br />
(Xi −<br />
i=1<br />
θ1Gi − θ2) = 0 .<br />
Es fácil ver la que la solución <strong>de</strong> este sistema viene dada por<br />
don<strong>de</strong><br />
θ1 =<br />
n<br />
n<br />
(Xi − X)(Gi − G) (Gi − G)<br />
i=1<br />
i=1<br />
2 ,<br />
θ2 = X − θ1G,<br />
X = 1<br />
n<br />
n<br />
i=1<br />
Xi y G = 1<br />
n<br />
n<br />
Gi .<br />
Geométricamente la recta X = θ1G + θ2 tiene la propiedad siguiente:<br />
Minimaza la suma <strong>de</strong> los cuadrados <strong>de</strong> las distancias <strong>de</strong> los puntos (Gi,Xi)<br />
a la recta, si esta distancia se la mi<strong>de</strong> paralelamente al eje <strong>de</strong> las X. Es <strong>de</strong>cir<br />
si X ∗ i = θ1G1 + θ2, la recta X = θ1G + θ2 hace mínimo n i=1 (Xi − X ∗ i )2 .<br />
Para un mayor <strong>de</strong>sarrollo <strong>de</strong> los métodos <strong>de</strong> cuadrados mínimos, consultar<br />
Draper y Smith [2].<br />
3.5 Criterios para medir la bondad <strong>de</strong> un estimador<br />
Supongamos que se tenga una muestra X =(X1,X2,...,Xn) <strong>de</strong> cuya distribución<br />
sólo se conoce que pertenece a la familia<br />
F = {F (x, θ) don<strong>de</strong> θ ∈ Θ ⊂ IR p }. Supongamos a<strong>de</strong>más que se está interesado<br />
en estimar una función real q(θ). Para po<strong>de</strong>r elegir el estimador<br />
δ(X) que se utilizará, se <strong>de</strong>berá dar un criterio para comparar dos estimadores<br />
cualesquiera. Esto se hará como sigue:<br />
Es razonable pensar que dado un estimador δ(X) <strong>de</strong> q(θ), el error<br />
δ(X) − q(θ) producirá un perjuicio o pérdida dado por un real no negativo,<br />
que <strong>de</strong>pen<strong>de</strong>rá por un lado <strong>de</strong>l valor <strong>de</strong>l estimador δ(X) y por otro <strong>de</strong>l<br />
valor verda<strong>de</strong>ro <strong>de</strong>l vector θ <strong>de</strong> parámetros.<br />
i=1
14 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
Así llamaremos función <strong>de</strong> pérdida a una función ℓ(θ,d) no negativa que<br />
nos indica cuánto se pier<strong>de</strong> cuando el valor <strong>de</strong>l estimador es “d” y el valor<br />
verda<strong>de</strong>ro <strong>de</strong>l vector <strong>de</strong> parámetros es θ. Entonces si usamos el estimador<br />
δ(X) lapérdida será<br />
ℓ(θ,δ(X))<br />
y esta pérdida será una variable aleatoria ya que <strong>de</strong>pen<strong>de</strong> <strong>de</strong> X. Para evaluar<br />
globalmente el estimador δ(X) se pue<strong>de</strong> utilizar el valor medio <strong>de</strong> esta<br />
pérdida, que indicará <strong>de</strong> acuerdo a la ley <strong>de</strong> los gran<strong>de</strong>s números aproximadamente<br />
la pérdida promedio, si estimamos q(θ) muchas veces con vectores X<br />
in<strong>de</strong>pendientes. Luego, <strong>de</strong>finimos la función <strong>de</strong> pérdida media <strong>de</strong>l estimador<br />
δ o función <strong>de</strong> riesgo R(δ, θ) a<br />
R(δ, θ) =E θ (ℓ(θ,δ(X)))<br />
Un primer ejemplo <strong>de</strong> función <strong>de</strong> pérdida pue<strong>de</strong> obtenerse tomando el error<br />
absoluto, es <strong>de</strong>cir<br />
ℓ1(θ,d)=|d − q(θ)|<br />
y en este caso, la pérdida media correspon<strong>de</strong> a un estimador δ(X) viene dada<br />
por<br />
R1(δ, θ) =Eθ (|δ(X − q(θ)|)<br />
Si consi<strong>de</strong>ramos como función <strong>de</strong> pérdida el cuadrado <strong>de</strong>l error tenemos<br />
ℓ2(θ,d)=(d − q(θ)) 2<br />
que es una función que <strong>de</strong>s<strong>de</strong> el punto <strong>de</strong> vista matemático es más sencilla<br />
que ℓ1, ya que es <strong>de</strong>rivable en todo punto.<br />
La función <strong>de</strong> pérdida cuadrática fue la primera utilizada en <strong>Estadística</strong>,<br />
yaún hoy la más difundida. De ahora en a<strong>de</strong>lante, salvo mención en contrario<br />
supondremos que la función <strong>de</strong> pérdida es ℓ2. La pérdida media, o riesgo,<br />
correspondiente está dada por<br />
R2(δ, θ) =E(δ(X) − q(θ)) 2<br />
y será llamada en a<strong>de</strong>lante error cuadrático medio, e indicada por ECMθ (δ).<br />
Luego<br />
ECMθ (δ) =R2(δ, θ) =Eθ (δ(X) − q(θ)) 2<br />
(3.8)<br />
La función ECMθ (δ) nos proporciona un criterio para <strong>de</strong>terminar si un estimador<br />
δ1(X) <strong>de</strong>q(θ) es mejor que otro δ2(X), basta verificar<br />
ECM θ (δ1) ≤ ECM θ (δ2) ∀ θ ∈ Θ
3.5. CRITERIOS PARA MEDIR LA BONDAD DE UN ESTIMADOR 15<br />
En este or<strong>de</strong>n <strong>de</strong> i<strong>de</strong>as, un estimador óptimo δ ∗ podría <strong>de</strong>finirse mediante la<br />
siguiente condición: Para cualquier otro estimador δ se tiene<br />
ECM θ (δ ∗ ) ≤ ECM θ (δ) ∀ θ ∈ Θ (3.9)<br />
Sin embargo, salvo en casos triviales no existirán tales estimadores óptimos.<br />
Para mostrar esto <strong>de</strong>finamos para cada posible valor θ ∈ Θ, el estimador<br />
constante δ θ (X) =q(θ) que no <strong>de</strong>pen<strong>de</strong> <strong>de</strong>l valor <strong>de</strong> la muestra. Luego si<br />
δ ∗ satisface (3.9), <strong>de</strong>be cumplirse:<br />
ECM θ (δ ∗ ) ≤ ECM θ (δ θ )=E θ ((q(θ) − q(θ)) 2 )=0 ∀θ ∈ Θ<br />
Pero como ECM θ (δ ∗ ) ≥ 0yℓ2(θ,d) = 0 implica que d = q(θ), se obtiene<br />
P θ (δ ∗ (X) =q(θ)) = 1 ∀θ ∈ Θ (3.10)<br />
(don<strong>de</strong> Pθ (Λ) indica la probabilidad <strong>de</strong>l evento Λ cuando el valor <strong>de</strong> los<br />
parámetros está dado por el vector θ). La ecuación (3.10) significa que a<br />
partir <strong>de</strong> la muestra se pue<strong>de</strong> estimar sin error q(θ). Esta situación sólo se<br />
da muy raramente, por ejemplo, cuando q(θ) es constante.<br />
Otro ejemplo algo diferente <strong>de</strong> función <strong>de</strong> pérdida, correspon<strong>de</strong> a la<br />
función<br />
ℓ3(θ,d)=I {|q(θ)−d|>c}<br />
don<strong>de</strong> I {|q(θ)−d|>c} es la función que vale 1 si |q(θ) − d| >cy 0 en caso<br />
contrario. Esta pérdida da origen a la función <strong>de</strong> riesgo<br />
R3(δ, θ) =P θ (|δ(X) − q(θ)| >c) .<br />
A diferencia <strong>de</strong> las anteriores, en este caso, ℓ3(θ,d) = 0 no implica implica<br />
q(θ) =d. Por otra parte, esta pérdida no es convexa como función <strong>de</strong> d<br />
mientras que ℓ1 y ℓ2 lo son. En muchas situaciones, se podrán obtener<br />
procedimientos <strong>de</strong> estimación más efectivos para pérdidas convexas.<br />
El estimador δ ∗ con E.C.M. mínimo uniformemente en θ como se indica<br />
en (3.9) no existe, salvo en casos excepcionales, <strong>de</strong>bido a que la clase <strong>de</strong><br />
todos los posibles estimadores es muy amplia y contiene estimadores poco<br />
razonables como los δ θ (X) <strong>de</strong>finidos anteriormente. Por lo tanto, una manera<br />
<strong>de</strong> obtener estimadores óptimos consistirá en restringir primero la clase<br />
<strong>de</strong> los estimadores δ consi<strong>de</strong>rados, y luego buscar aquél con E.C.M. uniformemente<br />
menor <strong>de</strong>ntro <strong>de</strong> esta clase. Otra forma <strong>de</strong> obtener estimadores<br />
óptimos consistirá en minimizar algún criterio general basado en la función<br />
<strong>de</strong> riesgo, como el máximo riesgo.
16 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
Antes <strong>de</strong> empezar el estudio <strong>de</strong> las clases <strong>de</strong> estimadores daremos una<br />
noción importante.<br />
Definición 1: Se dice que un estimador δ(X) <strong>de</strong> q(θ) es inadmisible<br />
respecto <strong>de</strong> la pérdida ℓ(θ,d), si existe otro estimador δ ′ (X) mejor que él, es<br />
<strong>de</strong>cir, si existe δ ′ (X) tal que<br />
R(δ ′ , θ) ≤ R(δ, θ) ∀ θ ∈ Θ<br />
El estimador δ(X) se dirá admisible si no es inadmisible, es <strong>de</strong>cir, si no existe<br />
ningún otro estimador que sea uniformemente mejor que él.<br />
El siguiente Teorema muestra la ventaja <strong>de</strong> utilizar pérdidas convexas.<br />
Teorema 1. Supongamos que ℓ(θ,d) es una pérdida estrictamente convexa<br />
en d y que δ(X) es admisible para q(θ). Siδ ′ (X) es otro estimador <strong>de</strong> q(θ)<br />
con el mismo riesgo que δ(X) entonces P θ (δ(X) =δ ′ (X)) = 1.<br />
Demostración. Supongamos que P θ (δ(X) =δ ′ (X)) < 1 y sea δ ∗ (X) =<br />
(δ(X)+δ ′ (X)) /2. Luego, por ser ℓ(θ,d) convexa se cumple<br />
ℓ(θ,δ ∗ (X)) < ℓ(θ,δ(X)) + ℓ(θ,δ′ (X))<br />
(3.11)<br />
2<br />
salvo si δ(X) =δ ′ (X). Luego, tomando esperanza en ambos miembros <strong>de</strong><br />
(3.11) se obtiene<br />
R(δ ∗ , θ) < R(δ, θ)+R(δ′ , θ)<br />
= R(δ, θ) (3.12)<br />
2<br />
lo que contradice el hecho <strong>de</strong> que δ(X) es admisible.<br />
3.6 Estimadores insesgados<br />
Una propiedad “razonable” que se pue<strong>de</strong> exigir a un estimador está dada<br />
por la siguiente <strong>de</strong>finición:<br />
Definición 1: Se dice que δ(X) es un estimador insesgado para q(θ) si<br />
E θ (δ(X)) = q(θ) ∀θ ∈ Θ.<br />
Esto significa que si calculamos el estimador δ para varias muestras in<strong>de</strong>pendientes,<br />
y luego promediamos los valores así obtenidos, entonces <strong>de</strong>
3.6. ESTIMADORES INSESGADOS 17<br />
acuerdo a la ley <strong>de</strong> los gran<strong>de</strong>s números el promedio converge al valor q(θ)<br />
que queremos estimar.<br />
Definición 2: Si un estimador no es insesgado, se dice sesgado, <strong>de</strong>finiéndose<br />
el sesgo <strong>de</strong>l estimador como E θ (δ(X)) − q(θ).<br />
Cuando δ(X) es un estimador insesgado, su ECM coinci<strong>de</strong> con su varianza<br />
ya que<br />
ECM θ (δ) =E θ [(δ(X) − q(θ)) 2 ]=E θ [(δ(X) − E θ (δ(X))) 2 ]=Var θ (δ(X)).<br />
Para ilustrar estas <strong>de</strong>finiciones veremos algunos ejemplos.<br />
Ejemplo 1: Supongamos tener una variable X <strong>de</strong> cuya distribución F en la<br />
población sólo se sabe que tiene esperanza finita, es <strong>de</strong>cir sólo se conoce que<br />
pertenece a F, don<strong>de</strong> F es la familia <strong>de</strong> todas las distribuciones con esperanza<br />
finita. Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> F y supongamos que se<br />
quiere estimar q1(F )=EF (X). Estamos frente a un problema <strong>de</strong> estimación<br />
no paramétrica, ya que la familia no pue<strong>de</strong> indicarse con un número finito<br />
<strong>de</strong> parámetros. Un posible estimador para q1(F )esX =(1/n) n i=1 Xi. El<br />
estimador X es insesgado ya que<br />
EF (X) =EF<br />
1<br />
n<br />
n <br />
Xi<br />
i=1<br />
X se <strong>de</strong>nomina media muestral.<br />
= 1<br />
n<br />
n<br />
EF (Xi) =EF (X) =q1(F )<br />
i=1<br />
Ejemplo 2: Supongamos ahora que se conoce que la distribución F <strong>de</strong> X en<br />
la población pertenece a la familia F <strong>de</strong> todas las distribuciones que tienen<br />
segundo momento finito, es <strong>de</strong>cir tales que EF (X 2 ) < ∞. Supongamos<br />
que se quiere estimar q2(F )=VarF (X) a partir <strong>de</strong> una muestra aleatoria<br />
X1,X2,...,Xn. Ya hemos visto que un estimador a<strong>de</strong>cuado podría ser<br />
σ 2 = 1<br />
n<br />
n<br />
(Xi − X)<br />
i=1<br />
2<br />
Veremos que σ 2 no es un estimador insesgado <strong>de</strong> q2(F ). Desarrollando el<br />
cuadrado <strong>de</strong>l segundo miembro en la <strong>de</strong>finición obtenemos<br />
σ 2 ni=1 X<br />
=<br />
2 i − nX2<br />
.<br />
n
18 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
Luego, se tiene<br />
EF (σ 2 )=EF (X 2 ) − EF (X 2 ) (3.13)<br />
Por otro lado, se tiene<br />
VarF (X) = 1<br />
n2 n<br />
VarF (Xi) = 1<br />
n VarF (X) .<br />
Como<br />
resulta<br />
i=1<br />
VarF (X) =EF (X 2 ) − (EF (X)) 2 ,<br />
EF (X 2 )=VarF (X)+(EF (X)) 2 = 1<br />
n VarF (X)+(EF (X)) 2<br />
(3.14)<br />
y reemplazando (3.14) en (3.13) resulta<br />
EF (σ 2 ) = EF (X 2 ) − (EF (X)) 2 − 1<br />
n VarF (X) =VarF (X)(1 − 1/n)<br />
= n − 1<br />
n VarF<br />
n − 1<br />
(X) =<br />
n q2(F ).<br />
Esto prueba que σ 2 no es un estimador insesgado para VarF (X), aunque<br />
el sesgo es −VarF (X)/n, y por lo tanto, tien<strong>de</strong> a 0 cuando n tien<strong>de</strong> a infinito.<br />
El sesgo pue<strong>de</strong> corregirse dividiendo σ 2 por (n − 1)/n, obteniendo así el<br />
estimador insesgado<br />
s 2 = n<br />
n − 1 σ2 = 1<br />
n<br />
(Xi − X)<br />
n − 1<br />
i=1<br />
2<br />
que <strong>de</strong>nominaremos varianza muestral.<br />
Ejemplo 3: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
<strong>de</strong> la cual se conoce únicamente que pertenece a la familia N(µ, σ 2 ) y supongamos<br />
que se quieran estimar µ y σ 2 . Como se tiene<br />
µ = E µ,σ 2(X) ; σ 2 =Var µ,σ 2(X)<br />
por lo visto en Ejemplos 1 y 2, resulta que X y s 2 son estimadores insesgados<br />
<strong>de</strong> µ y σ 2 respectivamente.<br />
Si nos restringimos a la clase <strong>de</strong> los estimadores insesgados, se podrá encontrar<br />
frecuentemente, estimadores óptimos. Daremos la siguiente <strong>de</strong>finición:<br />
Definición 2: Se dirá que δ(X) es un estimador insesgado <strong>de</strong> mínima<br />
varianza para q(θ), uniformemente en θ ∈ Θ (IMVU) si:
3.7. ESTADÍSTICOS SUFICIENTES 19<br />
(a) δ(X) es insesgado para q(θ)<br />
(b) dado otro estimador insesgado para q(θ), δ ∗ (X), se cumple Var θ (δ(X)) ≤<br />
Var θ (δ ∗ (X)) ∀ θ ∈ Θ.<br />
3.7 Estadísticos suficientes<br />
Consi<strong>de</strong>remos un vector aleatorio X <strong>de</strong> dimensión n cuya distribución pertenece<br />
a una familia F = {F (x, θ) con θ ∈ Θ ⊂ IR p }. El vector X interesa en<br />
cuanto nos provee información sobre el valor verda<strong>de</strong>ro <strong>de</strong> θ. Pue<strong>de</strong> ocurrir<br />
que una parte <strong>de</strong> la información contenida en X carezca <strong>de</strong> interés para<br />
el conocimiento <strong>de</strong> θ, y por consiguiente convenga eliminarla simplificando<br />
así la información disponible.<br />
Al realizar esta simplificación, eliminando <strong>de</strong> X toda la información irrelevante,<br />
se obtendrá otro vector T que pue<strong>de</strong> ser <strong>de</strong> dimensión menor que<br />
n.<br />
Llamaremos estadístico a cualquier función medible T = r(X) con valores<br />
en un espacio euclí<strong>de</strong>o <strong>de</strong> dimensión finita.<br />
Si la función r no es biunívoca, <strong>de</strong>l conocimiento <strong>de</strong> T no se podrá<br />
reconstruir el valor <strong>de</strong> X, por lo que T conservará sólo una parte <strong>de</strong> la<br />
información que hay en X. El estadístico T será llamado suficiente cuando<br />
conserve toda la información relevante para el conocimiento <strong>de</strong> θ. Esto se<br />
formalizará en la siguiente <strong>de</strong>finición.<br />
Definición 1: Sea X un vector aleatorio <strong>de</strong> dimensión n cuya distribución<br />
es F (x, θ) con θ ∈ Θ. Se dice que un estadístico T = r(X) es suficiente<br />
para θ si la distribución <strong>de</strong> X condicional a que T = t es in<strong>de</strong>pendiente <strong>de</strong><br />
θ para todo t.<br />
Esto pue<strong>de</strong> interpretarse como afirmando que una vez conocido el valor t<br />
<strong>de</strong> T, la distribución <strong>de</strong> X es in<strong>de</strong>pendiente <strong>de</strong> θ y por lo tanto no contiene<br />
información suplementaria sobre θ. En otros términos: una vez conocido<br />
el valor <strong>de</strong> T po<strong>de</strong>mos olvidarnos <strong>de</strong>l valor X, ya que en T está toda la<br />
información que X tiene sobre θ.<br />
Ejemplo 1: Supongamos que una máquina produce cierto artículo, existiendo<br />
la probabilidad θ <strong>de</strong> que lo produzca <strong>de</strong>fectuoso. Supongamos a<strong>de</strong>más<br />
que se observa un lote <strong>de</strong> n artículos producidos sucesivamente por la máquina,
20 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
<strong>de</strong> manera que la aparición <strong>de</strong> uno <strong>de</strong>fectuoso resulte in<strong>de</strong>pendiente <strong>de</strong>l resultado<br />
obtenido para los restantes artículos <strong>de</strong>l lote.<br />
Consi<strong>de</strong>remos las variable aleatorias Xi , 1 ≤ i ≤ n, que valen 1 ó 0<br />
según el i-ésimo artículo observado sea o no <strong>de</strong>fectuoso. Entonces cada una<br />
<strong>de</strong> las variables X1,X2,...,Xn sigue una ley binomial Bi(θ, 1), <strong>de</strong> modo que<br />
la función <strong>de</strong> probabilidad puntual conjunta es igual a<br />
p(x1,x2,...,xn,θ)=θ Σn i=1 xi (1 − θ) n−Σ n i=1 xi<br />
don<strong>de</strong> xi vale 0 ó 1.<br />
Si queremos estimar el parámetro θ, parece razonable pensar que sólo se<br />
<strong>de</strong>berá utilizar la cantidad total <strong>de</strong> artículos <strong>de</strong>fectuosos <strong>de</strong>l lote, ya que el or<strong>de</strong>n<br />
en que han aparecido los mismos parece irrelevante para el conocimiento<br />
<strong>de</strong> θ. Por lo tanto, es <strong>de</strong> esperar que el estadístico T = n i=1 Xi sea suficiente.<br />
Para ver si esta conjetura es correcta, calculemos la distribución <strong>de</strong><br />
X =(X1,...,Xn) dado T = t:<br />
pX|T (x1,...,xn,θ|t) = pX,T (x1,x2,...,xn,t,θ)<br />
(3.15)<br />
pT (t, θ)<br />
El numerador <strong>de</strong> este cociente es la probabilidad conjunta:<br />
=<br />
Pθ(X1 = x1,...,Xn = xn,r(X1,...,Xn) =t)<br />
<br />
θt (1 − θ) n−t si r(x1,...,xn) =t<br />
0 si r(x1,...,xn) = t<br />
y como el estadístico T = n i=1 Xi sigue una ley binomial Bi(θ, n) el <strong>de</strong>nominador<br />
<strong>de</strong> (3.15) vale<br />
pT (t, θ) =<br />
n<br />
t<br />
<br />
θ t (1 − θ) n−t<br />
Así resulta<br />
⎧<br />
⎪⎨<br />
<br />
n<br />
<br />
1/ si r(x1,...,xn) =t<br />
pX|T (x1,...,xn,θ|t) = t<br />
⎪⎩ 0 si r(x1,...,xn) = t.<br />
De esta manera p X/T es in<strong>de</strong>pendiente <strong>de</strong> θ y por lo tanto el estadístico<br />
T =ΣXi es suficiente para θ.<br />
Una caracterización útil <strong>de</strong> los estadísticos suficientes es la proporcionada<br />
por el siguiente teorema:
3.7. ESTADÍSTICOS SUFICIENTES 21<br />
Teorema 1 (<strong>de</strong> factorización): Sea X un vector aleatorio con función <strong>de</strong><br />
<strong>de</strong>nsidad o función <strong>de</strong> probabilidad puntual p(x, θ), θ ∈ Θ. Entonces, el<br />
estadístico T = r(X) es suficiente para θ si y sólo si existen dos funciones g<br />
y h tales que<br />
p(x, θ) =g(r(x), θ)h(x) (3.16)<br />
Demostración: La haremos sólo para el caso discreto. Supongamos primero<br />
que existen dos funciones g y h tales que p(x, θ) se factoriza según (3.16).<br />
Entonces la función <strong>de</strong> <strong>de</strong>nsidad conjunta vale<br />
pXT(x, t, θ) =<br />
<br />
g(t, θ)h(x) si r(x) =t<br />
0 si r(x) = t<br />
y la <strong>de</strong>nsidad marginal pT(t, θ) está dada por<br />
pT(t, θ) = <br />
pXT(x, t, θ) = <br />
r(x)=t<br />
= g(t, θ) <br />
r(x)=t<br />
r(x)=t<br />
h(x) =g(t, θ)h ∗ (t)<br />
g(r(x), θ)h(x)<br />
don<strong>de</strong> las sumatorias se realizan sobre todos los x =(x1,x2,...,xn) tales<br />
que r(x) =t. Así resulta la función <strong>de</strong> <strong>de</strong>nsidad condicional<br />
p X|T(x, θ|t) =<br />
<br />
h(x)/h ∗ (t) si r(x) =t<br />
0 si r(x) = t<br />
y por lo tanto la distribución <strong>de</strong> X dado T = t es in<strong>de</strong>pendiente <strong>de</strong> θ para<br />
todo t.<br />
Recíprocamente, si suponemos que T = r(X) es suficiente para θ, se<br />
tiene<br />
Pθ(X = x) = Pθ (X = x, T = r(x)) = pXT(x,r(x), θ)<br />
= pX|T(x, θ|r(x))pT(r(x), θ)<br />
El primero <strong>de</strong> los factores <strong>de</strong>l último miembro es por hipótesis in<strong>de</strong>pendiente<br />
<strong>de</strong> θ y por eso po<strong>de</strong>mos llamarlo h(x); mientras que el segundo –que<br />
<strong>de</strong>pen<strong>de</strong> <strong>de</strong> x a través <strong>de</strong> t– pue<strong>de</strong> <strong>de</strong>nominarse g(r(x), θ). El teorema queda<br />
<strong>de</strong>mostrado. Para una <strong>de</strong>mostración general, ver Teorema 8 y Corolario 1<br />
<strong>de</strong> Lehmann [4]. También se pue<strong>de</strong> ver Bahadur [1].
22 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
Ejemplo 2: Supongamos que las variables aleatorias X1,X2,...,Xn son<br />
in<strong>de</strong>pendientes y que están uniformemente distribuídas en el intervalo [θ1,θ2]<br />
<strong>de</strong> manera que su función <strong>de</strong> <strong>de</strong>nsidad conjunta vale<br />
<br />
p(x1,...,xn,θ1,θ2) =<br />
Si <strong>de</strong>finimos los estadísticos<br />
(θ2 − θ1) −n si θ1 ≤ xi ≤ θ2, ∀i, 1 ≤ i ≤ n<br />
0 en el resto <strong>de</strong>IR n<br />
r1(X) = min{Xi : 1 ≤ i ≤ n} y r2(X) = max{Xi : 1 ≤ i ≤ n}<br />
y si <strong>de</strong>notamos con I [θ1,θ2](y) a la función característica <strong>de</strong>l intervalo [θ1,θ2]<br />
(que vale 1 para todo y <strong>de</strong>l intervalo y 0 fuera <strong>de</strong>l mismo), resulta:<br />
p(x1,...,xn,θ1,θ2) =(θ2−θ1) −n I [θ1,θ2](r1(x1,...,xn))I [θ1,θ2](r2(x1,...,xn))<br />
Por lo tanto la función <strong>de</strong> <strong>de</strong>nsidad p(x, θ) se factoriza como en (3.16) con<br />
h(x) = 1. La función g que <strong>de</strong>pen<strong>de</strong> <strong>de</strong> X a través <strong>de</strong> r1(x) yr2(x) vale en<br />
este caso<br />
g(r1(x),r2(x), θ) =(θ2 − θ1) −n I [θ1,θ2](r1(x))I [θ1,θ2](r2(x))<br />
Esto <strong>de</strong>muestra que el estadístico<br />
es suficiente para θ1 y θ2.<br />
T =(r1(X) ,r2(X))<br />
El siguiente resultado es Corolario inmediato <strong>de</strong>l Teorema 1.<br />
Corolario. Sea X un vector aleatorio con función <strong>de</strong> <strong>de</strong>nsidad o función <strong>de</strong><br />
probabilidad puntual p(x, θ), θ ∈ Θ. Supongamos que la familia {p(x, θ)}<br />
tiene soporte común, in<strong>de</strong>pendiente <strong>de</strong> θ. Entonces, una condición necesaria<br />
y suficiente para que T sea suficiente para θ es que fijados θ1 y θ2 el cociente<br />
p(x,θ1)<br />
p(x,θ2)<br />
sea función <strong>de</strong> T.<br />
El siguiente Teorema muestra que una función biunívoca <strong>de</strong> un estadístico<br />
suficiente es también un estadístico suficiente. Esta propiedad es intuitivamente<br />
razonable: si T contiene toda la información relevante acerca <strong>de</strong> θ, y<br />
T ∗ es una función biunívoca <strong>de</strong> T, entonces también T ∗ la contiene ya que<br />
el vector T pue<strong>de</strong> reconstruirse a partir <strong>de</strong>l vector T ∗ .
3.8. ESTADÍSTICOS MINIMALES SUFICIENTES 23<br />
Teorema 2: Si X es un vector aleatorio con una distribución F (x, θ), con<br />
θ ∈ Θ si T = r(X) es un estadístico suficiente para θ ysim es una función<br />
biunívoca <strong>de</strong> T entonces el estadístico T∗ = m(T) también es suficiente para<br />
θ.<br />
Demostración: Apliquemos el teorema <strong>de</strong> factorización a la función <strong>de</strong><br />
<strong>de</strong>nsidad <strong>de</strong>l vector X:<br />
p(x, θ) =g(r(x), θ)h(x) =g(m −1 (m(r(x)), θ)h(x)<br />
El primer factor <strong>de</strong>l último miembro es una función g ∗ (r ∗ (x), θ), don<strong>de</strong><br />
r ∗ (x) =m(r(x)), y esto prueba que T ∗ = r ∗ (X) es suficiente para θ.<br />
3.8 Estadísticos minimales suficientes<br />
De la noción intuitiva <strong>de</strong> suficiencia, se <strong>de</strong>duce que si T es suficiente para<br />
θ y T = H(U) entonces U es suficiente para θ, ya que el conocimiento <strong>de</strong><br />
U permite conocer T que es el que contiene toda la información relevante<br />
sobre θ. Más aún, salvo que H sea biunívoca T da una mayor reducción <strong>de</strong><br />
la muestra original que U. Este hecho motiva la siguiente <strong>de</strong>finición.<br />
Definición 1: Sea X un vector aleatorio <strong>de</strong> dimensión n cuya distribución<br />
es F (x, θ) con θ ∈ Θ. Se dice que un estadístico T = r(X) es minimal<br />
suficiente para θ si dado cualquier otro estadístico U = g(X) suficiente para<br />
θ existe una función H tal que T = H(U).<br />
En muchas situaciones, es fácil construir estadísticos minimal suficientes.<br />
Sea S(θ) = {x : p(x, θ) > 0}, S(θ) se llama el soporte <strong>de</strong> la <strong>de</strong>nsidad<br />
o <strong>de</strong> la probabilidad puntual p(x, θ), según corresponda. Para simplificar,<br />
supondremos que las posibles distribuciones <strong>de</strong>l vector X tienen todas el<br />
mismo soporte, es <strong>de</strong>cir, que el conjunto S(θ) no <strong>de</strong>pen<strong>de</strong> <strong>de</strong> θ.<br />
Teorema 1. Supongamos que X tiene una distribución perteneciente a una<br />
familia finita <strong>de</strong> distribuciones F = {F (x, θi) 1 ≤ i ≤ k} con <strong>de</strong>nsida<strong>de</strong>s<br />
o probabilida<strong>de</strong>s puntuales p(x, θi), 1 ≤ i ≤ k todas con el mismo soporte.<br />
Entonces el estadístico<br />
es minimal suficiente.<br />
T = r(x) =<br />
<br />
p(x, θ2) θk)<br />
,...,p(x,<br />
p(x, θ1) p(x, θ1)
24 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
Demostración. Obviamente, para todo 1 ≤ i < j ≤ k el cociente<br />
p(x, θi)/p(x, θj) es función <strong>de</strong> T. Por lo tanto, por el Corolario <strong>de</strong>l teorema<br />
<strong>de</strong> Factorización, T es suficiente.<br />
Sea ahora U un estadístico suficiente para θ. Entonces, utilizando el Corolario<br />
anterior se cumple que para todo 2 ≤ i ≤ k, el cociente p(x,θi)<br />
es una<br />
p(x,θ1)<br />
función <strong>de</strong> U. Luego, T es función <strong>de</strong> U y T es minimal suficiente.<br />
En muchas situaciones, se pue<strong>de</strong>n obtener estadísticos minimales suficientes<br />
combinando el Teorema 1 con el siguiente Teorema.<br />
Teorema 2. Supongamos que X tiene una distribución perteneciente a una<br />
familia <strong>de</strong> distribuciones F = {F (x, θ) θ ∈ Θ} con <strong>de</strong>nsida<strong>de</strong>s o probabilida<strong>de</strong>s<br />
puntuales p(x, θ), todas con el mismo soporte. Sea<br />
F0 = {F (x, θ) θ ∈ Θ0 ⊂ Θ} ⊂F.<br />
Supongamos a<strong>de</strong>más que T = r(X) es un estadístico minimal suficiente para<br />
θ ∈ Θ0 y suficiente para θ ∈ Θ, entonces T es minimal suficiente para θ ∈ Θ.<br />
Demostración. Sea U un estadístico suficiente para θ, entonces U es<br />
suficiente para θ ∈ Θ0. Por lo tanto, T es función <strong>de</strong> U, con lo cual T es<br />
minimal suficiente.<br />
Ejemplo 1. Sean X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
Bi(θ, 1), 0 < θ < 1. Hemos visto que T = n i=1 Xi es suficiente para<br />
θ ∈ (0, 1). Queremos ver que es minimal suficiente.<br />
Para ello consi<strong>de</strong>remos la familia finita F0 = {Bi(1/4, 1),Bi(3/4, 1)}.<br />
Luego, un estadístico minimal suficiente para esta familia está dado por<br />
U = g(x) =<br />
3 p(x, 4 )<br />
p(x, 1<br />
−n<br />
=32T<br />
4 )<br />
que es una función biunívoca <strong>de</strong> T . Por lo tanto, T es un estadístico minimal<br />
suficiente para F0 y suficiente para θ ∈ (0, 1), con lo cual es minimal<br />
suficiente para θ ∈ (0, 1).<br />
3.9 Estimadores basados en estadísticos suficientes<br />
Supongamos que X es un vector correspondiente a una muestra <strong>de</strong> una<br />
distribución que pertenece a la familia F (x, θ) con θ ∈ Θ. Supongamos que<br />
T = r(X) es un estadístico suficiente para θ. Luego <strong>de</strong> acuerdo al concepto
3.9. ESTIMADORES BASADOS EN ESTADÍSTICOS SUFICIENTES 25<br />
intuitivo que tenemos <strong>de</strong> estadístico suficiente, para estimar una función q(θ)<br />
<strong>de</strong>berán bastar estimadores que <strong>de</strong>pendan sólo <strong>de</strong> T, ya que en T está toda<br />
la información que X contiene sobre el parámetro θ. Esto es justamente lo<br />
que afirma el siguiente teorema.<br />
Teorema 1 (Rao–Blackwell): Sea X un vector <strong>de</strong> una distribución perteneciente<br />
a la familia F (x, θ) con θ ∈ Θ. Sea T un estadístico suficiente para<br />
θ y δ(X) un estimador <strong>de</strong> q(θ). Definamos un nuevo estimador<br />
Luego se tiene<br />
δ ∗ (T) =E(δ(X)|T).<br />
(i) ECM θ (δ ∗ ) ≤ ECM θ (δ), ∀ θ ∈ Θ<br />
(ii) La igualdad en (i) se satisface si y sólo si<br />
P θ (δ ∗ (T) =δ(X)) = 1 ∀ θ ∈ Θ<br />
(iii) Si δ(X) es insesgado, entonces δ ∗ (T) también lo es.<br />
Demostración: Po<strong>de</strong>mos escribir<br />
ECM θ (δ) = E θ ((δ(X) − q(θ)) 2 )<br />
Luego, usando<br />
= Eθ ([(δ ∗ (T) − q(θ)) + (δ(X) − δ ∗ (T ))] 2 )<br />
= Eθ ((δ ∗ (T) − q(θ)) 2 )+Eθ ((δ(X) − δ ∗ (T)) 2 )<br />
+ 2Eθ ((δ ∗ (T) − q(θ))(δ(X) − δ ∗ (T))) (3.17)<br />
Eθ ((δ ∗ (T) − q(θ))(δ(X) − δ ∗ (T))) = Eθ [E((δ ∗ (T) − q(θ))(δ(X) − δ ∗ (T))|T]<br />
= Eθ [(δ ∗ (T) − q(θ))E(δ(X) − δ ∗ (T)|T]<br />
y<br />
E θ (δ(X) − δ ∗ (T)|T) =E(δ(X)|T) − δ ∗ (T) =δ ∗ (T) − δ ∗ (T) =0,<br />
se obtiene<br />
E θ ((δ ∗ (T) − q(θ))(δ(X) − δ ∗ (T))) = 0 .
26 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
Luego (3.17) se transforma en<br />
y resulta<br />
ECM θ (δ) = ECM θ (δ ∗ )+E θ ((δ(X) − δ ∗ (T)) 2 )<br />
ECM θ (δ) ≥ ECM θ (δ ∗ ) .<br />
A<strong>de</strong>más igualdad se cumple sólo si P θ (δ(X) =δ ∗ (T)) = 0 ∀ θ ∈ Θ.<br />
Luego ya se ha <strong>de</strong>mostrado (i) y (ii). Para mostrar (iii) supongamos que<br />
δ es insesgado, luego se tiene<br />
Luego se cumple (iii).<br />
E θ (δ ∗ (T)) = E θ (E(δ(X)|T)) = E θ (δ(X)) = q(θ)<br />
Observación: El estimador δ ∗ (T) =E(δ(X)|T) es realmente un estimador<br />
ya que <strong>de</strong>pen<strong>de</strong> sólo <strong>de</strong> T (y por lo tanto <strong>de</strong> X) yno<strong>de</strong>θ, ya que por ser T<br />
un estadístico suficiente la distribución <strong>de</strong> δ(X) condicional T = t es in<strong>de</strong>pendiente<br />
<strong>de</strong> θ, por lo tanto lo mismo suce<strong>de</strong> con la esperanza condicional.<br />
Ejemplo 1: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
Bi(θ, 1). Luego δ(X1,...,Xn) =X1 es un estimador insesgado <strong>de</strong> θ. Un<br />
estadístico suficiente para θ es T = n i=1 Xi (ver ejemplo 1 <strong>de</strong> 3.7). Por lo<br />
tanto, <strong>de</strong> acuerdo al teorema <strong>de</strong> Rao–Blackwell, δ ∗ (T )=E(δ(X1,...,Xn)|T )<br />
será otro estimador insesgado <strong>de</strong> θ yVarθ(δ ∗ ) ≤ Varθ(δ). Vamos a calcular<br />
entonces δ ∗ (T ).<br />
Por ser X1,X2,...,Xn idénticamente distribuídas y como T es invariante<br />
por permutaciones entre X1,X2,...,Xn, la distribución conjunta <strong>de</strong> (Xi,T)<br />
es la misma para todo i. Por lo tanto, E(Xi|T ) será in<strong>de</strong>pendiente <strong>de</strong> i (ver<br />
Problema 1 <strong>de</strong> 3.9). Luego<br />
E(Xi|T )=E(X1|T )=δ ∗ (T ) 1 ≤ i ≤ n.<br />
Sumando en i se tiene<br />
n<br />
E(Xi|T )=nδ<br />
i=1<br />
∗ (T ) .<br />
Pero a<strong>de</strong>más vale que<br />
n<br />
n<br />
<br />
E(Xi|T )=E Xi|T = E(T |T )=T,<br />
i=1<br />
i=1
3.10. FAMILIAS EXPONENCIALES 27<br />
luego<br />
Es fácil ver que<br />
ya que<br />
δ ∗ (T )= T<br />
n<br />
= 1<br />
n<br />
n<br />
Xi .<br />
i=1<br />
Varθ(δ ∗ (T )) ≤ Varθ(δ(X))<br />
Varθ(δ ∗ (T )) = θ(1 − θ)/n y Varθ(δ(X)) = θ(1 − θ) .<br />
3.10 Familias exponenciales<br />
Definición: Se dice que una familia <strong>de</strong> distribuciones continuas o discretas<br />
en IR q , F (x, θ), don<strong>de</strong> x = (x1,...,xq) yθ ∈ Θ ⊂ IR p es una familia<br />
exponencial a k parámetros si la correspondiente función <strong>de</strong> <strong>de</strong>nsidad discreta<br />
o continua se pue<strong>de</strong> escribir como<br />
p(x, θ) =A(θ)e Σk i=1 ci(θ)ri(x) h(x) (3.18)<br />
don<strong>de</strong> c1(θ),...,ck(θ) son funciones <strong>de</strong> Θ en IR, A(θ) es una función <strong>de</strong> Θ<br />
en IR + (reales no negativos), r1(x),...,rk(x) son funciones <strong>de</strong> IR q en IR y<br />
h(x) es una función <strong>de</strong> IR q en IR + .<br />
Ejemplo 1: Sea la familia Bi(θ, n) con n fijo y θ en (0,1). Luego<br />
p(x, θ) =<br />
n<br />
x<br />
<br />
θx (1 − θ) n−x =(1−θ) n n <br />
θ n<br />
<br />
1−θ x<br />
=(1−θ) nex ln(θ/(1−θ)) n<br />
<br />
x<br />
x =0, 1,...,n<br />
Luego esta familia es exponencial a un parámetro con A(θ) = (1 − θ) n ;<br />
r(x) =x; c(θ) =ln(θ/(1 − θ)) y h(x) =<br />
n<br />
x<br />
Ejemplo 2: Sea la familia N(µ, σ 2 ) con µ ∈ IR y σ 2 real positivo. Luego,<br />
su <strong>de</strong>nsidad viene dada por<br />
p(x, µ, σ 2 ) =<br />
1<br />
√ 2πσ 2<br />
<br />
.<br />
1<br />
e− 2 σ2 (x−µ)2
28 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
=<br />
=<br />
1<br />
1<br />
√ e−<br />
2πσ2 µ2<br />
e− 2σ2 2πσ 2 ) e<br />
2 σ2 x2 +( µ µ2<br />
σ2 )x−<br />
2σ2 1<br />
(−<br />
2 σ2 )x2 + µ<br />
σ2 x<br />
(3.19)<br />
Luego esta es una familia exponencial a dos parámetros con A(µ, σ2 ) =<br />
e−µ2 /2σ2 / √ 2πσ2 ; c1(µ, σ2 ) = (−1/2 σ2 ); c2(µ, σ2 ) = µ/σ2 ; r1(x) = x2 ;<br />
r2(x) =x; h(x) =1.<br />
Ejemplo 3: Sea la familia P (λ). Se pue<strong>de</strong> mostrar que es exponencial a un<br />
parámetro. Ver problema 2.i) <strong>de</strong> 3.10.<br />
Ejemplo 4: Sea la familia ε(λ). Se pue<strong>de</strong> mostrar que es exponencial a un<br />
parámetro. Ver problema 2.ii) <strong>de</strong> 3.10.<br />
Ejemplo 5: Sea la familia <strong>de</strong> distribuciones normales bivariadas<br />
N(µ1,µ2,σ2 1 ,σ2 2 ,ρ).<br />
<strong>de</strong> 3.10.<br />
Es exponencial a 5 parámetros. Ver problema 2.iii)<br />
Teorema 1: Una familia exponencial a k parámetros cuya función <strong>de</strong> <strong>de</strong>nsidad<br />
viene dada por (3.18) tiene como estadístico suficiente para θ el vector<br />
T = r(X) =(r1(X),...,rk(X)).<br />
Demostración. Inmediata a partir <strong>de</strong>l Teorema 1 <strong>de</strong> 3.9.<br />
El siguiente teorema establece la propiedad más importante <strong>de</strong> las familias<br />
exponenciales.<br />
Teorema 2: Sea X1, X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
que pertenece a una familia exponencial a k parámetros, cuya función <strong>de</strong> <strong>de</strong>nsidad<br />
viene dada por (3.18). Luego la distribución conjunta <strong>de</strong> X1,...,Xn<br />
también pertenece a una familia exponencial a k parámetros y el estadístico<br />
suficiente para θ es el vector<br />
T ∗ =(T ∗ 1 ,...,T ∗ k ), don<strong>de</strong> T ∗<br />
n<br />
i = ri(Xj), 1 ≤ i ≤ k<br />
j=1<br />
Demostración: Es inmediata, ya que por (3.18) se tiene<br />
p(x1, x2,...,xn, θ) = n j=1 p(xi, θ)<br />
=(A(θ)) n e c1(θ)Σ n i=1 r1(xj)+···+ck(θ)Σ n i=1 rk(xj) n j=1 h(xj)<br />
= A ∗ (θ)e c1(θ)r ∗ 1 (x1,...,xn)+···+ck(θ)r ∗ k (x1,...,xn) h ∗ (x1,...,xn)
3.10. FAMILIAS EXPONENCIALES 29<br />
don<strong>de</strong> A ∗ (θ) = A(θ) n ; r ∗ i (x1,...,xn) = n j=1 ri(xj), h ∗ (x1,...,xn) =<br />
ni=1 h(xj), y por lo tanto el Teorema 2 queda <strong>de</strong>mostrado.<br />
Este último Teorema nos afirma que para familias exponenciales <strong>de</strong> k<br />
parámetros, cualquiera sea el tamaño <strong>de</strong> la muestra, siempre existe un estadístico<br />
suficiente <strong>de</strong> sólo k componentes. Es <strong>de</strong>cir, que toda la información<br />
se pue<strong>de</strong> resumir en k variables aleatorias. Se pue<strong>de</strong> mostrar que<br />
esta propiedad bajo condiciones generales caracteriza a las familias exponenciales.<br />
Para esta caracterización se pue<strong>de</strong> consultar Sección 2.5 <strong>de</strong> Zacks<br />
[7] y Dynkin [3].<br />
Ejemplo 3: Volvamos al ejemplo 1. Supongamos que tomamos una muestra<br />
aleatoria X1,X2,...,Xn <strong>de</strong> una distribución Bi(θ, n) con n fijo. Luego la<br />
distribución conjunta <strong>de</strong> la muestra pertenecerá a una familia exponencial a<br />
un parámetro con estadístico suficiente T = n i=1 Xi.<br />
Ejemplo 4: Sea X1,...,Xn una muestra <strong>de</strong> una distribución perteneciente<br />
a la familia N(µ, σ2 ). Luego, <strong>de</strong> acuerdo a lo visto en el ejemplo 2 y<br />
al teorema 2, la distribución conjunta <strong>de</strong> X1,X2,...,Xn pertenece a<br />
una familia exponencial a dos parámetros y con estadístico suficiente<br />
ni=1<br />
T = X2 i , <br />
n<br />
i=1 Xi .<br />
El siguiente teorema establece que las familias <strong>de</strong> distribuciones <strong>de</strong> los<br />
estadísticos suficientes <strong>de</strong> una familia exponencial a k parámetros también<br />
forma una familia exponencial a k parámetros.<br />
Teorema 3: Sea X un vector cuya distribución pertenece a una familia<br />
exponencial a k parámetros cuya función <strong>de</strong> <strong>de</strong>nsidad satisface (3.18). Luego<br />
la función <strong>de</strong> <strong>de</strong>nsidad <strong>de</strong> los estadísticos suficientes T =(r1(X),...,rk(X))<br />
es <strong>de</strong> la forma<br />
pT(t1,t2,...,tk, θ) =A(θ)e c1(θ)t1+···+ck(θ)tk h ∗ (t1,...,tk)<br />
Por lo tanto la familia <strong>de</strong> distribuciones <strong>de</strong> T también forma una familia<br />
exponencial a k parámetros.<br />
Demostración: Sólo se hará para el caso discreto. Para el caso general se<br />
pue<strong>de</strong> consultar Lema 8 <strong>de</strong> 2.7 en Lehmann [4]. En el caso particular elegido<br />
se tiene:<br />
k p(x, θ) =A(θ)e j=1 cj(θ)rj(x)<br />
h(x)
30 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
Luego si T = r(x) =(r1(X),...,rk(X)) y si t =(t1,...,tk), se tendrá<br />
pT(t, θ) = <br />
p(x, θ) =<br />
k A(θ)e j=1 cj(θ)rj(x)<br />
h(x)<br />
{x: r(x)=t}<br />
k j=1 cj(θ)tj<br />
= A(θ)e<br />
con h ∗ (t) = <br />
{x:r(x)=t} h(x).<br />
{x: r(x)=t}<br />
<br />
{x: r(x)=t}<br />
k h(x) =A(θ)e j=1 cj(θ)tj ∗<br />
h (t)<br />
El siguiente lema es <strong>de</strong> carácter técnico y nos será útil en lo que sigue.<br />
Lema 1: Sea X = (X1,...,Xq) un vector aleatorio cuya distribución<br />
pertenece a una familia exponencial a un parámetro discreta o continua con<br />
<strong>de</strong>nsidad dada por p(x, θ) =A(θ)ec(θ)r(x) h(x); con θ ∈ Θ, don<strong>de</strong> Θ es un<br />
abierto en IR y c(θ) infinitamente <strong>de</strong>rivable. Luego, si m(x) es un estadístico<br />
tal que <br />
... |m(x)|p(x,θ)dx1 ...dxq < ∞ ∀θ∈Θ o<br />
Σx1 ...Σxq|m(x)|p(x,θ) < ∞<br />
según sea X continua o discreta, entonces las expresiones<br />
<br />
...<br />
m(x)e c(θ)r(x) h(x)dx1 ...dxq o Σx1 ...Σxqm(x)e c(θ)r(x) h(x)<br />
según corresponda, son infinitamente <strong>de</strong>rivables y se pue<strong>de</strong> <strong>de</strong>rivar <strong>de</strong>ntro<br />
<strong>de</strong> los signos integral o sumatoria, respectivamente.<br />
Demostración: No se dará en este curso, pue<strong>de</strong> consultarse en el Teorema<br />
9 <strong>de</strong> 2.7 <strong>de</strong> Lehmann [4].<br />
Teorema 4: Sea X =(X1,...,Xq) un vector aleatorio cuya distribución<br />
pertenece a una familia exponencial a un parámetro con <strong>de</strong>nsidad dada por<br />
p(x,θ)=A(θ)e c(θ)r(x) h(x) con θ ∈ Θ, don<strong>de</strong> Θ es un abierto en IR y c(θ) es<br />
infinitamente <strong>de</strong>rivable. Luego se tiene:<br />
(i) A(θ) es infinitamente <strong>de</strong>rivable.<br />
(ii)<br />
Eθ(r(X)) = − A′ (θ)<br />
A(θ)c ′ (θ)
3.10. FAMILIAS EXPONENCIALES 31<br />
(iii)<br />
Varθ(r(x)) =<br />
∂Eθ(r(x))<br />
∂θ<br />
c ′ (θ)<br />
Demostración: Supongamos que X sea continuo. El caso discreto es<br />
totalmente similar. Como<br />
<br />
... A(θ)e c(θ)r(x) h(x)dx1 ...dxq =1<br />
se tiene<br />
1<br />
A(θ) =<br />
<br />
<br />
...<br />
e c(θ)r(x) h(x)dx1 ...dxq<br />
Como el segundo miembro <strong>de</strong> esta igualdad satisface las condiciones <strong>de</strong>l<br />
Lema 1 con m(x) = 1, resulta infinitamente <strong>de</strong>rivable y luego también A(θ),<br />
con lo cual queda <strong>de</strong>mostrado (i).<br />
Por otro lado se tiene<br />
<br />
A(θ)<br />
<br />
...<br />
e c(θ)r(x) h(x)dx1 ...dxq =1 ∀ θ ∈ Θ<br />
y usando el Lema 1 que nos permite <strong>de</strong>rivar <strong>de</strong>ntro <strong>de</strong>l signo integral resulta<br />
A ′ <br />
(θ)<br />
A(θ)c ′ (θ)<br />
y esta última ecuación se pue<strong>de</strong> escribir<br />
y luego<br />
<br />
... e c(θ)r(x) h(x)dx1 ...dxq +<br />
<br />
... r(x)e c(θ)r(x) dx1 ...dxq =0<br />
A ′ (θ)<br />
A(θ) + c′ (θ)Eθ(r(x)) = 0<br />
Eθ(r(x)) = − A′ (θ)<br />
c ′ (θ)A(θ)<br />
y se ha <strong>de</strong>mostrado (ii).<br />
(iii) se <strong>de</strong>ja para resolver en el Problema 3 <strong>de</strong> 3.10.
32 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
3.11 Estadísticos completos<br />
Sea X un vector aleatorio cuya distribución pertenece a la familia F (x, θ)<br />
con θ ∈ Θ. Hasta ahora hemos visto que tomando estimadores insesgados<br />
<strong>de</strong> una función q(θ) basados en estadísticos suficientes se logra mejorar la<br />
estimación. Lo que no conocemos es si pue<strong>de</strong> haber más <strong>de</strong> un estimador<br />
insesgado, basado en un estadístico suficiente T dado. Veremos que bajo<br />
ciertas condiciones hay uno solo.<br />
Definición 1: Sea X un vector aleatorio cuya distribución pertenece a una<br />
familia F (x, θ) con θ ∈ Θ. Un estadístico T = r(X) se dice completo si<br />
Eθ(g(T)) = 0 para todo θ implica que P θ (g(T) = 0) = 1 para todo θ ∈ Θ<br />
Ejemplo 1: Sea X una variable aleatoria con distribución Bi(θ, k) con k<br />
fijo y 0 ≤ θ ≤ 1. Sea g tal que Eθ(g(X)) = 0, para todo θ. Mostraremos que<br />
g(x) =0,x =0, 1,...,k. Tenemos<br />
Eθ(g(X)) =<br />
k<br />
x=0<br />
<br />
k<br />
g(x)<br />
x<br />
<br />
θ x (1 − θ) k−x =0 ∀ θ ∈ [0, 1] (3.20)<br />
Sea λ = θ/(1 − θ); luego cuando θ ∈ [0, 1], λ toma los valores en IR + (reales<br />
no negativos).<br />
Poniendo (3.20) en función <strong>de</strong> λ resulta<br />
Luego<br />
(1 − θ) k<br />
Q(λ) =<br />
k<br />
x=0<br />
k<br />
x=0<br />
<br />
k<br />
g(x)<br />
x<br />
<br />
k<br />
g(x)<br />
x<br />
<br />
λ x =0 ∀ λ ∈ IR +<br />
<br />
λ x =0 ∀ λ ∈ IR +<br />
Pero Q(λ) es un polinomio <strong>de</strong> grado k con infinitas raíces, luego todos sus<br />
coeficientes <strong>de</strong>ben ser 0. Por lo tanto,<br />
<br />
k<br />
<br />
g(x) =0 x =0, 1,...,k ,<br />
x<br />
y entonces<br />
g(x) =0 x =0, 1,...,k .<br />
Con lo que queda probado que T (X) =X es un estadístico completo.
3.11. ESTADÍSTICOS COMPLETOS 33<br />
Ejemplo 2: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
que pertenece a la familia Bi(θ, k). Sea T = r(X1,...,Xn) =X1 + X2 +<br />
···+ Xn. Luego T es un estadístico suficiente y tiene distribución Bi(θ, nk),<br />
por lo tanto <strong>de</strong> acuerdo a lo visto en el ejemplo 1 es completo.<br />
Ejemplo 3: Consi<strong>de</strong>remos una variable X con distribución U[0,θ], θ ∈ IR + .<br />
Sea T = X. Luego se pue<strong>de</strong> <strong>de</strong>mostrar que T es un estadístico completo. La<br />
<strong>de</strong>mostración <strong>de</strong> este hecho está fuera <strong>de</strong> los alcances <strong>de</strong> este curso. De todos<br />
modos, veremos una proposición más débil relacionada con completitud. Sea<br />
g <strong>de</strong> IR + en IR una función continua. Luego veremos que si Eθ(g(X)) = 0<br />
para todo θ en IR + , entonces g(x) =0<br />
Eθ(g(X)) = 1<br />
θ<br />
g(x)dx =0, ∀ θ ≥ 0,<br />
θ) 0<br />
luego<br />
θ<br />
g(x)dx =0, ∀ θ ∈ IR +<br />
Sea G(θ) = θ<br />
0 g(x)dx, entonces se tiene<br />
G(θ) =0 ∀ θ ∈ IR +<br />
0<br />
Usando el Teorema Fundamental <strong>de</strong>l Cálculo Integral se tiene que<br />
∂G(θ)<br />
∂θ<br />
= g(θ) =0 ∀ θ ∈ IR +<br />
Lo que faltaría ver es que en el caso en que g no es continua, Eθ(g(X)) =<br />
0 ∀ θ ∈ IR + implica g(x) = 0 con probabilidad 1.<br />
El siguiente teorema muestra que bajo condiciones muy generales el estadístico<br />
suficiente correspondiente a una familia exponencial es completo.<br />
Teorema 1: Sea una familia exponencial a k parámetros, discreta o continua<br />
con función <strong>de</strong> <strong>de</strong>nsidad dada por<br />
p(x, θ) =A(θ)e c1(θ)r1(x)+...+ck(θ)rk(x) h(x)<br />
y sea Λ={λ =(λ1,λ2,...,λk) :λi = ci(θ); θ ∈ Θ}.<br />
a) Si Λ contiene k + 1 puntos λ (1) ,...,λ (k+1)<br />
tales que<br />
{λ (j) − λ (1) , 2 ≤ j ≤ k +1} son linealmente in<strong>de</strong>pendientes, entonces<br />
el estadístico suficiente T =(r1(X),...,rk(X)) es minimal suficiente.
34 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
b) Si Λ un conjunto que contiene una esfera en IR k , entonces estadístico<br />
suficiente T =(r1(X),...,rk(X)) es completo.<br />
Demostración: a) Como T es suficiente para<br />
F = {p(x, θ) =A(θ)ec1(θ)r1(x)+...+ck(θ)rk(x) h(x) θ ∈ Θ}, <strong>de</strong> acuerdo al<br />
Teorema 2 <strong>de</strong> la sección 3.8 bastará probar que T es minimal suficiente para<br />
una subfamilia finita <strong>de</strong> F. Sean θ (j) , 1 ≤ j ≤ k + 1, tales que<br />
λ (j) =(λ (j)<br />
1 ,...,λ(j) k )=<br />
<br />
c1(θ (j) ),...,ck(θ (j) <br />
) .<br />
Consi<strong>de</strong>remos la subfamilia<br />
F0 = {p(x, θ (j) ) = A(θ (j) k )e i=1 ci(θ (j) )ri(x)<br />
h(x)<br />
= A(θ (j) k )e<br />
i=1 λ(j)<br />
i ri(x) h(x) 1≤ j ≤ k +1} .<br />
Luego, por el Teorema 1 <strong>de</strong> la sección 3.8 un estadístico minimal suficiente<br />
para F0 está dado por<br />
T ∗ = r ∗ (x) =<br />
=<br />
⎛<br />
⎝ A(θ(2) )eλ(2) 1<br />
A(θ (1) )eλ(1) 1<br />
que es equivalente a<br />
<br />
(2)<br />
p(x, θ )<br />
p(x, θ (1) ) ,...,p(x, θ(k+1) )<br />
p(x, θ (1) <br />
)<br />
r1(x)+...+λ (2)<br />
k rk(x)<br />
r1(x)+...+λ (1)<br />
k rk(x) ,...,A(θ(k+1) )eλ(k+1) 1<br />
A(θ (1) )eλ(1) 1<br />
T ∗∗ = r (∗∗) <br />
k<br />
(x) = [λ<br />
i=1<br />
(2)<br />
k<br />
i − λ(1) i ]ri(x),..., [λ<br />
i=1<br />
(k+1)<br />
i<br />
r1(x)+...+λ (k+1)<br />
rk(x)<br />
k<br />
(1)<br />
r1(x)+...+λ k rk(x)<br />
⎞<br />
⎠<br />
− λ (1)<br />
<br />
i ]ri(x)<br />
Como T ∗∗ = MT don<strong>de</strong> la matriz M ∈ IR k×k es no singular, ya que su<br />
j−ésima columna es el vector λ (j+1) − λ (1) , T es equivalente a T ∗∗ y por lo<br />
tanto, es minimal suficiente para F0, <strong>de</strong> don<strong>de</strong> se obtiene el resultado.<br />
b) Para una <strong>de</strong>mostración general se pue<strong>de</strong> ver Teorema 1 <strong>de</strong> Sección 4.3 <strong>de</strong><br />
Lehmann [4]. En este curso sólo se <strong>de</strong>mostrará para el caso que k =1,y<br />
que T = r(X) toma un número finito <strong>de</strong> valores racionales. De acuerdo al<br />
teorema 3, en este caso la función <strong>de</strong> <strong>de</strong>nsidad <strong>de</strong> T será <strong>de</strong> la forma:<br />
p(t, θ) =A(θ)e c(θ)t h(t)<br />
.
3.11. ESTADÍSTICOS COMPLETOS 35<br />
Supongamos que los posibles valores <strong>de</strong> T que tienen probabilidad positiva<br />
es el conjunto A = {t1,t2,...,tr}∪{−t ′ 1 , −t′ 2 ,...,−t′ s} don<strong>de</strong> los ti y los t ′ j<br />
son racionales no negativos.<br />
Sea v un múltiplo común <strong>de</strong> los <strong>de</strong>nominadores <strong>de</strong> todos los racionales ti<br />
y t ′ j y sean wi = vti 1 ≤ i ≤ r y w ′ i = vt′ i ,1≤ i ≤ s. Luego los wi y los w ′ i<br />
son naturales. Finalmente sea w = max1≤i≤s w ′ i , zi = wi + w, 1 ≤ i ≤ r<br />
y z ′ i = −w′ i + w, 1≤ i ≤ s. Luego los zi y los z ′ i<br />
diferentes.<br />
Supongamos que<br />
E θ (g(T )) = 0 ∀ θ ∈ Θ<br />
son naturales y todos<br />
luego<br />
r<br />
s<br />
g(ti)p(ti, θ)+ g(−t<br />
i=1<br />
i=1<br />
′ i)p(−t ′ i, θ) =0 ∀ θ ∈ Θ<br />
con lo cual<br />
r<br />
g(ti)A(θ)e c(θ)ti<br />
s<br />
h(ti)+ g(−t ′ i)A(θ)e −c(θ)t′ ih(−t ′ i)=0 ∀ θ ∈ Θ ,<br />
i=1<br />
<strong>de</strong> don<strong>de</strong> se obtiene<br />
i=1<br />
r<br />
g(ti)h(ti)(e<br />
i=1<br />
c(θ)/v) ) tiv<br />
s<br />
+ g(−t<br />
i=1<br />
′ i)h(−t ′ i)(e c(θ)/v) ) −t′ iv =0 ∀ θ ∈ Θ .<br />
Llamando λ = ec(θ)/v resulta que como hay infinitos posibles valores<br />
<strong>de</strong> c(θ), el conjunto Λ <strong>de</strong> posibles valores <strong>de</strong> λ, también es infinito. Luego<br />
tenemos<br />
r<br />
g(ti)h(ti)λ wi<br />
s<br />
+ g(−t ′ i)h(−t ′ i)λ −w′ i =0 ∀ λ ∈ Λ<br />
i=1<br />
i=1<br />
Multiplicando por λw la última ecuación resulta<br />
r<br />
P (λ) = g(ti)h(ti)λ zi<br />
s<br />
+ g(t ′ i)h(−t ′ i)λ z′ i =0 ∀ λ ∈ Λ<br />
i=1<br />
i=1<br />
Luego el polinomio P (λ) tiene infinitas raíces y por lo tanto, todos los coe-<br />
ficientes <strong>de</strong>ben ser 0, es <strong>de</strong>cir, g(ti)h(ti) =0, 1 ≤ i ≤ r y g(−t ′ i )h(−t′ i )=<br />
0, 1 ≤ i ≤ s. Como h(ti) > 0, 1 ≤ i ≤ r y h(−t ′ i ) > 0, 1 ≤ i ≤ s,
36 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
resulta que g(ti) =0 1≤ i ≤ r y g(−t ′ i )=0 1≤ i ≤ s. Con lo cual,<br />
Pθ (g(T ) = 0) = 1 para todo θ ∈ Θ.<br />
Ejemplo 4: Sea X1 una variable N(µ, σ2 1 )yX2 in<strong>de</strong>pendiente <strong>de</strong> X1 una<br />
variable N(µ, σ2 2 ), luego si θ = (µ, σ2 1 ,σ2 2 ) la <strong>de</strong>nsidad <strong>de</strong> X = (X1,X2)<br />
pue<strong>de</strong> escribirse como<br />
1<br />
p(x1,x2, θ) =<br />
2 πσ1σ2<br />
e −µ2 ( 1<br />
2 σ2 −<br />
1<br />
1<br />
2σ2 1<br />
) (−<br />
2 σ<br />
2 e 2 )x<br />
1<br />
2 1<br />
1 +(−<br />
2 σ2 )x<br />
2<br />
2 µ<br />
2 +(<br />
σ2 )x1+(<br />
1<br />
µ<br />
σ2 )x2<br />
2<br />
Por lo tanto es una familia exponencial a 4 parámetros, pero no satisface<br />
la condición <strong>de</strong>l Teorema 1 ya que el conjunto<br />
Λ={λ =(λ1,λ2,λ3,λ4) con λ1 = − 1<br />
2 σ 2 1<br />
,λ2 = − 1<br />
2 σ 2 2<br />
λ3 = µ<br />
σ 2 1<br />
λ4 = µ<br />
σ2 } ,<br />
2<br />
está en una superficie <strong>de</strong> dimensión 3, ya que <strong>de</strong>pen<strong>de</strong> <strong>de</strong> 3 parámetros,<br />
σ 2 1 , σ2 2 y µ, y por lo tanto no contiene ninguna esfera <strong>de</strong> IR 4 . Como el<br />
Teorema 1 <strong>de</strong> la sección 3.11 da un condición suficiente pero no necesaria<br />
para completitud, no se <strong>de</strong>duce que T =(X1,X2,X2 1 ,X2 2 ) no sea completo.<br />
Sin embargo, dado que E µ,σ 2 1 ,σ 2 2 (X1 − X2) =µ − µ =0yX1 − X2 no es igual<br />
a 0 resulta que T no es completo.<br />
El Teorema 1 nos permite, sin embargo, <strong>de</strong>ducir que T es minimal suficiente.<br />
Por lo tanto, hemos visto un estadístico minimal suficiente no necesariamente<br />
es completo. El siguiente resultado establece la recíproca.<br />
Teorema 2: Sea T un estadístico suficiente y completo para θ. Si existe<br />
un estadístico minimal suficiente para θ entonces T es minimal suficiente.<br />
Demostración. La haremos sólo en el caso en que el estadístico minimal<br />
suficiente y el estadístico suficiente y completo T tienen dimensión 1. Sea U<br />
el estadístico minimal suficiente para θ, luego por ser T suficiente se cumple<br />
que U = m(T ). Queremos ver que m es biunívoca.<br />
Sea ψ(t) la función arcotangente. Luego ψ : IR → [0, 2π] es una función<br />
estrictamente creciente y acotada. Por lo tanto, E θ (ψ(T )) < ∞ y bastará<br />
mostrar que ψ(T ) es función <strong>de</strong> U.<br />
Definamos η(U) =E (ψ(T )|U). Como U es suficiente η(U) es un estadístico.<br />
Luego, si<br />
g(T )=ψ(T ) − η [m(T )] = ψ(T ) − η(U)
3.12. ESTIMADORES INSESGADOS DE MINIMA VARIANZA... 37<br />
se cumple que E θ [g(T )] = 0 para todo θ ∈ Θ. Por lo tanto,<br />
P θ (ψ(T )=η(U)) = 1 para todo θ ∈ Θ, y entonces T es equivalente a<br />
U.<br />
El siguiente Teorema es útil en muchas situaciones, don<strong>de</strong> probar in<strong>de</strong>pen<strong>de</strong>ncia<br />
entre estadísticos pue<strong>de</strong> resultar laborioso.<br />
Teorema 3: (Teorema <strong>de</strong> Basu) Sea T un estadístico suficiente y completo<br />
para θ. Sea U = g(X) un estadístico cuya distribución no <strong>de</strong>pen<strong>de</strong> <strong>de</strong> θ<br />
entonces U es in<strong>de</strong>pendiente <strong>de</strong> T.<br />
Demostración. Sea A un suceso, como U tiene distribución in<strong>de</strong>pendiente<br />
<strong>de</strong> θ, pA = P (U ∈ A) no <strong>de</strong>pen<strong>de</strong> <strong>de</strong> θ.<br />
Sea ηA(t) =P (U ∈ A|T = t). Como T es suficiente ηA(T) es un estadístico.<br />
Por otra parte, E θ (ηA(T) − pA) = 0 para todo θ ∈ Θ, con lo cual la completitud<br />
<strong>de</strong> T implica que P θ (ηA(T) =pA) = 1 para todo θ ∈ Θyporlo<br />
tanto, U es in<strong>de</strong>pendiente <strong>de</strong> T.<br />
3.12 Estimadores insesgados <strong>de</strong> mínima varianza<br />
uniformemente<br />
El siguiente teorema nos da un método para construir estimadores IMVU<br />
cuando se conoce un estadístico que es a la vez suficiente y completo.<br />
Teorema 1 (Lehmann-Scheffé): Sea X un vector aleatorio <strong>de</strong> cuya distribución<br />
pertenece a la familia F (x, θ) con θ ∈ Θ. Sea T un estadístico<br />
suficiente y completo. Luego dada una función q(θ) <strong>de</strong> Θ en IR, se tiene que<br />
(i) Existe a lo sumo un estimador insesgado <strong>de</strong> q(θ), basado en T.<br />
(ii) Si δ(T) es un estimador insesgado <strong>de</strong> q(θ), entonces δ(T) es IMVU.<br />
(iii) Si δ(X) es un estimador insesgado para q(θ), luego δ ∗ (T) =E(δ(X)|T)<br />
es un estimador IMVU para q(θ).<br />
Demostración:<br />
(i) Sean δ1(T) yδ2(T) dos estimadores insesgados <strong>de</strong> q(θ). Luego<br />
E θ (δ1(T) − δ2(T)) = q(θ) − q(θ) =0 ∀ θ ∈ Θ
38 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
luego como T es completo<br />
P θ (δ1(T) − δ2(T) =0)=1, ∀θ ∈ Θ<br />
(ii) Sea δ(T) un estimador insesgado <strong>de</strong> q(θ), y sea δ1(X) otro estimador<br />
insesgado. Si llamamos δ∗ 1 (T) =E(δ1(X)|T) sabemos por el Teorema<br />
1 <strong>de</strong> la sección 3.9 que δ∗ 1 (T) es insesgado y<br />
Var θ (δ ∗ 1) ≤ Var θ (δ1) ∀ θ ∈ Θ (3.21)<br />
Pero <strong>de</strong> acuerdo a (i) se tiene que δ∗ 1 (T) =δ(T) con probabilidad 1.<br />
Luego<br />
Varθ (δ ∗ 1 )=Varθ(δ)<br />
y luego <strong>de</strong> 3.21 resulta que<br />
y (ii) queda <strong>de</strong>mostrado.<br />
Var θ (δ) ≤ Var θ (δ1)<br />
(iii) Como δ ∗ (T) es por el Teorema 1 <strong>de</strong> la sección 3.9 insesgado, <strong>de</strong> (ii) se<br />
<strong>de</strong>duce que es un estimador IMVU para q(θ).<br />
De acuerdo al punto (ii) <strong>de</strong> este teorema, en el caso <strong>de</strong> tener un estadístico<br />
suficiente y completo T, cualquier estimador insesgado basado en T es un<br />
estimador IMVU. El punto (iii) nos indica cómo construir un estimador<br />
IMVU <strong>de</strong> q(θ) a partir <strong>de</strong> cualquier estimador insesgado.<br />
Teorema 2: Sea X un vector aleatorio cuya distribución pertenece a una<br />
familia exponencial a k parámetros con función <strong>de</strong> <strong>de</strong>nsidad dada por<br />
p(x, θ) =A(θ)e c1(θ)r1(x)+···+ck(θ)rk(x) h(x)<br />
don<strong>de</strong> θ toma valores en el conjunto Θ. Supongamos a<strong>de</strong>más que<br />
Λ={λ =(λ1,λ2,...,λk) :λi = ci(θ); θ ∈ Θ}<br />
contiene una esfera en IR k . Sea T =(r1(X),...,rk(X)), luego si δ(T) es<br />
un estimador insesgado <strong>de</strong> q(θ), entonces δ(T) es un estimador IMVU para<br />
q(θ).<br />
Demostración: Inmediata a partir <strong>de</strong> los Teoremas 3 <strong>de</strong> sección 3.10 y 1<br />
<strong>de</strong> sección 3.12.
3.12. ESTIMADORES INSESGADOS DE MINIMA VARIANZA... 39<br />
Ejemplo 1: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
perteneciente a la familia Bi(θ, k) con k fijo. Luego, la distribución conjunta<br />
<strong>de</strong> la muestra viene dada por<br />
<br />
k<br />
p(x1,x2,...,xn,θ) =<br />
x1<br />
k<br />
x2<br />
<br />
k<br />
...<br />
xn<br />
=(1− θ) nk e (Σn i=1 xi) ln(θ/(1−θ)) k<br />
<br />
θ Σn i=1 xi (1 − θ) nk−Σ n i=1 xi<br />
x1<br />
k<br />
x2<br />
<br />
k<br />
...<br />
xn<br />
Esta familia constituye una familia exponencial, con estadístico suficiente<br />
T = n i=1 Xi. Por otro lado c(θ) =lnθ/(1 − θ) toma todos los posibles<br />
valores <strong>de</strong> IR cuando θ varía en el intervalo (0,1). Luego T es un estadístico<br />
suficiente y completo. Como δ(T )=T/nk es un estimador insesgado <strong>de</strong> θ,<br />
resulta un estimador IMVU <strong>de</strong> θ.<br />
Ejemplo 2: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
perteneciente a la familia N(µ, σ 2 ). Luego usando (3.19) resulta que la<br />
distribución conjunta <strong>de</strong> la muestra viene dada por<br />
p(x1,...,xn,µ,σ 2 )=<br />
1<br />
2πσ2 nµ2<br />
e− 2σ<br />
) n/2 2 1<br />
−<br />
e 2σ2 n i=1 X2 µ<br />
i +<br />
σ2 n i=1 Xi<br />
Luego constituye una familia exponencial a dos parámetros con estadístico<br />
ni=1<br />
suficiente T = X2 i , <br />
n<br />
i=1 Xi . Mostraremos ahora que T es completo.<br />
Bastará mostrar que<br />
Λ={(λ1,λ2) :λ1 = − 1<br />
2 σ2 ,λ2 = µ<br />
σ2 ,λ∈ IR, σ 2 ∈ IR + }<br />
contiene una esfera.<br />
Mostraremos que Λ contiene todo (λ1,λ2) ∈ IR 2 con λ1 < 0.<br />
Sea (λ1,λ2) con λ1 < 0, tenemos que mostrar que viene <strong>de</strong> un par (µ, σ2 )<br />
con σ2 > 0. Para ver esto basta tomar σ2 = −1/2 λ1 y µ = λ2σ2 = −λ2/2λ1.<br />
Luego T es completo.<br />
Como X es un estimador insesgado <strong>de</strong> µ, y como <strong>de</strong>pen<strong>de</strong> <strong>de</strong> T, resulta<br />
que es IMVU <strong>de</strong> µ.<br />
Por otro lado s2 = n i=1 (Xi − X) 2 ni=1<br />
/(n − 1) = X2 i − nX2 )/(n − 1)<br />
es un estimador insesgado <strong>de</strong> σ2 y a<strong>de</strong>más <strong>de</strong>pen<strong>de</strong> <strong>de</strong> T, luego es IMVU<br />
para σ2 .<br />
Ejemplo 3: Sea X1 una variable N(µ, σ2 1 )yX2 in<strong>de</strong>pendiente <strong>de</strong> X1 una variable<br />
N(µ, σ2 2 ). Vimos en el Ejemplo 4 <strong>de</strong> la sección 3.11 que
40 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
T =(X1,X2,X2 1 ,X2 2 ) era minimal suficiente pero no era completo. Se pue<strong>de</strong><br />
mostrar que en este caso no hay ningún estimador IMVU (ver Problema 7<br />
<strong>de</strong> 3.11).<br />
Ejemplo 4: El siguiente ejemplo muestra que no siempre existen estimadores<br />
IMVU. Volvamos al ejemplo 1 y supongamos que se quiera estimar<br />
q(θ). Como T = n i=1 Xi es un estadístico suficiente, un estimador IMVU<br />
<strong>de</strong> q(θ) <strong>de</strong>berá estar basado en T . Supongamos que δ(T ) es un estimador<br />
IMVU para q(θ). Como T tiene distribución Bi(θ, kn) yδ(T ) es insesgado<br />
se tendrá<br />
q(θ) =Eθ(δ(T )) =<br />
kn<br />
i=0<br />
<br />
kn<br />
δ(t)<br />
t<br />
<br />
θ r (1 − θ) kn−t<br />
Luego una condición necesaria para que q(θ) tenga un estimador IMVU<br />
es que sea un polinomio <strong>de</strong> grado menor o igual a kn. Se pue<strong>de</strong> mostrar que<br />
es también una condición suficiente aunque no lo <strong>de</strong>mostraremos.<br />
Por lo tanto no existen estimadores IMVU, por ejemplo, para e θ ,lnθ,<br />
sen θ. Esto no quiere <strong>de</strong>cir que no existen buenos estimadores. Si q(θ)<br />
es continua, un buen estimador será δ(T )=q(T/nk) ya que T/nk es un<br />
estimador IMVU <strong>de</strong> θ.<br />
Ejemplo 5: En este ejemplo veremos que un estimador IMVU pue<strong>de</strong> ser<br />
mejorado en su error cuadrático medio por otro estimador no insesgado.<br />
Volvamos al ejemplo 2 y supongamos que se <strong>de</strong>sea estimar σ2 . Hemos visto<br />
que un estimador IMVU para σ2 es s2 = n i=1 (Xi−X) 2 /(n−1), sin embargo<br />
veremos que s2 no es admisible.<br />
Sea σ 2 c = cU don<strong>de</strong> U = n i=1 (Xi − X) 2 . Luego, s2 = σ 2 1 . Sabemos<br />
n−1<br />
que U/σ2 tiene distribución χ2 n−1 , por lo tanto, Eσ2(U) = (n− 1) σ2 y<br />
Var σ2(U) =2(n− 1) σ4 . Con lo cual,<br />
ECMσ2(σ 2 c ) =<br />
<br />
Eσ2 (σ 2 c − σ 2 ) 2<br />
= Varσ2(σ 2 <br />
c )+ Eσ2(σ 2 c ) − σ 2 =<br />
2<br />
c 2 <br />
Var σ2(U)+ cEσ2(U) − σ 22 = 2c 2 (n − 1) σ 4 <br />
+ c (n − 1) σ 2 − σ 2 2<br />
=<br />
<br />
4<br />
σ c 2 <br />
(n + 1)(n − 1) − 2(n − 1)c +1
3.13. DESIGUALDAD DE RAO–CRAMER 41<br />
Luego, el ECM <strong>de</strong> σ 2 c es un polinomio <strong>de</strong> grado 2 en c que alcanza su mínimo<br />
cuando c =1/(n + 1). Por lo tanto, U/(n + 1) tiene menor ECM que el<br />
estimador IMVU s2 .<br />
Cómo caraterizamos los estimadores IMVU cuando no existe un estadístico<br />
suficiente y completo?<br />
Lema 1: Sea δ0 un estimador insesgado <strong>de</strong> q(θ). Dado cualquier otro<br />
estimador δ insesgado <strong>de</strong> q(θ), se cumple que δ = δ0 − U con Eθ(U) =0<br />
∀θ ∈ Θ.<br />
Luego como ECMθ(δ) =Varθ(δ) =Varθ(δ0 − U) =Eθ{(δ0 − U) 2 }−<br />
q(θ) 2 , para encontrar el estimador IMVU basta minimizar Eθ{(δ0 − U) 2 },o<br />
sea, basta encontrar la proyección <strong>de</strong> δ0 sobre el espacio <strong>de</strong> los estimadores<br />
<strong>de</strong>l 0.<br />
Teorema 3: Supongamos que X es un vector aleatorio <strong>de</strong> cuya distribución<br />
pertenece a la familia F (x, θ) con θ ∈ Θ. Sea ∆={δ(X) : Eθδ 2 (X) < ∞}.<br />
Sea U = {{δ(X) ∈ ∆: Eθδ(X)} =0∀θ ∈ Θ. Una condición necesaria y<br />
suficiente para que δ ∈ ∆, insesgado, sea IMVU para q(θ) es que Eθ(δU) =0,<br />
∀θ ∈ Θ, ∀U ∈U.<br />
3.13 Desigualdad <strong>de</strong> Rao–Cramer<br />
En esta sección mostraremos que bajo hipótesis muy generales, la varianza<br />
<strong>de</strong> un estimador insesgado no pue<strong>de</strong> ser inferior a cierta cota.<br />
Supongamos que X =(X1,...,Xn) es un vector aleatorio <strong>de</strong> cuya distribución<br />
pertenece a la familia <strong>de</strong> distribuciones discreta o continua con<br />
<strong>de</strong>nsidad p(x,θ), con θ ∈ Θ; don<strong>de</strong> Θ es un conjunto abierto <strong>de</strong> IR. Supongamos<br />
a<strong>de</strong>más que se cumplen las siguientes condiciones (en lo que sigue<br />
suponemos que X es continuo, para el caso discreto habrá que reemplazar<br />
todos los signos por ):<br />
(A) El conjunto S = {x : p(x,θ) > 0} es in<strong>de</strong>pendiente <strong>de</strong> θ.<br />
(B) Para todo x, p(x,θ) es <strong>de</strong>rivable respecto <strong>de</strong> θ.<br />
(C) Si h(X) es un estadístico tal que Eθ[|h(X)|] < ∞ para todo θ ∈ Θ<br />
entonces se tiene<br />
<br />
∂ ∞ ∞<br />
...<br />
h(x)<br />
∂θ<br />
∂p(x,θ)<br />
dx<br />
∂θ<br />
−∞<br />
−∞<br />
∞<br />
h(x)p(x,θ)dx =<br />
∞<br />
...<br />
−∞ −∞
42 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
(D)<br />
don<strong>de</strong> dx =(dx1,...,dxn) (o sea se pue<strong>de</strong> <strong>de</strong>rivar <strong>de</strong>ntro <strong>de</strong>l signo<br />
integral)<br />
0
3.13. DESIGUALDAD DE RAO–CRAMER 43<br />
Esta última ecuación es equivalente a<br />
∞ ∞ <br />
∂ ln p(x,θ)<br />
...<br />
IS(x)p(x,θ)dx =0<br />
∞ ∞ ∂θ<br />
la cual implica<br />
<br />
∂ ln p(X,θ)<br />
Eθψ(X,θ)=Eθ<br />
= 0 (3.23)<br />
∂θ<br />
Como I(θ) =Eθψ2 (X,θ), (3.23) implica que Varθψ(X,θ)=I(θ)<br />
(ii) De la igualdad<br />
se obtiene que<br />
∂ 2 ln p(x,θ)<br />
∂θ 2<br />
=<br />
∂ 2 p(x,θ)<br />
∂θ 2<br />
p(x,θ) − ψ2 (x,θ)<br />
∂<br />
Eθ<br />
2 ln p(X,θ)<br />
∂θ2 ∞ ∞ ∂<br />
= ...<br />
−∞ −∞<br />
2p(x,θ) ∂θ2 dx − Eθψ 2 (X,θ) . (3.24)<br />
Utilizando (3.22) con h(x) =IS(x) se obtiene que el primer término <strong>de</strong>l lado<br />
<strong>de</strong>recho <strong>de</strong> (3.24) es igual a cero, <strong>de</strong> don<strong>de</strong> el resultado.<br />
Teorema 1 (Rao–Cramer): Bajo las condiciones A, B, C y D si δ(X) es un<br />
estimador insesgado <strong>de</strong> q(θ) tal que Eθδ 2 (X) < ∞ se tiene<br />
(i)<br />
Var θ(δ(X)) ≥ |q′ (θ)| 2<br />
I(θ)<br />
(ii) (i) vale como igualdad si y sólo si δ(X) es estadístico suficiente <strong>de</strong> una<br />
familia exponencial, es <strong>de</strong>cir si y sólo si<br />
p(x,θ)=A(θ)e c(θ)δ(x) h(x) (3.25)<br />
Demostración: (i) Sea ψ(x,θ)= ∂p(x,θ)<br />
∂θ . Por el Lema 1 tenemos que<br />
Eθψ(X,θ)=0 y Varθψ(X,θ)=I(θ). (3.26)<br />
Por otro lado, como δ(X) es insesgado se tiene<br />
∞<br />
Eθ(δ(X)) =<br />
−∞<br />
∞<br />
... δ(x)p(x,θ)IS(x)dx = q(θ)<br />
−∞
44 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
y luego aplicando la hipótesis C, tomando h(X) =δ(X)IS(X) se obtiene<br />
<strong>de</strong>rivando ambos miembros que<br />
∞ ∞<br />
... δ(x)<br />
−∞ −∞<br />
∂p(x,θ)<br />
IS(x)dx = q<br />
∂θ<br />
′ (θ)<br />
<strong>de</strong> don<strong>de</strong><br />
∞ ∞<br />
Eθ [δ(X)ψ(X,θ)] = ... δ(x)ψ(x,θ)p(x,θ)dx<br />
−∞ −∞<br />
∞ ∞ ∂ ln p(x,θ)<br />
= ... δ(x) IS(x)p(x,θ)dx<br />
−∞ −∞ ∂θ<br />
= q ′ (θ) (3.27)<br />
Teniendo en cuenta (3.26), (3.27) se pue<strong>de</strong> escribir como<br />
Cov (δ(X), ψ(X,θ)) = q ′ (θ) (3.28)<br />
De acuerdo a la <strong>de</strong>sigualdad <strong>de</strong> Cauchy–Schwartz,<br />
Cov(X, Y ) 2 ≤ Var(X), Var(Y ), y vale la igualdad si y sólo si<br />
P (Y = aX + b) = 1 para algunas constantes a y b. Por lo tanto, usando<br />
(3.28) resulta<br />
q ′ (θ) 2 ≤ Varθ(δ(X)) · Varθ (ψ(X,θ)) (3.29)<br />
y la igualdad vale si y sólo si<br />
∂ ln p(X,θ)<br />
= ψ(x,θ)=a(θ)δ(x)+b(θ) con probabilidad 1. (3.30)<br />
∂θ<br />
Usando (3.26) y (3.29) resulta<br />
Varθ(δ(X) ≥ q′ (θ) 2<br />
I(θ)<br />
que es lo que se afirma en (i).<br />
(3.31)<br />
(ii) (3.31) valdrá como igualdad si y sólo si cumple (3.30). Mostraremos que<br />
(3.30) se cumple si y sólo si se cumple (3.25).<br />
Integrando respecto <strong>de</strong> θ en (3.30), se obtiene<br />
<br />
<br />
ln p(x,θ)=δ(x) a(θ)dθ + g(x)+ b(θ)dθ<br />
que se pue<strong>de</strong> escribir como<br />
ln p(x,θ)=δ(x)c(θ)+g(x)+B(θ)
3.13. DESIGUALDAD DE RAO–CRAMER 45<br />
don<strong>de</strong> c(θ) = a(θ)dθ y B(θ) = b(θ)dθ. Luego, <strong>de</strong>spejando p(x,θ) resulta<br />
p(x,θ)=e B(θ) e δ(x)c(θ) e g(x)<br />
y llamando A(θ) =e B(θ) y h(x) =e g(x) ; resulta (3.25).<br />
Supongamos ahora que se cumple (3.25), mostraremos que se cumple<br />
(3.30).<br />
Si se cumple (3.25), tomando logaritmos se tiene<br />
ln p(x,θ)=lnA(θ)+c(θ)δ(x)+lnh(x)<br />
y <strong>de</strong>rivando se obtiene<br />
∂ ln p(x,θ)<br />
=<br />
∂θ<br />
A′ (θ)<br />
A(θ) + c′ (θ)δ(x)<br />
y por lo tanto se cumple (3.30). Esto prueba el punto (ii).<br />
Observación 1: Si δ(X) es un estimador insesgado <strong>de</strong> q(θ) yVarθ(δ(x)) =<br />
[q ′ (θ)] 2 /I(θ) para todo θ ∈ Θ. Entonces <strong>de</strong>l punto (i) <strong>de</strong>l Teorema 1 resulta<br />
que δ(X) es IMVU. Por lo tanto esto da otro criterio para verificar si un<br />
estimador insesgado dado es IMVU.<br />
Observación 2: Si p(x,θ)=A(θ)e c(θ)δ(x) h(x), y si δ(X) es un estimador<br />
insesgado <strong>de</strong> q(θ), entonces δ(X) es un estimador IMVU <strong>de</strong> q(θ). Esto resulta<br />
<strong>de</strong> (i) y (ii).<br />
Observación 3: Si δ(X) es un estimador <strong>de</strong> θ, su varianza <strong>de</strong>be ser mayor<br />
o igual que 1/I(θ). Luego se pue<strong>de</strong> esperar que cuanto mayor sea I(θ) (como<br />
1/I(θ) será menor) existe la posibilidad <strong>de</strong> encontrar estimadores con menor<br />
varianza y por lo tanto más precisos. De ahí el nombre <strong>de</strong> “número <strong>de</strong><br />
información” que se le da a I(θ). Es <strong>de</strong>cir cuanto mayor es I(θ), mejores<br />
estimadores <strong>de</strong> θ se pue<strong>de</strong>n encontrar, y por lo tanto se pue<strong>de</strong> <strong>de</strong>cir que más<br />
información da el vector X sobre θ. El hecho <strong>de</strong> que se pue<strong>de</strong>n encontrar<br />
estimadores con varianza aproximadamente igual a 1/I(θ) será cierto para n<br />
gran<strong>de</strong>. Para esto consultar sección 3.13 y el apéndice (B) <strong>de</strong> este capítulo.<br />
Para una generalización <strong>de</strong>l Teorema <strong>de</strong> Rao–Cramer el caso en que θ es un<br />
vector pue<strong>de</strong> consultarse el Teorema 4.3.1 <strong>de</strong> Zacks [7] y el Teorema 7.3 <strong>de</strong><br />
Lehmann [5].<br />
El siguiente teorema nos indica que una muestra aleatoria <strong>de</strong> tamaño<br />
n X1, X2,...,Xn <strong>de</strong> una familia con <strong>de</strong>nsidad p(X, θ) nos da n veces más<br />
información que una sola observación.
46 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
Teorema 2: Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución con<br />
<strong>de</strong>nsidad p(x,θ) con θ ∈ Θ ⊂ IR. Luego, si se <strong>de</strong>nomina In(θ) al número<br />
<strong>de</strong> información <strong>de</strong> X1, X2,...,Xn y I1(θ) al número <strong>de</strong> información <strong>de</strong> X1,<br />
entonces se tiene In(θ) =nI1(θ).<br />
Demostración: Se tiene que<br />
n<br />
p(x1, x2,...,xn,θ)= p(xi,θ)<br />
y entonces<br />
Por lo tanto,<br />
i=1<br />
n<br />
ln p(x1,...,xn,θ)= ln p(xi,θ) .<br />
i=1<br />
∂ ln p(x1,...,xn,θ)<br />
∂θ<br />
=<br />
n<br />
i=1<br />
∂ ln p(xi,θ)<br />
∂θ<br />
Con lo cual, por ser X1,...,Xn in<strong>de</strong>pendientes, se tiene<br />
n<br />
<br />
∂ ln p(X1,...,Xn,θ)<br />
∂ ln p(Xi,θ)<br />
I(θ) =Varθ<br />
= Varθ<br />
= nI1(θ) .<br />
∂θ<br />
∂θ<br />
i=1<br />
Ejemplo 1: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
perteneciente a la familia Bi(θ, 1). Luego se tiene<br />
luego<br />
y por lo tanto<br />
luego<br />
p(x, θ) =θ x (1 − θ) 1−x<br />
ln p(x, θ) =x ln θ +(1− x) ln(1 − θ)<br />
∂ ln p(x, θ)<br />
∂θ<br />
= x 1 − x x − θ<br />
− =<br />
θ 1 − θ θ(1 − θ)<br />
I1(θ) =<br />
=<br />
∂ ln p(X1,θ) <br />
2<br />
E<br />
∂θ<br />
1 2 Eθ(X − θ)<br />
θ(1 − θ)<br />
2<br />
=<br />
1 2 Varθ(X − θ)<br />
θ(1 − θ)<br />
2<br />
=<br />
1<br />
θ(1 − θ)
3.13. DESIGUALDAD DE RAO–CRAMER 47<br />
y por lo tanto,<br />
n<br />
In(θ) =<br />
θ(1 − θ) .<br />
Consi<strong>de</strong>remos el estimador insesgado <strong>de</strong> θ, X =(1/n) n i=1 Xi. Se tiene<br />
que<br />
Varθ(X) =<br />
θ(1 − θ)<br />
n<br />
= 1<br />
I(θ)<br />
y por lo tanto, <strong>de</strong> acuerdo con la observación 2 es IMVU. Esto es un ejemplo<br />
don<strong>de</strong> el estimador IMVU satisface la <strong>de</strong>sigualdad <strong>de</strong> Rao–Cramer como<br />
igualdad. Esto podríamos haberlo visto directamente mostrando que X es<br />
el estadístico suficiente <strong>de</strong> una familia exponencial.<br />
Veremos ahora un ejemplo don<strong>de</strong> el estimador IMVU satisface la <strong>de</strong>sigualdad<br />
<strong>de</strong> Rao–Cramer estrictamente.<br />
Sea q(θ) =θ(1 − θ) =Varθ(X1). Conocemos por el ejemplo 2 <strong>de</strong> la<br />
sección 3.3, que<br />
δ(X1,X2,...,Xn) =s 2 = 1<br />
n − 1<br />
es un estimador insesgado <strong>de</strong> q(θ). A<strong>de</strong>más se tiene<br />
δ(X1,...,Xn) =<br />
=<br />
=<br />
<br />
n<br />
1<br />
n − 1<br />
n<br />
(Xi − X)<br />
i=1<br />
2<br />
X<br />
i=1<br />
2 i − nX 2<br />
<br />
n<br />
1<br />
n − 1<br />
i=1<br />
n<br />
X(1 − X)<br />
n − 1<br />
<br />
Xi − nX 2<br />
<br />
Luego δ(X1,...,Xn) <strong>de</strong>pen<strong>de</strong> <strong>de</strong>l estadístico suficiente y completo X y<br />
por lo tanto es IMVU.<br />
Sin embargo se tendrá que<br />
Varθ(δ(X1,...,Xn)) > q′ (θ) 2<br />
nI1(θ)<br />
(3.32)<br />
ya que δ(X1,...,Xn) no es el estadístico suficiente <strong>de</strong> una familia exponencial.<br />
Para la verificación directa <strong>de</strong> (3.32) ver Problema 11 <strong>de</strong> 3.13.
48 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
3.14 Consistencia <strong>de</strong> estimadores<br />
La teoría asintótica estudia las propieda<strong>de</strong>s <strong>de</strong> los procedimientos <strong>de</strong> inferencia<br />
estadística cuando el tamaño <strong>de</strong> la muestra n que se utiliza es gran<strong>de</strong>,<br />
más precisamente, en el límite cuando n tien<strong>de</strong> a infinito.<br />
Una propiedad <strong>de</strong>seable para un estimador, es que cuando n es gran<strong>de</strong> la<br />
sucesión δn(X1,...,Xn) se aproxime en algún sentido al valor que queremos<br />
estimar. Para precisar estas i<strong>de</strong>as introduciremos el concepto <strong>de</strong> consistencia.<br />
Sea F = {F (x, θ) con θ ∈ Θ} una familia <strong>de</strong> distribuciones y supongamos<br />
que para cada n se tiene un estimador δn(X1,...,Xn) <strong>de</strong>q(θ) basado en una<br />
muestra aleatoria <strong>de</strong> tamaño n. Daremos la siguiente <strong>de</strong>finición:<br />
Definición 1: δn(X1,...,Xn) es una sucesión fuertemente consistente <strong>de</strong><br />
estimadores <strong>de</strong> q(θ) si<br />
lim<br />
n→∞ δn(X1,...,Xn) =q(θ) c.t.p.<br />
o sea si P θ (δn(X1,...,Xn) → q(θ)) = 1 para todo θ ∈ Θ.<br />
Definición 2: δn(X1,...,Xn) es una sucesión débilmente consistente <strong>de</strong><br />
estimadores <strong>de</strong> q(θ) si<br />
lim<br />
n→∞ δn(X1,...,Xn) =q(θ) en probabilidad.<br />
Es <strong>de</strong>cir, para todo ε>0yθ ∈ Θ<br />
lim<br />
n→∞ P θ (|δn(X1,...,Xn) − q(θ)| >ε)=0.<br />
Observación 1: Puesto que convergencia en c.t.p. implica convergencia<br />
en probabilidad, entonces toda sucesión fuertemente convergente también lo<br />
será débilmente.<br />
Ejemplo 1: Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una función <strong>de</strong> distribución<br />
F (x) totalmente <strong>de</strong>sconocida, tal que EF (X1) existe. Llamemos<br />
q(F )aEF (X1). Si<br />
δn(X1,...,Xn) =Xn = 1<br />
n<br />
n<br />
Xi ,<br />
i=1
3.14. CONSISTENCIA DE ESTIMADORES 49<br />
por la ley fuerte <strong>de</strong> los gran<strong>de</strong>s números este estimador resulta fuertemente<br />
consistente para q(F ).<br />
Si a<strong>de</strong>más EF (X 2 ) < ∞, entonces<br />
δn(X1,...,Xn) =s 2 n = 1<br />
n − 1<br />
n<br />
(Xi − Xn)<br />
i=1<br />
2 = 1<br />
n − 1<br />
es fuertemente consistente para q(F )=VarF X1. En efecto,<br />
s 2 n = n 1<br />
n − 1 n<br />
n<br />
i=1<br />
Por la ley fuerte <strong>de</strong> los gran<strong>de</strong> números<br />
n 1<br />
X<br />
n<br />
2 i → EF (X 2 1 ) c.t.p. y<br />
i=1<br />
X 2 i − n<br />
n − 1 X2<br />
n .<br />
n<br />
i=1<br />
X 2 i − n<br />
n − 1 X2<br />
n<br />
n 1<br />
Xi → EF (X1) c.t.p.<br />
n<br />
i=1<br />
Luego, X 2<br />
n → EF (X1) 2 c.t.p. y como n/(n − 1) converge a 1 se tiene que<br />
lim<br />
n→∞ s2 n =VarF (X1) c.t.p.<br />
Observación 2: Si X1,...,Xn es una muestra aleatoria <strong>de</strong> una distribución<br />
N(µ, σ2 ) se tiene que Xn es fuertemente consistente para µ y s2 n es fuertemente<br />
consistente para σ2 , ya que por lo visto recién<br />
y<br />
lim<br />
n→∞ Xn = E(X1) c.t.p.<br />
lim<br />
n→∞ s2 n =Var(X1) c.t.p.<br />
y sabemos que E(X1) =µ yVar(X1) =σ 2 .<br />
El siguiente teorema nos da una condición suficiente para que una sucesión<br />
<strong>de</strong> estimadores sea débilmente consistente.<br />
Teorema 1: Sea, para todo n, δn = δn(X1,...,Xn) un estimador <strong>de</strong> q(θ)<br />
basado en una muestra aleatoria <strong>de</strong> tamaño n. Si Var θ (δn) → 0 y E θ (δn) →<br />
q(θ), entonces δn(X1,...,Xn) es débilmente consistente.<br />
Demostración: Debemos ver que<br />
lim<br />
n→∞ P θ (|δn(X1,...,Xn) − q(θ)| >ε)=0 ∀ε >0.
50 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
Por la <strong>de</strong>sigualdad <strong>de</strong> Markov se tiene<br />
P θ (|δn(X1,...,Xn) − q(θ)| ≥ε) ≤ E θ (δn(X1,...,Xn) − q(θ)) 2<br />
ε 2<br />
≤ Var θ (δn)+ E θ (δn) − q(θ) 2<br />
ε 2<br />
Como por hipótesis E θ (δn) − q(θ)) → 0y(Var θ (δn)) → 0 se obtiene el<br />
resultado.<br />
El siguiente teorema muestra que si δn(X1,...,Xn) es una sucesión <strong>de</strong><br />
estimadores IMVU para q(θ) entonces cumple la hipótesis <strong>de</strong>l Teorema 1.<br />
Teorema 2: Sea δn(X1,...,Xn) una sucesión <strong>de</strong> estimadores IMVU para<br />
q(θ), don<strong>de</strong> X1,...,Xn es una muestra aleatoria <strong>de</strong> una distribución perteneciente<br />
a la familia F (x, θ), θ ∈ Θ. Luego Var θ (δn(X1,...,Xn)) tien<strong>de</strong> a<br />
cero si n tien<strong>de</strong> a infinito.<br />
Demostración: Sea<br />
δ ∗ n (X1,...,Xn) =<br />
luego E θ (δ ∗ n )=E θ (δ1) =q(θ), es <strong>de</strong>cir δ ∗ n<br />
ni=1 δ1(Xi)<br />
es un estimador insesgado <strong>de</strong><br />
q(θ).<br />
Por otro lado, Varθ (δ∗ n(X1,...,Xn))<br />
δn(X1,...,Xn) IMVU <strong>de</strong> q(θ) se cumple<br />
= Varθ (δ1(X1))/n. Por ser<br />
Var θ (δn(X1,...,Xn)) ≤ Var θ (δ ∗ n (X1,...,Xn)) = Var θ (δ1(X1))/n<br />
y por lo tanto,<br />
lim<br />
n→∞ Var θ (δn(X1,...,Xn)) = 0.<br />
Corolario 1: Si δn(X1,...,Xn) es una sucesión <strong>de</strong> estimadores IMVU para<br />
q(θ) don<strong>de</strong> X1,...,Xn es una muestra aleatoria <strong>de</strong> una distribución perteneciente<br />
a la familia F = {F (x, θ) con θ ∈ Θ} entonces δn(X1,...,Xn) es<br />
una sucesión <strong>de</strong> estimadores débilmente consistentes.<br />
Demostración: Resulta inmediatamente <strong>de</strong> los teoremas 1 y 2.<br />
n
3.15. CONSISTENCIA DE LOS ESTIMADORES DE LOS MOM... 51<br />
3.15 Consistencia <strong>de</strong> los estimadores <strong>de</strong> los momentos<br />
En este párrafo <strong>de</strong>mostraremos la consistencia <strong>de</strong> los estimadores <strong>de</strong> los<br />
momentos.<br />
Teorema 3: Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución perteneciente<br />
a la familia F = {F (x, θ) con θ ∈ Θ ⊂ IR}, h(x) una función<br />
continua con valores en IR y supongamos que Eθ(h(X1)) = g(θ) es, como<br />
función <strong>de</strong> θ, continua y estrictamente monótona. Sea el estimador <strong>de</strong> momentos<br />
θn <strong>de</strong>finido como la solución <strong>de</strong><br />
n 1<br />
h(Xi) =Eθ(h(X1)) = g(θ).<br />
n<br />
i=1<br />
Luego con probabilidad 1 existe n0 tal que para todo n ≥ n0 la ecuación que<br />
<strong>de</strong>fine θn tiene solución y es fuertemente consistente para θ.<br />
Demostración: Sea ε>0. Hay que <strong>de</strong>mostrar que, con probabilidad 1,<br />
existe n0 tal que<br />
| θn − θ|
52 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
De esta <strong>de</strong>sigualdad se infiere que<br />
g(θ − ε) ≤ 1 <br />
h(Xi) ≤ g(θ + ε) para n ≥ n0<br />
n<br />
y como g(θ) es continua y estrictamente creciente, para n ≥ n0 existe un<br />
único valor θn que satisface<br />
1 <br />
h(Xi) =Eθn n<br />
(h(X1)) = g( θn)<br />
A<strong>de</strong>más dicho valor <strong>de</strong>be estar entre θ−ε y θ+ε, es <strong>de</strong>cir que θ−ε ≤ θn ≤ θ+ε<br />
para n ≥ n0 que es lo que queríamos <strong>de</strong>mostrar.<br />
3.16 Consistencia <strong>de</strong> los estimadores <strong>de</strong> máxima<br />
verosimilitud<br />
En esta sección enunciaremos un teorema que establece la consistencia <strong>de</strong><br />
los estimadores <strong>de</strong> máxima verosimilitud para el caso <strong>de</strong> un solo parámetro.<br />
La <strong>de</strong>mostración se dará en el Apéndice A.<br />
max<br />
θ∈Θ<br />
n<br />
n<br />
p(xi, θ) = p(xi,<br />
i=1<br />
i=1<br />
θn) (3.33)<br />
Se pue<strong>de</strong> <strong>de</strong>mostrar que bajo condiciones muy generales θn <strong>de</strong>finido por<br />
(3.33) es fuertemente consistente.<br />
Teorema 1: Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
discreta o continua con <strong>de</strong>nsidad en la familia p(x, θ) con θ ∈ Θ, don<strong>de</strong> Θ es<br />
un intervalo abierto <strong>de</strong> IR. Supongamos que p(x, θ) es <strong>de</strong>rivable respecto <strong>de</strong><br />
θ y que el conjunto S = {x : p(x, θ) = 0} es in<strong>de</strong>pendiente <strong>de</strong> θ para todo<br />
θ ∈ Θ. Sea θn el estimador <strong>de</strong> máxima verosimilitud <strong>de</strong> θ, que satisface<br />
n<br />
i=1<br />
∂ ln p(xi, θn)<br />
∂θ<br />
= 0 (3.34)<br />
Supongamos finalmente que la ecuación (3.34) tiene a lo sumo una solución<br />
y que θ = θ ′ implica que p(x, θ) = p(x, θ ′ ). Entonces limn→∞ θn = θ c.t.p.,<br />
es <strong>de</strong>cir, θn es una sucesión <strong>de</strong> estimadores fuertemente consistente.
3.17. ESTIMADORES EFICIENTES 53<br />
Con el objetivo <strong>de</strong> simplificar la <strong>de</strong>mostración, la condiciones utilizadas<br />
en el Teorema 1 son más fuertes que las estrictamente necesarias para que<br />
el teorema sea válido. El teorema también vale en el caso <strong>de</strong> que haya más<br />
<strong>de</strong> un parámetro. Para una <strong>de</strong>mostración más general se pue<strong>de</strong> consultar el<br />
Teorema 5.3.1 <strong>de</strong> Zacks [7] y en Wald [6].<br />
3.17 Estimadores asintóticamente normales y eficientes<br />
Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución con <strong>de</strong>nsidad<br />
perteneciente a la familia p(x, θ) con θ ∈ Θ, don<strong>de</strong> Θ es un intervalo<br />
abierto <strong>de</strong> IR, y sea δn(X1,...,Xn) un estimador insesgado <strong>de</strong> q(θ). Luego<br />
suponiendo las condiciones A, B, C y D <strong>de</strong>l Teorema 1 <strong>de</strong> la sección 3.13 se<br />
tiene<br />
Eθ[δn(X1,...,Xn)] = q(θ) (3.35)<br />
Varθ(δn(X1,...,Xn)) ≥ [q′ (θ)] 2<br />
. (3.36)<br />
nI1(θ)<br />
(3.35) y (3.36) son equivalentes a:<br />
Eθ[ √ n(δn(X1,...,Xn) − q(θ))] = 0 (3.37)<br />
Varθ[ √ n(δn(X1,...,Xn) − q(θ))] ≥ [q′ (θ)] 2<br />
. (3.38)<br />
I1(θ)<br />
El mismo Teorema 1 <strong>de</strong> 3.13, establece que sólo excepcionalmente habrá<br />
estimadores que satisfagan simultaneamente (3.37), y la igualdad en (3.38)<br />
para n finito. En efecto, esto suce<strong>de</strong> unicamente si se cumplen<br />
q(θ) =Eθ(δn(X1,...,Xn)) y p(x,θ)=A(θ)e c(θ)δn(x1,...,xn) h(x1,...,xn)<br />
Sin embargo, bajo condiciones muy generales, existen estimadores (por ejemplo,<br />
los <strong>de</strong> máxima verosimilitud), que para n gran<strong>de</strong> satisfacen aproximadamente<br />
(3.37) y la igualdad en (3.38). Para precisar estas propieda<strong>de</strong>s daremos<br />
la siguiente <strong>de</strong>finición:<br />
Definición 1: Se dice que δn(X1,...,Xn) es una sucesión <strong>de</strong> estimadores<br />
asintóticamente normal y eficiente (A.N.E.) si √ n(δn(X1,...,Xn) −<br />
q(θ)) converge en distribución a una normal con media cero y varianza<br />
[q ′ (θ)] 2 /I1(θ).
54 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
Es <strong>de</strong>cir que si δn(X1,...,Xn) es A.N.E., para n gran<strong>de</strong> se comporta<br />
aproximadamente como si tuviese distribución N(q(θ), [q ′ (θ)] 2 /nI1(θ)), es<br />
<strong>de</strong>cir como si fuera insesgado con varianza [q ′ (θ)] 2 /nI1(θ), que es la menor<br />
varianza posible <strong>de</strong> acuerdo con el Teorema <strong>de</strong> Rao–Cramer.<br />
El siguiente Teorema, <strong>de</strong>mostrado en el Apéndice B, establece que bajo<br />
condiciones muy generales los estimadores <strong>de</strong> máxima verosimilitud son<br />
A.N.E.<br />
Teorema 1: Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
discreta o continua con <strong>de</strong>nsidad perteneciente a la familia p(x, θ) con θ ∈ Θ<br />
y Θ un abierto en IR. Supongamos que p(x,θ) tiene <strong>de</strong>rivada tercera respecto<br />
<strong>de</strong> θ continua y que satisface las condiciones A, C y D <strong>de</strong>l Teorema 1 <strong>de</strong> 3.13.<br />
Sea ψ(x, θ) = y supongamos a<strong>de</strong>más que<br />
∂ ln p(x,θ)<br />
∂θ<br />
<br />
<br />
∂3 ln p(x, θ)<br />
∂θ3 <br />
<br />
= ∂2ψ(x, θ)<br />
∂θ2 <br />
<br />
≤ K<br />
para todo x ∈ S y para todo θ ∈ Θ (S es el mismo que en la condición A).<br />
Sea θn un estimador <strong>de</strong> máxima verosimilitud <strong>de</strong> θ consistente y sea q(θ)<br />
<strong>de</strong>rivable con q ′ (θ) = 0para todo θ. Entonces q( θn) es A.N.E. para estimar<br />
q(θ).<br />
Las hipótesis que se han supuesto en este teorema son más fuertes que<br />
las estrictamente necesarias con el objetivo <strong>de</strong> simplificar la <strong>de</strong>mostración.<br />
También se pue<strong>de</strong> <strong>de</strong>mostrar un teorema similar para el caso <strong>de</strong> más <strong>de</strong> un<br />
parámetro. Una <strong>de</strong>mostración más general se pue<strong>de</strong> ver en la sección 5.5 <strong>de</strong><br />
Zacks [7].<br />
3.18 Apéndice A: Demostración <strong>de</strong> la consistencia<br />
<strong>de</strong> los estimadores <strong>de</strong> máxima verosimilitud<br />
Comenzaremos probando algunas propieda<strong>de</strong>s <strong>de</strong> funciones convexas.<br />
Definición 1: Sea f(x) una función <strong>de</strong>finida sobre un intervalo <strong>de</strong> IR y que<br />
toma valores en IR. Diremos que f(x) esconvexa si:<br />
f(λx +(1− λ)y) ≤ λf(x)+(1− λ)f(y) con 0 ≤ λ ≤ 1
3.18. APÉNDICE A 55<br />
y diremos que f(x) esestrictamente convexa si:<br />
f(λx +(1− λ)y)
56 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
Teorema 3: Sea f : IR → IR tal que f”(x) > 0 para todo x; luego f(x) es<br />
convexa.<br />
Demostración: Pue<strong>de</strong> verse en cualquier libro <strong>de</strong> cálculo.<br />
Teorema 4: Sean p y q dos <strong>de</strong>nsida<strong>de</strong>s o dos funciones <strong>de</strong> <strong>de</strong>nsidad discretas<br />
o continuas distintas. Luego se tiene:<br />
<br />
Ep ln q(X) <br />
< 0<br />
p(X)<br />
(don<strong>de</strong> Ep significa que se calcula la esperanza consi<strong>de</strong>rando que X tiene<br />
una distribución discreta o continua cuya <strong>de</strong>nsidad o probabilidad puntual<br />
es p).<br />
Demostración: Primero veremos que q(X)/p(X) no es constante con probabilidad<br />
1. La <strong>de</strong>mostración se hará suponiendo que X es continua. El caso<br />
discreto es totalmente análogo. Supongamos que q(X)/p(X) = k c.t.p.,<br />
don<strong>de</strong> k es una constante. Luego Ep(q(X)/p(X)) = k. Esto es:<br />
pero<br />
+∞<br />
−∞<br />
+∞<br />
−∞<br />
(q(x)/p(x))p(x)dx = k (3.39)<br />
(q(x)/p(x))p(x)dx = 1 (3.40)<br />
pues q(x) es una <strong>de</strong>nsidad. Luego, <strong>de</strong> (3.39) y (3.40) resulta k = 1. Entonces<br />
p(X) =q(X) c.t.p. y esto contradice la hipótesis. Por lo tanto q(X)/p(X)<br />
no es constante.<br />
Por otro lado − ln(x) es una función estrictamente convexa ya que:<br />
d 2 (− ln x)<br />
dx 2<br />
= 1<br />
> 0 .<br />
x2 Luego, estamos en condiciones <strong>de</strong> aplicar la <strong>de</strong>sigualdad <strong>de</strong> Jensen (Teorema<br />
2), con Y = q(X)/p(X) yh(x) =− ln x. En estas condiciones obtenemos<br />
<br />
Ep<br />
− ln q(X)<br />
<br />
p(X)<br />
<br />
> − ln<br />
Ep<br />
<br />
q(X)<br />
p(X)<br />
+∞ q(x)<br />
= − ln p(x)dx = − ln 1 = 0.<br />
−∞ p(x)<br />
Luego Ep[− ln(q(X)/p(X))] > 0yEp[ln(q(X)/p(X))] < 0 con lo que obtenemos<br />
la tesis.
3.18. APÉNDICE A 57<br />
Demostración <strong>de</strong>l Teorema 1 <strong>de</strong> Sección 3.16<br />
Sea Ln(X1,...,Xn,θ) = (1/n) n i=1 ln p(Xi,θ). Luego θn satisface<br />
Ln(X1,...,Xn, θn) = maxθ∈Θ Ln(X1,...,Xn,θ)y<br />
A<strong>de</strong>más se tiene<br />
∂Ln(X1,...,Xn, θn)<br />
∂θ<br />
=0.<br />
Ln(X1,...,Xn,θ+ δ) − Ln(X1,...,Xn,θ)= 1<br />
n p(Xi,θ+ δ) <br />
ln<br />
n p(Xi,θ)<br />
i=1<br />
(3.41)<br />
Ln(X1,...,Xn,θ− δ) − Ln(X1,...,Xn,θ)= 1<br />
n p(Xi,θ− δ) <br />
ln<br />
(3.42)<br />
n p(Xi,θ)<br />
i=1<br />
Como θ = θ ′ implica p(X1,θ) = p(X1,θ ′ ), aplicando el Teorema 4 resulta<br />
que<br />
<br />
p(X1,θ+ δ)<br />
Eθ ln<br />
< 0 (3.43)<br />
p(X1,θ)<br />
Eθ<br />
<br />
p(X1,θ− δ)<br />
ln<br />
< 0 (3.44)<br />
p(X1,θ)<br />
Entonces, <strong>de</strong> (3.41), (3.42), (3.43) y (3.44) y <strong>de</strong> la ley fuerte <strong>de</strong> los gran<strong>de</strong>s<br />
números resulta que con probabilidad igual a 1 existe un n0 tal que n>n0<br />
implica:<br />
Ln(X1,...,Xn,θ− δ)
58 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
3.19 Apéndice B: Demostración <strong>de</strong> la normalidad<br />
y eficiencia asintótica <strong>de</strong> los estimadores <strong>de</strong><br />
máxima verosimilitud<br />
Demostraremos previamente un lema.<br />
Lema 1: Sea X1,...,Xn una sucesión <strong>de</strong> variables aleatorias tales que<br />
√ n(Xn − µ) converge en distribución a N(0,σ 2 ). Sea g(x) una función<br />
<strong>de</strong>finida en IR tal que g ′ (µ) = 0 y g ′ (x) es continua en x = µ. Luego<br />
se tiene que √ n(g(Xn) − g(µ)) converge en distribución a una distribución<br />
N(0,σ 2 (g ′ (µ)) 2 ).<br />
Demostración: Primero <strong>de</strong>mostraremos que Xn → µ en probabilidad.<br />
Sean ε>0yδ>0 arbitrarios y X una variable aleatoria con distribución<br />
N(0,σ 2 ). Luego existe K suficientemente gran<strong>de</strong> tal que P (|X| >K) ε)=P ( √ n|Xn − µ ≥ √ nε). Sea n0 tal que<br />
√ n0 ε ≥ K. Luego si n ≥ n0:<br />
P (|Xn − µ| ≥ε) ≤ P ( √ n|Xn − µ| ≥K) .<br />
Como √ n(Xn − µ) converge en distribución a una variable con distribución<br />
N(0,σ 2 ), se tiene<br />
lim<br />
n→∞ P (|Xn − µ| ≥ε) ≤ lim<br />
n→∞ P (√ n|Xn − µ| ≥K) =P (|X| ≥K)
3.19. APÉNDICE B 59<br />
Demostración <strong>de</strong>l Teorema 1 <strong>de</strong> la sección 3.17. Indiquemos por<br />
ψ ′ (x, θ) =<br />
∂ψ(x, θ)<br />
∂θ<br />
y ψ ′′ (x, θ) = ∂2 ψ(x, θ)<br />
∂θ 2<br />
El estimador <strong>de</strong> máxima verosimilitud satisface:<br />
n<br />
ψ(Xi, θn) =0.<br />
i=1<br />
ψ<br />
i=1<br />
′ (Xi,θ)<br />
i=1<br />
Desarrollando en serie <strong>de</strong> Taylor alre<strong>de</strong>dor <strong>de</strong> θ se obtiene:<br />
n<br />
<br />
n<br />
ψ(Xi,θ)+<br />
<br />
( θn − θ)+ 1<br />
<br />
n<br />
2<br />
<br />
( θn − θ) 2 =0,<br />
ψ<br />
i=1<br />
′′ (Xi,ξn)<br />
don<strong>de</strong> ξn es un punto intermedio entre θn y θ. Despejando ( θn − θ) y multiplicando<br />
ambos miembros por √ n se obtiene:<br />
√<br />
n( θn<br />
−<br />
− θ) =<br />
n i=1 ψ(Xi,θ)/ √ n<br />
(1/n) n i=1 ψ ′ ni=1<br />
(Xi,θ)+(1/2n) ψ ′′ <br />
(Xi,ξn) ( θn − θ)<br />
Sea D(X1,...,Xn,θ) el <strong>de</strong>nominador <strong>de</strong> esta última expresión. Vamos a<br />
<strong>de</strong>mostrar que:<br />
(a)<br />
D(X1,...,Xn,θ) →−I1(θ) =−Eθ [ψ(X, θ)] 2<br />
.<br />
en probabilidad.<br />
(b) n i=1 ψ(Xi,θ)/ √ n converge en distribución a una distribución N(0,I1(θ))<br />
Probemos (a). Como |ψ ′′ (Xi,θ)| ≤K para todo θ, se tiene que<br />
<br />
n 1<br />
ψ<br />
2n<br />
′′ (Xi,ξn)( <br />
<br />
K<br />
θn − θ) ≤<br />
2 |( θn − θ)|<br />
i=1<br />
y luego como θn es consistente se <strong>de</strong>duce que:<br />
n 1<br />
ψ<br />
n<br />
′′ (Xi,ξn)( θn − θ) → 0 en probabilidad. (3.46)<br />
i=1<br />
Por otro lado, como ψ ′ (Xi,θ) son n variables aleatorias, in<strong>de</strong>pendientes igualmente<br />
distribuidas, por la ley <strong>de</strong> los gran<strong>de</strong>s números implica que<br />
1<br />
n<br />
n<br />
ψ<br />
i=1<br />
′ (Xi,θ) → E(ψ ′ (X1,θ) en probabilidad. (3.47)
60 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />
Pero <strong>de</strong> acuerdo con el Lema 1 <strong>de</strong> la sección 3.13<br />
Eθ(ψ ′ (X1,θ)) = −I1(θ) .<br />
Luego, usando (3.46) y (3.47) se obtiene:<br />
D(X1,...,Xn,θ) →−I1(θ) en probabilidad,<br />
con lo que queda probado (a). Para probar (b) observemos que, como las<br />
variables aleatorias<br />
∂ ln p(Xi,θ)<br />
ψ(Xi,θ)=<br />
∂θ<br />
son in<strong>de</strong>pendientes e igualmente distribuidas con esperanza 0 y varianza<br />
I1(θ) (ver Lema 1 <strong>de</strong> la sección 3.13), por el Teorema Central <strong>de</strong>l límite<br />
1<br />
√ n<br />
n<br />
ψ(Xi,θ)<br />
i=1<br />
converge en distribución a N(0,I1(θ)).<br />
Luego √ n( θn − θ) converge en distribución a una ley N(0,I1(θ)/(I1(θ) 2 )<br />
o sea N(0, 1/I1(θ)).<br />
Consi<strong>de</strong>remos ahora el estimador <strong>de</strong> máxima verosimilitud q(θ) dado por<br />
q( θn).<br />
Por el Lema 1 se tendrá que √ n(q( θn) − q(θ)) converge en distribución<br />
a una N(0, (q ′ (θ)) 2 /I1(θ)).
3.19. APÉNDICE B 61<br />
REFERENCIAS DEL CAPITULO 3<br />
[1 ] Bahadur, R.R. (1954). Sufficiency and Statistical Decision Functions.<br />
Annals of Mathematical Statistics 25, 423–462.<br />
[2 ] Draper, N. and Smith, H. (1966). Applied Regression Analysis. J.<br />
Wiley & Sons.<br />
[3 ] Dynkin, E.B. (1961). Necessary and Sufficient Statistics for Families<br />
of Distributions. Selected Translations of Mathematical Statistics and<br />
Probability 1, 23–41.<br />
[4 ] Lehmann, E.L. (1994). Testing Statistical Hypothesis. Chapman &<br />
Hall.<br />
[5 ] Lehmann, E.L. (1983). Theory of Point Estimation. J. Wiley & Sons.<br />
[6 ] Wald, A.N. (1949). Note on the Consistency of the Maximum Likelihood<br />
Estimates. Annals of Mathematical Statistics 20, 595–601.<br />
[7 ] Zacks, S. (1971). The Theory of Statistical Inference. J. Wiley &<br />
Sons.
Chapter 4<br />
Estimadores Bayesianos y<br />
Minimax<br />
4.1 Enfoque Bayesiano <strong>de</strong>l problema <strong>de</strong> la estimación<br />
puntual<br />
Consi<strong>de</strong>remos nuevamente un problema estadístico <strong>de</strong> estimación paramétrico.<br />
Se observa un vector X =(X1, ..., Xn), que pue<strong>de</strong> ser, por ejemplo, aunque<br />
no necesariamente, una muestra aleatoria <strong>de</strong> cierta distribución) con <strong>de</strong>nsidad<br />
discreta o continua en la familia f(x, θ), con θ =(θ1, ..., θp) ∈ Θ ⊂ IR p .<br />
El enfoque llamadado frecuentista que hemos estudiado no supone ningún<br />
conocimiento previo <strong>de</strong> θ. El enfoque bayesiano, por lo contrario, supone que<br />
se tiene alguna información previa sobre θ. Esta información está expresada<br />
por medio <strong>de</strong> una distribución sobre θ, <strong>de</strong>nominada distribución a priori.<br />
Aquí supondremos que esta distribución a priori, indicada por τ, tiene una<br />
<strong>de</strong>nsidad γ(θ). La distribución a priori pue<strong>de</strong> tener distintas interpretaciones<br />
según el problema. Se pue<strong>de</strong>n dar las siguientes alternativas<br />
• La distribución a priori está basada en experiencias previas similares.<br />
• La distribución a priori expresa una creencia subjetiva.<br />
El hecho <strong>de</strong> que el enfoque bayesiano consi<strong>de</strong>re una distribución <strong>de</strong> probabilida<strong>de</strong>s<br />
sobre θ, supone tratar a θ como una variable aleatoria, y por lo<br />
tanto a esta variable la <strong>de</strong>nominaremos Θ para distinguirla <strong>de</strong>l valor que<br />
toma θ. Esta notación pue<strong>de</strong> llevar a confusión dado que también llamamos<br />
1
2 CHAPTER 4. ESTIMADORES BAYESIANOS Y MINIMAX<br />
Θ al conjunto <strong>de</strong> valores <strong>de</strong> θ. Sin embargo, por el contexto quedará claro<br />
el significado <strong>de</strong> este símbolo en cada caso.<br />
Dado que consi<strong>de</strong>ramos ahora el valor <strong>de</strong>l parámetro como el valor <strong>de</strong><br />
una variable aleatoria, la interpretación <strong>de</strong> la familia <strong>de</strong> <strong>de</strong>nsida<strong>de</strong>s f(x, θ)<br />
en el enfoque bayesiano también cambia. En el enfoque bayesiano f(x, θ)<br />
se interpreta como la distribución condicional <strong>de</strong> la muestra X dado que la<br />
variable Θ toma el valor θ.<br />
Una vez observada la muestra X se pue<strong>de</strong> calcular la distribución condicional<br />
<strong>de</strong> Θ dada X. Esta distribución se <strong>de</strong>nomina distribución a posteriori<br />
y está dada por<br />
f(θ|x) =<br />
f(x, θ)γ(θ)<br />
... f(x, t)γ(t)dt . (4.1)<br />
En efecto el numerador <strong>de</strong> (4.1) correspon<strong>de</strong> a la <strong>de</strong>nsidad conjunta <strong>de</strong><br />
X y Θ, y el <strong>de</strong>nominador a la <strong>de</strong>nsidad marginal <strong>de</strong> X.<br />
Si la distribución <strong>de</strong> θ fuese discreta, habría que reemplazar las integrales<br />
<strong>de</strong>l <strong>de</strong>nominador por las correspondientes sumatorias. En lo sucesivo, supondremos<br />
que las distribuciones <strong>de</strong> X y<strong>de</strong>θ son continuas, pero el tratamiento<br />
en el caso discreto es similar.<br />
Una <strong>de</strong> las ventajas <strong>de</strong>l enfoque bayesiano es que se pue<strong>de</strong>n <strong>de</strong>finir en<br />
forma natural estimadores óptimos, sin necesidad <strong>de</strong> restricciones poco naturales<br />
como la <strong>de</strong> estimadores insesgados a la que <strong>de</strong>bimos recurrir en<br />
el enfoque frecuentista. Para ver esto supongamos que queremos estimar<br />
λ = q(θ) y consi<strong>de</strong>remos una función <strong>de</strong> pérdida ℓ(θ,d) que indica el costo<br />
<strong>de</strong> estimar λ = q(θ) utilizando <strong>de</strong>l valor d. Supongamos que se tiene un estimador<br />
ˆ λ = δ(x). Luego la pérdida será una variable aleatoria ℓ(Θ,δ(X)),<br />
ylapérdida esperada que llamaremos riesgo <strong>de</strong> Bayes está dada por<br />
r(δ, τ)=E(ℓ(Θ,δ(X))), (4.2)<br />
don<strong>de</strong> aquí la esperanza se toma con respecto a la distribución conjunta <strong>de</strong><br />
X y Θ. Por lo tanto, dada la distribución priori τ, un estimador óptimo será<br />
aquel que minimice r(δ, τ). Este estimador se <strong>de</strong>nomina estimador <strong>de</strong> Bayes<br />
correspondiente a la distribución a priori τ y será representado por δτ .<br />
Luego, la función <strong>de</strong> riesgo <strong>de</strong> la teoría frecuentista, R(δ, θ) , estará dada<br />
por<br />
R(δ, θ) = Eθ (ℓ(θ,δ(X)))<br />
<br />
= E(ℓ(Θ,δ(X))|Θ =θ) = ℓ(θ,δ(x))f(x, θ)dx. (4.3)
4.1. ESTIMADORES BAYESIANOS 3<br />
Con lo cual,<br />
<br />
r(δ, τ)=Eτ (E(ℓ(Θ,δ(X))|Θ)) =<br />
<br />
...<br />
R(δ, θ)γ(θ)dθ. (4.4)<br />
Consi<strong>de</strong>remos como caso particular la función <strong>de</strong> pérdida cuadrática, es<br />
<strong>de</strong>cir,<br />
ℓ(θ,d)=(q(θ) − d) 2 .<br />
En este caso, el estimador <strong>de</strong> Bayes será la función δτ (X) que minimiza el<br />
error cuadrático medio<br />
E((δ(X) − q(Θ)) 2 )<br />
y por lo tanto, <strong>de</strong> acuerdo a la teoría <strong>de</strong> esperanza condicional, éste será<br />
único y estará dado por<br />
<br />
δτ (x) =E(q(Θ)|X = x) = ... q(θ)f(θ|x)dθ,<br />
es <strong>de</strong>cir, será la esperanza condicional <strong>de</strong> q(Θ) con respecto a la distribución<br />
a posteriori <strong>de</strong> Θ.<br />
Ejemplo 1. Sea X =(X1, ..., Xn) una muestra in<strong>de</strong>pendiente <strong>de</strong> una<br />
distribución Bi(θ, 1), y supongamos que la distribución a priori τ <strong>de</strong> θ sea<br />
una distribución β(a, b), es <strong>de</strong>cir, con una <strong>de</strong>nsidad<br />
γ(θ) =<br />
Γ(a + b)<br />
Γ(a)Γ(b) θa−1 (1 − θ) b−1 I [0,1](θ). (4.5)<br />
Es conocido que esta distribución tiene la siguiente esperanza y varianza<br />
E(θ) = a<br />
, (4.6)<br />
a + b<br />
var(θ) =<br />
ab<br />
(a + b) 2 (a + b +1)<br />
E(θ)(1− E(θ))<br />
= . (4.7)<br />
a + b +1<br />
Luego si se conoce la media y la varianza <strong>de</strong> la distribución a priori <strong>de</strong><br />
Θ, se pue<strong>de</strong>n <strong>de</strong>terminar a y b. La fórmula (4.7) muestra que para un dado<br />
valor <strong>de</strong> la esperanza, la varianza <strong>de</strong>pen<strong>de</strong> <strong>de</strong> a + b, tendiendo a 0 cuando<br />
a + b → +∞.<br />
La distribución <strong>de</strong> la muestra X1,X2, ...Xn dado el valor <strong>de</strong> θ tiene una<br />
función <strong>de</strong> probabilidad puntual dada por<br />
n f(x1, ..xn,θ)=θ<br />
i=1 xi (1 − θ) n− n<br />
i=1 xi . (4.8)
4 CHAPTER 4. ESTIMADORES BAYESIANOS Y MINIMAX<br />
Luego usando (4.1) se tiene que la distribución a posteriori <strong>de</strong> θ tiene una<br />
<strong>de</strong>nsidad dada por<br />
f(θ|x1, ..., xn) = θ<br />
n i=1 xi+a−1 n−<br />
(1 − θ) n i=1 xi+b−1<br />
1<br />
0 t<br />
n i=1 xi+a−1 n−<br />
(1 − t) n i=1 xi+b−1<br />
. (4.9)<br />
dt<br />
Ahora bien, el <strong>de</strong>nominador <strong>de</strong> esta expresión es igual a<br />
Γ(n + a + b)<br />
Γ(a + n i=1 xi)Γ(n − n i=1 xi + b)<br />
por lo tanto, la distribución a posteriori <strong>de</strong> θ dado X = x es<br />
β(a + n i=1 xi,n− n i=1 +b).<br />
Supongamos que la función <strong>de</strong> pérdida es cuadrática. Luego el estimador<br />
<strong>de</strong> Bayes, que indicaremos por δa,b, está dado por E(Θ|X), y <strong>de</strong> acuerdo a<br />
(4.6) tendremos que<br />
δa,b =<br />
T + a<br />
a + b + n =<br />
n<br />
n + a + b<br />
T a + b<br />
+<br />
n a + b + n<br />
a<br />
, (4.10)<br />
a + b<br />
don<strong>de</strong> T = n i=1 Xi. Por lo tanto, el estimador <strong>de</strong> Bayes se comporta como<br />
un promedio pon<strong>de</strong>rado <strong>de</strong> dos estimadores: el IMVU δ1 = T/n que no usa<br />
la información <strong>de</strong> la distribución a priori y δ2 = a/(a + b) que correspon<strong>de</strong><br />
a la esperanza <strong>de</strong> la distribución a priori y que se usaría si no se hubiese<br />
observado la muestra. También vemos que el peso asignado a δ2 tien<strong>de</strong> a 0<br />
cuando el tamaño <strong>de</strong> la muestra n aumenta.<br />
De acuerdo a (4.10), el estimador <strong>de</strong> Bayes correspondiente a una distribución<br />
a priori β(a, b) pue<strong>de</strong> interpretarse como el estimador frecuentista<br />
correspondiente a una muestra <strong>de</strong> tamaño n + a + b con n i=1 Xi + a éxitos.<br />
Observación 1. En el ejemplo anterior hemos partido <strong>de</strong> una distribución<br />
a priori β(a, b), y hemos obtenido que la distribución a posteriori también<br />
está en la misma familia, ya que es β(a + n i=1 xi,n− n i=1 xi + b). Se dice<br />
entonces que la familia <strong>de</strong> distribuciones beta es la conjugada <strong>de</strong> la familia<br />
<strong>de</strong> distribuciones binomial.<br />
Ejemplo 2. Sea X =(X1, ..., Xn) una muestra in<strong>de</strong>pendiente <strong>de</strong> una distribución<br />
N(θ, σ 2 ), con σ 2 conocido, y supongamos que la distribución a<br />
priori <strong>de</strong> θ sea N(µ, ρ 2 ).<br />
Luego la <strong>de</strong>nsidad <strong>de</strong> la muestra X =(X1, ..., Xn) dado θ está dada por<br />
1<br />
f(x,θ)=<br />
(2π) n/2 <br />
−1<br />
exp<br />
σn 2σ2 n<br />
(xi − θ)<br />
i=1<br />
2<br />
<br />
, (4.11)
4.1. ESTIMADORES BAYESIANOS 5<br />
don<strong>de</strong> exp(x) =e x . La <strong>de</strong>nsidad <strong>de</strong> la distribución a priori está dada por<br />
1<br />
γ(θ) =<br />
(2π) 1/2ρ exp<br />
<br />
−(θ − µ) 2<br />
2ρ2 <br />
(4.12)<br />
Luego multiplicando (4.11) y (4.12), <strong>de</strong>sarrollando los cuadrados y haciendo<br />
algún manipuleo algebraico, se obtiene que distribución conjunta <strong>de</strong> X yΘ<br />
está dada por<br />
fX,Θ(x,θ)=C1(x,σ 2 ,µ,ρ 2 <br />
)exp<br />
− θ2<br />
2<br />
<br />
n 1<br />
+<br />
σ2 ρ2 <br />
n¯x µ<br />
+ θ +<br />
σ2 ρ2 ,<br />
don<strong>de</strong> C1(x,σ 2 ,µ,ρ 2 ) no <strong>de</strong>pen<strong>de</strong> <strong>de</strong> θ. Completando cuadrados, se obtiene<br />
fX,Θ(x,θ)=C2(x,σ 2 ,µ,ρ 2 )exp<br />
don<strong>de</strong><br />
D =<br />
<br />
− 1<br />
2D<br />
<br />
n¯x µ<br />
θ − D +<br />
σ2 ρ2 <br />
2<br />
, (4.13)<br />
1<br />
(n/σ2 )+(1/ρ2 . (4.14)<br />
)<br />
Finalmente, usando (1) obtenemos<br />
f(θ|x) =C3(x,σ 2 ,ρ 2 <br />
,µ)exp − 1<br />
<br />
¯x µ<br />
(θ − D +<br />
2D σ2 ρ2 2 (4.15)<br />
Luego, esta <strong>de</strong>nsidad, excepto una función que <strong>de</strong>pen<strong>de</strong> sólo <strong>de</strong> x, correspon<strong>de</strong><br />
a una distribución<br />
<br />
n¯x µ<br />
N D +<br />
σ2 ρ2 <br />
,D . (4.16)<br />
Como se trata <strong>de</strong> la distribución condicional <strong>de</strong> Θ dado X = x, po<strong>de</strong>mos<br />
consi<strong>de</strong>rar a C3 como constante. Luego la distribución a posteriori <strong>de</strong> Θ está<br />
dada por (4.16).<br />
Supongamos nuevamente que consi<strong>de</strong>ramos una función <strong>de</strong> pérdida cuadrática.<br />
El estimador <strong>de</strong> Bayes estará dado, en ese caso, por la esperanza condicional<br />
<strong>de</strong> Θ dado X, y por lo tanto <strong>de</strong> acuerdo a (4.16) y (4.14) estará dado<br />
por<br />
<br />
nX¯ δτ (X) =D<br />
µ<br />
+<br />
σ2 ρ2 <br />
= w ¯ X +(1− w)µ, (4.17)
6 CHAPTER 4. ESTIMADORES BAYESIANOS Y MINIMAX<br />
don<strong>de</strong><br />
n/σ<br />
w =<br />
2<br />
(n/σ2 )+(1/ρ2 ) .<br />
Por lo tanto, nuevamente, el estimador <strong>de</strong> Bayes es un promedio pon<strong>de</strong>rado<br />
<strong>de</strong>l estimador IMVU <strong>de</strong> la teoría frecuentista ¯ X y la media <strong>de</strong> la distribución<br />
a priori µ. Los pesos son inversamente proporcionales a las varianzas σ2 /n<br />
y ρ2 <strong>de</strong> ambos estimadores. A medida que el tamaño <strong>de</strong> la muestra n crece,<br />
el peso <strong>de</strong>l estimador basado en la información a priori tien<strong>de</strong> a 0. Es <strong>de</strong>cir,<br />
a medida que el tamaño <strong>de</strong> la muestra crece, la información a priori tiene<br />
menos relevancia para <strong>de</strong>terminar el estimador <strong>de</strong> Bayes.<br />
Observación 2. En este ejemplo partimos <strong>de</strong> una distribución a priori en<br />
la familia N(µ, ρ 2 ), y obtenemos que la distribución a posteriori está dada<br />
por (4.16), y por lo tanto está en la misma familia normal. Luego la familia<br />
<strong>de</strong> distribuciones conjugadas <strong>de</strong> la familia normal con varianza conocida es<br />
la familia normal.<br />
Veamos algunas propieda<strong>de</strong>s <strong>de</strong> los estimadores Bayes para funciones <strong>de</strong><br />
pérdida arbitrarias.<br />
Teorema 1. Sea δτ un estimador Bayes respecto <strong>de</strong> la distribución a priori<br />
τ y supongamos que δτ es único, entonces δτ es admisible.<br />
Demostración. Supongamos que existe otro estimador δ ∗ tan bueno como<br />
δτ , es <strong>de</strong>cir, R(δ ∗ , θ) ≤ R(δτ , θ) para todo θ ∈ Θ. Integrando respecto a la<br />
distribución a priori <strong>de</strong> θ en ambos miembros <strong>de</strong> la <strong>de</strong>sigualdad, obtenemos<br />
r(δ ∗ ,τ) ≤ r(δτ ,τ). Con lo cual, por la unicidad δ ∗ = δτ .<br />
Se pue<strong>de</strong> obtener un resultado <strong>de</strong> admisibilidad para reglas Bayes sin<br />
pedir unicidad, siempre y cuando, Θ sea abierto, la distribución a priori<br />
tenga una <strong>de</strong>nsidad positiva para todo θ ∈ Θ y la función <strong>de</strong> riesgo R(δ, θ)<br />
sea continua en θ para todo estimador δ.<br />
Hemos visto que en el caso <strong>de</strong> la pérdida cuadrática, el estimador Bayes<br />
podía obtenerse como la esperanza <strong>de</strong> la distribución a posteriori <strong>de</strong> Θ. El<br />
siguiente Teorema da una manera <strong>de</strong> obtener el estimador Bayes para el caso<br />
<strong>de</strong> otras funciones <strong>de</strong> pérdida.<br />
Teorema 2. Sea τ la distribución <strong>de</strong> Θ y F θ (x) la distribución condicional<br />
<strong>de</strong> X dado θ. Supongamos que se cumplen las siguientes condiciones para<br />
estimar q(θ) utilizando la pérdida ℓ(θ,d)
4.2. ESTIMADORES MINIMAX 7<br />
a) Existe un estimador δ0 con riesgo finito.<br />
b) Para cada valor <strong>de</strong> x existe un valor, que indicaremos δτ (x), que minimiza<br />
E (ℓ(θ,d)|X = x).<br />
Entonces, δτ (x) es un estimador <strong>de</strong> Bayes respecto a τ.<br />
Demostración. Sea δ(X) un estimador con riesgo Bayes finito. Luego,<br />
como la pérdida es nonegativa, E (ℓ(θ,δ(X))|X = x) es finita para casi todo<br />
x. Por lo tanto, tenemos<br />
E (ℓ (θ,δ(x)) |X = x) ≥ E (ℓ (θ,δτ (x)) |X = x)<br />
<strong>de</strong> don<strong>de</strong>, tomando esperanza respecto a la distribución marginal <strong>de</strong> X,<br />
obtenemos r(δ, τ) ≥ r(δτ ,τ) y por lo tanto, δτ es un estimador Bayes.<br />
Corolario Sea τ una distribución a priori para θ y supongamos que se<br />
cumplen las condiciones <strong>de</strong>l Teorema 2.<br />
a) Para la pérdida ℓ(θ,d) = w(θ)(q(θ) − d) 2 , don<strong>de</strong> w(θ) > 0 y<br />
E(w(θ)) < ∞, la regla Bayes δτ está dada por<br />
δτ (x) =<br />
E (q(θ)w(θ)|X = x)<br />
E (w(θ)|X = x)<br />
b) Para la pérdida ℓ(θ,d)=|q(θ) − d|, la regla Bayes δτ (x) es la mediana<br />
<strong>de</strong> la distribución a posteriori <strong>de</strong> q(θ) condicional a x<br />
c) Para la pérdida ℓ(θ,d) = I |q(θ)−d|>c , la regla Bayes δτ es el punto<br />
medio <strong>de</strong>l intervalo I <strong>de</strong> longitud 2c que maximiza P (q(θ) ∈I|X = x)<br />
4.2 Utilización <strong>de</strong> métodos bayesianos para resolver<br />
problemas frecuentistas<br />
En esta sección vamos a mostrar como los resultados <strong>de</strong> la teoría bayesiana<br />
pue<strong>de</strong>n ser útiles, aunque no se comparta ese punto <strong>de</strong> vista. Es <strong>de</strong>cir, veremos<br />
que los resultados <strong>de</strong> esta teoría se pue<strong>de</strong>n usar para resolver problemas<br />
que surgen <strong>de</strong> la teoría frecuentista.<br />
Consi<strong>de</strong>remos una muestra X =(X1,...,,Xn) con distribución conjunta<br />
f(x, θ) don<strong>de</strong> el vector <strong>de</strong> parámetros θ ∈ Θ. Supongamos que queremos
8 CHAPTER 4. ESTIMADORES BAYESIANOS Y MINIMAX<br />
estimar λ = q(θ) y que tenemos una función <strong>de</strong> pérdida ℓ(θ,d). En el enfoque<br />
frecuentista un estimador δ(X) <strong>de</strong>λqueda caracterizado por su función <strong>de</strong><br />
riesgo<br />
<br />
R(δ, θ) =Eθ (ℓ(θ,δ(X)) = ℓ(θ,δ(x))f(x, θ)dx. (4.18)<br />
Como θ es <strong>de</strong>sconocido, lo i<strong>de</strong>al sería encontrar un estimador δ ∗ (X) tal<br />
que, dado cualquier otro estimador δ(x) se tuviese<br />
R(δ ∗ , θ) ≤ R(δ, θ) ∀θ ∈ Θ.<br />
Como ya hemos visto al comienzo <strong>de</strong>l curso estos estimadores no existen<br />
excepto en casos muy poco interesantes.<br />
Una alternativa es comparar los estimadores a través <strong>de</strong>l máximo riesgo.<br />
Dado un estimador δ(X) <strong>de</strong>λ su máximo riesgo se <strong>de</strong>fine por<br />
MR(δ) = sup R(δ, θ). (4.19)<br />
θ∈Θ<br />
El criterio <strong>de</strong> comparar los estimadores por su máximo riesgo es pesimista,<br />
ya que actua como si el parámetro fuese a tomar el valor más <strong>de</strong>sfavorable<br />
para el estimador. Un estimador óptimo <strong>de</strong> acuerdo a este criterio es un<br />
estimador δ∗ tal que dado cualquier otro estimador δ se tiene<br />
MR(δ ∗ ) ≤ MR(δ). (4.20)<br />
Definición 1. Un estimador satisfaciendo (4.20) se <strong>de</strong>nomina minimax.<br />
Vamos a ver como la teoría bayesiana nos ayuda a encontrar estimadores<br />
minimax. Para ello, consi<strong>de</strong>remos una distribución a priori τ con <strong>de</strong>nsidad<br />
γ(θ). El correspondiente estimador <strong>de</strong> Bayes δτ verifica que, dado cualquier<br />
otro estimador δ, se tiene<br />
r(δτ ,τ) ≤ r(δ, τ). (4.21)<br />
Luego, <strong>de</strong> acuerdo a (4.4) se tendrá entonces que para cualquier estimador δ<br />
<br />
<br />
R(δτ , θ)γ(θ)dθ ≤ R(δ, θ)γ(θ)dθ. (4.22)<br />
Sea rτ = r(δτ ,τ), es <strong>de</strong>cir, el mínimo riesgo <strong>de</strong> Bayes cuando la distribución<br />
a priori es τ.
4.2. ESTIMADORES MINIMAX 9<br />
Definición 2. Se dirá que una distribución a priori τ0 es menos favorable<br />
si, para cualquier otra distribución τ, se tiene rτ ≤ rτ0 .<br />
Naturalmente uno se pue<strong>de</strong> preguntar para qué distribuciones a priori τ el<br />
estimador Bayes δτ será minimax. Un procedimiento minimax, al minimizar<br />
el máximo riesgo, trata <strong>de</strong> comportarse lo mejor posible en la peor situación.<br />
Por lo tanto, uno pue<strong>de</strong> esperar que el estimador minimax sea Bayes para<br />
la peor distribución posible que es la distribución menos favorable.<br />
El siguiente Teorema nos permite usar la teoría bayesiana para encontrar<br />
estimadores minimax.<br />
Teorema 1. Supongamos que se tiene una distribución a priori τ0 tal que<br />
el estimador <strong>de</strong> Bayes δτ0 tiene función <strong>de</strong> riesgo, R(δτ , θ), constante en θ.<br />
Entonces:<br />
a) δτ0<br />
es un estimador minimax,<br />
b) si δτ0 es el único estimador Bayes respecto <strong>de</strong> τ0, δτ0 es el único estimador<br />
minimax,<br />
c) τ0 es la distribución menos favorable.<br />
Demostración. Como el riesgo <strong>de</strong> δτ0 es constante se cumple que<br />
r(δτ0 ,τ0)<br />
<br />
= R(δτ0 , θ)γ0(θ)dθ = sup R(δτ0 , θ).<br />
θ∈Θ<br />
(4.23)<br />
a) Consi<strong>de</strong>remos un estimador δ = δτ0 , luego como<br />
MR(δ) = sup R(δ, θ) ≥ R(δ, θ)<br />
θ∈Θ<br />
tomando esperanza respecto a la distribución a priori τ0 obtenemos<br />
<br />
MR(δ) = sup R(δ, θ) ≥ R(δ, θ)γ0(θ)dθ = r(δ, τ0). (4.24)<br />
θ∈Θ<br />
Como δτ0 es Bayes respecto <strong>de</strong> τ0, se cumple que<br />
r(δ, τ0) ≥ r(δτ0 ,τ0). (4.25)<br />
Con lo cual, a partir <strong>de</strong> (4.23), (4.24) y (4.25) obtenemos<br />
MR(δ) ≥ r(δτ0 ,τ0) = sup R(δτ0 , θ) =MR(δτ0 )<br />
θ∈Θ
10 CHAPTER 4. ESTIMADORES BAYESIANOS Y MINIMAX<br />
y por lo tanto, δτ0 es minimax.<br />
b) Supongamos ahora que δτ0<br />
cumple<br />
es el único estimador Bayes, luego se<br />
r(δ, τ0) >r(δτ0 ,τ0). (4.26)<br />
Con lo cual, utilizando ahora (4.23), (4.24) y (4.26) obtenemos<br />
MR(δ) ≥ r(δ, τ0) >r(δτ0 ,τ0) =MR(δτ0 )<br />
y por lo tanto, δτ0 es el único estimador minimax.<br />
c) Sea τ otra distribución a priori y δτ el estimador Bayes respecto <strong>de</strong> τ.<br />
Luego, por ser δτ Bayes se cumple<br />
r(δτ ,τ) ≤ r(δτ0 ,τ). (4.27)<br />
Por otra parte, como el riesgo <strong>de</strong> δτ0<br />
<br />
es constante se verifica<br />
r(δτ0 ,τ) = R(δτ0 , θ)γ(θ)dθ<br />
= sup R(δτ0<br />
θ∈Θ<br />
, θ) =r(δτ0 ,τ0), (4.28)<br />
Por lo tanto, (4.27) y (4.28) nos permiten concluir que<br />
r(δτ ,τ) ≤ r(δτ0 ,τ0)<br />
con lo cual, τ0 es la distribución menos favorable.<br />
Ejemplo 3. Consi<strong>de</strong>remos el Ejemplo 1 <strong>de</strong> estimación bayesiana para la<br />
familia binomial, usando distribuciones a priori en la familia β(a, b) y como<br />
fúnción <strong>de</strong> pérdida la función ℓ(θ, d) =(θ − d) 2 . Luego hemos visto que el<br />
único estimador <strong>de</strong> Bayes está dado por<br />
T + a<br />
δa,b =<br />
n + a + b ,<br />
con T = n i=1 Xi.<br />
Si encontramos a y b tales que R(δa,b,θ) es constante, ese estimador será<br />
minimax y la distribución a priori correspondiente será la distribución menos<br />
favorable. Como Eθ(T )=nθ y var(T )=nθ(1 − θ) se tiene<br />
Eθ(δa,b) =<br />
nθ + a<br />
, (4.29)<br />
n + a + b
4.2. ESTIMADORES MINIMAX 11<br />
y<br />
nθ(1 − θ)<br />
varθ(δa,b) = , (4.30)<br />
(n + a + b) 2<br />
Luego, usando (4.29) y (4.30) se <strong>de</strong>duce que<br />
R(δa,b,θ) = E((δa,b − θ) 2 )<br />
= varθ(δa,b)+(θ − Eθ(δa,b)) 2<br />
=<br />
<br />
nθ(1 − θ) nθ + a<br />
+ θ −<br />
(n + a + b) 2 n + a + b<br />
2<br />
= nθ(1 − θ)+(a + b)2 θ 2 − 2a(a + b)θ + a 2<br />
(n + a + b) 2<br />
= (−n +(a + b)2 )θ 2 +(n − 2a(a + b))θ + a 2<br />
(n + a + b) 2 . (4.31)<br />
Para que (4.31) sea constante en θ, los coeficientes en θ y θ 2 <strong>de</strong>l numerador<br />
<strong>de</strong>ben ser 0. Por lo tanto, se <strong>de</strong>be cumplir<br />
−n +(a + b) 2 =0, n− 2a(a + b) =0<br />
La solución <strong>de</strong> este sistema <strong>de</strong> ecuaciones es a = b = √ n/2, y por lo tanto<br />
el estimador <strong>de</strong> Bayes correspondiente, que será minimax, estará dado por<br />
δmmax = T +(√n/2) n + √ . (4.32)<br />
n<br />
La correspondiente función <strong>de</strong> riesgo está dada por<br />
R(δmmax,θ)=<br />
n/4<br />
(n + √ =<br />
n) 2<br />
1<br />
4( √ .<br />
n +1) 2<br />
El Teorema 1 no nos permite obtener un estimador minimax en el caso<br />
<strong>de</strong> la media <strong>de</strong> una distribución normal. El siguiente Teorema resultará útil<br />
en esa situación.<br />
Teorema 2. Supongamos que δ(X) sea un estimador tal que<br />
(i) R(δ, θ) =C ∀θ ∈ Θ,<br />
(ii) existe una sucesión <strong>de</strong> distribuciones a priori τk tales que<br />
lim<br />
k→∞ r(δτk ,τk) =C.
12 CHAPTER 4. ESTIMADORES BAYESIANOS Y MINIMAX<br />
Entonces δ es minimax.<br />
Demostración: Sea δ ′ otro estimador para q(θ). Se cumple entonces que<br />
sup R(δ<br />
θ<br />
′ <br />
, θ) ≥ R(δ ′ , θ)γk(θ)dθ = r(δ ′ ,τk) ≥ r(δτk ,τk). (4.33)<br />
Con lo cual, tomando límite en ambos miembros <strong>de</strong> (4.33), y usando (ii)<br />
se obtiene<br />
MR(δ ′ ) = sup R(δ<br />
θ<br />
′ , θ) ≥ C = MR(δ),<br />
y por lo tanto, δ es minimax.<br />
Ejemplo 4. Consi<strong>de</strong>remos una muestra aleatoria X =(X1, ..., Xn) <strong>de</strong> una<br />
distribución N(θ, σ 2 ), don<strong>de</strong> σ 2 conocida. El estimador δ(X) = ¯ X tiene como<br />
función <strong>de</strong> riesgo R(δ, θ) =σ 2 /n, y por lo tanto se cumple la condición (i)<br />
<strong>de</strong>l Teorema 2. Por otro lado, consi<strong>de</strong>remos una sucesión <strong>de</strong> distribuciones a<br />
priori τk=N(0,ρ2 k ) con ρ2k → +∞. Usando la función <strong>de</strong> pérdida cuadrática,<br />
<strong>de</strong> acuerdo a lo visto en el ejemplo 2, los estimadores <strong>de</strong> Bayes son<br />
don<strong>de</strong><br />
y que<br />
Es fácil ver que<br />
wk =<br />
δτk = wk ¯ X,<br />
n/σ 2<br />
(n/σ 2 )+(1/ρ 2 k ).<br />
(4.34)<br />
lim<br />
k→∞ wk = 1 (4.35)<br />
k→∞ ρ2 1/ρ<br />
k<br />
4 k<br />
((n/σ2 )+(1/ρ2 = 0 (4.36)<br />
k ))2<br />
lim<br />
k→∞ ρ2k (1 − wk) 2 = lim<br />
Por otro lado, se tiene<br />
R(δτk ,θ)=varθ(δτk )+(θ − Eθ(δτk ))2 = w 2 σ<br />
k<br />
2<br />
n +(1−wk) 2 θ 2 . (4.37)<br />
Luego<br />
r(δτk ,τk) =Eτk (R(δτk , θ)) = w2 σ<br />
k<br />
2<br />
n +(1−wk) 2 ρ 2 k .<br />
Con lo cual, usando (4.35) y (4.36) se concluye que<br />
lim<br />
k→∞ r(δτk ,τk) = σ2<br />
n
4.2. ESTIMADORES MINIMAX 13<br />
Por lo tanto se cumple la condición (ii) <strong>de</strong>l Teorema 2, y el estimador<br />
δ(X) = ¯ X es minimax. El Teorema 2 no nos permite obtener la unicidad<br />
<strong>de</strong>l estimador minimax.
Chapter 5<br />
Intervalos y Regiones <strong>de</strong><br />
Confianza<br />
5.1 Regiones <strong>de</strong> confianza – Definición y Ejemplos<br />
Consi<strong>de</strong>remos nuevamente el problema <strong>de</strong> estimación. Dado un vector X<br />
con distribución perteneciente a la familia F (x, θ) con θ ∈ Θ, un estimador<br />
puntual <strong>de</strong> θ es una función θ = δ(X) que representa un único valor que<br />
aproxima a θ. Si se da solamente ese valor no se tendrá ninguna i<strong>de</strong>a <strong>de</strong> la<br />
precisión <strong>de</strong> dicha aproximación, es <strong>de</strong>cir <strong>de</strong> las posibles diferencias entre θ y<br />
θ. Una forma <strong>de</strong> obtener información sobre la precisión <strong>de</strong> la estimación, en<br />
el caso <strong>de</strong> que θ sea unidimensional, es proporcionar un intervalo [a(X),b(X)]<br />
<strong>de</strong> manera que la probabilidad <strong>de</strong> que dicho intervalo contenga el verda<strong>de</strong>ro<br />
valor θ sea alta, por ejemplo, 0.95.<br />
En este caso, la precisión con que se conoce θ <strong>de</strong>pen<strong>de</strong> <strong>de</strong> la longitud <strong>de</strong>l<br />
intervalo, es <strong>de</strong>cir, <strong>de</strong> b(X) − a(X), cuanto más pequeña sea esa longitud,<br />
más <strong>de</strong>terminado quedará θ.<br />
Si θ es un vector <strong>de</strong> IR p , en vez <strong>de</strong> dar un intervalo para estimarlo, se<br />
<strong>de</strong>berá dar una cierta región <strong>de</strong> IR p , por ejemplo, esférica o rectangular.<br />
La siguiente <strong>de</strong>finición formaliza estos conceptos.<br />
Definición 1: Dado un vector X con distribución perteneciente a la familia<br />
F (x, θ) con θ ∈ Θ, una región <strong>de</strong> confianza S(X) para θ con nivel<br />
<strong>de</strong> confianza 1 − α será una función que a cada X le hace correspon<strong>de</strong>r un<br />
subconjunto <strong>de</strong> Θ <strong>de</strong> manera que P θ (θ ∈ S(X)) = 1 − α para todo θ ∈ Θ.<br />
Es <strong>de</strong>cir, S(X) cubre el valor verda<strong>de</strong>ro <strong>de</strong>l parámetro con probabilidad<br />
1
2 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />
1 − α. El valor <strong>de</strong> α <strong>de</strong>be ser fijado <strong>de</strong> acuerdo al grado <strong>de</strong> seguridad con<br />
que se quiere conocer θ; generalmente se toma α =0.05 ó α =0.01.<br />
Como caso particular, cuando θ sea unidimensional se dirá que S(X) es<br />
un intervalo <strong>de</strong> confianza si S(X) es <strong>de</strong> la forma<br />
La longitud <strong>de</strong> S(X)<br />
S(X) =[a(X),b(X)]<br />
L = b(X) − a(X)<br />
<strong>de</strong>pen<strong>de</strong>rá <strong>de</strong>l nivel α elegido, cuanto más chico sea α, o sea, cuanto más<br />
gran<strong>de</strong> sea la probabilidad con que el intervalo cubra al verda<strong>de</strong>ro valor <strong>de</strong>l<br />
parámetro, más gran<strong>de</strong> será la longitud <strong>de</strong> aquél, o sea, menos precisa la<br />
estimación <strong>de</strong> θ.<br />
Ejemplo 1: Sea X1,...,Xn una muestra <strong>de</strong> una población con distribución<br />
N(µ, σ2 0 ) don<strong>de</strong> µ es <strong>de</strong>sconocido y σ2 0 conocido. Supongamos que se necesite<br />
un intervalo <strong>de</strong> confianza para µ <strong>de</strong> nivel 1 − α.<br />
Consi<strong>de</strong>remos Xn =(1/n) n i=1 Xi. Sabemos que Xn tiene distribución<br />
N(µ, σ 2 0 /n). Luego V = √ n(Xn − µ)/σ0, tendrá distribución N(0, 1). La<br />
ventaja <strong>de</strong> la variable aleatoria V sobre Xn es que tiene distribución in<strong>de</strong>pendiente<br />
<strong>de</strong> µ.<br />
Definimos zα tal que P (V ≥ zα) =α; y por simetría P (V ≤−zα) =α.<br />
Luego<br />
P (−z α<br />
2 ≤ V ≤ z α<br />
2 ) = 1− P (V ≤ z α<br />
2 ) − P (V ≤−z α<br />
2 )<br />
= 1− α α<br />
− =1− α.<br />
2 2<br />
Si reemplazamos V por √ n(Xn − µ)/σ0 se tendrá<br />
<br />
<br />
Pµ<br />
−z α<br />
2 ≤ √ <br />
Xn − µ<br />
n<br />
σ0<br />
con lo cual, <strong>de</strong>spejando resulta<br />
Pµ(Xn − z α<br />
2<br />
≤ z α<br />
2<br />
σ0<br />
√ n ≤ µ ≤ Xn + z α<br />
2<br />
=1− α,<br />
σ0<br />
√ n )=1− α.<br />
Por lo tanto, un intervalo <strong>de</strong> confianza para µ <strong>de</strong> nivel 1 − α será<br />
<br />
<br />
σ0<br />
σ0<br />
S(X) = Xn − z α √ , Xn + z α √<br />
2 n 2 n
5.2. PROCEDIMIENTOS GENERALES PARA OBTENER REG... 3<br />
ya que<br />
Pµ[µ ∈ S(X)] = 1 − α.<br />
Conviene precisar nuevamente el significado <strong>de</strong> esta igualdad. Para fijar<br />
i<strong>de</strong>as, supongamos α =0.05. La expresión “S(X) cubre a µ con probabilidad<br />
0.95”, indica que si un experimentador extrayese un número suficientemente<br />
gran<strong>de</strong> <strong>de</strong> muestras X <strong>de</strong> tamaño n <strong>de</strong> una distribución N(µ, σ 2 0 )y<br />
construyese las regiones S(X) correspondientes a cada una <strong>de</strong> ellas, aproximadamente<br />
el 95% <strong>de</strong> estas regiones S(X) contendrán el parámetro µ. Esto<br />
es, dada X, la afirmación “S(X) cubre a µ” tiene probabilidad 0.95 <strong>de</strong> ser<br />
correcta y probabilidad 0.05 <strong>de</strong> ser falsa.<br />
Ejemplo 2: Un físico hace 16 mediciones <strong>de</strong> cierta magnitud (a <strong>de</strong>terminar),<br />
dichas mediciones Xi serán Xi = µ + ɛi don<strong>de</strong> ɛi son los errores <strong>de</strong> medición.<br />
Supongamos que los ɛi son variables aleatorias in<strong>de</strong>pendientes con distribución<br />
N(0, 4) (dato que se conoce por experimentos anteriores).<br />
Supongamos que el promedio <strong>de</strong> las 16 observaciones obtenidas es X16 =<br />
20 y consi<strong>de</strong>remos el problema <strong>de</strong> encontrar un intervalo <strong>de</strong> confianza para<br />
µ con nivel 0.95; luego α =0.05 y <strong>de</strong> las tablas normales se obtiene z α/2 =<br />
z0.025 =1.96.<br />
Luego el intervalo <strong>de</strong> confianza será:<br />
<br />
20 − 1.96√ 4<br />
√ 16<br />
, 20 + 1.96√ <br />
4<br />
√ = [19.02 , 20.98],<br />
16<br />
y su longitud es 1.96.<br />
Supongamos ahora que se quiere conocer cuál <strong>de</strong>berá ser el número <strong>de</strong><br />
observaciones para que el intervalo sea <strong>de</strong> longitud 0.1. Entonces<br />
0.1 =1.96 2<br />
√ o sea<br />
n √ n =1.96 2<br />
0.1 =39.2<br />
<strong>de</strong> don<strong>de</strong>, n = (39.2) 2 = 1536.64. Por lo tanto, se necesitan 1537 observaciones<br />
para obtener un intervalo con la longitud <strong>de</strong>seada.<br />
5.2 Procedimientos generales para obtener regiones<br />
<strong>de</strong> confianza<br />
Teorema 1: Sea X un vector aleatorio cuya distribución pertenece a la<br />
familia F (x, θ), θ ∈ Θ, y sea U = G(X, θ) una variable aleatoria cuya
4 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />
distribución es in<strong>de</strong>pendiente <strong>de</strong> θ. Sean A y B tales que P (A ≤ U ≤ B) =<br />
1−α. Luego, si se <strong>de</strong>fine S(X) ={θ : A ≤ G(X, θ) ≤ B}, se tiene que S(X)<br />
es una región <strong>de</strong> confianza a nivel (1 − α) para θ.<br />
Demostración:<br />
Pθ (θ ∈ S(X)) = Pθ (A ≤ G(X, θ) ≤ B) =<br />
= Pθ (A ≤ U ≤ B) =P (A ≤ U ≤ B) =1− α<br />
la penúltima igualdad es válida pues la distribución <strong>de</strong> U es in<strong>de</strong>pendiente<br />
<strong>de</strong> θ.<br />
Cabe preguntarse bajo qué condiciones S(X) es un intervalo, en el caso en<br />
que θ es unidimensional. Notemos que, en ese caso, si G(X,θ) es monótona<br />
como función <strong>de</strong> θ, para cada valor <strong>de</strong> X dado, entonces<br />
hX(θ) =G(X,θ)<br />
tiene inversa.<br />
Supongamos hX(θ) creciente, resulta entonces<br />
S(X) ={θ : h −1<br />
X (A) ≤ θ ≤ h−1<br />
X (B)}<br />
es <strong>de</strong>cir, S(X) es un intervalo.<br />
Si hX(θ) es <strong>de</strong>creciente, resultará en forma análoga,<br />
S(X) ={θ : h −1<br />
X (B) ≤ θ ≤ h−1<br />
X (A)}<br />
Nota: En el Ejemplo 1, consi<strong>de</strong>ramos U = √ n(Xn − µ)/σ0 y vimos que<br />
esta variable aleatoria tiene distribución N(0, 1), o sea, in<strong>de</strong>pendiente <strong>de</strong> µ.<br />
En ese ejemplo tomamos A = −zα/2 y B = zα/2. También podríamos haber<br />
tomado A = −zβ y B = zγ don<strong>de</strong> β y γ son arbitrarios tales que β + γ = α.<br />
El hecho <strong>de</strong> tomar β = γ = α/2 se <strong>de</strong>be a que <strong>de</strong> esta forma se obtiene el<br />
intervalo más pequeño posible (Ver problema 1 <strong>de</strong> 5.1).<br />
Veamos que el procedimiento que hemos usado en dicho ejemplo es el<br />
que se <strong>de</strong>duce <strong>de</strong>l Teorema 1.<br />
De acuerdo al Teorema 1,<br />
S(X) =<br />
=<br />
{µ : −z α<br />
<br />
=<br />
µ : −z α<br />
2 ≤<br />
<br />
µ : −z α<br />
2<br />
2 ≤ G(X,µ) ≤ z α<br />
2<br />
√ n(Xn − µ)<br />
σ0<br />
} =<br />
≤ z α<br />
2<br />
<br />
=<br />
σ0<br />
√ n + Xn ≤ µ ≤ Xn + z α<br />
2<br />
<br />
σ0<br />
√<br />
n<br />
.
5.2. PROCEDIMIENTOS GENERALES PARA OBTENER REG... 5<br />
Vamos a tratar <strong>de</strong> usar un procedimiento similar para el caso <strong>de</strong> tener una<br />
muestra X1,X2,...,Xn <strong>de</strong> una distribución N(µ, σ 2 ) don<strong>de</strong> ahora también<br />
σ 2 es <strong>de</strong>sconocido. En este caso, parece natural reemplazar σ 2 por un estimador<br />
<strong>de</strong>l mismo. Sabemos que el estimador IMVU para σ 2 es<br />
s 2 = 1<br />
n − 1<br />
n<br />
(Xi − X)<br />
i=1<br />
2 ,<br />
y luego podríamos <strong>de</strong>finir<br />
√<br />
n(X − µ)<br />
U =<br />
(5.1)<br />
s<br />
Para po<strong>de</strong>r aplicar el método que nos proporciona el Teorema 1, <strong>de</strong>bemos<br />
<strong>de</strong>mostrar que U tiene una distribución que no <strong>de</strong>pen<strong>de</strong> <strong>de</strong> µ y σ2 y, a<strong>de</strong>más,<br />
<strong>de</strong>bemos conocer esa distribución. Esto se hará en el siguiente Teorema.<br />
Teorema 2: Sea X1, ..., Xn una muestra aleatoria <strong>de</strong> una distribución<br />
N(µ, σ 2 ). Luego<br />
(i) V = √ n(X − µ) tiene distibución N(0, 1)<br />
(ii) W = n i=1 (Xi − X) 2 /σ 2 tiene distribución χ 2 con n-1 grados <strong>de</strong> libertad<br />
(iii) V y W son in<strong>de</strong>pendientes<br />
(iv) U dado por (5.1) tiene distribución Tn−1, <strong>de</strong> Stu<strong>de</strong>nt con n − 1 grados<br />
<strong>de</strong> libertad.<br />
Demostración: Sea Yi =(Xi − µ)/σ, 1 ≤ i ≤ n. Luego estas variables<br />
forman una muestra aleatoria <strong>de</strong> una distribución N(0, 1). A<strong>de</strong>más, es fácil<br />
verificar que<br />
V = √ n Y, W =<br />
n<br />
i=1<br />
Y 2<br />
i , U =<br />
V<br />
W/(n − 1) , (5.2)<br />
Sea a1 el vector fila n-dimensional con todas sus componentes iguales a<br />
1/ √ n. Como a1 = 1, se pue<strong>de</strong> completar una base ortonormal a1,...,an.<br />
Sea A la matriz <strong>de</strong> n × n cuyas filas son a1,...an. Como las filas <strong>de</strong> A son<br />
ortogonales y <strong>de</strong> norma 1, la matriz A resulta ortogonal. Consi<strong>de</strong>remos
6 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />
la transformación Z = AY, don<strong>de</strong> Y =(Y1, ..., Yn) ′ y Z =(Z1, ..., Zn) ′ .<br />
Luego, por una propiedad <strong>de</strong> los vectores normales respecto <strong>de</strong> transformaciones<br />
ortogonales, las variables Z1, ..., Zn son también in<strong>de</strong>pendientes con<br />
distribución N(0, 1). Por otro lado, resulta<br />
Z1 =<br />
n<br />
i=1<br />
y el punto (i) queda <strong>de</strong>mostrado.<br />
A<strong>de</strong>más, se tiene que:<br />
n<br />
(Yi − Y )<br />
i=1<br />
2 n<br />
= Y<br />
i=1<br />
2<br />
i − nY 2 n<br />
=<br />
i=1<br />
Como A es ortogonal se <strong>de</strong>duce que<br />
Yi<br />
√ n = √ n Y = V (5.3)<br />
n<br />
Z<br />
i=1<br />
2 n<br />
i = Y<br />
i=1<br />
2<br />
i ,<br />
y usando (5.2) y (5.4) obtenemos<br />
n<br />
W = Z<br />
i=2<br />
2 i ,<br />
Y 2<br />
i − Z 2 1. (5.4)<br />
y por lo tanto queda <strong>de</strong>mostrado (ii).<br />
Como V <strong>de</strong>pen<strong>de</strong> <strong>de</strong> Z1 y W <strong>de</strong> Z2, ..., Zn también queda <strong>de</strong>mostrado<br />
(iii).<br />
Finalmente, (iv) se <strong>de</strong>duce <strong>de</strong> los puntos (i), (ii), (iii) <strong>de</strong>l Teorema y <strong>de</strong><br />
(5.2).<br />
Estamos ahora en condiciones <strong>de</strong> encontrar intervalos <strong>de</strong> confianza para<br />
la media, en el caso <strong>de</strong> una muestra aleatoria con media y varianza <strong>de</strong>sconocidas.<br />
Definamos tn,α por la ecuación<br />
P (U >tn,α) =α<br />
don<strong>de</strong> U es una variable aleatoria Tn. Luego, análogamente al caso normal,<br />
se tiene:<br />
P (−t α<br />
n, )=1− α<br />
2 ≤ U ≤ tn, α<br />
2
5.2. PROCEDIMIENTOS GENERALES PARA OBTENER REG... 7<br />
Teorema 3: Sea X1,X2,...,Xn una muestra aleatoria cuya distribución<br />
pertenece a la familia N(µ, σ2 ) con µ y σ2 <strong>de</strong>sconocidos. Luego si<br />
ni=1 ni=1(Xi Xi<br />
− X) 2<br />
X =<br />
n<br />
y s 2 =<br />
n − 1<br />
se tiene que un intervalo <strong>de</strong> confianza con nivel (1−α) para µ está dado por:<br />
<br />
X − t n−1, α<br />
2<br />
s<br />
√ n , X + t n−1, α<br />
2<br />
<br />
s<br />
√<br />
n<br />
Demostración: Por el Teorema 2 se tiene que U = √ n(X − µ)/s tiene<br />
distribución Tn−1 y luego<br />
Luego, por el Teorema 1<br />
<br />
P (−t n−1, α<br />
µ : −t n−1, α<br />
2<br />
2 ≤ U ≤ tn−1, α<br />
2<br />
≤ X − µ<br />
s<br />
)=1− α.<br />
√ n ≤ tn−1, α<br />
2<br />
es una región <strong>de</strong> confianza para µ con nivel 1 − α. Pero esta región es<br />
equivalente a<br />
<br />
<br />
s<br />
s<br />
µ : X − t α<br />
n−1, √ ≤ µ ≤ X + t α<br />
n−1, √ .<br />
2 n 2 n<br />
En el próximo Teorema encontraremos intervalos <strong>de</strong> confianza para la<br />
varianza, en el caso <strong>de</strong> una muestra normal, con media conocida o no.<br />
Definamos χ 2 n,α por la ecuación<br />
P (U >χ 2 n,α) =α<br />
don<strong>de</strong> U es una variable aleatoria con distribución χ 2 n .<br />
Teorema 4: Sea X1,...,Xn una muestra aleatoria cuya distribución pertenece<br />
a la familia N(µ, σ 2 ). Sean β y γ tales que β + γ = α<br />
(i) Si µ es conocido, un intervalo <strong>de</strong> confianza <strong>de</strong> nivel 1 − α para σ2 está<br />
dado por: ni=1 (Xi − µ) 2<br />
≤ σ 2 ni=1 (Xi − µ)<br />
≤<br />
2<br />
<br />
χ 2 n,β<br />
χ 2 n,1−γ
8 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />
(ii) Si µ es <strong>de</strong>sconocido, un intervalo <strong>de</strong> confianza <strong>de</strong> nivel 1 − α para σ 2<br />
está dado por:<br />
ni=1 (Xi − X) 2<br />
χ 2 n−1,β<br />
≤ σ 2 ≤<br />
ni=1 (Xi − X) 2<br />
<br />
χ 2 n−1,1−γ<br />
Demostración: (i) Sea W = n i=1 (Xi − µ) 2 /σ 2 . Como las variables Yi =<br />
(Xi − µ)/σ son in<strong>de</strong>pendientes, con distribución N(0, 1) y W = n i=1 Y 2<br />
i<br />
entonces W tiene distribución χ 2 n. Luego:<br />
P (χ 2 n,1−γ ≤ W ≤ χ 2 n,β) = P (W ≥ χ 2 n,1−γ) − P (W >χ 2 n,β) =<br />
= 1− γ − β =1− α<br />
Entonces, una región <strong>de</strong> confianza a nivel 1 − α está dada por<br />
<br />
σ 2 : χ 2 n,1−γ ≤<br />
ni=1 (Xi − µ) 2<br />
σ2 ≤ χ 2 <br />
n,β =<br />
<br />
= σ 2 1<br />
:<br />
χ2 ni=1 (Xi − µ)<br />
≤<br />
n,β<br />
2<br />
σ2 ≤ 1<br />
χ2 <br />
n,1−γ<br />
y esto es equivalente a la región <strong>de</strong>finida en (i).<br />
(ii) Definamos ahora<br />
W =<br />
ni=1 (Xi − X) 2<br />
Sabemos por el Teorema 2 (ii) que W tiene distribución χ2 n−1 . Por lo tanto:<br />
σ 2<br />
P (χ 2 n−1,1−γ ≤ W ≤ χ2n−1,β )=1− α<br />
Entonces, una región <strong>de</strong> confianza <strong>de</strong> nivel 1 − α está dada por:<br />
<br />
<br />
=<br />
=<br />
σ 2 : χ 2 ni=1 (Xi − X)<br />
n−1,1−γ ≤<br />
2<br />
σ2 ≤ χ 2 n−1,β<br />
<br />
σ 2 1<br />
:<br />
χ2 σ<br />
≤<br />
n−1,β<br />
2<br />
1<br />
ni=1 ≤<br />
(Xi − X) 2 χ2 <br />
n−1,1−γ<br />
ni=1 (Xi − X) 2 ni=1 (Xi − X) 2<br />
<br />
σ 2 :<br />
χ 2 n−1,β<br />
≤ σ 2 ≤<br />
χ 2 n−1,1−γ<br />
.
5.3. PROCEDIMIENTOS EN DOS PASOS PARA ENCONTRAR... 9<br />
5.3 Procedimiento en dos pasos para encontrar un<br />
intervalo <strong>de</strong> longitud prefijada para la media<br />
<strong>de</strong> una N(µ, σ 2 ), µ y σ <strong>de</strong>sconocidos<br />
Volvamos a consi<strong>de</strong>rar el intervalo <strong>de</strong> confianza para µ cuando σ 2 es <strong>de</strong>sconocido,<br />
en el caso <strong>de</strong> una muestra con distribución N(µ, σ 2 ). La longitud <strong>de</strong><br />
dicho intervalo, L(X1,...,Xn), está dada por<br />
L(X1,...,Xn) =2t n−1, α<br />
2<br />
s<br />
√ n<br />
Como se ve, este intervalo tiene longitud variable, ya que <strong>de</strong>pen<strong>de</strong> <strong>de</strong> s,<br />
que es una variable aleatoria <strong>de</strong>pendiente <strong>de</strong> los valores que toma la muestra.<br />
Luego, es imposible calcular n <strong>de</strong> modo que la longitud <strong>de</strong>l intervalo<br />
sea igual a un número prefijado. Esto es comprensible, ya que lógicamente<br />
cuanto más gran<strong>de</strong> sea la varianza, más gran<strong>de</strong> <strong>de</strong>be ser la muestra necesaria<br />
para obtener la misma precisión en la estimación <strong>de</strong> µ. Como σ 2 no es conocida,<br />
no se podrá asegurar con una muestra <strong>de</strong> tamaño fijo una <strong>de</strong>terminada<br />
precisión, es <strong>de</strong>cir, una <strong>de</strong>terminada longitud <strong>de</strong>l intervalo. Una manera <strong>de</strong><br />
solucionar este problema es tomando dos muestras, una inicial para estimar<br />
σ 2 , y en base a esta estimación, <strong>de</strong>terminar el tamaño <strong>de</strong> otra muestra complementaria<br />
que nos permita obtener un intervalo con la longitud <strong>de</strong>seada.<br />
Seguidamente <strong>de</strong>scribimos el método. Supongamos que se quiera obtener<br />
un intervalo <strong>de</strong> confianza <strong>de</strong> longitud L para la media µ, <strong>de</strong> una población<br />
normal con media y varianza <strong>de</strong>sconocida. Se toma una muestra inicial <strong>de</strong><br />
tamaño m : X1,...,Xm. Este valor m inicial, pue<strong>de</strong> ser cualquier valor<br />
mayor que dos. A partir <strong>de</strong> este valor inicial estimamos σ 2 por:<br />
s 2 m<br />
= 1<br />
m − 1<br />
m<br />
(Xi − Xm)<br />
i=1<br />
2<br />
2t m−1, α<br />
2<br />
don<strong>de</strong> Xm = 1<br />
m<br />
m<br />
Xi<br />
i=1<br />
Luego, la muestra complementaria se <strong>de</strong>be tomar <strong>de</strong> tamaño n don<strong>de</strong> n<br />
satisface<br />
sm<br />
√ ≤ L<br />
m + n<br />
(5.5)<br />
Sea Xm+1,...,Xm+n la muestra complementaria y<br />
Xm+n = 1<br />
m+n <br />
m + n<br />
i=1<br />
Xi
10 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />
El intervalo <strong>de</strong> confianza <strong>de</strong> nivel 1 − α estará dado por:<br />
<br />
<br />
sm<br />
sm<br />
Xm+n − t α<br />
m−1, √ , Xm+n + t α<br />
m−1, √<br />
2 m + n 2 m + n<br />
(5.6)<br />
Este intervalo tiene longitud 2t m−1, α<br />
2 sm/ √ m + n que por (5.5) es menor o<br />
igual que L.<br />
El siguiente Teorema muestra que el intervalo dado por (5.6) es un intervalo<br />
<strong>de</strong> confianza para µ <strong>de</strong> nivel 1 − α.<br />
Teorema 5: Sean X1, ...Xn variables aleatorias in<strong>de</strong>pendientes con distribución<br />
N(µ, σ 2 ), don<strong>de</strong> n se elige satisfaciendo (5.5). Luego el intervalo<br />
dado por (5.6) es un intervalo <strong>de</strong> confianza <strong>de</strong> nivel 1-α <strong>de</strong> longitud menor<br />
o igual que L.<br />
Demostración: Comencemos por mostrar las siguientes proposiciones:<br />
(i) W =(m − 1)s 2 m /σ2 tiene distribución χ 2 m−1<br />
(ii) V = √ m + n(Xm+n − µ)/σ tiene distribución N(0, 1)<br />
(iii) V y W son in<strong>de</strong>pendientes<br />
(iv) √ m + n(Xm+n − µ)/sm tiene distribución Tm−1<br />
En el Teorema 2 ya ha sido probado (i).<br />
Podría parecer que (ii) fue <strong>de</strong>mostrada en el mismo Teorema. Sin embargo,<br />
esto es no es cierto ya que lo que se <strong>de</strong>mostró es que el promedio<br />
normalizado <strong>de</strong> observaciones N(µ, σ2 ) tiene distribución N(0, 1), para<br />
un tamaño <strong>de</strong> muestra fijo. En nuestro caso, n es un número aleatorio,<br />
ya que <strong>de</strong>pen<strong>de</strong> <strong>de</strong>l valor sm, obtenido con las primeras m observaciones.<br />
Comencemos obteniendo la función <strong>de</strong> distribución conjunta <strong>de</strong> V y W ,<br />
FVW(v, w) =P (V ≤ v, W ≤ w).<br />
Llamemos Ai al evento {n = i}. Los sucesos Ai son obviamente disjuntos y<br />
a<strong>de</strong>más ∞ i=1 Ai = Ω, don<strong>de</strong> Ω es el espacio muestral.<br />
Dado un evento cualquiera A, se tiene<br />
∞<br />
A =<br />
P (A) =<br />
i=1<br />
∞<br />
i=1<br />
(A ∩ Ai)<br />
P (A ∩ Ai),
5.3. PROCEDIMIENTOS EN DOS PASOS PARA ENCONTRAR... 11<br />
y por lo tanto,<br />
FV W(v, w) =<br />
∞<br />
P (V ≤ v, W ≤ w) = P (V ≤ v,W ≤ w, n= i)<br />
i=0<br />
=<br />
∞<br />
P (<br />
i=0<br />
√ m + i (Xm+i − µ)<br />
≤ v,W ≤ w, n= i) .<br />
σ<br />
En virtud <strong>de</strong>l Teorema 2, se tiene que m j=1 Xj es in<strong>de</strong>pendiente <strong>de</strong> sm y<br />
por otra parte, cada Xj con j>mtambién es in<strong>de</strong>pendiente <strong>de</strong> sm. Por<br />
lo tanto, como Xm+i =(1/(m + i))( m j=1 Xj + m+i<br />
j=m+1 Xj) se <strong>de</strong>duce que<br />
Xm+i es in<strong>de</strong>pendiente <strong>de</strong> sm.<br />
Por otro lado, <strong>de</strong> acuerdo con su <strong>de</strong>finición, n <strong>de</strong>pen<strong>de</strong> sólo <strong>de</strong> sm. Luego,<br />
el suceso<br />
{ √ m + i (Xm+i − µ)<br />
σ<br />
≤ v}<br />
es in<strong>de</strong>pendiente <strong>de</strong> {W ≤ w}∩{n = i} y por lo tanto,<br />
FVW(v, w) =<br />
∞<br />
i=1<br />
P ( √ m + i (Xm+i − µ)<br />
σ<br />
≤ v)P (W ≤ w, n= i) .<br />
Pero, por el Teorema 2, para cada i fijo √ m + i(Xm+i − µ)/σ tiene distribución<br />
N(0, 1). Luego si Φ(v) es la función <strong>de</strong> distribución <strong>de</strong> una variable<br />
N(0, 1), se tendrá<br />
FVW(v, w) =<br />
∞<br />
Φ(v)P (W ≤ w, n= i)<br />
i=1<br />
=<br />
∞<br />
Φ(v) P (W ≤ w, n= i) .<br />
i=0<br />
Pero ∞ i=1 P (W ≤ w, n= i) =P (W ≤ w) =FW (w). Por lo tanto, se tiene<br />
y como<br />
FVW(v, w) =Φ(v)FW (w) (5.7)<br />
FV (v) = lim<br />
w→∞ FVW(v, w) =Φ(v) lim<br />
w→∞ FW (w) =Φ(v) ,<br />
hemos <strong>de</strong>mostrado (ii).
12 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />
Para <strong>de</strong>mostrar (iii) reemplacemos en (5.7) Φ(v) porFV (v) y obtenemos<br />
FVW(v, w) =FV (v)FW (w)<br />
lo que implica que V y W son in<strong>de</strong>pendientes.<br />
(iv) se <strong>de</strong>duce inmediatamente <strong>de</strong> (i), (ii) y (iii), teniendo en cuenta que<br />
√<br />
m + n(Xm+n − µ)<br />
=<br />
sm<br />
√ m + n(Xm+n − µ)/σ<br />
((m − 1)s 2 m/(m − 1)σ 2 ) 1/2<br />
Llamemos U a esta última variable, <strong>de</strong> acuerdo a (iv) se tiene que U tiene<br />
distribución in<strong>de</strong>pendiente <strong>de</strong> µ y σ 2 y a<strong>de</strong>más<br />
µ : −t m−1, α<br />
2 ≤<br />
P (−t m−1, α<br />
2 ≤ U ≤ tm−1, α<br />
2<br />
)=1− α<br />
Luego, <strong>de</strong> acuerdo con el método general para obtener regiones <strong>de</strong> confianza,<br />
se tendrá que una región <strong>de</strong> confianza para µ <strong>de</strong> nivel (1 − α) estará dada<br />
por:<br />
<br />
√ <br />
m + n(Xm+n − µ)<br />
=<br />
<br />
µ : Xm+n − t m−1, α<br />
2<br />
sm<br />
≤ t m−1, α<br />
2<br />
sm<br />
√ m + n ≤ µ ≤ Xm+n + t m−1, α<br />
2<br />
<br />
sm<br />
√<br />
m + n<br />
Nota: El tamaño <strong>de</strong> la muestra inicial, m, pue<strong>de</strong> ser, en principio, cualquiera<br />
con la condición <strong>de</strong> que sea mayor que dos. El valor más conveniente a<br />
usar <strong>de</strong>pen<strong>de</strong>rá <strong>de</strong>l conocimiento previo que se tenga sobre σ 2 . Si m es<br />
muy pequeño, la estimación <strong>de</strong> σ 2 será poco confiable y habrá que tomar<br />
una segunda muestra gran<strong>de</strong>, con lo cual aumentará el costo. Si se toma<br />
muy gran<strong>de</strong>, es probable que se tomen más observaciones que las necesarias.<br />
Lo i<strong>de</strong>al sería elegir m cerca <strong>de</strong>l número total <strong>de</strong> observaciones que serían<br />
necesarias si se conociera σ 2 .<br />
5.4 Intervalos <strong>de</strong> confianza para diferencia <strong>de</strong> medias<br />
<strong>de</strong> una distribución normal<br />
5.4.1 Muestras in<strong>de</strong>pendientes<br />
Supongamos primero que se tienen dos muestras aleatorias X1,...,Xn1 y<br />
Y1,...,Yn2 in<strong>de</strong>pendientes entre sí, <strong>de</strong> distribuciones N(µ1,σ 2 )yN(µ2,σ 2 )<br />
.
5.4. INTERVALOS DE CONFIANZA PARA DIFERENCIA... 13<br />
respectivamente con µ1,µ2 y σ 2 <strong>de</strong>sconocidos, y se <strong>de</strong>sea encontrar un intervalo<br />
<strong>de</strong> confianza para λ = µ1 − µ2. Observemos que ˆ λ = Y − X es un<br />
estimador insesgado <strong>de</strong> λ. Es fácil <strong>de</strong>mostrar utilizando el Teorema 2 <strong>de</strong> la<br />
sección 3.12 que este estimador es IMVU.<br />
La varianza <strong>de</strong> este estimador es<br />
<br />
1<br />
Por lo tanto,<br />
U = ˆ λ − λ<br />
σˆ λ<br />
σ 2 ˆ λ = σ 2<br />
=<br />
n1 · n2<br />
n1 + n2<br />
n1<br />
+ 1<br />
<br />
n2<br />
· X − Y − (µ1 − µ2)<br />
σ<br />
(5.8)<br />
(5.9)<br />
tiene distribución N(0,1).<br />
Como σ es <strong>de</strong>sconocido, no po<strong>de</strong>mos utilizar U para encontrar un intervalo<br />
<strong>de</strong> confianza para λ. La solución a este problema es reemplazar σ por<br />
un estimador. Un estimador insesgado <strong>de</strong> σ2 es<br />
s 2 <br />
n1<br />
1 <br />
=<br />
(Xi − X)<br />
n1 + n2 − 2<br />
2 n2 <br />
+ (Yi − Y ) 2<br />
<br />
i=1<br />
Para <strong>de</strong>mostrar que s 2 es insesgado basta recordar que <strong>de</strong> acuerdo a lo<br />
visto en el Capítulo 3 se tiene<br />
y<br />
n1 <br />
E(<br />
i=1<br />
(Xi − X)<br />
i=1<br />
2 )=(n1 − 1)σ 2<br />
n2 <br />
E(<br />
(Yi − Y )<br />
i=1<br />
2 )=(n2 − 1)σ 2 .<br />
También <strong>de</strong>l Teorema 2 <strong>de</strong> la Sección 3.12 se pue<strong>de</strong> <strong>de</strong>ducir que s 2 es<br />
IMVU. Luego, <strong>de</strong>finimos el estadístico T reemplazando en U el parámetro σ<br />
por el estimador s, es <strong>de</strong>cir,<br />
don<strong>de</strong><br />
T = ˆ λ − λ<br />
ˆσˆ λ<br />
=<br />
n1n2<br />
n1 + n2<br />
ˆσ 2 λ ˆ = s 2<br />
<br />
1<br />
+<br />
n1<br />
1<br />
<br />
n2<br />
X − Y − (µ1 − µ2)<br />
s<br />
(5.10)<br />
(5.11)
14 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />
El siguiente Teorema prueba que T tiene distribución <strong>de</strong> Stu<strong>de</strong>nt con<br />
n1 + n2 − 2 grados <strong>de</strong> libertad<br />
Teorema 1: Sean X1, ..., Xn1 y Y1, ..., Yn2<br />
dos muestras aleatorias in<strong>de</strong>pen-<br />
dientes <strong>de</strong> las distribuciones N(µ1,σ2 )yN(µ2,σ2 ) respectivamente. Sean<br />
n1 i=1 (Xi − X) 2<br />
Luego<br />
V =<br />
W =<br />
σ 2<br />
n2<br />
i=1 (Yi − Y ) 2<br />
σ 2<br />
(i) U <strong>de</strong>finida en (5.9), V y W son variables aleatorias in<strong>de</strong>pendientes con<br />
distribuciones N(0, 1), χ 2 n1−1 y χ2 n2−1 respectivamente.<br />
(ii) La variable<br />
tiene distribución χ 2 n1+n2−2 .<br />
Z = V + W<br />
(iii) La variable T <strong>de</strong>finida en (5.10) tiene distribución Tn1+n2−2.<br />
(iv) El intervalo<br />
ˆλ − tn1+n2−2, α<br />
2 ˆσˆ λ , ˆ λ + t n1+n2−2, α<br />
2 ˆσˆ λ<br />
es un intervalo <strong>de</strong> confianza a nivel 1 − α para λ = µ1 − µ2.<br />
Demostración: Ya hemos <strong>de</strong>mostrado que U tiene distribución N(0, 1).<br />
Por otra parte, en el Teorema 2 <strong>de</strong> la Sección 5.2, se <strong>de</strong>mostró la in<strong>de</strong>pen<strong>de</strong>ncia<br />
entre X y V y entre Y y W . Como a<strong>de</strong>más resulta X in<strong>de</strong>pendiente <strong>de</strong><br />
W (la primera <strong>de</strong>pen<strong>de</strong> <strong>de</strong> X1,...,Xn1 y la segunda <strong>de</strong> Y1,...,Yn2 )yY in<strong>de</strong>pendiente<br />
<strong>de</strong> V , resulta U in<strong>de</strong>pendiente <strong>de</strong> V y W . En el mismo Teorema se<br />
<strong>de</strong>mostró que V y W tienen distribuciónes χ 2 n1−1 y χ2 n2−1<br />
<br />
, respectivamente.<br />
Resulta entonces claro que V y W son también in<strong>de</strong>pendientes.<br />
Para <strong>de</strong>mostrar (ii) basta utilizar el hecho <strong>de</strong> que suma <strong>de</strong> variables<br />
χ 2 in<strong>de</strong>pendientes tiene también distribución χ 2 con número <strong>de</strong> grados <strong>de</strong><br />
libertad igual a la suma <strong>de</strong> los grados <strong>de</strong> libertad <strong>de</strong> los sumandos.<br />
El resultado (iii) resulta inmediato <strong>de</strong> los puntos (i) y (ii). El resultado<br />
(iv) resulta <strong>de</strong> aplicar (ii) y el Teorema 1 <strong>de</strong> la Sección 5.2.
5.4. INTERVALOS DE CONFIANZA PARA DIFERENCIA... 15<br />
En el caso más simple en que σ2 sea conocido, se pue<strong>de</strong> también encontrar<br />
fácilmente un intervalo <strong>de</strong> confianza para λ utilizando el estadístico U.<br />
Si X1,...,Xn1 y Y1,...,Yn2 son muestras aleatorias in<strong>de</strong>pendientes en-<br />
tre sí <strong>de</strong> distribuciones N(µ1,σ2 1 )yN(µ2,σ2 2 ) con µ1,µ2,σ2 1 y σ2 2 <strong>de</strong>sconocidos<br />
(σ2 1 = σ2 2<br />
), el problema <strong>de</strong> encontrar una región <strong>de</strong> confianza para<br />
µ1 −µ2 con nivel exacto 1−α no tiene una solución totalmente satisfactoria.<br />
Este problema se conoce con el nombre <strong>de</strong> Behrens–Fisher. Sin embargo, es<br />
posible encontrar en forma sencilla un intervalo <strong>de</strong> confianza para µ1 − µ2<br />
<strong>de</strong> nivel asintótico 1 − α (ver <strong>de</strong>finición 1 y problema 7 <strong>de</strong> 5.6).<br />
Nota 1: Si X1,...,Xn1 y Y1,...,Yn2 son muestras aleatorias in<strong>de</strong>pendientes<br />
entre sí <strong>de</strong> distribuciones N(µ1,σ2 1 )yN(µ2,σ2 2 ) respectivamente, con µ1,µ2<br />
conocidos o no, entonces:<br />
(1) Si σ 2 1 = σ2 2 = σ2 se pue<strong>de</strong>n encontrar intervalos <strong>de</strong> confianza para σ 2<br />
(o para σ) (ver problema 1 <strong>de</strong> 5.4).<br />
(2) Si no se pue<strong>de</strong> suponer σ2 1 = σ2 2<br />
confianza para σ2 2 /σ2 1 (o para σ2/σ1) (ver problema 2 <strong>de</strong> 5.4).<br />
5.4.2 Muestras apareadas<br />
es posible encontrar intervalos <strong>de</strong><br />
Supongamos ahora que (X1,Y1),...,(Xn,Yn) es una muestra aleatoria <strong>de</strong><br />
una distribución normal bivariada N(µ1,µ2,σ2 1 ,σ2 2 ,ρ) con µ1,µ2,σ2 1 ,σ2 2 ,ρ<strong>de</strong>sconocidos<br />
y que se <strong>de</strong>sea encontrar un intervalo <strong>de</strong> confianza para<br />
λ = µ1 − µ2.<br />
En este caso po<strong>de</strong>mos <strong>de</strong>finir las variables Zi = Xi −Yi, 1≤ i ≤ n. Estas<br />
variables forman una muestra <strong>de</strong> una distribución N(λ,σ2 Z ), con<br />
σ 2 Z = σ 2 1 + σ 2 2 − 2ρσ1σ2,<br />
y por lo tanto, <strong>de</strong> acuerdo a lo visto en el Teorema 3 <strong>de</strong> la Sección 5.2<br />
tenemos que un intervalo <strong>de</strong> confianza <strong>de</strong> nivel 1 − α está dado por<br />
don<strong>de</strong><br />
Z = 1<br />
n<br />
<br />
Z − t n−1, α<br />
2<br />
n<br />
i=1<br />
sZ<br />
√ n , Z + t n−1, α<br />
2<br />
Zi, s 2 Z = 1<br />
n − 1<br />
n<br />
<br />
sZ<br />
√<br />
n<br />
(Zi − Z)<br />
i=1<br />
2 .<br />
(5.12)
16 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />
Nota 2: Muchas veces, en los casos reales, interesará <strong>de</strong>cidir antes <strong>de</strong> tomar<br />
la muestra, si conviene usar un diseño <strong>de</strong> muestras aleatorias in<strong>de</strong>pendientes<br />
entre sí provenientes <strong>de</strong> distribuciones N(µ1,σ 2 ), N(µ2,σ 2 ) o muestras<br />
apareadas provenientes <strong>de</strong> una distribución bivariada, N(µ1,µ2,σ 2 ,σ 2 ,ρ).<br />
Por ejemplo, si se quiere estimar la diferencia <strong>de</strong> rendimientos <strong>de</strong> dos<br />
varieda<strong>de</strong>s <strong>de</strong> un cereal, uno podría preguntarse cuál <strong>de</strong> los dos diseños<br />
siguientes proveerá más información sobre esta diferencia:<br />
(i) Elegir al azar en el terreno consi<strong>de</strong>rado 2n parcelas <strong>de</strong> área A. En n <strong>de</strong><br />
ellas elegidas al azar cultivar la variedad 1 y en en los restantes cultivar<br />
la variedad 2.<br />
(ii) Elegir al azar n parcelas <strong>de</strong> área 2A y dividir cada una <strong>de</strong> ellas en<br />
dos mita<strong>de</strong>s <strong>de</strong> la misma área. y luego éstas en dos mita<strong>de</strong>s. En cada<br />
mitad <strong>de</strong> una parcela cultivar una variedad distinta.<br />
En el primer caso, tendríamos un diseño correspondiente a muestras<br />
aleatorias normales in<strong>de</strong>pendientes entre sí. En el segundo, uno correspondiente<br />
a muestras apareadas que podrían ser consi<strong>de</strong>radas provenientes <strong>de</strong><br />
una normal bivariada con un cierto cociente <strong>de</strong> correlación ρ.<br />
Trataremos <strong>de</strong> <strong>de</strong>terminar cuál <strong>de</strong> los dos diseños es mejor, comparando<br />
las longitu<strong>de</strong>s <strong>de</strong> los intervalos <strong>de</strong> confianza respectivos. Para esto supondremos<br />
que las varianzas para los rendimientos <strong>de</strong> ambos cereales son los<br />
mismos.<br />
Para el caso <strong>de</strong> muestras in<strong>de</strong>pendientes tendremos n1 = n2 = n, yla<br />
longitud <strong>de</strong>l intervalo viene dado por<br />
<br />
don<strong>de</strong><br />
don<strong>de</strong><br />
s 2 =<br />
L1 =2t 2n−2, α<br />
2<br />
2 s2<br />
n<br />
1<br />
<br />
n<br />
(Xi − X)<br />
2n − 2<br />
i=1<br />
2 +<br />
n<br />
(Yi − Y )<br />
i=1<br />
2<br />
y para el caso <strong>de</strong> muestras para muestras apareadas<br />
L2 =2t n−1, α<br />
2<br />
s 2 Z = 1<br />
n − 1<br />
n<br />
<br />
s 2 Z<br />
n<br />
(Zi − Z)<br />
i=1<br />
2 .
5.4. INTERVALOS DE CONFIANZA PARA DIFERENCIA... 17<br />
Como estas longitu<strong>de</strong>s <strong>de</strong>pen<strong>de</strong>n <strong>de</strong> la muestra consi<strong>de</strong>rada, y por lo<br />
tanto son aleatorias, consi<strong>de</strong>raremos cuál diseño nos provee el intervalo con<br />
menor longitud cuadrada esperada. Es <strong>de</strong>cir, compararemos las esperanzas<br />
<strong>de</strong> los cuadrados <strong>de</strong> las longitu<strong>de</strong>s. Se toman cuadrados por la única razón<br />
son estimadores<br />
<strong>de</strong> simplificar el cálculo <strong>de</strong> las esperanzas. Como s2 y s2 Z<br />
insesgados <strong>de</strong> σ2 y<strong>de</strong>σ2 Z = 2(1 − ρ)σ2 , se tiene<br />
E(L 2 1 )=4 × 2σ2 t 2 2n−2, α<br />
2<br />
n<br />
y en el caso <strong>de</strong> muestras apareadas<br />
Luego resulta<br />
E(L 2 2 )=4 × 2σ2 (1 − ρ)t 2 n−1, α<br />
2<br />
n<br />
E(L 2 2 )<br />
E(L2 1 ) =(1−ρ) t2 n−1, α<br />
2<br />
t2 2n−2, α<br />
2<br />
Por lo tanto será mejor tomar muestras apareadas si<br />
o sea si<br />
(1 − ρ) t2 n−1, α<br />
2<br />
t 2 2n−2, α<br />
2<br />
< 1<br />
ρ>1 − t2 2n−2, α<br />
2<br />
t2 n−1, α<br />
2<br />
Se pue<strong>de</strong> mostrar que t α<br />
n, 2 tien<strong>de</strong> a z α<br />
2<br />
cuando n →∞. Luego se tendrá que<br />
λ =1− t2 2n−2, α<br />
2<br />
t 2 n−1, α<br />
2<br />
(5.13)<br />
en forma monótona <strong>de</strong>creciente<br />
tendiendo a 0 cuando n →∞.<br />
Luego, para que sea más conveniente tomar muestras apareadas es una<br />
condición necesaria que ρ>0. Para muestras gran<strong>de</strong>s esta condición es<br />
prácticamente suficiente ya que λ se hace muy pequeño.<br />
Sea, por ejemplo, n =20yα =0.05, luego λ =0.03. Luego basta que<br />
ρ>0.03 para que el diseño apareado sea más eficiente. Para un ejemplo<br />
práctico, ver ejercicio 3 <strong>de</strong> 5.4. Por otra parte, por (5.13) resulta que en caso<br />
<strong>de</strong> tomarse muestras apareadas convendrá elegir los pares <strong>de</strong> manera que ρ<br />
sea lo más gran<strong>de</strong> posible.<br />
> 0
18 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />
5.5 Optimalidad <strong>de</strong> los intervalos <strong>de</strong> confianza<br />
Sea X un vector cuya distribución pertenece a la familia F (x,θ) con θ ∈ Θ ⊂<br />
IR y sea S(X) =[a(X),b(X)] un intervalo <strong>de</strong> confianza con nivel 1 − α para<br />
θ. Como ya lo hemos observado en 5.1, la precisión <strong>de</strong> nuestra estimación<br />
vendrá dada por la longitud <strong>de</strong>l intervalo, es <strong>de</strong>cir, por L(X) =b(X) − a(X)<br />
y por lo tanto, será conveniente que ésta fuese lo menor posible. Como<br />
ya lo hemos visto, L(X) es en general una variable aleatoria; luego parece<br />
razonable como criterio para medir la bondad <strong>de</strong> un intervalo <strong>de</strong> confianza<br />
consi<strong>de</strong>rar Eθ(L(X)).<br />
Luego, un intervalo <strong>de</strong> confianza con nivel 1 − α, [a(X),b(X)], pue<strong>de</strong> ser<br />
consi<strong>de</strong>rado óptimo si, para todo otro intervalo <strong>de</strong> confianza <strong>de</strong> nivel 1 − α,<br />
[a ′ (X),b ′ (X)] se tiene<br />
Eθ(b(X) − a(X)) ≤ Eθ(b ′ (X) − a ′ (X)) ∀ θ ∈ Θ .<br />
Sin embargo, igual que en el caso <strong>de</strong> estimación puntual, es posible<br />
mostrar que salvo ejemplos triviales no existen intervalos con esta propiedad.<br />
La única forma <strong>de</strong> encontrar intervalos óptimos es restringir la clase <strong>de</strong> posibles<br />
intervalos.<br />
Una forma <strong>de</strong> restringir los posibles intervalos <strong>de</strong> confianza o en general<br />
las regiones <strong>de</strong> confianza, es exigiendo la siguiente propiedad.<br />
Definición 1: Se dirá que una región S(X) esinsesgada si<br />
Pθ(θ ∈ S(X)) ≥ Pθ(θ ′ ∈ S(X)) ∀ θ, θ ′ ∈ Θ .<br />
Es <strong>de</strong>cir que S(X) es insesgado si el valor verda<strong>de</strong>ro θ tiene mayor probabilidad<br />
<strong>de</strong> estar en la región que cualquier otro valor θ ′ .<br />
Luego parece natural buscar el intervalo <strong>de</strong> confianza <strong>de</strong> menor longitud<br />
entre los intervalos <strong>de</strong> confianza insesgados. Luego surge la siguiente<br />
<strong>de</strong>finición:<br />
Definición 2: Se dirá que un intervalo <strong>de</strong> confianza S(X) esinsesgado <strong>de</strong><br />
mínima longitud esperada uniformemente en θ (IMLEU) con nivel (1 − α) si<br />
a) S(X) es insesgado y tiene nivel (1 − α).<br />
b) Sea S(X) = [a(X),b(X)]. Luego si S ′ (X) = [a ′ (X),b ′ (X)] es otro<br />
intervalo insesgado <strong>de</strong> nivel 1 − α, se tiene<br />
Eθ(b(X) − a(X)) ≤ Eθ(b ′ (X) − a ′ (X)) ∀ θ ∈ Θ .
5.6. REGIONES DE CONFIANZA CON NIVEL ASINT... 19<br />
Se pue<strong>de</strong> mostrar que los intervalos obtenidos para µ cuando X1,...,Xn<br />
es una muestra aleatoria <strong>de</strong> N(µ, σ 2 ) para el caso <strong>de</strong> σ 2 conocido o <strong>de</strong>sconocido<br />
(en Ejemplo 1 <strong>de</strong> 5.1 y Teorema 3 <strong>de</strong> 5.2) son realmente IMLEU.<br />
También, los intervalos obtenidos para σ 2 cuando µ es conocido o <strong>de</strong>sconocido<br />
en el Teorema 4 <strong>de</strong> 5.2 es IMLEU, si β y γ se eligen <strong>de</strong> manera que<br />
la longitud esperada sea mínima. Se pue<strong>de</strong> mostrar que para n gran<strong>de</strong> estos<br />
β y γ se aproximan a α/2 (ver [3]). Los procedimientos <strong>de</strong>sarrollados<br />
en 5.4 para encontrar intervalos <strong>de</strong> confianza para las diferencias <strong>de</strong> medias<br />
también son IMLEU.<br />
El estudio <strong>de</strong>tallado <strong>de</strong> la optimalidad <strong>de</strong> estos procedimientos pue<strong>de</strong><br />
verse en Pratt [2]. Estos resultados <strong>de</strong>pen<strong>de</strong>n <strong>de</strong> resultados relacionados con<br />
la teoría <strong>de</strong> tests óptimos que pue<strong>de</strong> verse en Lehmann [1].<br />
5.6 Regiones <strong>de</strong> confianza con nivel asintótico<br />
(1 − α)<br />
En muchos problemas estadísticos, es imposible o muy complicado encontrar<br />
regiones <strong>de</strong> confianza con un nivel dado. En su reemplazo se pue<strong>de</strong>n construir<br />
regiones cuyo nivel sea aproximadamente el <strong>de</strong>seado, tendiendo a él a medida<br />
que el tamaño <strong>de</strong> la muestra aumenta. La siguiente <strong>de</strong>finición formaliza esta<br />
i<strong>de</strong>a.<br />
Definición 1: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
perteneciente a la familia F (x, θ), θ ∈ Θ. Se dice que Sn(X1,...,Xn) es una<br />
sucesión <strong>de</strong> regiones <strong>de</strong> confianza con nivel asintótico 1 − α si:<br />
lim<br />
n→∞ Pθ (θ ∈ Sn(X1,...,Xn)) = 1 − α ∀ θ ∈ Θ .<br />
El siguiente Teorema nos da un procedimiento para construir intervalos<br />
<strong>de</strong> confianza con nivel asintótico (1 − α).<br />
Teorema 1: Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
perteneciente a la familia F (x, θ), θ ∈ Θ. Supongamos que para cada n se<br />
tienen <strong>de</strong>finidas funciones Un = Gn(X1,...,Xn, θ) tales que Un converge a U<br />
en distribución, don<strong>de</strong> U es una variable aleatoria con distribución in<strong>de</strong>pendiente<br />
<strong>de</strong> θ. Sean A y B puntos <strong>de</strong> continuidad <strong>de</strong> FU , tales que P (A ≤ U ≤<br />
B) =1−α. Definamos Sn(X1,...,Xn) ={θ : A ≤ Gn(X1,...,Xn, θ) ≤ B}.<br />
Luego, Sn(X1,...,Xn) es una sucesión <strong>de</strong> regiones <strong>de</strong> confianza con nivel<br />
asintótico (1 − α).
20 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />
Demostración:<br />
Pθ (θ ∈ Sn(X1,...,Xn)) = Pθ (A ≤ Gn(X1,...,Xn, θ) ≤ B)<br />
= Pθ (A ≤ Un ≤ B)<br />
Luego, limn→∞ P θ (θ ∈ Sn(X1,...,Xn)) = limn→∞ P θ (A ≤ Un ≤ B) =<br />
P θ (A ≤ U ≤ B) =P (A ≤ U ≤ B) =1− α.<br />
Ejemplo 1: Sea X1,...,Xn una muestra in<strong>de</strong>pendiente <strong>de</strong> una distribución<br />
Bi(θ, 1). Definamos:<br />
Un =<br />
ni=1 Xi − nθ<br />
nθ(1 − θ)<br />
Sabemos por el Teorema Central <strong>de</strong>l Límite que Un converge en distribución<br />
a una ley N(0, 1); por lo tanto, una sucesión <strong>de</strong> regiones <strong>de</strong> confianza con<br />
nivel asintótico 1 − α vendrá dada por:<br />
<br />
Sn(X1,...,Xn) =<br />
θ : −z α<br />
2 ≤<br />
⎧ <br />
⎨ ni=1 2<br />
Xi − nθ<br />
= θ : ≤ z<br />
⎩ nθ(1 − θ)<br />
2 ⎫<br />
⎬<br />
α<br />
2 ⎭<br />
⎧ <br />
⎨ n<br />
2 = θ : Xi + n<br />
⎩<br />
i=1<br />
2 θ 2 n<br />
− 2nθ<br />
i=1<br />
⎧<br />
⎨<br />
=<br />
⎩ θ : θ2 (n 2 + nz 2 <br />
n<br />
α ) − θ 2n<br />
2<br />
i=1<br />
= [ θ1, θ2]<br />
<br />
ni=1<br />
Xi − nθ<br />
≤ z α<br />
2<br />
nθ(1 − θ)<br />
Xi ≤ z 2 α<br />
2<br />
Xi + z 2 α<br />
2<br />
⎫<br />
⎬<br />
nθ(1 − θ)<br />
⎭<br />
<br />
n<br />
⎫<br />
2 ⎬<br />
n + Xi ≤ 0<br />
⎭<br />
don<strong>de</strong> θ1 y θ2 son las raíces <strong>de</strong> la ecuación<br />
θ 2 (n 2 + nz 2 <br />
n<br />
α ) − θ 2n Xi + z<br />
2<br />
i=1<br />
2 <br />
n<br />
2 α n + Xi =0<br />
2<br />
i=1<br />
La siguiente propiedad, que daremos sin <strong>de</strong>mostración y que es equivalente<br />
a la propiedad 5 <strong>de</strong> 1.8, nos permitirá encontrar un intervalo <strong>de</strong> confianza<br />
más sencillo para θ en el ejemplo anterior.<br />
Propiedad 1: Sea Xn una sucesión <strong>de</strong> variables aleatorias, X una variable<br />
aleatoria y a una constante. Supongamos que Xn → X en distribución.<br />
i=1
5.6. REGIONES DE CONFIANZA CON NIVEL ASINT... 21<br />
Sea a<strong>de</strong>más, una sucesión <strong>de</strong> variables aleatorias Yn tal que Yn → a en<br />
probabilidad; luego YnXn → aX en distribución.<br />
Volvamos ahora al Ejemplo 1. Un se pue<strong>de</strong> escribir<br />
√<br />
n(X − θ)<br />
Un = <br />
θ(1 − θ)<br />
Por otro lado, sabemos que un estimador consistente <strong>de</strong> θ es X. Luego<br />
<br />
1<br />
→<br />
X(1 − X)<br />
1<br />
θ(1 − θ)<br />
en probabilidad.<br />
Con lo cual, usando la propiedad anterior y llamando<br />
√<br />
n(X − θ)<br />
Vn = <br />
X(1 − X)<br />
se tiene que Vn → N(0, 1) en distribución.<br />
Por lo tanto, un intervalo <strong>de</strong> confianza para θ <strong>de</strong> nivel 1 − α, viene dado<br />
por<br />
Sn(X1,...,Xn) =<br />
=<br />
⎧<br />
⎨<br />
⎩ θ : −z α<br />
2 ≤<br />
⎡<br />
⎣X − z α<br />
2<br />
√ n(X − θ)<br />
<br />
X(1 − X)<br />
⎫<br />
⎬<br />
≤ z α<br />
2 ⎭<br />
<br />
X(1 − X)<br />
√ , X + z α<br />
n<br />
2<br />
<br />
X(1 − X)<br />
√ n<br />
Ejemplo 2: Supongamos que se tiene una muestra aleatoria X1,...,Xn <strong>de</strong><br />
una distribución totalmente <strong>de</strong>sconocida y sólo se sabe que E(X1) =µ y<br />
Var(X1) =σ 2 son finitos. Se quiere encontrar un intervalo <strong>de</strong> confianza para<br />
µ con nivel asintótico 1 − α. Sea<br />
Un = √ n(X − µ)/σ<br />
Por el Teorema Central <strong>de</strong>l Límite, sabemos que Un → N(0, 1) en distribución.<br />
Por otro lado,<br />
s 2 n = 1<br />
n − 1<br />
n<br />
(Xi − X)<br />
i=1<br />
2<br />
⎤<br />
⎦
22 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />
es un estimador fuertemente consistente <strong>de</strong> σ 2 . Luego, sn → σ en probabilidad.<br />
Con lo cual, utilizando la Propiedad 1, si<br />
se tendrá que<br />
Vn = √ n(X − µ)/sn<br />
Vn → N(0, 1) en distribución.<br />
Luego, un intervalo <strong>de</strong> confianza para µ, con nivel asintótico 1 − α estará<br />
dado por<br />
√ <br />
n(X − µ)<br />
Sn(X1,...,Xn) =<br />
=<br />
µ : −z α<br />
2 ≤<br />
<br />
X − z α<br />
2<br />
sn<br />
sn<br />
√ n , X + z α<br />
2<br />
≤ z α<br />
2<br />
<br />
sn<br />
√<br />
n<br />
5.7 Regiones <strong>de</strong> confianza basadas en estimadores<br />
<strong>de</strong> máxima verosimilitud<br />
Veamos ahora un procedimiento que nos permitirá, en condiciones bastante<br />
generales, encontrar regiones <strong>de</strong> confianza con nivel asintótico (1 − α).<br />
Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución con <strong>de</strong>nsidad<br />
f(x, θ). Sabemos, que bajo condiciones muy generales (ver Capítulo 3) el<br />
estimador <strong>de</strong> máxima verosimilitud,EMV, θ tiene distribución asintóticamente<br />
normal. Más precisamente, cuando θ ∈ IR bajo condiciones <strong>de</strong> regularidad,<br />
√ n( θn − θ) → N(0,<br />
1<br />
) en distribución,<br />
I1(θ)<br />
don<strong>de</strong> I1(θ) es el número <strong>de</strong> información <strong>de</strong> Fisher <strong>de</strong> X1.<br />
Luego, si llamamos<br />
Un = √ <br />
n I1(θ)( θn − θ)<br />
se tendrá que<br />
Un → N(0, 1) en distribución.<br />
Por lo tanto, una región <strong>de</strong> confianza para θ <strong>de</strong> nivel asintótico 1 − α estará<br />
dada por<br />
Sn = {θ : −z α<br />
2 ≤ √ n<br />
<br />
I1(θ)( θn − θ) ≤ z α<br />
2 }<br />
.
5.7. REGIONES DE CONFIANZA BASADAS EN EMV 23<br />
Obsérvese que éste fue el procedimiento que se usó en el Ejemplo 1 <strong>de</strong><br />
(5.6)(<strong>de</strong>mostrarlo).<br />
Esta región no tiene porqué ser un intervalo, y pue<strong>de</strong> ser difícil <strong>de</strong> calcular.<br />
En el caso en que I1(θ) sea continua, se podrá obtener un intervalo <strong>de</strong><br />
confianza a nivel asintótico (1 − α), <strong>de</strong> la siguiente forma relativamente simple:<br />
Sabemos que θn → θ en probabilidad, ya que el E.M.V. es consistente,<br />
entonces si I1(θ) es continua, se tiene<br />
Si llamamos U ∗ n = √ n<br />
lim<br />
n→∞ I1( θn) =I1(θ) en probabilidad.<br />
<br />
I1( θn)( θn − θ), resulta que<br />
U ∗ n<br />
→ N(0, 1) en distribución.<br />
Por lo tanto, un intervalo <strong>de</strong> confianza para θ <strong>de</strong> nivel <strong>de</strong> confianza asintótico<br />
1 − α vendrá dado por:<br />
Sn = {θ : −z α<br />
2 ≤ √ <br />
n I1( θn)( θn − θ) ≤ z α<br />
2 }<br />
⎡<br />
=<br />
z α<br />
⎣ 2<br />
θn − <br />
I1( θn) √ ,<br />
n<br />
z α<br />
2<br />
θn + <br />
I1( θn) √ ⎤<br />
⎦ .<br />
n<br />
La longitud <strong>de</strong> estos intervalos es<br />
L =2z α<br />
2<br />
1<br />
<br />
√<br />
n I1( .<br />
θn)<br />
Luego, bajo condiciones en que vale el Teorema <strong>de</strong> consistencia <strong>de</strong>l EMV se<br />
tiene<br />
√ 1<br />
lim nL=2zα c.t.p.<br />
n→∞<br />
2 I1(θ)<br />
y bajo condiciones muy generales, también se pue<strong>de</strong> mostrar que<br />
1<br />
<br />
I1(θ) .<br />
√<br />
lim nEθ(L) =2zα n→∞<br />
2<br />
Pue<strong>de</strong> <strong>de</strong>mostrarse que bajo condiciones muy generales, para todo intervalo<br />
I insesgado, con nivel asintótico 1 − α se tendrá<br />
√<br />
lim nEθ(LI) ≥ 2z α<br />
n→∞<br />
2<br />
1<br />
I1(θ)
24 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />
don<strong>de</strong>, LI indica la longitud <strong>de</strong>l intervalo I. Por lo tanto, los intervalos<br />
obtenidos a partir <strong>de</strong>l estimador <strong>de</strong> máxima verosimilitud pue<strong>de</strong>n consi<strong>de</strong>rarse<br />
asintóticamente insesgados <strong>de</strong> menor longitud esperada.<br />
Para ver estas propieda<strong>de</strong>s en <strong>de</strong>talle, consultar Wilks [4, pp. 374–376].<br />
Luego <strong>de</strong> la <strong>de</strong>scripción <strong>de</strong> los métodos para obtener intervalos <strong>de</strong> confianza<br />
a nivel asintótico, podría pensarse en los casos que es posible encontrarlos<br />
en lugar <strong>de</strong> los intervalos exactos. Sin embargo, la convergencia <strong>de</strong>l<br />
nivel <strong>de</strong> confianza al valor <strong>de</strong>seado <strong>de</strong>pen<strong>de</strong> fuertemente <strong>de</strong> la distribución y<br />
podría ser necesario un tamaño <strong>de</strong> muestra gran<strong>de</strong> para que la aproximación<br />
<strong>de</strong>l nivel asintótico sea aceptable. En general, no se pue<strong>de</strong> <strong>de</strong>terminar el<br />
tamaño <strong>de</strong> muestra n para el cual la aproximación asintótica es suficientemente<br />
buena usando consi<strong>de</strong>raciones teóricas. En la mayoría <strong>de</strong> los casos<br />
es necesario estudiar este problema por métodos <strong>de</strong> Monte Carlo que se<br />
estudiarán más a<strong>de</strong>lante.<br />
5.8 Regiones <strong>de</strong> confianza simultáneas<br />
Supongamos que se tiene un vector aleatorio X cuya distribución pertenece<br />
a la familia F (x, θ) yqueθ =(θ1,θ2). Ocurre a veces que se tienen regiones<br />
<strong>de</strong> confianza para θ1 y θ2 por separado, es <strong>de</strong>cir, se tienen S1(X) yS2(X),<br />
tales que:<br />
P (θ1 ∈ S1(X)) = 1 − α y P (θ2 ∈ S2(X)) = 1 − α<br />
pero P (θ1 ∈ S1(X),θ2 ∈ S2(X)) ≤ 1 − α.<br />
Luego, S1(X) × S2(X) no es una región <strong>de</strong> confianza simultánea <strong>de</strong> nivel<br />
(1 − α) para (θ1,θ2).<br />
Una forma <strong>de</strong> conseguir que la probabilidad simultánea <strong>de</strong> que θ1 y θ2<br />
estén en S1(X) yS2(X) respectivamente, sea al menos (1 − α) se obtiene<br />
consi<strong>de</strong>rando regiones <strong>de</strong> confianza <strong>de</strong> nivel (1 − α/2) para θ1 y θ2, es <strong>de</strong>cir,<br />
tales que:<br />
P (θ1 ∈ S1(X)) = 1 − α<br />
y P (θ2 ∈ S2(X)) = 1 −<br />
2<br />
α<br />
2 .<br />
Luego, si Ac indica el complemento <strong>de</strong>l conjunto A,<br />
P (θ1 ∈ S1(X),θ2 ∈ S2(X) =1− P [(θ1 ∈ S1(X)) c ∪ (θ2 ∈ S2(X)) c ] .<br />
Como P (A ∪ B) ≤ P (A)+P (B), se <strong>de</strong>duce que<br />
P (θ1 ∈ S1(X),θ2 ∈ S2(X)) ≥<br />
=<br />
1 − P (θ1 /∈ S1(X)) − P (θ2 /∈ S2(X))<br />
1− α α<br />
− =1− α.<br />
2 2
5.8. REGIONES DE CONFIANZA SIMULTÁNEAS 25<br />
Es <strong>de</strong>cir, tomando regiones <strong>de</strong> confianza para cada parámetro <strong>de</strong> nivel 1−α/2<br />
nos aseguramos un nivel simultáneo mayor o igual que 1 − α. Este procedimiento<br />
se pue<strong>de</strong> generalizar inmediatamente para el caso que se requieran regiones<br />
simultáneas para k−parámetros. Bastará tomar para cada parámetro<br />
un región <strong>de</strong> nivel α/k.<br />
Ejemplo 1: Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
N(µ, σ 2 ). Hemos visto que un intervalo <strong>de</strong> confianza para µ <strong>de</strong> nivel 1 − α<br />
está dado por:<br />
S1 =<br />
<br />
X − t n−1, α<br />
2<br />
s<br />
√ n , X + t n−1, α<br />
2<br />
<br />
s<br />
√<br />
n<br />
mientras que un intervalo <strong>de</strong> confianza para σ2 <strong>de</strong> nivel 1 − α está dado por:<br />
⎡<br />
ni=1 (Xi − X)<br />
S2 = ⎣<br />
2 ni=1 (Xi − X)<br />
,<br />
2<br />
⎤<br />
⎦ .<br />
Luego, si tomamos<br />
S ∗ 1 =<br />
y S ∗ 2 =<br />
<br />
χ 2 n−1, α<br />
2<br />
X − t n−1, α<br />
4<br />
⎡<br />
ni=1 (Xi − X)<br />
⎣<br />
2<br />
,<br />
χ 2 n−1, α<br />
4<br />
χ 2 n−1,1− α<br />
2<br />
s<br />
√ n , X + t n−1, α<br />
4<br />
,<br />
<br />
s<br />
√<br />
n<br />
ni=1 (Xi − X) 2<br />
χ 2 n−1,1− α<br />
4<br />
S∗ 1 × S∗ 2 es una región <strong>de</strong> confianza simultánea para (µ, σ2 ) <strong>de</strong> nivel mayor o<br />
igual que 1 − α.<br />
El inconveniente que tiene este método es que el nivel es mayor que el<br />
<strong>de</strong>seado, esto ofrece más seguridad que la <strong>de</strong>seada <strong>de</strong> que los valores <strong>de</strong> los<br />
parámetros estarán <strong>de</strong>ntro <strong>de</strong> la región, pero por otra parte las regiones<br />
resultan más gran<strong>de</strong>s que lo necesario y por lo tanto, será más imprecisa la<br />
<strong>de</strong>terminación <strong>de</strong> los parámetros.<br />
Obtendremos ahora en el caso normal una región <strong>de</strong> confianza simultánea<br />
para µ y σ2 <strong>de</strong> nivel exactamente igual a 1 − α.<br />
Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución N(µ, σ2 ). Sabemos<br />
que U = √ n(X − µ)/σ y V = S2 /σ2 , don<strong>de</strong> S2 = n i=1(Xi − X) 2 son<br />
in<strong>de</strong>pendientes con distribución N(0, 1) y χ2 n−1 respectivamente. Luego, se<br />
tendrá<br />
<br />
P<br />
−z β<br />
2<br />
√<br />
n(X − µ)<br />
≤<br />
σ<br />
≤ z β<br />
2<br />
,χ 2<br />
n−1,1− β<br />
2<br />
,<br />
⎤<br />
⎦<br />
≤ S2<br />
≤ χ2<br />
σ2 n−1, β<br />
<br />
=<br />
2
26 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />
=<br />
<br />
P −z β<br />
2<br />
√<br />
n(X − µ)<br />
≤<br />
σ<br />
= (1−β)(1 − β) =(1−β) 2<br />
≤ z β<br />
2<br />
<br />
P<br />
<br />
χ n−1,1− β<br />
2<br />
≤ S2<br />
≤ χ2<br />
σ2 n−1, β<br />
<br />
2<br />
Tomemos β =1− (1 − α) 1/2 , entonces (1 − β) 2 =(1−α); luego<br />
<br />
Sn = (µ, σ 2 ):−z β<br />
2<br />
√<br />
n(X − µ)<br />
≤<br />
≤ z β ,χ<br />
σ<br />
2<br />
2<br />
n−1,1− β<br />
2<br />
≤ S2<br />
≤ χ2<br />
σ2 n−1, β<br />
2<br />
es una región <strong>de</strong> confianza simultánea para (µ, σ2 ) <strong>de</strong> nivel 1 − α.<br />
estudiar la forma <strong>de</strong> Sn po<strong>de</strong>mos escribir<br />
Para<br />
⎧<br />
⎨<br />
Sn =<br />
⎩ (µ, σ2 ): ≤ σ 2 , ≤ σ 2 ≤<br />
S2 ⎫<br />
⎬<br />
⎭<br />
La condición<br />
n(X − µ)2<br />
z 2 β<br />
2<br />
σ 2 ≥<br />
S 2<br />
χ 2<br />
n−1, β<br />
2<br />
n(X − µ)2<br />
z 2 β<br />
2<br />
χ 2<br />
n−1,1− β<br />
2<br />
nos indica la región <strong>de</strong>l plano (µ, σ2 ), por encima <strong>de</strong> la parábola<br />
y la condición<br />
σ 2 = n(X − µ) 2 /z 2 β<br />
2<br />
S 2<br />
χ 2<br />
n−1, β<br />
2<br />
≤ σ 2 ≤<br />
S 2<br />
χ 2<br />
n−1,1− β<br />
2<br />
indica la franja horizontal comprendida entre las rectas horizontales<br />
y S2 /χ2 .<br />
σ 2 = S 2 /χ 2<br />
n−1, β<br />
2<br />
n−1,1− β<br />
2<br />
5.9 Cotas superiores e inferiores <strong>de</strong> confianza<br />
En los ejemplos vistos anteriormente interesaba conocer el parámetro <strong>de</strong>sconocido<br />
con la mayor precisión posible y para este propósito lo más a<strong>de</strong>cuado<br />
era construir intervalos <strong>de</strong> confianza <strong>de</strong> longitud tan pequeña como era posible.<br />
En esta sección, estudiaremos otro tipo <strong>de</strong> regiones <strong>de</strong> confianza que<br />
surgen naturalmente cuando se está interesado en conocer una cota superior<br />
o inferior <strong>de</strong>l parámetro.<br />
Consi<strong>de</strong>remos el siguiente ejemplo. En el Departamento <strong>de</strong> Control <strong>de</strong> un<br />
laboratorio se recibe un frasco con cierta droga que pue<strong>de</strong> contener alguna<br />
impureza in<strong>de</strong>seada.
5.9. COTAS SUPERIORES E INFERIORES DE CONFIANZA 27<br />
Supongamos que se hagan n mediciones <strong>de</strong> la concentración <strong>de</strong> la impureza,<br />
las que están afectadas <strong>de</strong> un error, luego se observan X1,...,Xn<br />
don<strong>de</strong><br />
Xi = µ + εi , 1 ≤ i ≤ n<br />
don<strong>de</strong> µ es el valor verda<strong>de</strong>ro <strong>de</strong> la concentración <strong>de</strong> la impureza y los εi<br />
son variables aleatorias N(0,σ 2 ) in<strong>de</strong>pendientes. Luego X1,...,Xn es una<br />
muestra <strong>de</strong> una distribución N(µ, σ 2 ).<br />
En este caso, sólo se estará interesado en <strong>de</strong>terminar si la droga es aceptable<br />
o no, y para esto más que un intervalo <strong>de</strong> confianza interesará tener<br />
una cota superior µ(X), (X =(X1,...,Xn)) tal que la probabilidad <strong>de</strong> que<br />
µ ≤ µ(X1,...,Xn) sea alta. De esta manera se tendría acotada con probabilidad<br />
gran<strong>de</strong> la concentración <strong>de</strong> impureza <strong>de</strong> la droga.<br />
Esto sugiere la siguiente <strong>de</strong>finición.<br />
Definición 1: Sea X un vector cuya distribución pertenece a la familia<br />
F (x,θ), don<strong>de</strong> θ ∈ Θ ⊂ IR. Se dirá que θ(X) es una cota superior <strong>de</strong><br />
confianza con nivel <strong>de</strong> confianza (1 − α) para θ si P (θ(X) ≥ θ) =1− α o<br />
sea si (−∞, θ(X)] es una región <strong>de</strong> confianza <strong>de</strong> nivel 1 − α. A este tipo <strong>de</strong><br />
región <strong>de</strong> confianza semirrecta izquierda se <strong>de</strong>nomina también intervalo <strong>de</strong><br />
confianza unilateral izquierdo con nivel 1 − α.<br />
Definición 2: Sea X un vector cuya distribución pertenece a la familia<br />
F (x,θ) con θ ∈ Θ ⊂ IR. Se dirá que θ(X) es una cota inferior <strong>de</strong> confianza<br />
con nivel <strong>de</strong> confianza 1−α si P (θ(X) ≤ θ) =1−α, o sea si [θ(X), ∞) es una<br />
región <strong>de</strong> confianza <strong>de</strong> nivel 1 − α. A este tipo <strong>de</strong> región la <strong>de</strong>nominaremos<br />
intervalo <strong>de</strong> confianza unilateral <strong>de</strong>recho.<br />
El siguiente Teorema nos da un procedimiento general para obtener cotas<br />
superiores e inferiores <strong>de</strong> confianza con nivel 1 − α.<br />
Teorema. Sea X un vector aleatorio cuya distribución pertenece a la familia<br />
F (x,θ) con θ ∈ Θ ⊂ IR. Sea G(x,θ) una función estrictamente monótona en<br />
θ y tal que U = G(X,θ) tiene distribución in<strong>de</strong>pendiente <strong>de</strong> θ. Consi<strong>de</strong>remos<br />
A y B tales que P (U ≤ A) =α y P (U ≥ B) =α.<br />
(a) Si G(x,θ) es creciente y continua en θ, las cotas superiores e inferior<br />
con nivel <strong>de</strong> confianza 1 − α vienen dadas respectivamente por las<br />
soluciones a las siguientes ecuaciones<br />
G(X, θ(X)) = B y G(X,θ(X)) = A.
28 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />
(b) Si G(X,θ) es <strong>de</strong>creciente y continua en cambio θ(X) y θ(X) vienen<br />
dadas respectivamente por<br />
G(X, θ(X)) = A y G(X,θ(X)) = B.<br />
Demostración: La haremos sólo para el caso que G(x,θ) es creciente en<br />
θ y para la cota superior. En este caso θ(X) está <strong>de</strong>finida por<br />
Luego,<br />
G(X, θ(X)) = B.<br />
Pθ(θ ≤ θ(X)) = Pθ(G(X,θ) ≤ G(X, θ(X)))<br />
= Pθ(G(X,θ) ≤ B) =P (U ≤ B) =1− α.<br />
Ejemplo 1: Supongamos que como en el ejemplo <strong>de</strong> la droga, don<strong>de</strong> se<br />
quería medir la concentración <strong>de</strong> impureza, X =(X1,...,Xn) es una muestra<br />
aleatoria <strong>de</strong> una distribución N(µ, σ 2 ) y supongamos que σ 2 sea conocido.<br />
Luego,<br />
√<br />
n(X − µ)<br />
U = G(X,µ)=<br />
σ<br />
tiene distribución N(0, 1). Por lo tanto, en este caso A = −zα y B = zα.<br />
Luego, como G(x,µ) es <strong>de</strong>creciente en µ se tendrá que las cotas superiores<br />
e inferiores <strong>de</strong> confianza <strong>de</strong> nivel <strong>de</strong> confianza 1 − α se obtendrán <strong>de</strong> la<br />
siguiente forma.<br />
Sean µ(X) yµ(X)) <strong>de</strong>finidas por<br />
√ √<br />
n(X − µ(X))<br />
n(X − µ(X))<br />
= −zα,<br />
= zα<br />
σ<br />
σ<br />
es <strong>de</strong>cir, <strong>de</strong>spejando se obtiene<br />
σ<br />
µ(X) =X + zα √<br />
n<br />
σ<br />
µ(X) =X − zα √<br />
n<br />
Ejemplo 2: Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
N(µ, σ 2 ) y supongamos σ 2 <strong>de</strong>sconocido; luego sabemos que<br />
√<br />
n(X − µ)<br />
U = G(X,µ)=<br />
s
5.9. COTAS SUPERIORES E INFERIORES DE CONFIANZA 29<br />
tiene distribución Tn−1.<br />
Luego, procediendo como en el Ejemplo 1, obtendremos como cota superior<br />
e inferior <strong>de</strong> confianza con nivel 1 − α<br />
µ(X) =X + t n−1, α<br />
2<br />
s<br />
√ n , y µ(X) =X − t n−1, α<br />
2<br />
s<br />
√ n<br />
5.9.1 Comparación <strong>de</strong> cotas superiores e inferiores <strong>de</strong> confianza<br />
Así como en el caso <strong>de</strong> intervalos <strong>de</strong> confianza interesaba que tuviesen longitud<br />
lo más corta posible, cabe preguntarse cómo sería <strong>de</strong>seable que fuesen las<br />
cotas superiores e inferiores. Planteado <strong>de</strong> otra manera, dadas por ejemplo<br />
dos cotas superiores θ1(X) yθ2(X), existe algún criterio para compararlas<br />
y concluir por ejemplo que una es más conveniente que otra? Análogamente<br />
en el caso <strong>de</strong> cotas inferiores.<br />
Como en el caso <strong>de</strong> cota superior se tiene controlada la posibilidad que<br />
θ(X) esté por <strong>de</strong>bajo <strong>de</strong> θ, ya que esto sólo pue<strong>de</strong> suce<strong>de</strong>r con probabilidad<br />
α, el riesgo no controlado es que θ(X) sobrevalúe θ muy por encima <strong>de</strong> lo<br />
necesario. Esta sobrevaluación que la llamaremos C(X,θ) estará dada por<br />
C(X,θ)=<br />
<br />
θ(X) − θ si θ(X) >θ<br />
0 si θ(X) ≤ θ<br />
Luego parece razonable buscar cotas superiores que minimicen Eθ(C(X,θ))<br />
uniformemente en θ.<br />
Del mismo modo en el caso <strong>de</strong> cotas inferiores, se pue<strong>de</strong> <strong>de</strong>finir la subvaluación<br />
por<br />
<br />
D(X,θ)=<br />
θ − θ(X) si θ>θ(X)<br />
0 si θ ≤ θ(X)<br />
y en este caso interesará minimizar Eθ(D(X,θ)) uniformemente en θ.<br />
La teoría <strong>de</strong> la optimalidad <strong>de</strong> las cotas <strong>de</strong> confianza se <strong>de</strong>riva <strong>de</strong> la teoría<br />
<strong>de</strong> optimalidad <strong>de</strong> los tests y por lo tanto se pospone hasta el Capítulo 6.<br />
Solamente diremos que contrariamente a lo que sucedía con intervalos <strong>de</strong><br />
confianza, existen en casos no triviales cotas uniformemente óptimas. Por<br />
ejemplo, los procedimientos <strong>de</strong>rivados en el Ejemplo 1 tienen esta propiedad.<br />
En el caso <strong>de</strong>l Ejemplo 2, no existen procedimientos uniformemente óptimos.
30 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />
De todos modos los procedimientos <strong>de</strong>rivados en ese ejemplo son uniformemente<br />
óptimos si se restringe al conjunto <strong>de</strong> procedimientos insesgados. (Una<br />
cota es insesgada si su intervalo <strong>de</strong> confianza unilateral asociado es una región<br />
<strong>de</strong> confianza insesgada.)<br />
REFERENCIAS<br />
1. Lehmann, E.L. (1994) Testing Statistical Hypothesis. Chapman and<br />
Hall.<br />
2. Pratt, E. (1961) Length of Confi<strong>de</strong>nce Intervals, J. Amer. Statist.<br />
Assoc. 16: 243–258.<br />
3. Tate, R.F. y Klett, G.W. (1959) Optimal Confi<strong>de</strong>nce Intervals for the<br />
variance of a Normal Distribution, J. Amer. Statist. Assoc. 54: 674–<br />
682.<br />
4. Wilks, S.S. (1962) Mathematical Statistics, J. Wiley and Sons.
Chapter 6<br />
Tests <strong>de</strong> Hipótesis<br />
6.1 Introducción<br />
El test <strong>de</strong> hipótesis es una manera formal <strong>de</strong> <strong>de</strong>cidir entre dos opciones, o<br />
sea, es una manera <strong>de</strong> distinguir entre distribuciones <strong>de</strong> probabilidad en base<br />
a variables aleatorias generadas por una <strong>de</strong> ellas. Veamos un ejemplo para<br />
tener una i<strong>de</strong>a <strong>de</strong> lo que significan.<br />
Ejemplo 1. Supongamos que un comerciante <strong>de</strong>be comprar un cargamento<br />
<strong>de</strong> N manzanas. El comerciante ignora qué parte <strong>de</strong>l cargamento no<br />
se encuentra en buen estado. Como inspeccionar todo el cargamento es muy<br />
costoso, <strong>de</strong>ci<strong>de</strong> elegir al azar una muestra <strong>de</strong> n manzanas.<br />
Sea X el número <strong>de</strong> manzanas en mal estado que observa en la muestra.<br />
Luego si D es el número <strong>de</strong> manzanas en mal estado que hay en el cargamento,<br />
se tiene que la distribución <strong>de</strong> X es hipergeométrica y su función <strong>de</strong><br />
probabilidad puntual está dada por<br />
p(x, D) =<br />
<br />
D<br />
x<br />
<br />
N − D<br />
<br />
n − x<br />
<br />
N<br />
n<br />
si max(0,D− N + n) ≤ x ≤ min(n, D)<br />
y D pue<strong>de</strong> tomar valores en el conjunto Θ = {0, 1, 2,...,N}.<br />
Supongamos que se hubiese convenido que el cargamento <strong>de</strong>bería tener<br />
no más <strong>de</strong> D0 manzanas en mal estado. Luego, en base a la variable X, que<br />
el comerciante observa, <strong>de</strong>be <strong>de</strong>cidir si el cargamento satisface los requisitos<br />
1
2 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
convenidos. Es <strong>de</strong>cir, <strong>de</strong>be <strong>de</strong>cidir entre dos alternativas<br />
D ∈ Θ1 = {0, 1,...,D0} o D ∈ Θ2 = {D0 +1,...,N}<br />
Esto pue<strong>de</strong> ser expresado como que el comerciante <strong>de</strong>be <strong>de</strong>cidir entre dos<br />
hipótesis:<br />
H:D ∈ Θ1 contra K : D ∈ Θ2<br />
y esta <strong>de</strong>cisión <strong>de</strong>be hacerla a partir <strong>de</strong>l valor observado X.<br />
Un test será una regla <strong>de</strong> <strong>de</strong>cisión basada en X. Esto pue<strong>de</strong> ser expresado<br />
matemáticamente como una función ϕ(X) que toma dos valores: 1 y 0. 1<br />
significará que rechaza H y por lo tanto acepta K y 0 que acepta H.<br />
Supongamos por ejemplo que N = 1000, n = 100 y D0 = 150. Un posible<br />
test está dado por:<br />
ϕ1(X) =<br />
<br />
1 si X>15<br />
0 si X ≤ 15 .<br />
De acuerdo con este test se rechaza el cargamento, es <strong>de</strong>cir, se <strong>de</strong>ci<strong>de</strong> que<br />
D ∈ Θ2 si se observa en la muestra más <strong>de</strong> 15 manzanas en mal estado. Si<br />
se quisiera usar un test más seguro para el comprador (en el sentido <strong>de</strong> que<br />
la probabilidad <strong>de</strong> aceptar un cargamento con más <strong>de</strong> 150 manzanas en mal<br />
estado sea menor) se podría usar, por ejemplo,<br />
ϕ2(X) =<br />
<br />
1 si X>5<br />
0 si X ≤ 5 .<br />
Por ahora, no tenemos ningún criterio para elegir entre dos tests, ni entre<br />
los muchos otros que podrían <strong>de</strong>finirse. En los párrafos siguientes atacaremos<br />
el problema <strong>de</strong> <strong>de</strong>finir criterios para comparar diferentes tests, y el <strong>de</strong> elegir<br />
un test óptimo.<br />
Ejemplo 2. Supongamos que para curar una <strong>de</strong>terminada enfermedad se<br />
emplea una droga que cura la enfermedad con una probabilidad θ0 conocida.<br />
Se ha obtenido una nueva droga y se quiere <strong>de</strong>terminar si vale la pena cambiar<br />
la droga. Para ello se prueba la nueva droga con n pacientes obteniéndose<br />
los resultados X1,...,Xn, don<strong>de</strong> Xi = 1 indica que el i−ésimo paciente se<br />
curó y Xi = 0, que no se curó. Sea θ la probabilidad <strong>de</strong> curar <strong>de</strong> la nueva<br />
droga, la cual no es conocida.
6.2. FORMULACION GENERAL DEL TEST DE HIPOTESIS 3<br />
Se está dispuesto a cambiar <strong>de</strong> droga si la nueva droga es tal que θ ≥<br />
θ0 +0.05, es <strong>de</strong>cir si esta última cura al menos un 5% más <strong>de</strong> pacientes que<br />
la vieja. Luego, se tiene que <strong>de</strong>cidir entre dos hipótesis:<br />
H:θ ≤ θ0 +0.05 y K : θ>θ0 +0.05<br />
Un test será una función ϕ(X1,...,Xn) que toma valores 1 ó 0.<br />
ϕ(X1,...,Xn) = 0 indicará que aceptamos H, es <strong>de</strong>cir, no se continúa usando<br />
la droga vieja.<br />
Para ejemplificar, supongamos que θ0 =0.8 yn = 100. Un posible test<br />
sería<br />
⎧<br />
⎪⎨<br />
ϕ(X1,...,Xn) =<br />
⎪⎩<br />
1 si 100<br />
i=1 Xi ≥ 85<br />
0 si 100<br />
i=1 Xi < 85 .<br />
Este test acepta K, es <strong>de</strong>cir, cambia <strong>de</strong> droga si 85 pacientes o más<br />
resultan curados.<br />
Si se quisiera ser más conservador, es <strong>de</strong>cir, estar más seguro que la droga<br />
tiene la probabilidad <strong>de</strong> curar mayor que 0.85 antes <strong>de</strong> tomar la <strong>de</strong>cisión <strong>de</strong><br />
cambiarla, se podría usar el test<br />
⎧<br />
⎪⎨<br />
ϕ(X1,...,Xn) =<br />
⎪⎩<br />
1 si 100<br />
i=1 Xi ≥ 90<br />
0 si 100<br />
i=1 Xi < 90 .<br />
6.2 Formulación general <strong>de</strong>l problema <strong>de</strong>l test <strong>de</strong><br />
hipótesis<br />
Supongamos que se obtiene un vector aleatorio X =(X1, ..., Xn) cuya función<br />
<strong>de</strong> distribución pertenece a la familia F (x, θ) con θ ∈ Θ ⊂ IR p . Sean Θ1 y<br />
Θ2 tales que Θ1 ∩ Θ2 = ∅ yΘ1 ∪ Θ2 = Θ. Un test para este problema será<br />
una regla basada en X para <strong>de</strong>cidir entre las dos hipótesis<br />
H:θ ∈ Θ1 contra K : θ ∈ Θ2<br />
Definición 1. Se llama test a una función ϕ : IR n → [0, 1].<br />
Se dice que un test ϕ es no aleatorizado si toma solamente los valores 0<br />
ó1.
4 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
Cuando ϕ(X) = 1 se rechazará la hipótesis H y por lo tanto, se aceptará<br />
K. En cambio, ϕ(X) = 0 indicará que se acepta H.<br />
Si el test toma valores distintos <strong>de</strong> 0 y 1 se dice que es un test aleatorizado.<br />
En este caso, el valor ϕ(x) indica con que probabilidad se rechaza H si se<br />
observa X = x, es <strong>de</strong>cir, ϕ(x) =P (rechazar H|X = x)<br />
Por ejemplo, ϕ(X) =1/2 indicará que si observamos el vector X <strong>de</strong>bemos<br />
rechazar H con probabilidad 1/2, es <strong>de</strong>cir, podríamos tirar una moneda y si<br />
saliera ceca aceptarla, ϕ(X) =1/6 indicará que si observamos X <strong>de</strong>bemos<br />
rechazar H con probabilidad 1/6; en este caso podríamos tirar un dado; si<br />
saliese 1 rechazaríamos H y en los <strong>de</strong>más casos la aceptaríamos.<br />
La aleatorización introduce en la <strong>de</strong>cisión un elemento extraño al fenómeno<br />
estudiado, como el lanzamiento <strong>de</strong> una moneda o un dado, con que hemos<br />
ejemplificado. Por lo tanto, se evitan en lo posible los tests aleatorizados en<br />
los casos prácticos. Sin embargo, <strong>de</strong>s<strong>de</strong> el punto <strong>de</strong> vista teórico, conviene<br />
como se verá, admitir la posibilidad <strong>de</strong> tests aleatorizados.<br />
En la mayoría <strong>de</strong> las situaciones, los tests vienen dados como funciones<br />
<strong>de</strong> un estadístico, llamado estadístico <strong>de</strong>l test, que, por ejemplo, como en el<br />
caso <strong>de</strong> la sección anterior, sirven para rechazar H para valores gran<strong>de</strong>s. En<br />
general, el estadístico <strong>de</strong>l test sirve para medir la diferencia entre los datos<br />
y lo que se espera <strong>de</strong> ellos bajo H.<br />
Definición 2. La región crítica R, <strong>de</strong> un test ϕ, es el conjunto <strong>de</strong> puntos<br />
X que llevan a la <strong>de</strong>cisión <strong>de</strong> rechazar H y la región <strong>de</strong> aceptación A es el<br />
conjunto <strong>de</strong> puntos X que llevan a aceptar H.<br />
Dado un test para un problema <strong>de</strong> test <strong>de</strong> hipótesis se podrá incurrir en<br />
dos tipos <strong>de</strong> error.<br />
Definición 3. Se llamará error <strong>de</strong> tipo 1 al que se comete al rechazar la<br />
hipótesis H, cuando es verda<strong>de</strong>ra. Se llamará error <strong>de</strong> tipo 2 al que se comete<br />
al aceptar H, cuando esta hipótesis es falsa.<br />
Luego, para un test no aleatorizado, la probabilidad <strong>de</strong> cometer un error<br />
<strong>de</strong> tipo 1 será P θ (R), cuando θ ∈ Θ1. Mientras que la probabilidad <strong>de</strong> error<br />
<strong>de</strong> tipo 2, será P θ (A) =1− P θ (R), cuando θ ∈ Θ2.<br />
Ejemplo 1 (don<strong>de</strong> se visualiza la necesidad <strong>de</strong> introducir tests aleatorizados).<br />
Supongamos que una empresa automotriz sostiene que domina la<br />
mitad <strong>de</strong>l mercado, esto es que la mitad <strong>de</strong> los compradores <strong>de</strong> automóviles
6.2. FORMULACION GENERAL DEL TEST DE HIPOTESIS 5<br />
se <strong>de</strong>ci<strong>de</strong>n por alguno <strong>de</strong> los mo<strong>de</strong>los fabricados por ella. Se <strong>de</strong>sea testear si<br />
la afirmación hecha por la empresa es exagerada o no.<br />
Supongamos que se toma una muestra <strong>de</strong> compradores que, para facilidad<br />
en los cálculos, consi<strong>de</strong>raremos <strong>de</strong> tamaño n =6.<br />
Las hipótesis en cuestión son:<br />
H:θ =1/2 contra K : θ
6 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
Tendría sentido, en esta situación, plantearse un test <strong>de</strong> la forma<br />
⎧<br />
⎪⎨ 1 si T2<br />
y tratar <strong>de</strong> elegir γ <strong>de</strong> forma tal que tenga el error <strong>de</strong> tipo I <strong>de</strong>seado. Para<br />
eso se requiere<br />
P 1 (ϕ(X) =1)=P 1 (T
6.2. FORMULACION GENERAL DEL TEST DE HIPOTESIS 7<br />
Definición 4. Se llama función <strong>de</strong> potencia <strong>de</strong>l test ϕ(X) a la función<br />
βϕ(θ) =P θ (rechazar H),<br />
don<strong>de</strong> P θ indica la probabilidad cuando θ es el valor verda<strong>de</strong>ro.<br />
En el caso que ϕ es un test no aleatorizado se tiene<br />
βϕ(θ) =P θ (ϕ(X) =1)=E θ (ϕ(X)) .<br />
Si ϕ es aleatorizado, ϕ(X) pue<strong>de</strong> interpretarse como la probabilidad <strong>de</strong><br />
rechazar H, condicional a observar X; luego se tiene<br />
y resulta<br />
ϕ(X) =P (rechazar H|X)<br />
βϕ(θ) =P θ ( rechazar H) = E θ (P ( rechazar H|X)) = E θ (ϕ(X)) .<br />
Por lo tanto, en todos los casos se tiene<br />
βϕ(θ) =E θ (ϕ(X)) .<br />
Expresemos ahora las probabilida<strong>de</strong>s <strong>de</strong> los errores <strong>de</strong> un test en términos<br />
<strong>de</strong> βϕ(θ)<br />
• La probabilidad que ocurra un error <strong>de</strong> tipo 1 será βϕ(θ) para θ ∈ Θ1.<br />
• La probabilidad que ocurra un error <strong>de</strong> tipo 2 será (1 − βϕ(θ)) para<br />
θ ∈ Θ2.<br />
Un buen test <strong>de</strong>berá tener errores <strong>de</strong> tipo 1 y 2 pequeños, y por lo tanto<br />
<strong>de</strong>be tener una función <strong>de</strong> potencia βϕ(θ) que tome valores cercanos a 0 para<br />
θ ∈ Θ1 y valores cercanos a 1 para θ ∈ Θ2.<br />
En realidad, no po<strong>de</strong>mos hacer ambos errores pequeños simultáneamente.<br />
Más aún, para un tamaño <strong>de</strong> muestra dado para que <strong>de</strong>crezca la probabilidad<br />
<strong>de</strong> que ocurra un error <strong>de</strong> tipo 1, <strong>de</strong>bemos aumentar la probabilidad <strong>de</strong> que<br />
ocurra un error <strong>de</strong> tipo 2 (o sea disminuir la potencia). Si queremos que<br />
ambos sean pequeños <strong>de</strong>bemos aumentar la cantidad <strong>de</strong> observaciones.<br />
Por ejemplo, en el Ejemplo 1, el test ϕ∗ cumplía βϕ∗(1/2) = 0.10. Por<br />
otra parte, se verifica que βϕ∗(θ) =(1−θ)6 +5.4 θ(1 − θ) 5 , con lo cual
8 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
tenemos la tabla siguiente que da la función <strong>de</strong> potencia <strong>de</strong>l test ϕ ∗ para<br />
algunos valores <strong>de</strong> θ ∈ [0, 1/2]<br />
θ 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5<br />
βϕ∗(θ) 1 0.944 0.85 0.736 0.616 0.498 0.389 0.295 0.215 0.149 0.1<br />
Como vemos, la función <strong>de</strong> potencia <strong>de</strong> ϕ ∗ es una función <strong>de</strong>creciente <strong>de</strong><br />
θ en el intervalo [0, 1/2] que tien<strong>de</strong> a 1 cuando θ → 0 y tien<strong>de</strong> a 0.1 cuando<br />
θ → 1/2. Es <strong>de</strong>cir, la probabilidad <strong>de</strong> error 2 tien<strong>de</strong> a 0 cuando θ → 0ypor<br />
lo tanto, se logran <strong>de</strong>tectar bien alternativas lejanas a la hipótesis H.<br />
Para los procedimientos que daremos 1−P (error <strong>de</strong> tipo 1) ≥ P (error <strong>de</strong> tipo 2).<br />
El objetivo será encontrar procedimientos con la menor probabilidad <strong>de</strong> tipo<br />
2, fijada la probabilidad <strong>de</strong> tipo 1, es <strong>de</strong>cir, buscaremos procedimientos con<br />
potencia gran<strong>de</strong> para θ ∈ Θ2.<br />
6.2.1 Nivel <strong>de</strong> significación <strong>de</strong> un test<br />
La teoría clásica <strong>de</strong> test <strong>de</strong> hipótesis consi<strong>de</strong>ra que el error <strong>de</strong> tipo 1 es mucho<br />
más grave que el error <strong>de</strong> tipo 2. Es <strong>de</strong>cir, la situación <strong>de</strong> las hipótesis H y K<br />
no es simétrica; es mucho más grave rechazar H cuando es cierta que aceptarla<br />
cuando es falsa. Esto significa que se <strong>de</strong>be tener mucha evi<strong>de</strong>ncia sobre<br />
que H es falsa antes <strong>de</strong> rechazarla. Se observa en el Ejemplo 2 <strong>de</strong> la sección<br />
1, que esta simetría correspon<strong>de</strong> a una situación real, puesto que antes <strong>de</strong><br />
cambiar <strong>de</strong> droga, es <strong>de</strong>cir rechazar H, habría que tener un grado <strong>de</strong> certeza<br />
muy alto respecto <strong>de</strong> que la nueva droga es mejor que la primera. Des<strong>de</strong><br />
ahora en a<strong>de</strong>lante H se <strong>de</strong>nominará hipótesis nula yKhipótesis alternativa.<br />
Veamos un ejemplo que servirá para fijar i<strong>de</strong>as y clarificar la mecánica<br />
<strong>de</strong> elección <strong>de</strong> H<br />
Ejemplo 1. Supongamos que se quiere <strong>de</strong>cidir si un paciente tiene o no tuberculosis,<br />
para proce<strong>de</strong>r, en caso afirmativo, a suministrarle un tratamiento<br />
a<strong>de</strong>cuado. Tendremos entonces dos hipótesis:<br />
(A) El señor W está tuberculoso;<br />
(B) El señor W no está tuberculoso.<br />
Es claro que el médico responsable <strong>de</strong> la <strong>de</strong>cisión consi<strong>de</strong>rará mucho más<br />
grave rechazar (A) cuando es cierta, que rechazar (B) cuando es cierta (esto<br />
es lo mismo que aceptar H cuando es falsa), puesto que en el primer caso
6.2. FORMULACION GENERAL DEL TEST DE HIPOTESIS 9<br />
se expone al paciente a una agudización grave <strong>de</strong> su enfermedad, mientras<br />
que en el segundo se le aplicará un tratamiento que no necesita y cuyas<br />
consecuencias nunca serán comparables con el daño <strong>de</strong> no tratarlo estando<br />
enfermo.<br />
Luego la hipótesis nula será H : “El señor W está tuberculoso”; y la<br />
alternativa K : “El señor W no está tuberculoso”.<br />
Como dijimos más arriba, supondremos que el error <strong>de</strong> tipo 1 (rechazar<br />
H cuando es cierta), es el más grave. Por lo tanto se va requerir que el<br />
error <strong>de</strong> tipo 1 <strong>de</strong>l test a utilizar no sea mayor que un número 0
10 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
Es <strong>de</strong>cir, la probabilidad <strong>de</strong> error cuando θ2 es el verda<strong>de</strong>ro valor es menor<br />
para el test ϕ que para cualquier otro ϕ ∗ <strong>de</strong> nivel menor o igual que α (o<br />
sea, (1 − βϕ(θ2)) ≤ (1 − βϕ ∗(θ2)) ).<br />
Es claro que si cambiamos la alternativa θ2 ∈ Θ2 por otro θ ′ 2 ∈ Θ2, el test<br />
más potente para esta θ ′ 2 no tiene porque coincidir con el correspondiente a<br />
θ2. Por ejemplo, si se quiere testear H : µ = µ0 contra K : µ = µ0, para una<br />
distribución N(µ, σ2 0 ) con σ2 0 conocida, resultará<br />
Θ1 = {µ0} ; Θ2 = {µ ∈ IR : µ = µ0}.<br />
Si se toma una alternativa fija µ1 µ0, como veremos más a<strong>de</strong>lante.<br />
Definición 7. Diremos que un ϕ es un test uniformemente más potente,<br />
UMP, <strong>de</strong> nivel menor o igual que α para H : θ ∈ Θ1 contra K : θ ∈ Θ2,<br />
si ϕ es el más potente <strong>de</strong> nivel menor o igual que α para todo θ2 ∈ Θ2, es<br />
<strong>de</strong>cir, si el mismo test es óptimo cualquiera sea la alternativa fija θ2 ∈ Θ2<br />
consi<strong>de</strong>rada.<br />
Lo i<strong>de</strong>al sería encontrar (cuando existan) tests uniformemente más potentes<br />
<strong>de</strong> nivel menor o igual que α. Estudiaremos casos don<strong>de</strong> estos tests<br />
existen y otros don<strong>de</strong> no. En estos últimos habrá que elegir otros criterios<br />
para seleccionar el test a usar.<br />
Definición 8. El nivel crítico o p-valor es el menor valor <strong>de</strong> significación<br />
para el que rechazamos la hipótesis H para una observación dada x.<br />
En el Ejemplo 1 <strong>de</strong> la sección 2, por ejemplo si observamos X =2el<br />
p-valor <strong>de</strong>l test {ϕk} que rechaza para valores pequeños <strong>de</strong> T , será p =7/64.<br />
Prefijado el nivel <strong>de</strong> significación α, y evaluado el p- valor, p, <strong>de</strong>l test<br />
utilizado, rechazaremos H si p
6.3. HIPOTESIS SIMPLE CONTRA HIPOTESIS SIMPLE 11<br />
hecho lleva a una contradicción y por lo tanto, a abandonar nuestra hipótesis<br />
<strong>de</strong> que H era cierta.<br />
Es tentador pensar que el p–valor da la probabilidad <strong>de</strong> que H sea cierta,<br />
pero no es así. No importa cuántas veces se repita el experimento, H será<br />
siempre cierta o siempre falsa. Es <strong>de</strong>cir, el nivel crítico da la probabilidad<br />
<strong>de</strong> obtener evi<strong>de</strong>ncia en contra <strong>de</strong> la hipótesis nula suponiendo que ésta sea<br />
cierta. Por lo tanto, cuanto menor sea el p-valor más evi<strong>de</strong>ncia en contra <strong>de</strong><br />
H tenemos, suponiendo que H es cierta.<br />
6.3 Tests óptimos para el caso <strong>de</strong> hipótesis simple<br />
contra hipótesis simple<br />
El caso más simple <strong>de</strong> problema <strong>de</strong> test <strong>de</strong> hipótesis es la situación don<strong>de</strong><br />
Θ1 yΘ2 contengan cada uno un elemento. En este caso, se dice, H y K son<br />
hipótesis simples.<br />
Si Θ1 tuviera más <strong>de</strong> un elemento, H se llamará hipótesis compuesta, y<br />
lo mismo vale para K en relación a Θ2.<br />
En el caso en que H y K sean simples, un problema <strong>de</strong> test <strong>de</strong> hipótesis<br />
será <strong>de</strong> la forma<br />
H:θ = θ1 contra K : θ = θ2<br />
Supongamos que X sea un vector discreto (o continuo) bajo θ1 y θ2 y que<br />
las funciones <strong>de</strong> <strong>de</strong>nsidad correspondientes sean p(x, θ1) yp(x, θ2). Luego,<br />
intuitivamente, parece razonable rechazar H si la “probabilidad” <strong>de</strong> obtener<br />
el valor observado x bajo θ2 es gran<strong>de</strong> comparada con la “probabilidad” <strong>de</strong><br />
obtener x bajo θ1, es <strong>de</strong>cir, cuando<br />
p(x, θ2)<br />
L21 = ≥ kα<br />
p(x, θ1)<br />
don<strong>de</strong> kα es una constante que <strong>de</strong>pen<strong>de</strong> <strong>de</strong>l nivel α. Por lo tanto, se podría<br />
pensar en construir un test <strong>de</strong> la forma<br />
⎧<br />
⎪⎨ 1 si L21 >kα<br />
ϕ(X) = γα si L21 = kα<br />
⎪⎩ 0 si L21 kαp(x, θ1)<br />
ϕ(X) = γα si p(x, θ2) =kα p(x, θ1)<br />
(6.1)<br />
⎪⎩ 0 si p(x, θ2)
12 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
don<strong>de</strong> 0 ≤ γα ≤ 1, correspondiendo el caso kα =+∞ al test<br />
<br />
1 si p(x, θ1) =0<br />
ϕ(X) =<br />
0 si p(x, θ1) > 0<br />
(6.2)<br />
que tiene nivel 0.<br />
Si queremos que el test (6.1) tenga nivel α <strong>de</strong>bemos elegir kα y βα tales<br />
que se cumpla<br />
E (ϕ(X)) = α. (6.3)<br />
θ1<br />
Notemos que entonces, en este tipo <strong>de</strong> test kα es una función <strong>de</strong>creciente<br />
<strong>de</strong> α.<br />
Un test <strong>de</strong> la forma (6.1) se llama test <strong>de</strong>l cociente <strong>de</strong> verosimilitud. El<br />
siguiente teorema establece que se pue<strong>de</strong>n elegir kα y γα <strong>de</strong> manera que<br />
se cumpla (6.3) y que usando estos valores en (6.1) se obtiene un test más<br />
potente <strong>de</strong> nivel menor o igual que α. Sin embargo, los tests <strong>de</strong> la forma (6.1)<br />
no garantizan la unicidad y es por ello, que para obtenerla le permitiremos<br />
a γα <strong>de</strong>pen<strong>de</strong>r <strong>de</strong> x.<br />
Teorema 1 (<strong>de</strong> Neyman–Pearson)<br />
(i) Dado 0 ≤ α ≤ 1 se pue<strong>de</strong>n elegir kα y γα, 0 ≤ γα ≤ 1, tales que el test<br />
<strong>de</strong> la forma (6.1) satisfaga (6.3).<br />
(ii) Sea un test <strong>de</strong> la forma (6.1) que satisface (6.3) para α>0 y<strong>de</strong>la<br />
forma (6.2) para α =0. Luego ese test es el más potente <strong>de</strong> nivel<br />
menor o igual que α para<br />
H:θ = θ1 contra K : θ = θ2 .<br />
(iii) Si ϕ∗ es un test uniformemente más potente <strong>de</strong> nivel α > 0 para<br />
H:θ = θ1 versus K : θ = θ2 entonces ϕ∗ es <strong>de</strong> la forma<br />
⎧<br />
⎪⎨ 1 si p(x, θ2) >kαp(x, θ1)<br />
ϕ(X) = γα(x)<br />
⎪⎩ 0<br />
si p(x, θ2) =kα p(x, θ1)<br />
si p(x, θ2)
6.3. HIPOTESIS SIMPLE CONTRA HIPOTESIS SIMPLE 13<br />
Demostración:<br />
0 0<br />
1 si p(x, θ1) =0<br />
Eθ1 (ϕ(X)) = Pθ1 (L21 >kα)+γPθ1 (L21 = kα)<br />
= 1−Pθ1 (L21 ≤ kα)+γα Pθ1 (L21 = kα) .<br />
Si existe una constante k0 tal que P θ1 (L21 ≤ k0) =α tomamos kα = k0 y<br />
γα = 0. En caso contrario, siempre existe k0 tal que<br />
P θ1 (L21 kα p(x, θ1) .<br />
.<br />
.
14 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
Luego, <strong>de</strong> acuerdo con (6.1), se tendrá ϕ(x) = 1 y por lo tanto ϕ(x) ≥ ϕ ∗ (x),<br />
<strong>de</strong> don<strong>de</strong>, U(x) ≥ 0.<br />
Si p(x, θ2) =kα p(x, θ1), es claro que U(x) =0.<br />
Finalmente, si<br />
p(x, θ2) 0} excepto quizás<br />
en un conjunto <strong>de</strong> medida 0. Por lo tanto, como ϕ(x) =0sip(x, θ1) > 0y<br />
ϕ(x) =1sip(x, θ1) = 0 se tiene
6.3. HIPOTESIS SIMPLE CONTRA HIPOTESIS SIMPLE 15<br />
βϕ(θ2) − βϕ∗(θ2) = Eθ2 (ϕ(X)) − Eθ2 (ϕ∗ (X))<br />
<br />
=<br />
[ϕ(X) − ϕ<br />
{x: p(x,θ1)=0}<br />
∗ (X)] p(x, θ2)dx<br />
<br />
+<br />
[ϕ(X) − ϕ<br />
{x: p(x,θ1)>0}<br />
∗ <br />
(X)] p(x, θ2)dx<br />
=<br />
[1 − ϕ ∗ (X)] p(x, θ2)dx ≥ 0 .<br />
{x: p(x,θ1)=0}<br />
(iii) Haremos primero el caso α = 0. Sea ϕ el test <strong>de</strong> la forma (6.2) y<br />
ϕ ∗ un test <strong>de</strong> nivel 0. Hemos visto que entonces ϕ ∗ (x) = 0 en el conjunto<br />
{x : p(x, θ1) > 0} excepto quizás en un conjunto N1 <strong>de</strong> medida 0. Luego,<br />
P θ1 (N1) =P θ2 (N1) =0yϕ ∗ (x) =ϕ(x) en{x : p(x, θ1) > 0}−N1.<br />
Falta ver que ϕ ∗ (x) =ϕ(x) =1en{x : p(x, θ1) =0} excepto quizás un<br />
conjunto <strong>de</strong> medida 0. Como<br />
se cumple<br />
0 =<br />
=<br />
<br />
<br />
E θ2 (ϕ(X)) = E θ2 (ϕ∗ (X))<br />
{x: p(x,θ1)=0}<br />
<br />
+<br />
{x: p(x,θ1)>0}<br />
[ϕ(X) − ϕ ∗ (X)] p(x, θ2)dx<br />
[ϕ(X) − ϕ ∗ (X)] p(x, θ2)dx<br />
[1 − ϕ ∗ (X)] p(x, θ2)dx .<br />
{x: p(x,θ1)=0}<br />
Pero ϕ∗ ≤ 1 luego el integrando es no negativo y la integral es cero si y solo<br />
si ϕ∗ = 1 en el conjunto {x : p(x, θ1) =0}∩{x : p(x, θ2) > 0} excepto<br />
quizás en un conjunto N2 <strong>de</strong> medida 0. Luego si<br />
N = N1 ∪N2 ∪ ({x : p(x, θ1) =0}∩{x : p(x, θ2) =0})<br />
se tiene P θ1 (N )=P θ2 (N )=0yϕ∗ (x) =ϕ(x) para x /∈ N.<br />
Supongamos ahora α>0. Sea ϕ ∗ un test <strong>de</strong> nivel α uniformemente<br />
más potente para H versus K y ϕ el test dado por (6.1) que también es<br />
uniformemente más potente para H versus K por lo visto en (ii). Luego se<br />
cumple<br />
E θ1 (ϕ(X)) = E θ1 (ϕ∗ (X)) y E θ2 (ϕ(X)) = E θ2 (ϕ∗ (X)) (6.8)
16 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
Por otra parte, la función U(x) <strong>de</strong>finida en (6.7) es no negativa y por (6.8)<br />
U(x)dx = 0. Luego, U(x) <strong>de</strong>be ser nula excepto en un conjunto N <strong>de</strong><br />
medida 0. Es <strong>de</strong>cir, (ϕ(x) − ϕ ∗ (x))(p(x, θ2) − kα p(x, θ1)) = 0 para x /∈ N.<br />
Por lo tanto, ϕ(x) =ϕ ∗ (x) en el conjunto {x : p(x, θ2) = kα p(x, θ1)}∩N c<br />
<strong>de</strong> don<strong>de</strong> el resultado.<br />
Observación. Si L21 es una variable continua no hay que preocuparse por<br />
γα, ya que P (L21 = kα) =0.<br />
Ejemplo 1. Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
perteneciente a N(µ, σ2 0 ) don<strong>de</strong> σ2 0 es conocido, y supongamos que se quiere<br />
<strong>de</strong>cidir entre H : µ = µ1 contra K : µ = µ2. Supongamos primero que<br />
µ2 >µ1. En este caso, el test más potente rechaza H si<br />
p(X1,...,Xn; µ2)<br />
≥ kα<br />
p(X1,...,Xn; µ1)<br />
don<strong>de</strong> p(X1,...,Xn; µ) indica la <strong>de</strong>nsidad conjunta <strong>de</strong> X =(X1,...,Xn)<br />
cuando Xi tiene distribución N(µ, σ 2 0 ). Luego, ϕ(X1,...,Xn) =1si<br />
o sea ϕ(X1,...,Xn) =1si<br />
L21 = (2 πσ0) −n/2 e −Σn i=1 (Xi−µ2) 2 /2σ 2 0<br />
(2 πσ0) −n/2 e −Σn i=1 (Xi−µ1) 2 /2σ 2 0<br />
≥ kα<br />
e −Σn i=1 (Xi−µ2) 2 /2σ 2 0 +Σn i=1 (Xi−µ1) 2 /2σ 2 0 ≥ kα<br />
o equivalentemente, ϕ(X1,...,Xn) =1si<br />
n<br />
n<br />
−<br />
(Xi − µ2)<br />
i=1<br />
2 +<br />
(Xi − µ1)<br />
i=1<br />
2 ≥ 2σ 2 0 ln kα .<br />
Desarrollando el primer miembro <strong>de</strong> esta <strong>de</strong>sigualdad, se tiene que<br />
ϕ(X1,...,Xn) =1si<br />
n<br />
2(µ2 − µ1) Xi ≥ 2σ 2 0 ln kα + nµ 2 2 − nµ 2 1 .<br />
i=1<br />
Como µ2 − µ1 > 0, se tiene que ϕ(X1,...,Xn) =1si<br />
n<br />
i=1<br />
Xi ≥ 2σ2 0 ln kα + nµ 2 2 − nµ2 1<br />
2(µ2 − µ1)
6.3. HIPOTESIS SIMPLE CONTRA HIPOTESIS SIMPLE 17<br />
pero el segundo miembro <strong>de</strong> esta <strong>de</strong>sigualdad es una constante, llamémosla<br />
k ′ α.<br />
Luego, el test más potente es <strong>de</strong> la forma<br />
n<br />
ϕ(X1,...,Xn) =1 si<br />
Xi ≥ k<br />
i=1<br />
′ α<br />
(puesto que las regiones <strong>de</strong> rechazo planteadas inicialmente y esta última<br />
son equivalentes). La constante k ′ α <strong>de</strong>berá elegirse <strong>de</strong> modo que<br />
Eµ1 (ϕ(X1,...,Xn) =α (6.9)<br />
Para encontrar el k ′ α que hace que (6.9) se satisfaga, necesitaríamos una<br />
tabla <strong>de</strong> la distribución N(nµ1,nσ2 0 ), pero para trabajar más cómodamente<br />
transformamos el estadístico n i=1 Xi en otro cuya distribución sea N(0, 1).<br />
Para esto escribimos el test <strong>de</strong> la siguiente forma ϕ(X1,...,Xn) =1si<br />
√ n (Xn − µ1)<br />
σ0<br />
≥ √ n (k′ α/n − µ1)<br />
σ0<br />
don<strong>de</strong> Xn =(1/n) n i=1 Xi. Nuevamente √ n(k ′ α/n − µ1)/σ0 es una constante<br />
que llamaremos k ′′ α. Luego el test pue<strong>de</strong> ser escrito <strong>de</strong> la forma<br />
ϕ(X1,...,Xn) =1 si √ n (Xn − µ1)<br />
≥ k ′′ α.<br />
Calculemos k ′′ α. De acuerdo con el Teorema <strong>de</strong> Neyman–Pearson, <strong>de</strong>bería<br />
tenerse que<br />
σ0<br />
α = Eµ1 (ϕ(X1,...,Xn))<br />
= Pµ1 (ϕ(X1,...,Xn) =1)<br />
= Pµ1 (√n (Xn − µ1)<br />
≥ k ′′ α) .<br />
σ0<br />
Pero cuando µ es µ1, √ n(Xn − µ1)/σ0 es N(0, 1). Luego, k ′′ α <strong>de</strong>be ser igual<br />
a zα.<br />
Finalmente, el test queda como<br />
⎧<br />
⎪⎨<br />
ϕ(X1,...,Xn) =<br />
⎪⎩<br />
1 si √ n (X−µ1)<br />
σ0<br />
0 si √ n (X−µ1)<br />
σ0<br />
≥ zα<br />
18 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
En este caso, no <strong>de</strong>bemos preocuparnos por el caso en que L21 = kα ya<br />
que la variable L21 es continua.<br />
Si se hubiera tenido que µ2 −zα<br />
(6.11)<br />
De (6.10) resulta que el test más potente para H : µ = µ1 contra<br />
K:µ = µ2 no <strong>de</strong>pen<strong>de</strong> <strong>de</strong> µ2, es <strong>de</strong>cir es el mismo cualquiera sea µ2 >µ1.<br />
Por lo tanto, el test dado por (6.10) es el test uniformemente más potente<br />
<strong>de</strong> nivel menor o igual que α para H : µ = µ1 contra K : µ>µ1.<br />
Análogamente el test dado por (6.11) es el test uniformemente más potente<br />
<strong>de</strong> nivel menor o igual que α para H : µ = µ1 contra K :µ
6.3. HIPOTESIS SIMPLE CONTRA HIPOTESIS SIMPLE 19<br />
C. limµ→+∞ βϕ(µ) =1− limx→−∞ Φ(x) =1− 0=1.<br />
D. limµ→−∞ βϕ(µ) =1− limx→+∞ Φ(x) =1− 1=0.<br />
E. Para µ2 fijo, µ2 >µ1, se tiene<br />
lim<br />
n→∞ βϕ(µ2) =1− lim Φ(x) =1− 0=1.<br />
n→∞<br />
De aquí se <strong>de</strong>duce que tomando n gran<strong>de</strong>, para un µ2 fijo, la probabilidad<br />
<strong>de</strong> error <strong>de</strong> tipo 2 se pue<strong>de</strong> hacer tan pequeño como se quiera.<br />
De A y B resulta que<br />
sup βϕ(µ) =α,<br />
µ≤µ1<br />
y luego ϕ resulta un test <strong>de</strong> nivel igual que α para H : µ ≤ µ1 contra<br />
K:µ>µ1.<br />
Veamos ahora que ϕ es el test <strong>de</strong> nivel ≤ α, uniformemente más potente<br />
para estas mismas hipótesis. Sea ϕ∗ otro test <strong>de</strong> nivel menor o igual que α<br />
para H : µ ≤ µ1; también tendrá este nivel para H : µ = µ1, pero ϕ es el test<br />
uniformemente más potente para H : µ = µ1 contra K : µ>µ1. Entonces<br />
se tiene<br />
βϕ(µ) ≥ βϕ∗(µ) ∀ µ>µ1<br />
y ϕ resulta el test más potente <strong>de</strong> nivel menor o igual que α para H : µ ≤ µ1<br />
contra K : µ>µ1.<br />
Luego hemos <strong>de</strong>mostrado el siguiente teorema<br />
Teorema 2.<br />
(i) El test ϕ dado por (6.10) es el uniformemente más potente <strong>de</strong> nivel<br />
menor o igual que α para<br />
(a) H : µ = µ1 contra K : µ>µ1<br />
y para<br />
(b) H : µ ≤ µ1 contra K : µ>µ1.<br />
Su función <strong>de</strong> potencia viene dada por<br />
βϕ(µ) =1− Φ(zα + √ n(µ1 − µ)/σ0).<br />
(b) En forma similar el test ϕ dado por (6.11) es el uniformemente más<br />
potente <strong>de</strong> nivel menor o igual que α para<br />
(a) H : µ = µ1 contra K : µ
20 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
y para<br />
(b) H : µ ≥ µ1 contra K : µ
6.4. FAMILIAS DE CVM 21<br />
cumple la especificación). Tenemos que calcular la función <strong>de</strong> potencia <strong>de</strong>l<br />
test. De acuerdo con lo que hemos visto, será<br />
<br />
<br />
(µ − 0.7)<br />
βϕ(µ) =Φ −1.65 − 8 = Φ(54.35 − 80µ) .<br />
0.1<br />
Si queremos, por ejemplo, calcular βϕ(0.65), esto será uno menos la probabilidad<br />
<strong>de</strong> rechazar el producto cuando µ =0.65, luego<br />
βϕ(0.65) = Φ(54.35 − 80 × 0.65) = Φ(2.35) = 0.99 .<br />
Esto quiere <strong>de</strong>cir que la probabilidad <strong>de</strong> rechazar la droga, cuando µ =0.65<br />
es 0.01.<br />
6.4 Tests uniformemente más potentes para hipótesis<br />
unilaterales<br />
Hemos visto en el parágrafo anterior la forma <strong>de</strong> encontrar tests más potentes<br />
en el caso <strong>de</strong> hipótesis simples<br />
H:θ = θ0 contra K : θ = θ1 .<br />
Esta situación es principalmente <strong>de</strong> interés teórico puesto que aún las situaciones<br />
más simples que se presentan en la práctica, cuando θ ∈ IR, implican<br />
problemas <strong>de</strong> la forma<br />
(a) H : θ = θ0 contra K : θ>θ0<br />
(b) H : θ = θ0 contra K : θθ0<br />
(d) H : θ ≥ θ0 contra K : θµ0<br />
H:µ ≤ µ0 contra K : µ>µ0<br />
H:µ = µ0 contra K : µ
22 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
H:µ ≥ µ0 contra K : µ 0}<br />
Observación. A los efectos <strong>de</strong> la Definición 1 si p(x,θ1) =0yp(x,θ2) > 0,<br />
el cociente p(x,θ2)/p(x,θ1) se consi<strong>de</strong>rará igual a ∞.<br />
Es sencillo mostrar que las familias exponenciales a un parámetro con<br />
c(θ) estrictamente monótona son <strong>de</strong> CVM.<br />
Teorema 1. Sea la familia exponencial a un parámetro con función <strong>de</strong><br />
<strong>de</strong>nsidad o probabilidad p(x,θ)=A(θ)e c(θ)r(x) h(x) con θ ∈ Θ ⊂ IR. Luego,<br />
(i) Si c(θ) es estrictamente creciente la familia dada es <strong>de</strong> CVM en r(X)<br />
(ii) Si c(θ) es estrictamente <strong>de</strong>creciente la familia dada es <strong>de</strong> CVM en<br />
−r(X)<br />
Demostración. Sólo <strong>de</strong>mostraremos (i). La parte (ii) se <strong>de</strong>muestra idénticamente.<br />
En este caso se tiene si θ1
6.4. FAMILIAS DE CVM 23<br />
es una función creciente.<br />
Por otro lado, por ser c estrictamente monótona, θ1 = θ2 implica<br />
c(θ1) = c(θ2) y luego p(x,θ1) yp(x,θ2) correspon<strong>de</strong>n a distribuciones diferentes.<br />
Luego, la familia dada es <strong>de</strong> cociente <strong>de</strong> verosimilitud monótono en<br />
T = r(X).<br />
Vamos a mostrar ahora que existen familias <strong>de</strong> CVM que no son exponenciales.<br />
Para ello consi<strong>de</strong>ramos el siguiente ejemplo<br />
Ejemplo 1. Consi<strong>de</strong>remos una muestra aleatoria (X1,...,Xn) <strong>de</strong> una distribución<br />
U[0,θ] con θ ∈ IR + .<br />
Luego, la familia <strong>de</strong> distribuciones conjuntas <strong>de</strong> X =(X1,...,Xn) se<br />
pue<strong>de</strong> escribir<br />
p(x,θ)= 1<br />
θ n I [0,θ]( max<br />
1≤i≤n xi) I [0,∞]( min<br />
1≤i≤n xi) . (6.13)<br />
Mostraremos que esta familia es <strong>de</strong> CVM en r(X) =max1≤i≤n Xi. Sea<br />
θ2 >θ1, luego, el conjunto S = {t : r(x) con p(x,θ1) > 0op(x,θ2) > 0}<br />
resulta igual al intervalo [0,θ2]. Definiendo<br />
gθ1θ2 (t) =θn 1<br />
θ n 2<br />
I [0,θ2](t)<br />
I [0,θ1](t) ,<br />
se tiene que<br />
p(x,θ2)<br />
= gθ1θ2 (r(x)).<br />
p(x,θ1)<br />
Po lo tanto, bastará mostrar que gθ1θ2 (t) es monótona en S. Pero<br />
gθ1θ2 (t) =<br />
<br />
(θ1/θ2) n si 0 ≤ t ≤ θ1<br />
∞ si θ1 ≤ t ≤ θ2 .<br />
Con lo cual, gθ1θ2 (t) es monótona y la familia dada por (6.13) es <strong>de</strong><br />
CVM en r(X). Por otro lado, la familia dada por (6.13) no es exponencial<br />
<strong>de</strong> acuerdo a lo visto en el ejercicio 2 <strong>de</strong>l Capítulo 3.<br />
Ejemplo 2. Consi<strong>de</strong>remos una variable aleatoria X con distribución C(θ, 1),<br />
θ ∈ IR, o sea, su <strong>de</strong>nsidad viene dada por<br />
p(x, θ) =<br />
1<br />
π [1 + (x − θ) 2 ] .
24 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
Veremos que esta familia no es <strong>de</strong> cociente <strong>de</strong> verosimiltud monótono en<br />
r(X) =X.<br />
Sea θ2 >θ1, luego, se tiene que<br />
p(x, θ2)<br />
p(x, θ1) =<br />
<br />
1+(x− θ1) 2<br />
[1 + (x − θ2) 2 = gθ1θ2 (x).<br />
]<br />
Sin embargo, la función gθ1θ2 (x) no es monótona en x ya que<br />
(x) =1.<br />
limx→−∞ gθ1θ2 (x) = limx→+∞ gθ1θ2<br />
El siguiente teorema nos permite encontrar tests UMP para familia con<br />
la propiedad <strong>de</strong> CVM.<br />
Teorema 1. Sea X un vector aleatorio con función <strong>de</strong> probabilidad o<br />
<strong>de</strong>nsidad perteneciente a la familia p(x,θ) con θ ∈ Θ ⊂ IR, que tiene la<br />
propiedad <strong>de</strong> ser <strong>de</strong> CVM en T = r(X). Luego<br />
(i) Existen kα y γα tales que si <strong>de</strong>finimos<br />
se satisface<br />
⎧<br />
⎪⎨ 1 si T>kα<br />
ϕ(X) = γα<br />
⎪⎩ 0<br />
si T = kα<br />
si Tθ1 .<br />
(iii) βϕ(θ) es monótona no <strong>de</strong>creciente para todo θ y estrictamente creciente<br />
para todo θ tal que 0 θ1 .<br />
Demostración: La <strong>de</strong>mostración <strong>de</strong> (i) es idéntica a la dada en el Teorema<br />
<strong>de</strong> Neyman-Pearson.
6.4. FAMILIAS DE CVM 25<br />
Demostraremos (ii) suponiendo que si θ2 >θ1<br />
p(x,θ2)<br />
= gθ1θ2 (r(x))<br />
p(x,θ1)<br />
con gθ1θ2 (t) estrictamente creciente. (Esta hipótesis no es necesaria, basta<br />
con que sea no <strong>de</strong>creciente.) En este caso, dado θ2 >θ1 el test dado por<br />
(6.14) se pue<strong>de</strong> escribir como<br />
⎧<br />
⎪⎨ 1 si gθ1θ2 (r(X)) >gθ1θ2 (kα)<br />
ϕ(X) = γα si gθ1θ2 (r(X)) = gθ1θ2 (kα)<br />
⎪⎩ 0 si gθ1θ2 (r(X)) k′ α<br />
p(X,θ2)<br />
p(X,θ1) = k′ α<br />
⎪⎩<br />
p(X,θ2)<br />
0 si<br />
p(X,θ1) θ1,<br />
luego ϕ es el test UMP <strong>de</strong> nivel menor o igual que α para H : θ = θ1 contra<br />
K:θ>θ2.<br />
(iii) Sólo <strong>de</strong>mostraremos que βϕ(θ) es monótona no <strong>de</strong>creciente.<br />
Sean θ ∗ y θ ∗∗ cualesquiera, tales que θ ∗ < θ ∗∗ . Si llamamos α ∗ =<br />
Eθ∗(ϕ(X)), resulta por (ii) que ϕ(X) es el test más potente a nivel menor o<br />
igual que α∗ para las hipótesis simples<br />
Consi<strong>de</strong>remos ahora el test<br />
H:θ = θ ∗ contra K : θ = θ ∗∗ .<br />
ϕ ∗ (X) =α ∗ .<br />
ϕ ∗ es un test <strong>de</strong> nivel α ∗ , luego ϕ ∗ es menos potente que ϕ en θ ∗∗ , es <strong>de</strong>cir,<br />
Eθ ∗∗(ϕ∗ (X)) ≤ Eθ ∗∗(ϕ(X))
26 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
pero,<br />
y a<strong>de</strong>más<br />
por lo tanto,<br />
Eθ ∗∗(ϕ∗ (X)) = α ∗ = Eθ ∗(ϕ(X)) = βϕ(θ ∗ )<br />
Eθ ∗∗(ϕ(X)) = βϕ(θ ∗∗ )<br />
βϕ(θ ∗ ) ≤ βϕ(θ ∗∗ ) ,<br />
con lo que queda <strong>de</strong>mostrado que βϕ(θ) es monótona no <strong>de</strong>creciente.<br />
Para <strong>de</strong>mostrar (iv), primero mostraremos que ϕ(X) es un test <strong>de</strong> nivel<br />
menor o igual que α para<br />
H:θ ≤ θ1 contra K : θ>θ1<br />
o sea que<br />
sup βϕ(θ) ≤ α.<br />
θ≤θ1<br />
Como βϕ(θ) es monótona creciente se tiene:<br />
sup βϕ(θ) =βϕ(θ1) =α<br />
θ≤θ1<br />
por (6.15).<br />
Consi<strong>de</strong>remos ahora otro test ϕ ∗ (X) <strong>de</strong> nivel menor o igual que α para<br />
H:θ ≤ θ1 contra K : θ>θ1, luego ϕ ∗ (X) es <strong>de</strong> nivel menor o igual que α<br />
para H : θ = θ1 contra K : θ>θ1, pero por (ii) ϕ(X) es el test uniformemente<br />
más potente para este problema, por lo tanto<br />
βϕ(θ) ≥ βϕ ∗(θ) ∀ θ>θ1 .<br />
Análogamente se <strong>de</strong>muestra el siguiente teorema<br />
Teorema 2. Sea X un vector aleatorio con función <strong>de</strong> <strong>de</strong>nsidad perteneciente<br />
a la familia p(x,θ) con θ ∈ Θ ⊂ IR. Supongamos que esta familia es<br />
CMV en r(X). Luego<br />
(i) Existen kα y γα tales que si <strong>de</strong>finimos<br />
⎧<br />
⎪⎨ 1 si r(X) kα<br />
se satisface<br />
(6.16)<br />
Eθ1 (ϕ(X)) = α (6.17)
6.4. FAMILIAS DE CVM 27<br />
(ii) Sea ϕ(X) es un test <strong>de</strong> la forma (6.16) que satisface (6.17). Luego ϕ<br />
es el test uniformemente más potente a nivel menor o igual que α para<br />
H:θ = θ1 contra K : θ
28 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
kα y γα <strong>de</strong>berán ser elegidos <strong>de</strong> modo que<br />
Eθ1 (ϕ(X)) = Pθ1 (T>kα)+γαPθ1 (T = kα) =α. (6.18)<br />
Como T tiene distribución Bi(θ, n) que es discreta, pue<strong>de</strong> suce<strong>de</strong>r que<br />
exista o no k tal que<br />
Pθ1 (T>k)=α (6.19)<br />
Si existe k satisfaciendo (6.19), tomaremos ese valor como kα y γα =0.<br />
Si no existe k que verifique (6.19), siempre existirá k tal que<br />
Pθ1 (T>k) kα)<br />
Pθ1 (T ≥ kα)<br />
.<br />
− Pθ1 (T>kα)<br />
Por (6.20) resulta que 0 1/3 con<br />
nivel <strong>de</strong> significación menor o igual que 0.1.<br />
Cuando θ =1/3, la distribución <strong>de</strong> T = 3 i=1 Xi está dada por<br />
y por lo tanto, tenemos<br />
t 0 1 2 3<br />
pT (t) 8<br />
27<br />
12<br />
27<br />
6<br />
27<br />
1<br />
27<br />
k −1 0 1 2 3<br />
19<br />
P 1 (T >k) 1<br />
3<br />
27<br />
7<br />
27<br />
1<br />
27<br />
0
6.4. FAMILIAS DE CVM 29<br />
Por lo tanto, no existe kα que verifique (6.19) y el valor kα = 2 verifica<br />
(6.20), pues<br />
y γα será entonces<br />
P 1 (T >2) =<br />
3<br />
1<br />
27<br />
< 0.1 1) =<br />
3<br />
7<br />
27<br />
=0.27 .<br />
Como ejercicio se sugiere graficar la función <strong>de</strong> potencia <strong>de</strong> este test, y<br />
siendo el test aleatorizado, sugerir un mecanismo para <strong>de</strong>cidir en caso en que<br />
T =2.<br />
Ejemplo 5. Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
perteneciente a la familia U[0,θ].<br />
El test uniformemente más potente para H : θ ≤ θ1 contra K : θ>θ1,<br />
será <strong>de</strong> la forma<br />
don<strong>de</strong> kα verifica<br />
es<br />
⎧<br />
⎪⎨<br />
ϕ(X) =<br />
⎪⎩<br />
1 si max<br />
1≤i≤n Xi ≥ kα<br />
0 si max<br />
1≤i≤n Xi
30 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
6.5 Tests insesgados<br />
En la mayoría <strong>de</strong> los casos en que la hipótesis alternativa es una hipótesis<br />
compuesta, no existe un test uniformemente más potente.<br />
Ejemplo 1. Supongamos que se tiene una muestra aleatoria X1,...,Xn<br />
<strong>de</strong> una distribución N(µ, σ 2 0 ) con σ0 conocido y se <strong>de</strong>sea testear H : µ = µ0<br />
contra K : µ = µ0. Es fácil <strong>de</strong>mostrar que no existe un test uniformemente<br />
más potente a nivel menor o igual que α.<br />
Supongamos que tal test existiera y llamémoslo ϕ; entonces será el test<br />
más potente a nivel menor o igual que α para<br />
y para<br />
H1 : µ = µ0 contra K1 : µ = µ1 (µ1 >µ0)<br />
H2 : µ = µ0 contra K2 : µ = µ2 (µ2
6.5. TESTS INSESGADOS 31<br />
llamaremos insesgados y luego se buscará el test uniformemente más potente<br />
en esta clase.<br />
Definición 1. Sea una familia <strong>de</strong> distribuciones F (x, θ) con θ ∈ Θ. Se dirá<br />
que un test ϕ para testear H : θ ∈ Θ1 contra K : θ ∈ Θ2 es insesgado si<br />
sup<br />
θ∈Θ1<br />
βϕ(θ) ≤ inf βϕ(θ)<br />
θ∈Θ2<br />
El sentido <strong>de</strong> esta <strong>de</strong>sigualdad es que la probabilidad <strong>de</strong> rechazar H<br />
cuando θ ∈ Θ2, es <strong>de</strong>cir cuando H es falsa, no pu<strong>de</strong> ser menor que cuando<br />
θ ∈ Θ1, es <strong>de</strong>cir cuando H es verda<strong>de</strong>ra.<br />
Por lo tanto, un test insesgado <strong>de</strong> nivel α tiene función <strong>de</strong> potencia menor<br />
o igual que α para θ ∈ Θ1 y mayor o igual que α para θ ∈ Θ2.<br />
Observemos que un test UMP <strong>de</strong> nivel α es insesgado.<br />
Observación. Si la función <strong>de</strong> potencia βϕ(θ) <strong>de</strong>l test ϕ es una función<br />
continua <strong>de</strong> θ y ϕ es un test insesgado <strong>de</strong> nivel α, entonces βϕ(θ) <strong>de</strong>be valer<br />
α en la frontera ΘF entre Θ1 yΘ2.<br />
En particular, si Θ ⊂ IR,Θ1 = {θ1} yΘ2 =Θ−{θ1}, o sea, si estamos<br />
testeando H : θ = θ1 contra K : θ = θ1, yϕ es un test insesgado <strong>de</strong> nivel α<br />
se tiene<br />
βϕ(θ1) =α<br />
βϕ(θ) ≥ α ∀θ = θ1 .<br />
Por lo tanto, si la función <strong>de</strong> potencia βϕ(θ) es <strong>de</strong>rivable respecto <strong>de</strong> θ, ϕ<br />
<strong>de</strong>be cumplir<br />
β ′ ϕ (θ1) = ∂<br />
βϕ(θ)|θ=θ1 =0. (6.22)<br />
∂θ<br />
En el caso particular <strong>de</strong> las familias exponenciales, la función <strong>de</strong> potencia<br />
<strong>de</strong> cualquier test es <strong>de</strong>rivable y por lo tanto, los tests insesgados cumplen<br />
(6.22).<br />
Definición 2. Se dirá que un test ϕ para testear H : θ ∈ Θ1 contra<br />
K:θ ∈ Θ2 es uniformemente más potente <strong>de</strong> nivel α entre los insesgados,<br />
IUMP, si<br />
(a) ϕ tiene nivel α, o sea,<br />
sup βϕ(θ) =α<br />
θ∈Θ1
32 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
(b) ϕ es insesgado, es <strong>de</strong>cir,<br />
βϕ(θ) ≥ α ∀θ ∈ Θ2<br />
(c) Dado otro test ϕ ∗ insesgado y <strong>de</strong> nivel α se verifica<br />
βϕ(θ) ≥ βϕ ∗(θ) ∀θ ∈ Θ2 .<br />
En la próxima Sección daremos un procedimiento general para encontrar<br />
tests para un problema <strong>de</strong>terminado. En muchos casos este procedimiento<br />
da como resultado el test insesgado uniformente más potente.<br />
La teoría <strong>de</strong> los tests insesgados uniformemente más potentes escapa a<br />
las posibilida<strong>de</strong>s <strong>de</strong> este curso y pue<strong>de</strong> verse en Lehmann [3] o en Ferguson<br />
[2].<br />
6.6 Test <strong>de</strong>l cociente <strong>de</strong> máxima verosimilitud<br />
Supongamos que se observa un vector X, cuya distribución tiene función <strong>de</strong><br />
<strong>de</strong>nsidad p(x, θ), θ ∈ Θ y se quiere testear H : θ ∈ Θ1 contra K : θ ∈ Θ2<br />
(Θ1 ∪ Θ2 = Θ).<br />
Un procedimiento intuitivamente razonable y que da buenos resultados<br />
en una gran variedad <strong>de</strong> situaciones es el siguiente.<br />
Tomemos estimadores <strong>de</strong> máxima verosimilitud <strong>de</strong> θ, suponiendo θ ∈ Θ1,<br />
llamémoslo θ1 y análogamente suponiendo θ ∈ Θ2, θ2; luego<br />
y<br />
p(X, θ1) = max p(X, θ)<br />
θ∈Θ1<br />
p(X, θ2) = max p(X, θ) .<br />
θ∈Θ2<br />
Si θ1 y θ2 no <strong>de</strong>pendieran <strong>de</strong> la muestra, podríamos consi<strong>de</strong>rar el test<br />
más potente para testear H* : θ = θ1 contra K* : θ = θ2, el cual es <strong>de</strong> la<br />
forma<br />
⎧<br />
⎪⎨ 1 si Lkα<br />
don<strong>de</strong><br />
L = 1<br />
L21<br />
= p(X, θ1)<br />
p(X, θ2)
6.6. TEST DEL COCIENTE DE MÁXIMA VEROSIMILITUD 33<br />
y kα se elige <strong>de</strong> manera que el test resulte <strong>de</strong> nivel α.<br />
En algunos casos θ1 y θ2 pue<strong>de</strong>n no existir, pero siempre tiene sentido<br />
hablar <strong>de</strong> L <strong>de</strong>finido por<br />
L = sup p(X, θ)<br />
θ∈Θ1<br />
sup p(X, θ)<br />
θ∈Θ2<br />
Intuitivamente, este test pue<strong>de</strong> interpretarse como rechazando H : θ ∈ Θ1<br />
cuando “el valor más probable <strong>de</strong> Θ2” tiene probabilidad consi<strong>de</strong>rablemente<br />
más gran<strong>de</strong> que “el valor más probable <strong>de</strong> Θ1”.<br />
En muchos casos, como por ejemplo cuando la dimensión <strong>de</strong> Θ1 es menor<br />
que la dimensión <strong>de</strong> Θ = Θ1 ∪ Θ2, yp(x, θ) es continua, resulta que<br />
sup<br />
θ∈Θ2<br />
p(X, θ) = sup p(X, θ) (6.23)<br />
θ∈Θ<br />
En este caso, el test <strong>de</strong>l cociente <strong>de</strong> máxima verosimilitud resulta equivalente<br />
a<br />
⎧<br />
⎪⎨ 1<br />
ϕ(X) =<br />
⎪⎩<br />
si L∗ γα<br />
kα<br />
don<strong>de</strong><br />
L ∗ = sup p(X, θ)<br />
θ∈Θ1<br />
supθ∈Θ p(X, θ) .<br />
En general, es más fácil aplicar la forma <strong>de</strong>l test basada en L∗ cuando es<br />
posible, es <strong>de</strong>cir, cuando (6.23) se cumple.<br />
Ejemplo 1. Se tiene una muestra aleatoria X1,...,Xn <strong>de</strong> una distribución<br />
N(µ, σ 2 0 ) con σ0 conocido y se quiere testear H : µ = µ0 contra K : µ = µ0<br />
Como en este caso Θ1 = {µ0} tiene dimensión cero (se reduce a un<br />
punto) y Θ = {µ : −∞
34 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
Luego,<br />
y como<br />
resulta<br />
n<br />
L ∗ 1<br />
−<br />
2 σ<br />
= e 2 (Σ<br />
0<br />
n i=1 (Xi−µ0) 2−Σn i=1 (Xi−X) 2 )<br />
(Xi − µ0)<br />
i=1<br />
2 −<br />
n<br />
(Xi − X)<br />
i=1<br />
2 = n(X − µ0) 2<br />
L ∗ n<br />
−<br />
2 σ<br />
= e 2 (X−µ0)<br />
0<br />
2<br />
.<br />
Sea T = √ n|X − µ0|/σ0. Luego, L∗ = g(T ) con g <strong>de</strong>creciente. Luego ϕ(X)<br />
es equivalente a<br />
⎧<br />
⎪⎨<br />
ϕ(X) =<br />
⎪⎩<br />
1 si √ |X − µ0|<br />
n ≥ k<br />
σ0<br />
′ α<br />
0 si √ n |X−µ0|<br />
σ0<br />
6.6. TEST DEL COCIENTE DE MÁXIMA VEROSIMILITUD 35<br />
y<br />
Como<br />
Luego, se tiene<br />
sup<br />
(µ,σ2 p(X,µ,σ<br />
)∈Θ1<br />
2 )=<br />
sup<br />
(µ,σ2 p(X,µ,σ<br />
)∈Θ<br />
2 )=<br />
Por lo tanto, L ∗ está dado por<br />
se tiene que<br />
Sea ahora<br />
n<br />
L ∗ =<br />
(Xi − µ0)<br />
i=1<br />
2 =<br />
1<br />
e n<br />
2 (2π) n<br />
n 2 i=1<br />
1<br />
e n<br />
2 (2π) n<br />
n 2 i=1<br />
ni=1 (Xi − X) 2<br />
ni=1(Xi − µ0) 2<br />
n<br />
n<br />
2<br />
n<br />
(Xi−µ0) 2<br />
n<br />
2<br />
n<br />
(Xi−X) 2<br />
n<br />
2<br />
(Xi − X)<br />
i=1<br />
2 + n(X − µ0) 2<br />
L ∗ <br />
n(X − µ0) 2<br />
= 1+ ni=1 (Xi − X) 2<br />
n<br />
− 2<br />
T = √ (X − µ0)<br />
n<br />
s<br />
don<strong>de</strong> s 2 = n i=1 (Xi − X) 2 /(n − 1). Luego,<br />
L ∗ =<br />
<br />
1+<br />
1<br />
T 2<br />
n−1<br />
Como la función 1/(1 + t2 /(n − 1)) es monótona <strong>de</strong>creciente <strong>de</strong> |t|, el test<br />
<strong>de</strong>l cociente <strong>de</strong> máxima verosimilitud resulta equivalente a<br />
<br />
1 si |T |≥kα<br />
ϕ(X) =<br />
0 si |T |
36 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
Como T tiene distribución stu<strong>de</strong>nt con n − 1 grados <strong>de</strong> libertad, resulta<br />
kα = t α<br />
n−1, 2 .<br />
Obsérvese que este test es completamente análogo al <strong>de</strong>l Ejemplo 1, con<br />
la diferencia que se reemplaza σ por s y zα/2 por t α<br />
n−1, 2 .<br />
Ejemplo 3. Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
N(µ, σ 2 ) con media y varianza <strong>de</strong>sconocidas. Supongamos que se quiere<br />
testear H : µ ≤ µ0 contra K : µ>µ0. En este caso,<br />
y<br />
Θ1 = {(µ, σ 2 ):µ ≤ µ0, σ 2 > 0}<br />
Θ2 = {(µ, σ 2 ):µ>µ0, σ 2 > 0} .<br />
Luego, la dimensión <strong>de</strong> Θ1 es igual a la <strong>de</strong> Θ2, y el test <strong>de</strong>l cociente <strong>de</strong><br />
máxima verosimilitud <strong>de</strong>berá hacerse con L y no con L∗ . Como<br />
resulta<br />
p(X,µ,σ 2 )=(2πσ 2 n 1<br />
− −<br />
) 2 e 2σ2 ln p(X,µ,σ 2 )=− n n<br />
ln(2π) −<br />
2 2 ln σ2 − 1<br />
2σ2 Teniendo en cuenta que<br />
n<br />
(Xi − µ)<br />
i=1<br />
2 =<br />
n<br />
n (Xi−µ) 2<br />
i=1<br />
n<br />
(Xi − X)<br />
i=1<br />
2 + n(X − µ) 2<br />
(6.24)<br />
(Xi − µ)<br />
i=1<br />
2 . (6.25)<br />
se obtiene que el estimador <strong>de</strong> máxima verosimilitud <strong>de</strong> µ en Θ1, es igual a<br />
<br />
X si X ≤ µ0<br />
µ1 =<br />
(6.26)<br />
µ0 si X>µ0<br />
y que el estimador <strong>de</strong> máxima verosimilitud <strong>de</strong> µ en Θ2, es igual a<br />
<br />
X si X>µ0<br />
µ2 =<br />
(6.27)<br />
µ0 si X ≤ µ0 .<br />
El estimador <strong>de</strong> máxima verosimilitud <strong>de</strong> σ 2 , para θ ∈ Θ1 es<br />
σ 2 1 = 1<br />
n<br />
n<br />
(Xi − µ1)<br />
i=1<br />
2
6.6. TEST DEL COCIENTE DE MÁXIMA VEROSIMILITUD 37<br />
y para θ ∈ Θ2 es<br />
σ 2 2<br />
= 1<br />
n<br />
Luego, reemplazando en (6.24) se obtiene<br />
para j =1, 2, <strong>de</strong> don<strong>de</strong><br />
L =<br />
n<br />
max<br />
(µ,σ2 p(X,µ,σ<br />
)∈Θj<br />
2 )=[2eπ<br />
ni=1 (Xi − µ2) 2<br />
ni=1 (Xi − µ1) 2<br />
n<br />
2<br />
=<br />
y usando (6.26) y (6.27) se <strong>de</strong>duce<br />
⎧<br />
⎪⎨<br />
L =<br />
⎪⎩<br />
Si llamamos<br />
se tiene<br />
(Xi − µ2)<br />
i=1<br />
2 .<br />
n<br />
ni=1 (Xi − X) 2 + n(X − µ0) 2<br />
ni=1 (Xi − X) 2<br />
ni=1 (Xi − X) 2<br />
ni=1 (Xi − X) 2 + n(X − µ0) 2<br />
⎧<br />
⎪⎨ (1 +<br />
L =<br />
⎪⎩<br />
(1 +<br />
T =<br />
(Xi − µj)<br />
i=1<br />
2 /n]<br />
n<br />
− 2<br />
ni=1 (Xi − X) 2 + n(X − µ2) 2<br />
ni=1 (Xi − X) 2 +(X − µ1) 2<br />
√ n(X − µ0)<br />
n<br />
2<br />
n<br />
2<br />
n (Xi−X) 2<br />
i=1<br />
n−1<br />
T 2 n<br />
n−1 ) 2 si X ≤ µ0<br />
T 2 n<br />
n−1<br />
)− 2 si X>µ0 .<br />
si X ≤ µ0<br />
n<br />
2<br />
si X>µ0 .
38 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
Luego, el test <strong>de</strong>l cociente <strong>de</strong> máxima verosimilitud es <strong>de</strong> la forma<br />
⎧<br />
1<br />
⎪⎨<br />
ϕ(X) =<br />
⎪⎩<br />
⎧<br />
⎪⎨<br />
si<br />
⎪⎩<br />
T 2<br />
1+<br />
n − 1 ≤ kα<br />
0<br />
⎧<br />
⎪⎨<br />
si<br />
⎪⎩<br />
1<br />
T 2 ≤ kα<br />
1+ n−1<br />
T 2<br />
1+<br />
n − 1<br />
y<br />
y<br />
X ≤ µ0<br />
X>µ0<br />
(A)<br />
(B)<br />
>kα<br />
1<br />
T 2 >kα<br />
1+ n−1<br />
y<br />
y<br />
X ≤ µ0<br />
X>µ0<br />
(C)<br />
(D) .<br />
Tomemos ahora kα < 1 (con kα ≥ 1 se llega al mismo resultado), en este caso<br />
la primera <strong>de</strong>sigualdad <strong>de</strong> (A) no pue<strong>de</strong> ocurrir y la primera <strong>de</strong>sigualdad <strong>de</strong><br />
(C) ocurre siempre, luego ϕ(X) se transforma en<br />
⎧<br />
1<br />
⎪⎨<br />
ϕ(X) =<br />
0<br />
⎪⎩<br />
Esto es equivalente a<br />
⎧<br />
1<br />
si<br />
T 2 ≤ kα y<br />
1+ n−1<br />
⎧<br />
X ≤ µ0<br />
⎪⎨<br />
si 1<br />
⎪⎩ T 2 >kα y<br />
1+ n−1<br />
X>µ0<br />
X>µ0 .<br />
⎪⎨ ⎧<br />
ϕ(X) = ⎪⎨<br />
⎪⎩<br />
0 si<br />
⎪⎩<br />
<strong>de</strong> don<strong>de</strong>, se <strong>de</strong>duce que<br />
<br />
ϕ(X) =<br />
1 si |T |≥k ′ α y T>0<br />
|T | 0<br />
T
6.6. TEST DEL COCIENTE DE MÁXIMA VEROSIMILITUD 39<br />
Se pue<strong>de</strong> pensar que el caso más <strong>de</strong>sfavorable, en el cual hay mayor<br />
probabilidad <strong>de</strong> rechazar H, es en el caso límite µ = µ0; por lo tanto parece<br />
razonable elegir k ′ α <strong>de</strong> manera que<br />
P µ0,σ 2(T ≥ k′ α)=α.<br />
Pero cuando µ = µ0, T tiene distribución <strong>de</strong> Stu<strong>de</strong>nt con n − 1 grados<br />
<strong>de</strong> libertad, y por lo tanto <strong>de</strong>bemos tomar<br />
El test ϕ resulta entonces<br />
<br />
ϕ(X) =<br />
k ′ α = tn−1,α .<br />
1 si T ≥ tn−1,α<br />
0 si T
40 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
don<strong>de</strong> U es una variable aleatoria N(0, 1) y V tiene distribución χ 2 n, in<strong>de</strong>pendientes.<br />
Luego,<br />
pero<br />
P (X∆ ≥ k|V = v) =P<br />
cn,k(∆) = P (X∆ ≥ k) =E [P (X∆ ≥ k|V )] ,<br />
<br />
<br />
U +∆<br />
v<br />
≥ k |V = v =1− Φ(k − ∆) .<br />
v/n n<br />
Luego esta última probabilidad, para k, n y v fijos, es una función creciente<br />
<strong>de</strong> ∆. Por lo tanto, si ∆1 < ∆2 se tiene<br />
P (X∆1 ≥ k|V = v)
6.6. TEST DEL COCIENTE DE MÁXIMA VEROSIMILITUD 41<br />
σ2 , U tiene distribución N(0, 1) y V tiene distribución χ2 n−1 . Luego T tiene<br />
distribución Tn−1(∆) don<strong>de</strong> ∆ = √ n(µ − µ0)/σ. A<strong>de</strong>más,<br />
βϕ(µ, σ 2 )=P µ,σ2(T ≥ tn−1,α) =cn−1,tn−1,α (∆) .<br />
Resulta, por el Teorema 1, que βϕ(µ, σ 2 ) es una función creciente <strong>de</strong> µ<br />
para cada σ 2 fijo. Como, por otra parte, βϕ(µ0,σ 2 )=α, para todo σ 2 ,se<br />
tiene<br />
βϕ(µ, σ 2 )
42 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
o equivalentemente<br />
P σ 2 0<br />
ni=1 (Xi − X) 2<br />
σ 2 0<br />
≥ kα<br />
σ2 <br />
= α.<br />
0<br />
Como n i=1(Xi − X) 2 /σ 2 0 tiene distribución χ2 n−1 cuando σ2 = σ 2 0 ,se<br />
tiene que<br />
kα = σ 2 0 χ2 n−1,α .<br />
Para mostrar que el test tiene realmente nivel <strong>de</strong> significación α, bastará<br />
mostrar que la función <strong>de</strong> potencia es una función creciente y esto se <strong>de</strong>duce<br />
como sigue. Sea Dn(k) =P (Y ≥ k), don<strong>de</strong> Y es una variable aleatoria con<br />
distribución χ 2 n. Luego<br />
βϕ(σ 2 ) = P σ 2<br />
= P σ 2<br />
= Dn−1<br />
n<br />
<br />
(Xi − X)<br />
i=1<br />
2 ≥ σ 2 0χ2n−1,α ni=1 (Xi − X) 2<br />
σ2 ≥ σ2 0χ2n−1,α σ2 <br />
<br />
σ2 0χ2 <br />
n−1,α<br />
σ 2<br />
ya que cuando la varianza <strong>de</strong> cada Xi es σ 2 resulta que n i=1 (Xi − X) 2 /σ 2<br />
tiene distribución χ 2 n−1 .<br />
Como Dn(k) es una función <strong>de</strong>creciente <strong>de</strong> k, βϕ(σ 2 ) es una función<br />
creciente <strong>de</strong> σ 2 .<br />
Ejemplo 5. Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
N(µ, σ 2 ) con µ y σ 2 <strong>de</strong>sconocidos y supongamos que se quiere testear<br />
H:σ 2 = σ 2 0 contra K : σ2 = σ 2 0 .<br />
En este caso, el test <strong>de</strong>l cociente <strong>de</strong> máxima verosimilitud es <strong>de</strong> la forma<br />
⎧<br />
1 si<br />
⎪⎨<br />
ϕ(X) =<br />
1 si<br />
ni=1 (Xi − X) 2<br />
σ 2 0<br />
ni=1 (Xi − X) 2<br />
σ 2 0<br />
⎪⎩<br />
0 en cualquier otro caso,<br />
,<br />
≥ k ′ α<br />
6.6. TEST DEL COCIENTE DE MÁXIMA VEROSIMILITUD 43<br />
Para que ϕ tenga nivel <strong>de</strong> significación α, se <strong>de</strong>be cumplir que<br />
βϕ(σ 2 ni=1 (Xi − X)<br />
0) = Pσ2 0<br />
2<br />
σ2 ≥ k<br />
0<br />
′ <br />
α<br />
ni=1 (Xi − X)<br />
+Pσ2 0<br />
2<br />
σ2
44 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
aproximación es buena con tal que n no sea muy pequeño. Luego, el test<br />
que se usa viene dado por<br />
⎧<br />
⎪⎨<br />
⎪⎨ 1 si<br />
ϕ(X) =<br />
⎪⎩<br />
⎪⎩<br />
⎧<br />
n<br />
(Xi − X)<br />
i=1<br />
2 ≥ σ 2 0χ 2 n−1, α<br />
2<br />
n<br />
0 si σ 2 0 χ2 n−1,1− α<br />
2<br />
(Xi − X)<br />
i=1<br />
2 ≤ σ 2 0χ 2 n−1,1− α<br />
2<br />
≤<br />
n<br />
(Xi − X)<br />
i=1<br />
2 ≤ σ 2 0χ2n−1, α<br />
2<br />
Se pue<strong>de</strong> mostrar que los tests obtenidos en los Ejemplos 1 a 5 son IUMP.<br />
Para estos resultados pue<strong>de</strong>n consultarse el Capítulo 5 <strong>de</strong> Lehmann [3] o el<br />
Capítulo 5 <strong>de</strong> Ferguson [2].<br />
6.7 Test con nivel <strong>de</strong> significación asintótico<br />
La mayoría <strong>de</strong> los test <strong>de</strong> hipótesis, por ejemplo, los <strong>de</strong>l cociente <strong>de</strong> verosimilitud,<br />
son <strong>de</strong> la forma<br />
⎧<br />
⎪⎨ 1 si T>kα<br />
ϕ(X) = γα si T = kα<br />
⎪⎩ 0 si T
6.7. TEST CON NIVEL DE SIGNIFICACIÓN ASINTÓTICO 45<br />
Ejemplo 1. Supongamos que X1,...,Xn es una muestra aleatoria <strong>de</strong> una<br />
distribución <strong>de</strong>sconocida con media µ y varianza σ2 .<br />
Supongamos que se quiere testear H : µ ≤ µ0 contra K : µ > µ0.<br />
Llamemos<br />
ni=1 Xi<br />
ni=1 (Xi − X) 2<br />
X =<br />
y s<br />
n<br />
2 =<br />
.<br />
n − 1<br />
Ya hemos <strong>de</strong>mostrado que<br />
√ (X − µ0)<br />
n<br />
s<br />
converge en distribución a la N(0, 1) cuando la esperanza <strong>de</strong> las variables Xi<br />
es µ0. Luego, si <strong>de</strong>finimos<br />
⎧<br />
⎪⎨<br />
ϕn(X1,...,Xn) =<br />
⎪⎩<br />
1 si √ (X − µ0)<br />
n ≥ zα<br />
s<br />
0 si √ (X − µ0)<br />
n
46 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
o bien, en forma paramétrica<br />
Θ1 = {θ =(θ1, ...θp) :θ1 = h1(λ),...,θp = hp(λ), λ ∈ Λ},<br />
don<strong>de</strong> λ =(λ1,...,λp−j) yΛ⊂ IR p−j <strong>de</strong> dimensión p − j.<br />
Supongamos que se está interesado en el siguiente problema <strong>de</strong> test <strong>de</strong><br />
hipótesis:<br />
H:θ ∈ Θ1 contra K : θ ∈ Θ2<br />
con Θ = Θ1 ∪ Θ2. Luego, el test <strong>de</strong>l cociente <strong>de</strong> máxima verosimilitud es <strong>de</strong><br />
la forma<br />
<br />
ϕ(X) =<br />
don<strong>de</strong><br />
1 si L ∗ (X) ≤ kα<br />
0 si L ∗ (X) >kα<br />
L ∗ (X) = sup θ∈Θ1<br />
p(X, θ)<br />
supθ∈Θ p(X, θ) .<br />
Para <strong>de</strong>terminar kα es necesario conocer la distribución <strong>de</strong> L ∗ (X) bajo H.<br />
Muchas veces esta es muy complicada y pue<strong>de</strong> <strong>de</strong>pen<strong>de</strong>r <strong>de</strong>l valor particular<br />
θ ∈ Θ1 que se consi<strong>de</strong>re. Sin embargo, se pue<strong>de</strong> mostrar que, bajo condi-<br />
ciones <strong>de</strong> regularidad muy generales en p(x, θ), la distribución asintótica <strong>de</strong><br />
Z = −2lnL∗ cuando θ ∈ Θ1 es χ2 j . Luego un test <strong>de</strong> nivel <strong>de</strong> significación<br />
asintótico α está dado por<br />
⎧<br />
⎪⎨ 1<br />
ϕ(X) =<br />
⎪⎩<br />
si Z ≥ χ2 j,α<br />
0 si Z 0} es in<strong>de</strong>pendiente <strong>de</strong> θ.
6.7. TEST CON NIVEL DE SIGNIFICACIÓN ASINTÓTICO 47<br />
(B) Para todo x, p(x, θ) tiene <strong>de</strong>rivada tercera respecto <strong>de</strong> θ continua y tal<br />
que<br />
<br />
<br />
∂3 ln p(x, θ)<br />
∂θ3 <br />
<br />
= ∂2ψ(x, θ)<br />
∂θ2 <br />
<br />
≤ K<br />
para todo x ∈S y para todo θ ∈ Θ, don<strong>de</strong><br />
ψ(x, θ) =<br />
∂ ln p(x, θ)<br />
∂θ<br />
(C) Si h(X) es un estadístico tal que Eθ[|h(X)|] < ∞ para todo θ ∈ Θ<br />
entonces se tiene<br />
<br />
∂ ∞ ∞<br />
...<br />
h(x)<br />
∂θ<br />
∂p(x,θ)<br />
dx<br />
∂θ<br />
si<br />
(D)<br />
−∞<br />
−∞<br />
don<strong>de</strong> dx =(dx1,...,dxn).<br />
∞<br />
h(x)p(x,θ)dx =<br />
∞<br />
...<br />
−∞ −∞<br />
0
48 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
Luego, θn verifica<br />
ℓ ′ ( n<br />
θn) = ψ(Xi,<br />
i=1<br />
θn) =0.<br />
Con lo cual, <strong>de</strong>sarrollando en serie <strong>de</strong> Taylor alre<strong>de</strong>dor <strong>de</strong> θn se obtiene:<br />
ℓ(θ0) − ℓ( θn) = ℓ ′ ( θn)(θ0 − θn)+ 1<br />
2 ℓ′′ (ξ 1 n )(θ0 − θn) 2<br />
= 1<br />
2 (θ0 − θn) 2<br />
<br />
n<br />
<br />
= 1 <br />
n(θ0 −<br />
2<br />
θn) 2 1<br />
n<br />
ψ<br />
i=1<br />
′ (Xi,ξ 1 n )<br />
don<strong>de</strong> ξ 1 n es un punto intermedio entre θn y θ0 y<br />
i=1<br />
n<br />
ψ<br />
i=1<br />
′ (Xi,θ0)+Rn ,<br />
Rn = 1 <br />
n(θ0 −<br />
2<br />
θn) 2 n 1<br />
ψ<br />
n<br />
i=1<br />
′ (Xi,ξ 1 n 1<br />
n ) − ψ<br />
n<br />
i=1<br />
′ <br />
(Xi,θ0) .<br />
Aplicando el Teorema <strong>de</strong>l valor medio se obtiene<br />
Rn = 1 <br />
n(θ0 −<br />
2<br />
θn) 2 n 1<br />
ψ<br />
n<br />
′′ (Xi,ξ 2 n)(ξ 1 <br />
n − θ0) (6.30)<br />
don<strong>de</strong> ξ 2 n es un punto intermedio entre ξ1 n y θ0. Observemos que por ser θn<br />
consistente, se obtiene entonces que ξ j n → θ0 en probabilidad para j =1, 2.<br />
Reemplazando, obtenemos que<br />
<br />
Z =2 ℓ( <br />
θn) − ℓ(θ0) =<br />
ni=1 ψ ′ (Xi,θ0).<br />
<br />
n( θn − θ0) 2<br />
An − Rn<br />
don<strong>de</strong> An = − 1<br />
n<br />
Hemos visto en el Teorema 1 <strong>de</strong> 3.17 que cuando θ = θ0<br />
√<br />
n( θn<br />
1<br />
− θ0) → N(0, ) en distribución,<br />
I1(θ0)<br />
con lo cual<br />
(6.31)<br />
I1(θ0) n ( θn − θ0) 2 → χ 2 1 en distribución. (6.32)<br />
Por otra parte, la ley <strong>de</strong> los gran<strong>de</strong>s números implica que<br />
n 1<br />
n<br />
ψ<br />
i=1<br />
′ (Xi,θ0) → E(ψ ′ (X1,θ0)) en probabilidad. (6.33)
6.7. TEST CON NIVEL DE SIGNIFICACIÓN ASINTÓTICO 49<br />
Pero,<br />
Eθ0 (ψ′ (X1,θ0)) = −I1(θ0) ,<br />
luego, usando (6.32) y (6.33) se obtiene que<br />
<br />
n ( θn − θ0) 2<br />
An → χ 2 1 en distribución. (6.34)<br />
Por lo tanto, a partir <strong>de</strong> (6.31) y (6.34) <strong>de</strong>ducimos que bastará probar que<br />
Rn → 0 en probabilidad. (6.35)<br />
Como |ψ ′′ (Xi,θ)| ≤K para todo θ, se tiene que<br />
<br />
n 1<br />
ψ<br />
2n<br />
′′ (Xi,ξ 2 n)(ξ 1 <br />
<br />
K<br />
n − θ0) ≤<br />
2 |(ξ1 n − θ0)|<br />
i=1<br />
y luego como ξ1 n → θ0 en probabilidad se <strong>de</strong>duce que:<br />
n<br />
1<br />
n<br />
i=1<br />
ψ ′′ (Xi,ξ 2 n)(ξ 1 n − θ0) → 0 en probabilidad. (6.36)<br />
Pero, (6.32) implica que n( θn − θ0) 2 está acotado en probabilidad, luego<br />
(6.35)se obtiene <strong>de</strong> (6.30) y (6.36).<br />
Ejemplo 1. Sea X1,...,Xn una muestra <strong>de</strong> una distribución perteneciente<br />
a la familia Bi(θ, 1), 0 < θ < 1, y supongamos que se quiere testear<br />
H:θ = θ0 contra K : θ = θ0. Luego el test <strong>de</strong>l cociente <strong>de</strong> máxima verosimilitud<br />
es<br />
L ∗ p(x,θ0)<br />
=<br />
supθ∈Θ p(x, θ) = θT 0 (1 − θ0) n−T<br />
X T ,<br />
(1 − X) n−T<br />
don<strong>de</strong> T = n i=1 Xi. Luego,<br />
Z = −2lnL ∗ =2T ln X<br />
θ0<br />
+2(n − T )ln<br />
tiene una distribución asintótica χ2 1<br />
estará dado por<br />
⎧<br />
⎪⎨ 1 si Z>χ2 1,α<br />
ϕ(X) =<br />
⎪⎩<br />
(1 − X)<br />
1 − θ0<br />
bajo H y un test <strong>de</strong> nivel asintótico<br />
0 si Z
50 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
6.8 Relación entre regiones <strong>de</strong> confianza y test<br />
En esta sección se estudiará la relación que existe entre tests y regiones <strong>de</strong><br />
confianza.<br />
Supongamos que se tiene un vector aleatorio X con distribución perteneciente<br />
a la familia F (x, θ) con θ ∈ Θ y supongamos que para cada θ0<br />
se tiene un test no aleatorizado <strong>de</strong> nivel α, ϕ θ0 , para H : θ = θ0 contra<br />
K:θ = θ0.<br />
Se pue<strong>de</strong> construir una región <strong>de</strong> confianza <strong>de</strong> nivel (1 − α) para θ<br />
<strong>de</strong>finiendo<br />
S(X) ={θ : ϕ θ (X) =0}<br />
Es <strong>de</strong>cir, S(X) es el conjunto <strong>de</strong> todos los θ ∈ Θ tales que la hipótesis <strong>de</strong><br />
que el valor verda<strong>de</strong>ro es θ, es aceptada cuando se observa X.<br />
Demostraremos que S(X) así<strong>de</strong>finida, es una región <strong>de</strong> confianza <strong>de</strong> nivel<br />
1 − α para θ<br />
P θ (θ ∈ S(X)) = P θ (ϕ θ (X) =0)=1− P θ (ϕ θ (X) =1)=1− α.<br />
Recíprocamente, si se tiene una región <strong>de</strong> confianza S(X) <strong>de</strong> nivel 1 − α<br />
para θ, se pue<strong>de</strong> construir un test <strong>de</strong> nivel α, ϕ θ0 ,paraH:θ = θ0 contra<br />
K:θ = θ0.<br />
Definamos<br />
<br />
ϕ (X) = θ0<br />
1 si θ0 /∈ S(X)<br />
0 si θ0 ∈ S(X) .<br />
Mostraremos que este test tiene realmente nivel <strong>de</strong> significación α. Efectivamente,<br />
P θ0 (ϕ θ0 (X) =1)=P θ0 (θ0 /∈ S(X)) = 1−P θ0 (θ0 ∈ S(X)) = 1−(1−α) =α.<br />
Ejemplo 1. Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
N(µ, σ 2 ).<br />
En el capítulo anterior hemos <strong>de</strong>mostrado que un intervalo <strong>de</strong> confianza<br />
a nivel (1 − α) para µ viene dado por<br />
S(X) =[X − t n−1, α<br />
2<br />
s<br />
√ n , X + t n−1, α<br />
2<br />
Construyamos el test correspondiente <strong>de</strong> nivel α para<br />
H:µ = µ0 contra K: µ = µ0<br />
s<br />
√ n ]
6.8. RELACIÓN ENTRE REGIONES DE CONFIANZA Y TEST 51<br />
ϕµ0 (X) =<br />
<br />
1 si µ0 /∈ S(X)<br />
0 si µ0 ∈ S(X)<br />
pero µ0 ∈ S(X) si y sólo si |µ0 − X| ≤t n−1, α<br />
2 (s/√ n), luego<br />
ϕµ0 (X) =<br />
⎧<br />
⎪⎨<br />
⎪⎩<br />
1 si √ |X − µ0|<br />
n >t α<br />
n−1,<br />
s<br />
2<br />
0 si √ |X − µ0|<br />
n ≤ t α<br />
n−1,<br />
s<br />
2 .<br />
Por lo tanto, este test coinci<strong>de</strong> con el obtenido en el Ejemplo 2 <strong>de</strong> 6.6,<br />
cuando obtuvimos el test <strong>de</strong>l CMV para este problema. Recíprocamente, a<br />
partir <strong>de</strong> esta familia <strong>de</strong> tests si se usara el procedimiento indicado anteriormente<br />
para obtener intervalos <strong>de</strong> confianza, se llegará al intervalo inicial.<br />
Ejemplo 2. Sea X1,...,Xn1<br />
una muestra aleatoria <strong>de</strong> una distribución<br />
N(µ1,σ 2 )yseaY1,...,Yn2 una muestra aleatoria <strong>de</strong> una distribución N(µ2,σ 2 )<br />
in<strong>de</strong>pendiente <strong>de</strong> la primera. Se ha visto en el Capítulo 5 que<br />
don<strong>de</strong><br />
T =<br />
<br />
n1 n2<br />
n1 + n2<br />
(X − Y − (µ1 + µ2))<br />
s<br />
s 2 <br />
n1<br />
1 <br />
=<br />
(Xi − X)<br />
n2 + n1 − 2<br />
2 n2 <br />
+ (Yi − Y ) 2<br />
<br />
i=1<br />
tiene distribución <strong>de</strong> Stu<strong>de</strong>nt con n1 + n2 − 2 grados <strong>de</strong> libertad y que un<br />
intervalo <strong>de</strong> confianza para µ1 − µ2 está dado por<br />
<br />
<br />
<br />
n1 + n2<br />
S(X) =<br />
X − Y − t n1+n2−2, α<br />
2 s<br />
n1 n2<br />
i=1<br />
, X − Y + t (n1+n2−2), α<br />
2 s<br />
<br />
n1 + n2<br />
n1 n2<br />
Luego, si se quiere testear H : µ1 − µ2 = λ0 contra K : µ1 − µ2 = λ0, con<br />
nivel <strong>de</strong> significación α, se pue<strong>de</strong> obtener un test haciendo<br />
<br />
1 si λ0 /∈ S(X)<br />
ϕλ0 (X) =<br />
0 si λ0 ∈ S(X)<br />
pero λ0 ∈ S(X) si y sólo si<br />
<br />
n1 n2<br />
n1 + n2<br />
|X − Y − λ0|<br />
s<br />
≤ t n1+n2−2, α<br />
2 .
52 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
Por lo tanto,<br />
ϕλ0 (X) =<br />
⎧<br />
⎪⎨<br />
⎪⎩<br />
1 si<br />
0 si<br />
n1 n2<br />
n1 + n2<br />
n1 n2<br />
n1 + n2<br />
|X − Y − λ0|<br />
s<br />
|X − Y − λ0|<br />
s<br />
≥ t n1+n2−2, α<br />
2<br />
θ0<br />
H2 : θ = θ0 contra K2 : θ
6.9. COTAS DE CONFIANZA ÓPTIMAS 53<br />
i) S(X) es una región <strong>de</strong> confianza <strong>de</strong> nivel 1 − α para θ.<br />
ii) Si ϕ∗ es cualquier otro test no aleatorizado <strong>de</strong> nivel α para esas<br />
θ0<br />
hipótesis y<br />
S ∗ (X) ={θ ∈ Θ:ϕ ∗ θ (X) =0}<br />
entonces Pθ{θ0 ∈ S(X)} ≤Pθ{θ0 ∈ S ∗ (X)} para todo θ>θ0.<br />
Demostración. i) Por la <strong>de</strong>finición <strong>de</strong> S(X) sabemos que θ ∈ S(X) siy<br />
sólo si ϕθ(X) = 0, luego<br />
Pθ{θ ∈ S(X)} = Pθ{ϕθ(X) =0} =1− α<br />
por ser ϕθ <strong>de</strong> nivel α.<br />
ii) Igual que en i) S ∗ (X) será una región <strong>de</strong> confianza <strong>de</strong> nivel 1 − α. Por<br />
ser ϕθ0 (X) el test UMP para H1 contra K1 resulta que<br />
o sea,<br />
Por lo tanto,<br />
βϕθ (θ) ≥ βϕ 0 ∗ (θ) ∀ θ>θ0<br />
θ0 Pθ{ϕθ0 (X) =1}≥Pθ{ϕ ∗ θ0 (X) =1} ∀ θ>θ0 .<br />
Pθ{ϕθ0 (X) =0}≤Pθ{ϕ ∗ θ0 (X) =0} ∀θ>θ0 .<br />
pero como θ0 ∈ S(X) si y sólo si ϕθ0 (X) =0yθ0 ∈ S∗ (X) si y sólo si<br />
ϕ∗ (X) = 0, resulta<br />
θ0<br />
Pθ{θ0 ∈ S(X)} ≤Pθ{θ0 ∈ S ∗ (X)} ∀θ>θ0 .<br />
Un teorema similar pue<strong>de</strong> <strong>de</strong>mostrarse para H2 contra K2.<br />
Veamos cómo son las regiones S(X) en el caso <strong>de</strong>l Teorema 1.<br />
Teorema 2. Sea X con distribución perteneciente a una familia F (x,θ)<br />
<strong>de</strong> cociente <strong>de</strong> verosimilitud monótono en T = r(X). Supongamos que la<br />
función <strong>de</strong> distribución FT (t, θ) <strong>de</strong> T es continua para todo θ . Sea, para<br />
cada θ0 ∈ Θ, ϕθ0 (X) el test UMP para H1 : θ = θ0 contra K1 : θ>θ0, o sea:<br />
<br />
ϕθ0 (X) =<br />
1 si T>kα(θ0)<br />
0 si T ≤ kα(θ0)
54 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
Si a<strong>de</strong>más FT (t, θ) es continua en θ para cada t fijo, la región <strong>de</strong> confianza<br />
S(X) ={θ ∈ Θ:ϕθ(X) =0} = {θ ∈ Θ:T = r(X) ≤ kα(θ)}<br />
es el intervalo I =[θ(X), +∞), don<strong>de</strong><br />
θ(X) = inf{θ ∈ Θ:T ≤ kα(θ)} .<br />
Demostración. Ya hemos <strong>de</strong>mostrado que si se tiene una familia<br />
<strong>de</strong> cociente <strong>de</strong> verosimilitud monótono en T = r(X), el test UMP para<br />
H1 : θ = θ0 contra K1: θ>θ0 es <strong>de</strong> la forma<br />
ϕθ0 (X) =<br />
⎧<br />
⎪⎨<br />
⎪⎩<br />
con kα(θ0) yγα(θ0) tales que<br />
1 si T>kα(θ0)<br />
γα(θ0) si T = kα(θ0)<br />
0 si Tkα(θ0)<br />
ϕθ0 (X) =<br />
0 si T ≤ kα(θ0) .<br />
Mostraremos que<br />
(a) kα(θ) es una función no <strong>de</strong>creciente <strong>de</strong> θ.<br />
(b) kα(θ) es una función continua a <strong>de</strong>recha.<br />
(a) Sabemos que por ser ϕθ0 el test UMP <strong>de</strong> nivel α para H1 contra K1, la<br />
función <strong>de</strong> potencia <strong>de</strong> ϕθ0 es mayor o igual que el nivel para todo θ>θ0.<br />
Luego, dado cualquier θ1 >θ0 se cumple<br />
Como a<strong>de</strong>más<br />
tendremos<br />
α = Eθ0 (ϕθ0 (X)) = Pθ0 (T ≥ kα(θ0))<br />
≤ Eθ1 (ϕθ0 (X)) = Pθ1 (T ≥ kα(θ0)) .<br />
α = Eθ1 (ϕθ1 (X)) = Pθ1 (T ≥ kα(θ1)) ,<br />
α = Pθ1 (T ≥ kα(θ1)) ≤ Pθ1 (T ≥ kα(θ0)) ,
6.9. COTAS DE CONFIANZA ÓPTIMAS 55<br />
y por lo tanto, es posible tomar kα(θ1) tal que<br />
kα(θ1) ≥ kα(θ0) .<br />
Con lo cual, kα(θ) es una función no <strong>de</strong>creciente <strong>de</strong> θ.<br />
(b) Sea θn una sucesión <strong>de</strong>creciente que converge a θ, luego como kα(.) es<br />
no <strong>de</strong>creciente se tiene<br />
kα(θn) ≥ kα(θ) (6.37)<br />
Sea k = limn→∞ kα(θn) =infn≥1 kα(θn). Por (6.37) k ≥ kα(θ), bastará<br />
mostrar que k ≤ kα(θ).<br />
Como k ≤ kα(θn) se cumple<br />
Pθn (T ≤ k) ≤ Pθn (T ≤ kα(θn)) = α. (6.38)<br />
Pero a<strong>de</strong>más, como FT (k, θ) es continua en θ se tiene<br />
Por lo tanto, (6.38) y (6.39) implican que<br />
Pθ(T ≤ k) = lim Pθn (T ≤ k) . (6.39)<br />
n→∞<br />
Pθ(T ≤ k) ≤ α = Pθ (T ≤ kα(θ))<br />
luego, es posible tomar kα(θ) tal que k ≤ kα(θ). Con lo cual, k = kα(θ) y<br />
kα(θ) es continua a <strong>de</strong>recha.<br />
Veamos ahora que θ ∈ S(X) si y sólo si θ ≥ θ(X).<br />
Si θ ∈ S(X) entonces T ≤ kα(θ) <strong>de</strong> don<strong>de</strong> θ ∈{θ ∈ Θ:T ≤ kα(θ)} y<br />
θ ≥ θ(X) que es el ínfimo <strong>de</strong> este conjunto.<br />
Si θ>θ(X) entonces existe θ ′ ∈ Θ tal que T ≤ kα(θ ′ ) con θ(X) θ0, o sea:<br />
<br />
ϕθ0 (X) =<br />
1<br />
0<br />
si<br />
si<br />
T>kα(θ0)<br />
T ≤ kα(θ0)
56 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
suponiendo que la distribución, FT (t, θ), <strong>de</strong>T (X) es continua para todo θ.<br />
Supongamos a<strong>de</strong>más FT (t, θ) es continua en θ para cada t fijo.<br />
En estas condiciones<br />
θ(X) = inf{θ ∈ Θ:T ≤ kα(θ)}<br />
es una cota inferior para θ uniformemente óptima.<br />
Demostración. De acuerdo a la <strong>de</strong>finición <strong>de</strong> cota inferior con nivel <strong>de</strong><br />
confianza 1 − α uniformemente óptima <strong>de</strong>berá <strong>de</strong>mostrarse que<br />
i) Pθ(θ ≥ θ(X)) = 1 − α para todo θ,<br />
ii) si θ ∗ es otra cota inferior a nivel α para θ<br />
Eθ(D(θ, θ)) ≤ Eθ(D(θ, θ ∗ )) para todo θ (6.40)<br />
don<strong>de</strong> D es una medida <strong>de</strong> la subevaluación <strong>de</strong> θ respecto <strong>de</strong> θ, <strong>de</strong>finida<br />
por<br />
<br />
θ − θ<br />
D(θ, θ) =<br />
0<br />
si<br />
si<br />
θ>θ<br />
θ ≤ θ .<br />
(i) se <strong>de</strong>duce <strong>de</strong>l Teorema 1, ya que<br />
S(X) ={θ : θ ≥ θ(X)}<br />
es un intervalo <strong>de</strong> nivel <strong>de</strong> confianza 1 − α.<br />
(ii) Demostraremos que dada cualquier otra cota θ ∗ a nivel 1 − α<br />
Pθ{θ ′ ≥ θ} ≤Pθ{θ ′ ≥ θ ∗ } para todo θ ′ ≤ θ. (6.41)<br />
Dado θ ′ ∈ Θ <strong>de</strong>finamos<br />
ϕ ∗ <br />
θ ′(X) =<br />
1 si θ ′ ≤ θ ∗<br />
0 si θ ′ >θ ∗ .<br />
Luego ϕ∗ θ ′(X) es un test <strong>de</strong> nivel α para H : θ = θ′ contra K : θ>θ ′ . Como<br />
′(X) es el UMP para estas hipótesis, por Teorema 1, ii) sabemos que<br />
ϕθ<br />
Pθ{θ ′ ≥ θ(X)} ≤Pθ{θ ′ ≥ θ ∗ (X)} para todo θ ≥ θ ′<br />
y como esto se pue<strong>de</strong> hacer para todo θ ′ ∈ Θ resulta (6.41).
6.9. COTAS DE CONFIANZA ÓPTIMAS 57<br />
Se podría <strong>de</strong>mostrar que si θ cumple (6.41) entonces θ cumple (6.40).<br />
Intuitivamente esto parece razonable, puesto que una cota inferior θ <strong>de</strong> θ<br />
que cumple (6.41) es, en algún sentido, la “mayor” cota inferior y, en este<br />
caso, el <strong>de</strong>fecto que presenta θ respecto <strong>de</strong> θ <strong>de</strong>bería ser lo más pequeño<br />
posible. Sin embargo la <strong>de</strong>mostración <strong>de</strong> esta implicación está fuera <strong>de</strong> los<br />
alcances <strong>de</strong> este curso. (Para la <strong>de</strong>mostración ver Lehmann [3], ejercicio 21,<br />
página 117.)<br />
Ejemplo 1. Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
U[0,θ]. Sabemos que el test UMP para H : θ = θ0 contra K : θ>θ0 es <strong>de</strong> la<br />
forma<br />
ϕθ0 (X) =<br />
⎧<br />
⎨<br />
⎩<br />
1 si max<br />
1≤i≤n Xi >θ0 n√ 1 − α<br />
0 si max<br />
1≤i≤n Xi ≤ θ0 n√ 1 − α<br />
En este caso, si T = max1≤i≤n Xi y kα(θ) =θ n√ 1 − α<br />
resulta igual a<br />
S(X) ={θ ∈ IR : ϕθ(X) =0} = {θ ∈ IR : T ≤ kα(θ)}<br />
S(X) = {θ ∈ IR : max<br />
1≤i≤n Xi ≤ θ n√ 1 − α} =<br />
= {θ ∈ IR : θ ≥<br />
max<br />
1≤i≤n Xi<br />
n√ 1 − α }<br />
y θ será<br />
max<br />
1≤i≤n<br />
θ(X) =<br />
Xi<br />
n√<br />
1 − α<br />
puesto que este es el menor valor que pue<strong>de</strong> tomar θ que pertenece a S(X).<br />
Resulta entonces que<br />
max<br />
1≤i≤n<br />
I =[θ(X), +∞) =[<br />
Xi<br />
n√ , +∞)<br />
1 − α<br />
es un intervalo <strong>de</strong> confianza unilateral para θ <strong>de</strong> nivel 1 − α y que θ es la<br />
mejor cota inferior para θ.<br />
Ejemplo 2. Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
N(µ, σ 2 0 ) con σ2 0 conocido. Sabemos que el test UMP para H : µ = µ0 contra
58 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
K:µ>µ0, es <strong>de</strong> la forma<br />
ϕµ0 (X) =<br />
⎧<br />
⎪⎨<br />
⎪⎩<br />
1 si √ (X − µ0)<br />
n >zα<br />
σ0<br />
0 si √ (X − µ0)<br />
n ≤ zα<br />
σ0<br />
Procediendo en forma similar a la <strong>de</strong>l Ejemplo 1, resulta<br />
Luego,<br />
es la mejor cota inferior para µ y<br />
σ0<br />
S(X) ={µ ∈ IR : µ ≥ X − zα √ } .<br />
n<br />
σ0<br />
µ(X) =X − zα √<br />
n<br />
σ0<br />
I =[µ(X), +∞) =[X− zα √ , +∞)<br />
n<br />
es un intervalo unilateral <strong>de</strong> nivel 1 − α para µ.<br />
6.10 Relación entre intervalos <strong>de</strong> confianza con nivel<br />
asintótico 1−α y test con nivel <strong>de</strong> significación<br />
asintótico α<br />
Supongamos que X1,...,Xn es una muestra aleatoria <strong>de</strong> una distribución<br />
perteneciente a la familia F (x, θ) y que para cada θ0 se tenga una sucesión<br />
<strong>de</strong> test ϕ nθ0 (X1,...,Xn) con nivel <strong>de</strong> significación asintótico 1 − α para<br />
H:θ = θ0 contra K : θ = θ0. Luego, pue<strong>de</strong> construirse una sucesión <strong>de</strong><br />
intervalos <strong>de</strong> confianza con nivel asintótico 1 − α <strong>de</strong>finiendo<br />
Sn(X1,...,Xn) ={θ : ϕ nθ (X) =0} .<br />
Recíprocamente, dada una sucesión <strong>de</strong> intervalos <strong>de</strong> confianza<br />
Sn(X1,...,Xn) <strong>de</strong> nivel asintótico 1 − α, si <strong>de</strong>finimos<br />
ϕ (X) =<br />
nθ0<br />
<br />
1 si θ0 /∈ S(X1,...,Xn)<br />
0 si θ0 ∈ S(X1,...,Xn)
6.10. RELACION ENTRE INTERVALOS DE CONFIANZA... 59<br />
se tiene que ϕ es una sucesión <strong>de</strong> test con nivel <strong>de</strong> significación asintótico<br />
nθ0<br />
α para H : θ = θ0 contra K : θ = θ0. (Se <strong>de</strong>ja como ejercicio la <strong>de</strong>mostración<br />
<strong>de</strong> estos enunciados.)<br />
Ejemplo 1. Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />
Bi(θ, 1). Ya se ha visto que<br />
√ n (X − θ0)<br />
θ0(1 − θ0)<br />
converge en distribución a la N(0, 1) cuando θ = θ0.<br />
Un intervalo <strong>de</strong> confianza para θ, con nivel asintótico 1 − α viene dado<br />
por<br />
Sn(X) ={θ : √ n<br />
|X − θ|<br />
θ(1 − θ)
60 CHAPTER 6. TESTS DE HIP ÓTESIS<br />
REFERENCIAS<br />
1. Chernoff, H. (1954). On the distribution of the likelihood ratio. Ann.<br />
Math. Statist. 25: 573-578.<br />
2. Ferguson, T.S. (1967). Mathematical Statistics. A Decision Theoretic<br />
Approach. Aca<strong>de</strong>mic Press.<br />
3. Lehmann, E.L. (1994). Testing Statistical Hypothesis. Chapman and<br />
Hall.<br />
4. Owen, D.B. (1965). The power of Stu<strong>de</strong>nt’s t test. J. Amer. Statist.<br />
Assoc. 60: 320-333.<br />
5. Wald, A. (1943). Tests of statistical hypothesis concerning several<br />
parameters when the number of observations is large. Trans. Am.<br />
Math. Soc. 54: 426-483.
Chapter 7<br />
Estimación Robusta<br />
7.1 El problema <strong>de</strong> la robustez para el<br />
mo<strong>de</strong>lo <strong>de</strong> posición<br />
Sea el mo<strong>de</strong>lo <strong>de</strong> posición y escala<br />
xi = µ + σui, 1 ≤ i ≤ n, (7.1)<br />
don<strong>de</strong> µ y σ son parámetros <strong>de</strong> posición y escala respectivamente,<br />
u1, ..., un son variables i.i.d. con distribución F . En este caso, x1, ..., xn<br />
resulta una muestra aleatoria <strong>de</strong> Fµσ, don<strong>de</strong> Fµσ(x) =F ((x−µ)/σ) Por<br />
ejemplo las xi pue<strong>de</strong>n ser distintas mediciones <strong>de</strong> una misma magnitud<br />
física µ medida con un error σui .<br />
Si F =Φ, la función <strong>de</strong> una distribución N(0,1), entonces las xi<br />
tienen distribución N(µ, σ 2 ). Por lo tanto, un estimador óptimo <strong>de</strong> µ<br />
es ¯x = n i=1 xi/n. Efectivamente este estimador es IMVU y minimax.<br />
Es importante señalar que para que ¯x tenga estas propieda<strong>de</strong>s, la distribución<br />
<strong>de</strong> los ui <strong>de</strong>be ser exactamente N(0,1). Sin embargo, en la<br />
mayoría <strong>de</strong> las aplicaciones prácticas a lo sumo se pue<strong>de</strong> asegurar los<br />
errores <strong>de</strong> medición tienen distribución aproximadamente normal. Por<br />
lo tanto, cabe preguntarse cual será el comportamiento <strong>de</strong> estimador ¯x<br />
en este caso.<br />
Una forma <strong>de</strong> <strong>de</strong>terminar distribuciones aproximadamente normales<br />
es consi<strong>de</strong>rar entornos <strong>de</strong> contaminación <strong>de</strong> la función <strong>de</strong> distribución<br />
1
2 CHAPTER 7. ESTIMACIÓN ROBUSTA<br />
Φ <strong>de</strong> la N(0,1). Un entorno <strong>de</strong> contaminación <strong>de</strong> tamaño ɛ <strong>de</strong> la distribución<br />
Φ se <strong>de</strong>fine por<br />
Vɛ = {F : F =(1− ɛ)Φ + ɛH con H arbitraria}. (7.2)<br />
La distribución F =(1− ɛ)Φ + ɛH correspon<strong>de</strong> a que las observaciones<br />
con probabilidad 1 − ɛ provienen <strong>de</strong> la distribución Φ y con<br />
probabilidad ɛ <strong>de</strong> la distribución H.<br />
En efecto supongamos que se tienen tres variables aleatoria in<strong>de</strong>pendientes<br />
: Z con distribución Φ, V con distribución H, yW con<br />
distribución Bi(1,ɛ). Definamos entonces la variable aleatoria U <strong>de</strong> la<br />
siguiente manera<br />
Luego<br />
<br />
U =<br />
Z si W =0<br />
V si W =1 .<br />
FU(u) = P (U ≤ u) =P (U ≤ u, W =0)+P (U ≤ u, W =1)<br />
= P (U ≤ u| W =0)P (W =0)+P (U ≤ u| W =1)P (W =1)<br />
= (1−ɛ)Φ(u)+ɛH(u). Con lo cual, si ɛ es pequeño (por ejemplo .05 o .10) esto significará<br />
que la gran mayoría <strong>de</strong> las observaciones se obtendrán a partir <strong>de</strong> la<br />
distribución Φ, es <strong>de</strong>cir serán normales. Por lo tanto, po<strong>de</strong>mos afirmar<br />
que si ɛ es pequeño y F ∈Vɛ, entonces F está cerca <strong>de</strong> Φ. Supongamos<br />
que tenemos una muestra aleatoria x1, ..., xn <strong>de</strong> F ∈ Vɛ . Por lo tanto<br />
una proporción (1 − ɛ) <strong>de</strong> las observaciones estarán dadas por (7.1)<br />
con ui proveniente <strong>de</strong> una distribución Φ, y una proporción ɛ tendrán<br />
el correspondiente ui proveniente <strong>de</strong> la distribución H. Estas últimas<br />
observaciones serán <strong>de</strong>nominadas puntos atípicos o outliers, y pue<strong>de</strong>n<br />
ser <strong>de</strong>bidas a realizaciones <strong>de</strong>l experimento en circunstancias anormales<br />
u otros factores <strong>de</strong> error como, por ejemplo, una equivocación en la<br />
transcripción <strong>de</strong>l dato.<br />
Lo que vamos a mostrar a continuación es que aunque ɛ sea pequeño<br />
el comportamiento <strong>de</strong>l estimador ¯x pue<strong>de</strong> ser muy ineficiente para distribuciones<br />
F ∈Vɛ.<br />
Primero mostraremos que si<br />
F =(1− ɛ)Φ + ɛH, (7.3)
7.1. EL PROBLEMA DE LA ROBUSTEZ PARA EL MODELO DE POSICI ÓN3<br />
entonces<br />
EF (u) =(1− ɛ)EΦ(u)+ɛEH(u). (7.4)<br />
A<strong>de</strong>más, si EH(u) =0, se tiene<br />
varF (u) =(1− ɛ)varΦ(u)+ɛvarH(u). (7.5)<br />
Para mostrar (7.4) supongamos que la H tiene <strong>de</strong>nsidad h , y sea<br />
ϕ la <strong>de</strong>nsidad correspondiente a Φ. Luego la <strong>de</strong>nsidad <strong>de</strong> F es<br />
y luego<br />
∞<br />
EF (u) =<br />
−∞<br />
f =(1− ɛ)ϕ + ɛh,<br />
∞<br />
∞<br />
uf(u)du =(1−ɛ) uϕ(u)du+ɛ uh(u)du =(1−ɛ)EΦ(u)+ɛEH(u).<br />
−∞<br />
−∞<br />
Para mostrar (7.5), observemos que<br />
varF (u) =<br />
∞<br />
u<br />
−∞<br />
2 =<br />
f(u)du<br />
∞<br />
(1−ɛ) u 2 ∞<br />
ϕ(u)du + ɛ u 2 h(u)du =<br />
−∞<br />
= (1− ɛ)+ɛ varH(u).<br />
Consi<strong>de</strong>remos ahora al estimador ˆµ =¯x, don<strong>de</strong> la muestra x1, ..., xn son<br />
generadas por (7.1) don<strong>de</strong> las ui son in<strong>de</strong>pendientes con distribución<br />
dada por (7.3) con EH(u) =0<br />
Luego<br />
varF (¯x) = σ2 varF (u)<br />
n<br />
−∞<br />
= σ2 ((1 − ɛ)+ɛ varH(u))<br />
.<br />
n<br />
Luego, si ɛ = 0, entonces var(¯x) =σ 2 /n. En cambio una contaminación<br />
<strong>de</strong> tamaño ɛ pue<strong>de</strong> producir un aumento <strong>de</strong> la varianza ilimitado,<br />
ya que varH(u) pue<strong>de</strong> ser ilimitada, inclusive infinita.<br />
Esta extrema sensibilidad <strong>de</strong> ¯x a una contaminación con una proporción<br />
pequeña <strong>de</strong> outliers también pue<strong>de</strong> verse <strong>de</strong> la siguiente forma.<br />
Supongamos que se tiene una muestra x1, ..., xn y se agrega una observación<br />
xn+1. Si esta observación es un outlier, su influencia en ¯x pue<strong>de</strong>
4 CHAPTER 7. ESTIMACIÓN ROBUSTA<br />
ser ilimitada. En efecto sean ¯xn y¯xn+1 el promedio basado en n y n+1<br />
observaciones respectivamente. Luego se tiene<br />
¯xn+1 = n<br />
n +1 ¯xn + 1<br />
n +1 xn+1 =¯xn + 1<br />
n +1 (xn+1 − ¯xn),<br />
y por lo tanto e ¯xn+1 pue<strong>de</strong> tomar valores tan altos ( o tan bajos) como<br />
se quiera con tal <strong>de</strong> tomar xn+1 suficientemente lejos <strong>de</strong> ¯xn.<br />
Supongamos que tenemos el mo<strong>de</strong>lo <strong>de</strong> posición dado por (7.1)<br />
don<strong>de</strong> la distribución F <strong>de</strong> los ui es simétrica respecto <strong>de</strong> 0. Como<br />
en este caso µ es también la mediana <strong>de</strong> las observaciones, un estimador<br />
alternativo será ˜µ =mediana(x1, ..., xn). Or<strong>de</strong>nemos los datos<br />
x1, ..., xn <strong>de</strong> menor a mayor obteniendo los valores x(1) ≤ ... ≤ x(n).<br />
Luego la mediana estará dada por<br />
<br />
˜µ =<br />
x(m+1) si n =2m +1<br />
x(m)+x(m+1) si n =2m<br />
Veamos que este estimador es mucho más resistente a outliers que<br />
la media. En efecto, para que la mediana tome un valor ilimitado no es<br />
suficiente agregar un outlier, sino se requiere por lo menos n/2 outliers.<br />
Un estimador como la mediana que es poco sensible a outliers se<br />
<strong>de</strong>nomina robusto<br />
La distribución <strong>de</strong> ˜µ para muestras finitas es muy complicada aún<br />
en el caso <strong>de</strong> muestras normales. Sin embargo, podremos <strong>de</strong>rivar su<br />
distribución asintótica. Para ello necesitamos una version <strong>de</strong>l Teorema<br />
Central <strong>de</strong>l Límite para arreglos triangulares que enunciaremos<br />
sin <strong>de</strong>mostración.<br />
Teorema Central <strong>de</strong>l Límite. Sean para cada n natural, vn1, ...vnn,<br />
v variables aleatoria in<strong>de</strong>pendientes igualmente disribuidas. Supongamos<br />
que existan constantes M>0ym>0, tales que |vni| ≤M y<br />
limn→∞var(vni) ≥ m. Luego se tiene que<br />
1<br />
n 1/2<br />
n<br />
i=1<br />
(vni − E(vni))<br />
var(vni) 1/2<br />
D<br />
−→ N(0, 1).<br />
.
7.1. EL PROBLEMA DE LA ROBUSTEZ PARA EL MODELO DE POSICI ÓN5<br />
El siguiente Teorema establece la distribución asintótica <strong>de</strong> la mediana.<br />
Teorema 1. Sea x1, ..., xn una muestra aleatoria <strong>de</strong> una distribución<br />
F con una única mediana µ y con una <strong>de</strong>nsidad f tal que f(µ) > 0.<br />
Entonces si ˜µn es la mediana <strong>de</strong> la muestra, se tiene que<br />
n 1/2 (˜µn − µ) D<br />
<br />
1<br />
−→ N 0,<br />
4f 2 <br />
.<br />
(µ)<br />
Demostración: Para facilitar la <strong>de</strong>mostración consi<strong>de</strong>raremos solo el caso<br />
que n =2m +1. Tenemos que <strong>de</strong>mostrar<br />
lim<br />
n→∞ P (n1/2 (˜µn − µ) ≤ y) = Φ(2f(µ)y), (7.6)<br />
don<strong>de</strong> Φ es la función <strong>de</strong> distribución correspondiente a N(0,1)<br />
Es inmediato que<br />
P (n 1/2 <br />
(˜µn − µ) ≤ y) =P ˜µn ≤ µ + y<br />
n1/2 <br />
. (7.7)<br />
y<br />
Sea<br />
⎧<br />
⎪⎨ 1 si xi ≤ µ +<br />
vni =<br />
⎪⎩<br />
y<br />
n1/2 0 si xi >µ+ y<br />
n1/2 , 1 ≤ i ≤ n. (7.8)<br />
Como vni tiene distribución Bi(F (µ + yn−1/2 , 1) se tiene<br />
E(vni) =νn = F (µ + y<br />
),<br />
n1/2 var(vni) =νn(1 − νn).<br />
De acuerdo a la <strong>de</strong>finición <strong>de</strong> mediana se tiene que<br />
<br />
P ˜µn ≤ µ + y<br />
n1/2 <br />
n<br />
= P vni ≥<br />
i=1<br />
n<br />
<br />
2<br />
= P<br />
1<br />
n 1/2<br />
n<br />
i=1<br />
(vni − νn) (n/2 − nνn)<br />
≥<br />
(νn(1 − νn)) 1/2 (nνn(1 − νn)) 1/2<br />
<br />
. (7.9)
6 CHAPTER 7. ESTIMACIÓN ROBUSTA<br />
Como |vni| ≤1, y limn→∞var(vni) =1/4. se cumplen las hipótesis<br />
<strong>de</strong>l Teorema Central <strong>de</strong>l Límite. Luego<br />
1<br />
n 1/2<br />
n<br />
i=1<br />
(vni − νn)<br />
(νn(1 − νn)) 1/2<br />
D<br />
−→ N(0, 1). (7.10)<br />
Usando el hecho <strong>de</strong> que F (µ) =1/2, y el Teorema <strong>de</strong>l Valor Medio<br />
tenemos<br />
(n/2 − nνn)<br />
n1/2 = n 1/2<br />
<br />
F (µ) − F (µ + y<br />
<br />
)<br />
n1/2 = −n 1/2 f(µ ∗ y<br />
n )<br />
n1/2 = −yf(µ∗n ),<br />
don<strong>de</strong> µ ∗ n es un punto intermedio entre µ y νn. Luego usando el hecho<br />
que νn → 1/2 yµ ∗ n → µ, resulta<br />
(n/2 − nνn)<br />
→−2yf(µ). (7.11)<br />
(nνn(1 − νn)) 1/2<br />
Luego, usando (7.7), (7.9), (7.10) y (7.11) tenemos que<br />
lim<br />
n→∞ P (n1/2 (˜µn − µ) ≤ y) =<br />
<br />
P ˜µn ≤ µ + y<br />
n1/2 <br />
= 1−Φ(−2f(µ)y) = Φ(2f(µ)y),<br />
y por lo tanto hemos probado (7.6).<br />
p<br />
Observación 1. El Teorema 1 implica que ˜µn −→ µ. También pue<strong>de</strong><br />
a.s.<br />
probarse que ˜µn −→ µ, pero no se dará la <strong>de</strong>mostración.<br />
Apliquemos ahora este resultado al mo<strong>de</strong>lo (7.1) y supongamos que<br />
la distribución F <strong>de</strong> las ui sea simétrica respecto <strong>de</strong> 0 con <strong>de</strong>nsidad f.<br />
En este caso se tendrá que la mediana <strong>de</strong> la distribución Fµσ es µ y<br />
fµσ(x) = 1<br />
σ f<br />
<br />
x − µ<br />
,<br />
σ<br />
y por lo tanto,<br />
fµσ(µ) = 1<br />
σ f(0).<br />
Luego, <strong>de</strong> acuerdo al Teorema 1, se tendrá<br />
n 1/2 (˜µn − µ) D<br />
<br />
−→ N 0, .<br />
σ 2<br />
4f 2 (0)
7.2. M-ESTIMADORES DE POSICIÓN 7<br />
Si F = Φ, entonces f(0) = 1/ √ 2π y entonces<br />
n 1/2 (ˆµn − µ) D<br />
<br />
−→ N 0, π<br />
2 σ2<br />
<br />
.<br />
Por otro lado, n 1/2 (¯xn − µ) tiene distribución N(0,σ 2 ). Por lo tanto<br />
la varianza asintótica <strong>de</strong> ˆµn es aproximadamente 57% más alta que la<br />
varianza <strong>de</strong> ¯xn. Esto significa que la propiedad que tiene la mediana<br />
<strong>de</strong> ser poco sensible a observaciones atípicas tiene como contrapartida<br />
negativa ser 57% menos eficiente que ¯xn en el caso <strong>de</strong> errores normales.<br />
De todas maneras esto es menos grave que el comportamiento <strong>de</strong> ¯xn<br />
bajo una contaminación con outliers. En efecto, recor<strong>de</strong>mos que en<br />
este caso una fracción <strong>de</strong> outliers tan pequeña como se quisiera podía<br />
provocar que la varianza se hiciese infinita.<br />
Sin embargo, lo i<strong>de</strong>al sería tener un estimador robusto, es <strong>de</strong>cir<br />
poco sensible a outliers y que simultáneamente fuera altamente eficiente<br />
cuando los datos son normales. En las secciones siguientes vamos a<br />
tratar entonces <strong>de</strong> encontrar estimadores con estas propieda<strong>de</strong>s.<br />
7.2 M-estimadores <strong>de</strong> posición<br />
7.2.1 Definición <strong>de</strong> M-estimadores<br />
Consi<strong>de</strong>remos el mo<strong>de</strong>lo (7.1) y supongamos que conozcamos la distribución<br />
F <strong>de</strong> las ui. y el parámetro <strong>de</strong> escala σ. Estas hipótesis no<br />
son muy realistas y más a<strong>de</strong>lante las eliminaremos. Sin embargo será<br />
conveniente suponerlas momentáneamente para simplificar el planteo<br />
<strong>de</strong>l problema. Supongamos que F tiene una <strong>de</strong>nsidad que llamaremos<br />
f = F ′ . Luego, la <strong>de</strong>nsidad <strong>de</strong> cada xi será<br />
fµσ(x) = 1<br />
σ f<br />
x − µ<br />
y luego la función <strong>de</strong> verosimilitud correspondiente a la muestra x1, ..., xn<br />
será<br />
L(µ) = 1<br />
σn n<br />
<br />
xi − µ<br />
f .<br />
σ<br />
i=1<br />
σ<br />
<br />
,
8 CHAPTER 7. ESTIMACIÓN ROBUSTA<br />
Tomando logaritmos, como σ se supone conocida, se tendrá que el<br />
estimador <strong>de</strong> máxima verosimilitud <strong>de</strong> µ que llamaremos ˆµf( laf como<br />
subscripto indica que correspon<strong>de</strong> a que las ui tienen <strong>de</strong>nsidad f) estará<br />
dado por el valor que maximiza<br />
don<strong>de</strong><br />
n<br />
<br />
xi − µ<br />
log f .<br />
i=1 σ<br />
Equivalentemente, po<strong>de</strong>mos <strong>de</strong>cir que ˆµf minimiza<br />
n<br />
<br />
xi − µ<br />
S(µ) = ρf , (7.12)<br />
σ<br />
i=1<br />
ρf(u) =− log f(u) + log f(0).<br />
Por ejemplo, si f correspon<strong>de</strong> a la distribución N(0,1). Entonces<br />
ρf(u) =u 2 /2, y entonces el estimador <strong>de</strong> máxima verosimilitud mini-<br />
miza<br />
S(µ) = 1<br />
2σ 2<br />
n<br />
(xi − µ)<br />
i=1<br />
2 ,<br />
o equivalentemente, el que minimiza<br />
n<br />
S(µ) = (xi − µ)<br />
i=1<br />
2 ,<br />
el cual es precisamente ¯xn.<br />
Si f correspon<strong>de</strong> a la distribución doble exponencial, entonces<br />
f(u) = 1<br />
2 e−|u| , −∞
7.2. M-ESTIMADORES DE POSICIÓN 9<br />
En el párrafo anterior hemos visto los inconvenientes <strong>de</strong> media y<br />
la mediana muestral. Si conociéramos exactamente f, podríamos utilizar<br />
el estimador <strong>de</strong> máxima verosimilitud, <strong>de</strong>l cual conocemos que<br />
tiene varianza asintótica mínima y que está dado por (7.12). Como<br />
en general se tiene sólo un conocimiento aproximado <strong>de</strong> f, por ejemplo<br />
que correspon<strong>de</strong> a una distribución <strong>de</strong> Vɛ, Huber (1964) <strong>de</strong>finió los<br />
M-estimadores para el mo<strong>de</strong>lo <strong>de</strong> posición como el valor ˆµ valor que<br />
minimiza<br />
n<br />
<br />
xi − µ<br />
S(µ) = ρ , (7.14)<br />
i=1 σ<br />
don<strong>de</strong> la función ρ es elegida in<strong>de</strong>pendientemente <strong>de</strong> f y <strong>de</strong> tal manera<br />
que tenga las propieda<strong>de</strong>s <strong>de</strong>seadas:<br />
1. El estimador es altamente eficiente cuando f correspon<strong>de</strong> a la<br />
distribución N(0,1)<br />
2. El estimador es poco sensible a contaminación por outliers, en<br />
particular es altamente eficiente para toda f correspondiente a<br />
una distribución <strong>de</strong> Vɛ.<br />
A la función ρ que <strong>de</strong>fine al M-estimador se le pedirá las siguientes<br />
propieda<strong>de</strong>s<br />
A1 La función ρ es <strong>de</strong>rivable. Denominaremos ψ = ρ ′ .<br />
A2 La función ρ es par.<br />
A3 La función ρ(u) es monótona no <strong>de</strong>creciente en |u|.<br />
A4 Se cumple que ρ(0) = 0.<br />
Huber (1964) propuso una familia <strong>de</strong> funciones ρ intermedias entre<br />
las correspondientes a la distribución N(0,1) y a la doble exponencial.<br />
Esta funciones es cuadrática para valores <strong>de</strong> valor absoluto pequeños<br />
y lineal para valores absolutos gran<strong>de</strong>s. Más precisamente, para cada<br />
k ≥ 0 se <strong>de</strong>fine ρH k por<br />
ρ H ⎧<br />
⎪⎨<br />
k (u) =<br />
⎪⎩<br />
−ku − k 2 /2 si uk<br />
.
10 CHAPTER 7. ESTIMACIÓN ROBUSTA<br />
0 1 2 3 4<br />
Media<br />
Mediana<br />
Huber<br />
-3 -2 -1 0 1 2 3<br />
Figure 7.1: Funciones ρ correspondientes a la Media (en negro), la<br />
mediana (en rojo) y el M-estimador con función <strong>de</strong> Huber (en ver<strong>de</strong>)<br />
En la Figura 7.1 se grafican las funciones ρ correspondiente la media<br />
a la mediana y a la función <strong>de</strong> Huber. Obsérvese que las funciones ρH k<br />
resultan <strong>de</strong>rivables en todos los puntos, incluidos los puntos <strong>de</strong> cambio<br />
k y −k. Más a<strong>de</strong>lante mostraremos que eligiendo k convenientemente<br />
los M-estimadores basadas en estas funciones gozan <strong>de</strong> las propieda<strong>de</strong>s<br />
1 y 2 enunciadas en esta sección.<br />
Para encontrar el valor mínimo <strong>de</strong> S(µ) en (7.14) que <strong>de</strong>fine el Mestimador<br />
po<strong>de</strong>mos encontrar sus punto críticos <strong>de</strong>rivando. De esta<br />
manera obtenemos la siguiente ecuación<br />
n<br />
<br />
xi − µ<br />
A(µ) = ψ =0. (7.15)<br />
i=1 σ<br />
El siguiente Teorema muestra que bajo ciertas condiciones la ecuación<br />
7.15 tiene solución y correspon<strong>de</strong> a un mínimo <strong>de</strong> S(µ).<br />
Teorema 2. Supongamos que ψ es continua impar, no <strong>de</strong>creciente y<br />
para algún a se tiene ψ(a) > 0. Entonces
7.2. M-ESTIMADORES DE POSICIÓN 11<br />
(i) La ecuación (7.15) tiene al menos una raíz.<br />
(ii) Toda raíz <strong>de</strong> (7.15) correspon<strong>de</strong> a un mínimo <strong>de</strong> S(µ).<br />
(iii) Las raíces <strong>de</strong> (7.15) forman un intervalo.<br />
(iv) Si ψ es estrictamente creciente hay una única raíz <strong>de</strong> (7.15).<br />
Demostración. (i) Sea M = max1≤i≤n xi y m = min1≤i≤n xi . Sea µ1 =<br />
m−σa y µ2 = M+σa. Luego (xi−µ1)/σ ≥ a para todo i y(xi−µ2)/σ ≤<br />
−a para todo i. Luego ψ((xi − µ1)/σ) ≥ ψ(a) > 0 para todo i y<br />
ψ((xi − µ2)/σ) ≤ ψ(−a) =−ψ(a) < 0 para todo i. Luego A(µ1) > 0<br />
y A(µ2) < 0. Como A(µ) es continua, existe un punto µ0 entre µ2 y µ1<br />
tal que A(µ0) =0.<br />
(ii) Como S ′ (µ) = (−1/σ)A(µ),es fácil ver que S(µ) − S(µ0) =<br />
(−1/σ) µ<br />
µ0 A(u)du. Supongamos que µ0 es una raíz <strong>de</strong> A(µ). Supongamos<br />
que µ0 > 0. Habrá que mostrar que<br />
S(µ0) ≤ S(µ), ∀µ. (7.16)<br />
Vamos a mostrar (7.16) solamente para µ>µ0. El caso µµ0, luego<br />
S(µ) = 1<br />
µ<br />
A(u)du.<br />
σ µ0<br />
Como ψ es no <strong>de</strong>creciente resulta A no creciente. Luego como<br />
A(µ0) = 0, resulta A(µ) ≤ 0 para µ > µ0. Por lo tanto resulta<br />
A(u)du ≤ 0, y por lo tanto<br />
µ<br />
µ0<br />
S(µ) ≥ S(µ0).<br />
En el caso µ < µ0 se <strong>de</strong>muestra similarmente que también vale<br />
(7.16).<br />
(iii) Supongamos que µ1
12 CHAPTER 7. ESTIMACIÓN ROBUSTA<br />
-3 -2 -1 0 1 2 3<br />
-3 -2 -1 0 1 2 3<br />
-3 -2 -1 0 1 2 3<br />
Media Mediana<br />
-3 -2 -1 0 1 2 3<br />
-3 -2 -1 0 1 2 3<br />
Huber<br />
-3 -2 -1 0 1 2 3<br />
Figure 7.2: Funciones ψ correspondientes a la Media (en negro), la<br />
mediana (en rojo) y el M-estimador con función <strong>de</strong> Huber (en ver<strong>de</strong>)<br />
y luego A(µ) =0.<br />
(iv) Supongamos que A(µ) =0. Veremos que no pue<strong>de</strong> haber otra<br />
raíz <strong>de</strong> A. Sea primero µ ∗ >µ,como en este caso A es estrictamente<br />
<strong>de</strong>creciente se tendrá A(µ ∗ ) < 0. Similarmente se <strong>de</strong>muestra que si<br />
µ ∗ 0.<br />
Como vamos a ver más a<strong>de</strong>lante la función ψ cumple un papel muy<br />
importante en la teoría <strong>de</strong> M-estimadores. Para la función ρ correspon-<br />
diente a la media, resulta ψ(u) =u, para la función ρ correspondi-<br />
, las correspondientes<br />
ente mediana ψ(u) =|u|, y para la funciones ρH k<br />
<strong>de</strong>rivadas ψH k están dadas por<br />
ψ H ⎧<br />
⎪⎨<br />
k (u) =<br />
⎪⎩<br />
−k si uk<br />
la cual correspon<strong>de</strong> a una i<strong>de</strong>ntidad truncada. En Fig. 7.2 se grafican<br />
estas tres funciones ψ.<br />
Como consecuencia <strong>de</strong> la propiedad A2, la función ψ es impar .<br />
.
7.2. M-ESTIMADORES DE POSICIÓN 13<br />
Para que el M-estimador sea robusto como veremos más a<strong>de</strong>lante se<br />
requerirá que la función ψ sea acotada.<br />
7.2.2 Propieda<strong>de</strong>s asintóticas <strong>de</strong> M-estimadores<br />
La condición <strong>de</strong> consistencia <strong>de</strong> Fisher, requerida para que el M-estimador<br />
converja a µ está dada por<br />
<br />
x − µ<br />
EFµσ ψ =0,<br />
σ<br />
y <strong>de</strong> acuerdo a (7.1), esto es equivalente a<br />
EF (ψ(u)) = 0. (7.17)<br />
Esta condición se cumple automaticamente si F tiene una <strong>de</strong>nsidad<br />
simétrica respecto <strong>de</strong> 0 ya que en ese caso se tendrá<br />
∞<br />
EF (ψ(u)) = uf(u)du =0,<br />
∞<br />
ya que uf(u) será una función impar.<br />
Luego, se tendrá el siguiente Teorema que muestra la consistencia<br />
<strong>de</strong> los M-estimadores:<br />
Teorema 3. Sean x1, ...xn variables aleatorias in<strong>de</strong>pendientes que satisfacen<br />
el mo<strong>de</strong>lo (7.1). Consi<strong>de</strong>remos un estimador ˆµn solución <strong>de</strong><br />
(7.15), don<strong>de</strong> ψ y F satisfacen (7.17) . Luego ˆµn converge en casi todo<br />
punto a µ en cualquiera <strong>de</strong> los siguientes casos<br />
1. La función ψ es estrictamente creciente.<br />
2. La función ψ es no <strong>de</strong>creciente, ψ(u) >ψ(0) y F (u) >F(0) para<br />
todo u>0.<br />
Demostración: Solamente mostraremos el Teorema para el caso 1. Consi<strong>de</strong>remos<br />
ɛ>0. Luego como ψ es estrictamente creciente tenemos que<br />
ψ(u − ɛ)
14 CHAPTER 7. ESTIMACIÓN ROBUSTA<br />
Por lo tanto<br />
<br />
x − (µ + ɛ)<br />
EFµσψ<br />
= EF ψ(u − ɛ) < 0. (7.18)<br />
σ<br />
Similarmente se pue<strong>de</strong> probar que<br />
<br />
x − (µ − ɛ)<br />
EFµσψ<br />
= EF ψ(u + ɛ) > 0. (7.19)<br />
σ<br />
Sea ahora<br />
Gn(µ ∗ )= 1<br />
n<br />
<br />
xi − µ<br />
ψ<br />
n i=1<br />
∗ <br />
,<br />
σ<br />
luego el M-estimador ˆµn satisface<br />
Gn(ˆµn) =0. (7.20)<br />
Por otro lado usando la ley <strong>de</strong> los gran<strong>de</strong>s números y (7.18) y (7.19)<br />
se tiene que con probabilidad 1 existe un n0 tal que para todo n>n0<br />
se tiene que<br />
Gn(µ + ɛ) < 0, Gn(µ − ɛ) > 0,<br />
y por lo tanto como Gn es monótona <strong>de</strong>creciente, se tiene que el valor<br />
ˆµn satisfaciendo (7.20) tendrá que satisfacer que<br />
µ − ɛ
7.2. M-ESTIMADORES DE POSICIÓN 15<br />
don<strong>de</strong><br />
V (ψ,F)= EF ψ2 (u)<br />
(EF ψ ′ . (7.21)<br />
(u)) 2<br />
Demostración. El M-estimador ˆµn satisface<br />
n<br />
<br />
xi − ˆµn<br />
ψ<br />
=0,<br />
i=1 σ<br />
y haciendo un <strong>de</strong>sarrollo <strong>de</strong> Taylor en el punto µ se tiene<br />
n<br />
<br />
xi − µ<br />
n<br />
0= ψ − ψ<br />
σ<br />
′<br />
<br />
xi − µ ˆµn − µ<br />
σ σ +1<br />
n<br />
ψ<br />
2<br />
′′<br />
<br />
xi − µ ∗ <br />
n (ˆµn − µ)<br />
σ<br />
2<br />
σ2 ,<br />
i=1<br />
i=1<br />
don<strong>de</strong> µ ∗ n es un punto intermedio entre ˆµn y µ.<br />
Luego, haciendo un <strong>de</strong>speje parcial <strong>de</strong> (ˆµn − µ) se tiene<br />
(ˆµn − µ) =<br />
y luego<br />
n 1/2 (ˆµn−µ) =<br />
y<br />
Sea<br />
i=1<br />
n<br />
ψ ((xi − µ)/σ)<br />
i=1<br />
1<br />
n<br />
ψ<br />
σ i=1<br />
′ ((xi − µ)/σ) − 1 (ˆµn − µ)<br />
2 σ2 n<br />
i=1<br />
1<br />
nσ<br />
n<br />
i=1<br />
An = 1<br />
n 1/2<br />
Bn = 1<br />
n<br />
ψ ′′ ((xi − µ ∗ ,<br />
n)/σ)<br />
1<br />
n1/2 n<br />
ψ ((xi − µ)/σ)<br />
i=1<br />
ψ ′ ((xi − µ)/σ) − 1<br />
2σ2 (ˆµn − µ) 1<br />
n<br />
ψ<br />
n i=1<br />
′′ ((xi − µ ∗ .<br />
n)/σ)<br />
n<br />
i=1<br />
n<br />
i=1<br />
Cn = 1<br />
2 (ˆµn − µ) 1<br />
n<br />
ψ ((xi − µ)/σ) = 1<br />
n 1/2<br />
ψ ′ ((xi − µ)/σ) = 1<br />
n<br />
n<br />
ψ (ui) ,<br />
i=1<br />
n<br />
ψ<br />
i=1<br />
′ (ui) ,<br />
n<br />
ψ<br />
i=1<br />
′′ ((xi − µ ∗ n)/σ) .<br />
(7.22)
16 CHAPTER 7. ESTIMACIÓN ROBUSTA<br />
Luego<br />
n 1/2 (ˆµn − µ) =<br />
An<br />
σ −1 Bn + σ −2 Cn<br />
Por el Teorema Central <strong>de</strong>l Límite se tiene<br />
An<br />
. (7.23)<br />
D<br />
−→ N(0,EF (ψ 2 (u))). (7.24)<br />
Por la Ley Fuerte <strong>de</strong> los Gran<strong>de</strong>s Números se tiene<br />
Bn<br />
p<br />
−→ EF (ψ ′ (u)). (7.25)<br />
Finalmente, por hipótesis existe una constante K tal que |ψ ′′ (u)| <<br />
p<br />
K. Luego |Cn| < (K/2)(ˆµn − µ). Usando el hecho <strong>de</strong> que ˆµn −→ µ, se<br />
tiene que<br />
p<br />
−→ 0. (7.26)<br />
Cn<br />
Usando (7.23)-(7.26) se <strong>de</strong>duce el Teorema.<br />
7.2.3 M-estimador minimax para la varianza asintótica<br />
El problema que vamos a <strong>de</strong>sarrollar en esta sección es el <strong>de</strong> elegir la<br />
función ρ o equivalentemente la función ψ <strong>de</strong>l M-estimador. En está<br />
sección vamos a utilizar como criterio minimizar la varianza asintótica<br />
<strong>de</strong>l M-estimador dada en (7.21). Si conociéramos la distribución F <strong>de</strong><br />
las ui, utilizaríamos el M-estimador que tiene como función ψ la dada<br />
por<br />
d log f(u)<br />
ψ(u) = ,<br />
du<br />
es <strong>de</strong>cir el estimador <strong>de</strong> máxima verosimilitud. Este estimador minimiza<br />
la varianza asintótica V (ψ,F) dada en (7.21). Cuando existe la<br />
posibilidad <strong>de</strong> que hubieran outliers la distribución F no es conocida<br />
exactamente y por lo tanto no po<strong>de</strong>mos usar este estimador.<br />
La solución que propuso Huber (1964) es la siguiente. supongamos<br />
que F esté en el entorno <strong>de</strong> contaminación dado por (7.2), pero restringiendo<br />
H a distribuciones simétricas respecto <strong>de</strong> 0. Para esto<br />
<strong>de</strong>finimos un nuevo entorno <strong>de</strong> distribuciones <strong>de</strong> Φ<br />
V ∗ ɛ<br />
= {F : F =(1− ɛ)Φ + ɛH con H simétrica}. (7.27)
7.2. M-ESTIMADORES DE POSICIÓN 17<br />
Luego, si usa el M-estimador basado en la función ψ. la mayor varianza<br />
posible en este entorno está dada por<br />
V ∗ (ψ) = sup<br />
F ∈V∗ V (ψ,F).<br />
ɛ<br />
El criterio <strong>de</strong> Huber para elegir el M-estimador es utilizar la función<br />
ψ∗ que minimice V ∗ (ψ). Estos estimadores se <strong>de</strong>nominarán minimax<br />
(minimizan la máxima varianza asintótica en el entorno <strong>de</strong> contami-<br />
nación V ∗<br />
ε . En Huber (1964) se muestra que ψ∗ está en la familia ψ H k ,<br />
don<strong>de</strong> k <strong>de</strong>pen<strong>de</strong> <strong>de</strong> la cantidad <strong>de</strong> contaminación ɛ.<br />
7.2.4 M-estimadores con escala <strong>de</strong>sconocida<br />
La <strong>de</strong>finición <strong>de</strong> los M-estimadores dada en (7.14) supone que σ es<br />
conocida. Sin embargo, en la práctica σ es <strong>de</strong>sconocida. En estos<br />
casos po<strong>de</strong>mos reemplazar en esta ecuación σ por un estimador ˆσ, yel<br />
M-estimador se <strong>de</strong>finirá por el valor ˆµ que minimiza<br />
n<br />
<br />
xi − µ<br />
S(µ) = ρ . (7.28)<br />
i=1 ˆσn<br />
Si queremos que el M-estimador resultante <strong>de</strong> µ sea robusto, será<br />
necesario que ˆσ también lo sea. El estimador insesgado usual <strong>de</strong> σ dado<br />
por<br />
ˆσ 2 = 1<br />
n<br />
<br />
(xi − ¯x)<br />
i=1<br />
2<br />
no es robusto. En efecto, es fácil ver que una observación lo pueda<br />
llevar fuera <strong>de</strong> todo límite. Un estimador robusto <strong>de</strong> σ es el llamado<br />
MAD (median absolute <strong>de</strong>viation), que está <strong>de</strong>finido por<br />
don<strong>de</strong><br />
ˆσ 2 = A mediana{|xi − ˜µn|, 1 ≤ i ≤ n},<br />
˜µn = mediana{xi :1≤ i ≤ n},<br />
y don<strong>de</strong> A es una constante que hace que el estimador sea consistente<br />
a σ en el caso <strong>de</strong> que las observaciones sean una muestra aleatoria <strong>de</strong><br />
una N(µ, σ 2 ).
18 CHAPTER 7. ESTIMACIÓN ROBUSTA<br />
Vamos ahora a <strong>de</strong>ducir cual <strong>de</strong>be ser el valor <strong>de</strong> A. Sean x1, ..., xn<br />
una muestra <strong>de</strong> una distribución N(µ,σ 2 ). Entonces po<strong>de</strong>mos escribir<br />
xi = µ + σui, don<strong>de</strong> u1, ..., un es una muestra aleatoria <strong>de</strong> una distribución<br />
N(0,1). En este caso tenemos que<br />
y<br />
xi − ˜µn =(µ − ˜µn)+σui<br />
mediana{|xi − ˜µn|, 1 ≤ i ≤ n} = mediana{|(µ− ˜µn)+σui|, 1 ≤ i ≤ n}.<br />
Como <strong>de</strong> acuerdo a lo visto en Observación 1, lim(µ − ˜µn) = 0 casi<br />
seguramente, se tendrá que<br />
lim<br />
n→∞ mediana{|xi−˜µn|, 1 ≤ i ≤ n} = lim<br />
n→∞ mediana{|σui|, 1 ≤ i ≤ n} }<br />
= σ lim mediana{|ui|, 1 ≤ i ≤ n}, c.s.. (7.29)<br />
n→∞<br />
Si u es N(0,1), entonces |u| tiene distribución 2Φ − 1. Sea entonces<br />
B = mediana(2Φ − 1), luego por lo visto en Observación 1 se tiene<br />
y usando (7.29)<br />
o sea<br />
lim<br />
n→∞ mediana{|ui|, 1 ≤ i ≤ n} = B, c.s.<br />
lim<br />
n→∞ mediana{|xi − ˜µn|, 1 ≤ i ≤ n} = σB c.s.<br />
Luego A =1/B. La constante B se calcula <strong>de</strong> la siguiente manera<br />
2Φ(B) − 1=0.5,<br />
Φ(B) =0.75, B=Φ −1 (0.75) = 0.675.<br />
Luego se tendrá que el estimador MAD <strong>de</strong> σ viene dado por<br />
ˆσ 2 = 1<br />
0.6745 mediana{|xi − ˜µn|, 1 ≤ i ≤ n}.<br />
Cuando el M-estimador se obtiene minimizando (7.28), la ecuación<br />
(7.15) se transforma en
7.2. M-ESTIMADORES DE POSICIÓN 19<br />
n<br />
<br />
xi − µ<br />
ψ =0. (7.30)<br />
i=1 ˆσ<br />
Las propieda<strong>de</strong>s asintóticas <strong>de</strong>l estimador ˆµ solución <strong>de</strong> (7.30) son<br />
similares a las <strong>de</strong>l estimador correspondiente al caso <strong>de</strong> σ conocida. El<br />
siguiente Teorema se dará sin <strong>de</strong>mostración.<br />
Teorema 5. Sean x1, ...xn variables aleatorias in<strong>de</strong>pendientes que satisfacen<br />
el mo<strong>de</strong>lo (7.1). Consi<strong>de</strong>remos un estimador ˆµn solución <strong>de</strong><br />
(7.30), don<strong>de</strong> ψ es impar y F es simétrica respecto <strong>de</strong> 0. Supongamos<br />
que ˆµn es consistente a µ yˆσn es consistente a σ, y que a<strong>de</strong>más ψ tiene<br />
dos <strong>de</strong>rivadas continuas y ψ ′′ es acotada. Luego se tiene que<br />
don<strong>de</strong> V está dada por (7.21)<br />
n 1/2 (ˆµn − µ) D<br />
−→ N(0,σ 2 V (ψ,F)),<br />
7.2.5 Algoritmos para calcular M-estimadores<br />
A continuación vamos a <strong>de</strong>scribir tres algoritmos para computar el Mestimador<br />
<strong>de</strong>finido como la solución <strong>de</strong> (7.30).<br />
Algoritmo basado en medias pon<strong>de</strong>radas iteradas (MPI)<br />
Llamemos w(u) =ψ(u)/u. Luego la ecuación (7.30).se pue<strong>de</strong> escribir<br />
como<br />
n<br />
<br />
xi − ˆµ<br />
(xi − ˆµ)w =0,<br />
i=1<br />
ˆσ<br />
o sea<br />
n<br />
<br />
xi − ˆµ xi − ˆµ<br />
xiw =ˆµw ,<br />
i=1 ˆσ<br />
ˆσ<br />
y haciendo un <strong>de</strong>speje “parcial”<strong>de</strong> ˆµ se tiene<br />
ˆµ =<br />
n<br />
xiw ((xi − ˆµ)/ˆσ)<br />
i=1<br />
n<br />
. (7.31)<br />
w ((xi− ˆµ)/ˆσ)<br />
i=1
20 CHAPTER 7. ESTIMACIÓN ROBUSTA<br />
En realidad esta expresión no es un verda<strong>de</strong>ro <strong>de</strong>speje, ya que el<br />
miembro <strong>de</strong>recho también aparece ˆµ. Sin embargo esta fórmula nos va<br />
a sugerir un algoritmo iterativo para calcular ˆµ.<br />
En efecto, consi<strong>de</strong>remos un estimador inicial ˆµ0 <strong>de</strong> µ, como por<br />
ejemplo la mediana.Luego po<strong>de</strong>mos <strong>de</strong>finir<br />
ˆµ1 =<br />
n<br />
xiw ((xi − ˆµ0)/ˆσ)<br />
i=1<br />
n<br />
,<br />
w ((xi− ˆµ0)/ˆσ)<br />
i=1<br />
y en general si ya tememos <strong>de</strong>finido ˆµh, po<strong>de</strong>mos <strong>de</strong>finir ˆµh+1 por<br />
ˆµh+1 =<br />
n<br />
xiw ((xi − ˆµh)/ˆσ)<br />
i=1<br />
n<br />
. (7.32)<br />
w ((xi− ˆµh)/ˆσ)<br />
i=1<br />
Se pue<strong>de</strong> mostrar que este si ψ es continua, entonces cuando este<br />
algoritmo iterativo converge, lo hace a una solución <strong>de</strong> (7.30). En efecto<br />
supongamos que limh→∞ ˆµh =ˆµ, luego tomando limite en ambos lados<br />
<strong>de</strong> (7.32), se tendrá<br />
ˆµ =<br />
n<br />
xiw ((xi − ˆµ)/ˆσ)<br />
i=1<br />
n<br />
. (7.33)<br />
w ((xi− ˆµ)/ˆσ)<br />
i=1<br />
Pero esta ecuación es precisamente (7.31) , que ya hemos visto es<br />
equivalente a (7.30).<br />
La ecuación (7.33) muestra a ˆµ como promedio pesado <strong>de</strong> las xi y<br />
pesos proporcionales a w ((xi − ˆµ)/ˆσ) . Como en general w(u) es una<br />
función par monótona no creciente en |u|, (7.33) se pue<strong>de</strong> interpretar<br />
como que el M-estimador da a cada observación un peso que penaliza<br />
las observaciones para las cuales |xi − ˆµ|/ˆσ es gran<strong>de</strong>. Para la media<br />
se tiene w(u) =1, y para el estimador basado en la función ψ H k , la<br />
correspondiente función <strong>de</strong> peso está dada por
7.2. M-ESTIMADORES DE POSICIÓN 21<br />
0.5 0.6 0.7 0.8 0.9 1.0<br />
Media<br />
-3 -2 -1 0 1 2 3<br />
0.5 0.6 0.7 0.8 0.9 1.0<br />
Huber<br />
-3 -2 -1 0 1 2 3<br />
Figure 7.3: Funciones <strong>de</strong> peso w correspondientes a la Media (en negro)<br />
y al M-estimador con función <strong>de</strong> Huber (en ver<strong>de</strong>)<br />
w H <br />
k (u) =<br />
1<br />
k<br />
|u|<br />
si<br />
si<br />
|u| ≤k<br />
|u| >k .<br />
El gráfico <strong>de</strong> esta función se encuentra en la Figura 7.3.<br />
Algoritmo basado en medias <strong>de</strong> pseudovalores iteradas (MPVI)<br />
Definamos el pseudovalor x∗ i (µ) por<br />
Luego se tiene<br />
x ∗ i (µ) =µ +ˆσψ ((xi − ˆµ)/ˆσ) .<br />
ψ ((xi − ˆµ)/ˆσ) =(x ∗ i (µ) − ˆµ)/ˆσ,<br />
y reemplazando en (7.30) se tiene la ecuación para el M-estimador es<br />
n<br />
(x<br />
i=1<br />
∗ i (ˆµ) − ˆµ)/ˆσ =0.
22 CHAPTER 7. ESTIMACIÓN ROBUSTA<br />
Haciendo un <strong>de</strong>speje parcial <strong>de</strong> ˆµ se tiene<br />
ˆµ = 1<br />
n<br />
n<br />
x<br />
i=1<br />
∗ i (ˆµ). (7.34)<br />
Es <strong>de</strong>cir, se tiene expresado el M-estimador como promedio simple<br />
<strong>de</strong> los pseudo valores. Esta fórmula no permite calcular el M-estimador<br />
directamente, ya que el miembro <strong>de</strong>recho también <strong>de</strong>pen<strong>de</strong> <strong>de</strong> ˆµ. Sin<br />
embargo, nos sugiere el siguiente algoritmo iterativo. Partiendo <strong>de</strong> un<br />
estimador inicial ˆµ0, consi<strong>de</strong>ramos la siguiente fórmula recursiva para<br />
ˆµh<br />
ˆµh+1 = 1<br />
n<br />
n<br />
x<br />
i=1<br />
∗ i (ˆµh). (7.35)<br />
Es interesante calcular los pseudovalores correspondientes a ψ H k<br />
cuales están dados por<br />
x ∗ ⎧<br />
⎪⎨ µ − kˆσ si xi µ+ kˆσ<br />
.<br />
, los<br />
Es <strong>de</strong>cir, si xi pertenece al intervalo [µ−kˆσ, µ+kˆσ], el pseudovalor<br />
x ∗ i (µ) es igual a la observación xi. Si xi está fuera <strong>de</strong> este intervalo el<br />
psudovalor se <strong>de</strong>fine como el extremo <strong>de</strong>l intervalo más cercano.<br />
Vamos a ver ahora que si limh→∞ ˆµh =ˆµ y ψ es continua, entonces<br />
ˆµ es el M-estimador solución <strong>de</strong> (7.30). En efecto, tomando límite en<br />
ambos miembros <strong>de</strong> (7.35) se obtiene (7.34), que ya hemos visto es<br />
equivalente a (7.30).<br />
Algoritmo <strong>de</strong> Newton Raphson (NR)<br />
De acuerdo a lo visto anteriormente, el algoritmo <strong>de</strong> Newton Raphson<br />
para calcular la raíz <strong>de</strong> (7.30) tiene la siguiente fórmula recursiva<br />
n<br />
ψ ((xi − ˆµh)/ˆσ)<br />
i=1<br />
ˆµh+1 =ˆµh +ˆσ n<br />
ψ<br />
i=1<br />
′ . (7.36)<br />
((xi − ˆµh)/ˆσ)
7.2. M-ESTIMADORES DE POSICIÓN 23<br />
Para el caso <strong>de</strong> que ψ = ψ H k<br />
, está formula toma una expresión<br />
particularmente interesante.<br />
Para cada valor µ dividamos el conjunto <strong>de</strong> observaciones en tres<br />
conjuntos<br />
D− = {i :(xi − ˆµh)/ˆσ k}.<br />
ψ H k ((xi<br />
⎧<br />
⎪⎨ −k<br />
− ˆµh)/ˆσ) = (xi − ˆµh)/ˆσ<br />
⎪⎩<br />
k<br />
si<br />
si<br />
si<br />
i ∈ D−<br />
i ∈ D0<br />
i ∈ D+<br />
,<br />
y<br />
ψ H′<br />
k ((xi<br />
⎧<br />
⎪⎨ 0<br />
− ˆµh)/ˆσ) = 1<br />
⎪⎩<br />
0<br />
si<br />
si<br />
si<br />
i ∈ D−(ˆµh)<br />
i ∈ D0(ˆµh)<br />
i ∈ D+(ˆµh)<br />
.<br />
Llamando n−, n0y n−, al número <strong>de</strong> elementos <strong>de</strong> D−, D0y D+<br />
y reemplazando en (7.36), se tiene<br />
k(n+ − n−)+<br />
ˆµh+1 =ˆµh+ˆσ<br />
<br />
(xi − ˆµh)/ˆσ<br />
i∈D0<br />
=<br />
n0<br />
n+ − n−<br />
ˆσk+<br />
n0<br />
1 <br />
xi.<br />
n0 i∈D0<br />
Obsérvese que el miembro <strong>de</strong>recho <strong>de</strong> esta última fórmula solo <strong>de</strong>pen<strong>de</strong><br />
<strong>de</strong> D−, D0y D+. Estos tres conjuntos forman una partición <strong>de</strong>l<br />
conjunto {1, 2, ..., n}. Es claro que hay un número finito <strong>de</strong> estas particiones,<br />
y por lo tanto si ˆµh converge lo <strong>de</strong>be hacer en un número finito<br />
<strong>de</strong> pasos.<br />
Convergencia <strong>de</strong> los algoritmos iterativos<br />
Se pue<strong>de</strong> <strong>de</strong>mostrar que los 3 algoritmos iterativos que hemos estudiado<br />
MPI, MPVI, y NR convergen a la raíz <strong>de</strong> (7.30) cuando ψ es monótona<br />
no <strong>de</strong>creciente cuando ésta es única. Si (7.30) tiene más <strong>de</strong> una raíz, se<br />
pue<strong>de</strong> <strong>de</strong>mostrar que si [ˆµ1, ˆµ2] es el intervalo <strong>de</strong> soluciones, entonces<br />
dado ɛ>0, existe h0 tal que ˆµh ∈ [ˆµ1 − ɛ, ˆµ2 + ɛ] para todo h>h0.