08.06.2013 Views

Notas de Estadística

Notas de Estadística

Notas de Estadística

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Notas</strong> <strong>de</strong> <strong>Estadística</strong><br />

Autores: Graciela Boente- Víctor Yohai


Contenido<br />

1. Introducción a la inferencia estadística<br />

2. Estimación puntual<br />

3. Estimadores Bayesianos y Minimax<br />

4. Intervalos y regiones <strong>de</strong> confianza<br />

5. Tests <strong>de</strong> hipótesis<br />

6. Estimación robusta


Chapter 2<br />

Introducción a la Inferencia<br />

<strong>Estadística</strong><br />

2.1 Poblaciones finitas<br />

Frecuentemente en los problemas <strong>de</strong> las diferentes disciplinas se estudia el<br />

comportamiento <strong>de</strong> varias variables <strong>de</strong>finidas sobre un conjunto <strong>de</strong> objetos.<br />

El conjunto <strong>de</strong> objetos será <strong>de</strong>nominado población y será representado<br />

por P = {a1,a2,...,an}; a1,a2,...,an serán <strong>de</strong>nominados los elementos<br />

<strong>de</strong> la población P. Sobre esos elementos se observan variables, indicadas<br />

X1,X2,...,Xk, que son características que cambian <strong>de</strong> individuo a individuo.<br />

Luego para cada elemento a en P, estará <strong>de</strong>finido<br />

X1(a),X2(a),...,Xk(a).<br />

Ejemplo 1: Consi<strong>de</strong>remos una población P formada por un conjunto <strong>de</strong><br />

1000 parcelas que constituyen una explotación agrícola y don<strong>de</strong> se cultiva<br />

solamente trigo. Sea X(a) la cosecha en la parcela a durante un <strong>de</strong>terminado<br />

año medida en kilogramos.<br />

Ejemplo 2: Consi<strong>de</strong>remos el conjunto P <strong>de</strong> votantes en una <strong>de</strong>terminada<br />

elección don<strong>de</strong> se presentan 3 candidatos, que <strong>de</strong>nominamos 1, 2 y 3. Definimos<br />

X(a) como el número <strong>de</strong>l candidato votado por a.<br />

Ejemplo 3: Supongamos que la población P consiste <strong>de</strong> todos los pájaros<br />

<strong>de</strong> una especie <strong>de</strong>terminada que habitan en una región <strong>de</strong>terminada. Para<br />

1


2 CHAPTER 2. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA<br />

cada pájaro se <strong>de</strong>fine X(a) como el largo <strong>de</strong>l pájaro y Y (a) el área <strong>de</strong> las<br />

alas.<br />

Distribución <strong>de</strong> una variable en la población. Llamaremos distribución<br />

<strong>de</strong> una variable X en la población P a la distribución que se obtiene cuando<br />

se elige al azar un elemento <strong>de</strong> la población, es <strong>de</strong>cir, cuando se le da a todo<br />

elemento <strong>de</strong> la población la misma probabilidad. Luego se tiene<br />

FX(x) =<br />

# {a ∈P, X(a) ≤ x}<br />

# P<br />

don<strong>de</strong> # A indica el número <strong>de</strong> elementos <strong>de</strong> A. Del mismo modo se <strong>de</strong>fine<br />

distribución conjunta <strong>de</strong> dos o más variables en la población P. Luego si X<br />

e Y son variables <strong>de</strong>finidas sobre la población P será<br />

FXY (x, y) =<br />

# {a ∈P : X(a) ≤ x, Y (a) ≤ y}<br />

# P<br />

Obsérvese que la distribución <strong>de</strong> una variable <strong>de</strong>finida en una población<br />

finita es necesariamente discreta, ya que la variable correspondiente toma<br />

sólo un número finito <strong>de</strong> valores.<br />

2.2 Poblaciones infinitas<br />

En muchos problemas interesa la distribución <strong>de</strong> una variable aleatoria X (o<br />

<strong>de</strong> varias variables X1,X2,...,Xk) que se observan cada vez que se repite un<br />

mismo experimento perfectamente <strong>de</strong>finido. En estos casos, cada elemento<br />

a estudiar correspon<strong>de</strong> al resultado <strong>de</strong> un experimento, pero no existe un<br />

conjunto finito fijo <strong>de</strong> experimentos <strong>de</strong>finido <strong>de</strong> antemano, ya que al menos<br />

teóricamente se pue<strong>de</strong> repetir el experimento tantas veces como se quiera.<br />

Se pue<strong>de</strong> pensar entonces en una población infinita compuesta por los infinitos<br />

posibles experimentos que teóricamente se pue<strong>de</strong>n realizar, aunque tal<br />

población no tiene existencia real.<br />

Ejemplo 1: El experimento consiste en tirar una moneda y X vale 0 ó 1<br />

según caiga ceca o cara.<br />

Ejemplo 2: El experimento consiste en repartir 10 cartas elegidas al azar<br />

<strong>de</strong> un mazo <strong>de</strong> 52. X es el número <strong>de</strong> corazones, e Y el número <strong>de</strong> sietes.


2.3. MODELOS PARA LA DISTRIBUCION DE UNA VARIABLE 3<br />

Ejemplo 3: El experimento consiste en fabricar y probar una lámpara; X<br />

es el tiempo <strong>de</strong> duración <strong>de</strong> la misma.<br />

Ejemplo 4: Se <strong>de</strong>sea medir una magnitud física, cuyo valor verda<strong>de</strong>ro µ es<br />

<strong>de</strong>sconocido. Cada medición está afectada <strong>de</strong> un error aleatorio. Luego lo<br />

que se observa al hacer una medición es una variable X = µ + ε, don<strong>de</strong> ε es<br />

el error. La medición se pue<strong>de</strong> repetir tantas veces como se quiera.<br />

Lo que hace que una población sea infinita es que el experimento pueda<br />

repetirse infinitas veces y no el número <strong>de</strong> posibles resultados que pue<strong>de</strong> ser<br />

finito como pue<strong>de</strong> verse en los ejemplos 1 y 2.<br />

Distribución <strong>de</strong> una variable en una población infinita. En el caso <strong>de</strong><br />

población infinita se pue<strong>de</strong> suponer que cada vez que se repite el experimento<br />

se observa una variable aleatoria X (o varias variables X1,X2,...,Xk) con<br />

una cierta distribución F (x) (o distribución conjunta F (x1,x2,...,xk)), y<br />

que a diferentes experimentos correspon<strong>de</strong>n variables aleatorias in<strong>de</strong>pendientes.<br />

De acuerdo a la ley <strong>de</strong> los gran<strong>de</strong>s números, F (x) pue<strong>de</strong> verse como el<br />

límite en casi todo punto <strong>de</strong> la distribución empírica asociada a n repeticiones<br />

in<strong>de</strong>pendientes <strong>de</strong>l experimento. Es <strong>de</strong>cir, si se realiza una sucesión<br />

<strong>de</strong> experimentos y los valores observados son x1,x2,...,xn,..., entonces si<br />

Fn(x) =#{xi : xi ≤ x, 1 ≤ i ≤ n} /nse tendrá Fn(x) → F (x) en c.t.p.<br />

La distribución F (x) será <strong>de</strong>nominada distribución <strong>de</strong> la variable X en la<br />

población infinita consi<strong>de</strong>rada.<br />

2.3 Mo<strong>de</strong>los para la distribución <strong>de</strong> una variable<br />

en una población<br />

Tanto en el caso <strong>de</strong> poblaciones finitas como en el <strong>de</strong> poblaciones infinitas,<br />

la distribución F pue<strong>de</strong> ser muy complicada e irregular. Sin embargo,<br />

frecuentemente pue<strong>de</strong> ser aproximada por una distribución <strong>de</strong> forma relativamente<br />

sencilla. Consi<strong>de</strong>remos el ejemplo 1 <strong>de</strong> 2.1. Como la población es<br />

finita, la distribución real <strong>de</strong> X es discreta. Sin embargo, como el número<br />

<strong>de</strong> parcelas es muy gran<strong>de</strong>, 1000, y como es muy probable que los valores<br />

X(ai) sean todos diferentes (pue<strong>de</strong>n diferir muy poco, pero es muy difícil<br />

que haya 2 exactamente iguales), resulta que la probabilidad <strong>de</strong> cada uno <strong>de</strong><br />

los valores es muy pequeña (1/1000). Por lo tanto, se pue<strong>de</strong> pensar que la<br />

distribución real pue<strong>de</strong> aproximarse por una distribución continua <strong>de</strong> forma


4 CHAPTER 2. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA<br />

sencilla, por ejemplo una distribución normal. Esto sugiere la introducción<br />

<strong>de</strong>l concepto <strong>de</strong> mo<strong>de</strong>lo.<br />

Llamaremos mo<strong>de</strong>lo <strong>de</strong> la distribución <strong>de</strong> una variable en una población a<br />

un conjunto <strong>de</strong> hipótesis que se suponen válidas para la distribución <strong>de</strong> una<br />

variable en una población. Más formalmente, supongamos que la variable<br />

tiene distribución F perteneciente a una familia F. Al fijar el mo<strong>de</strong>lo, se<br />

establecen hipótesis sobre la familia F que, en general, se cumplirán en forma<br />

aproximada. La bondad <strong>de</strong> un mo<strong>de</strong>lo para <strong>de</strong>scribir la distribución <strong>de</strong> una<br />

población estará dada por el grado <strong>de</strong> aproximación que tengan las hipótesis<br />

<strong>de</strong>l mo<strong>de</strong>lo con la distribución real.<br />

Por lo tanto, <strong>de</strong> acuerdo a lo que dijimos anteriormente, se podría usar<br />

un mo<strong>de</strong>lo continuo para la distribución <strong>de</strong> variables en poblaciones finitas.<br />

Clasificaremos los mo<strong>de</strong>los en paramétricos y no paramétricos.<br />

Mo<strong>de</strong>los paramétricos: Consisten en suponer que la distribución F (x)<br />

<strong>de</strong> la variable en la población pertenece a una familia <strong>de</strong> distribuciones que<br />

<strong>de</strong>pen<strong>de</strong> <strong>de</strong> un número finito <strong>de</strong> parámetros reales. Así, ejemplos <strong>de</strong> mo<strong>de</strong>los<br />

paramétricos son los siguientes:<br />

(a) F (x) pertenece a la familia N(µ, σ 2 ),<br />

(b) F (x) pertenece a la familia Bi(θ, n),<br />

(c) F (x) pertenece a la familia P (λ),<br />

(d) F (x) pertenece a la familia ε(λ),<br />

(e) Si F (x, y) es la distribución <strong>de</strong> dos variables, un mo<strong>de</strong>lo pue<strong>de</strong> ser<br />

F (x, y) pertenece a la familia N(µ1,µ2,σ 2 1 ,σ2 2 ,ρ),<br />

(f) Si F (x1,x2,...,xk) es la distribución <strong>de</strong> k variables un mo<strong>de</strong>lo pue<strong>de</strong><br />

ser F (x1,...,xk) pertenece a la familia M(θ1,θ2,...,θk,n).<br />

En general, un mo<strong>de</strong>lo paramétrico tendrá la siguiente forma. Si F (x)<br />

es la distribución <strong>de</strong> una variable X, entonces F (x) pertenece a la familia<br />

F = {F (x, θ1,θ2,...,θk) θ ∈ Θ}, don<strong>de</strong> θ =(θ1,θ2,...,θk) es el vector<br />

<strong>de</strong> parámetros que toma valores en un conjunto Θ ⊂ R k . Esto significa<br />

que existe algún valor θ ∈ Θ, digamos θ0 tal que F (x, θ0) coinci<strong>de</strong> con la<br />

distribución F (x) (aunque en la realidad no coincidirá, sino que resultará<br />

parecida).


2.3. MODELOS PARA LA DISTRIBUCION DE UNA VARIABLE 5<br />

Ejemplo 1: Para el ejemplo 1 <strong>de</strong> 2.1, po<strong>de</strong>mos usar el mo<strong>de</strong>lo <strong>de</strong>finido por<br />

la familia <strong>de</strong> distribuciones N(µ, σ 2 ).<br />

Ejemplo 2: Para el ejemplo 2 <strong>de</strong> 2.1 , po<strong>de</strong>mos usar el mo<strong>de</strong>lo M(θ1,θ2,θ3, 1).<br />

En este caso, el mo<strong>de</strong>lo será exacto con<br />

θi =<br />

# {a ∈ P ; X(a) =i}<br />

, i =1, 2, 3.<br />

# P<br />

Ejemplo 3: Para el ejemplo 3 <strong>de</strong> 2.1, po<strong>de</strong>mos usar para la distribución<br />

F (x, y) el mo<strong>de</strong>lo N(µ1,µ2,σ 2 1 ,σ2 2 ,ρ).<br />

Ejemplo 4: Para el ejemplo 3 <strong>de</strong> 2.2 po<strong>de</strong>mos usar el mo<strong>de</strong>lo ε(λ).<br />

Ejemplo 5: Para el ejemplo 4 <strong>de</strong> 2.2 se pue<strong>de</strong> usar el mo<strong>de</strong>lo N(µ, σ 2 ).<br />

Mo<strong>de</strong>los no paramétricos: En los mo<strong>de</strong>los no paramétricos se supone<br />

que la distribución F (x) <strong>de</strong> la variable (o <strong>de</strong> las variables si hay más <strong>de</strong> una)<br />

en la población, pertenece a una familia F, pero esta familia no pue<strong>de</strong> ser<br />

indicada con un número finito <strong>de</strong> parámetros reales.<br />

Ejemplo 6: Consi<strong>de</strong>remos nuevamente el ejemplo 4 <strong>de</strong> 2.2. Un mo<strong>de</strong>lo no<br />

paramétrico razonable sería el siguiente. Sea µ el valor verda<strong>de</strong>ro que se<br />

quiere medir, luego la distribución <strong>de</strong> X (el valor observado en una medición<br />

pertenece a la familia F <strong>de</strong> todas las distribuciones tales que:<br />

(i) Son continuas con <strong>de</strong>nsidad f(x),<br />

(ii) f(µ + x) =f(µ − x) es <strong>de</strong>cir son simétricas alre<strong>de</strong>dor <strong>de</strong>l verda<strong>de</strong>ro<br />

valor µ, por lo tanto la “probabilidad” <strong>de</strong> un error positivo es la misma<br />

que <strong>de</strong> uno <strong>de</strong> igual valor absoluto pero negativo.<br />

(iii) Si µ>x>x ′ , entonces f(x ′ )


6 CHAPTER 2. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA<br />

Ventajas relativas <strong>de</strong> los mo<strong>de</strong>los paramétricos y no paramétricos<br />

La ventaja fundamental <strong>de</strong> los mo<strong>de</strong>los paramétricos, consiste en que la<br />

distribución que se elige para representar a la distribución <strong>de</strong> la variable en<br />

la población pue<strong>de</strong> ser <strong>de</strong>scripta por un número finito <strong>de</strong> parámetros. Esto<br />

permite inclusive la posibilidad <strong>de</strong> tabulación. Por ejemplo en el caso <strong>de</strong><br />

la familia N(µ, σ 2 ) basta tabular la distribución N(0, 1). Para obtener otra<br />

distribución <strong>de</strong> la familia basta con realizar una transformación lineal. En<br />

el caso <strong>de</strong> la familia P (λ) basta tabularla para algunos valores <strong>de</strong> λ. Por<br />

ejemplo, para valores <strong>de</strong> λ escalonados <strong>de</strong> 0.1 en 0.1. Para otros valores <strong>de</strong><br />

λ, la distribución se pue<strong>de</strong> obtener por interpolación.<br />

A<strong>de</strong>más, como la <strong>de</strong>scripción <strong>de</strong>l mo<strong>de</strong>lo tiene una formulación analítica<br />

relativamente simple, su tratamiento matemático es más sencillo y las conclusiones<br />

a las que se pue<strong>de</strong>n arribar más fuertes.<br />

Los mo<strong>de</strong>los no paramétricos carecen <strong>de</strong> estas ventajas, pero en recompensa<br />

tienen mucha mayor flexibilidad. Esto se <strong>de</strong>be a que la familia <strong>de</strong> posibles<br />

distribuciones para la población es más numerosa y por lo tanto mayor<br />

es la posibilidad que haya en esta familia una distribución muy próxima a<br />

la real.<br />

Por ejemplo, en el caso <strong>de</strong>l ejemplo 6 <strong>de</strong> 2.3 µ ya no representa el valor<br />

esperado <strong>de</strong> la variable X, que podría no existir. Por lo tanto, su valor aproximado<br />

no podría conocerse promediando los valores observados como en el<br />

caso paramétrico, en el que se supone, por ejemplo, que X tiene distribución<br />

N(µ, σ 2 ).<br />

Elección <strong>de</strong>l mo<strong>de</strong>lo: La elección <strong>de</strong>l mo<strong>de</strong>lo pue<strong>de</strong> ser hecha en base<br />

a consi<strong>de</strong>raciones teóricas, o porque la experiencia indica que ajusta bien.<br />

Por ejemplo, si F es la distribución <strong>de</strong>l tiempo <strong>de</strong> espera hasta que un <strong>de</strong>terminado<br />

mecanismo falle, y por consi<strong>de</strong>raciones teóricas po<strong>de</strong>mos suponer<br />

que el mecanismo tiene “falta <strong>de</strong> <strong>de</strong>sgaste”, po<strong>de</strong>mos suponer como mo<strong>de</strong>lo<br />

para F la familia exponencial ε(λ). En otros problemas pue<strong>de</strong> suce<strong>de</strong>r que<br />

no se pueda elegir el mo<strong>de</strong>lo en base a consi<strong>de</strong>raciones teóricas, pero si la<br />

experiencia indica a través <strong>de</strong> estudios anteriores, por ejemplo, que pue<strong>de</strong><br />

ser bien aproximada por una distribución normal, entonces se usaría como<br />

mo<strong>de</strong>lo la familia N(µ, σ 2 ).<br />

Veremos en el transcurso <strong>de</strong>l curso, métodos para poner a prueba el<br />

mo<strong>de</strong>lo elegido, es <strong>de</strong>cir métodos para <strong>de</strong>terminar si el mo<strong>de</strong>lo elegido pue<strong>de</strong><br />

<strong>de</strong>scribir <strong>de</strong>ntro <strong>de</strong> una aproximación aceptable la distribución <strong>de</strong> la variable<br />

(o variables) en la población. Esto se hará en el capítulo 6.


2.4. INFERENCIA ESTADISTICA 7<br />

2.4 Muestra <strong>de</strong> una distribución. Inferencia estadística<br />

Supongamos que hemos <strong>de</strong>finido un mo<strong>de</strong>lo para la distribución F <strong>de</strong> una<br />

variable en una población, y para fijar i<strong>de</strong>as supongamos que hemos elegido<br />

un mo<strong>de</strong>lo paramétrico F (x, θ) con θ =(θ1,θ2,...,θk) ∈ Θ, don<strong>de</strong> Θ ∈ R k .<br />

En general, va a interesar saber sobre F algo más que el hecho <strong>de</strong> pertenecer<br />

a la familia F (x, θ). Pue<strong>de</strong> interesar conocer totalmente la distribución, es<br />

<strong>de</strong>cir, el valor <strong>de</strong> θ, o algunas características <strong>de</strong> la misma.<br />

Ejemplo 1: Volvamos al ejemplo 1 <strong>de</strong> 2.1 y supongamos que hemos elegido<br />

para la distribución <strong>de</strong> X en la población la familia N(µ, σ 2 ). Consi<strong>de</strong>remos<br />

tres problemas diferentes.<br />

(a) Interesa conocer la distribución F completamente. En este caso hace<br />

falta conocer los valores <strong>de</strong> ambos parámetros, µ y σ 2 .<br />

(b) Se requiere sólo el conocimiento <strong>de</strong> la producción total. Como hay<br />

1000 parcelas la producción total sería 1000 µ y por lo tanto bastaría<br />

con conocer µ.<br />

(c) Se ha fijado una meta <strong>de</strong> producir al menos 200 toneladas <strong>de</strong> trigo y<br />

lo único que interesa es saber si se cumple o no la meta. Luego en este<br />

caso lo único que interesa es saber si µ


8 CHAPTER 2. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA<br />

<strong>de</strong>beríamos conocer la producción <strong>de</strong> todas las parcelas. Observar el valor<br />

<strong>de</strong> la variable para todos los elementos <strong>de</strong> la población pue<strong>de</strong> ser muy costoso,<br />

o aún imposible, como en el caso <strong>de</strong> poblaciones infinitas. Inclusive en<br />

el caso <strong>de</strong> poblaciones finitas pue<strong>de</strong> ser imposible si se quiere la información<br />

con cierta premura. En el ejemplo 1, si se pue<strong>de</strong>n cosechar sólo 20 parcelas<br />

por día, se necesitarían 50 días para conocer cuál es la producción <strong>de</strong> cada<br />

una <strong>de</strong> las 1000 parcelas. Si se quisiera el primer día <strong>de</strong> la cosecha hacer<br />

una estimación <strong>de</strong> la producción total, ésta <strong>de</strong>bería hacerse en base a los<br />

resultados <strong>de</strong> las 20 parcelas cosechadas ese día.<br />

Se pue<strong>de</strong> <strong>de</strong>finir la <strong>Estadística</strong> como la ciencia que estudia los procedimientos<br />

para <strong>de</strong>terminar el valor <strong>de</strong> una o varias características q(θ1,...,θk)<br />

<strong>de</strong> una distribución <strong>de</strong> una variable en una población que se supone pertenece<br />

a una familia F (x, θ1,θ2,...,θk) observando sólo unos pocos elementos si se<br />

trata <strong>de</strong> una población finita o realizando unos pocos experimentos en el<br />

caso <strong>de</strong> una población infinita. Al conjunto <strong>de</strong> estas pocas observaciones en<br />

base a las cuales se <strong>de</strong>terminará q(θ1,θ2,...,θk) se <strong>de</strong>nomina muestra. Si el<br />

mo<strong>de</strong>lo es no paramétrico esta formulación cambiará ligeramente, como se<br />

verá más a<strong>de</strong>lante.<br />

Los procedimientos estadísticos pue<strong>de</strong>n clasificarse en dos gran<strong>de</strong>s tipos:<br />

procedimientos <strong>de</strong> diseño y procedimientos <strong>de</strong> inferencia.<br />

Procedimientos <strong>de</strong> diseño: Son los procedimientos para elegir las observaciones<br />

que componen la muestra, <strong>de</strong> manera que con pocas observaciones<br />

se pueda obtener la mayor información posible sobre q(θ1,θ2,...,θk).<br />

Procedimientos <strong>de</strong> inferencia: Son los procedimientos que permiten a<br />

partir <strong>de</strong> la muestra inferir la característica <strong>de</strong> la distribución <strong>de</strong> la variable<br />

en la población que interesa, es <strong>de</strong>cir q(θ1,θ2,...,θk).<br />

Para ejemplificar, volvemos nuevamente al Ejemplo 1. En este caso un<br />

posible diseño, no necesariamente el óptimo, para la selección <strong>de</strong> la muestra<br />

<strong>de</strong> 20 observaciones pue<strong>de</strong> ser el siguiente. Se elige la primera parcela al azar.<br />

El rendimiento <strong>de</strong> esta parcela será una variable aleatoria que llamaremos<br />

X1 y que tendrá distribución N(µ, σ 2 ). La segunda parcela se elige al azar<br />

entre todas las que quedan. El rendimiento <strong>de</strong> esta parcela será una variable<br />

aleatoria que llamaremos X2. Como la población <strong>de</strong> parcelas es gran<strong>de</strong><br />

(hay 1000 parcelas), la distribución <strong>de</strong> la variable X prácticamente no se<br />

modificará <strong>de</strong>spués <strong>de</strong> la extracción <strong>de</strong> la primera parcela, por lo tanto a<br />

los efectos prácticos, X2 pue<strong>de</strong> ser consi<strong>de</strong>rada como una variable aleatoria


2.4. INFERENCIA ESTADISTICA 9<br />

in<strong>de</strong>pendiente <strong>de</strong> X1 y con la misma distribución N(µ, σ 2 ). Repitiendo este<br />

procedimiento tendremos variables aleatorias X1,X2,...,X20 que po<strong>de</strong>mos<br />

consi<strong>de</strong>rar in<strong>de</strong>pendientes y cada una con una distribución N(µ, σ 2 ). Denominaremos<br />

a X1,X2,...,X20 muestra aleatoria <strong>de</strong> tamaño 20 <strong>de</strong> la distribución<br />

N(µ, σ 2 ).<br />

En general, se dirá que X1, X2,...,Xn es una muestra aleatoria <strong>de</strong><br />

tamaño n <strong>de</strong> una distribución F (x) siX1, X2,...,Xn son variables aleatorias<br />

(o vectores aleatorios) in<strong>de</strong>pendientes e idénticamente distribuídas con<br />

distribución F (x). Es <strong>de</strong>cir si<br />

FX1,X2,...,Xn(x1, x2,...,xn) =F (x1) F (x2) ...F(xn) (2.1)<br />

y en el caso que F (x) sea una distribución discreta o continua con función<br />

<strong>de</strong> frecuencia o <strong>de</strong> probabilidad p, (2.1) será equivalente a<br />

pX1,X2,...,Xn(x1, x2,...,xn) =p(x1) p(x2) ...p(xn)<br />

En el caso <strong>de</strong> poblaciones finitas, una muestra aleatoria <strong>de</strong> tamaño n se obtendrá<br />

observando n elementos <strong>de</strong> la población elegidos al azar. Para que las<br />

variables fuesen estrictamente in<strong>de</strong>pendientes los elementos <strong>de</strong>berían elegirse<br />

uno a uno y ser restituídos en la población antes <strong>de</strong> elegir el próximo. Sin<br />

embargo si el tamaño <strong>de</strong> la muestra es relativamente pequeño respecto al total<br />

<strong>de</strong> la población, aunque no se haga la restitución las variables observadas<br />

serán aproximadamente in<strong>de</strong>pendientes, y a los fines prácticos po<strong>de</strong>mos consi<strong>de</strong>rarla<br />

una muestra aleatoria.<br />

En el caso <strong>de</strong> poblaciones infinitas, la muestra aleatoria se obtendrá simplemente<br />

repitiendo el experimento n veces y observando cada vez el vector<br />

<strong>de</strong> variables correspondiente.<br />

Consi<strong>de</strong>remos ahora cómo a partir <strong>de</strong> la muestra X1,X2,...,X20 que<br />

hemos obtenido, utilizando procedimientos <strong>de</strong> inferencia resolvemos los problemas<br />

(a), (b) y (c) que hemos planteado.<br />

El problema (a) consistía en encontrar aproximadamente la distribución<br />

<strong>de</strong> la variable X en la población, es <strong>de</strong>cir, estimar µ y σ 2 .<br />

Definamos Xn =(1/n) n i=1 Xi; luego para estimar µ se pue<strong>de</strong> usar X20.<br />

Es <strong>de</strong> esperar que X20 se aproxima a µ ya que <strong>de</strong> acuerdo a la ley <strong>de</strong> los<br />

gran<strong>de</strong>s números limn→∞ Xn = µ c.t.p.<br />

El procedimiento estadístico para estimar µ a partir <strong>de</strong> la muestra, es<br />

formar el promedio <strong>de</strong> los valores que la componen; es <strong>de</strong>cir X20. Esto es<br />

un procedimiento <strong>de</strong> inferencia estadística, ya que a partir <strong>de</strong> una muestra


10 CHAPTER 2. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA<br />

<strong>de</strong> 20 observaciones, inferimos el valor µ característico <strong>de</strong> la distribución <strong>de</strong><br />

la variable en la población.<br />

Similarmente se pue<strong>de</strong> estimar σ2 . Partimos <strong>de</strong> σ2 =VarXi = E(X2 i ) −<br />

(E(Xi)) 2 . Dado que E(X2 i ) pue<strong>de</strong> estimarse por (1/20) 20 i=1 X2 i , σ2 pue<strong>de</strong><br />

estimarse por<br />

σ 2 1 20<br />

20 = X<br />

20<br />

2 i − X220<br />

i=1<br />

Haciendo manipulaciones algebraicas, se obtiene<br />

σ 2 20<br />

= 1<br />

20<br />

20<br />

(Xi − X20)<br />

i=1<br />

2<br />

En general, si se tuviese una muestra aleatoria <strong>de</strong> tamaño n, σ2 podría<br />

estimarse por<br />

σ 2 n 1<br />

n =<br />

n<br />

(Xi − Xn)<br />

i=1<br />

2<br />

En el problema (b), cuando se quiere conocer la producción total, es <strong>de</strong>cir<br />

q(µ, σ 2 ) = 1000µ, po<strong>de</strong>mos usar para esta estimación 1000 X20. Es <strong>de</strong>cir,<br />

el procedimiento <strong>de</strong> inferencia sería el siguiente. Se hace el promedio <strong>de</strong> las<br />

observaciones que componen la muestra, y se lo multiplica por 1000.<br />

En el problema (c), es <strong>de</strong>cir el problema <strong>de</strong> <strong>de</strong>cidir si µ


2.4. INFERENCIA ESTADISTICA 11<br />

Θ ⊆ R k , se quiere inferir conocimiento <strong>de</strong> algunas características <strong>de</strong> esta<br />

distribución, <strong>de</strong>finidas por una función q(θ) que va <strong>de</strong> Θ en R h , siendo h el<br />

número <strong>de</strong> características en las que se está interesado.<br />

Ejemplo 2: Volvamos al ejemplo 6 <strong>de</strong> 2.3. Supongamos que se quiere<br />

conocer µ. Observemos que si F es la distribución <strong>de</strong> la variable X, entonces<br />

<strong>de</strong> acuerdo con las hipótesis <strong>de</strong>l mo<strong>de</strong>lo para toda F ∈Fse tiene<br />

que µ es la esperanza correspondiente a la distribución F , si es que esta<br />

existe (pue<strong>de</strong> no existir) y también µ es la mediana correspondiente a F<br />

(la mediana siempre existe). Luego µ es una cierta función <strong>de</strong> F , digamos<br />

µ = q(F ). Si queremos estimar µ, <strong>de</strong>bemos tomar una muestra aleatoria<br />

<strong>de</strong> F , digamos <strong>de</strong> tamaño n; X1,X2,...,Xn. Esto se logrará repitiendo n<br />

veces la medición <strong>de</strong> µ. Consi<strong>de</strong>remos ahora el procedimiento para inferir µ.<br />

Si estuviésemos seguros que F tiene esperanza podríamos usar para estimar<br />

µ, Xn =(1/n) n i=1 Xi, ya que <strong>de</strong> acuerdo a la ley <strong>de</strong> los gran<strong>de</strong>s números<br />

<strong>de</strong>bería converger a E(Xi) =µ. Sin embargo la existencia <strong>de</strong> esperanza no<br />

es una hipótesis que hemos requerido para que F ∈F. En caso que F no<br />

tenga esperanza, se pue<strong>de</strong> mostrar que Xn no converge a µ y por lo tanto<br />

no será un buen estimador.<br />

En este caso, po<strong>de</strong>mos usar el siguiente procedimiento: or<strong>de</strong>namos las<br />

Xi, obteniendo X (1)


12 CHAPTER 2. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA<br />

Ejemplo 3: Supongamos que el rendimiento por hectárea <strong>de</strong> un cierto<br />

cultivo <strong>de</strong>pen<strong>de</strong> <strong>de</strong> la cantidad <strong>de</strong> fertilizante que se usa y que la relación es<br />

<strong>de</strong> la forma<br />

X = aG + b + ε<br />

don<strong>de</strong> G es la cantidad <strong>de</strong> fertilizante usado por hectárea, X el rendimiento<br />

por hectárea y ε un término aleatorio que tiene en cuenta todos los otros<br />

factores que intervienen en la <strong>de</strong>terminación <strong>de</strong> los rendimientos, a y b son<br />

parámetros <strong>de</strong>sconocidos.<br />

Supongamos que se cultivan n parcelas usando respectivamente<br />

G1,G2,...,Gn cantidad <strong>de</strong> fertilizante por hectárea y sean los rendimientos<br />

respectivos observados X1,X2,...,Xn. Luego se tendrá:<br />

Xi = aGi + b + εi 1 ≤ i ≤ n<br />

Supongamos que las εi son variables aleatorias in<strong>de</strong>pendientes igualmente<br />

distribuídas con distribución N(0,σ2 ), don<strong>de</strong> σ2 es <strong>de</strong>sconocido. Los valores<br />

G1,G2,...,Gn son valores numéricos conocidos (no variables aleatorias).<br />

Luego en este caso las variables aleatorias Xi, 1 ≤ i ≤ n, serán in<strong>de</strong>pendientes<br />

con distribución N(aGi + b, σ2 ) y por lo tanto no son igualmente<br />

distribuídas. En este caso estamos interesados en conocer los parámetros a y<br />

b que establecen la relación entre G y X quizás también en σ2 que establece<br />

la varianza <strong>de</strong> ε, es <strong>de</strong>cir <strong>de</strong>l término residual.<br />

Estos parámetros <strong>de</strong>ben ser estimados a partir <strong>de</strong>l vector muestra X =<br />

(X1,X2,...,Xn). Sin embargo, el vector X tiene componentes con diferentes<br />

distribuciones. Se podrían dar ejemplos don<strong>de</strong> las variables no sean tampoco<br />

in<strong>de</strong>pendientes.<br />

Esto nos sugiere un concepto más amplio <strong>de</strong> problema estadístico que los<br />

vistos anteriormente.<br />

Un problema <strong>de</strong> inferencia estadística paramétrica general consistirá en:<br />

dado un vector muestra X =(X1,X2,...,Xn) <strong>de</strong> cuya distribución conjunta<br />

se conoce solamente que pertenece a una familia<br />

F = {F (x1,x2,...,xn,θ1,θ2,...,θk) con θ =(θ1,θ2,...,θk) ∈ Θ ⊂ Rk },<br />

inferir conocimiento sobre una función q(θ) <strong>de</strong> Θ en Rh .<br />

En el ejemplo 3, θ =(a, b, σ2 ) y la <strong>de</strong>nsidad correspondiente a la distribución<br />

es<br />

p(x1,x2,...,xn; a, b, σ 2 )=<br />

1<br />

1<br />

e− 2 σ<br />

(2π) n/2 2<br />

n i=1 (xi−a Gi−b) 2<br />

La función q(θ) <strong>de</strong>pen<strong>de</strong>rá <strong>de</strong>l problema que interesa. Si se quiere conocer<br />

la relación entre G y X lo que interesará será q(θ) =(a, b). Si interesa saber


2.4. INFERENCIA ESTADISTICA 13<br />

cuál es el rendimiento promedio cuando se utilizan 200 kg por hectárea, lo<br />

que interesará conocer será q(θ) =200a + b. Si interesa saber solamente<br />

si el fertilizante tiene un efecto positivo, la función q(θ) estará dada por<br />

0 si a ≤ 0<br />

q(θ) =<br />

1 si a>0 .<br />

Un procedimiento <strong>de</strong> inferencia estadística para este problema se verá en<br />

el ejemplo 1 <strong>de</strong> la sección 3.4. Una teoría general que abarca este problema<br />

se verá en el capítulo 7.<br />

De la misma forma se podría formular el concepto <strong>de</strong> problema <strong>de</strong> inferencia<br />

estadística no paramétrica general.<br />

Concepto <strong>de</strong> estadístico<br />

Supongamos dado un problema <strong>de</strong> inferencia estadística don<strong>de</strong> se observa<br />

un vector muestra X =(X1,X2,...,Xn) con distribución en la familia<br />

F (x1,x2,...,xn; θ) con θ ∈ Θ y don<strong>de</strong> se quiera inferir acerca <strong>de</strong> q(θ). Esta<br />

inferencia se tendrá que hacer a partir <strong>de</strong> X, es <strong>de</strong>cir, por funciones <strong>de</strong> X.<br />

Luego se <strong>de</strong>fine como estadístico a cualquier función medible que tenga como<br />

argumento a X y que tome valores en un espacio eucli<strong>de</strong>o <strong>de</strong> dimensión finita.<br />

En el ejemplo 1, hemos visto que la estimación <strong>de</strong> µ y σ2 se hacía mediante<br />

el estadístico<br />

<br />

n<br />

T = r(X) =<br />

i=1<br />

Xi<br />

n ,<br />

n (Xi − Xn) 2<br />

<br />

En el ejemplo 3, se usó el estadístico T = r(X) =X (p+1) .<br />

Hasta ahora, hemos supuesto que el parámetro <strong>de</strong> existir es fijo. Existe<br />

otra aproximación, en la cual, el parámetro es una variable aleatoria.<br />

Los procedimientos estadísticos bayesianos suponen que θ es una variable<br />

aleatoria no observable, a valores en un espacio Θ con distribución τ. La<br />

distribución a priori τ establecida antes <strong>de</strong> tomar la muestra, se modifica en<br />

base a los datos para <strong>de</strong>terminar la distribución a posteriori, que resume lo<br />

que se pue<strong>de</strong> <strong>de</strong>cir <strong>de</strong>l parámetro θ en base a las suposiciones hechas y a los<br />

datos.<br />

Los métodos estadísticos, que van <strong>de</strong>s<strong>de</strong> el análisis <strong>de</strong> datos hasta el<br />

análisis bayesiano, permiten sacar en forma creciente conclusiones cada vez<br />

más fuertes, pero lo hacen al precio <strong>de</strong> hipótesis cada vez más exigentes y,<br />

por lo tanto, menos verificables.<br />

i=1<br />

n


Chapter 3<br />

Estimación puntual<br />

3.1 Introducción<br />

En este capítulo introduciremos algunos conceptos <strong>de</strong> la teoría <strong>de</strong> estimación<br />

puntual. Los resultados que se <strong>de</strong>sarrollarán, se aplican al problema <strong>de</strong> ajustar<br />

distribuciones <strong>de</strong> probabilidad a los datos. Muchas familias <strong>de</strong> distribuciones,<br />

como la normal, N(µ, σ 2 ), o la Poisson, P (λ), <strong>de</strong>pen<strong>de</strong>n <strong>de</strong> un número<br />

finito <strong>de</strong> parámetros y salvo que éstos se conozcan <strong>de</strong> antemano, <strong>de</strong>ben ser<br />

estimados para conocer aproximadamente la distribución <strong>de</strong> probabilidad.<br />

Consi<strong>de</strong>remos el siguiente problema <strong>de</strong> inferencia estadística paramétrica.<br />

Supongamos se ha observado un vector muestra X =(X1,X2,...,Xn)<br />

<strong>de</strong> cuya distribución sólo se conoce que pertenece a una familia<br />

F = {F (x1,x2,...,xn, θ) don<strong>de</strong> θ =(θ1,...,θp) ∈ Θ ⊂ IR p }. Supongamos<br />

que interese conocer aproximadamente q(θ), don<strong>de</strong> q(θ) es una función<br />

<strong>de</strong> Θ en IR. La única información que se tiene sobre θ es el vector X, por lo<br />

tanto cualquier estimación que se haga <strong>de</strong> θ, <strong>de</strong>berá estar basada en X. Un<br />

estimador puntual <strong>de</strong> q(θ) será cualquier estadístico δ(X) <strong>de</strong>IR n en IR.<br />

Un buen estimador δ(X) <strong>de</strong>berá tener la propiedad <strong>de</strong> que cualquiera sea<br />

el valor <strong>de</strong> θ, que es <strong>de</strong>sconocido, la diferencia δ(X) − q(θ) sea pequeña. En<br />

qué sentido esta diferencia es pequeña será especificado más a<strong>de</strong>lante.<br />

Así en el ejemplo 1 <strong>de</strong> 2.4 se tenía para el problema (a) necesidad <strong>de</strong><br />

estimar q1(µ, σ 2 )=µ y q2(µ, σ 2 )=σ 2 , para el problema (b) se requería<br />

estimar q(µ, σ 2 ) = 1000 µ. En cambio el problema (c) no era <strong>de</strong> estimación,<br />

ya que lo que se buscaba no era aproximar q(µ, σ 2 ) que vale 0 ó 1 según<br />

µ


2 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

También po<strong>de</strong>mos consi<strong>de</strong>rar problemas <strong>de</strong> estimación puntual no<br />

paramétrica. En este caso sólo se conoce que el vector muestra<br />

X =(X1,X2,...,Xn) tiene una distribución F (x1,x2,...,xn) perteneciente<br />

a una familia F, pero esta familia no pue<strong>de</strong> indicarse con un número finito<br />

<strong>de</strong> parámetros, y quiere estimarse una función q(F ) que va <strong>de</strong> F en IR. El<br />

ejemplo 2 <strong>de</strong> 2.4 es un ejemplo <strong>de</strong> este tipo.<br />

El ejemplo 3 <strong>de</strong> 2.4 es otro ejemplo <strong>de</strong> estimación puntual paramétrica.<br />

Comenzaremos <strong>de</strong>scribiendo distintos métodos <strong>de</strong> estimación que intuitivamente<br />

parecen razonables, su justificación queda diferida para más a<strong>de</strong>lante.<br />

3.2 Método <strong>de</strong> los momentos<br />

Sea X =(X1,X2,...,Xn) una muestra aleatoria <strong>de</strong> una familia <strong>de</strong> distribuciones<br />

F (x, θ), don<strong>de</strong> θ ∈ Θ ⊂ IR, y supongamos que se quiera estimar<br />

θ.<br />

Sea g una función <strong>de</strong> IR en IR, luego el método <strong>de</strong> los momentos estima<br />

θ, por el valor θ = δ(X) que satisface la ecuación<br />

n 1<br />

g(Xi) =Eθ n<br />

i=1<br />

(g(X1)), (3.1)<br />

don<strong>de</strong> Eθ(X) significa la esperanza <strong>de</strong> X cuando X tiene la distribución<br />

F (x, θ). La justificación heurística <strong>de</strong> este método se basa en el hecho que<br />

<strong>de</strong> acuerdo a la ley <strong>de</strong> los gran<strong>de</strong>s números<br />

1<br />

n<br />

n<br />

g(Xi) → Eθ(g(X1)) c.t.p.<br />

i=1<br />

y por lo tanto, si θ pue<strong>de</strong> expresarse como una función continua <strong>de</strong> Eθ(g(X1)),<br />

se pue<strong>de</strong> esperar que cuando n es gran<strong>de</strong> el valor θ que satisface la ecuación<br />

(3.1) estará cerca <strong>de</strong> θ.<br />

En general, se toman como funciones g las funciones generadoras <strong>de</strong> momentos,<br />

ya que se supone que los parámetros <strong>de</strong> la distribución se relacionan<br />

con los momentos a través <strong>de</strong> alguna función continua.<br />

Ejemplo 1: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

<strong>de</strong> la cual sólo se conoce que está en la familia N(µ, 1). Usando el método


3.2. MÉTODO DE LOS MOMENTOS 3<br />

<strong>de</strong> los momentos y usando g(x) =x se obtiene<br />

n 1<br />

Xi = Eµ (X1) =µ .<br />

n<br />

i=1<br />

Luego µ =(1/n) n i=1 Xi es el estimador <strong>de</strong> µ resultante.<br />

Ejemplo 2: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

N(0,σ2 ). Usando el método <strong>de</strong> los momentos con g(x) =x2 se obtiene<br />

n 1<br />

X<br />

n<br />

i=1<br />

2 i = Eθ (X2 1 )=σ2 .<br />

Luego σ 2 = δ(X1,...,Xn) =(1/n) n i=1 X2 i es el estimador <strong>de</strong> σ2 resultante.<br />

Ejemplo 3: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

P (λ), usando la función g1(x) =x se obtiene como estimador <strong>de</strong> λ<br />

n 1<br />

Xi = Eλ n<br />

i=1<br />

(Xi) = λ.<br />

Luego el estimador <strong>de</strong> los momentos resultantes usando la función g1 resulta<br />

λ1 = δ1(X1,X2,...,Xn) = 1<br />

n<br />

Xi .<br />

n<br />

i=1<br />

También po<strong>de</strong>mos usar la función g2(x) =x2 . Recordando que<br />

Eλ(X 2 1 )=Varλ(X1)+(Eλ(X1)) 2 = λ + λ 2 ,<br />

obtenemos<br />

n 1<br />

X<br />

n<br />

i=1<br />

2 1 = Eλ (X2 1 )= λ + λ 2 ,<br />

y resolviendo esta ecuación <strong>de</strong> segundo grado el valor resulta<br />

λ = − 1<br />

2 ±<br />

<br />

<br />

<br />

1<br />

4 +<br />

n<br />

i=1<br />

X 2 i<br />

n .<br />

Como el parámetro λ es positivo, la solución que interesa es la positiva.<br />

Luego el estimador correspondiente a g2 vendrá dado por<br />

λ2 = δ2(X1,X2,...,Xn) =− 1<br />

2 +<br />

<br />

<br />

<br />

1<br />

4 +<br />

n X2 i<br />

n<br />

i=1


4 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

Luego observamos que eligiendo distintas funciones g, obtenemos diferentes<br />

estimadores. Todavía no estamos en condiciones <strong>de</strong> comparar uno con otro,<br />

por lo que <strong>de</strong>jamos este punto sin resolver hasta más a<strong>de</strong>lante.<br />

Generalización cuando hay varios parámetros: Supongamos que se<br />

tiene una muestra aleatoria X1,X2,...,Xn <strong>de</strong> una distribución perteneciente<br />

a la familia F = {F (x, θ1,θ2,...,θp) con θ =(θ1,θ2,...,θp) ∈ Θ ⊂ IR p }.<br />

Para estimar θ1,θ2,...,θp por el método <strong>de</strong> los momentos se proce<strong>de</strong><br />

como sigue: Se consi<strong>de</strong>ran k funciones g1,g2,...,gp <strong>de</strong> IR en IR y se resuelve<br />

el siguiente sistema<br />

1<br />

n<br />

n<br />

gj(Xi) =Eθ (gj(X1)) j =1, 2,...,p.<br />

i=1<br />

Ejemplo 4: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

N(µ, σ 2 ). Consi<strong>de</strong>remos g1(x) =x y g2(x) =x 2 . Como se tiene<br />

E µ,σ 2(g1(X1)) = µ y E µ,σ 2(g2(X1)) = σ 2 + µ 2 ,<br />

para estimar µ y σ2 se <strong>de</strong>berá resolver el sistema<br />

n 1<br />

Xi<br />

n<br />

i=1<br />

= µ<br />

n 1<br />

X<br />

n<br />

2 i = µ 2 + σ 2 .<br />

Luego, se tiene<br />

y<br />

i=1<br />

σ 2 = δ2(X1,X2,...,Xn) = 1<br />

n<br />

µ = δ1(X1,X2,...,Xn) = 1<br />

n<br />

n<br />

X<br />

i=1<br />

2 i −<br />

1<br />

n<br />

n<br />

Xi<br />

i=1<br />

n<br />

2 Xi<br />

i=1<br />

= 1<br />

n<br />

n<br />

(Xi − µ)<br />

i=1<br />

2<br />

que coinci<strong>de</strong>n con los estimadores que habíamos propuesto en el ejemplo 1<br />

<strong>de</strong> 2.4.<br />

Ejemplo 5: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

Γ(α, λ). Consi<strong>de</strong>remos g1(x) =x y g2(x) =x 2 . Como se tiene<br />

Eα,λ(g1(X1)) = α<br />

λ y Eα,λ(g2(X1))<br />

α(α +1)<br />

=<br />

λ2 ,


3.3. MÉTODO DE MÁXIMA VEROSIMILITUD 5<br />

para estimar α y λ se <strong>de</strong>berá resolver el sistema<br />

n 1<br />

Xi<br />

n<br />

i=1<br />

n 1<br />

X<br />

n<br />

i=1<br />

2 i<br />

= α<br />

λ<br />

= α(α+1)<br />

λ 2<br />

Indiquemos por X = 1 ni=1 n<br />

Xi yporσ2 = 1 ni=1 n (Xi − X) 2 . Entonces,<br />

<strong>de</strong>spejando <strong>de</strong>l sistema anterior, los estimadores <strong>de</strong> los momentos para λ y<br />

α resultan ser<br />

λ = δ1(X1,X2,...,Xn) = X<br />

σ 2<br />

y<br />

α = δ2(X1,X2,...,Xn) = X2<br />

.<br />

σ 2<br />

Estimación <strong>de</strong> q(θ). Si lo que interesa estimar es una función <strong>de</strong> θ, q(θ)<br />

y esta función es continua, el método <strong>de</strong> los momentos consistirá en estimar<br />

primero θ por θ y luego q(θ) se estimará por q( θ). La justificación <strong>de</strong> esto<br />

resi<strong>de</strong> en que si θ está próximo a θ, entonces como q es continua, q( θ) estará<br />

próxima a q(θ).<br />

3.3 Método <strong>de</strong> máxima verosimilitud<br />

Supongamos que se observa un vector muestra X =(X1,X2,...,Xn) discreto<br />

o continuo cuya función <strong>de</strong> <strong>de</strong>nsidad discreta o continua pertenezca a<br />

una familia p(x, θ), θ ∈ Θ y se quiera estimar θ.<br />

En el caso discreto p(x, θ) representa la probabilidad <strong>de</strong> observar el vector<br />

x =(x1,x2,...,xn), cuando el valor <strong>de</strong>l parámetro es θ. Es razonable pensar<br />

que si hemos observado el vector x, este tendrá alta probabilidad. Luego se<br />

podría estimar θ como el valor que hace máxima p(x, θ). Un razonamiento<br />

análogo se pue<strong>de</strong> hacer en el caso continuo, recordando que la probabilidad<br />

<strong>de</strong> un hipercubo con centro en x y <strong>de</strong> arista ∆, cuando ∆ es pequeño tiene<br />

probabilidad aproximadamente igual p(x, θ) ∆ n . Esto sugiere la siguiente<br />

<strong>de</strong>finición:<br />

.


6 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

Definición 1: Diremos θ(X) es un estimador <strong>de</strong> máxima verosimilitud<br />

(E.M.V.) <strong>de</strong> θ, si se cumple<br />

p(X, θ(X)) = max p(X, θ)<br />

θ∈Θ<br />

Ejemplo 1: Supongamos que θ pue<strong>de</strong> tomar valores θ =1óθ = 0 y que<br />

p(x, θ) viene dado por<br />

x<br />

θ<br />

0 1<br />

0 0.3 0.6<br />

1 0.7 0.4<br />

Σ 1 1<br />

Supongamos que se observe una muestra <strong>de</strong> tamaño 1 con valor X. Luego<br />

el estimador <strong>de</strong> máxima verosimilitud viene dado por<br />

<br />

θ(X)<br />

1 si X =0<br />

=<br />

0 si X =1<br />

Cómputo <strong>de</strong>l E.M.V.: Supongamos ahora que Θ es un subconjunto<br />

abierto <strong>de</strong> IR p , que el soporte <strong>de</strong> p(x, θ) no <strong>de</strong>pen<strong>de</strong> <strong>de</strong> θ y que p(x, θ)<br />

tiene <strong>de</strong>rivadas parciales respecto a todas las componentes θi.<br />

Como la función ln(µ) (logaritmo natural) es monótona creciente, maximizar<br />

p(x, θ) será equivalente a maximizar ln p(x, θ). Luego el E.M.V. θ(X)<br />

<strong>de</strong>be verificar:<br />

∂ ln p(X, θ)<br />

=0 i =1, 2,...,p. (3.2)<br />

∂θi<br />

Hasta ahora hemos supuesto que X es un vector con una distribución<br />

arbitraria. Supongamos ahora que X =(X1,X2,...,Xn) es una muestra<br />

aleatoria <strong>de</strong> una distribución discreta o continua con <strong>de</strong>nsidad p(x, θ). Luego<br />

se tiene<br />

n<br />

p(x, θ) =p(x1,x2,...,xn, θ) = p(xj, θ)<br />

j=1


3.3. MÉTODO DE MÁXIMA VEROSIMILITUD 7<br />

y bajo las condiciones dadas anteriormente, el sistema <strong>de</strong> ecuaciones (3.2)<br />

se transforma en<br />

n ∂ ln p(xi, θ)<br />

=0 j =1, 2,...,p. (3.3)<br />

∂θj<br />

i=1<br />

Supongamos que indicamos por ψj(x, θ) = ∂ ln p(x, θ)<br />

, entonces (3.3) pue<strong>de</strong><br />

∂θj<br />

escribirse como<br />

n<br />

ψj(xi, θ) =0 j =1, 2,...,p.<br />

i=1<br />

Esta ecuación correspon<strong>de</strong> a la forma general <strong>de</strong> los <strong>de</strong>nominados M−estimadores,<br />

que veremos más a<strong>de</strong>lante.<br />

Por supuesto que tanto (3.2) como (3.3) son condiciones necesarias pero<br />

no suficientes para que θ sea un máximo. Para asegurarse que θ es un<br />

máximo <strong>de</strong>berían verificarse las condiciones <strong>de</strong> segundo or<strong>de</strong>n respectivas.<br />

A<strong>de</strong>más <strong>de</strong>be verificarse que no se trata <strong>de</strong> un máximo relativo sino absoluto.<br />

Ejemplo 2: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

Bi(θ, k), con k conocido, luego cada variable Xi tiene función <strong>de</strong> <strong>de</strong>nsidad<br />

<br />

k<br />

p(x, θ) = θ<br />

x<br />

x (1 − θ) k−x<br />

y<br />

∂ ln p(x, θ)<br />

=<br />

∂θ<br />

x k − x x − kθ<br />

− =<br />

θ 1 − θ θ(1 − θ) .<br />

Luego (3.3) se transforma en la ecuación<br />

n Xi − k<br />

i=1<br />

θ<br />

θ(1 − θ) =0,<br />

y <strong>de</strong>spejando θ resulta<br />

θ(X1,X2,...,Xn) = 1<br />

n<br />

Xi .<br />

nk<br />

i=1<br />

Ejemplo 3: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

N(µ, σ2 ). Busquemos los E.M.V. <strong>de</strong> µ y σ2 . La función <strong>de</strong> <strong>de</strong>nsidad <strong>de</strong> cada<br />

variable Xi es<br />

p(x, µ, σ 2 <br />

1<br />

1<br />

−<br />

)= √ e 2 σ2 (x−µ)2<br />

.<br />

2πσ2


8 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

Por lo tanto,<br />

y<br />

∂ ln p(x, µ, σ 2 )<br />

∂σ 2<br />

∂ ln p(x, µ, σ 2 )<br />

∂µ<br />

= x − µ<br />

σ 2<br />

= − 1<br />

2 σ 2 +(σ2 ) 2 1<br />

2 (x − µ)2 .<br />

Luego el sistema (3.3) se transforma en el sistema<br />

que tiene como solución<br />

n<br />

(Xi − µ)/σ<br />

i=1<br />

2 = 0<br />

n<br />

−<br />

i=1<br />

1 1<br />

+<br />

2σ 2 2σ 4 (Xi − µ) 2 = 0<br />

µ(X1,X2,...,Xn) =<br />

σ 2 (X1,X2,...,Xn) =<br />

n<br />

Xi/n = X<br />

i=1<br />

n<br />

(Xi − X)<br />

i=1<br />

2 /n<br />

que son los mismos estimadores que encontramos por el método <strong>de</strong> los momentos.<br />

Ejemplo 4: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

Γ(α, λ). La <strong>de</strong>nsidad <strong>de</strong> Xi está dada por<br />

con lo cual<br />

y<br />

p(x, α, λ) = 1<br />

Γ(α) λα x α−1 e −λx ,<br />

∂ ln p(x, α, λ)<br />

∂α<br />

∂ ln p(x, α, λ)<br />

∂λ<br />

=lnλ +lnx − Γ′ (α)<br />

Γ(α)<br />

= α<br />

− x,<br />

λ<br />

don<strong>de</strong> Γ ′ (α) indica la <strong>de</strong>rivada <strong>de</strong> la función Γ(α). Luego el sistema (3.3) se<br />

transforma en el sistema


3.3. MÉTODO DE MÁXIMA VEROSIMILITUD 9<br />

con X = 1<br />

n<br />

n ln n<br />

λ + ln(Xi) − n<br />

i=1<br />

Γ′ (α)<br />

Γ(α)<br />

= 0<br />

n α<br />

− n X<br />

λ<br />

= 0 ,<br />

ni=1 Xi. Luego λ = α . Pero, este sistema no tiene una solución<br />

X<br />

explícita ya que al reemplazar el valor <strong>de</strong> λ obtenemos la ecuación no lineal<br />

<br />

n<br />

n ln α − ln(X) + ln(Xi) − n Γ′ (α)<br />

Γ(α) =0,<br />

i=1<br />

que pue<strong>de</strong> resolverse, por ejemplo mediante, el algoritmo <strong>de</strong> Newton-Raphson.<br />

Para iniciar el proceso, se pue<strong>de</strong> tomar como estimador inicial el estimador<br />

<strong>de</strong> los momentos, por ejemplo.<br />

En este caso, el estimador <strong>de</strong> máxima verosimilitud no coinci<strong>de</strong> con el<br />

estimador <strong>de</strong> los momentos.<br />

Invarianza <strong>de</strong> los E.M.V. Supongamos que λ = q(θ) es una función<br />

biunívoca <strong>de</strong> Θ sobre Λ, don<strong>de</strong> Λ ⊂ IR p . Luego la <strong>de</strong>nsidad p(x, θ) se pue<strong>de</strong><br />

expresar en función <strong>de</strong> λ ya que θ = q −1 (λ). Denominemos a la <strong>de</strong>nsidad<br />

<strong>de</strong> X como función <strong>de</strong> λ por p ∗ (x, λ). Claramente se tiene<br />

p ∗ (x, λ) =p(x,q −1 (λ))<br />

Luego se <strong>de</strong>finen los E.M.V. θ y λ por<br />

p(x, θ)=maxp(x,<br />

θ) (3.4)<br />

θ∈Θ<br />

y<br />

p ∗ (x, λ)=max<br />

λ∈Λ p∗ (x, λ) (3.5)<br />

El siguiente teorema muestra que los estimadores <strong>de</strong> máxima verosimilitud<br />

son invariantes por transformaciones biunívocas.<br />

Teorema 1: Si θ es E.M.V. <strong>de</strong> θ, entonces λ = q( θ) es E.M.V. <strong>de</strong> λ.<br />

Demostración: Como θ es E.M.V. <strong>de</strong> θ se tendrá que (3.4) vale. Como<br />

λ = q( θ), (3.4) se pue<strong>de</strong> escribir como<br />

p(x,q −1 ( λ)) = max p(x,q<br />

λ∈Λ<br />

−1 (λ))


10 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

pero, esta ecuación <strong>de</strong> acuerdo a la <strong>de</strong>finición <strong>de</strong> p ∗ es equivalente a<br />

p ∗ (x, λ)=maxp<br />

λ∈Λ<br />

∗ (x, λ) ,<br />

luego λ satisface (3.5) y por lo tanto es un E.M.V. <strong>de</strong> λ.<br />

Ejemplo 5: De acuerdo al Teorema 1, en el ejemplo 2, el E.M.V. <strong>de</strong> λ =<br />

q(θ) =lnθserá λ =ln X <br />

θ =ln .<br />

k<br />

En general, si λ = q(θ), aunque q no sea bunívoca, se <strong>de</strong>fine el estimador<br />

<strong>de</strong> máxima verosimilitud <strong>de</strong> λ por<br />

λ = q( θ) .<br />

Ejemplo 6: Supongamos que en el ejemplo 3 interese encontrar el E.M.V.<br />

<strong>de</strong> λ = q(µ, σ2 )=µ/σ2 . Aunque esta transformación no es biunívoca, el<br />

E.M.V. <strong>de</strong> λ será<br />

λ = q(µ, σ 2 )=<br />

X<br />

ni=1 (Xi − X) 2 /n =<br />

ni=1 Xi<br />

ni=1 (Xi − X) 2<br />

pues basta completar la transformación dada a una transformación biunívoca,<br />

tomando por ejemplo, q1(µ, σ 2 )=µ.<br />

3.4 Método <strong>de</strong> cuadrados mínimos<br />

Supongamos que X1,X2,...,Xn son variables aleatorias <strong>de</strong> la forma<br />

Xi = Si(θ1,...,θp)+εi 1 ≤ i ≤ n (3.6)<br />

don<strong>de</strong> θ =(θ1,θ2,...,θp) es un vector <strong>de</strong> parámetros <strong>de</strong>sconocido, <strong>de</strong>l cual<br />

lo único que se conoce es que está en un conjunto Θ ⊂ IR p y εi son variables<br />

aleatorias con<br />

(i) E(εi) =0<br />

(ii) Var(εi) =σ 2


3.4. MÉTODO DE CUADRADOS MÍNIMOS 11<br />

(iii) ε1,ε2,...,εn son variables aleatorias in<strong>de</strong>pendientes.<br />

Ejemplo 1: Consi<strong>de</strong>remos el ejemplo 3 <strong>de</strong> 2.4. Luego, en este caso, poniendo<br />

θ1 en lugar <strong>de</strong> a y θ2 en lugar <strong>de</strong> b, se tiene<br />

Xi = θ1Gi + θ2 + εi<br />

don<strong>de</strong> las variables εi satisfacen (i), (ii) y (iii).<br />

Luego si llamamos:<br />

Si(θ1,θ2) =θ1Gi + θ2<br />

1 ≤ i ≤ n<br />

1 ≤ i ≤ n<br />

estamos en la situación <strong>de</strong>scripta por la ecuación (3.6).<br />

Ejemplo 2: Po<strong>de</strong>mos generalizar el ejemplo 1 por la siguiente situación.<br />

Supongamos que la variable X <strong>de</strong>pen<strong>de</strong> <strong>de</strong> otras dos variables G y H y que<br />

la forma <strong>de</strong> la <strong>de</strong>pen<strong>de</strong>ncia es<br />

X = u(G,H,θ1,θ2,...,θp)+ε<br />

don<strong>de</strong> θ =(θ1,...,θp) se conoce que pertenece a un conjunto Θ ⊂ IR p ,y<br />

don<strong>de</strong> ε es una variable aleatoria que aglutina todos los otros factores que<br />

<strong>de</strong>termina X y que son <strong>de</strong>sconocidos.<br />

Por ejemplo se pue<strong>de</strong>n tener<br />

o<br />

o<br />

u1(G, H, θ) =θ1G + θ2H + θ3<br />

u2(G, H, θ) =θ1G 2 + θ2H 2 + θ3HG + θ4H + θ5G + θ6<br />

u3(G, H, θ) =θ1e θ2G + θ3e θ4H .<br />

Supongamos que se hagan n experimentos. En el experimento i-ésimo<br />

se fijan G y H iguales respectivamente a Gi y Hi y se observa un valor Xi.<br />

Luego se tendrá<br />

Xi = u(Gi,Hi,θ1,θ2,...,θp)+εi<br />

1 ≤ i ≤ n<br />

don<strong>de</strong> se pue<strong>de</strong> suponer que las εi satisfacen (i), (ii) y (iii). Luego, si llamamos<br />

Si(θ1,θ2,...,θp) =u(Gi,Hi,θ1,θ2,...,θp)


12 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

obtenemos que las variables Xi satisfacen (3.6).<br />

Llamaremos estimador <strong>de</strong> cuadrados mínimos (E.C.M.) al valor<br />

θ(X1,X2,...,Xn) que hace mínima la expresión n i=1 (Xi−Si(θ1,θ2,...,θp)) 2 ,<br />

es <strong>de</strong>cir si<br />

n<br />

(Xi − Si(<br />

i=1<br />

θ)) 2 n<br />

= min (Xi − Si(θ))<br />

θ∈Θ i=1<br />

2 . (3.7)<br />

Este estimador tiene la siguiente justificación intuitiva: Se <strong>de</strong>sea que<br />

Si(θ1 ...θp) “ajuste” bien a Xi, y por lo tanto los términos residuales εi<br />

<strong>de</strong>berían ser pequeños. Esto se logra minimizando la suma <strong>de</strong> los cuadrados<br />

<strong>de</strong> las <strong>de</strong>sviaciones respectivas.<br />

Se pue<strong>de</strong> <strong>de</strong>mostrar que si a<strong>de</strong>más <strong>de</strong> satisfacer (i), (ii) y (iii), los εi<br />

tienen distribución normal, entonces el E.M.C. coinci<strong>de</strong> con el E.M.V. Esto<br />

se verá en el problema 3 <strong>de</strong> 3.4.<br />

Computación <strong>de</strong> los E.C.M.: Si Θ es abierto y si las funciones<br />

Si(θ1,θ2,...,θp) son <strong>de</strong>rivables respecto a cada θi, θ <strong>de</strong>berá satisfacer el<br />

sistema <strong>de</strong> ecuaciones siguiente<br />

que es equivalente a:<br />

∂ n i=1 (Xi − Si( θ)) 2<br />

∂θj<br />

=0 j =1, 2,...,p,<br />

n<br />

(Xi − Si(<br />

i=1<br />

θ)) ∂Si( θ)<br />

=0 j =1, 2,...,p.<br />

∂θj<br />

Igual que en el caso <strong>de</strong> los E.M.V. estas condiciones son necesarias para el<br />

E.M.C. pero no son suficientes. También se <strong>de</strong>berán cumplir las condiciones<br />

<strong>de</strong> segundo or<strong>de</strong>n, y se <strong>de</strong>berá verificar que se trata <strong>de</strong> un mínimo absoluto<br />

y no local.<br />

Ejemplo 3: Volvemos al ejemplo 1. Luego se tiene<br />

∂Si(θ)<br />

= Gi<br />

∂θ1<br />

Luego (3.7) se transforma en<br />

y<br />

∂Si(θ)<br />

=1.<br />

∂θ2


3.5. CRITERIOS PARA MEDIR LA BONDAD DE UN ESTIMADOR 13<br />

n<br />

(X −<br />

i=1<br />

θ1Gi − θ2)Gi = 0<br />

n<br />

(Xi −<br />

i=1<br />

θ1Gi − θ2) = 0 .<br />

Es fácil ver la que la solución <strong>de</strong> este sistema viene dada por<br />

don<strong>de</strong><br />

θ1 =<br />

n<br />

n<br />

(Xi − X)(Gi − G) (Gi − G)<br />

i=1<br />

i=1<br />

2 ,<br />

θ2 = X − θ1G,<br />

X = 1<br />

n<br />

n<br />

i=1<br />

Xi y G = 1<br />

n<br />

n<br />

Gi .<br />

Geométricamente la recta X = θ1G + θ2 tiene la propiedad siguiente:<br />

Minimaza la suma <strong>de</strong> los cuadrados <strong>de</strong> las distancias <strong>de</strong> los puntos (Gi,Xi)<br />

a la recta, si esta distancia se la mi<strong>de</strong> paralelamente al eje <strong>de</strong> las X. Es <strong>de</strong>cir<br />

si X ∗ i = θ1G1 + θ2, la recta X = θ1G + θ2 hace mínimo n i=1 (Xi − X ∗ i )2 .<br />

Para un mayor <strong>de</strong>sarrollo <strong>de</strong> los métodos <strong>de</strong> cuadrados mínimos, consultar<br />

Draper y Smith [2].<br />

3.5 Criterios para medir la bondad <strong>de</strong> un estimador<br />

Supongamos que se tenga una muestra X =(X1,X2,...,Xn) <strong>de</strong> cuya distribución<br />

sólo se conoce que pertenece a la familia<br />

F = {F (x, θ) don<strong>de</strong> θ ∈ Θ ⊂ IR p }. Supongamos a<strong>de</strong>más que se está interesado<br />

en estimar una función real q(θ). Para po<strong>de</strong>r elegir el estimador<br />

δ(X) que se utilizará, se <strong>de</strong>berá dar un criterio para comparar dos estimadores<br />

cualesquiera. Esto se hará como sigue:<br />

Es razonable pensar que dado un estimador δ(X) <strong>de</strong> q(θ), el error<br />

δ(X) − q(θ) producirá un perjuicio o pérdida dado por un real no negativo,<br />

que <strong>de</strong>pen<strong>de</strong>rá por un lado <strong>de</strong>l valor <strong>de</strong>l estimador δ(X) y por otro <strong>de</strong>l<br />

valor verda<strong>de</strong>ro <strong>de</strong>l vector θ <strong>de</strong> parámetros.<br />

i=1


14 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

Así llamaremos función <strong>de</strong> pérdida a una función ℓ(θ,d) no negativa que<br />

nos indica cuánto se pier<strong>de</strong> cuando el valor <strong>de</strong>l estimador es “d” y el valor<br />

verda<strong>de</strong>ro <strong>de</strong>l vector <strong>de</strong> parámetros es θ. Entonces si usamos el estimador<br />

δ(X) lapérdida será<br />

ℓ(θ,δ(X))<br />

y esta pérdida será una variable aleatoria ya que <strong>de</strong>pen<strong>de</strong> <strong>de</strong> X. Para evaluar<br />

globalmente el estimador δ(X) se pue<strong>de</strong> utilizar el valor medio <strong>de</strong> esta<br />

pérdida, que indicará <strong>de</strong> acuerdo a la ley <strong>de</strong> los gran<strong>de</strong>s números aproximadamente<br />

la pérdida promedio, si estimamos q(θ) muchas veces con vectores X<br />

in<strong>de</strong>pendientes. Luego, <strong>de</strong>finimos la función <strong>de</strong> pérdida media <strong>de</strong>l estimador<br />

δ o función <strong>de</strong> riesgo R(δ, θ) a<br />

R(δ, θ) =E θ (ℓ(θ,δ(X)))<br />

Un primer ejemplo <strong>de</strong> función <strong>de</strong> pérdida pue<strong>de</strong> obtenerse tomando el error<br />

absoluto, es <strong>de</strong>cir<br />

ℓ1(θ,d)=|d − q(θ)|<br />

y en este caso, la pérdida media correspon<strong>de</strong> a un estimador δ(X) viene dada<br />

por<br />

R1(δ, θ) =Eθ (|δ(X − q(θ)|)<br />

Si consi<strong>de</strong>ramos como función <strong>de</strong> pérdida el cuadrado <strong>de</strong>l error tenemos<br />

ℓ2(θ,d)=(d − q(θ)) 2<br />

que es una función que <strong>de</strong>s<strong>de</strong> el punto <strong>de</strong> vista matemático es más sencilla<br />

que ℓ1, ya que es <strong>de</strong>rivable en todo punto.<br />

La función <strong>de</strong> pérdida cuadrática fue la primera utilizada en <strong>Estadística</strong>,<br />

yaún hoy la más difundida. De ahora en a<strong>de</strong>lante, salvo mención en contrario<br />

supondremos que la función <strong>de</strong> pérdida es ℓ2. La pérdida media, o riesgo,<br />

correspondiente está dada por<br />

R2(δ, θ) =E(δ(X) − q(θ)) 2<br />

y será llamada en a<strong>de</strong>lante error cuadrático medio, e indicada por ECMθ (δ).<br />

Luego<br />

ECMθ (δ) =R2(δ, θ) =Eθ (δ(X) − q(θ)) 2<br />

(3.8)<br />

La función ECMθ (δ) nos proporciona un criterio para <strong>de</strong>terminar si un estimador<br />

δ1(X) <strong>de</strong>q(θ) es mejor que otro δ2(X), basta verificar<br />

ECM θ (δ1) ≤ ECM θ (δ2) ∀ θ ∈ Θ


3.5. CRITERIOS PARA MEDIR LA BONDAD DE UN ESTIMADOR 15<br />

En este or<strong>de</strong>n <strong>de</strong> i<strong>de</strong>as, un estimador óptimo δ ∗ podría <strong>de</strong>finirse mediante la<br />

siguiente condición: Para cualquier otro estimador δ se tiene<br />

ECM θ (δ ∗ ) ≤ ECM θ (δ) ∀ θ ∈ Θ (3.9)<br />

Sin embargo, salvo en casos triviales no existirán tales estimadores óptimos.<br />

Para mostrar esto <strong>de</strong>finamos para cada posible valor θ ∈ Θ, el estimador<br />

constante δ θ (X) =q(θ) que no <strong>de</strong>pen<strong>de</strong> <strong>de</strong>l valor <strong>de</strong> la muestra. Luego si<br />

δ ∗ satisface (3.9), <strong>de</strong>be cumplirse:<br />

ECM θ (δ ∗ ) ≤ ECM θ (δ θ )=E θ ((q(θ) − q(θ)) 2 )=0 ∀θ ∈ Θ<br />

Pero como ECM θ (δ ∗ ) ≥ 0yℓ2(θ,d) = 0 implica que d = q(θ), se obtiene<br />

P θ (δ ∗ (X) =q(θ)) = 1 ∀θ ∈ Θ (3.10)<br />

(don<strong>de</strong> Pθ (Λ) indica la probabilidad <strong>de</strong>l evento Λ cuando el valor <strong>de</strong> los<br />

parámetros está dado por el vector θ). La ecuación (3.10) significa que a<br />

partir <strong>de</strong> la muestra se pue<strong>de</strong> estimar sin error q(θ). Esta situación sólo se<br />

da muy raramente, por ejemplo, cuando q(θ) es constante.<br />

Otro ejemplo algo diferente <strong>de</strong> función <strong>de</strong> pérdida, correspon<strong>de</strong> a la<br />

función<br />

ℓ3(θ,d)=I {|q(θ)−d|>c}<br />

don<strong>de</strong> I {|q(θ)−d|>c} es la función que vale 1 si |q(θ) − d| >cy 0 en caso<br />

contrario. Esta pérdida da origen a la función <strong>de</strong> riesgo<br />

R3(δ, θ) =P θ (|δ(X) − q(θ)| >c) .<br />

A diferencia <strong>de</strong> las anteriores, en este caso, ℓ3(θ,d) = 0 no implica implica<br />

q(θ) =d. Por otra parte, esta pérdida no es convexa como función <strong>de</strong> d<br />

mientras que ℓ1 y ℓ2 lo son. En muchas situaciones, se podrán obtener<br />

procedimientos <strong>de</strong> estimación más efectivos para pérdidas convexas.<br />

El estimador δ ∗ con E.C.M. mínimo uniformemente en θ como se indica<br />

en (3.9) no existe, salvo en casos excepcionales, <strong>de</strong>bido a que la clase <strong>de</strong><br />

todos los posibles estimadores es muy amplia y contiene estimadores poco<br />

razonables como los δ θ (X) <strong>de</strong>finidos anteriormente. Por lo tanto, una manera<br />

<strong>de</strong> obtener estimadores óptimos consistirá en restringir primero la clase<br />

<strong>de</strong> los estimadores δ consi<strong>de</strong>rados, y luego buscar aquél con E.C.M. uniformemente<br />

menor <strong>de</strong>ntro <strong>de</strong> esta clase. Otra forma <strong>de</strong> obtener estimadores<br />

óptimos consistirá en minimizar algún criterio general basado en la función<br />

<strong>de</strong> riesgo, como el máximo riesgo.


16 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

Antes <strong>de</strong> empezar el estudio <strong>de</strong> las clases <strong>de</strong> estimadores daremos una<br />

noción importante.<br />

Definición 1: Se dice que un estimador δ(X) <strong>de</strong> q(θ) es inadmisible<br />

respecto <strong>de</strong> la pérdida ℓ(θ,d), si existe otro estimador δ ′ (X) mejor que él, es<br />

<strong>de</strong>cir, si existe δ ′ (X) tal que<br />

R(δ ′ , θ) ≤ R(δ, θ) ∀ θ ∈ Θ<br />

El estimador δ(X) se dirá admisible si no es inadmisible, es <strong>de</strong>cir, si no existe<br />

ningún otro estimador que sea uniformemente mejor que él.<br />

El siguiente Teorema muestra la ventaja <strong>de</strong> utilizar pérdidas convexas.<br />

Teorema 1. Supongamos que ℓ(θ,d) es una pérdida estrictamente convexa<br />

en d y que δ(X) es admisible para q(θ). Siδ ′ (X) es otro estimador <strong>de</strong> q(θ)<br />

con el mismo riesgo que δ(X) entonces P θ (δ(X) =δ ′ (X)) = 1.<br />

Demostración. Supongamos que P θ (δ(X) =δ ′ (X)) < 1 y sea δ ∗ (X) =<br />

(δ(X)+δ ′ (X)) /2. Luego, por ser ℓ(θ,d) convexa se cumple<br />

ℓ(θ,δ ∗ (X)) < ℓ(θ,δ(X)) + ℓ(θ,δ′ (X))<br />

(3.11)<br />

2<br />

salvo si δ(X) =δ ′ (X). Luego, tomando esperanza en ambos miembros <strong>de</strong><br />

(3.11) se obtiene<br />

R(δ ∗ , θ) < R(δ, θ)+R(δ′ , θ)<br />

= R(δ, θ) (3.12)<br />

2<br />

lo que contradice el hecho <strong>de</strong> que δ(X) es admisible.<br />

3.6 Estimadores insesgados<br />

Una propiedad “razonable” que se pue<strong>de</strong> exigir a un estimador está dada<br />

por la siguiente <strong>de</strong>finición:<br />

Definición 1: Se dice que δ(X) es un estimador insesgado para q(θ) si<br />

E θ (δ(X)) = q(θ) ∀θ ∈ Θ.<br />

Esto significa que si calculamos el estimador δ para varias muestras in<strong>de</strong>pendientes,<br />

y luego promediamos los valores así obtenidos, entonces <strong>de</strong>


3.6. ESTIMADORES INSESGADOS 17<br />

acuerdo a la ley <strong>de</strong> los gran<strong>de</strong>s números el promedio converge al valor q(θ)<br />

que queremos estimar.<br />

Definición 2: Si un estimador no es insesgado, se dice sesgado, <strong>de</strong>finiéndose<br />

el sesgo <strong>de</strong>l estimador como E θ (δ(X)) − q(θ).<br />

Cuando δ(X) es un estimador insesgado, su ECM coinci<strong>de</strong> con su varianza<br />

ya que<br />

ECM θ (δ) =E θ [(δ(X) − q(θ)) 2 ]=E θ [(δ(X) − E θ (δ(X))) 2 ]=Var θ (δ(X)).<br />

Para ilustrar estas <strong>de</strong>finiciones veremos algunos ejemplos.<br />

Ejemplo 1: Supongamos tener una variable X <strong>de</strong> cuya distribución F en la<br />

población sólo se sabe que tiene esperanza finita, es <strong>de</strong>cir sólo se conoce que<br />

pertenece a F, don<strong>de</strong> F es la familia <strong>de</strong> todas las distribuciones con esperanza<br />

finita. Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> F y supongamos que se<br />

quiere estimar q1(F )=EF (X). Estamos frente a un problema <strong>de</strong> estimación<br />

no paramétrica, ya que la familia no pue<strong>de</strong> indicarse con un número finito<br />

<strong>de</strong> parámetros. Un posible estimador para q1(F )esX =(1/n) n i=1 Xi. El<br />

estimador X es insesgado ya que<br />

EF (X) =EF<br />

1<br />

n<br />

n <br />

Xi<br />

i=1<br />

X se <strong>de</strong>nomina media muestral.<br />

= 1<br />

n<br />

n<br />

EF (Xi) =EF (X) =q1(F )<br />

i=1<br />

Ejemplo 2: Supongamos ahora que se conoce que la distribución F <strong>de</strong> X en<br />

la población pertenece a la familia F <strong>de</strong> todas las distribuciones que tienen<br />

segundo momento finito, es <strong>de</strong>cir tales que EF (X 2 ) < ∞. Supongamos<br />

que se quiere estimar q2(F )=VarF (X) a partir <strong>de</strong> una muestra aleatoria<br />

X1,X2,...,Xn. Ya hemos visto que un estimador a<strong>de</strong>cuado podría ser<br />

σ 2 = 1<br />

n<br />

n<br />

(Xi − X)<br />

i=1<br />

2<br />

Veremos que σ 2 no es un estimador insesgado <strong>de</strong> q2(F ). Desarrollando el<br />

cuadrado <strong>de</strong>l segundo miembro en la <strong>de</strong>finición obtenemos<br />

σ 2 ni=1 X<br />

=<br />

2 i − nX2<br />

.<br />

n


18 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

Luego, se tiene<br />

EF (σ 2 )=EF (X 2 ) − EF (X 2 ) (3.13)<br />

Por otro lado, se tiene<br />

VarF (X) = 1<br />

n2 n<br />

VarF (Xi) = 1<br />

n VarF (X) .<br />

Como<br />

resulta<br />

i=1<br />

VarF (X) =EF (X 2 ) − (EF (X)) 2 ,<br />

EF (X 2 )=VarF (X)+(EF (X)) 2 = 1<br />

n VarF (X)+(EF (X)) 2<br />

(3.14)<br />

y reemplazando (3.14) en (3.13) resulta<br />

EF (σ 2 ) = EF (X 2 ) − (EF (X)) 2 − 1<br />

n VarF (X) =VarF (X)(1 − 1/n)<br />

= n − 1<br />

n VarF<br />

n − 1<br />

(X) =<br />

n q2(F ).<br />

Esto prueba que σ 2 no es un estimador insesgado para VarF (X), aunque<br />

el sesgo es −VarF (X)/n, y por lo tanto, tien<strong>de</strong> a 0 cuando n tien<strong>de</strong> a infinito.<br />

El sesgo pue<strong>de</strong> corregirse dividiendo σ 2 por (n − 1)/n, obteniendo así el<br />

estimador insesgado<br />

s 2 = n<br />

n − 1 σ2 = 1<br />

n<br />

(Xi − X)<br />

n − 1<br />

i=1<br />

2<br />

que <strong>de</strong>nominaremos varianza muestral.<br />

Ejemplo 3: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

<strong>de</strong> la cual se conoce únicamente que pertenece a la familia N(µ, σ 2 ) y supongamos<br />

que se quieran estimar µ y σ 2 . Como se tiene<br />

µ = E µ,σ 2(X) ; σ 2 =Var µ,σ 2(X)<br />

por lo visto en Ejemplos 1 y 2, resulta que X y s 2 son estimadores insesgados<br />

<strong>de</strong> µ y σ 2 respectivamente.<br />

Si nos restringimos a la clase <strong>de</strong> los estimadores insesgados, se podrá encontrar<br />

frecuentemente, estimadores óptimos. Daremos la siguiente <strong>de</strong>finición:<br />

Definición 2: Se dirá que δ(X) es un estimador insesgado <strong>de</strong> mínima<br />

varianza para q(θ), uniformemente en θ ∈ Θ (IMVU) si:


3.7. ESTADÍSTICOS SUFICIENTES 19<br />

(a) δ(X) es insesgado para q(θ)<br />

(b) dado otro estimador insesgado para q(θ), δ ∗ (X), se cumple Var θ (δ(X)) ≤<br />

Var θ (δ ∗ (X)) ∀ θ ∈ Θ.<br />

3.7 Estadísticos suficientes<br />

Consi<strong>de</strong>remos un vector aleatorio X <strong>de</strong> dimensión n cuya distribución pertenece<br />

a una familia F = {F (x, θ) con θ ∈ Θ ⊂ IR p }. El vector X interesa en<br />

cuanto nos provee información sobre el valor verda<strong>de</strong>ro <strong>de</strong> θ. Pue<strong>de</strong> ocurrir<br />

que una parte <strong>de</strong> la información contenida en X carezca <strong>de</strong> interés para<br />

el conocimiento <strong>de</strong> θ, y por consiguiente convenga eliminarla simplificando<br />

así la información disponible.<br />

Al realizar esta simplificación, eliminando <strong>de</strong> X toda la información irrelevante,<br />

se obtendrá otro vector T que pue<strong>de</strong> ser <strong>de</strong> dimensión menor que<br />

n.<br />

Llamaremos estadístico a cualquier función medible T = r(X) con valores<br />

en un espacio euclí<strong>de</strong>o <strong>de</strong> dimensión finita.<br />

Si la función r no es biunívoca, <strong>de</strong>l conocimiento <strong>de</strong> T no se podrá<br />

reconstruir el valor <strong>de</strong> X, por lo que T conservará sólo una parte <strong>de</strong> la<br />

información que hay en X. El estadístico T será llamado suficiente cuando<br />

conserve toda la información relevante para el conocimiento <strong>de</strong> θ. Esto se<br />

formalizará en la siguiente <strong>de</strong>finición.<br />

Definición 1: Sea X un vector aleatorio <strong>de</strong> dimensión n cuya distribución<br />

es F (x, θ) con θ ∈ Θ. Se dice que un estadístico T = r(X) es suficiente<br />

para θ si la distribución <strong>de</strong> X condicional a que T = t es in<strong>de</strong>pendiente <strong>de</strong><br />

θ para todo t.<br />

Esto pue<strong>de</strong> interpretarse como afirmando que una vez conocido el valor t<br />

<strong>de</strong> T, la distribución <strong>de</strong> X es in<strong>de</strong>pendiente <strong>de</strong> θ y por lo tanto no contiene<br />

información suplementaria sobre θ. En otros términos: una vez conocido<br />

el valor <strong>de</strong> T po<strong>de</strong>mos olvidarnos <strong>de</strong>l valor X, ya que en T está toda la<br />

información que X tiene sobre θ.<br />

Ejemplo 1: Supongamos que una máquina produce cierto artículo, existiendo<br />

la probabilidad θ <strong>de</strong> que lo produzca <strong>de</strong>fectuoso. Supongamos a<strong>de</strong>más<br />

que se observa un lote <strong>de</strong> n artículos producidos sucesivamente por la máquina,


20 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

<strong>de</strong> manera que la aparición <strong>de</strong> uno <strong>de</strong>fectuoso resulte in<strong>de</strong>pendiente <strong>de</strong>l resultado<br />

obtenido para los restantes artículos <strong>de</strong>l lote.<br />

Consi<strong>de</strong>remos las variable aleatorias Xi , 1 ≤ i ≤ n, que valen 1 ó 0<br />

según el i-ésimo artículo observado sea o no <strong>de</strong>fectuoso. Entonces cada una<br />

<strong>de</strong> las variables X1,X2,...,Xn sigue una ley binomial Bi(θ, 1), <strong>de</strong> modo que<br />

la función <strong>de</strong> probabilidad puntual conjunta es igual a<br />

p(x1,x2,...,xn,θ)=θ Σn i=1 xi (1 − θ) n−Σ n i=1 xi<br />

don<strong>de</strong> xi vale 0 ó 1.<br />

Si queremos estimar el parámetro θ, parece razonable pensar que sólo se<br />

<strong>de</strong>berá utilizar la cantidad total <strong>de</strong> artículos <strong>de</strong>fectuosos <strong>de</strong>l lote, ya que el or<strong>de</strong>n<br />

en que han aparecido los mismos parece irrelevante para el conocimiento<br />

<strong>de</strong> θ. Por lo tanto, es <strong>de</strong> esperar que el estadístico T = n i=1 Xi sea suficiente.<br />

Para ver si esta conjetura es correcta, calculemos la distribución <strong>de</strong><br />

X =(X1,...,Xn) dado T = t:<br />

pX|T (x1,...,xn,θ|t) = pX,T (x1,x2,...,xn,t,θ)<br />

(3.15)<br />

pT (t, θ)<br />

El numerador <strong>de</strong> este cociente es la probabilidad conjunta:<br />

=<br />

Pθ(X1 = x1,...,Xn = xn,r(X1,...,Xn) =t)<br />

<br />

θt (1 − θ) n−t si r(x1,...,xn) =t<br />

0 si r(x1,...,xn) = t<br />

y como el estadístico T = n i=1 Xi sigue una ley binomial Bi(θ, n) el <strong>de</strong>nominador<br />

<strong>de</strong> (3.15) vale<br />

pT (t, θ) =<br />

n<br />

t<br />

<br />

θ t (1 − θ) n−t<br />

Así resulta<br />

⎧<br />

⎪⎨<br />

<br />

n<br />

<br />

1/ si r(x1,...,xn) =t<br />

pX|T (x1,...,xn,θ|t) = t<br />

⎪⎩ 0 si r(x1,...,xn) = t.<br />

De esta manera p X/T es in<strong>de</strong>pendiente <strong>de</strong> θ y por lo tanto el estadístico<br />

T =ΣXi es suficiente para θ.<br />

Una caracterización útil <strong>de</strong> los estadísticos suficientes es la proporcionada<br />

por el siguiente teorema:


3.7. ESTADÍSTICOS SUFICIENTES 21<br />

Teorema 1 (<strong>de</strong> factorización): Sea X un vector aleatorio con función <strong>de</strong><br />

<strong>de</strong>nsidad o función <strong>de</strong> probabilidad puntual p(x, θ), θ ∈ Θ. Entonces, el<br />

estadístico T = r(X) es suficiente para θ si y sólo si existen dos funciones g<br />

y h tales que<br />

p(x, θ) =g(r(x), θ)h(x) (3.16)<br />

Demostración: La haremos sólo para el caso discreto. Supongamos primero<br />

que existen dos funciones g y h tales que p(x, θ) se factoriza según (3.16).<br />

Entonces la función <strong>de</strong> <strong>de</strong>nsidad conjunta vale<br />

pXT(x, t, θ) =<br />

<br />

g(t, θ)h(x) si r(x) =t<br />

0 si r(x) = t<br />

y la <strong>de</strong>nsidad marginal pT(t, θ) está dada por<br />

pT(t, θ) = <br />

pXT(x, t, θ) = <br />

r(x)=t<br />

= g(t, θ) <br />

r(x)=t<br />

r(x)=t<br />

h(x) =g(t, θ)h ∗ (t)<br />

g(r(x), θ)h(x)<br />

don<strong>de</strong> las sumatorias se realizan sobre todos los x =(x1,x2,...,xn) tales<br />

que r(x) =t. Así resulta la función <strong>de</strong> <strong>de</strong>nsidad condicional<br />

p X|T(x, θ|t) =<br />

<br />

h(x)/h ∗ (t) si r(x) =t<br />

0 si r(x) = t<br />

y por lo tanto la distribución <strong>de</strong> X dado T = t es in<strong>de</strong>pendiente <strong>de</strong> θ para<br />

todo t.<br />

Recíprocamente, si suponemos que T = r(X) es suficiente para θ, se<br />

tiene<br />

Pθ(X = x) = Pθ (X = x, T = r(x)) = pXT(x,r(x), θ)<br />

= pX|T(x, θ|r(x))pT(r(x), θ)<br />

El primero <strong>de</strong> los factores <strong>de</strong>l último miembro es por hipótesis in<strong>de</strong>pendiente<br />

<strong>de</strong> θ y por eso po<strong>de</strong>mos llamarlo h(x); mientras que el segundo –que<br />

<strong>de</strong>pen<strong>de</strong> <strong>de</strong> x a través <strong>de</strong> t– pue<strong>de</strong> <strong>de</strong>nominarse g(r(x), θ). El teorema queda<br />

<strong>de</strong>mostrado. Para una <strong>de</strong>mostración general, ver Teorema 8 y Corolario 1<br />

<strong>de</strong> Lehmann [4]. También se pue<strong>de</strong> ver Bahadur [1].


22 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

Ejemplo 2: Supongamos que las variables aleatorias X1,X2,...,Xn son<br />

in<strong>de</strong>pendientes y que están uniformemente distribuídas en el intervalo [θ1,θ2]<br />

<strong>de</strong> manera que su función <strong>de</strong> <strong>de</strong>nsidad conjunta vale<br />

<br />

p(x1,...,xn,θ1,θ2) =<br />

Si <strong>de</strong>finimos los estadísticos<br />

(θ2 − θ1) −n si θ1 ≤ xi ≤ θ2, ∀i, 1 ≤ i ≤ n<br />

0 en el resto <strong>de</strong>IR n<br />

r1(X) = min{Xi : 1 ≤ i ≤ n} y r2(X) = max{Xi : 1 ≤ i ≤ n}<br />

y si <strong>de</strong>notamos con I [θ1,θ2](y) a la función característica <strong>de</strong>l intervalo [θ1,θ2]<br />

(que vale 1 para todo y <strong>de</strong>l intervalo y 0 fuera <strong>de</strong>l mismo), resulta:<br />

p(x1,...,xn,θ1,θ2) =(θ2−θ1) −n I [θ1,θ2](r1(x1,...,xn))I [θ1,θ2](r2(x1,...,xn))<br />

Por lo tanto la función <strong>de</strong> <strong>de</strong>nsidad p(x, θ) se factoriza como en (3.16) con<br />

h(x) = 1. La función g que <strong>de</strong>pen<strong>de</strong> <strong>de</strong> X a través <strong>de</strong> r1(x) yr2(x) vale en<br />

este caso<br />

g(r1(x),r2(x), θ) =(θ2 − θ1) −n I [θ1,θ2](r1(x))I [θ1,θ2](r2(x))<br />

Esto <strong>de</strong>muestra que el estadístico<br />

es suficiente para θ1 y θ2.<br />

T =(r1(X) ,r2(X))<br />

El siguiente resultado es Corolario inmediato <strong>de</strong>l Teorema 1.<br />

Corolario. Sea X un vector aleatorio con función <strong>de</strong> <strong>de</strong>nsidad o función <strong>de</strong><br />

probabilidad puntual p(x, θ), θ ∈ Θ. Supongamos que la familia {p(x, θ)}<br />

tiene soporte común, in<strong>de</strong>pendiente <strong>de</strong> θ. Entonces, una condición necesaria<br />

y suficiente para que T sea suficiente para θ es que fijados θ1 y θ2 el cociente<br />

p(x,θ1)<br />

p(x,θ2)<br />

sea función <strong>de</strong> T.<br />

El siguiente Teorema muestra que una función biunívoca <strong>de</strong> un estadístico<br />

suficiente es también un estadístico suficiente. Esta propiedad es intuitivamente<br />

razonable: si T contiene toda la información relevante acerca <strong>de</strong> θ, y<br />

T ∗ es una función biunívoca <strong>de</strong> T, entonces también T ∗ la contiene ya que<br />

el vector T pue<strong>de</strong> reconstruirse a partir <strong>de</strong>l vector T ∗ .


3.8. ESTADÍSTICOS MINIMALES SUFICIENTES 23<br />

Teorema 2: Si X es un vector aleatorio con una distribución F (x, θ), con<br />

θ ∈ Θ si T = r(X) es un estadístico suficiente para θ ysim es una función<br />

biunívoca <strong>de</strong> T entonces el estadístico T∗ = m(T) también es suficiente para<br />

θ.<br />

Demostración: Apliquemos el teorema <strong>de</strong> factorización a la función <strong>de</strong><br />

<strong>de</strong>nsidad <strong>de</strong>l vector X:<br />

p(x, θ) =g(r(x), θ)h(x) =g(m −1 (m(r(x)), θ)h(x)<br />

El primer factor <strong>de</strong>l último miembro es una función g ∗ (r ∗ (x), θ), don<strong>de</strong><br />

r ∗ (x) =m(r(x)), y esto prueba que T ∗ = r ∗ (X) es suficiente para θ.<br />

3.8 Estadísticos minimales suficientes<br />

De la noción intuitiva <strong>de</strong> suficiencia, se <strong>de</strong>duce que si T es suficiente para<br />

θ y T = H(U) entonces U es suficiente para θ, ya que el conocimiento <strong>de</strong><br />

U permite conocer T que es el que contiene toda la información relevante<br />

sobre θ. Más aún, salvo que H sea biunívoca T da una mayor reducción <strong>de</strong><br />

la muestra original que U. Este hecho motiva la siguiente <strong>de</strong>finición.<br />

Definición 1: Sea X un vector aleatorio <strong>de</strong> dimensión n cuya distribución<br />

es F (x, θ) con θ ∈ Θ. Se dice que un estadístico T = r(X) es minimal<br />

suficiente para θ si dado cualquier otro estadístico U = g(X) suficiente para<br />

θ existe una función H tal que T = H(U).<br />

En muchas situaciones, es fácil construir estadísticos minimal suficientes.<br />

Sea S(θ) = {x : p(x, θ) > 0}, S(θ) se llama el soporte <strong>de</strong> la <strong>de</strong>nsidad<br />

o <strong>de</strong> la probabilidad puntual p(x, θ), según corresponda. Para simplificar,<br />

supondremos que las posibles distribuciones <strong>de</strong>l vector X tienen todas el<br />

mismo soporte, es <strong>de</strong>cir, que el conjunto S(θ) no <strong>de</strong>pen<strong>de</strong> <strong>de</strong> θ.<br />

Teorema 1. Supongamos que X tiene una distribución perteneciente a una<br />

familia finita <strong>de</strong> distribuciones F = {F (x, θi) 1 ≤ i ≤ k} con <strong>de</strong>nsida<strong>de</strong>s<br />

o probabilida<strong>de</strong>s puntuales p(x, θi), 1 ≤ i ≤ k todas con el mismo soporte.<br />

Entonces el estadístico<br />

es minimal suficiente.<br />

T = r(x) =<br />

<br />

p(x, θ2) θk)<br />

,...,p(x,<br />

p(x, θ1) p(x, θ1)


24 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

Demostración. Obviamente, para todo 1 ≤ i < j ≤ k el cociente<br />

p(x, θi)/p(x, θj) es función <strong>de</strong> T. Por lo tanto, por el Corolario <strong>de</strong>l teorema<br />

<strong>de</strong> Factorización, T es suficiente.<br />

Sea ahora U un estadístico suficiente para θ. Entonces, utilizando el Corolario<br />

anterior se cumple que para todo 2 ≤ i ≤ k, el cociente p(x,θi)<br />

es una<br />

p(x,θ1)<br />

función <strong>de</strong> U. Luego, T es función <strong>de</strong> U y T es minimal suficiente.<br />

En muchas situaciones, se pue<strong>de</strong>n obtener estadísticos minimales suficientes<br />

combinando el Teorema 1 con el siguiente Teorema.<br />

Teorema 2. Supongamos que X tiene una distribución perteneciente a una<br />

familia <strong>de</strong> distribuciones F = {F (x, θ) θ ∈ Θ} con <strong>de</strong>nsida<strong>de</strong>s o probabilida<strong>de</strong>s<br />

puntuales p(x, θ), todas con el mismo soporte. Sea<br />

F0 = {F (x, θ) θ ∈ Θ0 ⊂ Θ} ⊂F.<br />

Supongamos a<strong>de</strong>más que T = r(X) es un estadístico minimal suficiente para<br />

θ ∈ Θ0 y suficiente para θ ∈ Θ, entonces T es minimal suficiente para θ ∈ Θ.<br />

Demostración. Sea U un estadístico suficiente para θ, entonces U es<br />

suficiente para θ ∈ Θ0. Por lo tanto, T es función <strong>de</strong> U, con lo cual T es<br />

minimal suficiente.<br />

Ejemplo 1. Sean X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

Bi(θ, 1), 0 < θ < 1. Hemos visto que T = n i=1 Xi es suficiente para<br />

θ ∈ (0, 1). Queremos ver que es minimal suficiente.<br />

Para ello consi<strong>de</strong>remos la familia finita F0 = {Bi(1/4, 1),Bi(3/4, 1)}.<br />

Luego, un estadístico minimal suficiente para esta familia está dado por<br />

U = g(x) =<br />

3 p(x, 4 )<br />

p(x, 1<br />

−n<br />

=32T<br />

4 )<br />

que es una función biunívoca <strong>de</strong> T . Por lo tanto, T es un estadístico minimal<br />

suficiente para F0 y suficiente para θ ∈ (0, 1), con lo cual es minimal<br />

suficiente para θ ∈ (0, 1).<br />

3.9 Estimadores basados en estadísticos suficientes<br />

Supongamos que X es un vector correspondiente a una muestra <strong>de</strong> una<br />

distribución que pertenece a la familia F (x, θ) con θ ∈ Θ. Supongamos que<br />

T = r(X) es un estadístico suficiente para θ. Luego <strong>de</strong> acuerdo al concepto


3.9. ESTIMADORES BASADOS EN ESTADÍSTICOS SUFICIENTES 25<br />

intuitivo que tenemos <strong>de</strong> estadístico suficiente, para estimar una función q(θ)<br />

<strong>de</strong>berán bastar estimadores que <strong>de</strong>pendan sólo <strong>de</strong> T, ya que en T está toda<br />

la información que X contiene sobre el parámetro θ. Esto es justamente lo<br />

que afirma el siguiente teorema.<br />

Teorema 1 (Rao–Blackwell): Sea X un vector <strong>de</strong> una distribución perteneciente<br />

a la familia F (x, θ) con θ ∈ Θ. Sea T un estadístico suficiente para<br />

θ y δ(X) un estimador <strong>de</strong> q(θ). Definamos un nuevo estimador<br />

Luego se tiene<br />

δ ∗ (T) =E(δ(X)|T).<br />

(i) ECM θ (δ ∗ ) ≤ ECM θ (δ), ∀ θ ∈ Θ<br />

(ii) La igualdad en (i) se satisface si y sólo si<br />

P θ (δ ∗ (T) =δ(X)) = 1 ∀ θ ∈ Θ<br />

(iii) Si δ(X) es insesgado, entonces δ ∗ (T) también lo es.<br />

Demostración: Po<strong>de</strong>mos escribir<br />

ECM θ (δ) = E θ ((δ(X) − q(θ)) 2 )<br />

Luego, usando<br />

= Eθ ([(δ ∗ (T) − q(θ)) + (δ(X) − δ ∗ (T ))] 2 )<br />

= Eθ ((δ ∗ (T) − q(θ)) 2 )+Eθ ((δ(X) − δ ∗ (T)) 2 )<br />

+ 2Eθ ((δ ∗ (T) − q(θ))(δ(X) − δ ∗ (T))) (3.17)<br />

Eθ ((δ ∗ (T) − q(θ))(δ(X) − δ ∗ (T))) = Eθ [E((δ ∗ (T) − q(θ))(δ(X) − δ ∗ (T))|T]<br />

= Eθ [(δ ∗ (T) − q(θ))E(δ(X) − δ ∗ (T)|T]<br />

y<br />

E θ (δ(X) − δ ∗ (T)|T) =E(δ(X)|T) − δ ∗ (T) =δ ∗ (T) − δ ∗ (T) =0,<br />

se obtiene<br />

E θ ((δ ∗ (T) − q(θ))(δ(X) − δ ∗ (T))) = 0 .


26 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

Luego (3.17) se transforma en<br />

y resulta<br />

ECM θ (δ) = ECM θ (δ ∗ )+E θ ((δ(X) − δ ∗ (T)) 2 )<br />

ECM θ (δ) ≥ ECM θ (δ ∗ ) .<br />

A<strong>de</strong>más igualdad se cumple sólo si P θ (δ(X) =δ ∗ (T)) = 0 ∀ θ ∈ Θ.<br />

Luego ya se ha <strong>de</strong>mostrado (i) y (ii). Para mostrar (iii) supongamos que<br />

δ es insesgado, luego se tiene<br />

Luego se cumple (iii).<br />

E θ (δ ∗ (T)) = E θ (E(δ(X)|T)) = E θ (δ(X)) = q(θ)<br />

Observación: El estimador δ ∗ (T) =E(δ(X)|T) es realmente un estimador<br />

ya que <strong>de</strong>pen<strong>de</strong> sólo <strong>de</strong> T (y por lo tanto <strong>de</strong> X) yno<strong>de</strong>θ, ya que por ser T<br />

un estadístico suficiente la distribución <strong>de</strong> δ(X) condicional T = t es in<strong>de</strong>pendiente<br />

<strong>de</strong> θ, por lo tanto lo mismo suce<strong>de</strong> con la esperanza condicional.<br />

Ejemplo 1: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

Bi(θ, 1). Luego δ(X1,...,Xn) =X1 es un estimador insesgado <strong>de</strong> θ. Un<br />

estadístico suficiente para θ es T = n i=1 Xi (ver ejemplo 1 <strong>de</strong> 3.7). Por lo<br />

tanto, <strong>de</strong> acuerdo al teorema <strong>de</strong> Rao–Blackwell, δ ∗ (T )=E(δ(X1,...,Xn)|T )<br />

será otro estimador insesgado <strong>de</strong> θ yVarθ(δ ∗ ) ≤ Varθ(δ). Vamos a calcular<br />

entonces δ ∗ (T ).<br />

Por ser X1,X2,...,Xn idénticamente distribuídas y como T es invariante<br />

por permutaciones entre X1,X2,...,Xn, la distribución conjunta <strong>de</strong> (Xi,T)<br />

es la misma para todo i. Por lo tanto, E(Xi|T ) será in<strong>de</strong>pendiente <strong>de</strong> i (ver<br />

Problema 1 <strong>de</strong> 3.9). Luego<br />

E(Xi|T )=E(X1|T )=δ ∗ (T ) 1 ≤ i ≤ n.<br />

Sumando en i se tiene<br />

n<br />

E(Xi|T )=nδ<br />

i=1<br />

∗ (T ) .<br />

Pero a<strong>de</strong>más vale que<br />

n<br />

n<br />

<br />

E(Xi|T )=E Xi|T = E(T |T )=T,<br />

i=1<br />

i=1


3.10. FAMILIAS EXPONENCIALES 27<br />

luego<br />

Es fácil ver que<br />

ya que<br />

δ ∗ (T )= T<br />

n<br />

= 1<br />

n<br />

n<br />

Xi .<br />

i=1<br />

Varθ(δ ∗ (T )) ≤ Varθ(δ(X))<br />

Varθ(δ ∗ (T )) = θ(1 − θ)/n y Varθ(δ(X)) = θ(1 − θ) .<br />

3.10 Familias exponenciales<br />

Definición: Se dice que una familia <strong>de</strong> distribuciones continuas o discretas<br />

en IR q , F (x, θ), don<strong>de</strong> x = (x1,...,xq) yθ ∈ Θ ⊂ IR p es una familia<br />

exponencial a k parámetros si la correspondiente función <strong>de</strong> <strong>de</strong>nsidad discreta<br />

o continua se pue<strong>de</strong> escribir como<br />

p(x, θ) =A(θ)e Σk i=1 ci(θ)ri(x) h(x) (3.18)<br />

don<strong>de</strong> c1(θ),...,ck(θ) son funciones <strong>de</strong> Θ en IR, A(θ) es una función <strong>de</strong> Θ<br />

en IR + (reales no negativos), r1(x),...,rk(x) son funciones <strong>de</strong> IR q en IR y<br />

h(x) es una función <strong>de</strong> IR q en IR + .<br />

Ejemplo 1: Sea la familia Bi(θ, n) con n fijo y θ en (0,1). Luego<br />

p(x, θ) =<br />

n<br />

x<br />

<br />

θx (1 − θ) n−x =(1−θ) n n <br />

θ n<br />

<br />

1−θ x<br />

=(1−θ) nex ln(θ/(1−θ)) n<br />

<br />

x<br />

x =0, 1,...,n<br />

Luego esta familia es exponencial a un parámetro con A(θ) = (1 − θ) n ;<br />

r(x) =x; c(θ) =ln(θ/(1 − θ)) y h(x) =<br />

n<br />

x<br />

Ejemplo 2: Sea la familia N(µ, σ 2 ) con µ ∈ IR y σ 2 real positivo. Luego,<br />

su <strong>de</strong>nsidad viene dada por<br />

p(x, µ, σ 2 ) =<br />

1<br />

√ 2πσ 2<br />

<br />

.<br />

1<br />

e− 2 σ2 (x−µ)2


28 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

=<br />

=<br />

1<br />

1<br />

√ e−<br />

2πσ2 µ2<br />

e− 2σ2 2πσ 2 ) e<br />

2 σ2 x2 +( µ µ2<br />

σ2 )x−<br />

2σ2 1<br />

(−<br />

2 σ2 )x2 + µ<br />

σ2 x<br />

(3.19)<br />

Luego esta es una familia exponencial a dos parámetros con A(µ, σ2 ) =<br />

e−µ2 /2σ2 / √ 2πσ2 ; c1(µ, σ2 ) = (−1/2 σ2 ); c2(µ, σ2 ) = µ/σ2 ; r1(x) = x2 ;<br />

r2(x) =x; h(x) =1.<br />

Ejemplo 3: Sea la familia P (λ). Se pue<strong>de</strong> mostrar que es exponencial a un<br />

parámetro. Ver problema 2.i) <strong>de</strong> 3.10.<br />

Ejemplo 4: Sea la familia ε(λ). Se pue<strong>de</strong> mostrar que es exponencial a un<br />

parámetro. Ver problema 2.ii) <strong>de</strong> 3.10.<br />

Ejemplo 5: Sea la familia <strong>de</strong> distribuciones normales bivariadas<br />

N(µ1,µ2,σ2 1 ,σ2 2 ,ρ).<br />

<strong>de</strong> 3.10.<br />

Es exponencial a 5 parámetros. Ver problema 2.iii)<br />

Teorema 1: Una familia exponencial a k parámetros cuya función <strong>de</strong> <strong>de</strong>nsidad<br />

viene dada por (3.18) tiene como estadístico suficiente para θ el vector<br />

T = r(X) =(r1(X),...,rk(X)).<br />

Demostración. Inmediata a partir <strong>de</strong>l Teorema 1 <strong>de</strong> 3.9.<br />

El siguiente teorema establece la propiedad más importante <strong>de</strong> las familias<br />

exponenciales.<br />

Teorema 2: Sea X1, X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

que pertenece a una familia exponencial a k parámetros, cuya función <strong>de</strong> <strong>de</strong>nsidad<br />

viene dada por (3.18). Luego la distribución conjunta <strong>de</strong> X1,...,Xn<br />

también pertenece a una familia exponencial a k parámetros y el estadístico<br />

suficiente para θ es el vector<br />

T ∗ =(T ∗ 1 ,...,T ∗ k ), don<strong>de</strong> T ∗<br />

n<br />

i = ri(Xj), 1 ≤ i ≤ k<br />

j=1<br />

Demostración: Es inmediata, ya que por (3.18) se tiene<br />

p(x1, x2,...,xn, θ) = n j=1 p(xi, θ)<br />

=(A(θ)) n e c1(θ)Σ n i=1 r1(xj)+···+ck(θ)Σ n i=1 rk(xj) n j=1 h(xj)<br />

= A ∗ (θ)e c1(θ)r ∗ 1 (x1,...,xn)+···+ck(θ)r ∗ k (x1,...,xn) h ∗ (x1,...,xn)


3.10. FAMILIAS EXPONENCIALES 29<br />

don<strong>de</strong> A ∗ (θ) = A(θ) n ; r ∗ i (x1,...,xn) = n j=1 ri(xj), h ∗ (x1,...,xn) =<br />

ni=1 h(xj), y por lo tanto el Teorema 2 queda <strong>de</strong>mostrado.<br />

Este último Teorema nos afirma que para familias exponenciales <strong>de</strong> k<br />

parámetros, cualquiera sea el tamaño <strong>de</strong> la muestra, siempre existe un estadístico<br />

suficiente <strong>de</strong> sólo k componentes. Es <strong>de</strong>cir, que toda la información<br />

se pue<strong>de</strong> resumir en k variables aleatorias. Se pue<strong>de</strong> mostrar que<br />

esta propiedad bajo condiciones generales caracteriza a las familias exponenciales.<br />

Para esta caracterización se pue<strong>de</strong> consultar Sección 2.5 <strong>de</strong> Zacks<br />

[7] y Dynkin [3].<br />

Ejemplo 3: Volvamos al ejemplo 1. Supongamos que tomamos una muestra<br />

aleatoria X1,X2,...,Xn <strong>de</strong> una distribución Bi(θ, n) con n fijo. Luego la<br />

distribución conjunta <strong>de</strong> la muestra pertenecerá a una familia exponencial a<br />

un parámetro con estadístico suficiente T = n i=1 Xi.<br />

Ejemplo 4: Sea X1,...,Xn una muestra <strong>de</strong> una distribución perteneciente<br />

a la familia N(µ, σ2 ). Luego, <strong>de</strong> acuerdo a lo visto en el ejemplo 2 y<br />

al teorema 2, la distribución conjunta <strong>de</strong> X1,X2,...,Xn pertenece a<br />

una familia exponencial a dos parámetros y con estadístico suficiente<br />

ni=1<br />

T = X2 i , <br />

n<br />

i=1 Xi .<br />

El siguiente teorema establece que las familias <strong>de</strong> distribuciones <strong>de</strong> los<br />

estadísticos suficientes <strong>de</strong> una familia exponencial a k parámetros también<br />

forma una familia exponencial a k parámetros.<br />

Teorema 3: Sea X un vector cuya distribución pertenece a una familia<br />

exponencial a k parámetros cuya función <strong>de</strong> <strong>de</strong>nsidad satisface (3.18). Luego<br />

la función <strong>de</strong> <strong>de</strong>nsidad <strong>de</strong> los estadísticos suficientes T =(r1(X),...,rk(X))<br />

es <strong>de</strong> la forma<br />

pT(t1,t2,...,tk, θ) =A(θ)e c1(θ)t1+···+ck(θ)tk h ∗ (t1,...,tk)<br />

Por lo tanto la familia <strong>de</strong> distribuciones <strong>de</strong> T también forma una familia<br />

exponencial a k parámetros.<br />

Demostración: Sólo se hará para el caso discreto. Para el caso general se<br />

pue<strong>de</strong> consultar Lema 8 <strong>de</strong> 2.7 en Lehmann [4]. En el caso particular elegido<br />

se tiene:<br />

k p(x, θ) =A(θ)e j=1 cj(θ)rj(x)<br />

h(x)


30 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

Luego si T = r(x) =(r1(X),...,rk(X)) y si t =(t1,...,tk), se tendrá<br />

pT(t, θ) = <br />

p(x, θ) =<br />

k A(θ)e j=1 cj(θ)rj(x)<br />

h(x)<br />

{x: r(x)=t}<br />

k j=1 cj(θ)tj<br />

= A(θ)e<br />

con h ∗ (t) = <br />

{x:r(x)=t} h(x).<br />

{x: r(x)=t}<br />

<br />

{x: r(x)=t}<br />

k h(x) =A(θ)e j=1 cj(θ)tj ∗<br />

h (t)<br />

El siguiente lema es <strong>de</strong> carácter técnico y nos será útil en lo que sigue.<br />

Lema 1: Sea X = (X1,...,Xq) un vector aleatorio cuya distribución<br />

pertenece a una familia exponencial a un parámetro discreta o continua con<br />

<strong>de</strong>nsidad dada por p(x, θ) =A(θ)ec(θ)r(x) h(x); con θ ∈ Θ, don<strong>de</strong> Θ es un<br />

abierto en IR y c(θ) infinitamente <strong>de</strong>rivable. Luego, si m(x) es un estadístico<br />

tal que <br />

... |m(x)|p(x,θ)dx1 ...dxq < ∞ ∀θ∈Θ o<br />

Σx1 ...Σxq|m(x)|p(x,θ) < ∞<br />

según sea X continua o discreta, entonces las expresiones<br />

<br />

...<br />

m(x)e c(θ)r(x) h(x)dx1 ...dxq o Σx1 ...Σxqm(x)e c(θ)r(x) h(x)<br />

según corresponda, son infinitamente <strong>de</strong>rivables y se pue<strong>de</strong> <strong>de</strong>rivar <strong>de</strong>ntro<br />

<strong>de</strong> los signos integral o sumatoria, respectivamente.<br />

Demostración: No se dará en este curso, pue<strong>de</strong> consultarse en el Teorema<br />

9 <strong>de</strong> 2.7 <strong>de</strong> Lehmann [4].<br />

Teorema 4: Sea X =(X1,...,Xq) un vector aleatorio cuya distribución<br />

pertenece a una familia exponencial a un parámetro con <strong>de</strong>nsidad dada por<br />

p(x,θ)=A(θ)e c(θ)r(x) h(x) con θ ∈ Θ, don<strong>de</strong> Θ es un abierto en IR y c(θ) es<br />

infinitamente <strong>de</strong>rivable. Luego se tiene:<br />

(i) A(θ) es infinitamente <strong>de</strong>rivable.<br />

(ii)<br />

Eθ(r(X)) = − A′ (θ)<br />

A(θ)c ′ (θ)


3.10. FAMILIAS EXPONENCIALES 31<br />

(iii)<br />

Varθ(r(x)) =<br />

∂Eθ(r(x))<br />

∂θ<br />

c ′ (θ)<br />

Demostración: Supongamos que X sea continuo. El caso discreto es<br />

totalmente similar. Como<br />

<br />

... A(θ)e c(θ)r(x) h(x)dx1 ...dxq =1<br />

se tiene<br />

1<br />

A(θ) =<br />

<br />

<br />

...<br />

e c(θ)r(x) h(x)dx1 ...dxq<br />

Como el segundo miembro <strong>de</strong> esta igualdad satisface las condiciones <strong>de</strong>l<br />

Lema 1 con m(x) = 1, resulta infinitamente <strong>de</strong>rivable y luego también A(θ),<br />

con lo cual queda <strong>de</strong>mostrado (i).<br />

Por otro lado se tiene<br />

<br />

A(θ)<br />

<br />

...<br />

e c(θ)r(x) h(x)dx1 ...dxq =1 ∀ θ ∈ Θ<br />

y usando el Lema 1 que nos permite <strong>de</strong>rivar <strong>de</strong>ntro <strong>de</strong>l signo integral resulta<br />

A ′ <br />

(θ)<br />

A(θ)c ′ (θ)<br />

y esta última ecuación se pue<strong>de</strong> escribir<br />

y luego<br />

<br />

... e c(θ)r(x) h(x)dx1 ...dxq +<br />

<br />

... r(x)e c(θ)r(x) dx1 ...dxq =0<br />

A ′ (θ)<br />

A(θ) + c′ (θ)Eθ(r(x)) = 0<br />

Eθ(r(x)) = − A′ (θ)<br />

c ′ (θ)A(θ)<br />

y se ha <strong>de</strong>mostrado (ii).<br />

(iii) se <strong>de</strong>ja para resolver en el Problema 3 <strong>de</strong> 3.10.


32 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

3.11 Estadísticos completos<br />

Sea X un vector aleatorio cuya distribución pertenece a la familia F (x, θ)<br />

con θ ∈ Θ. Hasta ahora hemos visto que tomando estimadores insesgados<br />

<strong>de</strong> una función q(θ) basados en estadísticos suficientes se logra mejorar la<br />

estimación. Lo que no conocemos es si pue<strong>de</strong> haber más <strong>de</strong> un estimador<br />

insesgado, basado en un estadístico suficiente T dado. Veremos que bajo<br />

ciertas condiciones hay uno solo.<br />

Definición 1: Sea X un vector aleatorio cuya distribución pertenece a una<br />

familia F (x, θ) con θ ∈ Θ. Un estadístico T = r(X) se dice completo si<br />

Eθ(g(T)) = 0 para todo θ implica que P θ (g(T) = 0) = 1 para todo θ ∈ Θ<br />

Ejemplo 1: Sea X una variable aleatoria con distribución Bi(θ, k) con k<br />

fijo y 0 ≤ θ ≤ 1. Sea g tal que Eθ(g(X)) = 0, para todo θ. Mostraremos que<br />

g(x) =0,x =0, 1,...,k. Tenemos<br />

Eθ(g(X)) =<br />

k<br />

x=0<br />

<br />

k<br />

g(x)<br />

x<br />

<br />

θ x (1 − θ) k−x =0 ∀ θ ∈ [0, 1] (3.20)<br />

Sea λ = θ/(1 − θ); luego cuando θ ∈ [0, 1], λ toma los valores en IR + (reales<br />

no negativos).<br />

Poniendo (3.20) en función <strong>de</strong> λ resulta<br />

Luego<br />

(1 − θ) k<br />

Q(λ) =<br />

k<br />

x=0<br />

k<br />

x=0<br />

<br />

k<br />

g(x)<br />

x<br />

<br />

k<br />

g(x)<br />

x<br />

<br />

λ x =0 ∀ λ ∈ IR +<br />

<br />

λ x =0 ∀ λ ∈ IR +<br />

Pero Q(λ) es un polinomio <strong>de</strong> grado k con infinitas raíces, luego todos sus<br />

coeficientes <strong>de</strong>ben ser 0. Por lo tanto,<br />

<br />

k<br />

<br />

g(x) =0 x =0, 1,...,k ,<br />

x<br />

y entonces<br />

g(x) =0 x =0, 1,...,k .<br />

Con lo que queda probado que T (X) =X es un estadístico completo.


3.11. ESTADÍSTICOS COMPLETOS 33<br />

Ejemplo 2: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

que pertenece a la familia Bi(θ, k). Sea T = r(X1,...,Xn) =X1 + X2 +<br />

···+ Xn. Luego T es un estadístico suficiente y tiene distribución Bi(θ, nk),<br />

por lo tanto <strong>de</strong> acuerdo a lo visto en el ejemplo 1 es completo.<br />

Ejemplo 3: Consi<strong>de</strong>remos una variable X con distribución U[0,θ], θ ∈ IR + .<br />

Sea T = X. Luego se pue<strong>de</strong> <strong>de</strong>mostrar que T es un estadístico completo. La<br />

<strong>de</strong>mostración <strong>de</strong> este hecho está fuera <strong>de</strong> los alcances <strong>de</strong> este curso. De todos<br />

modos, veremos una proposición más débil relacionada con completitud. Sea<br />

g <strong>de</strong> IR + en IR una función continua. Luego veremos que si Eθ(g(X)) = 0<br />

para todo θ en IR + , entonces g(x) =0<br />

Eθ(g(X)) = 1<br />

θ<br />

g(x)dx =0, ∀ θ ≥ 0,<br />

θ) 0<br />

luego<br />

θ<br />

g(x)dx =0, ∀ θ ∈ IR +<br />

Sea G(θ) = θ<br />

0 g(x)dx, entonces se tiene<br />

G(θ) =0 ∀ θ ∈ IR +<br />

0<br />

Usando el Teorema Fundamental <strong>de</strong>l Cálculo Integral se tiene que<br />

∂G(θ)<br />

∂θ<br />

= g(θ) =0 ∀ θ ∈ IR +<br />

Lo que faltaría ver es que en el caso en que g no es continua, Eθ(g(X)) =<br />

0 ∀ θ ∈ IR + implica g(x) = 0 con probabilidad 1.<br />

El siguiente teorema muestra que bajo condiciones muy generales el estadístico<br />

suficiente correspondiente a una familia exponencial es completo.<br />

Teorema 1: Sea una familia exponencial a k parámetros, discreta o continua<br />

con función <strong>de</strong> <strong>de</strong>nsidad dada por<br />

p(x, θ) =A(θ)e c1(θ)r1(x)+...+ck(θ)rk(x) h(x)<br />

y sea Λ={λ =(λ1,λ2,...,λk) :λi = ci(θ); θ ∈ Θ}.<br />

a) Si Λ contiene k + 1 puntos λ (1) ,...,λ (k+1)<br />

tales que<br />

{λ (j) − λ (1) , 2 ≤ j ≤ k +1} son linealmente in<strong>de</strong>pendientes, entonces<br />

el estadístico suficiente T =(r1(X),...,rk(X)) es minimal suficiente.


34 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

b) Si Λ un conjunto que contiene una esfera en IR k , entonces estadístico<br />

suficiente T =(r1(X),...,rk(X)) es completo.<br />

Demostración: a) Como T es suficiente para<br />

F = {p(x, θ) =A(θ)ec1(θ)r1(x)+...+ck(θ)rk(x) h(x) θ ∈ Θ}, <strong>de</strong> acuerdo al<br />

Teorema 2 <strong>de</strong> la sección 3.8 bastará probar que T es minimal suficiente para<br />

una subfamilia finita <strong>de</strong> F. Sean θ (j) , 1 ≤ j ≤ k + 1, tales que<br />

λ (j) =(λ (j)<br />

1 ,...,λ(j) k )=<br />

<br />

c1(θ (j) ),...,ck(θ (j) <br />

) .<br />

Consi<strong>de</strong>remos la subfamilia<br />

F0 = {p(x, θ (j) ) = A(θ (j) k )e i=1 ci(θ (j) )ri(x)<br />

h(x)<br />

= A(θ (j) k )e<br />

i=1 λ(j)<br />

i ri(x) h(x) 1≤ j ≤ k +1} .<br />

Luego, por el Teorema 1 <strong>de</strong> la sección 3.8 un estadístico minimal suficiente<br />

para F0 está dado por<br />

T ∗ = r ∗ (x) =<br />

=<br />

⎛<br />

⎝ A(θ(2) )eλ(2) 1<br />

A(θ (1) )eλ(1) 1<br />

que es equivalente a<br />

<br />

(2)<br />

p(x, θ )<br />

p(x, θ (1) ) ,...,p(x, θ(k+1) )<br />

p(x, θ (1) <br />

)<br />

r1(x)+...+λ (2)<br />

k rk(x)<br />

r1(x)+...+λ (1)<br />

k rk(x) ,...,A(θ(k+1) )eλ(k+1) 1<br />

A(θ (1) )eλ(1) 1<br />

T ∗∗ = r (∗∗) <br />

k<br />

(x) = [λ<br />

i=1<br />

(2)<br />

k<br />

i − λ(1) i ]ri(x),..., [λ<br />

i=1<br />

(k+1)<br />

i<br />

r1(x)+...+λ (k+1)<br />

rk(x)<br />

k<br />

(1)<br />

r1(x)+...+λ k rk(x)<br />

⎞<br />

⎠<br />

− λ (1)<br />

<br />

i ]ri(x)<br />

Como T ∗∗ = MT don<strong>de</strong> la matriz M ∈ IR k×k es no singular, ya que su<br />

j−ésima columna es el vector λ (j+1) − λ (1) , T es equivalente a T ∗∗ y por lo<br />

tanto, es minimal suficiente para F0, <strong>de</strong> don<strong>de</strong> se obtiene el resultado.<br />

b) Para una <strong>de</strong>mostración general se pue<strong>de</strong> ver Teorema 1 <strong>de</strong> Sección 4.3 <strong>de</strong><br />

Lehmann [4]. En este curso sólo se <strong>de</strong>mostrará para el caso que k =1,y<br />

que T = r(X) toma un número finito <strong>de</strong> valores racionales. De acuerdo al<br />

teorema 3, en este caso la función <strong>de</strong> <strong>de</strong>nsidad <strong>de</strong> T será <strong>de</strong> la forma:<br />

p(t, θ) =A(θ)e c(θ)t h(t)<br />

.


3.11. ESTADÍSTICOS COMPLETOS 35<br />

Supongamos que los posibles valores <strong>de</strong> T que tienen probabilidad positiva<br />

es el conjunto A = {t1,t2,...,tr}∪{−t ′ 1 , −t′ 2 ,...,−t′ s} don<strong>de</strong> los ti y los t ′ j<br />

son racionales no negativos.<br />

Sea v un múltiplo común <strong>de</strong> los <strong>de</strong>nominadores <strong>de</strong> todos los racionales ti<br />

y t ′ j y sean wi = vti 1 ≤ i ≤ r y w ′ i = vt′ i ,1≤ i ≤ s. Luego los wi y los w ′ i<br />

son naturales. Finalmente sea w = max1≤i≤s w ′ i , zi = wi + w, 1 ≤ i ≤ r<br />

y z ′ i = −w′ i + w, 1≤ i ≤ s. Luego los zi y los z ′ i<br />

diferentes.<br />

Supongamos que<br />

E θ (g(T )) = 0 ∀ θ ∈ Θ<br />

son naturales y todos<br />

luego<br />

r<br />

s<br />

g(ti)p(ti, θ)+ g(−t<br />

i=1<br />

i=1<br />

′ i)p(−t ′ i, θ) =0 ∀ θ ∈ Θ<br />

con lo cual<br />

r<br />

g(ti)A(θ)e c(θ)ti<br />

s<br />

h(ti)+ g(−t ′ i)A(θ)e −c(θ)t′ ih(−t ′ i)=0 ∀ θ ∈ Θ ,<br />

i=1<br />

<strong>de</strong> don<strong>de</strong> se obtiene<br />

i=1<br />

r<br />

g(ti)h(ti)(e<br />

i=1<br />

c(θ)/v) ) tiv<br />

s<br />

+ g(−t<br />

i=1<br />

′ i)h(−t ′ i)(e c(θ)/v) ) −t′ iv =0 ∀ θ ∈ Θ .<br />

Llamando λ = ec(θ)/v resulta que como hay infinitos posibles valores<br />

<strong>de</strong> c(θ), el conjunto Λ <strong>de</strong> posibles valores <strong>de</strong> λ, también es infinito. Luego<br />

tenemos<br />

r<br />

g(ti)h(ti)λ wi<br />

s<br />

+ g(−t ′ i)h(−t ′ i)λ −w′ i =0 ∀ λ ∈ Λ<br />

i=1<br />

i=1<br />

Multiplicando por λw la última ecuación resulta<br />

r<br />

P (λ) = g(ti)h(ti)λ zi<br />

s<br />

+ g(t ′ i)h(−t ′ i)λ z′ i =0 ∀ λ ∈ Λ<br />

i=1<br />

i=1<br />

Luego el polinomio P (λ) tiene infinitas raíces y por lo tanto, todos los coe-<br />

ficientes <strong>de</strong>ben ser 0, es <strong>de</strong>cir, g(ti)h(ti) =0, 1 ≤ i ≤ r y g(−t ′ i )h(−t′ i )=<br />

0, 1 ≤ i ≤ s. Como h(ti) > 0, 1 ≤ i ≤ r y h(−t ′ i ) > 0, 1 ≤ i ≤ s,


36 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

resulta que g(ti) =0 1≤ i ≤ r y g(−t ′ i )=0 1≤ i ≤ s. Con lo cual,<br />

Pθ (g(T ) = 0) = 1 para todo θ ∈ Θ.<br />

Ejemplo 4: Sea X1 una variable N(µ, σ2 1 )yX2 in<strong>de</strong>pendiente <strong>de</strong> X1 una<br />

variable N(µ, σ2 2 ), luego si θ = (µ, σ2 1 ,σ2 2 ) la <strong>de</strong>nsidad <strong>de</strong> X = (X1,X2)<br />

pue<strong>de</strong> escribirse como<br />

1<br />

p(x1,x2, θ) =<br />

2 πσ1σ2<br />

e −µ2 ( 1<br />

2 σ2 −<br />

1<br />

1<br />

2σ2 1<br />

) (−<br />

2 σ<br />

2 e 2 )x<br />

1<br />

2 1<br />

1 +(−<br />

2 σ2 )x<br />

2<br />

2 µ<br />

2 +(<br />

σ2 )x1+(<br />

1<br />

µ<br />

σ2 )x2<br />

2<br />

Por lo tanto es una familia exponencial a 4 parámetros, pero no satisface<br />

la condición <strong>de</strong>l Teorema 1 ya que el conjunto<br />

Λ={λ =(λ1,λ2,λ3,λ4) con λ1 = − 1<br />

2 σ 2 1<br />

,λ2 = − 1<br />

2 σ 2 2<br />

λ3 = µ<br />

σ 2 1<br />

λ4 = µ<br />

σ2 } ,<br />

2<br />

está en una superficie <strong>de</strong> dimensión 3, ya que <strong>de</strong>pen<strong>de</strong> <strong>de</strong> 3 parámetros,<br />

σ 2 1 , σ2 2 y µ, y por lo tanto no contiene ninguna esfera <strong>de</strong> IR 4 . Como el<br />

Teorema 1 <strong>de</strong> la sección 3.11 da un condición suficiente pero no necesaria<br />

para completitud, no se <strong>de</strong>duce que T =(X1,X2,X2 1 ,X2 2 ) no sea completo.<br />

Sin embargo, dado que E µ,σ 2 1 ,σ 2 2 (X1 − X2) =µ − µ =0yX1 − X2 no es igual<br />

a 0 resulta que T no es completo.<br />

El Teorema 1 nos permite, sin embargo, <strong>de</strong>ducir que T es minimal suficiente.<br />

Por lo tanto, hemos visto un estadístico minimal suficiente no necesariamente<br />

es completo. El siguiente resultado establece la recíproca.<br />

Teorema 2: Sea T un estadístico suficiente y completo para θ. Si existe<br />

un estadístico minimal suficiente para θ entonces T es minimal suficiente.<br />

Demostración. La haremos sólo en el caso en que el estadístico minimal<br />

suficiente y el estadístico suficiente y completo T tienen dimensión 1. Sea U<br />

el estadístico minimal suficiente para θ, luego por ser T suficiente se cumple<br />

que U = m(T ). Queremos ver que m es biunívoca.<br />

Sea ψ(t) la función arcotangente. Luego ψ : IR → [0, 2π] es una función<br />

estrictamente creciente y acotada. Por lo tanto, E θ (ψ(T )) < ∞ y bastará<br />

mostrar que ψ(T ) es función <strong>de</strong> U.<br />

Definamos η(U) =E (ψ(T )|U). Como U es suficiente η(U) es un estadístico.<br />

Luego, si<br />

g(T )=ψ(T ) − η [m(T )] = ψ(T ) − η(U)


3.12. ESTIMADORES INSESGADOS DE MINIMA VARIANZA... 37<br />

se cumple que E θ [g(T )] = 0 para todo θ ∈ Θ. Por lo tanto,<br />

P θ (ψ(T )=η(U)) = 1 para todo θ ∈ Θ, y entonces T es equivalente a<br />

U.<br />

El siguiente Teorema es útil en muchas situaciones, don<strong>de</strong> probar in<strong>de</strong>pen<strong>de</strong>ncia<br />

entre estadísticos pue<strong>de</strong> resultar laborioso.<br />

Teorema 3: (Teorema <strong>de</strong> Basu) Sea T un estadístico suficiente y completo<br />

para θ. Sea U = g(X) un estadístico cuya distribución no <strong>de</strong>pen<strong>de</strong> <strong>de</strong> θ<br />

entonces U es in<strong>de</strong>pendiente <strong>de</strong> T.<br />

Demostración. Sea A un suceso, como U tiene distribución in<strong>de</strong>pendiente<br />

<strong>de</strong> θ, pA = P (U ∈ A) no <strong>de</strong>pen<strong>de</strong> <strong>de</strong> θ.<br />

Sea ηA(t) =P (U ∈ A|T = t). Como T es suficiente ηA(T) es un estadístico.<br />

Por otra parte, E θ (ηA(T) − pA) = 0 para todo θ ∈ Θ, con lo cual la completitud<br />

<strong>de</strong> T implica que P θ (ηA(T) =pA) = 1 para todo θ ∈ Θyporlo<br />

tanto, U es in<strong>de</strong>pendiente <strong>de</strong> T.<br />

3.12 Estimadores insesgados <strong>de</strong> mínima varianza<br />

uniformemente<br />

El siguiente teorema nos da un método para construir estimadores IMVU<br />

cuando se conoce un estadístico que es a la vez suficiente y completo.<br />

Teorema 1 (Lehmann-Scheffé): Sea X un vector aleatorio <strong>de</strong> cuya distribución<br />

pertenece a la familia F (x, θ) con θ ∈ Θ. Sea T un estadístico<br />

suficiente y completo. Luego dada una función q(θ) <strong>de</strong> Θ en IR, se tiene que<br />

(i) Existe a lo sumo un estimador insesgado <strong>de</strong> q(θ), basado en T.<br />

(ii) Si δ(T) es un estimador insesgado <strong>de</strong> q(θ), entonces δ(T) es IMVU.<br />

(iii) Si δ(X) es un estimador insesgado para q(θ), luego δ ∗ (T) =E(δ(X)|T)<br />

es un estimador IMVU para q(θ).<br />

Demostración:<br />

(i) Sean δ1(T) yδ2(T) dos estimadores insesgados <strong>de</strong> q(θ). Luego<br />

E θ (δ1(T) − δ2(T)) = q(θ) − q(θ) =0 ∀ θ ∈ Θ


38 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

luego como T es completo<br />

P θ (δ1(T) − δ2(T) =0)=1, ∀θ ∈ Θ<br />

(ii) Sea δ(T) un estimador insesgado <strong>de</strong> q(θ), y sea δ1(X) otro estimador<br />

insesgado. Si llamamos δ∗ 1 (T) =E(δ1(X)|T) sabemos por el Teorema<br />

1 <strong>de</strong> la sección 3.9 que δ∗ 1 (T) es insesgado y<br />

Var θ (δ ∗ 1) ≤ Var θ (δ1) ∀ θ ∈ Θ (3.21)<br />

Pero <strong>de</strong> acuerdo a (i) se tiene que δ∗ 1 (T) =δ(T) con probabilidad 1.<br />

Luego<br />

Varθ (δ ∗ 1 )=Varθ(δ)<br />

y luego <strong>de</strong> 3.21 resulta que<br />

y (ii) queda <strong>de</strong>mostrado.<br />

Var θ (δ) ≤ Var θ (δ1)<br />

(iii) Como δ ∗ (T) es por el Teorema 1 <strong>de</strong> la sección 3.9 insesgado, <strong>de</strong> (ii) se<br />

<strong>de</strong>duce que es un estimador IMVU para q(θ).<br />

De acuerdo al punto (ii) <strong>de</strong> este teorema, en el caso <strong>de</strong> tener un estadístico<br />

suficiente y completo T, cualquier estimador insesgado basado en T es un<br />

estimador IMVU. El punto (iii) nos indica cómo construir un estimador<br />

IMVU <strong>de</strong> q(θ) a partir <strong>de</strong> cualquier estimador insesgado.<br />

Teorema 2: Sea X un vector aleatorio cuya distribución pertenece a una<br />

familia exponencial a k parámetros con función <strong>de</strong> <strong>de</strong>nsidad dada por<br />

p(x, θ) =A(θ)e c1(θ)r1(x)+···+ck(θ)rk(x) h(x)<br />

don<strong>de</strong> θ toma valores en el conjunto Θ. Supongamos a<strong>de</strong>más que<br />

Λ={λ =(λ1,λ2,...,λk) :λi = ci(θ); θ ∈ Θ}<br />

contiene una esfera en IR k . Sea T =(r1(X),...,rk(X)), luego si δ(T) es<br />

un estimador insesgado <strong>de</strong> q(θ), entonces δ(T) es un estimador IMVU para<br />

q(θ).<br />

Demostración: Inmediata a partir <strong>de</strong> los Teoremas 3 <strong>de</strong> sección 3.10 y 1<br />

<strong>de</strong> sección 3.12.


3.12. ESTIMADORES INSESGADOS DE MINIMA VARIANZA... 39<br />

Ejemplo 1: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

perteneciente a la familia Bi(θ, k) con k fijo. Luego, la distribución conjunta<br />

<strong>de</strong> la muestra viene dada por<br />

<br />

k<br />

p(x1,x2,...,xn,θ) =<br />

x1<br />

k<br />

x2<br />

<br />

k<br />

...<br />

xn<br />

=(1− θ) nk e (Σn i=1 xi) ln(θ/(1−θ)) k<br />

<br />

θ Σn i=1 xi (1 − θ) nk−Σ n i=1 xi<br />

x1<br />

k<br />

x2<br />

<br />

k<br />

...<br />

xn<br />

Esta familia constituye una familia exponencial, con estadístico suficiente<br />

T = n i=1 Xi. Por otro lado c(θ) =lnθ/(1 − θ) toma todos los posibles<br />

valores <strong>de</strong> IR cuando θ varía en el intervalo (0,1). Luego T es un estadístico<br />

suficiente y completo. Como δ(T )=T/nk es un estimador insesgado <strong>de</strong> θ,<br />

resulta un estimador IMVU <strong>de</strong> θ.<br />

Ejemplo 2: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

perteneciente a la familia N(µ, σ 2 ). Luego usando (3.19) resulta que la<br />

distribución conjunta <strong>de</strong> la muestra viene dada por<br />

p(x1,...,xn,µ,σ 2 )=<br />

1<br />

2πσ2 nµ2<br />

e− 2σ<br />

) n/2 2 1<br />

−<br />

e 2σ2 n i=1 X2 µ<br />

i +<br />

σ2 n i=1 Xi<br />

Luego constituye una familia exponencial a dos parámetros con estadístico<br />

ni=1<br />

suficiente T = X2 i , <br />

n<br />

i=1 Xi . Mostraremos ahora que T es completo.<br />

Bastará mostrar que<br />

Λ={(λ1,λ2) :λ1 = − 1<br />

2 σ2 ,λ2 = µ<br />

σ2 ,λ∈ IR, σ 2 ∈ IR + }<br />

contiene una esfera.<br />

Mostraremos que Λ contiene todo (λ1,λ2) ∈ IR 2 con λ1 < 0.<br />

Sea (λ1,λ2) con λ1 < 0, tenemos que mostrar que viene <strong>de</strong> un par (µ, σ2 )<br />

con σ2 > 0. Para ver esto basta tomar σ2 = −1/2 λ1 y µ = λ2σ2 = −λ2/2λ1.<br />

Luego T es completo.<br />

Como X es un estimador insesgado <strong>de</strong> µ, y como <strong>de</strong>pen<strong>de</strong> <strong>de</strong> T, resulta<br />

que es IMVU <strong>de</strong> µ.<br />

Por otro lado s2 = n i=1 (Xi − X) 2 ni=1<br />

/(n − 1) = X2 i − nX2 )/(n − 1)<br />

es un estimador insesgado <strong>de</strong> σ2 y a<strong>de</strong>más <strong>de</strong>pen<strong>de</strong> <strong>de</strong> T, luego es IMVU<br />

para σ2 .<br />

Ejemplo 3: Sea X1 una variable N(µ, σ2 1 )yX2 in<strong>de</strong>pendiente <strong>de</strong> X1 una variable<br />

N(µ, σ2 2 ). Vimos en el Ejemplo 4 <strong>de</strong> la sección 3.11 que


40 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

T =(X1,X2,X2 1 ,X2 2 ) era minimal suficiente pero no era completo. Se pue<strong>de</strong><br />

mostrar que en este caso no hay ningún estimador IMVU (ver Problema 7<br />

<strong>de</strong> 3.11).<br />

Ejemplo 4: El siguiente ejemplo muestra que no siempre existen estimadores<br />

IMVU. Volvamos al ejemplo 1 y supongamos que se quiera estimar<br />

q(θ). Como T = n i=1 Xi es un estadístico suficiente, un estimador IMVU<br />

<strong>de</strong> q(θ) <strong>de</strong>berá estar basado en T . Supongamos que δ(T ) es un estimador<br />

IMVU para q(θ). Como T tiene distribución Bi(θ, kn) yδ(T ) es insesgado<br />

se tendrá<br />

q(θ) =Eθ(δ(T )) =<br />

kn<br />

i=0<br />

<br />

kn<br />

δ(t)<br />

t<br />

<br />

θ r (1 − θ) kn−t<br />

Luego una condición necesaria para que q(θ) tenga un estimador IMVU<br />

es que sea un polinomio <strong>de</strong> grado menor o igual a kn. Se pue<strong>de</strong> mostrar que<br />

es también una condición suficiente aunque no lo <strong>de</strong>mostraremos.<br />

Por lo tanto no existen estimadores IMVU, por ejemplo, para e θ ,lnθ,<br />

sen θ. Esto no quiere <strong>de</strong>cir que no existen buenos estimadores. Si q(θ)<br />

es continua, un buen estimador será δ(T )=q(T/nk) ya que T/nk es un<br />

estimador IMVU <strong>de</strong> θ.<br />

Ejemplo 5: En este ejemplo veremos que un estimador IMVU pue<strong>de</strong> ser<br />

mejorado en su error cuadrático medio por otro estimador no insesgado.<br />

Volvamos al ejemplo 2 y supongamos que se <strong>de</strong>sea estimar σ2 . Hemos visto<br />

que un estimador IMVU para σ2 es s2 = n i=1 (Xi−X) 2 /(n−1), sin embargo<br />

veremos que s2 no es admisible.<br />

Sea σ 2 c = cU don<strong>de</strong> U = n i=1 (Xi − X) 2 . Luego, s2 = σ 2 1 . Sabemos<br />

n−1<br />

que U/σ2 tiene distribución χ2 n−1 , por lo tanto, Eσ2(U) = (n− 1) σ2 y<br />

Var σ2(U) =2(n− 1) σ4 . Con lo cual,<br />

ECMσ2(σ 2 c ) =<br />

<br />

Eσ2 (σ 2 c − σ 2 ) 2<br />

= Varσ2(σ 2 <br />

c )+ Eσ2(σ 2 c ) − σ 2 =<br />

2<br />

c 2 <br />

Var σ2(U)+ cEσ2(U) − σ 22 = 2c 2 (n − 1) σ 4 <br />

+ c (n − 1) σ 2 − σ 2 2<br />

=<br />

<br />

4<br />

σ c 2 <br />

(n + 1)(n − 1) − 2(n − 1)c +1


3.13. DESIGUALDAD DE RAO–CRAMER 41<br />

Luego, el ECM <strong>de</strong> σ 2 c es un polinomio <strong>de</strong> grado 2 en c que alcanza su mínimo<br />

cuando c =1/(n + 1). Por lo tanto, U/(n + 1) tiene menor ECM que el<br />

estimador IMVU s2 .<br />

Cómo caraterizamos los estimadores IMVU cuando no existe un estadístico<br />

suficiente y completo?<br />

Lema 1: Sea δ0 un estimador insesgado <strong>de</strong> q(θ). Dado cualquier otro<br />

estimador δ insesgado <strong>de</strong> q(θ), se cumple que δ = δ0 − U con Eθ(U) =0<br />

∀θ ∈ Θ.<br />

Luego como ECMθ(δ) =Varθ(δ) =Varθ(δ0 − U) =Eθ{(δ0 − U) 2 }−<br />

q(θ) 2 , para encontrar el estimador IMVU basta minimizar Eθ{(δ0 − U) 2 },o<br />

sea, basta encontrar la proyección <strong>de</strong> δ0 sobre el espacio <strong>de</strong> los estimadores<br />

<strong>de</strong>l 0.<br />

Teorema 3: Supongamos que X es un vector aleatorio <strong>de</strong> cuya distribución<br />

pertenece a la familia F (x, θ) con θ ∈ Θ. Sea ∆={δ(X) : Eθδ 2 (X) < ∞}.<br />

Sea U = {{δ(X) ∈ ∆: Eθδ(X)} =0∀θ ∈ Θ. Una condición necesaria y<br />

suficiente para que δ ∈ ∆, insesgado, sea IMVU para q(θ) es que Eθ(δU) =0,<br />

∀θ ∈ Θ, ∀U ∈U.<br />

3.13 Desigualdad <strong>de</strong> Rao–Cramer<br />

En esta sección mostraremos que bajo hipótesis muy generales, la varianza<br />

<strong>de</strong> un estimador insesgado no pue<strong>de</strong> ser inferior a cierta cota.<br />

Supongamos que X =(X1,...,Xn) es un vector aleatorio <strong>de</strong> cuya distribución<br />

pertenece a la familia <strong>de</strong> distribuciones discreta o continua con<br />

<strong>de</strong>nsidad p(x,θ), con θ ∈ Θ; don<strong>de</strong> Θ es un conjunto abierto <strong>de</strong> IR. Supongamos<br />

a<strong>de</strong>más que se cumplen las siguientes condiciones (en lo que sigue<br />

suponemos que X es continuo, para el caso discreto habrá que reemplazar<br />

todos los signos por ):<br />

(A) El conjunto S = {x : p(x,θ) > 0} es in<strong>de</strong>pendiente <strong>de</strong> θ.<br />

(B) Para todo x, p(x,θ) es <strong>de</strong>rivable respecto <strong>de</strong> θ.<br />

(C) Si h(X) es un estadístico tal que Eθ[|h(X)|] < ∞ para todo θ ∈ Θ<br />

entonces se tiene<br />

<br />

∂ ∞ ∞<br />

...<br />

h(x)<br />

∂θ<br />

∂p(x,θ)<br />

dx<br />

∂θ<br />

−∞<br />

−∞<br />

∞<br />

h(x)p(x,θ)dx =<br />

∞<br />

...<br />

−∞ −∞


42 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

(D)<br />

don<strong>de</strong> dx =(dx1,...,dxn) (o sea se pue<strong>de</strong> <strong>de</strong>rivar <strong>de</strong>ntro <strong>de</strong>l signo<br />

integral)<br />

0


3.13. DESIGUALDAD DE RAO–CRAMER 43<br />

Esta última ecuación es equivalente a<br />

∞ ∞ <br />

∂ ln p(x,θ)<br />

...<br />

IS(x)p(x,θ)dx =0<br />

∞ ∞ ∂θ<br />

la cual implica<br />

<br />

∂ ln p(X,θ)<br />

Eθψ(X,θ)=Eθ<br />

= 0 (3.23)<br />

∂θ<br />

Como I(θ) =Eθψ2 (X,θ), (3.23) implica que Varθψ(X,θ)=I(θ)<br />

(ii) De la igualdad<br />

se obtiene que<br />

∂ 2 ln p(x,θ)<br />

∂θ 2<br />

=<br />

∂ 2 p(x,θ)<br />

∂θ 2<br />

p(x,θ) − ψ2 (x,θ)<br />

∂<br />

Eθ<br />

2 ln p(X,θ)<br />

∂θ2 ∞ ∞ ∂<br />

= ...<br />

−∞ −∞<br />

2p(x,θ) ∂θ2 dx − Eθψ 2 (X,θ) . (3.24)<br />

Utilizando (3.22) con h(x) =IS(x) se obtiene que el primer término <strong>de</strong>l lado<br />

<strong>de</strong>recho <strong>de</strong> (3.24) es igual a cero, <strong>de</strong> don<strong>de</strong> el resultado.<br />

Teorema 1 (Rao–Cramer): Bajo las condiciones A, B, C y D si δ(X) es un<br />

estimador insesgado <strong>de</strong> q(θ) tal que Eθδ 2 (X) < ∞ se tiene<br />

(i)<br />

Var θ(δ(X)) ≥ |q′ (θ)| 2<br />

I(θ)<br />

(ii) (i) vale como igualdad si y sólo si δ(X) es estadístico suficiente <strong>de</strong> una<br />

familia exponencial, es <strong>de</strong>cir si y sólo si<br />

p(x,θ)=A(θ)e c(θ)δ(x) h(x) (3.25)<br />

Demostración: (i) Sea ψ(x,θ)= ∂p(x,θ)<br />

∂θ . Por el Lema 1 tenemos que<br />

Eθψ(X,θ)=0 y Varθψ(X,θ)=I(θ). (3.26)<br />

Por otro lado, como δ(X) es insesgado se tiene<br />

∞<br />

Eθ(δ(X)) =<br />

−∞<br />

∞<br />

... δ(x)p(x,θ)IS(x)dx = q(θ)<br />

−∞


44 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

y luego aplicando la hipótesis C, tomando h(X) =δ(X)IS(X) se obtiene<br />

<strong>de</strong>rivando ambos miembros que<br />

∞ ∞<br />

... δ(x)<br />

−∞ −∞<br />

∂p(x,θ)<br />

IS(x)dx = q<br />

∂θ<br />

′ (θ)<br />

<strong>de</strong> don<strong>de</strong><br />

∞ ∞<br />

Eθ [δ(X)ψ(X,θ)] = ... δ(x)ψ(x,θ)p(x,θ)dx<br />

−∞ −∞<br />

∞ ∞ ∂ ln p(x,θ)<br />

= ... δ(x) IS(x)p(x,θ)dx<br />

−∞ −∞ ∂θ<br />

= q ′ (θ) (3.27)<br />

Teniendo en cuenta (3.26), (3.27) se pue<strong>de</strong> escribir como<br />

Cov (δ(X), ψ(X,θ)) = q ′ (θ) (3.28)<br />

De acuerdo a la <strong>de</strong>sigualdad <strong>de</strong> Cauchy–Schwartz,<br />

Cov(X, Y ) 2 ≤ Var(X), Var(Y ), y vale la igualdad si y sólo si<br />

P (Y = aX + b) = 1 para algunas constantes a y b. Por lo tanto, usando<br />

(3.28) resulta<br />

q ′ (θ) 2 ≤ Varθ(δ(X)) · Varθ (ψ(X,θ)) (3.29)<br />

y la igualdad vale si y sólo si<br />

∂ ln p(X,θ)<br />

= ψ(x,θ)=a(θ)δ(x)+b(θ) con probabilidad 1. (3.30)<br />

∂θ<br />

Usando (3.26) y (3.29) resulta<br />

Varθ(δ(X) ≥ q′ (θ) 2<br />

I(θ)<br />

que es lo que se afirma en (i).<br />

(3.31)<br />

(ii) (3.31) valdrá como igualdad si y sólo si cumple (3.30). Mostraremos que<br />

(3.30) se cumple si y sólo si se cumple (3.25).<br />

Integrando respecto <strong>de</strong> θ en (3.30), se obtiene<br />

<br />

<br />

ln p(x,θ)=δ(x) a(θ)dθ + g(x)+ b(θ)dθ<br />

que se pue<strong>de</strong> escribir como<br />

ln p(x,θ)=δ(x)c(θ)+g(x)+B(θ)


3.13. DESIGUALDAD DE RAO–CRAMER 45<br />

don<strong>de</strong> c(θ) = a(θ)dθ y B(θ) = b(θ)dθ. Luego, <strong>de</strong>spejando p(x,θ) resulta<br />

p(x,θ)=e B(θ) e δ(x)c(θ) e g(x)<br />

y llamando A(θ) =e B(θ) y h(x) =e g(x) ; resulta (3.25).<br />

Supongamos ahora que se cumple (3.25), mostraremos que se cumple<br />

(3.30).<br />

Si se cumple (3.25), tomando logaritmos se tiene<br />

ln p(x,θ)=lnA(θ)+c(θ)δ(x)+lnh(x)<br />

y <strong>de</strong>rivando se obtiene<br />

∂ ln p(x,θ)<br />

=<br />

∂θ<br />

A′ (θ)<br />

A(θ) + c′ (θ)δ(x)<br />

y por lo tanto se cumple (3.30). Esto prueba el punto (ii).<br />

Observación 1: Si δ(X) es un estimador insesgado <strong>de</strong> q(θ) yVarθ(δ(x)) =<br />

[q ′ (θ)] 2 /I(θ) para todo θ ∈ Θ. Entonces <strong>de</strong>l punto (i) <strong>de</strong>l Teorema 1 resulta<br />

que δ(X) es IMVU. Por lo tanto esto da otro criterio para verificar si un<br />

estimador insesgado dado es IMVU.<br />

Observación 2: Si p(x,θ)=A(θ)e c(θ)δ(x) h(x), y si δ(X) es un estimador<br />

insesgado <strong>de</strong> q(θ), entonces δ(X) es un estimador IMVU <strong>de</strong> q(θ). Esto resulta<br />

<strong>de</strong> (i) y (ii).<br />

Observación 3: Si δ(X) es un estimador <strong>de</strong> θ, su varianza <strong>de</strong>be ser mayor<br />

o igual que 1/I(θ). Luego se pue<strong>de</strong> esperar que cuanto mayor sea I(θ) (como<br />

1/I(θ) será menor) existe la posibilidad <strong>de</strong> encontrar estimadores con menor<br />

varianza y por lo tanto más precisos. De ahí el nombre <strong>de</strong> “número <strong>de</strong><br />

información” que se le da a I(θ). Es <strong>de</strong>cir cuanto mayor es I(θ), mejores<br />

estimadores <strong>de</strong> θ se pue<strong>de</strong>n encontrar, y por lo tanto se pue<strong>de</strong> <strong>de</strong>cir que más<br />

información da el vector X sobre θ. El hecho <strong>de</strong> que se pue<strong>de</strong>n encontrar<br />

estimadores con varianza aproximadamente igual a 1/I(θ) será cierto para n<br />

gran<strong>de</strong>. Para esto consultar sección 3.13 y el apéndice (B) <strong>de</strong> este capítulo.<br />

Para una generalización <strong>de</strong>l Teorema <strong>de</strong> Rao–Cramer el caso en que θ es un<br />

vector pue<strong>de</strong> consultarse el Teorema 4.3.1 <strong>de</strong> Zacks [7] y el Teorema 7.3 <strong>de</strong><br />

Lehmann [5].<br />

El siguiente teorema nos indica que una muestra aleatoria <strong>de</strong> tamaño<br />

n X1, X2,...,Xn <strong>de</strong> una familia con <strong>de</strong>nsidad p(X, θ) nos da n veces más<br />

información que una sola observación.


46 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

Teorema 2: Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución con<br />

<strong>de</strong>nsidad p(x,θ) con θ ∈ Θ ⊂ IR. Luego, si se <strong>de</strong>nomina In(θ) al número<br />

<strong>de</strong> información <strong>de</strong> X1, X2,...,Xn y I1(θ) al número <strong>de</strong> información <strong>de</strong> X1,<br />

entonces se tiene In(θ) =nI1(θ).<br />

Demostración: Se tiene que<br />

n<br />

p(x1, x2,...,xn,θ)= p(xi,θ)<br />

y entonces<br />

Por lo tanto,<br />

i=1<br />

n<br />

ln p(x1,...,xn,θ)= ln p(xi,θ) .<br />

i=1<br />

∂ ln p(x1,...,xn,θ)<br />

∂θ<br />

=<br />

n<br />

i=1<br />

∂ ln p(xi,θ)<br />

∂θ<br />

Con lo cual, por ser X1,...,Xn in<strong>de</strong>pendientes, se tiene<br />

n<br />

<br />

∂ ln p(X1,...,Xn,θ)<br />

∂ ln p(Xi,θ)<br />

I(θ) =Varθ<br />

= Varθ<br />

= nI1(θ) .<br />

∂θ<br />

∂θ<br />

i=1<br />

Ejemplo 1: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

perteneciente a la familia Bi(θ, 1). Luego se tiene<br />

luego<br />

y por lo tanto<br />

luego<br />

p(x, θ) =θ x (1 − θ) 1−x<br />

ln p(x, θ) =x ln θ +(1− x) ln(1 − θ)<br />

∂ ln p(x, θ)<br />

∂θ<br />

= x 1 − x x − θ<br />

− =<br />

θ 1 − θ θ(1 − θ)<br />

I1(θ) =<br />

=<br />

∂ ln p(X1,θ) <br />

2<br />

E<br />

∂θ<br />

1 2 Eθ(X − θ)<br />

θ(1 − θ)<br />

2<br />

=<br />

1 2 Varθ(X − θ)<br />

θ(1 − θ)<br />

2<br />

=<br />

1<br />

θ(1 − θ)


3.13. DESIGUALDAD DE RAO–CRAMER 47<br />

y por lo tanto,<br />

n<br />

In(θ) =<br />

θ(1 − θ) .<br />

Consi<strong>de</strong>remos el estimador insesgado <strong>de</strong> θ, X =(1/n) n i=1 Xi. Se tiene<br />

que<br />

Varθ(X) =<br />

θ(1 − θ)<br />

n<br />

= 1<br />

I(θ)<br />

y por lo tanto, <strong>de</strong> acuerdo con la observación 2 es IMVU. Esto es un ejemplo<br />

don<strong>de</strong> el estimador IMVU satisface la <strong>de</strong>sigualdad <strong>de</strong> Rao–Cramer como<br />

igualdad. Esto podríamos haberlo visto directamente mostrando que X es<br />

el estadístico suficiente <strong>de</strong> una familia exponencial.<br />

Veremos ahora un ejemplo don<strong>de</strong> el estimador IMVU satisface la <strong>de</strong>sigualdad<br />

<strong>de</strong> Rao–Cramer estrictamente.<br />

Sea q(θ) =θ(1 − θ) =Varθ(X1). Conocemos por el ejemplo 2 <strong>de</strong> la<br />

sección 3.3, que<br />

δ(X1,X2,...,Xn) =s 2 = 1<br />

n − 1<br />

es un estimador insesgado <strong>de</strong> q(θ). A<strong>de</strong>más se tiene<br />

δ(X1,...,Xn) =<br />

=<br />

=<br />

<br />

n<br />

1<br />

n − 1<br />

n<br />

(Xi − X)<br />

i=1<br />

2<br />

X<br />

i=1<br />

2 i − nX 2<br />

<br />

n<br />

1<br />

n − 1<br />

i=1<br />

n<br />

X(1 − X)<br />

n − 1<br />

<br />

Xi − nX 2<br />

<br />

Luego δ(X1,...,Xn) <strong>de</strong>pen<strong>de</strong> <strong>de</strong>l estadístico suficiente y completo X y<br />

por lo tanto es IMVU.<br />

Sin embargo se tendrá que<br />

Varθ(δ(X1,...,Xn)) > q′ (θ) 2<br />

nI1(θ)<br />

(3.32)<br />

ya que δ(X1,...,Xn) no es el estadístico suficiente <strong>de</strong> una familia exponencial.<br />

Para la verificación directa <strong>de</strong> (3.32) ver Problema 11 <strong>de</strong> 3.13.


48 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

3.14 Consistencia <strong>de</strong> estimadores<br />

La teoría asintótica estudia las propieda<strong>de</strong>s <strong>de</strong> los procedimientos <strong>de</strong> inferencia<br />

estadística cuando el tamaño <strong>de</strong> la muestra n que se utiliza es gran<strong>de</strong>,<br />

más precisamente, en el límite cuando n tien<strong>de</strong> a infinito.<br />

Una propiedad <strong>de</strong>seable para un estimador, es que cuando n es gran<strong>de</strong> la<br />

sucesión δn(X1,...,Xn) se aproxime en algún sentido al valor que queremos<br />

estimar. Para precisar estas i<strong>de</strong>as introduciremos el concepto <strong>de</strong> consistencia.<br />

Sea F = {F (x, θ) con θ ∈ Θ} una familia <strong>de</strong> distribuciones y supongamos<br />

que para cada n se tiene un estimador δn(X1,...,Xn) <strong>de</strong>q(θ) basado en una<br />

muestra aleatoria <strong>de</strong> tamaño n. Daremos la siguiente <strong>de</strong>finición:<br />

Definición 1: δn(X1,...,Xn) es una sucesión fuertemente consistente <strong>de</strong><br />

estimadores <strong>de</strong> q(θ) si<br />

lim<br />

n→∞ δn(X1,...,Xn) =q(θ) c.t.p.<br />

o sea si P θ (δn(X1,...,Xn) → q(θ)) = 1 para todo θ ∈ Θ.<br />

Definición 2: δn(X1,...,Xn) es una sucesión débilmente consistente <strong>de</strong><br />

estimadores <strong>de</strong> q(θ) si<br />

lim<br />

n→∞ δn(X1,...,Xn) =q(θ) en probabilidad.<br />

Es <strong>de</strong>cir, para todo ε>0yθ ∈ Θ<br />

lim<br />

n→∞ P θ (|δn(X1,...,Xn) − q(θ)| >ε)=0.<br />

Observación 1: Puesto que convergencia en c.t.p. implica convergencia<br />

en probabilidad, entonces toda sucesión fuertemente convergente también lo<br />

será débilmente.<br />

Ejemplo 1: Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una función <strong>de</strong> distribución<br />

F (x) totalmente <strong>de</strong>sconocida, tal que EF (X1) existe. Llamemos<br />

q(F )aEF (X1). Si<br />

δn(X1,...,Xn) =Xn = 1<br />

n<br />

n<br />

Xi ,<br />

i=1


3.14. CONSISTENCIA DE ESTIMADORES 49<br />

por la ley fuerte <strong>de</strong> los gran<strong>de</strong>s números este estimador resulta fuertemente<br />

consistente para q(F ).<br />

Si a<strong>de</strong>más EF (X 2 ) < ∞, entonces<br />

δn(X1,...,Xn) =s 2 n = 1<br />

n − 1<br />

n<br />

(Xi − Xn)<br />

i=1<br />

2 = 1<br />

n − 1<br />

es fuertemente consistente para q(F )=VarF X1. En efecto,<br />

s 2 n = n 1<br />

n − 1 n<br />

n<br />

i=1<br />

Por la ley fuerte <strong>de</strong> los gran<strong>de</strong> números<br />

n 1<br />

X<br />

n<br />

2 i → EF (X 2 1 ) c.t.p. y<br />

i=1<br />

X 2 i − n<br />

n − 1 X2<br />

n .<br />

n<br />

i=1<br />

X 2 i − n<br />

n − 1 X2<br />

n<br />

n 1<br />

Xi → EF (X1) c.t.p.<br />

n<br />

i=1<br />

Luego, X 2<br />

n → EF (X1) 2 c.t.p. y como n/(n − 1) converge a 1 se tiene que<br />

lim<br />

n→∞ s2 n =VarF (X1) c.t.p.<br />

Observación 2: Si X1,...,Xn es una muestra aleatoria <strong>de</strong> una distribución<br />

N(µ, σ2 ) se tiene que Xn es fuertemente consistente para µ y s2 n es fuertemente<br />

consistente para σ2 , ya que por lo visto recién<br />

y<br />

lim<br />

n→∞ Xn = E(X1) c.t.p.<br />

lim<br />

n→∞ s2 n =Var(X1) c.t.p.<br />

y sabemos que E(X1) =µ yVar(X1) =σ 2 .<br />

El siguiente teorema nos da una condición suficiente para que una sucesión<br />

<strong>de</strong> estimadores sea débilmente consistente.<br />

Teorema 1: Sea, para todo n, δn = δn(X1,...,Xn) un estimador <strong>de</strong> q(θ)<br />

basado en una muestra aleatoria <strong>de</strong> tamaño n. Si Var θ (δn) → 0 y E θ (δn) →<br />

q(θ), entonces δn(X1,...,Xn) es débilmente consistente.<br />

Demostración: Debemos ver que<br />

lim<br />

n→∞ P θ (|δn(X1,...,Xn) − q(θ)| >ε)=0 ∀ε >0.


50 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

Por la <strong>de</strong>sigualdad <strong>de</strong> Markov se tiene<br />

P θ (|δn(X1,...,Xn) − q(θ)| ≥ε) ≤ E θ (δn(X1,...,Xn) − q(θ)) 2<br />

ε 2<br />

≤ Var θ (δn)+ E θ (δn) − q(θ) 2<br />

ε 2<br />

Como por hipótesis E θ (δn) − q(θ)) → 0y(Var θ (δn)) → 0 se obtiene el<br />

resultado.<br />

El siguiente teorema muestra que si δn(X1,...,Xn) es una sucesión <strong>de</strong><br />

estimadores IMVU para q(θ) entonces cumple la hipótesis <strong>de</strong>l Teorema 1.<br />

Teorema 2: Sea δn(X1,...,Xn) una sucesión <strong>de</strong> estimadores IMVU para<br />

q(θ), don<strong>de</strong> X1,...,Xn es una muestra aleatoria <strong>de</strong> una distribución perteneciente<br />

a la familia F (x, θ), θ ∈ Θ. Luego Var θ (δn(X1,...,Xn)) tien<strong>de</strong> a<br />

cero si n tien<strong>de</strong> a infinito.<br />

Demostración: Sea<br />

δ ∗ n (X1,...,Xn) =<br />

luego E θ (δ ∗ n )=E θ (δ1) =q(θ), es <strong>de</strong>cir δ ∗ n<br />

ni=1 δ1(Xi)<br />

es un estimador insesgado <strong>de</strong><br />

q(θ).<br />

Por otro lado, Varθ (δ∗ n(X1,...,Xn))<br />

δn(X1,...,Xn) IMVU <strong>de</strong> q(θ) se cumple<br />

= Varθ (δ1(X1))/n. Por ser<br />

Var θ (δn(X1,...,Xn)) ≤ Var θ (δ ∗ n (X1,...,Xn)) = Var θ (δ1(X1))/n<br />

y por lo tanto,<br />

lim<br />

n→∞ Var θ (δn(X1,...,Xn)) = 0.<br />

Corolario 1: Si δn(X1,...,Xn) es una sucesión <strong>de</strong> estimadores IMVU para<br />

q(θ) don<strong>de</strong> X1,...,Xn es una muestra aleatoria <strong>de</strong> una distribución perteneciente<br />

a la familia F = {F (x, θ) con θ ∈ Θ} entonces δn(X1,...,Xn) es<br />

una sucesión <strong>de</strong> estimadores débilmente consistentes.<br />

Demostración: Resulta inmediatamente <strong>de</strong> los teoremas 1 y 2.<br />

n


3.15. CONSISTENCIA DE LOS ESTIMADORES DE LOS MOM... 51<br />

3.15 Consistencia <strong>de</strong> los estimadores <strong>de</strong> los momentos<br />

En este párrafo <strong>de</strong>mostraremos la consistencia <strong>de</strong> los estimadores <strong>de</strong> los<br />

momentos.<br />

Teorema 3: Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución perteneciente<br />

a la familia F = {F (x, θ) con θ ∈ Θ ⊂ IR}, h(x) una función<br />

continua con valores en IR y supongamos que Eθ(h(X1)) = g(θ) es, como<br />

función <strong>de</strong> θ, continua y estrictamente monótona. Sea el estimador <strong>de</strong> momentos<br />

θn <strong>de</strong>finido como la solución <strong>de</strong><br />

n 1<br />

h(Xi) =Eθ(h(X1)) = g(θ).<br />

n<br />

i=1<br />

Luego con probabilidad 1 existe n0 tal que para todo n ≥ n0 la ecuación que<br />

<strong>de</strong>fine θn tiene solución y es fuertemente consistente para θ.<br />

Demostración: Sea ε>0. Hay que <strong>de</strong>mostrar que, con probabilidad 1,<br />

existe n0 tal que<br />

| θn − θ|


52 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

De esta <strong>de</strong>sigualdad se infiere que<br />

g(θ − ε) ≤ 1 <br />

h(Xi) ≤ g(θ + ε) para n ≥ n0<br />

n<br />

y como g(θ) es continua y estrictamente creciente, para n ≥ n0 existe un<br />

único valor θn que satisface<br />

1 <br />

h(Xi) =Eθn n<br />

(h(X1)) = g( θn)<br />

A<strong>de</strong>más dicho valor <strong>de</strong>be estar entre θ−ε y θ+ε, es <strong>de</strong>cir que θ−ε ≤ θn ≤ θ+ε<br />

para n ≥ n0 que es lo que queríamos <strong>de</strong>mostrar.<br />

3.16 Consistencia <strong>de</strong> los estimadores <strong>de</strong> máxima<br />

verosimilitud<br />

En esta sección enunciaremos un teorema que establece la consistencia <strong>de</strong><br />

los estimadores <strong>de</strong> máxima verosimilitud para el caso <strong>de</strong> un solo parámetro.<br />

La <strong>de</strong>mostración se dará en el Apéndice A.<br />

max<br />

θ∈Θ<br />

n<br />

n<br />

p(xi, θ) = p(xi,<br />

i=1<br />

i=1<br />

θn) (3.33)<br />

Se pue<strong>de</strong> <strong>de</strong>mostrar que bajo condiciones muy generales θn <strong>de</strong>finido por<br />

(3.33) es fuertemente consistente.<br />

Teorema 1: Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

discreta o continua con <strong>de</strong>nsidad en la familia p(x, θ) con θ ∈ Θ, don<strong>de</strong> Θ es<br />

un intervalo abierto <strong>de</strong> IR. Supongamos que p(x, θ) es <strong>de</strong>rivable respecto <strong>de</strong><br />

θ y que el conjunto S = {x : p(x, θ) = 0} es in<strong>de</strong>pendiente <strong>de</strong> θ para todo<br />

θ ∈ Θ. Sea θn el estimador <strong>de</strong> máxima verosimilitud <strong>de</strong> θ, que satisface<br />

n<br />

i=1<br />

∂ ln p(xi, θn)<br />

∂θ<br />

= 0 (3.34)<br />

Supongamos finalmente que la ecuación (3.34) tiene a lo sumo una solución<br />

y que θ = θ ′ implica que p(x, θ) = p(x, θ ′ ). Entonces limn→∞ θn = θ c.t.p.,<br />

es <strong>de</strong>cir, θn es una sucesión <strong>de</strong> estimadores fuertemente consistente.


3.17. ESTIMADORES EFICIENTES 53<br />

Con el objetivo <strong>de</strong> simplificar la <strong>de</strong>mostración, la condiciones utilizadas<br />

en el Teorema 1 son más fuertes que las estrictamente necesarias para que<br />

el teorema sea válido. El teorema también vale en el caso <strong>de</strong> que haya más<br />

<strong>de</strong> un parámetro. Para una <strong>de</strong>mostración más general se pue<strong>de</strong> consultar el<br />

Teorema 5.3.1 <strong>de</strong> Zacks [7] y en Wald [6].<br />

3.17 Estimadores asintóticamente normales y eficientes<br />

Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución con <strong>de</strong>nsidad<br />

perteneciente a la familia p(x, θ) con θ ∈ Θ, don<strong>de</strong> Θ es un intervalo<br />

abierto <strong>de</strong> IR, y sea δn(X1,...,Xn) un estimador insesgado <strong>de</strong> q(θ). Luego<br />

suponiendo las condiciones A, B, C y D <strong>de</strong>l Teorema 1 <strong>de</strong> la sección 3.13 se<br />

tiene<br />

Eθ[δn(X1,...,Xn)] = q(θ) (3.35)<br />

Varθ(δn(X1,...,Xn)) ≥ [q′ (θ)] 2<br />

. (3.36)<br />

nI1(θ)<br />

(3.35) y (3.36) son equivalentes a:<br />

Eθ[ √ n(δn(X1,...,Xn) − q(θ))] = 0 (3.37)<br />

Varθ[ √ n(δn(X1,...,Xn) − q(θ))] ≥ [q′ (θ)] 2<br />

. (3.38)<br />

I1(θ)<br />

El mismo Teorema 1 <strong>de</strong> 3.13, establece que sólo excepcionalmente habrá<br />

estimadores que satisfagan simultaneamente (3.37), y la igualdad en (3.38)<br />

para n finito. En efecto, esto suce<strong>de</strong> unicamente si se cumplen<br />

q(θ) =Eθ(δn(X1,...,Xn)) y p(x,θ)=A(θ)e c(θ)δn(x1,...,xn) h(x1,...,xn)<br />

Sin embargo, bajo condiciones muy generales, existen estimadores (por ejemplo,<br />

los <strong>de</strong> máxima verosimilitud), que para n gran<strong>de</strong> satisfacen aproximadamente<br />

(3.37) y la igualdad en (3.38). Para precisar estas propieda<strong>de</strong>s daremos<br />

la siguiente <strong>de</strong>finición:<br />

Definición 1: Se dice que δn(X1,...,Xn) es una sucesión <strong>de</strong> estimadores<br />

asintóticamente normal y eficiente (A.N.E.) si √ n(δn(X1,...,Xn) −<br />

q(θ)) converge en distribución a una normal con media cero y varianza<br />

[q ′ (θ)] 2 /I1(θ).


54 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

Es <strong>de</strong>cir que si δn(X1,...,Xn) es A.N.E., para n gran<strong>de</strong> se comporta<br />

aproximadamente como si tuviese distribución N(q(θ), [q ′ (θ)] 2 /nI1(θ)), es<br />

<strong>de</strong>cir como si fuera insesgado con varianza [q ′ (θ)] 2 /nI1(θ), que es la menor<br />

varianza posible <strong>de</strong> acuerdo con el Teorema <strong>de</strong> Rao–Cramer.<br />

El siguiente Teorema, <strong>de</strong>mostrado en el Apéndice B, establece que bajo<br />

condiciones muy generales los estimadores <strong>de</strong> máxima verosimilitud son<br />

A.N.E.<br />

Teorema 1: Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

discreta o continua con <strong>de</strong>nsidad perteneciente a la familia p(x, θ) con θ ∈ Θ<br />

y Θ un abierto en IR. Supongamos que p(x,θ) tiene <strong>de</strong>rivada tercera respecto<br />

<strong>de</strong> θ continua y que satisface las condiciones A, C y D <strong>de</strong>l Teorema 1 <strong>de</strong> 3.13.<br />

Sea ψ(x, θ) = y supongamos a<strong>de</strong>más que<br />

∂ ln p(x,θ)<br />

∂θ<br />

<br />

<br />

∂3 ln p(x, θ)<br />

∂θ3 <br />

<br />

= ∂2ψ(x, θ)<br />

∂θ2 <br />

<br />

≤ K<br />

para todo x ∈ S y para todo θ ∈ Θ (S es el mismo que en la condición A).<br />

Sea θn un estimador <strong>de</strong> máxima verosimilitud <strong>de</strong> θ consistente y sea q(θ)<br />

<strong>de</strong>rivable con q ′ (θ) = 0para todo θ. Entonces q( θn) es A.N.E. para estimar<br />

q(θ).<br />

Las hipótesis que se han supuesto en este teorema son más fuertes que<br />

las estrictamente necesarias con el objetivo <strong>de</strong> simplificar la <strong>de</strong>mostración.<br />

También se pue<strong>de</strong> <strong>de</strong>mostrar un teorema similar para el caso <strong>de</strong> más <strong>de</strong> un<br />

parámetro. Una <strong>de</strong>mostración más general se pue<strong>de</strong> ver en la sección 5.5 <strong>de</strong><br />

Zacks [7].<br />

3.18 Apéndice A: Demostración <strong>de</strong> la consistencia<br />

<strong>de</strong> los estimadores <strong>de</strong> máxima verosimilitud<br />

Comenzaremos probando algunas propieda<strong>de</strong>s <strong>de</strong> funciones convexas.<br />

Definición 1: Sea f(x) una función <strong>de</strong>finida sobre un intervalo <strong>de</strong> IR y que<br />

toma valores en IR. Diremos que f(x) esconvexa si:<br />

f(λx +(1− λ)y) ≤ λf(x)+(1− λ)f(y) con 0 ≤ λ ≤ 1


3.18. APÉNDICE A 55<br />

y diremos que f(x) esestrictamente convexa si:<br />

f(λx +(1− λ)y)


56 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

Teorema 3: Sea f : IR → IR tal que f”(x) > 0 para todo x; luego f(x) es<br />

convexa.<br />

Demostración: Pue<strong>de</strong> verse en cualquier libro <strong>de</strong> cálculo.<br />

Teorema 4: Sean p y q dos <strong>de</strong>nsida<strong>de</strong>s o dos funciones <strong>de</strong> <strong>de</strong>nsidad discretas<br />

o continuas distintas. Luego se tiene:<br />

<br />

Ep ln q(X) <br />

< 0<br />

p(X)<br />

(don<strong>de</strong> Ep significa que se calcula la esperanza consi<strong>de</strong>rando que X tiene<br />

una distribución discreta o continua cuya <strong>de</strong>nsidad o probabilidad puntual<br />

es p).<br />

Demostración: Primero veremos que q(X)/p(X) no es constante con probabilidad<br />

1. La <strong>de</strong>mostración se hará suponiendo que X es continua. El caso<br />

discreto es totalmente análogo. Supongamos que q(X)/p(X) = k c.t.p.,<br />

don<strong>de</strong> k es una constante. Luego Ep(q(X)/p(X)) = k. Esto es:<br />

pero<br />

+∞<br />

−∞<br />

+∞<br />

−∞<br />

(q(x)/p(x))p(x)dx = k (3.39)<br />

(q(x)/p(x))p(x)dx = 1 (3.40)<br />

pues q(x) es una <strong>de</strong>nsidad. Luego, <strong>de</strong> (3.39) y (3.40) resulta k = 1. Entonces<br />

p(X) =q(X) c.t.p. y esto contradice la hipótesis. Por lo tanto q(X)/p(X)<br />

no es constante.<br />

Por otro lado − ln(x) es una función estrictamente convexa ya que:<br />

d 2 (− ln x)<br />

dx 2<br />

= 1<br />

> 0 .<br />

x2 Luego, estamos en condiciones <strong>de</strong> aplicar la <strong>de</strong>sigualdad <strong>de</strong> Jensen (Teorema<br />

2), con Y = q(X)/p(X) yh(x) =− ln x. En estas condiciones obtenemos<br />

<br />

Ep<br />

− ln q(X)<br />

<br />

p(X)<br />

<br />

> − ln<br />

Ep<br />

<br />

q(X)<br />

p(X)<br />

+∞ q(x)<br />

= − ln p(x)dx = − ln 1 = 0.<br />

−∞ p(x)<br />

Luego Ep[− ln(q(X)/p(X))] > 0yEp[ln(q(X)/p(X))] < 0 con lo que obtenemos<br />

la tesis.


3.18. APÉNDICE A 57<br />

Demostración <strong>de</strong>l Teorema 1 <strong>de</strong> Sección 3.16<br />

Sea Ln(X1,...,Xn,θ) = (1/n) n i=1 ln p(Xi,θ). Luego θn satisface<br />

Ln(X1,...,Xn, θn) = maxθ∈Θ Ln(X1,...,Xn,θ)y<br />

A<strong>de</strong>más se tiene<br />

∂Ln(X1,...,Xn, θn)<br />

∂θ<br />

=0.<br />

Ln(X1,...,Xn,θ+ δ) − Ln(X1,...,Xn,θ)= 1<br />

n p(Xi,θ+ δ) <br />

ln<br />

n p(Xi,θ)<br />

i=1<br />

(3.41)<br />

Ln(X1,...,Xn,θ− δ) − Ln(X1,...,Xn,θ)= 1<br />

n p(Xi,θ− δ) <br />

ln<br />

(3.42)<br />

n p(Xi,θ)<br />

i=1<br />

Como θ = θ ′ implica p(X1,θ) = p(X1,θ ′ ), aplicando el Teorema 4 resulta<br />

que<br />

<br />

p(X1,θ+ δ)<br />

Eθ ln<br />

< 0 (3.43)<br />

p(X1,θ)<br />

Eθ<br />

<br />

p(X1,θ− δ)<br />

ln<br />

< 0 (3.44)<br />

p(X1,θ)<br />

Entonces, <strong>de</strong> (3.41), (3.42), (3.43) y (3.44) y <strong>de</strong> la ley fuerte <strong>de</strong> los gran<strong>de</strong>s<br />

números resulta que con probabilidad igual a 1 existe un n0 tal que n>n0<br />

implica:<br />

Ln(X1,...,Xn,θ− δ)


58 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

3.19 Apéndice B: Demostración <strong>de</strong> la normalidad<br />

y eficiencia asintótica <strong>de</strong> los estimadores <strong>de</strong><br />

máxima verosimilitud<br />

Demostraremos previamente un lema.<br />

Lema 1: Sea X1,...,Xn una sucesión <strong>de</strong> variables aleatorias tales que<br />

√ n(Xn − µ) converge en distribución a N(0,σ 2 ). Sea g(x) una función<br />

<strong>de</strong>finida en IR tal que g ′ (µ) = 0 y g ′ (x) es continua en x = µ. Luego<br />

se tiene que √ n(g(Xn) − g(µ)) converge en distribución a una distribución<br />

N(0,σ 2 (g ′ (µ)) 2 ).<br />

Demostración: Primero <strong>de</strong>mostraremos que Xn → µ en probabilidad.<br />

Sean ε>0yδ>0 arbitrarios y X una variable aleatoria con distribución<br />

N(0,σ 2 ). Luego existe K suficientemente gran<strong>de</strong> tal que P (|X| >K) ε)=P ( √ n|Xn − µ ≥ √ nε). Sea n0 tal que<br />

√ n0 ε ≥ K. Luego si n ≥ n0:<br />

P (|Xn − µ| ≥ε) ≤ P ( √ n|Xn − µ| ≥K) .<br />

Como √ n(Xn − µ) converge en distribución a una variable con distribución<br />

N(0,σ 2 ), se tiene<br />

lim<br />

n→∞ P (|Xn − µ| ≥ε) ≤ lim<br />

n→∞ P (√ n|Xn − µ| ≥K) =P (|X| ≥K)


3.19. APÉNDICE B 59<br />

Demostración <strong>de</strong>l Teorema 1 <strong>de</strong> la sección 3.17. Indiquemos por<br />

ψ ′ (x, θ) =<br />

∂ψ(x, θ)<br />

∂θ<br />

y ψ ′′ (x, θ) = ∂2 ψ(x, θ)<br />

∂θ 2<br />

El estimador <strong>de</strong> máxima verosimilitud satisface:<br />

n<br />

ψ(Xi, θn) =0.<br />

i=1<br />

ψ<br />

i=1<br />

′ (Xi,θ)<br />

i=1<br />

Desarrollando en serie <strong>de</strong> Taylor alre<strong>de</strong>dor <strong>de</strong> θ se obtiene:<br />

n<br />

<br />

n<br />

ψ(Xi,θ)+<br />

<br />

( θn − θ)+ 1<br />

<br />

n<br />

2<br />

<br />

( θn − θ) 2 =0,<br />

ψ<br />

i=1<br />

′′ (Xi,ξn)<br />

don<strong>de</strong> ξn es un punto intermedio entre θn y θ. Despejando ( θn − θ) y multiplicando<br />

ambos miembros por √ n se obtiene:<br />

√<br />

n( θn<br />

−<br />

− θ) =<br />

n i=1 ψ(Xi,θ)/ √ n<br />

(1/n) n i=1 ψ ′ ni=1<br />

(Xi,θ)+(1/2n) ψ ′′ <br />

(Xi,ξn) ( θn − θ)<br />

Sea D(X1,...,Xn,θ) el <strong>de</strong>nominador <strong>de</strong> esta última expresión. Vamos a<br />

<strong>de</strong>mostrar que:<br />

(a)<br />

D(X1,...,Xn,θ) →−I1(θ) =−Eθ [ψ(X, θ)] 2<br />

.<br />

en probabilidad.<br />

(b) n i=1 ψ(Xi,θ)/ √ n converge en distribución a una distribución N(0,I1(θ))<br />

Probemos (a). Como |ψ ′′ (Xi,θ)| ≤K para todo θ, se tiene que<br />

<br />

n 1<br />

ψ<br />

2n<br />

′′ (Xi,ξn)( <br />

<br />

K<br />

θn − θ) ≤<br />

2 |( θn − θ)|<br />

i=1<br />

y luego como θn es consistente se <strong>de</strong>duce que:<br />

n 1<br />

ψ<br />

n<br />

′′ (Xi,ξn)( θn − θ) → 0 en probabilidad. (3.46)<br />

i=1<br />

Por otro lado, como ψ ′ (Xi,θ) son n variables aleatorias, in<strong>de</strong>pendientes igualmente<br />

distribuidas, por la ley <strong>de</strong> los gran<strong>de</strong>s números implica que<br />

1<br />

n<br />

n<br />

ψ<br />

i=1<br />

′ (Xi,θ) → E(ψ ′ (X1,θ) en probabilidad. (3.47)


60 CHAPTER 3. ESTIMACIÓN PUNTUAL<br />

Pero <strong>de</strong> acuerdo con el Lema 1 <strong>de</strong> la sección 3.13<br />

Eθ(ψ ′ (X1,θ)) = −I1(θ) .<br />

Luego, usando (3.46) y (3.47) se obtiene:<br />

D(X1,...,Xn,θ) →−I1(θ) en probabilidad,<br />

con lo que queda probado (a). Para probar (b) observemos que, como las<br />

variables aleatorias<br />

∂ ln p(Xi,θ)<br />

ψ(Xi,θ)=<br />

∂θ<br />

son in<strong>de</strong>pendientes e igualmente distribuidas con esperanza 0 y varianza<br />

I1(θ) (ver Lema 1 <strong>de</strong> la sección 3.13), por el Teorema Central <strong>de</strong>l límite<br />

1<br />

√ n<br />

n<br />

ψ(Xi,θ)<br />

i=1<br />

converge en distribución a N(0,I1(θ)).<br />

Luego √ n( θn − θ) converge en distribución a una ley N(0,I1(θ)/(I1(θ) 2 )<br />

o sea N(0, 1/I1(θ)).<br />

Consi<strong>de</strong>remos ahora el estimador <strong>de</strong> máxima verosimilitud q(θ) dado por<br />

q( θn).<br />

Por el Lema 1 se tendrá que √ n(q( θn) − q(θ)) converge en distribución<br />

a una N(0, (q ′ (θ)) 2 /I1(θ)).


3.19. APÉNDICE B 61<br />

REFERENCIAS DEL CAPITULO 3<br />

[1 ] Bahadur, R.R. (1954). Sufficiency and Statistical Decision Functions.<br />

Annals of Mathematical Statistics 25, 423–462.<br />

[2 ] Draper, N. and Smith, H. (1966). Applied Regression Analysis. J.<br />

Wiley & Sons.<br />

[3 ] Dynkin, E.B. (1961). Necessary and Sufficient Statistics for Families<br />

of Distributions. Selected Translations of Mathematical Statistics and<br />

Probability 1, 23–41.<br />

[4 ] Lehmann, E.L. (1994). Testing Statistical Hypothesis. Chapman &<br />

Hall.<br />

[5 ] Lehmann, E.L. (1983). Theory of Point Estimation. J. Wiley & Sons.<br />

[6 ] Wald, A.N. (1949). Note on the Consistency of the Maximum Likelihood<br />

Estimates. Annals of Mathematical Statistics 20, 595–601.<br />

[7 ] Zacks, S. (1971). The Theory of Statistical Inference. J. Wiley &<br />

Sons.


Chapter 4<br />

Estimadores Bayesianos y<br />

Minimax<br />

4.1 Enfoque Bayesiano <strong>de</strong>l problema <strong>de</strong> la estimación<br />

puntual<br />

Consi<strong>de</strong>remos nuevamente un problema estadístico <strong>de</strong> estimación paramétrico.<br />

Se observa un vector X =(X1, ..., Xn), que pue<strong>de</strong> ser, por ejemplo, aunque<br />

no necesariamente, una muestra aleatoria <strong>de</strong> cierta distribución) con <strong>de</strong>nsidad<br />

discreta o continua en la familia f(x, θ), con θ =(θ1, ..., θp) ∈ Θ ⊂ IR p .<br />

El enfoque llamadado frecuentista que hemos estudiado no supone ningún<br />

conocimiento previo <strong>de</strong> θ. El enfoque bayesiano, por lo contrario, supone que<br />

se tiene alguna información previa sobre θ. Esta información está expresada<br />

por medio <strong>de</strong> una distribución sobre θ, <strong>de</strong>nominada distribución a priori.<br />

Aquí supondremos que esta distribución a priori, indicada por τ, tiene una<br />

<strong>de</strong>nsidad γ(θ). La distribución a priori pue<strong>de</strong> tener distintas interpretaciones<br />

según el problema. Se pue<strong>de</strong>n dar las siguientes alternativas<br />

• La distribución a priori está basada en experiencias previas similares.<br />

• La distribución a priori expresa una creencia subjetiva.<br />

El hecho <strong>de</strong> que el enfoque bayesiano consi<strong>de</strong>re una distribución <strong>de</strong> probabilida<strong>de</strong>s<br />

sobre θ, supone tratar a θ como una variable aleatoria, y por lo<br />

tanto a esta variable la <strong>de</strong>nominaremos Θ para distinguirla <strong>de</strong>l valor que<br />

toma θ. Esta notación pue<strong>de</strong> llevar a confusión dado que también llamamos<br />

1


2 CHAPTER 4. ESTIMADORES BAYESIANOS Y MINIMAX<br />

Θ al conjunto <strong>de</strong> valores <strong>de</strong> θ. Sin embargo, por el contexto quedará claro<br />

el significado <strong>de</strong> este símbolo en cada caso.<br />

Dado que consi<strong>de</strong>ramos ahora el valor <strong>de</strong>l parámetro como el valor <strong>de</strong><br />

una variable aleatoria, la interpretación <strong>de</strong> la familia <strong>de</strong> <strong>de</strong>nsida<strong>de</strong>s f(x, θ)<br />

en el enfoque bayesiano también cambia. En el enfoque bayesiano f(x, θ)<br />

se interpreta como la distribución condicional <strong>de</strong> la muestra X dado que la<br />

variable Θ toma el valor θ.<br />

Una vez observada la muestra X se pue<strong>de</strong> calcular la distribución condicional<br />

<strong>de</strong> Θ dada X. Esta distribución se <strong>de</strong>nomina distribución a posteriori<br />

y está dada por<br />

f(θ|x) =<br />

f(x, θ)γ(θ)<br />

... f(x, t)γ(t)dt . (4.1)<br />

En efecto el numerador <strong>de</strong> (4.1) correspon<strong>de</strong> a la <strong>de</strong>nsidad conjunta <strong>de</strong><br />

X y Θ, y el <strong>de</strong>nominador a la <strong>de</strong>nsidad marginal <strong>de</strong> X.<br />

Si la distribución <strong>de</strong> θ fuese discreta, habría que reemplazar las integrales<br />

<strong>de</strong>l <strong>de</strong>nominador por las correspondientes sumatorias. En lo sucesivo, supondremos<br />

que las distribuciones <strong>de</strong> X y<strong>de</strong>θ son continuas, pero el tratamiento<br />

en el caso discreto es similar.<br />

Una <strong>de</strong> las ventajas <strong>de</strong>l enfoque bayesiano es que se pue<strong>de</strong>n <strong>de</strong>finir en<br />

forma natural estimadores óptimos, sin necesidad <strong>de</strong> restricciones poco naturales<br />

como la <strong>de</strong> estimadores insesgados a la que <strong>de</strong>bimos recurrir en<br />

el enfoque frecuentista. Para ver esto supongamos que queremos estimar<br />

λ = q(θ) y consi<strong>de</strong>remos una función <strong>de</strong> pérdida ℓ(θ,d) que indica el costo<br />

<strong>de</strong> estimar λ = q(θ) utilizando <strong>de</strong>l valor d. Supongamos que se tiene un estimador<br />

ˆ λ = δ(x). Luego la pérdida será una variable aleatoria ℓ(Θ,δ(X)),<br />

ylapérdida esperada que llamaremos riesgo <strong>de</strong> Bayes está dada por<br />

r(δ, τ)=E(ℓ(Θ,δ(X))), (4.2)<br />

don<strong>de</strong> aquí la esperanza se toma con respecto a la distribución conjunta <strong>de</strong><br />

X y Θ. Por lo tanto, dada la distribución priori τ, un estimador óptimo será<br />

aquel que minimice r(δ, τ). Este estimador se <strong>de</strong>nomina estimador <strong>de</strong> Bayes<br />

correspondiente a la distribución a priori τ y será representado por δτ .<br />

Luego, la función <strong>de</strong> riesgo <strong>de</strong> la teoría frecuentista, R(δ, θ) , estará dada<br />

por<br />

R(δ, θ) = Eθ (ℓ(θ,δ(X)))<br />

<br />

= E(ℓ(Θ,δ(X))|Θ =θ) = ℓ(θ,δ(x))f(x, θ)dx. (4.3)


4.1. ESTIMADORES BAYESIANOS 3<br />

Con lo cual,<br />

<br />

r(δ, τ)=Eτ (E(ℓ(Θ,δ(X))|Θ)) =<br />

<br />

...<br />

R(δ, θ)γ(θ)dθ. (4.4)<br />

Consi<strong>de</strong>remos como caso particular la función <strong>de</strong> pérdida cuadrática, es<br />

<strong>de</strong>cir,<br />

ℓ(θ,d)=(q(θ) − d) 2 .<br />

En este caso, el estimador <strong>de</strong> Bayes será la función δτ (X) que minimiza el<br />

error cuadrático medio<br />

E((δ(X) − q(Θ)) 2 )<br />

y por lo tanto, <strong>de</strong> acuerdo a la teoría <strong>de</strong> esperanza condicional, éste será<br />

único y estará dado por<br />

<br />

δτ (x) =E(q(Θ)|X = x) = ... q(θ)f(θ|x)dθ,<br />

es <strong>de</strong>cir, será la esperanza condicional <strong>de</strong> q(Θ) con respecto a la distribución<br />

a posteriori <strong>de</strong> Θ.<br />

Ejemplo 1. Sea X =(X1, ..., Xn) una muestra in<strong>de</strong>pendiente <strong>de</strong> una<br />

distribución Bi(θ, 1), y supongamos que la distribución a priori τ <strong>de</strong> θ sea<br />

una distribución β(a, b), es <strong>de</strong>cir, con una <strong>de</strong>nsidad<br />

γ(θ) =<br />

Γ(a + b)<br />

Γ(a)Γ(b) θa−1 (1 − θ) b−1 I [0,1](θ). (4.5)<br />

Es conocido que esta distribución tiene la siguiente esperanza y varianza<br />

E(θ) = a<br />

, (4.6)<br />

a + b<br />

var(θ) =<br />

ab<br />

(a + b) 2 (a + b +1)<br />

E(θ)(1− E(θ))<br />

= . (4.7)<br />

a + b +1<br />

Luego si se conoce la media y la varianza <strong>de</strong> la distribución a priori <strong>de</strong><br />

Θ, se pue<strong>de</strong>n <strong>de</strong>terminar a y b. La fórmula (4.7) muestra que para un dado<br />

valor <strong>de</strong> la esperanza, la varianza <strong>de</strong>pen<strong>de</strong> <strong>de</strong> a + b, tendiendo a 0 cuando<br />

a + b → +∞.<br />

La distribución <strong>de</strong> la muestra X1,X2, ...Xn dado el valor <strong>de</strong> θ tiene una<br />

función <strong>de</strong> probabilidad puntual dada por<br />

n f(x1, ..xn,θ)=θ<br />

i=1 xi (1 − θ) n− n<br />

i=1 xi . (4.8)


4 CHAPTER 4. ESTIMADORES BAYESIANOS Y MINIMAX<br />

Luego usando (4.1) se tiene que la distribución a posteriori <strong>de</strong> θ tiene una<br />

<strong>de</strong>nsidad dada por<br />

f(θ|x1, ..., xn) = θ<br />

n i=1 xi+a−1 n−<br />

(1 − θ) n i=1 xi+b−1<br />

1<br />

0 t<br />

n i=1 xi+a−1 n−<br />

(1 − t) n i=1 xi+b−1<br />

. (4.9)<br />

dt<br />

Ahora bien, el <strong>de</strong>nominador <strong>de</strong> esta expresión es igual a<br />

Γ(n + a + b)<br />

Γ(a + n i=1 xi)Γ(n − n i=1 xi + b)<br />

por lo tanto, la distribución a posteriori <strong>de</strong> θ dado X = x es<br />

β(a + n i=1 xi,n− n i=1 +b).<br />

Supongamos que la función <strong>de</strong> pérdida es cuadrática. Luego el estimador<br />

<strong>de</strong> Bayes, que indicaremos por δa,b, está dado por E(Θ|X), y <strong>de</strong> acuerdo a<br />

(4.6) tendremos que<br />

δa,b =<br />

T + a<br />

a + b + n =<br />

n<br />

n + a + b<br />

T a + b<br />

+<br />

n a + b + n<br />

a<br />

, (4.10)<br />

a + b<br />

don<strong>de</strong> T = n i=1 Xi. Por lo tanto, el estimador <strong>de</strong> Bayes se comporta como<br />

un promedio pon<strong>de</strong>rado <strong>de</strong> dos estimadores: el IMVU δ1 = T/n que no usa<br />

la información <strong>de</strong> la distribución a priori y δ2 = a/(a + b) que correspon<strong>de</strong><br />

a la esperanza <strong>de</strong> la distribución a priori y que se usaría si no se hubiese<br />

observado la muestra. También vemos que el peso asignado a δ2 tien<strong>de</strong> a 0<br />

cuando el tamaño <strong>de</strong> la muestra n aumenta.<br />

De acuerdo a (4.10), el estimador <strong>de</strong> Bayes correspondiente a una distribución<br />

a priori β(a, b) pue<strong>de</strong> interpretarse como el estimador frecuentista<br />

correspondiente a una muestra <strong>de</strong> tamaño n + a + b con n i=1 Xi + a éxitos.<br />

Observación 1. En el ejemplo anterior hemos partido <strong>de</strong> una distribución<br />

a priori β(a, b), y hemos obtenido que la distribución a posteriori también<br />

está en la misma familia, ya que es β(a + n i=1 xi,n− n i=1 xi + b). Se dice<br />

entonces que la familia <strong>de</strong> distribuciones beta es la conjugada <strong>de</strong> la familia<br />

<strong>de</strong> distribuciones binomial.<br />

Ejemplo 2. Sea X =(X1, ..., Xn) una muestra in<strong>de</strong>pendiente <strong>de</strong> una distribución<br />

N(θ, σ 2 ), con σ 2 conocido, y supongamos que la distribución a<br />

priori <strong>de</strong> θ sea N(µ, ρ 2 ).<br />

Luego la <strong>de</strong>nsidad <strong>de</strong> la muestra X =(X1, ..., Xn) dado θ está dada por<br />

1<br />

f(x,θ)=<br />

(2π) n/2 <br />

−1<br />

exp<br />

σn 2σ2 n<br />

(xi − θ)<br />

i=1<br />

2<br />

<br />

, (4.11)


4.1. ESTIMADORES BAYESIANOS 5<br />

don<strong>de</strong> exp(x) =e x . La <strong>de</strong>nsidad <strong>de</strong> la distribución a priori está dada por<br />

1<br />

γ(θ) =<br />

(2π) 1/2ρ exp<br />

<br />

−(θ − µ) 2<br />

2ρ2 <br />

(4.12)<br />

Luego multiplicando (4.11) y (4.12), <strong>de</strong>sarrollando los cuadrados y haciendo<br />

algún manipuleo algebraico, se obtiene que distribución conjunta <strong>de</strong> X yΘ<br />

está dada por<br />

fX,Θ(x,θ)=C1(x,σ 2 ,µ,ρ 2 <br />

)exp<br />

− θ2<br />

2<br />

<br />

n 1<br />

+<br />

σ2 ρ2 <br />

n¯x µ<br />

+ θ +<br />

σ2 ρ2 ,<br />

don<strong>de</strong> C1(x,σ 2 ,µ,ρ 2 ) no <strong>de</strong>pen<strong>de</strong> <strong>de</strong> θ. Completando cuadrados, se obtiene<br />

fX,Θ(x,θ)=C2(x,σ 2 ,µ,ρ 2 )exp<br />

don<strong>de</strong><br />

D =<br />

<br />

− 1<br />

2D<br />

<br />

n¯x µ<br />

θ − D +<br />

σ2 ρ2 <br />

2<br />

, (4.13)<br />

1<br />

(n/σ2 )+(1/ρ2 . (4.14)<br />

)<br />

Finalmente, usando (1) obtenemos<br />

f(θ|x) =C3(x,σ 2 ,ρ 2 <br />

,µ)exp − 1<br />

<br />

¯x µ<br />

(θ − D +<br />

2D σ2 ρ2 2 (4.15)<br />

Luego, esta <strong>de</strong>nsidad, excepto una función que <strong>de</strong>pen<strong>de</strong> sólo <strong>de</strong> x, correspon<strong>de</strong><br />

a una distribución<br />

<br />

n¯x µ<br />

N D +<br />

σ2 ρ2 <br />

,D . (4.16)<br />

Como se trata <strong>de</strong> la distribución condicional <strong>de</strong> Θ dado X = x, po<strong>de</strong>mos<br />

consi<strong>de</strong>rar a C3 como constante. Luego la distribución a posteriori <strong>de</strong> Θ está<br />

dada por (4.16).<br />

Supongamos nuevamente que consi<strong>de</strong>ramos una función <strong>de</strong> pérdida cuadrática.<br />

El estimador <strong>de</strong> Bayes estará dado, en ese caso, por la esperanza condicional<br />

<strong>de</strong> Θ dado X, y por lo tanto <strong>de</strong> acuerdo a (4.16) y (4.14) estará dado<br />

por<br />

<br />

nX¯ δτ (X) =D<br />

µ<br />

+<br />

σ2 ρ2 <br />

= w ¯ X +(1− w)µ, (4.17)


6 CHAPTER 4. ESTIMADORES BAYESIANOS Y MINIMAX<br />

don<strong>de</strong><br />

n/σ<br />

w =<br />

2<br />

(n/σ2 )+(1/ρ2 ) .<br />

Por lo tanto, nuevamente, el estimador <strong>de</strong> Bayes es un promedio pon<strong>de</strong>rado<br />

<strong>de</strong>l estimador IMVU <strong>de</strong> la teoría frecuentista ¯ X y la media <strong>de</strong> la distribución<br />

a priori µ. Los pesos son inversamente proporcionales a las varianzas σ2 /n<br />

y ρ2 <strong>de</strong> ambos estimadores. A medida que el tamaño <strong>de</strong> la muestra n crece,<br />

el peso <strong>de</strong>l estimador basado en la información a priori tien<strong>de</strong> a 0. Es <strong>de</strong>cir,<br />

a medida que el tamaño <strong>de</strong> la muestra crece, la información a priori tiene<br />

menos relevancia para <strong>de</strong>terminar el estimador <strong>de</strong> Bayes.<br />

Observación 2. En este ejemplo partimos <strong>de</strong> una distribución a priori en<br />

la familia N(µ, ρ 2 ), y obtenemos que la distribución a posteriori está dada<br />

por (4.16), y por lo tanto está en la misma familia normal. Luego la familia<br />

<strong>de</strong> distribuciones conjugadas <strong>de</strong> la familia normal con varianza conocida es<br />

la familia normal.<br />

Veamos algunas propieda<strong>de</strong>s <strong>de</strong> los estimadores Bayes para funciones <strong>de</strong><br />

pérdida arbitrarias.<br />

Teorema 1. Sea δτ un estimador Bayes respecto <strong>de</strong> la distribución a priori<br />

τ y supongamos que δτ es único, entonces δτ es admisible.<br />

Demostración. Supongamos que existe otro estimador δ ∗ tan bueno como<br />

δτ , es <strong>de</strong>cir, R(δ ∗ , θ) ≤ R(δτ , θ) para todo θ ∈ Θ. Integrando respecto a la<br />

distribución a priori <strong>de</strong> θ en ambos miembros <strong>de</strong> la <strong>de</strong>sigualdad, obtenemos<br />

r(δ ∗ ,τ) ≤ r(δτ ,τ). Con lo cual, por la unicidad δ ∗ = δτ .<br />

Se pue<strong>de</strong> obtener un resultado <strong>de</strong> admisibilidad para reglas Bayes sin<br />

pedir unicidad, siempre y cuando, Θ sea abierto, la distribución a priori<br />

tenga una <strong>de</strong>nsidad positiva para todo θ ∈ Θ y la función <strong>de</strong> riesgo R(δ, θ)<br />

sea continua en θ para todo estimador δ.<br />

Hemos visto que en el caso <strong>de</strong> la pérdida cuadrática, el estimador Bayes<br />

podía obtenerse como la esperanza <strong>de</strong> la distribución a posteriori <strong>de</strong> Θ. El<br />

siguiente Teorema da una manera <strong>de</strong> obtener el estimador Bayes para el caso<br />

<strong>de</strong> otras funciones <strong>de</strong> pérdida.<br />

Teorema 2. Sea τ la distribución <strong>de</strong> Θ y F θ (x) la distribución condicional<br />

<strong>de</strong> X dado θ. Supongamos que se cumplen las siguientes condiciones para<br />

estimar q(θ) utilizando la pérdida ℓ(θ,d)


4.2. ESTIMADORES MINIMAX 7<br />

a) Existe un estimador δ0 con riesgo finito.<br />

b) Para cada valor <strong>de</strong> x existe un valor, que indicaremos δτ (x), que minimiza<br />

E (ℓ(θ,d)|X = x).<br />

Entonces, δτ (x) es un estimador <strong>de</strong> Bayes respecto a τ.<br />

Demostración. Sea δ(X) un estimador con riesgo Bayes finito. Luego,<br />

como la pérdida es nonegativa, E (ℓ(θ,δ(X))|X = x) es finita para casi todo<br />

x. Por lo tanto, tenemos<br />

E (ℓ (θ,δ(x)) |X = x) ≥ E (ℓ (θ,δτ (x)) |X = x)<br />

<strong>de</strong> don<strong>de</strong>, tomando esperanza respecto a la distribución marginal <strong>de</strong> X,<br />

obtenemos r(δ, τ) ≥ r(δτ ,τ) y por lo tanto, δτ es un estimador Bayes.<br />

Corolario Sea τ una distribución a priori para θ y supongamos que se<br />

cumplen las condiciones <strong>de</strong>l Teorema 2.<br />

a) Para la pérdida ℓ(θ,d) = w(θ)(q(θ) − d) 2 , don<strong>de</strong> w(θ) > 0 y<br />

E(w(θ)) < ∞, la regla Bayes δτ está dada por<br />

δτ (x) =<br />

E (q(θ)w(θ)|X = x)<br />

E (w(θ)|X = x)<br />

b) Para la pérdida ℓ(θ,d)=|q(θ) − d|, la regla Bayes δτ (x) es la mediana<br />

<strong>de</strong> la distribución a posteriori <strong>de</strong> q(θ) condicional a x<br />

c) Para la pérdida ℓ(θ,d) = I |q(θ)−d|>c , la regla Bayes δτ es el punto<br />

medio <strong>de</strong>l intervalo I <strong>de</strong> longitud 2c que maximiza P (q(θ) ∈I|X = x)<br />

4.2 Utilización <strong>de</strong> métodos bayesianos para resolver<br />

problemas frecuentistas<br />

En esta sección vamos a mostrar como los resultados <strong>de</strong> la teoría bayesiana<br />

pue<strong>de</strong>n ser útiles, aunque no se comparta ese punto <strong>de</strong> vista. Es <strong>de</strong>cir, veremos<br />

que los resultados <strong>de</strong> esta teoría se pue<strong>de</strong>n usar para resolver problemas<br />

que surgen <strong>de</strong> la teoría frecuentista.<br />

Consi<strong>de</strong>remos una muestra X =(X1,...,,Xn) con distribución conjunta<br />

f(x, θ) don<strong>de</strong> el vector <strong>de</strong> parámetros θ ∈ Θ. Supongamos que queremos


8 CHAPTER 4. ESTIMADORES BAYESIANOS Y MINIMAX<br />

estimar λ = q(θ) y que tenemos una función <strong>de</strong> pérdida ℓ(θ,d). En el enfoque<br />

frecuentista un estimador δ(X) <strong>de</strong>λqueda caracterizado por su función <strong>de</strong><br />

riesgo<br />

<br />

R(δ, θ) =Eθ (ℓ(θ,δ(X)) = ℓ(θ,δ(x))f(x, θ)dx. (4.18)<br />

Como θ es <strong>de</strong>sconocido, lo i<strong>de</strong>al sería encontrar un estimador δ ∗ (X) tal<br />

que, dado cualquier otro estimador δ(x) se tuviese<br />

R(δ ∗ , θ) ≤ R(δ, θ) ∀θ ∈ Θ.<br />

Como ya hemos visto al comienzo <strong>de</strong>l curso estos estimadores no existen<br />

excepto en casos muy poco interesantes.<br />

Una alternativa es comparar los estimadores a través <strong>de</strong>l máximo riesgo.<br />

Dado un estimador δ(X) <strong>de</strong>λ su máximo riesgo se <strong>de</strong>fine por<br />

MR(δ) = sup R(δ, θ). (4.19)<br />

θ∈Θ<br />

El criterio <strong>de</strong> comparar los estimadores por su máximo riesgo es pesimista,<br />

ya que actua como si el parámetro fuese a tomar el valor más <strong>de</strong>sfavorable<br />

para el estimador. Un estimador óptimo <strong>de</strong> acuerdo a este criterio es un<br />

estimador δ∗ tal que dado cualquier otro estimador δ se tiene<br />

MR(δ ∗ ) ≤ MR(δ). (4.20)<br />

Definición 1. Un estimador satisfaciendo (4.20) se <strong>de</strong>nomina minimax.<br />

Vamos a ver como la teoría bayesiana nos ayuda a encontrar estimadores<br />

minimax. Para ello, consi<strong>de</strong>remos una distribución a priori τ con <strong>de</strong>nsidad<br />

γ(θ). El correspondiente estimador <strong>de</strong> Bayes δτ verifica que, dado cualquier<br />

otro estimador δ, se tiene<br />

r(δτ ,τ) ≤ r(δ, τ). (4.21)<br />

Luego, <strong>de</strong> acuerdo a (4.4) se tendrá entonces que para cualquier estimador δ<br />

<br />

<br />

R(δτ , θ)γ(θ)dθ ≤ R(δ, θ)γ(θ)dθ. (4.22)<br />

Sea rτ = r(δτ ,τ), es <strong>de</strong>cir, el mínimo riesgo <strong>de</strong> Bayes cuando la distribución<br />

a priori es τ.


4.2. ESTIMADORES MINIMAX 9<br />

Definición 2. Se dirá que una distribución a priori τ0 es menos favorable<br />

si, para cualquier otra distribución τ, se tiene rτ ≤ rτ0 .<br />

Naturalmente uno se pue<strong>de</strong> preguntar para qué distribuciones a priori τ el<br />

estimador Bayes δτ será minimax. Un procedimiento minimax, al minimizar<br />

el máximo riesgo, trata <strong>de</strong> comportarse lo mejor posible en la peor situación.<br />

Por lo tanto, uno pue<strong>de</strong> esperar que el estimador minimax sea Bayes para<br />

la peor distribución posible que es la distribución menos favorable.<br />

El siguiente Teorema nos permite usar la teoría bayesiana para encontrar<br />

estimadores minimax.<br />

Teorema 1. Supongamos que se tiene una distribución a priori τ0 tal que<br />

el estimador <strong>de</strong> Bayes δτ0 tiene función <strong>de</strong> riesgo, R(δτ , θ), constante en θ.<br />

Entonces:<br />

a) δτ0<br />

es un estimador minimax,<br />

b) si δτ0 es el único estimador Bayes respecto <strong>de</strong> τ0, δτ0 es el único estimador<br />

minimax,<br />

c) τ0 es la distribución menos favorable.<br />

Demostración. Como el riesgo <strong>de</strong> δτ0 es constante se cumple que<br />

r(δτ0 ,τ0)<br />

<br />

= R(δτ0 , θ)γ0(θ)dθ = sup R(δτ0 , θ).<br />

θ∈Θ<br />

(4.23)<br />

a) Consi<strong>de</strong>remos un estimador δ = δτ0 , luego como<br />

MR(δ) = sup R(δ, θ) ≥ R(δ, θ)<br />

θ∈Θ<br />

tomando esperanza respecto a la distribución a priori τ0 obtenemos<br />

<br />

MR(δ) = sup R(δ, θ) ≥ R(δ, θ)γ0(θ)dθ = r(δ, τ0). (4.24)<br />

θ∈Θ<br />

Como δτ0 es Bayes respecto <strong>de</strong> τ0, se cumple que<br />

r(δ, τ0) ≥ r(δτ0 ,τ0). (4.25)<br />

Con lo cual, a partir <strong>de</strong> (4.23), (4.24) y (4.25) obtenemos<br />

MR(δ) ≥ r(δτ0 ,τ0) = sup R(δτ0 , θ) =MR(δτ0 )<br />

θ∈Θ


10 CHAPTER 4. ESTIMADORES BAYESIANOS Y MINIMAX<br />

y por lo tanto, δτ0 es minimax.<br />

b) Supongamos ahora que δτ0<br />

cumple<br />

es el único estimador Bayes, luego se<br />

r(δ, τ0) >r(δτ0 ,τ0). (4.26)<br />

Con lo cual, utilizando ahora (4.23), (4.24) y (4.26) obtenemos<br />

MR(δ) ≥ r(δ, τ0) >r(δτ0 ,τ0) =MR(δτ0 )<br />

y por lo tanto, δτ0 es el único estimador minimax.<br />

c) Sea τ otra distribución a priori y δτ el estimador Bayes respecto <strong>de</strong> τ.<br />

Luego, por ser δτ Bayes se cumple<br />

r(δτ ,τ) ≤ r(δτ0 ,τ). (4.27)<br />

Por otra parte, como el riesgo <strong>de</strong> δτ0<br />

<br />

es constante se verifica<br />

r(δτ0 ,τ) = R(δτ0 , θ)γ(θ)dθ<br />

= sup R(δτ0<br />

θ∈Θ<br />

, θ) =r(δτ0 ,τ0), (4.28)<br />

Por lo tanto, (4.27) y (4.28) nos permiten concluir que<br />

r(δτ ,τ) ≤ r(δτ0 ,τ0)<br />

con lo cual, τ0 es la distribución menos favorable.<br />

Ejemplo 3. Consi<strong>de</strong>remos el Ejemplo 1 <strong>de</strong> estimación bayesiana para la<br />

familia binomial, usando distribuciones a priori en la familia β(a, b) y como<br />

fúnción <strong>de</strong> pérdida la función ℓ(θ, d) =(θ − d) 2 . Luego hemos visto que el<br />

único estimador <strong>de</strong> Bayes está dado por<br />

T + a<br />

δa,b =<br />

n + a + b ,<br />

con T = n i=1 Xi.<br />

Si encontramos a y b tales que R(δa,b,θ) es constante, ese estimador será<br />

minimax y la distribución a priori correspondiente será la distribución menos<br />

favorable. Como Eθ(T )=nθ y var(T )=nθ(1 − θ) se tiene<br />

Eθ(δa,b) =<br />

nθ + a<br />

, (4.29)<br />

n + a + b


4.2. ESTIMADORES MINIMAX 11<br />

y<br />

nθ(1 − θ)<br />

varθ(δa,b) = , (4.30)<br />

(n + a + b) 2<br />

Luego, usando (4.29) y (4.30) se <strong>de</strong>duce que<br />

R(δa,b,θ) = E((δa,b − θ) 2 )<br />

= varθ(δa,b)+(θ − Eθ(δa,b)) 2<br />

=<br />

<br />

nθ(1 − θ) nθ + a<br />

+ θ −<br />

(n + a + b) 2 n + a + b<br />

2<br />

= nθ(1 − θ)+(a + b)2 θ 2 − 2a(a + b)θ + a 2<br />

(n + a + b) 2<br />

= (−n +(a + b)2 )θ 2 +(n − 2a(a + b))θ + a 2<br />

(n + a + b) 2 . (4.31)<br />

Para que (4.31) sea constante en θ, los coeficientes en θ y θ 2 <strong>de</strong>l numerador<br />

<strong>de</strong>ben ser 0. Por lo tanto, se <strong>de</strong>be cumplir<br />

−n +(a + b) 2 =0, n− 2a(a + b) =0<br />

La solución <strong>de</strong> este sistema <strong>de</strong> ecuaciones es a = b = √ n/2, y por lo tanto<br />

el estimador <strong>de</strong> Bayes correspondiente, que será minimax, estará dado por<br />

δmmax = T +(√n/2) n + √ . (4.32)<br />

n<br />

La correspondiente función <strong>de</strong> riesgo está dada por<br />

R(δmmax,θ)=<br />

n/4<br />

(n + √ =<br />

n) 2<br />

1<br />

4( √ .<br />

n +1) 2<br />

El Teorema 1 no nos permite obtener un estimador minimax en el caso<br />

<strong>de</strong> la media <strong>de</strong> una distribución normal. El siguiente Teorema resultará útil<br />

en esa situación.<br />

Teorema 2. Supongamos que δ(X) sea un estimador tal que<br />

(i) R(δ, θ) =C ∀θ ∈ Θ,<br />

(ii) existe una sucesión <strong>de</strong> distribuciones a priori τk tales que<br />

lim<br />

k→∞ r(δτk ,τk) =C.


12 CHAPTER 4. ESTIMADORES BAYESIANOS Y MINIMAX<br />

Entonces δ es minimax.<br />

Demostración: Sea δ ′ otro estimador para q(θ). Se cumple entonces que<br />

sup R(δ<br />

θ<br />

′ <br />

, θ) ≥ R(δ ′ , θ)γk(θ)dθ = r(δ ′ ,τk) ≥ r(δτk ,τk). (4.33)<br />

Con lo cual, tomando límite en ambos miembros <strong>de</strong> (4.33), y usando (ii)<br />

se obtiene<br />

MR(δ ′ ) = sup R(δ<br />

θ<br />

′ , θ) ≥ C = MR(δ),<br />

y por lo tanto, δ es minimax.<br />

Ejemplo 4. Consi<strong>de</strong>remos una muestra aleatoria X =(X1, ..., Xn) <strong>de</strong> una<br />

distribución N(θ, σ 2 ), don<strong>de</strong> σ 2 conocida. El estimador δ(X) = ¯ X tiene como<br />

función <strong>de</strong> riesgo R(δ, θ) =σ 2 /n, y por lo tanto se cumple la condición (i)<br />

<strong>de</strong>l Teorema 2. Por otro lado, consi<strong>de</strong>remos una sucesión <strong>de</strong> distribuciones a<br />

priori τk=N(0,ρ2 k ) con ρ2k → +∞. Usando la función <strong>de</strong> pérdida cuadrática,<br />

<strong>de</strong> acuerdo a lo visto en el ejemplo 2, los estimadores <strong>de</strong> Bayes son<br />

don<strong>de</strong><br />

y que<br />

Es fácil ver que<br />

wk =<br />

δτk = wk ¯ X,<br />

n/σ 2<br />

(n/σ 2 )+(1/ρ 2 k ).<br />

(4.34)<br />

lim<br />

k→∞ wk = 1 (4.35)<br />

k→∞ ρ2 1/ρ<br />

k<br />

4 k<br />

((n/σ2 )+(1/ρ2 = 0 (4.36)<br />

k ))2<br />

lim<br />

k→∞ ρ2k (1 − wk) 2 = lim<br />

Por otro lado, se tiene<br />

R(δτk ,θ)=varθ(δτk )+(θ − Eθ(δτk ))2 = w 2 σ<br />

k<br />

2<br />

n +(1−wk) 2 θ 2 . (4.37)<br />

Luego<br />

r(δτk ,τk) =Eτk (R(δτk , θ)) = w2 σ<br />

k<br />

2<br />

n +(1−wk) 2 ρ 2 k .<br />

Con lo cual, usando (4.35) y (4.36) se concluye que<br />

lim<br />

k→∞ r(δτk ,τk) = σ2<br />

n


4.2. ESTIMADORES MINIMAX 13<br />

Por lo tanto se cumple la condición (ii) <strong>de</strong>l Teorema 2, y el estimador<br />

δ(X) = ¯ X es minimax. El Teorema 2 no nos permite obtener la unicidad<br />

<strong>de</strong>l estimador minimax.


Chapter 5<br />

Intervalos y Regiones <strong>de</strong><br />

Confianza<br />

5.1 Regiones <strong>de</strong> confianza – Definición y Ejemplos<br />

Consi<strong>de</strong>remos nuevamente el problema <strong>de</strong> estimación. Dado un vector X<br />

con distribución perteneciente a la familia F (x, θ) con θ ∈ Θ, un estimador<br />

puntual <strong>de</strong> θ es una función θ = δ(X) que representa un único valor que<br />

aproxima a θ. Si se da solamente ese valor no se tendrá ninguna i<strong>de</strong>a <strong>de</strong> la<br />

precisión <strong>de</strong> dicha aproximación, es <strong>de</strong>cir <strong>de</strong> las posibles diferencias entre θ y<br />

θ. Una forma <strong>de</strong> obtener información sobre la precisión <strong>de</strong> la estimación, en<br />

el caso <strong>de</strong> que θ sea unidimensional, es proporcionar un intervalo [a(X),b(X)]<br />

<strong>de</strong> manera que la probabilidad <strong>de</strong> que dicho intervalo contenga el verda<strong>de</strong>ro<br />

valor θ sea alta, por ejemplo, 0.95.<br />

En este caso, la precisión con que se conoce θ <strong>de</strong>pen<strong>de</strong> <strong>de</strong> la longitud <strong>de</strong>l<br />

intervalo, es <strong>de</strong>cir, <strong>de</strong> b(X) − a(X), cuanto más pequeña sea esa longitud,<br />

más <strong>de</strong>terminado quedará θ.<br />

Si θ es un vector <strong>de</strong> IR p , en vez <strong>de</strong> dar un intervalo para estimarlo, se<br />

<strong>de</strong>berá dar una cierta región <strong>de</strong> IR p , por ejemplo, esférica o rectangular.<br />

La siguiente <strong>de</strong>finición formaliza estos conceptos.<br />

Definición 1: Dado un vector X con distribución perteneciente a la familia<br />

F (x, θ) con θ ∈ Θ, una región <strong>de</strong> confianza S(X) para θ con nivel<br />

<strong>de</strong> confianza 1 − α será una función que a cada X le hace correspon<strong>de</strong>r un<br />

subconjunto <strong>de</strong> Θ <strong>de</strong> manera que P θ (θ ∈ S(X)) = 1 − α para todo θ ∈ Θ.<br />

Es <strong>de</strong>cir, S(X) cubre el valor verda<strong>de</strong>ro <strong>de</strong>l parámetro con probabilidad<br />

1


2 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />

1 − α. El valor <strong>de</strong> α <strong>de</strong>be ser fijado <strong>de</strong> acuerdo al grado <strong>de</strong> seguridad con<br />

que se quiere conocer θ; generalmente se toma α =0.05 ó α =0.01.<br />

Como caso particular, cuando θ sea unidimensional se dirá que S(X) es<br />

un intervalo <strong>de</strong> confianza si S(X) es <strong>de</strong> la forma<br />

La longitud <strong>de</strong> S(X)<br />

S(X) =[a(X),b(X)]<br />

L = b(X) − a(X)<br />

<strong>de</strong>pen<strong>de</strong>rá <strong>de</strong>l nivel α elegido, cuanto más chico sea α, o sea, cuanto más<br />

gran<strong>de</strong> sea la probabilidad con que el intervalo cubra al verda<strong>de</strong>ro valor <strong>de</strong>l<br />

parámetro, más gran<strong>de</strong> será la longitud <strong>de</strong> aquél, o sea, menos precisa la<br />

estimación <strong>de</strong> θ.<br />

Ejemplo 1: Sea X1,...,Xn una muestra <strong>de</strong> una población con distribución<br />

N(µ, σ2 0 ) don<strong>de</strong> µ es <strong>de</strong>sconocido y σ2 0 conocido. Supongamos que se necesite<br />

un intervalo <strong>de</strong> confianza para µ <strong>de</strong> nivel 1 − α.<br />

Consi<strong>de</strong>remos Xn =(1/n) n i=1 Xi. Sabemos que Xn tiene distribución<br />

N(µ, σ 2 0 /n). Luego V = √ n(Xn − µ)/σ0, tendrá distribución N(0, 1). La<br />

ventaja <strong>de</strong> la variable aleatoria V sobre Xn es que tiene distribución in<strong>de</strong>pendiente<br />

<strong>de</strong> µ.<br />

Definimos zα tal que P (V ≥ zα) =α; y por simetría P (V ≤−zα) =α.<br />

Luego<br />

P (−z α<br />

2 ≤ V ≤ z α<br />

2 ) = 1− P (V ≤ z α<br />

2 ) − P (V ≤−z α<br />

2 )<br />

= 1− α α<br />

− =1− α.<br />

2 2<br />

Si reemplazamos V por √ n(Xn − µ)/σ0 se tendrá<br />

<br />

<br />

Pµ<br />

−z α<br />

2 ≤ √ <br />

Xn − µ<br />

n<br />

σ0<br />

con lo cual, <strong>de</strong>spejando resulta<br />

Pµ(Xn − z α<br />

2<br />

≤ z α<br />

2<br />

σ0<br />

√ n ≤ µ ≤ Xn + z α<br />

2<br />

=1− α,<br />

σ0<br />

√ n )=1− α.<br />

Por lo tanto, un intervalo <strong>de</strong> confianza para µ <strong>de</strong> nivel 1 − α será<br />

<br />

<br />

σ0<br />

σ0<br />

S(X) = Xn − z α √ , Xn + z α √<br />

2 n 2 n


5.2. PROCEDIMIENTOS GENERALES PARA OBTENER REG... 3<br />

ya que<br />

Pµ[µ ∈ S(X)] = 1 − α.<br />

Conviene precisar nuevamente el significado <strong>de</strong> esta igualdad. Para fijar<br />

i<strong>de</strong>as, supongamos α =0.05. La expresión “S(X) cubre a µ con probabilidad<br />

0.95”, indica que si un experimentador extrayese un número suficientemente<br />

gran<strong>de</strong> <strong>de</strong> muestras X <strong>de</strong> tamaño n <strong>de</strong> una distribución N(µ, σ 2 0 )y<br />

construyese las regiones S(X) correspondientes a cada una <strong>de</strong> ellas, aproximadamente<br />

el 95% <strong>de</strong> estas regiones S(X) contendrán el parámetro µ. Esto<br />

es, dada X, la afirmación “S(X) cubre a µ” tiene probabilidad 0.95 <strong>de</strong> ser<br />

correcta y probabilidad 0.05 <strong>de</strong> ser falsa.<br />

Ejemplo 2: Un físico hace 16 mediciones <strong>de</strong> cierta magnitud (a <strong>de</strong>terminar),<br />

dichas mediciones Xi serán Xi = µ + ɛi don<strong>de</strong> ɛi son los errores <strong>de</strong> medición.<br />

Supongamos que los ɛi son variables aleatorias in<strong>de</strong>pendientes con distribución<br />

N(0, 4) (dato que se conoce por experimentos anteriores).<br />

Supongamos que el promedio <strong>de</strong> las 16 observaciones obtenidas es X16 =<br />

20 y consi<strong>de</strong>remos el problema <strong>de</strong> encontrar un intervalo <strong>de</strong> confianza para<br />

µ con nivel 0.95; luego α =0.05 y <strong>de</strong> las tablas normales se obtiene z α/2 =<br />

z0.025 =1.96.<br />

Luego el intervalo <strong>de</strong> confianza será:<br />

<br />

20 − 1.96√ 4<br />

√ 16<br />

, 20 + 1.96√ <br />

4<br />

√ = [19.02 , 20.98],<br />

16<br />

y su longitud es 1.96.<br />

Supongamos ahora que se quiere conocer cuál <strong>de</strong>berá ser el número <strong>de</strong><br />

observaciones para que el intervalo sea <strong>de</strong> longitud 0.1. Entonces<br />

0.1 =1.96 2<br />

√ o sea<br />

n √ n =1.96 2<br />

0.1 =39.2<br />

<strong>de</strong> don<strong>de</strong>, n = (39.2) 2 = 1536.64. Por lo tanto, se necesitan 1537 observaciones<br />

para obtener un intervalo con la longitud <strong>de</strong>seada.<br />

5.2 Procedimientos generales para obtener regiones<br />

<strong>de</strong> confianza<br />

Teorema 1: Sea X un vector aleatorio cuya distribución pertenece a la<br />

familia F (x, θ), θ ∈ Θ, y sea U = G(X, θ) una variable aleatoria cuya


4 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />

distribución es in<strong>de</strong>pendiente <strong>de</strong> θ. Sean A y B tales que P (A ≤ U ≤ B) =<br />

1−α. Luego, si se <strong>de</strong>fine S(X) ={θ : A ≤ G(X, θ) ≤ B}, se tiene que S(X)<br />

es una región <strong>de</strong> confianza a nivel (1 − α) para θ.<br />

Demostración:<br />

Pθ (θ ∈ S(X)) = Pθ (A ≤ G(X, θ) ≤ B) =<br />

= Pθ (A ≤ U ≤ B) =P (A ≤ U ≤ B) =1− α<br />

la penúltima igualdad es válida pues la distribución <strong>de</strong> U es in<strong>de</strong>pendiente<br />

<strong>de</strong> θ.<br />

Cabe preguntarse bajo qué condiciones S(X) es un intervalo, en el caso en<br />

que θ es unidimensional. Notemos que, en ese caso, si G(X,θ) es monótona<br />

como función <strong>de</strong> θ, para cada valor <strong>de</strong> X dado, entonces<br />

hX(θ) =G(X,θ)<br />

tiene inversa.<br />

Supongamos hX(θ) creciente, resulta entonces<br />

S(X) ={θ : h −1<br />

X (A) ≤ θ ≤ h−1<br />

X (B)}<br />

es <strong>de</strong>cir, S(X) es un intervalo.<br />

Si hX(θ) es <strong>de</strong>creciente, resultará en forma análoga,<br />

S(X) ={θ : h −1<br />

X (B) ≤ θ ≤ h−1<br />

X (A)}<br />

Nota: En el Ejemplo 1, consi<strong>de</strong>ramos U = √ n(Xn − µ)/σ0 y vimos que<br />

esta variable aleatoria tiene distribución N(0, 1), o sea, in<strong>de</strong>pendiente <strong>de</strong> µ.<br />

En ese ejemplo tomamos A = −zα/2 y B = zα/2. También podríamos haber<br />

tomado A = −zβ y B = zγ don<strong>de</strong> β y γ son arbitrarios tales que β + γ = α.<br />

El hecho <strong>de</strong> tomar β = γ = α/2 se <strong>de</strong>be a que <strong>de</strong> esta forma se obtiene el<br />

intervalo más pequeño posible (Ver problema 1 <strong>de</strong> 5.1).<br />

Veamos que el procedimiento que hemos usado en dicho ejemplo es el<br />

que se <strong>de</strong>duce <strong>de</strong>l Teorema 1.<br />

De acuerdo al Teorema 1,<br />

S(X) =<br />

=<br />

{µ : −z α<br />

<br />

=<br />

µ : −z α<br />

2 ≤<br />

<br />

µ : −z α<br />

2<br />

2 ≤ G(X,µ) ≤ z α<br />

2<br />

√ n(Xn − µ)<br />

σ0<br />

} =<br />

≤ z α<br />

2<br />

<br />

=<br />

σ0<br />

√ n + Xn ≤ µ ≤ Xn + z α<br />

2<br />

<br />

σ0<br />

√<br />

n<br />

.


5.2. PROCEDIMIENTOS GENERALES PARA OBTENER REG... 5<br />

Vamos a tratar <strong>de</strong> usar un procedimiento similar para el caso <strong>de</strong> tener una<br />

muestra X1,X2,...,Xn <strong>de</strong> una distribución N(µ, σ 2 ) don<strong>de</strong> ahora también<br />

σ 2 es <strong>de</strong>sconocido. En este caso, parece natural reemplazar σ 2 por un estimador<br />

<strong>de</strong>l mismo. Sabemos que el estimador IMVU para σ 2 es<br />

s 2 = 1<br />

n − 1<br />

n<br />

(Xi − X)<br />

i=1<br />

2 ,<br />

y luego podríamos <strong>de</strong>finir<br />

√<br />

n(X − µ)<br />

U =<br />

(5.1)<br />

s<br />

Para po<strong>de</strong>r aplicar el método que nos proporciona el Teorema 1, <strong>de</strong>bemos<br />

<strong>de</strong>mostrar que U tiene una distribución que no <strong>de</strong>pen<strong>de</strong> <strong>de</strong> µ y σ2 y, a<strong>de</strong>más,<br />

<strong>de</strong>bemos conocer esa distribución. Esto se hará en el siguiente Teorema.<br />

Teorema 2: Sea X1, ..., Xn una muestra aleatoria <strong>de</strong> una distribución<br />

N(µ, σ 2 ). Luego<br />

(i) V = √ n(X − µ) tiene distibución N(0, 1)<br />

(ii) W = n i=1 (Xi − X) 2 /σ 2 tiene distribución χ 2 con n-1 grados <strong>de</strong> libertad<br />

(iii) V y W son in<strong>de</strong>pendientes<br />

(iv) U dado por (5.1) tiene distribución Tn−1, <strong>de</strong> Stu<strong>de</strong>nt con n − 1 grados<br />

<strong>de</strong> libertad.<br />

Demostración: Sea Yi =(Xi − µ)/σ, 1 ≤ i ≤ n. Luego estas variables<br />

forman una muestra aleatoria <strong>de</strong> una distribución N(0, 1). A<strong>de</strong>más, es fácil<br />

verificar que<br />

V = √ n Y, W =<br />

n<br />

i=1<br />

Y 2<br />

i , U =<br />

V<br />

W/(n − 1) , (5.2)<br />

Sea a1 el vector fila n-dimensional con todas sus componentes iguales a<br />

1/ √ n. Como a1 = 1, se pue<strong>de</strong> completar una base ortonormal a1,...,an.<br />

Sea A la matriz <strong>de</strong> n × n cuyas filas son a1,...an. Como las filas <strong>de</strong> A son<br />

ortogonales y <strong>de</strong> norma 1, la matriz A resulta ortogonal. Consi<strong>de</strong>remos


6 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />

la transformación Z = AY, don<strong>de</strong> Y =(Y1, ..., Yn) ′ y Z =(Z1, ..., Zn) ′ .<br />

Luego, por una propiedad <strong>de</strong> los vectores normales respecto <strong>de</strong> transformaciones<br />

ortogonales, las variables Z1, ..., Zn son también in<strong>de</strong>pendientes con<br />

distribución N(0, 1). Por otro lado, resulta<br />

Z1 =<br />

n<br />

i=1<br />

y el punto (i) queda <strong>de</strong>mostrado.<br />

A<strong>de</strong>más, se tiene que:<br />

n<br />

(Yi − Y )<br />

i=1<br />

2 n<br />

= Y<br />

i=1<br />

2<br />

i − nY 2 n<br />

=<br />

i=1<br />

Como A es ortogonal se <strong>de</strong>duce que<br />

Yi<br />

√ n = √ n Y = V (5.3)<br />

n<br />

Z<br />

i=1<br />

2 n<br />

i = Y<br />

i=1<br />

2<br />

i ,<br />

y usando (5.2) y (5.4) obtenemos<br />

n<br />

W = Z<br />

i=2<br />

2 i ,<br />

Y 2<br />

i − Z 2 1. (5.4)<br />

y por lo tanto queda <strong>de</strong>mostrado (ii).<br />

Como V <strong>de</strong>pen<strong>de</strong> <strong>de</strong> Z1 y W <strong>de</strong> Z2, ..., Zn también queda <strong>de</strong>mostrado<br />

(iii).<br />

Finalmente, (iv) se <strong>de</strong>duce <strong>de</strong> los puntos (i), (ii), (iii) <strong>de</strong>l Teorema y <strong>de</strong><br />

(5.2).<br />

Estamos ahora en condiciones <strong>de</strong> encontrar intervalos <strong>de</strong> confianza para<br />

la media, en el caso <strong>de</strong> una muestra aleatoria con media y varianza <strong>de</strong>sconocidas.<br />

Definamos tn,α por la ecuación<br />

P (U >tn,α) =α<br />

don<strong>de</strong> U es una variable aleatoria Tn. Luego, análogamente al caso normal,<br />

se tiene:<br />

P (−t α<br />

n, )=1− α<br />

2 ≤ U ≤ tn, α<br />

2


5.2. PROCEDIMIENTOS GENERALES PARA OBTENER REG... 7<br />

Teorema 3: Sea X1,X2,...,Xn una muestra aleatoria cuya distribución<br />

pertenece a la familia N(µ, σ2 ) con µ y σ2 <strong>de</strong>sconocidos. Luego si<br />

ni=1 ni=1(Xi Xi<br />

− X) 2<br />

X =<br />

n<br />

y s 2 =<br />

n − 1<br />

se tiene que un intervalo <strong>de</strong> confianza con nivel (1−α) para µ está dado por:<br />

<br />

X − t n−1, α<br />

2<br />

s<br />

√ n , X + t n−1, α<br />

2<br />

<br />

s<br />

√<br />

n<br />

Demostración: Por el Teorema 2 se tiene que U = √ n(X − µ)/s tiene<br />

distribución Tn−1 y luego<br />

Luego, por el Teorema 1<br />

<br />

P (−t n−1, α<br />

µ : −t n−1, α<br />

2<br />

2 ≤ U ≤ tn−1, α<br />

2<br />

≤ X − µ<br />

s<br />

)=1− α.<br />

√ n ≤ tn−1, α<br />

2<br />

es una región <strong>de</strong> confianza para µ con nivel 1 − α. Pero esta región es<br />

equivalente a<br />

<br />

<br />

s<br />

s<br />

µ : X − t α<br />

n−1, √ ≤ µ ≤ X + t α<br />

n−1, √ .<br />

2 n 2 n<br />

En el próximo Teorema encontraremos intervalos <strong>de</strong> confianza para la<br />

varianza, en el caso <strong>de</strong> una muestra normal, con media conocida o no.<br />

Definamos χ 2 n,α por la ecuación<br />

P (U >χ 2 n,α) =α<br />

don<strong>de</strong> U es una variable aleatoria con distribución χ 2 n .<br />

Teorema 4: Sea X1,...,Xn una muestra aleatoria cuya distribución pertenece<br />

a la familia N(µ, σ 2 ). Sean β y γ tales que β + γ = α<br />

(i) Si µ es conocido, un intervalo <strong>de</strong> confianza <strong>de</strong> nivel 1 − α para σ2 está<br />

dado por: ni=1 (Xi − µ) 2<br />

≤ σ 2 ni=1 (Xi − µ)<br />

≤<br />

2<br />

<br />

χ 2 n,β<br />

χ 2 n,1−γ


8 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />

(ii) Si µ es <strong>de</strong>sconocido, un intervalo <strong>de</strong> confianza <strong>de</strong> nivel 1 − α para σ 2<br />

está dado por:<br />

ni=1 (Xi − X) 2<br />

χ 2 n−1,β<br />

≤ σ 2 ≤<br />

ni=1 (Xi − X) 2<br />

<br />

χ 2 n−1,1−γ<br />

Demostración: (i) Sea W = n i=1 (Xi − µ) 2 /σ 2 . Como las variables Yi =<br />

(Xi − µ)/σ son in<strong>de</strong>pendientes, con distribución N(0, 1) y W = n i=1 Y 2<br />

i<br />

entonces W tiene distribución χ 2 n. Luego:<br />

P (χ 2 n,1−γ ≤ W ≤ χ 2 n,β) = P (W ≥ χ 2 n,1−γ) − P (W >χ 2 n,β) =<br />

= 1− γ − β =1− α<br />

Entonces, una región <strong>de</strong> confianza a nivel 1 − α está dada por<br />

<br />

σ 2 : χ 2 n,1−γ ≤<br />

ni=1 (Xi − µ) 2<br />

σ2 ≤ χ 2 <br />

n,β =<br />

<br />

= σ 2 1<br />

:<br />

χ2 ni=1 (Xi − µ)<br />

≤<br />

n,β<br />

2<br />

σ2 ≤ 1<br />

χ2 <br />

n,1−γ<br />

y esto es equivalente a la región <strong>de</strong>finida en (i).<br />

(ii) Definamos ahora<br />

W =<br />

ni=1 (Xi − X) 2<br />

Sabemos por el Teorema 2 (ii) que W tiene distribución χ2 n−1 . Por lo tanto:<br />

σ 2<br />

P (χ 2 n−1,1−γ ≤ W ≤ χ2n−1,β )=1− α<br />

Entonces, una región <strong>de</strong> confianza <strong>de</strong> nivel 1 − α está dada por:<br />

<br />

<br />

=<br />

=<br />

σ 2 : χ 2 ni=1 (Xi − X)<br />

n−1,1−γ ≤<br />

2<br />

σ2 ≤ χ 2 n−1,β<br />

<br />

σ 2 1<br />

:<br />

χ2 σ<br />

≤<br />

n−1,β<br />

2<br />

1<br />

ni=1 ≤<br />

(Xi − X) 2 χ2 <br />

n−1,1−γ<br />

ni=1 (Xi − X) 2 ni=1 (Xi − X) 2<br />

<br />

σ 2 :<br />

χ 2 n−1,β<br />

≤ σ 2 ≤<br />

χ 2 n−1,1−γ<br />

.


5.3. PROCEDIMIENTOS EN DOS PASOS PARA ENCONTRAR... 9<br />

5.3 Procedimiento en dos pasos para encontrar un<br />

intervalo <strong>de</strong> longitud prefijada para la media<br />

<strong>de</strong> una N(µ, σ 2 ), µ y σ <strong>de</strong>sconocidos<br />

Volvamos a consi<strong>de</strong>rar el intervalo <strong>de</strong> confianza para µ cuando σ 2 es <strong>de</strong>sconocido,<br />

en el caso <strong>de</strong> una muestra con distribución N(µ, σ 2 ). La longitud <strong>de</strong><br />

dicho intervalo, L(X1,...,Xn), está dada por<br />

L(X1,...,Xn) =2t n−1, α<br />

2<br />

s<br />

√ n<br />

Como se ve, este intervalo tiene longitud variable, ya que <strong>de</strong>pen<strong>de</strong> <strong>de</strong> s,<br />

que es una variable aleatoria <strong>de</strong>pendiente <strong>de</strong> los valores que toma la muestra.<br />

Luego, es imposible calcular n <strong>de</strong> modo que la longitud <strong>de</strong>l intervalo<br />

sea igual a un número prefijado. Esto es comprensible, ya que lógicamente<br />

cuanto más gran<strong>de</strong> sea la varianza, más gran<strong>de</strong> <strong>de</strong>be ser la muestra necesaria<br />

para obtener la misma precisión en la estimación <strong>de</strong> µ. Como σ 2 no es conocida,<br />

no se podrá asegurar con una muestra <strong>de</strong> tamaño fijo una <strong>de</strong>terminada<br />

precisión, es <strong>de</strong>cir, una <strong>de</strong>terminada longitud <strong>de</strong>l intervalo. Una manera <strong>de</strong><br />

solucionar este problema es tomando dos muestras, una inicial para estimar<br />

σ 2 , y en base a esta estimación, <strong>de</strong>terminar el tamaño <strong>de</strong> otra muestra complementaria<br />

que nos permita obtener un intervalo con la longitud <strong>de</strong>seada.<br />

Seguidamente <strong>de</strong>scribimos el método. Supongamos que se quiera obtener<br />

un intervalo <strong>de</strong> confianza <strong>de</strong> longitud L para la media µ, <strong>de</strong> una población<br />

normal con media y varianza <strong>de</strong>sconocida. Se toma una muestra inicial <strong>de</strong><br />

tamaño m : X1,...,Xm. Este valor m inicial, pue<strong>de</strong> ser cualquier valor<br />

mayor que dos. A partir <strong>de</strong> este valor inicial estimamos σ 2 por:<br />

s 2 m<br />

= 1<br />

m − 1<br />

m<br />

(Xi − Xm)<br />

i=1<br />

2<br />

2t m−1, α<br />

2<br />

don<strong>de</strong> Xm = 1<br />

m<br />

m<br />

Xi<br />

i=1<br />

Luego, la muestra complementaria se <strong>de</strong>be tomar <strong>de</strong> tamaño n don<strong>de</strong> n<br />

satisface<br />

sm<br />

√ ≤ L<br />

m + n<br />

(5.5)<br />

Sea Xm+1,...,Xm+n la muestra complementaria y<br />

Xm+n = 1<br />

m+n <br />

m + n<br />

i=1<br />

Xi


10 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />

El intervalo <strong>de</strong> confianza <strong>de</strong> nivel 1 − α estará dado por:<br />

<br />

<br />

sm<br />

sm<br />

Xm+n − t α<br />

m−1, √ , Xm+n + t α<br />

m−1, √<br />

2 m + n 2 m + n<br />

(5.6)<br />

Este intervalo tiene longitud 2t m−1, α<br />

2 sm/ √ m + n que por (5.5) es menor o<br />

igual que L.<br />

El siguiente Teorema muestra que el intervalo dado por (5.6) es un intervalo<br />

<strong>de</strong> confianza para µ <strong>de</strong> nivel 1 − α.<br />

Teorema 5: Sean X1, ...Xn variables aleatorias in<strong>de</strong>pendientes con distribución<br />

N(µ, σ 2 ), don<strong>de</strong> n se elige satisfaciendo (5.5). Luego el intervalo<br />

dado por (5.6) es un intervalo <strong>de</strong> confianza <strong>de</strong> nivel 1-α <strong>de</strong> longitud menor<br />

o igual que L.<br />

Demostración: Comencemos por mostrar las siguientes proposiciones:<br />

(i) W =(m − 1)s 2 m /σ2 tiene distribución χ 2 m−1<br />

(ii) V = √ m + n(Xm+n − µ)/σ tiene distribución N(0, 1)<br />

(iii) V y W son in<strong>de</strong>pendientes<br />

(iv) √ m + n(Xm+n − µ)/sm tiene distribución Tm−1<br />

En el Teorema 2 ya ha sido probado (i).<br />

Podría parecer que (ii) fue <strong>de</strong>mostrada en el mismo Teorema. Sin embargo,<br />

esto es no es cierto ya que lo que se <strong>de</strong>mostró es que el promedio<br />

normalizado <strong>de</strong> observaciones N(µ, σ2 ) tiene distribución N(0, 1), para<br />

un tamaño <strong>de</strong> muestra fijo. En nuestro caso, n es un número aleatorio,<br />

ya que <strong>de</strong>pen<strong>de</strong> <strong>de</strong>l valor sm, obtenido con las primeras m observaciones.<br />

Comencemos obteniendo la función <strong>de</strong> distribución conjunta <strong>de</strong> V y W ,<br />

FVW(v, w) =P (V ≤ v, W ≤ w).<br />

Llamemos Ai al evento {n = i}. Los sucesos Ai son obviamente disjuntos y<br />

a<strong>de</strong>más ∞ i=1 Ai = Ω, don<strong>de</strong> Ω es el espacio muestral.<br />

Dado un evento cualquiera A, se tiene<br />

∞<br />

A =<br />

P (A) =<br />

i=1<br />

∞<br />

i=1<br />

(A ∩ Ai)<br />

P (A ∩ Ai),


5.3. PROCEDIMIENTOS EN DOS PASOS PARA ENCONTRAR... 11<br />

y por lo tanto,<br />

FV W(v, w) =<br />

∞<br />

P (V ≤ v, W ≤ w) = P (V ≤ v,W ≤ w, n= i)<br />

i=0<br />

=<br />

∞<br />

P (<br />

i=0<br />

√ m + i (Xm+i − µ)<br />

≤ v,W ≤ w, n= i) .<br />

σ<br />

En virtud <strong>de</strong>l Teorema 2, se tiene que m j=1 Xj es in<strong>de</strong>pendiente <strong>de</strong> sm y<br />

por otra parte, cada Xj con j>mtambién es in<strong>de</strong>pendiente <strong>de</strong> sm. Por<br />

lo tanto, como Xm+i =(1/(m + i))( m j=1 Xj + m+i<br />

j=m+1 Xj) se <strong>de</strong>duce que<br />

Xm+i es in<strong>de</strong>pendiente <strong>de</strong> sm.<br />

Por otro lado, <strong>de</strong> acuerdo con su <strong>de</strong>finición, n <strong>de</strong>pen<strong>de</strong> sólo <strong>de</strong> sm. Luego,<br />

el suceso<br />

{ √ m + i (Xm+i − µ)<br />

σ<br />

≤ v}<br />

es in<strong>de</strong>pendiente <strong>de</strong> {W ≤ w}∩{n = i} y por lo tanto,<br />

FVW(v, w) =<br />

∞<br />

i=1<br />

P ( √ m + i (Xm+i − µ)<br />

σ<br />

≤ v)P (W ≤ w, n= i) .<br />

Pero, por el Teorema 2, para cada i fijo √ m + i(Xm+i − µ)/σ tiene distribución<br />

N(0, 1). Luego si Φ(v) es la función <strong>de</strong> distribución <strong>de</strong> una variable<br />

N(0, 1), se tendrá<br />

FVW(v, w) =<br />

∞<br />

Φ(v)P (W ≤ w, n= i)<br />

i=1<br />

=<br />

∞<br />

Φ(v) P (W ≤ w, n= i) .<br />

i=0<br />

Pero ∞ i=1 P (W ≤ w, n= i) =P (W ≤ w) =FW (w). Por lo tanto, se tiene<br />

y como<br />

FVW(v, w) =Φ(v)FW (w) (5.7)<br />

FV (v) = lim<br />

w→∞ FVW(v, w) =Φ(v) lim<br />

w→∞ FW (w) =Φ(v) ,<br />

hemos <strong>de</strong>mostrado (ii).


12 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />

Para <strong>de</strong>mostrar (iii) reemplacemos en (5.7) Φ(v) porFV (v) y obtenemos<br />

FVW(v, w) =FV (v)FW (w)<br />

lo que implica que V y W son in<strong>de</strong>pendientes.<br />

(iv) se <strong>de</strong>duce inmediatamente <strong>de</strong> (i), (ii) y (iii), teniendo en cuenta que<br />

√<br />

m + n(Xm+n − µ)<br />

=<br />

sm<br />

√ m + n(Xm+n − µ)/σ<br />

((m − 1)s 2 m/(m − 1)σ 2 ) 1/2<br />

Llamemos U a esta última variable, <strong>de</strong> acuerdo a (iv) se tiene que U tiene<br />

distribución in<strong>de</strong>pendiente <strong>de</strong> µ y σ 2 y a<strong>de</strong>más<br />

µ : −t m−1, α<br />

2 ≤<br />

P (−t m−1, α<br />

2 ≤ U ≤ tm−1, α<br />

2<br />

)=1− α<br />

Luego, <strong>de</strong> acuerdo con el método general para obtener regiones <strong>de</strong> confianza,<br />

se tendrá que una región <strong>de</strong> confianza para µ <strong>de</strong> nivel (1 − α) estará dada<br />

por:<br />

<br />

√ <br />

m + n(Xm+n − µ)<br />

=<br />

<br />

µ : Xm+n − t m−1, α<br />

2<br />

sm<br />

≤ t m−1, α<br />

2<br />

sm<br />

√ m + n ≤ µ ≤ Xm+n + t m−1, α<br />

2<br />

<br />

sm<br />

√<br />

m + n<br />

Nota: El tamaño <strong>de</strong> la muestra inicial, m, pue<strong>de</strong> ser, en principio, cualquiera<br />

con la condición <strong>de</strong> que sea mayor que dos. El valor más conveniente a<br />

usar <strong>de</strong>pen<strong>de</strong>rá <strong>de</strong>l conocimiento previo que se tenga sobre σ 2 . Si m es<br />

muy pequeño, la estimación <strong>de</strong> σ 2 será poco confiable y habrá que tomar<br />

una segunda muestra gran<strong>de</strong>, con lo cual aumentará el costo. Si se toma<br />

muy gran<strong>de</strong>, es probable que se tomen más observaciones que las necesarias.<br />

Lo i<strong>de</strong>al sería elegir m cerca <strong>de</strong>l número total <strong>de</strong> observaciones que serían<br />

necesarias si se conociera σ 2 .<br />

5.4 Intervalos <strong>de</strong> confianza para diferencia <strong>de</strong> medias<br />

<strong>de</strong> una distribución normal<br />

5.4.1 Muestras in<strong>de</strong>pendientes<br />

Supongamos primero que se tienen dos muestras aleatorias X1,...,Xn1 y<br />

Y1,...,Yn2 in<strong>de</strong>pendientes entre sí, <strong>de</strong> distribuciones N(µ1,σ 2 )yN(µ2,σ 2 )<br />

.


5.4. INTERVALOS DE CONFIANZA PARA DIFERENCIA... 13<br />

respectivamente con µ1,µ2 y σ 2 <strong>de</strong>sconocidos, y se <strong>de</strong>sea encontrar un intervalo<br />

<strong>de</strong> confianza para λ = µ1 − µ2. Observemos que ˆ λ = Y − X es un<br />

estimador insesgado <strong>de</strong> λ. Es fácil <strong>de</strong>mostrar utilizando el Teorema 2 <strong>de</strong> la<br />

sección 3.12 que este estimador es IMVU.<br />

La varianza <strong>de</strong> este estimador es<br />

<br />

1<br />

Por lo tanto,<br />

U = ˆ λ − λ<br />

σˆ λ<br />

σ 2 ˆ λ = σ 2<br />

=<br />

n1 · n2<br />

n1 + n2<br />

n1<br />

+ 1<br />

<br />

n2<br />

· X − Y − (µ1 − µ2)<br />

σ<br />

(5.8)<br />

(5.9)<br />

tiene distribución N(0,1).<br />

Como σ es <strong>de</strong>sconocido, no po<strong>de</strong>mos utilizar U para encontrar un intervalo<br />

<strong>de</strong> confianza para λ. La solución a este problema es reemplazar σ por<br />

un estimador. Un estimador insesgado <strong>de</strong> σ2 es<br />

s 2 <br />

n1<br />

1 <br />

=<br />

(Xi − X)<br />

n1 + n2 − 2<br />

2 n2 <br />

+ (Yi − Y ) 2<br />

<br />

i=1<br />

Para <strong>de</strong>mostrar que s 2 es insesgado basta recordar que <strong>de</strong> acuerdo a lo<br />

visto en el Capítulo 3 se tiene<br />

y<br />

n1 <br />

E(<br />

i=1<br />

(Xi − X)<br />

i=1<br />

2 )=(n1 − 1)σ 2<br />

n2 <br />

E(<br />

(Yi − Y )<br />

i=1<br />

2 )=(n2 − 1)σ 2 .<br />

También <strong>de</strong>l Teorema 2 <strong>de</strong> la Sección 3.12 se pue<strong>de</strong> <strong>de</strong>ducir que s 2 es<br />

IMVU. Luego, <strong>de</strong>finimos el estadístico T reemplazando en U el parámetro σ<br />

por el estimador s, es <strong>de</strong>cir,<br />

don<strong>de</strong><br />

T = ˆ λ − λ<br />

ˆσˆ λ<br />

=<br />

n1n2<br />

n1 + n2<br />

ˆσ 2 λ ˆ = s 2<br />

<br />

1<br />

+<br />

n1<br />

1<br />

<br />

n2<br />

X − Y − (µ1 − µ2)<br />

s<br />

(5.10)<br />

(5.11)


14 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />

El siguiente Teorema prueba que T tiene distribución <strong>de</strong> Stu<strong>de</strong>nt con<br />

n1 + n2 − 2 grados <strong>de</strong> libertad<br />

Teorema 1: Sean X1, ..., Xn1 y Y1, ..., Yn2<br />

dos muestras aleatorias in<strong>de</strong>pen-<br />

dientes <strong>de</strong> las distribuciones N(µ1,σ2 )yN(µ2,σ2 ) respectivamente. Sean<br />

n1 i=1 (Xi − X) 2<br />

Luego<br />

V =<br />

W =<br />

σ 2<br />

n2<br />

i=1 (Yi − Y ) 2<br />

σ 2<br />

(i) U <strong>de</strong>finida en (5.9), V y W son variables aleatorias in<strong>de</strong>pendientes con<br />

distribuciones N(0, 1), χ 2 n1−1 y χ2 n2−1 respectivamente.<br />

(ii) La variable<br />

tiene distribución χ 2 n1+n2−2 .<br />

Z = V + W<br />

(iii) La variable T <strong>de</strong>finida en (5.10) tiene distribución Tn1+n2−2.<br />

(iv) El intervalo<br />

ˆλ − tn1+n2−2, α<br />

2 ˆσˆ λ , ˆ λ + t n1+n2−2, α<br />

2 ˆσˆ λ<br />

es un intervalo <strong>de</strong> confianza a nivel 1 − α para λ = µ1 − µ2.<br />

Demostración: Ya hemos <strong>de</strong>mostrado que U tiene distribución N(0, 1).<br />

Por otra parte, en el Teorema 2 <strong>de</strong> la Sección 5.2, se <strong>de</strong>mostró la in<strong>de</strong>pen<strong>de</strong>ncia<br />

entre X y V y entre Y y W . Como a<strong>de</strong>más resulta X in<strong>de</strong>pendiente <strong>de</strong><br />

W (la primera <strong>de</strong>pen<strong>de</strong> <strong>de</strong> X1,...,Xn1 y la segunda <strong>de</strong> Y1,...,Yn2 )yY in<strong>de</strong>pendiente<br />

<strong>de</strong> V , resulta U in<strong>de</strong>pendiente <strong>de</strong> V y W . En el mismo Teorema se<br />

<strong>de</strong>mostró que V y W tienen distribuciónes χ 2 n1−1 y χ2 n2−1<br />

<br />

, respectivamente.<br />

Resulta entonces claro que V y W son también in<strong>de</strong>pendientes.<br />

Para <strong>de</strong>mostrar (ii) basta utilizar el hecho <strong>de</strong> que suma <strong>de</strong> variables<br />

χ 2 in<strong>de</strong>pendientes tiene también distribución χ 2 con número <strong>de</strong> grados <strong>de</strong><br />

libertad igual a la suma <strong>de</strong> los grados <strong>de</strong> libertad <strong>de</strong> los sumandos.<br />

El resultado (iii) resulta inmediato <strong>de</strong> los puntos (i) y (ii). El resultado<br />

(iv) resulta <strong>de</strong> aplicar (ii) y el Teorema 1 <strong>de</strong> la Sección 5.2.


5.4. INTERVALOS DE CONFIANZA PARA DIFERENCIA... 15<br />

En el caso más simple en que σ2 sea conocido, se pue<strong>de</strong> también encontrar<br />

fácilmente un intervalo <strong>de</strong> confianza para λ utilizando el estadístico U.<br />

Si X1,...,Xn1 y Y1,...,Yn2 son muestras aleatorias in<strong>de</strong>pendientes en-<br />

tre sí <strong>de</strong> distribuciones N(µ1,σ2 1 )yN(µ2,σ2 2 ) con µ1,µ2,σ2 1 y σ2 2 <strong>de</strong>sconocidos<br />

(σ2 1 = σ2 2<br />

), el problema <strong>de</strong> encontrar una región <strong>de</strong> confianza para<br />

µ1 −µ2 con nivel exacto 1−α no tiene una solución totalmente satisfactoria.<br />

Este problema se conoce con el nombre <strong>de</strong> Behrens–Fisher. Sin embargo, es<br />

posible encontrar en forma sencilla un intervalo <strong>de</strong> confianza para µ1 − µ2<br />

<strong>de</strong> nivel asintótico 1 − α (ver <strong>de</strong>finición 1 y problema 7 <strong>de</strong> 5.6).<br />

Nota 1: Si X1,...,Xn1 y Y1,...,Yn2 son muestras aleatorias in<strong>de</strong>pendientes<br />

entre sí <strong>de</strong> distribuciones N(µ1,σ2 1 )yN(µ2,σ2 2 ) respectivamente, con µ1,µ2<br />

conocidos o no, entonces:<br />

(1) Si σ 2 1 = σ2 2 = σ2 se pue<strong>de</strong>n encontrar intervalos <strong>de</strong> confianza para σ 2<br />

(o para σ) (ver problema 1 <strong>de</strong> 5.4).<br />

(2) Si no se pue<strong>de</strong> suponer σ2 1 = σ2 2<br />

confianza para σ2 2 /σ2 1 (o para σ2/σ1) (ver problema 2 <strong>de</strong> 5.4).<br />

5.4.2 Muestras apareadas<br />

es posible encontrar intervalos <strong>de</strong><br />

Supongamos ahora que (X1,Y1),...,(Xn,Yn) es una muestra aleatoria <strong>de</strong><br />

una distribución normal bivariada N(µ1,µ2,σ2 1 ,σ2 2 ,ρ) con µ1,µ2,σ2 1 ,σ2 2 ,ρ<strong>de</strong>sconocidos<br />

y que se <strong>de</strong>sea encontrar un intervalo <strong>de</strong> confianza para<br />

λ = µ1 − µ2.<br />

En este caso po<strong>de</strong>mos <strong>de</strong>finir las variables Zi = Xi −Yi, 1≤ i ≤ n. Estas<br />

variables forman una muestra <strong>de</strong> una distribución N(λ,σ2 Z ), con<br />

σ 2 Z = σ 2 1 + σ 2 2 − 2ρσ1σ2,<br />

y por lo tanto, <strong>de</strong> acuerdo a lo visto en el Teorema 3 <strong>de</strong> la Sección 5.2<br />

tenemos que un intervalo <strong>de</strong> confianza <strong>de</strong> nivel 1 − α está dado por<br />

don<strong>de</strong><br />

Z = 1<br />

n<br />

<br />

Z − t n−1, α<br />

2<br />

n<br />

i=1<br />

sZ<br />

√ n , Z + t n−1, α<br />

2<br />

Zi, s 2 Z = 1<br />

n − 1<br />

n<br />

<br />

sZ<br />

√<br />

n<br />

(Zi − Z)<br />

i=1<br />

2 .<br />

(5.12)


16 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />

Nota 2: Muchas veces, en los casos reales, interesará <strong>de</strong>cidir antes <strong>de</strong> tomar<br />

la muestra, si conviene usar un diseño <strong>de</strong> muestras aleatorias in<strong>de</strong>pendientes<br />

entre sí provenientes <strong>de</strong> distribuciones N(µ1,σ 2 ), N(µ2,σ 2 ) o muestras<br />

apareadas provenientes <strong>de</strong> una distribución bivariada, N(µ1,µ2,σ 2 ,σ 2 ,ρ).<br />

Por ejemplo, si se quiere estimar la diferencia <strong>de</strong> rendimientos <strong>de</strong> dos<br />

varieda<strong>de</strong>s <strong>de</strong> un cereal, uno podría preguntarse cuál <strong>de</strong> los dos diseños<br />

siguientes proveerá más información sobre esta diferencia:<br />

(i) Elegir al azar en el terreno consi<strong>de</strong>rado 2n parcelas <strong>de</strong> área A. En n <strong>de</strong><br />

ellas elegidas al azar cultivar la variedad 1 y en en los restantes cultivar<br />

la variedad 2.<br />

(ii) Elegir al azar n parcelas <strong>de</strong> área 2A y dividir cada una <strong>de</strong> ellas en<br />

dos mita<strong>de</strong>s <strong>de</strong> la misma área. y luego éstas en dos mita<strong>de</strong>s. En cada<br />

mitad <strong>de</strong> una parcela cultivar una variedad distinta.<br />

En el primer caso, tendríamos un diseño correspondiente a muestras<br />

aleatorias normales in<strong>de</strong>pendientes entre sí. En el segundo, uno correspondiente<br />

a muestras apareadas que podrían ser consi<strong>de</strong>radas provenientes <strong>de</strong><br />

una normal bivariada con un cierto cociente <strong>de</strong> correlación ρ.<br />

Trataremos <strong>de</strong> <strong>de</strong>terminar cuál <strong>de</strong> los dos diseños es mejor, comparando<br />

las longitu<strong>de</strong>s <strong>de</strong> los intervalos <strong>de</strong> confianza respectivos. Para esto supondremos<br />

que las varianzas para los rendimientos <strong>de</strong> ambos cereales son los<br />

mismos.<br />

Para el caso <strong>de</strong> muestras in<strong>de</strong>pendientes tendremos n1 = n2 = n, yla<br />

longitud <strong>de</strong>l intervalo viene dado por<br />

<br />

don<strong>de</strong><br />

don<strong>de</strong><br />

s 2 =<br />

L1 =2t 2n−2, α<br />

2<br />

2 s2<br />

n<br />

1<br />

<br />

n<br />

(Xi − X)<br />

2n − 2<br />

i=1<br />

2 +<br />

n<br />

(Yi − Y )<br />

i=1<br />

2<br />

y para el caso <strong>de</strong> muestras para muestras apareadas<br />

L2 =2t n−1, α<br />

2<br />

s 2 Z = 1<br />

n − 1<br />

n<br />

<br />

s 2 Z<br />

n<br />

(Zi − Z)<br />

i=1<br />

2 .


5.4. INTERVALOS DE CONFIANZA PARA DIFERENCIA... 17<br />

Como estas longitu<strong>de</strong>s <strong>de</strong>pen<strong>de</strong>n <strong>de</strong> la muestra consi<strong>de</strong>rada, y por lo<br />

tanto son aleatorias, consi<strong>de</strong>raremos cuál diseño nos provee el intervalo con<br />

menor longitud cuadrada esperada. Es <strong>de</strong>cir, compararemos las esperanzas<br />

<strong>de</strong> los cuadrados <strong>de</strong> las longitu<strong>de</strong>s. Se toman cuadrados por la única razón<br />

son estimadores<br />

<strong>de</strong> simplificar el cálculo <strong>de</strong> las esperanzas. Como s2 y s2 Z<br />

insesgados <strong>de</strong> σ2 y<strong>de</strong>σ2 Z = 2(1 − ρ)σ2 , se tiene<br />

E(L 2 1 )=4 × 2σ2 t 2 2n−2, α<br />

2<br />

n<br />

y en el caso <strong>de</strong> muestras apareadas<br />

Luego resulta<br />

E(L 2 2 )=4 × 2σ2 (1 − ρ)t 2 n−1, α<br />

2<br />

n<br />

E(L 2 2 )<br />

E(L2 1 ) =(1−ρ) t2 n−1, α<br />

2<br />

t2 2n−2, α<br />

2<br />

Por lo tanto será mejor tomar muestras apareadas si<br />

o sea si<br />

(1 − ρ) t2 n−1, α<br />

2<br />

t 2 2n−2, α<br />

2<br />

< 1<br />

ρ>1 − t2 2n−2, α<br />

2<br />

t2 n−1, α<br />

2<br />

Se pue<strong>de</strong> mostrar que t α<br />

n, 2 tien<strong>de</strong> a z α<br />

2<br />

cuando n →∞. Luego se tendrá que<br />

λ =1− t2 2n−2, α<br />

2<br />

t 2 n−1, α<br />

2<br />

(5.13)<br />

en forma monótona <strong>de</strong>creciente<br />

tendiendo a 0 cuando n →∞.<br />

Luego, para que sea más conveniente tomar muestras apareadas es una<br />

condición necesaria que ρ>0. Para muestras gran<strong>de</strong>s esta condición es<br />

prácticamente suficiente ya que λ se hace muy pequeño.<br />

Sea, por ejemplo, n =20yα =0.05, luego λ =0.03. Luego basta que<br />

ρ>0.03 para que el diseño apareado sea más eficiente. Para un ejemplo<br />

práctico, ver ejercicio 3 <strong>de</strong> 5.4. Por otra parte, por (5.13) resulta que en caso<br />

<strong>de</strong> tomarse muestras apareadas convendrá elegir los pares <strong>de</strong> manera que ρ<br />

sea lo más gran<strong>de</strong> posible.<br />

> 0


18 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />

5.5 Optimalidad <strong>de</strong> los intervalos <strong>de</strong> confianza<br />

Sea X un vector cuya distribución pertenece a la familia F (x,θ) con θ ∈ Θ ⊂<br />

IR y sea S(X) =[a(X),b(X)] un intervalo <strong>de</strong> confianza con nivel 1 − α para<br />

θ. Como ya lo hemos observado en 5.1, la precisión <strong>de</strong> nuestra estimación<br />

vendrá dada por la longitud <strong>de</strong>l intervalo, es <strong>de</strong>cir, por L(X) =b(X) − a(X)<br />

y por lo tanto, será conveniente que ésta fuese lo menor posible. Como<br />

ya lo hemos visto, L(X) es en general una variable aleatoria; luego parece<br />

razonable como criterio para medir la bondad <strong>de</strong> un intervalo <strong>de</strong> confianza<br />

consi<strong>de</strong>rar Eθ(L(X)).<br />

Luego, un intervalo <strong>de</strong> confianza con nivel 1 − α, [a(X),b(X)], pue<strong>de</strong> ser<br />

consi<strong>de</strong>rado óptimo si, para todo otro intervalo <strong>de</strong> confianza <strong>de</strong> nivel 1 − α,<br />

[a ′ (X),b ′ (X)] se tiene<br />

Eθ(b(X) − a(X)) ≤ Eθ(b ′ (X) − a ′ (X)) ∀ θ ∈ Θ .<br />

Sin embargo, igual que en el caso <strong>de</strong> estimación puntual, es posible<br />

mostrar que salvo ejemplos triviales no existen intervalos con esta propiedad.<br />

La única forma <strong>de</strong> encontrar intervalos óptimos es restringir la clase <strong>de</strong> posibles<br />

intervalos.<br />

Una forma <strong>de</strong> restringir los posibles intervalos <strong>de</strong> confianza o en general<br />

las regiones <strong>de</strong> confianza, es exigiendo la siguiente propiedad.<br />

Definición 1: Se dirá que una región S(X) esinsesgada si<br />

Pθ(θ ∈ S(X)) ≥ Pθ(θ ′ ∈ S(X)) ∀ θ, θ ′ ∈ Θ .<br />

Es <strong>de</strong>cir que S(X) es insesgado si el valor verda<strong>de</strong>ro θ tiene mayor probabilidad<br />

<strong>de</strong> estar en la región que cualquier otro valor θ ′ .<br />

Luego parece natural buscar el intervalo <strong>de</strong> confianza <strong>de</strong> menor longitud<br />

entre los intervalos <strong>de</strong> confianza insesgados. Luego surge la siguiente<br />

<strong>de</strong>finición:<br />

Definición 2: Se dirá que un intervalo <strong>de</strong> confianza S(X) esinsesgado <strong>de</strong><br />

mínima longitud esperada uniformemente en θ (IMLEU) con nivel (1 − α) si<br />

a) S(X) es insesgado y tiene nivel (1 − α).<br />

b) Sea S(X) = [a(X),b(X)]. Luego si S ′ (X) = [a ′ (X),b ′ (X)] es otro<br />

intervalo insesgado <strong>de</strong> nivel 1 − α, se tiene<br />

Eθ(b(X) − a(X)) ≤ Eθ(b ′ (X) − a ′ (X)) ∀ θ ∈ Θ .


5.6. REGIONES DE CONFIANZA CON NIVEL ASINT... 19<br />

Se pue<strong>de</strong> mostrar que los intervalos obtenidos para µ cuando X1,...,Xn<br />

es una muestra aleatoria <strong>de</strong> N(µ, σ 2 ) para el caso <strong>de</strong> σ 2 conocido o <strong>de</strong>sconocido<br />

(en Ejemplo 1 <strong>de</strong> 5.1 y Teorema 3 <strong>de</strong> 5.2) son realmente IMLEU.<br />

También, los intervalos obtenidos para σ 2 cuando µ es conocido o <strong>de</strong>sconocido<br />

en el Teorema 4 <strong>de</strong> 5.2 es IMLEU, si β y γ se eligen <strong>de</strong> manera que<br />

la longitud esperada sea mínima. Se pue<strong>de</strong> mostrar que para n gran<strong>de</strong> estos<br />

β y γ se aproximan a α/2 (ver [3]). Los procedimientos <strong>de</strong>sarrollados<br />

en 5.4 para encontrar intervalos <strong>de</strong> confianza para las diferencias <strong>de</strong> medias<br />

también son IMLEU.<br />

El estudio <strong>de</strong>tallado <strong>de</strong> la optimalidad <strong>de</strong> estos procedimientos pue<strong>de</strong><br />

verse en Pratt [2]. Estos resultados <strong>de</strong>pen<strong>de</strong>n <strong>de</strong> resultados relacionados con<br />

la teoría <strong>de</strong> tests óptimos que pue<strong>de</strong> verse en Lehmann [1].<br />

5.6 Regiones <strong>de</strong> confianza con nivel asintótico<br />

(1 − α)<br />

En muchos problemas estadísticos, es imposible o muy complicado encontrar<br />

regiones <strong>de</strong> confianza con un nivel dado. En su reemplazo se pue<strong>de</strong>n construir<br />

regiones cuyo nivel sea aproximadamente el <strong>de</strong>seado, tendiendo a él a medida<br />

que el tamaño <strong>de</strong> la muestra aumenta. La siguiente <strong>de</strong>finición formaliza esta<br />

i<strong>de</strong>a.<br />

Definición 1: Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

perteneciente a la familia F (x, θ), θ ∈ Θ. Se dice que Sn(X1,...,Xn) es una<br />

sucesión <strong>de</strong> regiones <strong>de</strong> confianza con nivel asintótico 1 − α si:<br />

lim<br />

n→∞ Pθ (θ ∈ Sn(X1,...,Xn)) = 1 − α ∀ θ ∈ Θ .<br />

El siguiente Teorema nos da un procedimiento para construir intervalos<br />

<strong>de</strong> confianza con nivel asintótico (1 − α).<br />

Teorema 1: Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

perteneciente a la familia F (x, θ), θ ∈ Θ. Supongamos que para cada n se<br />

tienen <strong>de</strong>finidas funciones Un = Gn(X1,...,Xn, θ) tales que Un converge a U<br />

en distribución, don<strong>de</strong> U es una variable aleatoria con distribución in<strong>de</strong>pendiente<br />

<strong>de</strong> θ. Sean A y B puntos <strong>de</strong> continuidad <strong>de</strong> FU , tales que P (A ≤ U ≤<br />

B) =1−α. Definamos Sn(X1,...,Xn) ={θ : A ≤ Gn(X1,...,Xn, θ) ≤ B}.<br />

Luego, Sn(X1,...,Xn) es una sucesión <strong>de</strong> regiones <strong>de</strong> confianza con nivel<br />

asintótico (1 − α).


20 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />

Demostración:<br />

Pθ (θ ∈ Sn(X1,...,Xn)) = Pθ (A ≤ Gn(X1,...,Xn, θ) ≤ B)<br />

= Pθ (A ≤ Un ≤ B)<br />

Luego, limn→∞ P θ (θ ∈ Sn(X1,...,Xn)) = limn→∞ P θ (A ≤ Un ≤ B) =<br />

P θ (A ≤ U ≤ B) =P (A ≤ U ≤ B) =1− α.<br />

Ejemplo 1: Sea X1,...,Xn una muestra in<strong>de</strong>pendiente <strong>de</strong> una distribución<br />

Bi(θ, 1). Definamos:<br />

Un =<br />

ni=1 Xi − nθ<br />

nθ(1 − θ)<br />

Sabemos por el Teorema Central <strong>de</strong>l Límite que Un converge en distribución<br />

a una ley N(0, 1); por lo tanto, una sucesión <strong>de</strong> regiones <strong>de</strong> confianza con<br />

nivel asintótico 1 − α vendrá dada por:<br />

<br />

Sn(X1,...,Xn) =<br />

θ : −z α<br />

2 ≤<br />

⎧ <br />

⎨ ni=1 2<br />

Xi − nθ<br />

= θ : ≤ z<br />

⎩ nθ(1 − θ)<br />

2 ⎫<br />

⎬<br />

α<br />

2 ⎭<br />

⎧ <br />

⎨ n<br />

2 = θ : Xi + n<br />

⎩<br />

i=1<br />

2 θ 2 n<br />

− 2nθ<br />

i=1<br />

⎧<br />

⎨<br />

=<br />

⎩ θ : θ2 (n 2 + nz 2 <br />

n<br />

α ) − θ 2n<br />

2<br />

i=1<br />

= [ θ1, θ2]<br />

<br />

ni=1<br />

Xi − nθ<br />

≤ z α<br />

2<br />

nθ(1 − θ)<br />

Xi ≤ z 2 α<br />

2<br />

Xi + z 2 α<br />

2<br />

⎫<br />

⎬<br />

nθ(1 − θ)<br />

⎭<br />

<br />

n<br />

⎫<br />

2 ⎬<br />

n + Xi ≤ 0<br />

⎭<br />

don<strong>de</strong> θ1 y θ2 son las raíces <strong>de</strong> la ecuación<br />

θ 2 (n 2 + nz 2 <br />

n<br />

α ) − θ 2n Xi + z<br />

2<br />

i=1<br />

2 <br />

n<br />

2 α n + Xi =0<br />

2<br />

i=1<br />

La siguiente propiedad, que daremos sin <strong>de</strong>mostración y que es equivalente<br />

a la propiedad 5 <strong>de</strong> 1.8, nos permitirá encontrar un intervalo <strong>de</strong> confianza<br />

más sencillo para θ en el ejemplo anterior.<br />

Propiedad 1: Sea Xn una sucesión <strong>de</strong> variables aleatorias, X una variable<br />

aleatoria y a una constante. Supongamos que Xn → X en distribución.<br />

i=1


5.6. REGIONES DE CONFIANZA CON NIVEL ASINT... 21<br />

Sea a<strong>de</strong>más, una sucesión <strong>de</strong> variables aleatorias Yn tal que Yn → a en<br />

probabilidad; luego YnXn → aX en distribución.<br />

Volvamos ahora al Ejemplo 1. Un se pue<strong>de</strong> escribir<br />

√<br />

n(X − θ)<br />

Un = <br />

θ(1 − θ)<br />

Por otro lado, sabemos que un estimador consistente <strong>de</strong> θ es X. Luego<br />

<br />

1<br />

→<br />

X(1 − X)<br />

1<br />

θ(1 − θ)<br />

en probabilidad.<br />

Con lo cual, usando la propiedad anterior y llamando<br />

√<br />

n(X − θ)<br />

Vn = <br />

X(1 − X)<br />

se tiene que Vn → N(0, 1) en distribución.<br />

Por lo tanto, un intervalo <strong>de</strong> confianza para θ <strong>de</strong> nivel 1 − α, viene dado<br />

por<br />

Sn(X1,...,Xn) =<br />

=<br />

⎧<br />

⎨<br />

⎩ θ : −z α<br />

2 ≤<br />

⎡<br />

⎣X − z α<br />

2<br />

√ n(X − θ)<br />

<br />

X(1 − X)<br />

⎫<br />

⎬<br />

≤ z α<br />

2 ⎭<br />

<br />

X(1 − X)<br />

√ , X + z α<br />

n<br />

2<br />

<br />

X(1 − X)<br />

√ n<br />

Ejemplo 2: Supongamos que se tiene una muestra aleatoria X1,...,Xn <strong>de</strong><br />

una distribución totalmente <strong>de</strong>sconocida y sólo se sabe que E(X1) =µ y<br />

Var(X1) =σ 2 son finitos. Se quiere encontrar un intervalo <strong>de</strong> confianza para<br />

µ con nivel asintótico 1 − α. Sea<br />

Un = √ n(X − µ)/σ<br />

Por el Teorema Central <strong>de</strong>l Límite, sabemos que Un → N(0, 1) en distribución.<br />

Por otro lado,<br />

s 2 n = 1<br />

n − 1<br />

n<br />

(Xi − X)<br />

i=1<br />

2<br />

⎤<br />


22 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />

es un estimador fuertemente consistente <strong>de</strong> σ 2 . Luego, sn → σ en probabilidad.<br />

Con lo cual, utilizando la Propiedad 1, si<br />

se tendrá que<br />

Vn = √ n(X − µ)/sn<br />

Vn → N(0, 1) en distribución.<br />

Luego, un intervalo <strong>de</strong> confianza para µ, con nivel asintótico 1 − α estará<br />

dado por<br />

√ <br />

n(X − µ)<br />

Sn(X1,...,Xn) =<br />

=<br />

µ : −z α<br />

2 ≤<br />

<br />

X − z α<br />

2<br />

sn<br />

sn<br />

√ n , X + z α<br />

2<br />

≤ z α<br />

2<br />

<br />

sn<br />

√<br />

n<br />

5.7 Regiones <strong>de</strong> confianza basadas en estimadores<br />

<strong>de</strong> máxima verosimilitud<br />

Veamos ahora un procedimiento que nos permitirá, en condiciones bastante<br />

generales, encontrar regiones <strong>de</strong> confianza con nivel asintótico (1 − α).<br />

Sea X1,X2,...,Xn una muestra aleatoria <strong>de</strong> una distribución con <strong>de</strong>nsidad<br />

f(x, θ). Sabemos, que bajo condiciones muy generales (ver Capítulo 3) el<br />

estimador <strong>de</strong> máxima verosimilitud,EMV, θ tiene distribución asintóticamente<br />

normal. Más precisamente, cuando θ ∈ IR bajo condiciones <strong>de</strong> regularidad,<br />

√ n( θn − θ) → N(0,<br />

1<br />

) en distribución,<br />

I1(θ)<br />

don<strong>de</strong> I1(θ) es el número <strong>de</strong> información <strong>de</strong> Fisher <strong>de</strong> X1.<br />

Luego, si llamamos<br />

Un = √ <br />

n I1(θ)( θn − θ)<br />

se tendrá que<br />

Un → N(0, 1) en distribución.<br />

Por lo tanto, una región <strong>de</strong> confianza para θ <strong>de</strong> nivel asintótico 1 − α estará<br />

dada por<br />

Sn = {θ : −z α<br />

2 ≤ √ n<br />

<br />

I1(θ)( θn − θ) ≤ z α<br />

2 }<br />

.


5.7. REGIONES DE CONFIANZA BASADAS EN EMV 23<br />

Obsérvese que éste fue el procedimiento que se usó en el Ejemplo 1 <strong>de</strong><br />

(5.6)(<strong>de</strong>mostrarlo).<br />

Esta región no tiene porqué ser un intervalo, y pue<strong>de</strong> ser difícil <strong>de</strong> calcular.<br />

En el caso en que I1(θ) sea continua, se podrá obtener un intervalo <strong>de</strong><br />

confianza a nivel asintótico (1 − α), <strong>de</strong> la siguiente forma relativamente simple:<br />

Sabemos que θn → θ en probabilidad, ya que el E.M.V. es consistente,<br />

entonces si I1(θ) es continua, se tiene<br />

Si llamamos U ∗ n = √ n<br />

lim<br />

n→∞ I1( θn) =I1(θ) en probabilidad.<br />

<br />

I1( θn)( θn − θ), resulta que<br />

U ∗ n<br />

→ N(0, 1) en distribución.<br />

Por lo tanto, un intervalo <strong>de</strong> confianza para θ <strong>de</strong> nivel <strong>de</strong> confianza asintótico<br />

1 − α vendrá dado por:<br />

Sn = {θ : −z α<br />

2 ≤ √ <br />

n I1( θn)( θn − θ) ≤ z α<br />

2 }<br />

⎡<br />

=<br />

z α<br />

⎣ 2<br />

θn − <br />

I1( θn) √ ,<br />

n<br />

z α<br />

2<br />

θn + <br />

I1( θn) √ ⎤<br />

⎦ .<br />

n<br />

La longitud <strong>de</strong> estos intervalos es<br />

L =2z α<br />

2<br />

1<br />

<br />

√<br />

n I1( .<br />

θn)<br />

Luego, bajo condiciones en que vale el Teorema <strong>de</strong> consistencia <strong>de</strong>l EMV se<br />

tiene<br />

√ 1<br />

lim nL=2zα c.t.p.<br />

n→∞<br />

2 I1(θ)<br />

y bajo condiciones muy generales, también se pue<strong>de</strong> mostrar que<br />

1<br />

<br />

I1(θ) .<br />

√<br />

lim nEθ(L) =2zα n→∞<br />

2<br />

Pue<strong>de</strong> <strong>de</strong>mostrarse que bajo condiciones muy generales, para todo intervalo<br />

I insesgado, con nivel asintótico 1 − α se tendrá<br />

√<br />

lim nEθ(LI) ≥ 2z α<br />

n→∞<br />

2<br />

1<br />

I1(θ)


24 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />

don<strong>de</strong>, LI indica la longitud <strong>de</strong>l intervalo I. Por lo tanto, los intervalos<br />

obtenidos a partir <strong>de</strong>l estimador <strong>de</strong> máxima verosimilitud pue<strong>de</strong>n consi<strong>de</strong>rarse<br />

asintóticamente insesgados <strong>de</strong> menor longitud esperada.<br />

Para ver estas propieda<strong>de</strong>s en <strong>de</strong>talle, consultar Wilks [4, pp. 374–376].<br />

Luego <strong>de</strong> la <strong>de</strong>scripción <strong>de</strong> los métodos para obtener intervalos <strong>de</strong> confianza<br />

a nivel asintótico, podría pensarse en los casos que es posible encontrarlos<br />

en lugar <strong>de</strong> los intervalos exactos. Sin embargo, la convergencia <strong>de</strong>l<br />

nivel <strong>de</strong> confianza al valor <strong>de</strong>seado <strong>de</strong>pen<strong>de</strong> fuertemente <strong>de</strong> la distribución y<br />

podría ser necesario un tamaño <strong>de</strong> muestra gran<strong>de</strong> para que la aproximación<br />

<strong>de</strong>l nivel asintótico sea aceptable. En general, no se pue<strong>de</strong> <strong>de</strong>terminar el<br />

tamaño <strong>de</strong> muestra n para el cual la aproximación asintótica es suficientemente<br />

buena usando consi<strong>de</strong>raciones teóricas. En la mayoría <strong>de</strong> los casos<br />

es necesario estudiar este problema por métodos <strong>de</strong> Monte Carlo que se<br />

estudiarán más a<strong>de</strong>lante.<br />

5.8 Regiones <strong>de</strong> confianza simultáneas<br />

Supongamos que se tiene un vector aleatorio X cuya distribución pertenece<br />

a la familia F (x, θ) yqueθ =(θ1,θ2). Ocurre a veces que se tienen regiones<br />

<strong>de</strong> confianza para θ1 y θ2 por separado, es <strong>de</strong>cir, se tienen S1(X) yS2(X),<br />

tales que:<br />

P (θ1 ∈ S1(X)) = 1 − α y P (θ2 ∈ S2(X)) = 1 − α<br />

pero P (θ1 ∈ S1(X),θ2 ∈ S2(X)) ≤ 1 − α.<br />

Luego, S1(X) × S2(X) no es una región <strong>de</strong> confianza simultánea <strong>de</strong> nivel<br />

(1 − α) para (θ1,θ2).<br />

Una forma <strong>de</strong> conseguir que la probabilidad simultánea <strong>de</strong> que θ1 y θ2<br />

estén en S1(X) yS2(X) respectivamente, sea al menos (1 − α) se obtiene<br />

consi<strong>de</strong>rando regiones <strong>de</strong> confianza <strong>de</strong> nivel (1 − α/2) para θ1 y θ2, es <strong>de</strong>cir,<br />

tales que:<br />

P (θ1 ∈ S1(X)) = 1 − α<br />

y P (θ2 ∈ S2(X)) = 1 −<br />

2<br />

α<br />

2 .<br />

Luego, si Ac indica el complemento <strong>de</strong>l conjunto A,<br />

P (θ1 ∈ S1(X),θ2 ∈ S2(X) =1− P [(θ1 ∈ S1(X)) c ∪ (θ2 ∈ S2(X)) c ] .<br />

Como P (A ∪ B) ≤ P (A)+P (B), se <strong>de</strong>duce que<br />

P (θ1 ∈ S1(X),θ2 ∈ S2(X)) ≥<br />

=<br />

1 − P (θ1 /∈ S1(X)) − P (θ2 /∈ S2(X))<br />

1− α α<br />

− =1− α.<br />

2 2


5.8. REGIONES DE CONFIANZA SIMULTÁNEAS 25<br />

Es <strong>de</strong>cir, tomando regiones <strong>de</strong> confianza para cada parámetro <strong>de</strong> nivel 1−α/2<br />

nos aseguramos un nivel simultáneo mayor o igual que 1 − α. Este procedimiento<br />

se pue<strong>de</strong> generalizar inmediatamente para el caso que se requieran regiones<br />

simultáneas para k−parámetros. Bastará tomar para cada parámetro<br />

un región <strong>de</strong> nivel α/k.<br />

Ejemplo 1: Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

N(µ, σ 2 ). Hemos visto que un intervalo <strong>de</strong> confianza para µ <strong>de</strong> nivel 1 − α<br />

está dado por:<br />

S1 =<br />

<br />

X − t n−1, α<br />

2<br />

s<br />

√ n , X + t n−1, α<br />

2<br />

<br />

s<br />

√<br />

n<br />

mientras que un intervalo <strong>de</strong> confianza para σ2 <strong>de</strong> nivel 1 − α está dado por:<br />

⎡<br />

ni=1 (Xi − X)<br />

S2 = ⎣<br />

2 ni=1 (Xi − X)<br />

,<br />

2<br />

⎤<br />

⎦ .<br />

Luego, si tomamos<br />

S ∗ 1 =<br />

y S ∗ 2 =<br />

<br />

χ 2 n−1, α<br />

2<br />

X − t n−1, α<br />

4<br />

⎡<br />

ni=1 (Xi − X)<br />

⎣<br />

2<br />

,<br />

χ 2 n−1, α<br />

4<br />

χ 2 n−1,1− α<br />

2<br />

s<br />

√ n , X + t n−1, α<br />

4<br />

,<br />

<br />

s<br />

√<br />

n<br />

ni=1 (Xi − X) 2<br />

χ 2 n−1,1− α<br />

4<br />

S∗ 1 × S∗ 2 es una región <strong>de</strong> confianza simultánea para (µ, σ2 ) <strong>de</strong> nivel mayor o<br />

igual que 1 − α.<br />

El inconveniente que tiene este método es que el nivel es mayor que el<br />

<strong>de</strong>seado, esto ofrece más seguridad que la <strong>de</strong>seada <strong>de</strong> que los valores <strong>de</strong> los<br />

parámetros estarán <strong>de</strong>ntro <strong>de</strong> la región, pero por otra parte las regiones<br />

resultan más gran<strong>de</strong>s que lo necesario y por lo tanto, será más imprecisa la<br />

<strong>de</strong>terminación <strong>de</strong> los parámetros.<br />

Obtendremos ahora en el caso normal una región <strong>de</strong> confianza simultánea<br />

para µ y σ2 <strong>de</strong> nivel exactamente igual a 1 − α.<br />

Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución N(µ, σ2 ). Sabemos<br />

que U = √ n(X − µ)/σ y V = S2 /σ2 , don<strong>de</strong> S2 = n i=1(Xi − X) 2 son<br />

in<strong>de</strong>pendientes con distribución N(0, 1) y χ2 n−1 respectivamente. Luego, se<br />

tendrá<br />

<br />

P<br />

−z β<br />

2<br />

√<br />

n(X − µ)<br />

≤<br />

σ<br />

≤ z β<br />

2<br />

,χ 2<br />

n−1,1− β<br />

2<br />

,<br />

⎤<br />

⎦<br />

≤ S2<br />

≤ χ2<br />

σ2 n−1, β<br />

<br />

=<br />

2


26 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />

=<br />

<br />

P −z β<br />

2<br />

√<br />

n(X − µ)<br />

≤<br />

σ<br />

= (1−β)(1 − β) =(1−β) 2<br />

≤ z β<br />

2<br />

<br />

P<br />

<br />

χ n−1,1− β<br />

2<br />

≤ S2<br />

≤ χ2<br />

σ2 n−1, β<br />

<br />

2<br />

Tomemos β =1− (1 − α) 1/2 , entonces (1 − β) 2 =(1−α); luego<br />

<br />

Sn = (µ, σ 2 ):−z β<br />

2<br />

√<br />

n(X − µ)<br />

≤<br />

≤ z β ,χ<br />

σ<br />

2<br />

2<br />

n−1,1− β<br />

2<br />

≤ S2<br />

≤ χ2<br />

σ2 n−1, β<br />

2<br />

es una región <strong>de</strong> confianza simultánea para (µ, σ2 ) <strong>de</strong> nivel 1 − α.<br />

estudiar la forma <strong>de</strong> Sn po<strong>de</strong>mos escribir<br />

Para<br />

⎧<br />

⎨<br />

Sn =<br />

⎩ (µ, σ2 ): ≤ σ 2 , ≤ σ 2 ≤<br />

S2 ⎫<br />

⎬<br />

⎭<br />

La condición<br />

n(X − µ)2<br />

z 2 β<br />

2<br />

σ 2 ≥<br />

S 2<br />

χ 2<br />

n−1, β<br />

2<br />

n(X − µ)2<br />

z 2 β<br />

2<br />

χ 2<br />

n−1,1− β<br />

2<br />

nos indica la región <strong>de</strong>l plano (µ, σ2 ), por encima <strong>de</strong> la parábola<br />

y la condición<br />

σ 2 = n(X − µ) 2 /z 2 β<br />

2<br />

S 2<br />

χ 2<br />

n−1, β<br />

2<br />

≤ σ 2 ≤<br />

S 2<br />

χ 2<br />

n−1,1− β<br />

2<br />

indica la franja horizontal comprendida entre las rectas horizontales<br />

y S2 /χ2 .<br />

σ 2 = S 2 /χ 2<br />

n−1, β<br />

2<br />

n−1,1− β<br />

2<br />

5.9 Cotas superiores e inferiores <strong>de</strong> confianza<br />

En los ejemplos vistos anteriormente interesaba conocer el parámetro <strong>de</strong>sconocido<br />

con la mayor precisión posible y para este propósito lo más a<strong>de</strong>cuado<br />

era construir intervalos <strong>de</strong> confianza <strong>de</strong> longitud tan pequeña como era posible.<br />

En esta sección, estudiaremos otro tipo <strong>de</strong> regiones <strong>de</strong> confianza que<br />

surgen naturalmente cuando se está interesado en conocer una cota superior<br />

o inferior <strong>de</strong>l parámetro.<br />

Consi<strong>de</strong>remos el siguiente ejemplo. En el Departamento <strong>de</strong> Control <strong>de</strong> un<br />

laboratorio se recibe un frasco con cierta droga que pue<strong>de</strong> contener alguna<br />

impureza in<strong>de</strong>seada.


5.9. COTAS SUPERIORES E INFERIORES DE CONFIANZA 27<br />

Supongamos que se hagan n mediciones <strong>de</strong> la concentración <strong>de</strong> la impureza,<br />

las que están afectadas <strong>de</strong> un error, luego se observan X1,...,Xn<br />

don<strong>de</strong><br />

Xi = µ + εi , 1 ≤ i ≤ n<br />

don<strong>de</strong> µ es el valor verda<strong>de</strong>ro <strong>de</strong> la concentración <strong>de</strong> la impureza y los εi<br />

son variables aleatorias N(0,σ 2 ) in<strong>de</strong>pendientes. Luego X1,...,Xn es una<br />

muestra <strong>de</strong> una distribución N(µ, σ 2 ).<br />

En este caso, sólo se estará interesado en <strong>de</strong>terminar si la droga es aceptable<br />

o no, y para esto más que un intervalo <strong>de</strong> confianza interesará tener<br />

una cota superior µ(X), (X =(X1,...,Xn)) tal que la probabilidad <strong>de</strong> que<br />

µ ≤ µ(X1,...,Xn) sea alta. De esta manera se tendría acotada con probabilidad<br />

gran<strong>de</strong> la concentración <strong>de</strong> impureza <strong>de</strong> la droga.<br />

Esto sugiere la siguiente <strong>de</strong>finición.<br />

Definición 1: Sea X un vector cuya distribución pertenece a la familia<br />

F (x,θ), don<strong>de</strong> θ ∈ Θ ⊂ IR. Se dirá que θ(X) es una cota superior <strong>de</strong><br />

confianza con nivel <strong>de</strong> confianza (1 − α) para θ si P (θ(X) ≥ θ) =1− α o<br />

sea si (−∞, θ(X)] es una región <strong>de</strong> confianza <strong>de</strong> nivel 1 − α. A este tipo <strong>de</strong><br />

región <strong>de</strong> confianza semirrecta izquierda se <strong>de</strong>nomina también intervalo <strong>de</strong><br />

confianza unilateral izquierdo con nivel 1 − α.<br />

Definición 2: Sea X un vector cuya distribución pertenece a la familia<br />

F (x,θ) con θ ∈ Θ ⊂ IR. Se dirá que θ(X) es una cota inferior <strong>de</strong> confianza<br />

con nivel <strong>de</strong> confianza 1−α si P (θ(X) ≤ θ) =1−α, o sea si [θ(X), ∞) es una<br />

región <strong>de</strong> confianza <strong>de</strong> nivel 1 − α. A este tipo <strong>de</strong> región la <strong>de</strong>nominaremos<br />

intervalo <strong>de</strong> confianza unilateral <strong>de</strong>recho.<br />

El siguiente Teorema nos da un procedimiento general para obtener cotas<br />

superiores e inferiores <strong>de</strong> confianza con nivel 1 − α.<br />

Teorema. Sea X un vector aleatorio cuya distribución pertenece a la familia<br />

F (x,θ) con θ ∈ Θ ⊂ IR. Sea G(x,θ) una función estrictamente monótona en<br />

θ y tal que U = G(X,θ) tiene distribución in<strong>de</strong>pendiente <strong>de</strong> θ. Consi<strong>de</strong>remos<br />

A y B tales que P (U ≤ A) =α y P (U ≥ B) =α.<br />

(a) Si G(x,θ) es creciente y continua en θ, las cotas superiores e inferior<br />

con nivel <strong>de</strong> confianza 1 − α vienen dadas respectivamente por las<br />

soluciones a las siguientes ecuaciones<br />

G(X, θ(X)) = B y G(X,θ(X)) = A.


28 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />

(b) Si G(X,θ) es <strong>de</strong>creciente y continua en cambio θ(X) y θ(X) vienen<br />

dadas respectivamente por<br />

G(X, θ(X)) = A y G(X,θ(X)) = B.<br />

Demostración: La haremos sólo para el caso que G(x,θ) es creciente en<br />

θ y para la cota superior. En este caso θ(X) está <strong>de</strong>finida por<br />

Luego,<br />

G(X, θ(X)) = B.<br />

Pθ(θ ≤ θ(X)) = Pθ(G(X,θ) ≤ G(X, θ(X)))<br />

= Pθ(G(X,θ) ≤ B) =P (U ≤ B) =1− α.<br />

Ejemplo 1: Supongamos que como en el ejemplo <strong>de</strong> la droga, don<strong>de</strong> se<br />

quería medir la concentración <strong>de</strong> impureza, X =(X1,...,Xn) es una muestra<br />

aleatoria <strong>de</strong> una distribución N(µ, σ 2 ) y supongamos que σ 2 sea conocido.<br />

Luego,<br />

√<br />

n(X − µ)<br />

U = G(X,µ)=<br />

σ<br />

tiene distribución N(0, 1). Por lo tanto, en este caso A = −zα y B = zα.<br />

Luego, como G(x,µ) es <strong>de</strong>creciente en µ se tendrá que las cotas superiores<br />

e inferiores <strong>de</strong> confianza <strong>de</strong> nivel <strong>de</strong> confianza 1 − α se obtendrán <strong>de</strong> la<br />

siguiente forma.<br />

Sean µ(X) yµ(X)) <strong>de</strong>finidas por<br />

√ √<br />

n(X − µ(X))<br />

n(X − µ(X))<br />

= −zα,<br />

= zα<br />

σ<br />

σ<br />

es <strong>de</strong>cir, <strong>de</strong>spejando se obtiene<br />

σ<br />

µ(X) =X + zα √<br />

n<br />

σ<br />

µ(X) =X − zα √<br />

n<br />

Ejemplo 2: Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

N(µ, σ 2 ) y supongamos σ 2 <strong>de</strong>sconocido; luego sabemos que<br />

√<br />

n(X − µ)<br />

U = G(X,µ)=<br />

s


5.9. COTAS SUPERIORES E INFERIORES DE CONFIANZA 29<br />

tiene distribución Tn−1.<br />

Luego, procediendo como en el Ejemplo 1, obtendremos como cota superior<br />

e inferior <strong>de</strong> confianza con nivel 1 − α<br />

µ(X) =X + t n−1, α<br />

2<br />

s<br />

√ n , y µ(X) =X − t n−1, α<br />

2<br />

s<br />

√ n<br />

5.9.1 Comparación <strong>de</strong> cotas superiores e inferiores <strong>de</strong> confianza<br />

Así como en el caso <strong>de</strong> intervalos <strong>de</strong> confianza interesaba que tuviesen longitud<br />

lo más corta posible, cabe preguntarse cómo sería <strong>de</strong>seable que fuesen las<br />

cotas superiores e inferiores. Planteado <strong>de</strong> otra manera, dadas por ejemplo<br />

dos cotas superiores θ1(X) yθ2(X), existe algún criterio para compararlas<br />

y concluir por ejemplo que una es más conveniente que otra? Análogamente<br />

en el caso <strong>de</strong> cotas inferiores.<br />

Como en el caso <strong>de</strong> cota superior se tiene controlada la posibilidad que<br />

θ(X) esté por <strong>de</strong>bajo <strong>de</strong> θ, ya que esto sólo pue<strong>de</strong> suce<strong>de</strong>r con probabilidad<br />

α, el riesgo no controlado es que θ(X) sobrevalúe θ muy por encima <strong>de</strong> lo<br />

necesario. Esta sobrevaluación que la llamaremos C(X,θ) estará dada por<br />

C(X,θ)=<br />

<br />

θ(X) − θ si θ(X) >θ<br />

0 si θ(X) ≤ θ<br />

Luego parece razonable buscar cotas superiores que minimicen Eθ(C(X,θ))<br />

uniformemente en θ.<br />

Del mismo modo en el caso <strong>de</strong> cotas inferiores, se pue<strong>de</strong> <strong>de</strong>finir la subvaluación<br />

por<br />

<br />

D(X,θ)=<br />

θ − θ(X) si θ>θ(X)<br />

0 si θ ≤ θ(X)<br />

y en este caso interesará minimizar Eθ(D(X,θ)) uniformemente en θ.<br />

La teoría <strong>de</strong> la optimalidad <strong>de</strong> las cotas <strong>de</strong> confianza se <strong>de</strong>riva <strong>de</strong> la teoría<br />

<strong>de</strong> optimalidad <strong>de</strong> los tests y por lo tanto se pospone hasta el Capítulo 6.<br />

Solamente diremos que contrariamente a lo que sucedía con intervalos <strong>de</strong><br />

confianza, existen en casos no triviales cotas uniformemente óptimas. Por<br />

ejemplo, los procedimientos <strong>de</strong>rivados en el Ejemplo 1 tienen esta propiedad.<br />

En el caso <strong>de</strong>l Ejemplo 2, no existen procedimientos uniformemente óptimos.


30 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA<br />

De todos modos los procedimientos <strong>de</strong>rivados en ese ejemplo son uniformemente<br />

óptimos si se restringe al conjunto <strong>de</strong> procedimientos insesgados. (Una<br />

cota es insesgada si su intervalo <strong>de</strong> confianza unilateral asociado es una región<br />

<strong>de</strong> confianza insesgada.)<br />

REFERENCIAS<br />

1. Lehmann, E.L. (1994) Testing Statistical Hypothesis. Chapman and<br />

Hall.<br />

2. Pratt, E. (1961) Length of Confi<strong>de</strong>nce Intervals, J. Amer. Statist.<br />

Assoc. 16: 243–258.<br />

3. Tate, R.F. y Klett, G.W. (1959) Optimal Confi<strong>de</strong>nce Intervals for the<br />

variance of a Normal Distribution, J. Amer. Statist. Assoc. 54: 674–<br />

682.<br />

4. Wilks, S.S. (1962) Mathematical Statistics, J. Wiley and Sons.


Chapter 6<br />

Tests <strong>de</strong> Hipótesis<br />

6.1 Introducción<br />

El test <strong>de</strong> hipótesis es una manera formal <strong>de</strong> <strong>de</strong>cidir entre dos opciones, o<br />

sea, es una manera <strong>de</strong> distinguir entre distribuciones <strong>de</strong> probabilidad en base<br />

a variables aleatorias generadas por una <strong>de</strong> ellas. Veamos un ejemplo para<br />

tener una i<strong>de</strong>a <strong>de</strong> lo que significan.<br />

Ejemplo 1. Supongamos que un comerciante <strong>de</strong>be comprar un cargamento<br />

<strong>de</strong> N manzanas. El comerciante ignora qué parte <strong>de</strong>l cargamento no<br />

se encuentra en buen estado. Como inspeccionar todo el cargamento es muy<br />

costoso, <strong>de</strong>ci<strong>de</strong> elegir al azar una muestra <strong>de</strong> n manzanas.<br />

Sea X el número <strong>de</strong> manzanas en mal estado que observa en la muestra.<br />

Luego si D es el número <strong>de</strong> manzanas en mal estado que hay en el cargamento,<br />

se tiene que la distribución <strong>de</strong> X es hipergeométrica y su función <strong>de</strong><br />

probabilidad puntual está dada por<br />

p(x, D) =<br />

<br />

D<br />

x<br />

<br />

N − D<br />

<br />

n − x<br />

<br />

N<br />

n<br />

si max(0,D− N + n) ≤ x ≤ min(n, D)<br />

y D pue<strong>de</strong> tomar valores en el conjunto Θ = {0, 1, 2,...,N}.<br />

Supongamos que se hubiese convenido que el cargamento <strong>de</strong>bería tener<br />

no más <strong>de</strong> D0 manzanas en mal estado. Luego, en base a la variable X, que<br />

el comerciante observa, <strong>de</strong>be <strong>de</strong>cidir si el cargamento satisface los requisitos<br />

1


2 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

convenidos. Es <strong>de</strong>cir, <strong>de</strong>be <strong>de</strong>cidir entre dos alternativas<br />

D ∈ Θ1 = {0, 1,...,D0} o D ∈ Θ2 = {D0 +1,...,N}<br />

Esto pue<strong>de</strong> ser expresado como que el comerciante <strong>de</strong>be <strong>de</strong>cidir entre dos<br />

hipótesis:<br />

H:D ∈ Θ1 contra K : D ∈ Θ2<br />

y esta <strong>de</strong>cisión <strong>de</strong>be hacerla a partir <strong>de</strong>l valor observado X.<br />

Un test será una regla <strong>de</strong> <strong>de</strong>cisión basada en X. Esto pue<strong>de</strong> ser expresado<br />

matemáticamente como una función ϕ(X) que toma dos valores: 1 y 0. 1<br />

significará que rechaza H y por lo tanto acepta K y 0 que acepta H.<br />

Supongamos por ejemplo que N = 1000, n = 100 y D0 = 150. Un posible<br />

test está dado por:<br />

ϕ1(X) =<br />

<br />

1 si X>15<br />

0 si X ≤ 15 .<br />

De acuerdo con este test se rechaza el cargamento, es <strong>de</strong>cir, se <strong>de</strong>ci<strong>de</strong> que<br />

D ∈ Θ2 si se observa en la muestra más <strong>de</strong> 15 manzanas en mal estado. Si<br />

se quisiera usar un test más seguro para el comprador (en el sentido <strong>de</strong> que<br />

la probabilidad <strong>de</strong> aceptar un cargamento con más <strong>de</strong> 150 manzanas en mal<br />

estado sea menor) se podría usar, por ejemplo,<br />

ϕ2(X) =<br />

<br />

1 si X>5<br />

0 si X ≤ 5 .<br />

Por ahora, no tenemos ningún criterio para elegir entre dos tests, ni entre<br />

los muchos otros que podrían <strong>de</strong>finirse. En los párrafos siguientes atacaremos<br />

el problema <strong>de</strong> <strong>de</strong>finir criterios para comparar diferentes tests, y el <strong>de</strong> elegir<br />

un test óptimo.<br />

Ejemplo 2. Supongamos que para curar una <strong>de</strong>terminada enfermedad se<br />

emplea una droga que cura la enfermedad con una probabilidad θ0 conocida.<br />

Se ha obtenido una nueva droga y se quiere <strong>de</strong>terminar si vale la pena cambiar<br />

la droga. Para ello se prueba la nueva droga con n pacientes obteniéndose<br />

los resultados X1,...,Xn, don<strong>de</strong> Xi = 1 indica que el i−ésimo paciente se<br />

curó y Xi = 0, que no se curó. Sea θ la probabilidad <strong>de</strong> curar <strong>de</strong> la nueva<br />

droga, la cual no es conocida.


6.2. FORMULACION GENERAL DEL TEST DE HIPOTESIS 3<br />

Se está dispuesto a cambiar <strong>de</strong> droga si la nueva droga es tal que θ ≥<br />

θ0 +0.05, es <strong>de</strong>cir si esta última cura al menos un 5% más <strong>de</strong> pacientes que<br />

la vieja. Luego, se tiene que <strong>de</strong>cidir entre dos hipótesis:<br />

H:θ ≤ θ0 +0.05 y K : θ>θ0 +0.05<br />

Un test será una función ϕ(X1,...,Xn) que toma valores 1 ó 0.<br />

ϕ(X1,...,Xn) = 0 indicará que aceptamos H, es <strong>de</strong>cir, no se continúa usando<br />

la droga vieja.<br />

Para ejemplificar, supongamos que θ0 =0.8 yn = 100. Un posible test<br />

sería<br />

⎧<br />

⎪⎨<br />

ϕ(X1,...,Xn) =<br />

⎪⎩<br />

1 si 100<br />

i=1 Xi ≥ 85<br />

0 si 100<br />

i=1 Xi < 85 .<br />

Este test acepta K, es <strong>de</strong>cir, cambia <strong>de</strong> droga si 85 pacientes o más<br />

resultan curados.<br />

Si se quisiera ser más conservador, es <strong>de</strong>cir, estar más seguro que la droga<br />

tiene la probabilidad <strong>de</strong> curar mayor que 0.85 antes <strong>de</strong> tomar la <strong>de</strong>cisión <strong>de</strong><br />

cambiarla, se podría usar el test<br />

⎧<br />

⎪⎨<br />

ϕ(X1,...,Xn) =<br />

⎪⎩<br />

1 si 100<br />

i=1 Xi ≥ 90<br />

0 si 100<br />

i=1 Xi < 90 .<br />

6.2 Formulación general <strong>de</strong>l problema <strong>de</strong>l test <strong>de</strong><br />

hipótesis<br />

Supongamos que se obtiene un vector aleatorio X =(X1, ..., Xn) cuya función<br />

<strong>de</strong> distribución pertenece a la familia F (x, θ) con θ ∈ Θ ⊂ IR p . Sean Θ1 y<br />

Θ2 tales que Θ1 ∩ Θ2 = ∅ yΘ1 ∪ Θ2 = Θ. Un test para este problema será<br />

una regla basada en X para <strong>de</strong>cidir entre las dos hipótesis<br />

H:θ ∈ Θ1 contra K : θ ∈ Θ2<br />

Definición 1. Se llama test a una función ϕ : IR n → [0, 1].<br />

Se dice que un test ϕ es no aleatorizado si toma solamente los valores 0<br />

ó1.


4 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

Cuando ϕ(X) = 1 se rechazará la hipótesis H y por lo tanto, se aceptará<br />

K. En cambio, ϕ(X) = 0 indicará que se acepta H.<br />

Si el test toma valores distintos <strong>de</strong> 0 y 1 se dice que es un test aleatorizado.<br />

En este caso, el valor ϕ(x) indica con que probabilidad se rechaza H si se<br />

observa X = x, es <strong>de</strong>cir, ϕ(x) =P (rechazar H|X = x)<br />

Por ejemplo, ϕ(X) =1/2 indicará que si observamos el vector X <strong>de</strong>bemos<br />

rechazar H con probabilidad 1/2, es <strong>de</strong>cir, podríamos tirar una moneda y si<br />

saliera ceca aceptarla, ϕ(X) =1/6 indicará que si observamos X <strong>de</strong>bemos<br />

rechazar H con probabilidad 1/6; en este caso podríamos tirar un dado; si<br />

saliese 1 rechazaríamos H y en los <strong>de</strong>más casos la aceptaríamos.<br />

La aleatorización introduce en la <strong>de</strong>cisión un elemento extraño al fenómeno<br />

estudiado, como el lanzamiento <strong>de</strong> una moneda o un dado, con que hemos<br />

ejemplificado. Por lo tanto, se evitan en lo posible los tests aleatorizados en<br />

los casos prácticos. Sin embargo, <strong>de</strong>s<strong>de</strong> el punto <strong>de</strong> vista teórico, conviene<br />

como se verá, admitir la posibilidad <strong>de</strong> tests aleatorizados.<br />

En la mayoría <strong>de</strong> las situaciones, los tests vienen dados como funciones<br />

<strong>de</strong> un estadístico, llamado estadístico <strong>de</strong>l test, que, por ejemplo, como en el<br />

caso <strong>de</strong> la sección anterior, sirven para rechazar H para valores gran<strong>de</strong>s. En<br />

general, el estadístico <strong>de</strong>l test sirve para medir la diferencia entre los datos<br />

y lo que se espera <strong>de</strong> ellos bajo H.<br />

Definición 2. La región crítica R, <strong>de</strong> un test ϕ, es el conjunto <strong>de</strong> puntos<br />

X que llevan a la <strong>de</strong>cisión <strong>de</strong> rechazar H y la región <strong>de</strong> aceptación A es el<br />

conjunto <strong>de</strong> puntos X que llevan a aceptar H.<br />

Dado un test para un problema <strong>de</strong> test <strong>de</strong> hipótesis se podrá incurrir en<br />

dos tipos <strong>de</strong> error.<br />

Definición 3. Se llamará error <strong>de</strong> tipo 1 al que se comete al rechazar la<br />

hipótesis H, cuando es verda<strong>de</strong>ra. Se llamará error <strong>de</strong> tipo 2 al que se comete<br />

al aceptar H, cuando esta hipótesis es falsa.<br />

Luego, para un test no aleatorizado, la probabilidad <strong>de</strong> cometer un error<br />

<strong>de</strong> tipo 1 será P θ (R), cuando θ ∈ Θ1. Mientras que la probabilidad <strong>de</strong> error<br />

<strong>de</strong> tipo 2, será P θ (A) =1− P θ (R), cuando θ ∈ Θ2.<br />

Ejemplo 1 (don<strong>de</strong> se visualiza la necesidad <strong>de</strong> introducir tests aleatorizados).<br />

Supongamos que una empresa automotriz sostiene que domina la<br />

mitad <strong>de</strong>l mercado, esto es que la mitad <strong>de</strong> los compradores <strong>de</strong> automóviles


6.2. FORMULACION GENERAL DEL TEST DE HIPOTESIS 5<br />

se <strong>de</strong>ci<strong>de</strong>n por alguno <strong>de</strong> los mo<strong>de</strong>los fabricados por ella. Se <strong>de</strong>sea testear si<br />

la afirmación hecha por la empresa es exagerada o no.<br />

Supongamos que se toma una muestra <strong>de</strong> compradores que, para facilidad<br />

en los cálculos, consi<strong>de</strong>raremos <strong>de</strong> tamaño n =6.<br />

Las hipótesis en cuestión son:<br />

H:θ =1/2 contra K : θ


6 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

Tendría sentido, en esta situación, plantearse un test <strong>de</strong> la forma<br />

⎧<br />

⎪⎨ 1 si T2<br />

y tratar <strong>de</strong> elegir γ <strong>de</strong> forma tal que tenga el error <strong>de</strong> tipo I <strong>de</strong>seado. Para<br />

eso se requiere<br />

P 1 (ϕ(X) =1)=P 1 (T


6.2. FORMULACION GENERAL DEL TEST DE HIPOTESIS 7<br />

Definición 4. Se llama función <strong>de</strong> potencia <strong>de</strong>l test ϕ(X) a la función<br />

βϕ(θ) =P θ (rechazar H),<br />

don<strong>de</strong> P θ indica la probabilidad cuando θ es el valor verda<strong>de</strong>ro.<br />

En el caso que ϕ es un test no aleatorizado se tiene<br />

βϕ(θ) =P θ (ϕ(X) =1)=E θ (ϕ(X)) .<br />

Si ϕ es aleatorizado, ϕ(X) pue<strong>de</strong> interpretarse como la probabilidad <strong>de</strong><br />

rechazar H, condicional a observar X; luego se tiene<br />

y resulta<br />

ϕ(X) =P (rechazar H|X)<br />

βϕ(θ) =P θ ( rechazar H) = E θ (P ( rechazar H|X)) = E θ (ϕ(X)) .<br />

Por lo tanto, en todos los casos se tiene<br />

βϕ(θ) =E θ (ϕ(X)) .<br />

Expresemos ahora las probabilida<strong>de</strong>s <strong>de</strong> los errores <strong>de</strong> un test en términos<br />

<strong>de</strong> βϕ(θ)<br />

• La probabilidad que ocurra un error <strong>de</strong> tipo 1 será βϕ(θ) para θ ∈ Θ1.<br />

• La probabilidad que ocurra un error <strong>de</strong> tipo 2 será (1 − βϕ(θ)) para<br />

θ ∈ Θ2.<br />

Un buen test <strong>de</strong>berá tener errores <strong>de</strong> tipo 1 y 2 pequeños, y por lo tanto<br />

<strong>de</strong>be tener una función <strong>de</strong> potencia βϕ(θ) que tome valores cercanos a 0 para<br />

θ ∈ Θ1 y valores cercanos a 1 para θ ∈ Θ2.<br />

En realidad, no po<strong>de</strong>mos hacer ambos errores pequeños simultáneamente.<br />

Más aún, para un tamaño <strong>de</strong> muestra dado para que <strong>de</strong>crezca la probabilidad<br />

<strong>de</strong> que ocurra un error <strong>de</strong> tipo 1, <strong>de</strong>bemos aumentar la probabilidad <strong>de</strong> que<br />

ocurra un error <strong>de</strong> tipo 2 (o sea disminuir la potencia). Si queremos que<br />

ambos sean pequeños <strong>de</strong>bemos aumentar la cantidad <strong>de</strong> observaciones.<br />

Por ejemplo, en el Ejemplo 1, el test ϕ∗ cumplía βϕ∗(1/2) = 0.10. Por<br />

otra parte, se verifica que βϕ∗(θ) =(1−θ)6 +5.4 θ(1 − θ) 5 , con lo cual


8 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

tenemos la tabla siguiente que da la función <strong>de</strong> potencia <strong>de</strong>l test ϕ ∗ para<br />

algunos valores <strong>de</strong> θ ∈ [0, 1/2]<br />

θ 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5<br />

βϕ∗(θ) 1 0.944 0.85 0.736 0.616 0.498 0.389 0.295 0.215 0.149 0.1<br />

Como vemos, la función <strong>de</strong> potencia <strong>de</strong> ϕ ∗ es una función <strong>de</strong>creciente <strong>de</strong><br />

θ en el intervalo [0, 1/2] que tien<strong>de</strong> a 1 cuando θ → 0 y tien<strong>de</strong> a 0.1 cuando<br />

θ → 1/2. Es <strong>de</strong>cir, la probabilidad <strong>de</strong> error 2 tien<strong>de</strong> a 0 cuando θ → 0ypor<br />

lo tanto, se logran <strong>de</strong>tectar bien alternativas lejanas a la hipótesis H.<br />

Para los procedimientos que daremos 1−P (error <strong>de</strong> tipo 1) ≥ P (error <strong>de</strong> tipo 2).<br />

El objetivo será encontrar procedimientos con la menor probabilidad <strong>de</strong> tipo<br />

2, fijada la probabilidad <strong>de</strong> tipo 1, es <strong>de</strong>cir, buscaremos procedimientos con<br />

potencia gran<strong>de</strong> para θ ∈ Θ2.<br />

6.2.1 Nivel <strong>de</strong> significación <strong>de</strong> un test<br />

La teoría clásica <strong>de</strong> test <strong>de</strong> hipótesis consi<strong>de</strong>ra que el error <strong>de</strong> tipo 1 es mucho<br />

más grave que el error <strong>de</strong> tipo 2. Es <strong>de</strong>cir, la situación <strong>de</strong> las hipótesis H y K<br />

no es simétrica; es mucho más grave rechazar H cuando es cierta que aceptarla<br />

cuando es falsa. Esto significa que se <strong>de</strong>be tener mucha evi<strong>de</strong>ncia sobre<br />

que H es falsa antes <strong>de</strong> rechazarla. Se observa en el Ejemplo 2 <strong>de</strong> la sección<br />

1, que esta simetría correspon<strong>de</strong> a una situación real, puesto que antes <strong>de</strong><br />

cambiar <strong>de</strong> droga, es <strong>de</strong>cir rechazar H, habría que tener un grado <strong>de</strong> certeza<br />

muy alto respecto <strong>de</strong> que la nueva droga es mejor que la primera. Des<strong>de</strong><br />

ahora en a<strong>de</strong>lante H se <strong>de</strong>nominará hipótesis nula yKhipótesis alternativa.<br />

Veamos un ejemplo que servirá para fijar i<strong>de</strong>as y clarificar la mecánica<br />

<strong>de</strong> elección <strong>de</strong> H<br />

Ejemplo 1. Supongamos que se quiere <strong>de</strong>cidir si un paciente tiene o no tuberculosis,<br />

para proce<strong>de</strong>r, en caso afirmativo, a suministrarle un tratamiento<br />

a<strong>de</strong>cuado. Tendremos entonces dos hipótesis:<br />

(A) El señor W está tuberculoso;<br />

(B) El señor W no está tuberculoso.<br />

Es claro que el médico responsable <strong>de</strong> la <strong>de</strong>cisión consi<strong>de</strong>rará mucho más<br />

grave rechazar (A) cuando es cierta, que rechazar (B) cuando es cierta (esto<br />

es lo mismo que aceptar H cuando es falsa), puesto que en el primer caso


6.2. FORMULACION GENERAL DEL TEST DE HIPOTESIS 9<br />

se expone al paciente a una agudización grave <strong>de</strong> su enfermedad, mientras<br />

que en el segundo se le aplicará un tratamiento que no necesita y cuyas<br />

consecuencias nunca serán comparables con el daño <strong>de</strong> no tratarlo estando<br />

enfermo.<br />

Luego la hipótesis nula será H : “El señor W está tuberculoso”; y la<br />

alternativa K : “El señor W no está tuberculoso”.<br />

Como dijimos más arriba, supondremos que el error <strong>de</strong> tipo 1 (rechazar<br />

H cuando es cierta), es el más grave. Por lo tanto se va requerir que el<br />

error <strong>de</strong> tipo 1 <strong>de</strong>l test a utilizar no sea mayor que un número 0


10 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

Es <strong>de</strong>cir, la probabilidad <strong>de</strong> error cuando θ2 es el verda<strong>de</strong>ro valor es menor<br />

para el test ϕ que para cualquier otro ϕ ∗ <strong>de</strong> nivel menor o igual que α (o<br />

sea, (1 − βϕ(θ2)) ≤ (1 − βϕ ∗(θ2)) ).<br />

Es claro que si cambiamos la alternativa θ2 ∈ Θ2 por otro θ ′ 2 ∈ Θ2, el test<br />

más potente para esta θ ′ 2 no tiene porque coincidir con el correspondiente a<br />

θ2. Por ejemplo, si se quiere testear H : µ = µ0 contra K : µ = µ0, para una<br />

distribución N(µ, σ2 0 ) con σ2 0 conocida, resultará<br />

Θ1 = {µ0} ; Θ2 = {µ ∈ IR : µ = µ0}.<br />

Si se toma una alternativa fija µ1 µ0, como veremos más a<strong>de</strong>lante.<br />

Definición 7. Diremos que un ϕ es un test uniformemente más potente,<br />

UMP, <strong>de</strong> nivel menor o igual que α para H : θ ∈ Θ1 contra K : θ ∈ Θ2,<br />

si ϕ es el más potente <strong>de</strong> nivel menor o igual que α para todo θ2 ∈ Θ2, es<br />

<strong>de</strong>cir, si el mismo test es óptimo cualquiera sea la alternativa fija θ2 ∈ Θ2<br />

consi<strong>de</strong>rada.<br />

Lo i<strong>de</strong>al sería encontrar (cuando existan) tests uniformemente más potentes<br />

<strong>de</strong> nivel menor o igual que α. Estudiaremos casos don<strong>de</strong> estos tests<br />

existen y otros don<strong>de</strong> no. En estos últimos habrá que elegir otros criterios<br />

para seleccionar el test a usar.<br />

Definición 8. El nivel crítico o p-valor es el menor valor <strong>de</strong> significación<br />

para el que rechazamos la hipótesis H para una observación dada x.<br />

En el Ejemplo 1 <strong>de</strong> la sección 2, por ejemplo si observamos X =2el<br />

p-valor <strong>de</strong>l test {ϕk} que rechaza para valores pequeños <strong>de</strong> T , será p =7/64.<br />

Prefijado el nivel <strong>de</strong> significación α, y evaluado el p- valor, p, <strong>de</strong>l test<br />

utilizado, rechazaremos H si p


6.3. HIPOTESIS SIMPLE CONTRA HIPOTESIS SIMPLE 11<br />

hecho lleva a una contradicción y por lo tanto, a abandonar nuestra hipótesis<br />

<strong>de</strong> que H era cierta.<br />

Es tentador pensar que el p–valor da la probabilidad <strong>de</strong> que H sea cierta,<br />

pero no es así. No importa cuántas veces se repita el experimento, H será<br />

siempre cierta o siempre falsa. Es <strong>de</strong>cir, el nivel crítico da la probabilidad<br />

<strong>de</strong> obtener evi<strong>de</strong>ncia en contra <strong>de</strong> la hipótesis nula suponiendo que ésta sea<br />

cierta. Por lo tanto, cuanto menor sea el p-valor más evi<strong>de</strong>ncia en contra <strong>de</strong><br />

H tenemos, suponiendo que H es cierta.<br />

6.3 Tests óptimos para el caso <strong>de</strong> hipótesis simple<br />

contra hipótesis simple<br />

El caso más simple <strong>de</strong> problema <strong>de</strong> test <strong>de</strong> hipótesis es la situación don<strong>de</strong><br />

Θ1 yΘ2 contengan cada uno un elemento. En este caso, se dice, H y K son<br />

hipótesis simples.<br />

Si Θ1 tuviera más <strong>de</strong> un elemento, H se llamará hipótesis compuesta, y<br />

lo mismo vale para K en relación a Θ2.<br />

En el caso en que H y K sean simples, un problema <strong>de</strong> test <strong>de</strong> hipótesis<br />

será <strong>de</strong> la forma<br />

H:θ = θ1 contra K : θ = θ2<br />

Supongamos que X sea un vector discreto (o continuo) bajo θ1 y θ2 y que<br />

las funciones <strong>de</strong> <strong>de</strong>nsidad correspondientes sean p(x, θ1) yp(x, θ2). Luego,<br />

intuitivamente, parece razonable rechazar H si la “probabilidad” <strong>de</strong> obtener<br />

el valor observado x bajo θ2 es gran<strong>de</strong> comparada con la “probabilidad” <strong>de</strong><br />

obtener x bajo θ1, es <strong>de</strong>cir, cuando<br />

p(x, θ2)<br />

L21 = ≥ kα<br />

p(x, θ1)<br />

don<strong>de</strong> kα es una constante que <strong>de</strong>pen<strong>de</strong> <strong>de</strong>l nivel α. Por lo tanto, se podría<br />

pensar en construir un test <strong>de</strong> la forma<br />

⎧<br />

⎪⎨ 1 si L21 >kα<br />

ϕ(X) = γα si L21 = kα<br />

⎪⎩ 0 si L21 kαp(x, θ1)<br />

ϕ(X) = γα si p(x, θ2) =kα p(x, θ1)<br />

(6.1)<br />

⎪⎩ 0 si p(x, θ2)


12 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

don<strong>de</strong> 0 ≤ γα ≤ 1, correspondiendo el caso kα =+∞ al test<br />

<br />

1 si p(x, θ1) =0<br />

ϕ(X) =<br />

0 si p(x, θ1) > 0<br />

(6.2)<br />

que tiene nivel 0.<br />

Si queremos que el test (6.1) tenga nivel α <strong>de</strong>bemos elegir kα y βα tales<br />

que se cumpla<br />

E (ϕ(X)) = α. (6.3)<br />

θ1<br />

Notemos que entonces, en este tipo <strong>de</strong> test kα es una función <strong>de</strong>creciente<br />

<strong>de</strong> α.<br />

Un test <strong>de</strong> la forma (6.1) se llama test <strong>de</strong>l cociente <strong>de</strong> verosimilitud. El<br />

siguiente teorema establece que se pue<strong>de</strong>n elegir kα y γα <strong>de</strong> manera que<br />

se cumpla (6.3) y que usando estos valores en (6.1) se obtiene un test más<br />

potente <strong>de</strong> nivel menor o igual que α. Sin embargo, los tests <strong>de</strong> la forma (6.1)<br />

no garantizan la unicidad y es por ello, que para obtenerla le permitiremos<br />

a γα <strong>de</strong>pen<strong>de</strong>r <strong>de</strong> x.<br />

Teorema 1 (<strong>de</strong> Neyman–Pearson)<br />

(i) Dado 0 ≤ α ≤ 1 se pue<strong>de</strong>n elegir kα y γα, 0 ≤ γα ≤ 1, tales que el test<br />

<strong>de</strong> la forma (6.1) satisfaga (6.3).<br />

(ii) Sea un test <strong>de</strong> la forma (6.1) que satisface (6.3) para α>0 y<strong>de</strong>la<br />

forma (6.2) para α =0. Luego ese test es el más potente <strong>de</strong> nivel<br />

menor o igual que α para<br />

H:θ = θ1 contra K : θ = θ2 .<br />

(iii) Si ϕ∗ es un test uniformemente más potente <strong>de</strong> nivel α > 0 para<br />

H:θ = θ1 versus K : θ = θ2 entonces ϕ∗ es <strong>de</strong> la forma<br />

⎧<br />

⎪⎨ 1 si p(x, θ2) >kαp(x, θ1)<br />

ϕ(X) = γα(x)<br />

⎪⎩ 0<br />

si p(x, θ2) =kα p(x, θ1)<br />

si p(x, θ2)


6.3. HIPOTESIS SIMPLE CONTRA HIPOTESIS SIMPLE 13<br />

Demostración:<br />

0 0<br />

1 si p(x, θ1) =0<br />

Eθ1 (ϕ(X)) = Pθ1 (L21 >kα)+γPθ1 (L21 = kα)<br />

= 1−Pθ1 (L21 ≤ kα)+γα Pθ1 (L21 = kα) .<br />

Si existe una constante k0 tal que P θ1 (L21 ≤ k0) =α tomamos kα = k0 y<br />

γα = 0. En caso contrario, siempre existe k0 tal que<br />

P θ1 (L21 kα p(x, θ1) .<br />

.<br />

.


14 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

Luego, <strong>de</strong> acuerdo con (6.1), se tendrá ϕ(x) = 1 y por lo tanto ϕ(x) ≥ ϕ ∗ (x),<br />

<strong>de</strong> don<strong>de</strong>, U(x) ≥ 0.<br />

Si p(x, θ2) =kα p(x, θ1), es claro que U(x) =0.<br />

Finalmente, si<br />

p(x, θ2) 0} excepto quizás<br />

en un conjunto <strong>de</strong> medida 0. Por lo tanto, como ϕ(x) =0sip(x, θ1) > 0y<br />

ϕ(x) =1sip(x, θ1) = 0 se tiene


6.3. HIPOTESIS SIMPLE CONTRA HIPOTESIS SIMPLE 15<br />

βϕ(θ2) − βϕ∗(θ2) = Eθ2 (ϕ(X)) − Eθ2 (ϕ∗ (X))<br />

<br />

=<br />

[ϕ(X) − ϕ<br />

{x: p(x,θ1)=0}<br />

∗ (X)] p(x, θ2)dx<br />

<br />

+<br />

[ϕ(X) − ϕ<br />

{x: p(x,θ1)>0}<br />

∗ <br />

(X)] p(x, θ2)dx<br />

=<br />

[1 − ϕ ∗ (X)] p(x, θ2)dx ≥ 0 .<br />

{x: p(x,θ1)=0}<br />

(iii) Haremos primero el caso α = 0. Sea ϕ el test <strong>de</strong> la forma (6.2) y<br />

ϕ ∗ un test <strong>de</strong> nivel 0. Hemos visto que entonces ϕ ∗ (x) = 0 en el conjunto<br />

{x : p(x, θ1) > 0} excepto quizás en un conjunto N1 <strong>de</strong> medida 0. Luego,<br />

P θ1 (N1) =P θ2 (N1) =0yϕ ∗ (x) =ϕ(x) en{x : p(x, θ1) > 0}−N1.<br />

Falta ver que ϕ ∗ (x) =ϕ(x) =1en{x : p(x, θ1) =0} excepto quizás un<br />

conjunto <strong>de</strong> medida 0. Como<br />

se cumple<br />

0 =<br />

=<br />

<br />

<br />

E θ2 (ϕ(X)) = E θ2 (ϕ∗ (X))<br />

{x: p(x,θ1)=0}<br />

<br />

+<br />

{x: p(x,θ1)>0}<br />

[ϕ(X) − ϕ ∗ (X)] p(x, θ2)dx<br />

[ϕ(X) − ϕ ∗ (X)] p(x, θ2)dx<br />

[1 − ϕ ∗ (X)] p(x, θ2)dx .<br />

{x: p(x,θ1)=0}<br />

Pero ϕ∗ ≤ 1 luego el integrando es no negativo y la integral es cero si y solo<br />

si ϕ∗ = 1 en el conjunto {x : p(x, θ1) =0}∩{x : p(x, θ2) > 0} excepto<br />

quizás en un conjunto N2 <strong>de</strong> medida 0. Luego si<br />

N = N1 ∪N2 ∪ ({x : p(x, θ1) =0}∩{x : p(x, θ2) =0})<br />

se tiene P θ1 (N )=P θ2 (N )=0yϕ∗ (x) =ϕ(x) para x /∈ N.<br />

Supongamos ahora α>0. Sea ϕ ∗ un test <strong>de</strong> nivel α uniformemente<br />

más potente para H versus K y ϕ el test dado por (6.1) que también es<br />

uniformemente más potente para H versus K por lo visto en (ii). Luego se<br />

cumple<br />

E θ1 (ϕ(X)) = E θ1 (ϕ∗ (X)) y E θ2 (ϕ(X)) = E θ2 (ϕ∗ (X)) (6.8)


16 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

Por otra parte, la función U(x) <strong>de</strong>finida en (6.7) es no negativa y por (6.8)<br />

U(x)dx = 0. Luego, U(x) <strong>de</strong>be ser nula excepto en un conjunto N <strong>de</strong><br />

medida 0. Es <strong>de</strong>cir, (ϕ(x) − ϕ ∗ (x))(p(x, θ2) − kα p(x, θ1)) = 0 para x /∈ N.<br />

Por lo tanto, ϕ(x) =ϕ ∗ (x) en el conjunto {x : p(x, θ2) = kα p(x, θ1)}∩N c<br />

<strong>de</strong> don<strong>de</strong> el resultado.<br />

Observación. Si L21 es una variable continua no hay que preocuparse por<br />

γα, ya que P (L21 = kα) =0.<br />

Ejemplo 1. Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

perteneciente a N(µ, σ2 0 ) don<strong>de</strong> σ2 0 es conocido, y supongamos que se quiere<br />

<strong>de</strong>cidir entre H : µ = µ1 contra K : µ = µ2. Supongamos primero que<br />

µ2 >µ1. En este caso, el test más potente rechaza H si<br />

p(X1,...,Xn; µ2)<br />

≥ kα<br />

p(X1,...,Xn; µ1)<br />

don<strong>de</strong> p(X1,...,Xn; µ) indica la <strong>de</strong>nsidad conjunta <strong>de</strong> X =(X1,...,Xn)<br />

cuando Xi tiene distribución N(µ, σ 2 0 ). Luego, ϕ(X1,...,Xn) =1si<br />

o sea ϕ(X1,...,Xn) =1si<br />

L21 = (2 πσ0) −n/2 e −Σn i=1 (Xi−µ2) 2 /2σ 2 0<br />

(2 πσ0) −n/2 e −Σn i=1 (Xi−µ1) 2 /2σ 2 0<br />

≥ kα<br />

e −Σn i=1 (Xi−µ2) 2 /2σ 2 0 +Σn i=1 (Xi−µ1) 2 /2σ 2 0 ≥ kα<br />

o equivalentemente, ϕ(X1,...,Xn) =1si<br />

n<br />

n<br />

−<br />

(Xi − µ2)<br />

i=1<br />

2 +<br />

(Xi − µ1)<br />

i=1<br />

2 ≥ 2σ 2 0 ln kα .<br />

Desarrollando el primer miembro <strong>de</strong> esta <strong>de</strong>sigualdad, se tiene que<br />

ϕ(X1,...,Xn) =1si<br />

n<br />

2(µ2 − µ1) Xi ≥ 2σ 2 0 ln kα + nµ 2 2 − nµ 2 1 .<br />

i=1<br />

Como µ2 − µ1 > 0, se tiene que ϕ(X1,...,Xn) =1si<br />

n<br />

i=1<br />

Xi ≥ 2σ2 0 ln kα + nµ 2 2 − nµ2 1<br />

2(µ2 − µ1)


6.3. HIPOTESIS SIMPLE CONTRA HIPOTESIS SIMPLE 17<br />

pero el segundo miembro <strong>de</strong> esta <strong>de</strong>sigualdad es una constante, llamémosla<br />

k ′ α.<br />

Luego, el test más potente es <strong>de</strong> la forma<br />

n<br />

ϕ(X1,...,Xn) =1 si<br />

Xi ≥ k<br />

i=1<br />

′ α<br />

(puesto que las regiones <strong>de</strong> rechazo planteadas inicialmente y esta última<br />

son equivalentes). La constante k ′ α <strong>de</strong>berá elegirse <strong>de</strong> modo que<br />

Eµ1 (ϕ(X1,...,Xn) =α (6.9)<br />

Para encontrar el k ′ α que hace que (6.9) se satisfaga, necesitaríamos una<br />

tabla <strong>de</strong> la distribución N(nµ1,nσ2 0 ), pero para trabajar más cómodamente<br />

transformamos el estadístico n i=1 Xi en otro cuya distribución sea N(0, 1).<br />

Para esto escribimos el test <strong>de</strong> la siguiente forma ϕ(X1,...,Xn) =1si<br />

√ n (Xn − µ1)<br />

σ0<br />

≥ √ n (k′ α/n − µ1)<br />

σ0<br />

don<strong>de</strong> Xn =(1/n) n i=1 Xi. Nuevamente √ n(k ′ α/n − µ1)/σ0 es una constante<br />

que llamaremos k ′′ α. Luego el test pue<strong>de</strong> ser escrito <strong>de</strong> la forma<br />

ϕ(X1,...,Xn) =1 si √ n (Xn − µ1)<br />

≥ k ′′ α.<br />

Calculemos k ′′ α. De acuerdo con el Teorema <strong>de</strong> Neyman–Pearson, <strong>de</strong>bería<br />

tenerse que<br />

σ0<br />

α = Eµ1 (ϕ(X1,...,Xn))<br />

= Pµ1 (ϕ(X1,...,Xn) =1)<br />

= Pµ1 (√n (Xn − µ1)<br />

≥ k ′′ α) .<br />

σ0<br />

Pero cuando µ es µ1, √ n(Xn − µ1)/σ0 es N(0, 1). Luego, k ′′ α <strong>de</strong>be ser igual<br />

a zα.<br />

Finalmente, el test queda como<br />

⎧<br />

⎪⎨<br />

ϕ(X1,...,Xn) =<br />

⎪⎩<br />

1 si √ n (X−µ1)<br />

σ0<br />

0 si √ n (X−µ1)<br />

σ0<br />

≥ zα<br />


18 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

En este caso, no <strong>de</strong>bemos preocuparnos por el caso en que L21 = kα ya<br />

que la variable L21 es continua.<br />

Si se hubiera tenido que µ2 −zα<br />

(6.11)<br />

De (6.10) resulta que el test más potente para H : µ = µ1 contra<br />

K:µ = µ2 no <strong>de</strong>pen<strong>de</strong> <strong>de</strong> µ2, es <strong>de</strong>cir es el mismo cualquiera sea µ2 >µ1.<br />

Por lo tanto, el test dado por (6.10) es el test uniformemente más potente<br />

<strong>de</strong> nivel menor o igual que α para H : µ = µ1 contra K : µ>µ1.<br />

Análogamente el test dado por (6.11) es el test uniformemente más potente<br />

<strong>de</strong> nivel menor o igual que α para H : µ = µ1 contra K :µ


6.3. HIPOTESIS SIMPLE CONTRA HIPOTESIS SIMPLE 19<br />

C. limµ→+∞ βϕ(µ) =1− limx→−∞ Φ(x) =1− 0=1.<br />

D. limµ→−∞ βϕ(µ) =1− limx→+∞ Φ(x) =1− 1=0.<br />

E. Para µ2 fijo, µ2 >µ1, se tiene<br />

lim<br />

n→∞ βϕ(µ2) =1− lim Φ(x) =1− 0=1.<br />

n→∞<br />

De aquí se <strong>de</strong>duce que tomando n gran<strong>de</strong>, para un µ2 fijo, la probabilidad<br />

<strong>de</strong> error <strong>de</strong> tipo 2 se pue<strong>de</strong> hacer tan pequeño como se quiera.<br />

De A y B resulta que<br />

sup βϕ(µ) =α,<br />

µ≤µ1<br />

y luego ϕ resulta un test <strong>de</strong> nivel igual que α para H : µ ≤ µ1 contra<br />

K:µ>µ1.<br />

Veamos ahora que ϕ es el test <strong>de</strong> nivel ≤ α, uniformemente más potente<br />

para estas mismas hipótesis. Sea ϕ∗ otro test <strong>de</strong> nivel menor o igual que α<br />

para H : µ ≤ µ1; también tendrá este nivel para H : µ = µ1, pero ϕ es el test<br />

uniformemente más potente para H : µ = µ1 contra K : µ>µ1. Entonces<br />

se tiene<br />

βϕ(µ) ≥ βϕ∗(µ) ∀ µ>µ1<br />

y ϕ resulta el test más potente <strong>de</strong> nivel menor o igual que α para H : µ ≤ µ1<br />

contra K : µ>µ1.<br />

Luego hemos <strong>de</strong>mostrado el siguiente teorema<br />

Teorema 2.<br />

(i) El test ϕ dado por (6.10) es el uniformemente más potente <strong>de</strong> nivel<br />

menor o igual que α para<br />

(a) H : µ = µ1 contra K : µ>µ1<br />

y para<br />

(b) H : µ ≤ µ1 contra K : µ>µ1.<br />

Su función <strong>de</strong> potencia viene dada por<br />

βϕ(µ) =1− Φ(zα + √ n(µ1 − µ)/σ0).<br />

(b) En forma similar el test ϕ dado por (6.11) es el uniformemente más<br />

potente <strong>de</strong> nivel menor o igual que α para<br />

(a) H : µ = µ1 contra K : µ


20 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

y para<br />

(b) H : µ ≥ µ1 contra K : µ


6.4. FAMILIAS DE CVM 21<br />

cumple la especificación). Tenemos que calcular la función <strong>de</strong> potencia <strong>de</strong>l<br />

test. De acuerdo con lo que hemos visto, será<br />

<br />

<br />

(µ − 0.7)<br />

βϕ(µ) =Φ −1.65 − 8 = Φ(54.35 − 80µ) .<br />

0.1<br />

Si queremos, por ejemplo, calcular βϕ(0.65), esto será uno menos la probabilidad<br />

<strong>de</strong> rechazar el producto cuando µ =0.65, luego<br />

βϕ(0.65) = Φ(54.35 − 80 × 0.65) = Φ(2.35) = 0.99 .<br />

Esto quiere <strong>de</strong>cir que la probabilidad <strong>de</strong> rechazar la droga, cuando µ =0.65<br />

es 0.01.<br />

6.4 Tests uniformemente más potentes para hipótesis<br />

unilaterales<br />

Hemos visto en el parágrafo anterior la forma <strong>de</strong> encontrar tests más potentes<br />

en el caso <strong>de</strong> hipótesis simples<br />

H:θ = θ0 contra K : θ = θ1 .<br />

Esta situación es principalmente <strong>de</strong> interés teórico puesto que aún las situaciones<br />

más simples que se presentan en la práctica, cuando θ ∈ IR, implican<br />

problemas <strong>de</strong> la forma<br />

(a) H : θ = θ0 contra K : θ>θ0<br />

(b) H : θ = θ0 contra K : θθ0<br />

(d) H : θ ≥ θ0 contra K : θµ0<br />

H:µ ≤ µ0 contra K : µ>µ0<br />

H:µ = µ0 contra K : µ


22 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

H:µ ≥ µ0 contra K : µ 0}<br />

Observación. A los efectos <strong>de</strong> la Definición 1 si p(x,θ1) =0yp(x,θ2) > 0,<br />

el cociente p(x,θ2)/p(x,θ1) se consi<strong>de</strong>rará igual a ∞.<br />

Es sencillo mostrar que las familias exponenciales a un parámetro con<br />

c(θ) estrictamente monótona son <strong>de</strong> CVM.<br />

Teorema 1. Sea la familia exponencial a un parámetro con función <strong>de</strong><br />

<strong>de</strong>nsidad o probabilidad p(x,θ)=A(θ)e c(θ)r(x) h(x) con θ ∈ Θ ⊂ IR. Luego,<br />

(i) Si c(θ) es estrictamente creciente la familia dada es <strong>de</strong> CVM en r(X)<br />

(ii) Si c(θ) es estrictamente <strong>de</strong>creciente la familia dada es <strong>de</strong> CVM en<br />

−r(X)<br />

Demostración. Sólo <strong>de</strong>mostraremos (i). La parte (ii) se <strong>de</strong>muestra idénticamente.<br />

En este caso se tiene si θ1


6.4. FAMILIAS DE CVM 23<br />

es una función creciente.<br />

Por otro lado, por ser c estrictamente monótona, θ1 = θ2 implica<br />

c(θ1) = c(θ2) y luego p(x,θ1) yp(x,θ2) correspon<strong>de</strong>n a distribuciones diferentes.<br />

Luego, la familia dada es <strong>de</strong> cociente <strong>de</strong> verosimilitud monótono en<br />

T = r(X).<br />

Vamos a mostrar ahora que existen familias <strong>de</strong> CVM que no son exponenciales.<br />

Para ello consi<strong>de</strong>ramos el siguiente ejemplo<br />

Ejemplo 1. Consi<strong>de</strong>remos una muestra aleatoria (X1,...,Xn) <strong>de</strong> una distribución<br />

U[0,θ] con θ ∈ IR + .<br />

Luego, la familia <strong>de</strong> distribuciones conjuntas <strong>de</strong> X =(X1,...,Xn) se<br />

pue<strong>de</strong> escribir<br />

p(x,θ)= 1<br />

θ n I [0,θ]( max<br />

1≤i≤n xi) I [0,∞]( min<br />

1≤i≤n xi) . (6.13)<br />

Mostraremos que esta familia es <strong>de</strong> CVM en r(X) =max1≤i≤n Xi. Sea<br />

θ2 >θ1, luego, el conjunto S = {t : r(x) con p(x,θ1) > 0op(x,θ2) > 0}<br />

resulta igual al intervalo [0,θ2]. Definiendo<br />

gθ1θ2 (t) =θn 1<br />

θ n 2<br />

I [0,θ2](t)<br />

I [0,θ1](t) ,<br />

se tiene que<br />

p(x,θ2)<br />

= gθ1θ2 (r(x)).<br />

p(x,θ1)<br />

Po lo tanto, bastará mostrar que gθ1θ2 (t) es monótona en S. Pero<br />

gθ1θ2 (t) =<br />

<br />

(θ1/θ2) n si 0 ≤ t ≤ θ1<br />

∞ si θ1 ≤ t ≤ θ2 .<br />

Con lo cual, gθ1θ2 (t) es monótona y la familia dada por (6.13) es <strong>de</strong><br />

CVM en r(X). Por otro lado, la familia dada por (6.13) no es exponencial<br />

<strong>de</strong> acuerdo a lo visto en el ejercicio 2 <strong>de</strong>l Capítulo 3.<br />

Ejemplo 2. Consi<strong>de</strong>remos una variable aleatoria X con distribución C(θ, 1),<br />

θ ∈ IR, o sea, su <strong>de</strong>nsidad viene dada por<br />

p(x, θ) =<br />

1<br />

π [1 + (x − θ) 2 ] .


24 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

Veremos que esta familia no es <strong>de</strong> cociente <strong>de</strong> verosimiltud monótono en<br />

r(X) =X.<br />

Sea θ2 >θ1, luego, se tiene que<br />

p(x, θ2)<br />

p(x, θ1) =<br />

<br />

1+(x− θ1) 2<br />

[1 + (x − θ2) 2 = gθ1θ2 (x).<br />

]<br />

Sin embargo, la función gθ1θ2 (x) no es monótona en x ya que<br />

(x) =1.<br />

limx→−∞ gθ1θ2 (x) = limx→+∞ gθ1θ2<br />

El siguiente teorema nos permite encontrar tests UMP para familia con<br />

la propiedad <strong>de</strong> CVM.<br />

Teorema 1. Sea X un vector aleatorio con función <strong>de</strong> probabilidad o<br />

<strong>de</strong>nsidad perteneciente a la familia p(x,θ) con θ ∈ Θ ⊂ IR, que tiene la<br />

propiedad <strong>de</strong> ser <strong>de</strong> CVM en T = r(X). Luego<br />

(i) Existen kα y γα tales que si <strong>de</strong>finimos<br />

se satisface<br />

⎧<br />

⎪⎨ 1 si T>kα<br />

ϕ(X) = γα<br />

⎪⎩ 0<br />

si T = kα<br />

si Tθ1 .<br />

(iii) βϕ(θ) es monótona no <strong>de</strong>creciente para todo θ y estrictamente creciente<br />

para todo θ tal que 0 θ1 .<br />

Demostración: La <strong>de</strong>mostración <strong>de</strong> (i) es idéntica a la dada en el Teorema<br />

<strong>de</strong> Neyman-Pearson.


6.4. FAMILIAS DE CVM 25<br />

Demostraremos (ii) suponiendo que si θ2 >θ1<br />

p(x,θ2)<br />

= gθ1θ2 (r(x))<br />

p(x,θ1)<br />

con gθ1θ2 (t) estrictamente creciente. (Esta hipótesis no es necesaria, basta<br />

con que sea no <strong>de</strong>creciente.) En este caso, dado θ2 >θ1 el test dado por<br />

(6.14) se pue<strong>de</strong> escribir como<br />

⎧<br />

⎪⎨ 1 si gθ1θ2 (r(X)) >gθ1θ2 (kα)<br />

ϕ(X) = γα si gθ1θ2 (r(X)) = gθ1θ2 (kα)<br />

⎪⎩ 0 si gθ1θ2 (r(X)) k′ α<br />

p(X,θ2)<br />

p(X,θ1) = k′ α<br />

⎪⎩<br />

p(X,θ2)<br />

0 si<br />

p(X,θ1) θ1,<br />

luego ϕ es el test UMP <strong>de</strong> nivel menor o igual que α para H : θ = θ1 contra<br />

K:θ>θ2.<br />

(iii) Sólo <strong>de</strong>mostraremos que βϕ(θ) es monótona no <strong>de</strong>creciente.<br />

Sean θ ∗ y θ ∗∗ cualesquiera, tales que θ ∗ < θ ∗∗ . Si llamamos α ∗ =<br />

Eθ∗(ϕ(X)), resulta por (ii) que ϕ(X) es el test más potente a nivel menor o<br />

igual que α∗ para las hipótesis simples<br />

Consi<strong>de</strong>remos ahora el test<br />

H:θ = θ ∗ contra K : θ = θ ∗∗ .<br />

ϕ ∗ (X) =α ∗ .<br />

ϕ ∗ es un test <strong>de</strong> nivel α ∗ , luego ϕ ∗ es menos potente que ϕ en θ ∗∗ , es <strong>de</strong>cir,<br />

Eθ ∗∗(ϕ∗ (X)) ≤ Eθ ∗∗(ϕ(X))


26 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

pero,<br />

y a<strong>de</strong>más<br />

por lo tanto,<br />

Eθ ∗∗(ϕ∗ (X)) = α ∗ = Eθ ∗(ϕ(X)) = βϕ(θ ∗ )<br />

Eθ ∗∗(ϕ(X)) = βϕ(θ ∗∗ )<br />

βϕ(θ ∗ ) ≤ βϕ(θ ∗∗ ) ,<br />

con lo que queda <strong>de</strong>mostrado que βϕ(θ) es monótona no <strong>de</strong>creciente.<br />

Para <strong>de</strong>mostrar (iv), primero mostraremos que ϕ(X) es un test <strong>de</strong> nivel<br />

menor o igual que α para<br />

H:θ ≤ θ1 contra K : θ>θ1<br />

o sea que<br />

sup βϕ(θ) ≤ α.<br />

θ≤θ1<br />

Como βϕ(θ) es monótona creciente se tiene:<br />

sup βϕ(θ) =βϕ(θ1) =α<br />

θ≤θ1<br />

por (6.15).<br />

Consi<strong>de</strong>remos ahora otro test ϕ ∗ (X) <strong>de</strong> nivel menor o igual que α para<br />

H:θ ≤ θ1 contra K : θ>θ1, luego ϕ ∗ (X) es <strong>de</strong> nivel menor o igual que α<br />

para H : θ = θ1 contra K : θ>θ1, pero por (ii) ϕ(X) es el test uniformemente<br />

más potente para este problema, por lo tanto<br />

βϕ(θ) ≥ βϕ ∗(θ) ∀ θ>θ1 .<br />

Análogamente se <strong>de</strong>muestra el siguiente teorema<br />

Teorema 2. Sea X un vector aleatorio con función <strong>de</strong> <strong>de</strong>nsidad perteneciente<br />

a la familia p(x,θ) con θ ∈ Θ ⊂ IR. Supongamos que esta familia es<br />

CMV en r(X). Luego<br />

(i) Existen kα y γα tales que si <strong>de</strong>finimos<br />

⎧<br />

⎪⎨ 1 si r(X) kα<br />

se satisface<br />

(6.16)<br />

Eθ1 (ϕ(X)) = α (6.17)


6.4. FAMILIAS DE CVM 27<br />

(ii) Sea ϕ(X) es un test <strong>de</strong> la forma (6.16) que satisface (6.17). Luego ϕ<br />

es el test uniformemente más potente a nivel menor o igual que α para<br />

H:θ = θ1 contra K : θ


28 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

kα y γα <strong>de</strong>berán ser elegidos <strong>de</strong> modo que<br />

Eθ1 (ϕ(X)) = Pθ1 (T>kα)+γαPθ1 (T = kα) =α. (6.18)<br />

Como T tiene distribución Bi(θ, n) que es discreta, pue<strong>de</strong> suce<strong>de</strong>r que<br />

exista o no k tal que<br />

Pθ1 (T>k)=α (6.19)<br />

Si existe k satisfaciendo (6.19), tomaremos ese valor como kα y γα =0.<br />

Si no existe k que verifique (6.19), siempre existirá k tal que<br />

Pθ1 (T>k) kα)<br />

Pθ1 (T ≥ kα)<br />

.<br />

− Pθ1 (T>kα)<br />

Por (6.20) resulta que 0 1/3 con<br />

nivel <strong>de</strong> significación menor o igual que 0.1.<br />

Cuando θ =1/3, la distribución <strong>de</strong> T = 3 i=1 Xi está dada por<br />

y por lo tanto, tenemos<br />

t 0 1 2 3<br />

pT (t) 8<br />

27<br />

12<br />

27<br />

6<br />

27<br />

1<br />

27<br />

k −1 0 1 2 3<br />

19<br />

P 1 (T >k) 1<br />

3<br />

27<br />

7<br />

27<br />

1<br />

27<br />

0


6.4. FAMILIAS DE CVM 29<br />

Por lo tanto, no existe kα que verifique (6.19) y el valor kα = 2 verifica<br />

(6.20), pues<br />

y γα será entonces<br />

P 1 (T >2) =<br />

3<br />

1<br />

27<br />

< 0.1 1) =<br />

3<br />

7<br />

27<br />

=0.27 .<br />

Como ejercicio se sugiere graficar la función <strong>de</strong> potencia <strong>de</strong> este test, y<br />

siendo el test aleatorizado, sugerir un mecanismo para <strong>de</strong>cidir en caso en que<br />

T =2.<br />

Ejemplo 5. Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

perteneciente a la familia U[0,θ].<br />

El test uniformemente más potente para H : θ ≤ θ1 contra K : θ>θ1,<br />

será <strong>de</strong> la forma<br />

don<strong>de</strong> kα verifica<br />

es<br />

⎧<br />

⎪⎨<br />

ϕ(X) =<br />

⎪⎩<br />

1 si max<br />

1≤i≤n Xi ≥ kα<br />

0 si max<br />

1≤i≤n Xi


30 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

6.5 Tests insesgados<br />

En la mayoría <strong>de</strong> los casos en que la hipótesis alternativa es una hipótesis<br />

compuesta, no existe un test uniformemente más potente.<br />

Ejemplo 1. Supongamos que se tiene una muestra aleatoria X1,...,Xn<br />

<strong>de</strong> una distribución N(µ, σ 2 0 ) con σ0 conocido y se <strong>de</strong>sea testear H : µ = µ0<br />

contra K : µ = µ0. Es fácil <strong>de</strong>mostrar que no existe un test uniformemente<br />

más potente a nivel menor o igual que α.<br />

Supongamos que tal test existiera y llamémoslo ϕ; entonces será el test<br />

más potente a nivel menor o igual que α para<br />

y para<br />

H1 : µ = µ0 contra K1 : µ = µ1 (µ1 >µ0)<br />

H2 : µ = µ0 contra K2 : µ = µ2 (µ2


6.5. TESTS INSESGADOS 31<br />

llamaremos insesgados y luego se buscará el test uniformemente más potente<br />

en esta clase.<br />

Definición 1. Sea una familia <strong>de</strong> distribuciones F (x, θ) con θ ∈ Θ. Se dirá<br />

que un test ϕ para testear H : θ ∈ Θ1 contra K : θ ∈ Θ2 es insesgado si<br />

sup<br />

θ∈Θ1<br />

βϕ(θ) ≤ inf βϕ(θ)<br />

θ∈Θ2<br />

El sentido <strong>de</strong> esta <strong>de</strong>sigualdad es que la probabilidad <strong>de</strong> rechazar H<br />

cuando θ ∈ Θ2, es <strong>de</strong>cir cuando H es falsa, no pu<strong>de</strong> ser menor que cuando<br />

θ ∈ Θ1, es <strong>de</strong>cir cuando H es verda<strong>de</strong>ra.<br />

Por lo tanto, un test insesgado <strong>de</strong> nivel α tiene función <strong>de</strong> potencia menor<br />

o igual que α para θ ∈ Θ1 y mayor o igual que α para θ ∈ Θ2.<br />

Observemos que un test UMP <strong>de</strong> nivel α es insesgado.<br />

Observación. Si la función <strong>de</strong> potencia βϕ(θ) <strong>de</strong>l test ϕ es una función<br />

continua <strong>de</strong> θ y ϕ es un test insesgado <strong>de</strong> nivel α, entonces βϕ(θ) <strong>de</strong>be valer<br />

α en la frontera ΘF entre Θ1 yΘ2.<br />

En particular, si Θ ⊂ IR,Θ1 = {θ1} yΘ2 =Θ−{θ1}, o sea, si estamos<br />

testeando H : θ = θ1 contra K : θ = θ1, yϕ es un test insesgado <strong>de</strong> nivel α<br />

se tiene<br />

βϕ(θ1) =α<br />

βϕ(θ) ≥ α ∀θ = θ1 .<br />

Por lo tanto, si la función <strong>de</strong> potencia βϕ(θ) es <strong>de</strong>rivable respecto <strong>de</strong> θ, ϕ<br />

<strong>de</strong>be cumplir<br />

β ′ ϕ (θ1) = ∂<br />

βϕ(θ)|θ=θ1 =0. (6.22)<br />

∂θ<br />

En el caso particular <strong>de</strong> las familias exponenciales, la función <strong>de</strong> potencia<br />

<strong>de</strong> cualquier test es <strong>de</strong>rivable y por lo tanto, los tests insesgados cumplen<br />

(6.22).<br />

Definición 2. Se dirá que un test ϕ para testear H : θ ∈ Θ1 contra<br />

K:θ ∈ Θ2 es uniformemente más potente <strong>de</strong> nivel α entre los insesgados,<br />

IUMP, si<br />

(a) ϕ tiene nivel α, o sea,<br />

sup βϕ(θ) =α<br />

θ∈Θ1


32 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

(b) ϕ es insesgado, es <strong>de</strong>cir,<br />

βϕ(θ) ≥ α ∀θ ∈ Θ2<br />

(c) Dado otro test ϕ ∗ insesgado y <strong>de</strong> nivel α se verifica<br />

βϕ(θ) ≥ βϕ ∗(θ) ∀θ ∈ Θ2 .<br />

En la próxima Sección daremos un procedimiento general para encontrar<br />

tests para un problema <strong>de</strong>terminado. En muchos casos este procedimiento<br />

da como resultado el test insesgado uniformente más potente.<br />

La teoría <strong>de</strong> los tests insesgados uniformemente más potentes escapa a<br />

las posibilida<strong>de</strong>s <strong>de</strong> este curso y pue<strong>de</strong> verse en Lehmann [3] o en Ferguson<br />

[2].<br />

6.6 Test <strong>de</strong>l cociente <strong>de</strong> máxima verosimilitud<br />

Supongamos que se observa un vector X, cuya distribución tiene función <strong>de</strong><br />

<strong>de</strong>nsidad p(x, θ), θ ∈ Θ y se quiere testear H : θ ∈ Θ1 contra K : θ ∈ Θ2<br />

(Θ1 ∪ Θ2 = Θ).<br />

Un procedimiento intuitivamente razonable y que da buenos resultados<br />

en una gran variedad <strong>de</strong> situaciones es el siguiente.<br />

Tomemos estimadores <strong>de</strong> máxima verosimilitud <strong>de</strong> θ, suponiendo θ ∈ Θ1,<br />

llamémoslo θ1 y análogamente suponiendo θ ∈ Θ2, θ2; luego<br />

y<br />

p(X, θ1) = max p(X, θ)<br />

θ∈Θ1<br />

p(X, θ2) = max p(X, θ) .<br />

θ∈Θ2<br />

Si θ1 y θ2 no <strong>de</strong>pendieran <strong>de</strong> la muestra, podríamos consi<strong>de</strong>rar el test<br />

más potente para testear H* : θ = θ1 contra K* : θ = θ2, el cual es <strong>de</strong> la<br />

forma<br />

⎧<br />

⎪⎨ 1 si Lkα<br />

don<strong>de</strong><br />

L = 1<br />

L21<br />

= p(X, θ1)<br />

p(X, θ2)


6.6. TEST DEL COCIENTE DE MÁXIMA VEROSIMILITUD 33<br />

y kα se elige <strong>de</strong> manera que el test resulte <strong>de</strong> nivel α.<br />

En algunos casos θ1 y θ2 pue<strong>de</strong>n no existir, pero siempre tiene sentido<br />

hablar <strong>de</strong> L <strong>de</strong>finido por<br />

L = sup p(X, θ)<br />

θ∈Θ1<br />

sup p(X, θ)<br />

θ∈Θ2<br />

Intuitivamente, este test pue<strong>de</strong> interpretarse como rechazando H : θ ∈ Θ1<br />

cuando “el valor más probable <strong>de</strong> Θ2” tiene probabilidad consi<strong>de</strong>rablemente<br />

más gran<strong>de</strong> que “el valor más probable <strong>de</strong> Θ1”.<br />

En muchos casos, como por ejemplo cuando la dimensión <strong>de</strong> Θ1 es menor<br />

que la dimensión <strong>de</strong> Θ = Θ1 ∪ Θ2, yp(x, θ) es continua, resulta que<br />

sup<br />

θ∈Θ2<br />

p(X, θ) = sup p(X, θ) (6.23)<br />

θ∈Θ<br />

En este caso, el test <strong>de</strong>l cociente <strong>de</strong> máxima verosimilitud resulta equivalente<br />

a<br />

⎧<br />

⎪⎨ 1<br />

ϕ(X) =<br />

⎪⎩<br />

si L∗ γα<br />

kα<br />

don<strong>de</strong><br />

L ∗ = sup p(X, θ)<br />

θ∈Θ1<br />

supθ∈Θ p(X, θ) .<br />

En general, es más fácil aplicar la forma <strong>de</strong>l test basada en L∗ cuando es<br />

posible, es <strong>de</strong>cir, cuando (6.23) se cumple.<br />

Ejemplo 1. Se tiene una muestra aleatoria X1,...,Xn <strong>de</strong> una distribución<br />

N(µ, σ 2 0 ) con σ0 conocido y se quiere testear H : µ = µ0 contra K : µ = µ0<br />

Como en este caso Θ1 = {µ0} tiene dimensión cero (se reduce a un<br />

punto) y Θ = {µ : −∞


34 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

Luego,<br />

y como<br />

resulta<br />

n<br />

L ∗ 1<br />

−<br />

2 σ<br />

= e 2 (Σ<br />

0<br />

n i=1 (Xi−µ0) 2−Σn i=1 (Xi−X) 2 )<br />

(Xi − µ0)<br />

i=1<br />

2 −<br />

n<br />

(Xi − X)<br />

i=1<br />

2 = n(X − µ0) 2<br />

L ∗ n<br />

−<br />

2 σ<br />

= e 2 (X−µ0)<br />

0<br />

2<br />

.<br />

Sea T = √ n|X − µ0|/σ0. Luego, L∗ = g(T ) con g <strong>de</strong>creciente. Luego ϕ(X)<br />

es equivalente a<br />

⎧<br />

⎪⎨<br />

ϕ(X) =<br />

⎪⎩<br />

1 si √ |X − µ0|<br />

n ≥ k<br />

σ0<br />

′ α<br />

0 si √ n |X−µ0|<br />

σ0<br />


6.6. TEST DEL COCIENTE DE MÁXIMA VEROSIMILITUD 35<br />

y<br />

Como<br />

Luego, se tiene<br />

sup<br />

(µ,σ2 p(X,µ,σ<br />

)∈Θ1<br />

2 )=<br />

sup<br />

(µ,σ2 p(X,µ,σ<br />

)∈Θ<br />

2 )=<br />

Por lo tanto, L ∗ está dado por<br />

se tiene que<br />

Sea ahora<br />

n<br />

L ∗ =<br />

(Xi − µ0)<br />

i=1<br />

2 =<br />

1<br />

e n<br />

2 (2π) n<br />

n 2 i=1<br />

1<br />

e n<br />

2 (2π) n<br />

n 2 i=1<br />

ni=1 (Xi − X) 2<br />

ni=1(Xi − µ0) 2<br />

n<br />

n<br />

2<br />

n<br />

(Xi−µ0) 2<br />

n<br />

2<br />

n<br />

(Xi−X) 2<br />

n<br />

2<br />

(Xi − X)<br />

i=1<br />

2 + n(X − µ0) 2<br />

L ∗ <br />

n(X − µ0) 2<br />

= 1+ ni=1 (Xi − X) 2<br />

n<br />

− 2<br />

T = √ (X − µ0)<br />

n<br />

s<br />

don<strong>de</strong> s 2 = n i=1 (Xi − X) 2 /(n − 1). Luego,<br />

L ∗ =<br />

<br />

1+<br />

1<br />

T 2<br />

n−1<br />

Como la función 1/(1 + t2 /(n − 1)) es monótona <strong>de</strong>creciente <strong>de</strong> |t|, el test<br />

<strong>de</strong>l cociente <strong>de</strong> máxima verosimilitud resulta equivalente a<br />

<br />

1 si |T |≥kα<br />

ϕ(X) =<br />

0 si |T |


36 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

Como T tiene distribución stu<strong>de</strong>nt con n − 1 grados <strong>de</strong> libertad, resulta<br />

kα = t α<br />

n−1, 2 .<br />

Obsérvese que este test es completamente análogo al <strong>de</strong>l Ejemplo 1, con<br />

la diferencia que se reemplaza σ por s y zα/2 por t α<br />

n−1, 2 .<br />

Ejemplo 3. Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

N(µ, σ 2 ) con media y varianza <strong>de</strong>sconocidas. Supongamos que se quiere<br />

testear H : µ ≤ µ0 contra K : µ>µ0. En este caso,<br />

y<br />

Θ1 = {(µ, σ 2 ):µ ≤ µ0, σ 2 > 0}<br />

Θ2 = {(µ, σ 2 ):µ>µ0, σ 2 > 0} .<br />

Luego, la dimensión <strong>de</strong> Θ1 es igual a la <strong>de</strong> Θ2, y el test <strong>de</strong>l cociente <strong>de</strong><br />

máxima verosimilitud <strong>de</strong>berá hacerse con L y no con L∗ . Como<br />

resulta<br />

p(X,µ,σ 2 )=(2πσ 2 n 1<br />

− −<br />

) 2 e 2σ2 ln p(X,µ,σ 2 )=− n n<br />

ln(2π) −<br />

2 2 ln σ2 − 1<br />

2σ2 Teniendo en cuenta que<br />

n<br />

(Xi − µ)<br />

i=1<br />

2 =<br />

n<br />

n (Xi−µ) 2<br />

i=1<br />

n<br />

(Xi − X)<br />

i=1<br />

2 + n(X − µ) 2<br />

(6.24)<br />

(Xi − µ)<br />

i=1<br />

2 . (6.25)<br />

se obtiene que el estimador <strong>de</strong> máxima verosimilitud <strong>de</strong> µ en Θ1, es igual a<br />

<br />

X si X ≤ µ0<br />

µ1 =<br />

(6.26)<br />

µ0 si X>µ0<br />

y que el estimador <strong>de</strong> máxima verosimilitud <strong>de</strong> µ en Θ2, es igual a<br />

<br />

X si X>µ0<br />

µ2 =<br />

(6.27)<br />

µ0 si X ≤ µ0 .<br />

El estimador <strong>de</strong> máxima verosimilitud <strong>de</strong> σ 2 , para θ ∈ Θ1 es<br />

σ 2 1 = 1<br />

n<br />

n<br />

(Xi − µ1)<br />

i=1<br />

2


6.6. TEST DEL COCIENTE DE MÁXIMA VEROSIMILITUD 37<br />

y para θ ∈ Θ2 es<br />

σ 2 2<br />

= 1<br />

n<br />

Luego, reemplazando en (6.24) se obtiene<br />

para j =1, 2, <strong>de</strong> don<strong>de</strong><br />

L =<br />

n<br />

max<br />

(µ,σ2 p(X,µ,σ<br />

)∈Θj<br />

2 )=[2eπ<br />

ni=1 (Xi − µ2) 2<br />

ni=1 (Xi − µ1) 2<br />

n<br />

2<br />

=<br />

y usando (6.26) y (6.27) se <strong>de</strong>duce<br />

⎧<br />

⎪⎨<br />

L =<br />

⎪⎩<br />

Si llamamos<br />

se tiene<br />

(Xi − µ2)<br />

i=1<br />

2 .<br />

n<br />

ni=1 (Xi − X) 2 + n(X − µ0) 2<br />

ni=1 (Xi − X) 2<br />

ni=1 (Xi − X) 2<br />

ni=1 (Xi − X) 2 + n(X − µ0) 2<br />

⎧<br />

⎪⎨ (1 +<br />

L =<br />

⎪⎩<br />

(1 +<br />

T =<br />

(Xi − µj)<br />

i=1<br />

2 /n]<br />

n<br />

− 2<br />

ni=1 (Xi − X) 2 + n(X − µ2) 2<br />

ni=1 (Xi − X) 2 +(X − µ1) 2<br />

√ n(X − µ0)<br />

n<br />

2<br />

n<br />

2<br />

n (Xi−X) 2<br />

i=1<br />

n−1<br />

T 2 n<br />

n−1 ) 2 si X ≤ µ0<br />

T 2 n<br />

n−1<br />

)− 2 si X>µ0 .<br />

si X ≤ µ0<br />

n<br />

2<br />

si X>µ0 .


38 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

Luego, el test <strong>de</strong>l cociente <strong>de</strong> máxima verosimilitud es <strong>de</strong> la forma<br />

⎧<br />

1<br />

⎪⎨<br />

ϕ(X) =<br />

⎪⎩<br />

⎧<br />

⎪⎨<br />

si<br />

⎪⎩<br />

T 2<br />

1+<br />

n − 1 ≤ kα<br />

0<br />

⎧<br />

⎪⎨<br />

si<br />

⎪⎩<br />

1<br />

T 2 ≤ kα<br />

1+ n−1<br />

T 2<br />

1+<br />

n − 1<br />

y<br />

y<br />

X ≤ µ0<br />

X>µ0<br />

(A)<br />

(B)<br />

>kα<br />

1<br />

T 2 >kα<br />

1+ n−1<br />

y<br />

y<br />

X ≤ µ0<br />

X>µ0<br />

(C)<br />

(D) .<br />

Tomemos ahora kα < 1 (con kα ≥ 1 se llega al mismo resultado), en este caso<br />

la primera <strong>de</strong>sigualdad <strong>de</strong> (A) no pue<strong>de</strong> ocurrir y la primera <strong>de</strong>sigualdad <strong>de</strong><br />

(C) ocurre siempre, luego ϕ(X) se transforma en<br />

⎧<br />

1<br />

⎪⎨<br />

ϕ(X) =<br />

0<br />

⎪⎩<br />

Esto es equivalente a<br />

⎧<br />

1<br />

si<br />

T 2 ≤ kα y<br />

1+ n−1<br />

⎧<br />

X ≤ µ0<br />

⎪⎨<br />

si 1<br />

⎪⎩ T 2 >kα y<br />

1+ n−1<br />

X>µ0<br />

X>µ0 .<br />

⎪⎨ ⎧<br />

ϕ(X) = ⎪⎨<br />

⎪⎩<br />

0 si<br />

⎪⎩<br />

<strong>de</strong> don<strong>de</strong>, se <strong>de</strong>duce que<br />

<br />

ϕ(X) =<br />

1 si |T |≥k ′ α y T>0<br />

|T | 0<br />

T


6.6. TEST DEL COCIENTE DE MÁXIMA VEROSIMILITUD 39<br />

Se pue<strong>de</strong> pensar que el caso más <strong>de</strong>sfavorable, en el cual hay mayor<br />

probabilidad <strong>de</strong> rechazar H, es en el caso límite µ = µ0; por lo tanto parece<br />

razonable elegir k ′ α <strong>de</strong> manera que<br />

P µ0,σ 2(T ≥ k′ α)=α.<br />

Pero cuando µ = µ0, T tiene distribución <strong>de</strong> Stu<strong>de</strong>nt con n − 1 grados<br />

<strong>de</strong> libertad, y por lo tanto <strong>de</strong>bemos tomar<br />

El test ϕ resulta entonces<br />

<br />

ϕ(X) =<br />

k ′ α = tn−1,α .<br />

1 si T ≥ tn−1,α<br />

0 si T


40 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

don<strong>de</strong> U es una variable aleatoria N(0, 1) y V tiene distribución χ 2 n, in<strong>de</strong>pendientes.<br />

Luego,<br />

pero<br />

P (X∆ ≥ k|V = v) =P<br />

cn,k(∆) = P (X∆ ≥ k) =E [P (X∆ ≥ k|V )] ,<br />

<br />

<br />

U +∆<br />

v<br />

≥ k |V = v =1− Φ(k − ∆) .<br />

v/n n<br />

Luego esta última probabilidad, para k, n y v fijos, es una función creciente<br />

<strong>de</strong> ∆. Por lo tanto, si ∆1 < ∆2 se tiene<br />

P (X∆1 ≥ k|V = v)


6.6. TEST DEL COCIENTE DE MÁXIMA VEROSIMILITUD 41<br />

σ2 , U tiene distribución N(0, 1) y V tiene distribución χ2 n−1 . Luego T tiene<br />

distribución Tn−1(∆) don<strong>de</strong> ∆ = √ n(µ − µ0)/σ. A<strong>de</strong>más,<br />

βϕ(µ, σ 2 )=P µ,σ2(T ≥ tn−1,α) =cn−1,tn−1,α (∆) .<br />

Resulta, por el Teorema 1, que βϕ(µ, σ 2 ) es una función creciente <strong>de</strong> µ<br />

para cada σ 2 fijo. Como, por otra parte, βϕ(µ0,σ 2 )=α, para todo σ 2 ,se<br />

tiene<br />

βϕ(µ, σ 2 )


42 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

o equivalentemente<br />

P σ 2 0<br />

ni=1 (Xi − X) 2<br />

σ 2 0<br />

≥ kα<br />

σ2 <br />

= α.<br />

0<br />

Como n i=1(Xi − X) 2 /σ 2 0 tiene distribución χ2 n−1 cuando σ2 = σ 2 0 ,se<br />

tiene que<br />

kα = σ 2 0 χ2 n−1,α .<br />

Para mostrar que el test tiene realmente nivel <strong>de</strong> significación α, bastará<br />

mostrar que la función <strong>de</strong> potencia es una función creciente y esto se <strong>de</strong>duce<br />

como sigue. Sea Dn(k) =P (Y ≥ k), don<strong>de</strong> Y es una variable aleatoria con<br />

distribución χ 2 n. Luego<br />

βϕ(σ 2 ) = P σ 2<br />

= P σ 2<br />

= Dn−1<br />

n<br />

<br />

(Xi − X)<br />

i=1<br />

2 ≥ σ 2 0χ2n−1,α ni=1 (Xi − X) 2<br />

σ2 ≥ σ2 0χ2n−1,α σ2 <br />

<br />

σ2 0χ2 <br />

n−1,α<br />

σ 2<br />

ya que cuando la varianza <strong>de</strong> cada Xi es σ 2 resulta que n i=1 (Xi − X) 2 /σ 2<br />

tiene distribución χ 2 n−1 .<br />

Como Dn(k) es una función <strong>de</strong>creciente <strong>de</strong> k, βϕ(σ 2 ) es una función<br />

creciente <strong>de</strong> σ 2 .<br />

Ejemplo 5. Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

N(µ, σ 2 ) con µ y σ 2 <strong>de</strong>sconocidos y supongamos que se quiere testear<br />

H:σ 2 = σ 2 0 contra K : σ2 = σ 2 0 .<br />

En este caso, el test <strong>de</strong>l cociente <strong>de</strong> máxima verosimilitud es <strong>de</strong> la forma<br />

⎧<br />

1 si<br />

⎪⎨<br />

ϕ(X) =<br />

1 si<br />

ni=1 (Xi − X) 2<br />

σ 2 0<br />

ni=1 (Xi − X) 2<br />

σ 2 0<br />

⎪⎩<br />

0 en cualquier otro caso,<br />

,<br />

≥ k ′ α<br />


6.6. TEST DEL COCIENTE DE MÁXIMA VEROSIMILITUD 43<br />

Para que ϕ tenga nivel <strong>de</strong> significación α, se <strong>de</strong>be cumplir que<br />

βϕ(σ 2 ni=1 (Xi − X)<br />

0) = Pσ2 0<br />

2<br />

σ2 ≥ k<br />

0<br />

′ <br />

α<br />

ni=1 (Xi − X)<br />

+Pσ2 0<br />

2<br />

σ2


44 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

aproximación es buena con tal que n no sea muy pequeño. Luego, el test<br />

que se usa viene dado por<br />

⎧<br />

⎪⎨<br />

⎪⎨ 1 si<br />

ϕ(X) =<br />

⎪⎩<br />

⎪⎩<br />

⎧<br />

n<br />

(Xi − X)<br />

i=1<br />

2 ≥ σ 2 0χ 2 n−1, α<br />

2<br />

n<br />

0 si σ 2 0 χ2 n−1,1− α<br />

2<br />

(Xi − X)<br />

i=1<br />

2 ≤ σ 2 0χ 2 n−1,1− α<br />

2<br />

≤<br />

n<br />

(Xi − X)<br />

i=1<br />

2 ≤ σ 2 0χ2n−1, α<br />

2<br />

Se pue<strong>de</strong> mostrar que los tests obtenidos en los Ejemplos 1 a 5 son IUMP.<br />

Para estos resultados pue<strong>de</strong>n consultarse el Capítulo 5 <strong>de</strong> Lehmann [3] o el<br />

Capítulo 5 <strong>de</strong> Ferguson [2].<br />

6.7 Test con nivel <strong>de</strong> significación asintótico<br />

La mayoría <strong>de</strong> los test <strong>de</strong> hipótesis, por ejemplo, los <strong>de</strong>l cociente <strong>de</strong> verosimilitud,<br />

son <strong>de</strong> la forma<br />

⎧<br />

⎪⎨ 1 si T>kα<br />

ϕ(X) = γα si T = kα<br />

⎪⎩ 0 si T


6.7. TEST CON NIVEL DE SIGNIFICACIÓN ASINTÓTICO 45<br />

Ejemplo 1. Supongamos que X1,...,Xn es una muestra aleatoria <strong>de</strong> una<br />

distribución <strong>de</strong>sconocida con media µ y varianza σ2 .<br />

Supongamos que se quiere testear H : µ ≤ µ0 contra K : µ > µ0.<br />

Llamemos<br />

ni=1 Xi<br />

ni=1 (Xi − X) 2<br />

X =<br />

y s<br />

n<br />

2 =<br />

.<br />

n − 1<br />

Ya hemos <strong>de</strong>mostrado que<br />

√ (X − µ0)<br />

n<br />

s<br />

converge en distribución a la N(0, 1) cuando la esperanza <strong>de</strong> las variables Xi<br />

es µ0. Luego, si <strong>de</strong>finimos<br />

⎧<br />

⎪⎨<br />

ϕn(X1,...,Xn) =<br />

⎪⎩<br />

1 si √ (X − µ0)<br />

n ≥ zα<br />

s<br />

0 si √ (X − µ0)<br />

n


46 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

o bien, en forma paramétrica<br />

Θ1 = {θ =(θ1, ...θp) :θ1 = h1(λ),...,θp = hp(λ), λ ∈ Λ},<br />

don<strong>de</strong> λ =(λ1,...,λp−j) yΛ⊂ IR p−j <strong>de</strong> dimensión p − j.<br />

Supongamos que se está interesado en el siguiente problema <strong>de</strong> test <strong>de</strong><br />

hipótesis:<br />

H:θ ∈ Θ1 contra K : θ ∈ Θ2<br />

con Θ = Θ1 ∪ Θ2. Luego, el test <strong>de</strong>l cociente <strong>de</strong> máxima verosimilitud es <strong>de</strong><br />

la forma<br />

<br />

ϕ(X) =<br />

don<strong>de</strong><br />

1 si L ∗ (X) ≤ kα<br />

0 si L ∗ (X) >kα<br />

L ∗ (X) = sup θ∈Θ1<br />

p(X, θ)<br />

supθ∈Θ p(X, θ) .<br />

Para <strong>de</strong>terminar kα es necesario conocer la distribución <strong>de</strong> L ∗ (X) bajo H.<br />

Muchas veces esta es muy complicada y pue<strong>de</strong> <strong>de</strong>pen<strong>de</strong>r <strong>de</strong>l valor particular<br />

θ ∈ Θ1 que se consi<strong>de</strong>re. Sin embargo, se pue<strong>de</strong> mostrar que, bajo condi-<br />

ciones <strong>de</strong> regularidad muy generales en p(x, θ), la distribución asintótica <strong>de</strong><br />

Z = −2lnL∗ cuando θ ∈ Θ1 es χ2 j . Luego un test <strong>de</strong> nivel <strong>de</strong> significación<br />

asintótico α está dado por<br />

⎧<br />

⎪⎨ 1<br />

ϕ(X) =<br />

⎪⎩<br />

si Z ≥ χ2 j,α<br />

0 si Z 0} es in<strong>de</strong>pendiente <strong>de</strong> θ.


6.7. TEST CON NIVEL DE SIGNIFICACIÓN ASINTÓTICO 47<br />

(B) Para todo x, p(x, θ) tiene <strong>de</strong>rivada tercera respecto <strong>de</strong> θ continua y tal<br />

que<br />

<br />

<br />

∂3 ln p(x, θ)<br />

∂θ3 <br />

<br />

= ∂2ψ(x, θ)<br />

∂θ2 <br />

<br />

≤ K<br />

para todo x ∈S y para todo θ ∈ Θ, don<strong>de</strong><br />

ψ(x, θ) =<br />

∂ ln p(x, θ)<br />

∂θ<br />

(C) Si h(X) es un estadístico tal que Eθ[|h(X)|] < ∞ para todo θ ∈ Θ<br />

entonces se tiene<br />

<br />

∂ ∞ ∞<br />

...<br />

h(x)<br />

∂θ<br />

∂p(x,θ)<br />

dx<br />

∂θ<br />

si<br />

(D)<br />

−∞<br />

−∞<br />

don<strong>de</strong> dx =(dx1,...,dxn).<br />

∞<br />

h(x)p(x,θ)dx =<br />

∞<br />

...<br />

−∞ −∞<br />

0


48 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

Luego, θn verifica<br />

ℓ ′ ( n<br />

θn) = ψ(Xi,<br />

i=1<br />

θn) =0.<br />

Con lo cual, <strong>de</strong>sarrollando en serie <strong>de</strong> Taylor alre<strong>de</strong>dor <strong>de</strong> θn se obtiene:<br />

ℓ(θ0) − ℓ( θn) = ℓ ′ ( θn)(θ0 − θn)+ 1<br />

2 ℓ′′ (ξ 1 n )(θ0 − θn) 2<br />

= 1<br />

2 (θ0 − θn) 2<br />

<br />

n<br />

<br />

= 1 <br />

n(θ0 −<br />

2<br />

θn) 2 1<br />

n<br />

ψ<br />

i=1<br />

′ (Xi,ξ 1 n )<br />

don<strong>de</strong> ξ 1 n es un punto intermedio entre θn y θ0 y<br />

i=1<br />

n<br />

ψ<br />

i=1<br />

′ (Xi,θ0)+Rn ,<br />

Rn = 1 <br />

n(θ0 −<br />

2<br />

θn) 2 n 1<br />

ψ<br />

n<br />

i=1<br />

′ (Xi,ξ 1 n 1<br />

n ) − ψ<br />

n<br />

i=1<br />

′ <br />

(Xi,θ0) .<br />

Aplicando el Teorema <strong>de</strong>l valor medio se obtiene<br />

Rn = 1 <br />

n(θ0 −<br />

2<br />

θn) 2 n 1<br />

ψ<br />

n<br />

′′ (Xi,ξ 2 n)(ξ 1 <br />

n − θ0) (6.30)<br />

don<strong>de</strong> ξ 2 n es un punto intermedio entre ξ1 n y θ0. Observemos que por ser θn<br />

consistente, se obtiene entonces que ξ j n → θ0 en probabilidad para j =1, 2.<br />

Reemplazando, obtenemos que<br />

<br />

Z =2 ℓ( <br />

θn) − ℓ(θ0) =<br />

ni=1 ψ ′ (Xi,θ0).<br />

<br />

n( θn − θ0) 2<br />

An − Rn<br />

don<strong>de</strong> An = − 1<br />

n<br />

Hemos visto en el Teorema 1 <strong>de</strong> 3.17 que cuando θ = θ0<br />

√<br />

n( θn<br />

1<br />

− θ0) → N(0, ) en distribución,<br />

I1(θ0)<br />

con lo cual<br />

(6.31)<br />

I1(θ0) n ( θn − θ0) 2 → χ 2 1 en distribución. (6.32)<br />

Por otra parte, la ley <strong>de</strong> los gran<strong>de</strong>s números implica que<br />

n 1<br />

n<br />

ψ<br />

i=1<br />

′ (Xi,θ0) → E(ψ ′ (X1,θ0)) en probabilidad. (6.33)


6.7. TEST CON NIVEL DE SIGNIFICACIÓN ASINTÓTICO 49<br />

Pero,<br />

Eθ0 (ψ′ (X1,θ0)) = −I1(θ0) ,<br />

luego, usando (6.32) y (6.33) se obtiene que<br />

<br />

n ( θn − θ0) 2<br />

An → χ 2 1 en distribución. (6.34)<br />

Por lo tanto, a partir <strong>de</strong> (6.31) y (6.34) <strong>de</strong>ducimos que bastará probar que<br />

Rn → 0 en probabilidad. (6.35)<br />

Como |ψ ′′ (Xi,θ)| ≤K para todo θ, se tiene que<br />

<br />

n 1<br />

ψ<br />

2n<br />

′′ (Xi,ξ 2 n)(ξ 1 <br />

<br />

K<br />

n − θ0) ≤<br />

2 |(ξ1 n − θ0)|<br />

i=1<br />

y luego como ξ1 n → θ0 en probabilidad se <strong>de</strong>duce que:<br />

n<br />

1<br />

n<br />

i=1<br />

ψ ′′ (Xi,ξ 2 n)(ξ 1 n − θ0) → 0 en probabilidad. (6.36)<br />

Pero, (6.32) implica que n( θn − θ0) 2 está acotado en probabilidad, luego<br />

(6.35)se obtiene <strong>de</strong> (6.30) y (6.36).<br />

Ejemplo 1. Sea X1,...,Xn una muestra <strong>de</strong> una distribución perteneciente<br />

a la familia Bi(θ, 1), 0 < θ < 1, y supongamos que se quiere testear<br />

H:θ = θ0 contra K : θ = θ0. Luego el test <strong>de</strong>l cociente <strong>de</strong> máxima verosimilitud<br />

es<br />

L ∗ p(x,θ0)<br />

=<br />

supθ∈Θ p(x, θ) = θT 0 (1 − θ0) n−T<br />

X T ,<br />

(1 − X) n−T<br />

don<strong>de</strong> T = n i=1 Xi. Luego,<br />

Z = −2lnL ∗ =2T ln X<br />

θ0<br />

+2(n − T )ln<br />

tiene una distribución asintótica χ2 1<br />

estará dado por<br />

⎧<br />

⎪⎨ 1 si Z>χ2 1,α<br />

ϕ(X) =<br />

⎪⎩<br />

(1 − X)<br />

1 − θ0<br />

bajo H y un test <strong>de</strong> nivel asintótico<br />

0 si Z


50 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

6.8 Relación entre regiones <strong>de</strong> confianza y test<br />

En esta sección se estudiará la relación que existe entre tests y regiones <strong>de</strong><br />

confianza.<br />

Supongamos que se tiene un vector aleatorio X con distribución perteneciente<br />

a la familia F (x, θ) con θ ∈ Θ y supongamos que para cada θ0<br />

se tiene un test no aleatorizado <strong>de</strong> nivel α, ϕ θ0 , para H : θ = θ0 contra<br />

K:θ = θ0.<br />

Se pue<strong>de</strong> construir una región <strong>de</strong> confianza <strong>de</strong> nivel (1 − α) para θ<br />

<strong>de</strong>finiendo<br />

S(X) ={θ : ϕ θ (X) =0}<br />

Es <strong>de</strong>cir, S(X) es el conjunto <strong>de</strong> todos los θ ∈ Θ tales que la hipótesis <strong>de</strong><br />

que el valor verda<strong>de</strong>ro es θ, es aceptada cuando se observa X.<br />

Demostraremos que S(X) así<strong>de</strong>finida, es una región <strong>de</strong> confianza <strong>de</strong> nivel<br />

1 − α para θ<br />

P θ (θ ∈ S(X)) = P θ (ϕ θ (X) =0)=1− P θ (ϕ θ (X) =1)=1− α.<br />

Recíprocamente, si se tiene una región <strong>de</strong> confianza S(X) <strong>de</strong> nivel 1 − α<br />

para θ, se pue<strong>de</strong> construir un test <strong>de</strong> nivel α, ϕ θ0 ,paraH:θ = θ0 contra<br />

K:θ = θ0.<br />

Definamos<br />

<br />

ϕ (X) = θ0<br />

1 si θ0 /∈ S(X)<br />

0 si θ0 ∈ S(X) .<br />

Mostraremos que este test tiene realmente nivel <strong>de</strong> significación α. Efectivamente,<br />

P θ0 (ϕ θ0 (X) =1)=P θ0 (θ0 /∈ S(X)) = 1−P θ0 (θ0 ∈ S(X)) = 1−(1−α) =α.<br />

Ejemplo 1. Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

N(µ, σ 2 ).<br />

En el capítulo anterior hemos <strong>de</strong>mostrado que un intervalo <strong>de</strong> confianza<br />

a nivel (1 − α) para µ viene dado por<br />

S(X) =[X − t n−1, α<br />

2<br />

s<br />

√ n , X + t n−1, α<br />

2<br />

Construyamos el test correspondiente <strong>de</strong> nivel α para<br />

H:µ = µ0 contra K: µ = µ0<br />

s<br />

√ n ]


6.8. RELACIÓN ENTRE REGIONES DE CONFIANZA Y TEST 51<br />

ϕµ0 (X) =<br />

<br />

1 si µ0 /∈ S(X)<br />

0 si µ0 ∈ S(X)<br />

pero µ0 ∈ S(X) si y sólo si |µ0 − X| ≤t n−1, α<br />

2 (s/√ n), luego<br />

ϕµ0 (X) =<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

1 si √ |X − µ0|<br />

n >t α<br />

n−1,<br />

s<br />

2<br />

0 si √ |X − µ0|<br />

n ≤ t α<br />

n−1,<br />

s<br />

2 .<br />

Por lo tanto, este test coinci<strong>de</strong> con el obtenido en el Ejemplo 2 <strong>de</strong> 6.6,<br />

cuando obtuvimos el test <strong>de</strong>l CMV para este problema. Recíprocamente, a<br />

partir <strong>de</strong> esta familia <strong>de</strong> tests si se usara el procedimiento indicado anteriormente<br />

para obtener intervalos <strong>de</strong> confianza, se llegará al intervalo inicial.<br />

Ejemplo 2. Sea X1,...,Xn1<br />

una muestra aleatoria <strong>de</strong> una distribución<br />

N(µ1,σ 2 )yseaY1,...,Yn2 una muestra aleatoria <strong>de</strong> una distribución N(µ2,σ 2 )<br />

in<strong>de</strong>pendiente <strong>de</strong> la primera. Se ha visto en el Capítulo 5 que<br />

don<strong>de</strong><br />

T =<br />

<br />

n1 n2<br />

n1 + n2<br />

(X − Y − (µ1 + µ2))<br />

s<br />

s 2 <br />

n1<br />

1 <br />

=<br />

(Xi − X)<br />

n2 + n1 − 2<br />

2 n2 <br />

+ (Yi − Y ) 2<br />

<br />

i=1<br />

tiene distribución <strong>de</strong> Stu<strong>de</strong>nt con n1 + n2 − 2 grados <strong>de</strong> libertad y que un<br />

intervalo <strong>de</strong> confianza para µ1 − µ2 está dado por<br />

<br />

<br />

<br />

n1 + n2<br />

S(X) =<br />

X − Y − t n1+n2−2, α<br />

2 s<br />

n1 n2<br />

i=1<br />

, X − Y + t (n1+n2−2), α<br />

2 s<br />

<br />

n1 + n2<br />

n1 n2<br />

Luego, si se quiere testear H : µ1 − µ2 = λ0 contra K : µ1 − µ2 = λ0, con<br />

nivel <strong>de</strong> significación α, se pue<strong>de</strong> obtener un test haciendo<br />

<br />

1 si λ0 /∈ S(X)<br />

ϕλ0 (X) =<br />

0 si λ0 ∈ S(X)<br />

pero λ0 ∈ S(X) si y sólo si<br />

<br />

n1 n2<br />

n1 + n2<br />

|X − Y − λ0|<br />

s<br />

≤ t n1+n2−2, α<br />

2 .


52 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

Por lo tanto,<br />

ϕλ0 (X) =<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

1 si<br />

0 si<br />

n1 n2<br />

n1 + n2<br />

n1 n2<br />

n1 + n2<br />

|X − Y − λ0|<br />

s<br />

|X − Y − λ0|<br />

s<br />

≥ t n1+n2−2, α<br />

2<br />

θ0<br />

H2 : θ = θ0 contra K2 : θ


6.9. COTAS DE CONFIANZA ÓPTIMAS 53<br />

i) S(X) es una región <strong>de</strong> confianza <strong>de</strong> nivel 1 − α para θ.<br />

ii) Si ϕ∗ es cualquier otro test no aleatorizado <strong>de</strong> nivel α para esas<br />

θ0<br />

hipótesis y<br />

S ∗ (X) ={θ ∈ Θ:ϕ ∗ θ (X) =0}<br />

entonces Pθ{θ0 ∈ S(X)} ≤Pθ{θ0 ∈ S ∗ (X)} para todo θ>θ0.<br />

Demostración. i) Por la <strong>de</strong>finición <strong>de</strong> S(X) sabemos que θ ∈ S(X) siy<br />

sólo si ϕθ(X) = 0, luego<br />

Pθ{θ ∈ S(X)} = Pθ{ϕθ(X) =0} =1− α<br />

por ser ϕθ <strong>de</strong> nivel α.<br />

ii) Igual que en i) S ∗ (X) será una región <strong>de</strong> confianza <strong>de</strong> nivel 1 − α. Por<br />

ser ϕθ0 (X) el test UMP para H1 contra K1 resulta que<br />

o sea,<br />

Por lo tanto,<br />

βϕθ (θ) ≥ βϕ 0 ∗ (θ) ∀ θ>θ0<br />

θ0 Pθ{ϕθ0 (X) =1}≥Pθ{ϕ ∗ θ0 (X) =1} ∀ θ>θ0 .<br />

Pθ{ϕθ0 (X) =0}≤Pθ{ϕ ∗ θ0 (X) =0} ∀θ>θ0 .<br />

pero como θ0 ∈ S(X) si y sólo si ϕθ0 (X) =0yθ0 ∈ S∗ (X) si y sólo si<br />

ϕ∗ (X) = 0, resulta<br />

θ0<br />

Pθ{θ0 ∈ S(X)} ≤Pθ{θ0 ∈ S ∗ (X)} ∀θ>θ0 .<br />

Un teorema similar pue<strong>de</strong> <strong>de</strong>mostrarse para H2 contra K2.<br />

Veamos cómo son las regiones S(X) en el caso <strong>de</strong>l Teorema 1.<br />

Teorema 2. Sea X con distribución perteneciente a una familia F (x,θ)<br />

<strong>de</strong> cociente <strong>de</strong> verosimilitud monótono en T = r(X). Supongamos que la<br />

función <strong>de</strong> distribución FT (t, θ) <strong>de</strong> T es continua para todo θ . Sea, para<br />

cada θ0 ∈ Θ, ϕθ0 (X) el test UMP para H1 : θ = θ0 contra K1 : θ>θ0, o sea:<br />

<br />

ϕθ0 (X) =<br />

1 si T>kα(θ0)<br />

0 si T ≤ kα(θ0)


54 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

Si a<strong>de</strong>más FT (t, θ) es continua en θ para cada t fijo, la región <strong>de</strong> confianza<br />

S(X) ={θ ∈ Θ:ϕθ(X) =0} = {θ ∈ Θ:T = r(X) ≤ kα(θ)}<br />

es el intervalo I =[θ(X), +∞), don<strong>de</strong><br />

θ(X) = inf{θ ∈ Θ:T ≤ kα(θ)} .<br />

Demostración. Ya hemos <strong>de</strong>mostrado que si se tiene una familia<br />

<strong>de</strong> cociente <strong>de</strong> verosimilitud monótono en T = r(X), el test UMP para<br />

H1 : θ = θ0 contra K1: θ>θ0 es <strong>de</strong> la forma<br />

ϕθ0 (X) =<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

con kα(θ0) yγα(θ0) tales que<br />

1 si T>kα(θ0)<br />

γα(θ0) si T = kα(θ0)<br />

0 si Tkα(θ0)<br />

ϕθ0 (X) =<br />

0 si T ≤ kα(θ0) .<br />

Mostraremos que<br />

(a) kα(θ) es una función no <strong>de</strong>creciente <strong>de</strong> θ.<br />

(b) kα(θ) es una función continua a <strong>de</strong>recha.<br />

(a) Sabemos que por ser ϕθ0 el test UMP <strong>de</strong> nivel α para H1 contra K1, la<br />

función <strong>de</strong> potencia <strong>de</strong> ϕθ0 es mayor o igual que el nivel para todo θ>θ0.<br />

Luego, dado cualquier θ1 >θ0 se cumple<br />

Como a<strong>de</strong>más<br />

tendremos<br />

α = Eθ0 (ϕθ0 (X)) = Pθ0 (T ≥ kα(θ0))<br />

≤ Eθ1 (ϕθ0 (X)) = Pθ1 (T ≥ kα(θ0)) .<br />

α = Eθ1 (ϕθ1 (X)) = Pθ1 (T ≥ kα(θ1)) ,<br />

α = Pθ1 (T ≥ kα(θ1)) ≤ Pθ1 (T ≥ kα(θ0)) ,


6.9. COTAS DE CONFIANZA ÓPTIMAS 55<br />

y por lo tanto, es posible tomar kα(θ1) tal que<br />

kα(θ1) ≥ kα(θ0) .<br />

Con lo cual, kα(θ) es una función no <strong>de</strong>creciente <strong>de</strong> θ.<br />

(b) Sea θn una sucesión <strong>de</strong>creciente que converge a θ, luego como kα(.) es<br />

no <strong>de</strong>creciente se tiene<br />

kα(θn) ≥ kα(θ) (6.37)<br />

Sea k = limn→∞ kα(θn) =infn≥1 kα(θn). Por (6.37) k ≥ kα(θ), bastará<br />

mostrar que k ≤ kα(θ).<br />

Como k ≤ kα(θn) se cumple<br />

Pθn (T ≤ k) ≤ Pθn (T ≤ kα(θn)) = α. (6.38)<br />

Pero a<strong>de</strong>más, como FT (k, θ) es continua en θ se tiene<br />

Por lo tanto, (6.38) y (6.39) implican que<br />

Pθ(T ≤ k) = lim Pθn (T ≤ k) . (6.39)<br />

n→∞<br />

Pθ(T ≤ k) ≤ α = Pθ (T ≤ kα(θ))<br />

luego, es posible tomar kα(θ) tal que k ≤ kα(θ). Con lo cual, k = kα(θ) y<br />

kα(θ) es continua a <strong>de</strong>recha.<br />

Veamos ahora que θ ∈ S(X) si y sólo si θ ≥ θ(X).<br />

Si θ ∈ S(X) entonces T ≤ kα(θ) <strong>de</strong> don<strong>de</strong> θ ∈{θ ∈ Θ:T ≤ kα(θ)} y<br />

θ ≥ θ(X) que es el ínfimo <strong>de</strong> este conjunto.<br />

Si θ>θ(X) entonces existe θ ′ ∈ Θ tal que T ≤ kα(θ ′ ) con θ(X) θ0, o sea:<br />

<br />

ϕθ0 (X) =<br />

1<br />

0<br />

si<br />

si<br />

T>kα(θ0)<br />

T ≤ kα(θ0)


56 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

suponiendo que la distribución, FT (t, θ), <strong>de</strong>T (X) es continua para todo θ.<br />

Supongamos a<strong>de</strong>más FT (t, θ) es continua en θ para cada t fijo.<br />

En estas condiciones<br />

θ(X) = inf{θ ∈ Θ:T ≤ kα(θ)}<br />

es una cota inferior para θ uniformemente óptima.<br />

Demostración. De acuerdo a la <strong>de</strong>finición <strong>de</strong> cota inferior con nivel <strong>de</strong><br />

confianza 1 − α uniformemente óptima <strong>de</strong>berá <strong>de</strong>mostrarse que<br />

i) Pθ(θ ≥ θ(X)) = 1 − α para todo θ,<br />

ii) si θ ∗ es otra cota inferior a nivel α para θ<br />

Eθ(D(θ, θ)) ≤ Eθ(D(θ, θ ∗ )) para todo θ (6.40)<br />

don<strong>de</strong> D es una medida <strong>de</strong> la subevaluación <strong>de</strong> θ respecto <strong>de</strong> θ, <strong>de</strong>finida<br />

por<br />

<br />

θ − θ<br />

D(θ, θ) =<br />

0<br />

si<br />

si<br />

θ>θ<br />

θ ≤ θ .<br />

(i) se <strong>de</strong>duce <strong>de</strong>l Teorema 1, ya que<br />

S(X) ={θ : θ ≥ θ(X)}<br />

es un intervalo <strong>de</strong> nivel <strong>de</strong> confianza 1 − α.<br />

(ii) Demostraremos que dada cualquier otra cota θ ∗ a nivel 1 − α<br />

Pθ{θ ′ ≥ θ} ≤Pθ{θ ′ ≥ θ ∗ } para todo θ ′ ≤ θ. (6.41)<br />

Dado θ ′ ∈ Θ <strong>de</strong>finamos<br />

ϕ ∗ <br />

θ ′(X) =<br />

1 si θ ′ ≤ θ ∗<br />

0 si θ ′ >θ ∗ .<br />

Luego ϕ∗ θ ′(X) es un test <strong>de</strong> nivel α para H : θ = θ′ contra K : θ>θ ′ . Como<br />

′(X) es el UMP para estas hipótesis, por Teorema 1, ii) sabemos que<br />

ϕθ<br />

Pθ{θ ′ ≥ θ(X)} ≤Pθ{θ ′ ≥ θ ∗ (X)} para todo θ ≥ θ ′<br />

y como esto se pue<strong>de</strong> hacer para todo θ ′ ∈ Θ resulta (6.41).


6.9. COTAS DE CONFIANZA ÓPTIMAS 57<br />

Se podría <strong>de</strong>mostrar que si θ cumple (6.41) entonces θ cumple (6.40).<br />

Intuitivamente esto parece razonable, puesto que una cota inferior θ <strong>de</strong> θ<br />

que cumple (6.41) es, en algún sentido, la “mayor” cota inferior y, en este<br />

caso, el <strong>de</strong>fecto que presenta θ respecto <strong>de</strong> θ <strong>de</strong>bería ser lo más pequeño<br />

posible. Sin embargo la <strong>de</strong>mostración <strong>de</strong> esta implicación está fuera <strong>de</strong> los<br />

alcances <strong>de</strong> este curso. (Para la <strong>de</strong>mostración ver Lehmann [3], ejercicio 21,<br />

página 117.)<br />

Ejemplo 1. Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

U[0,θ]. Sabemos que el test UMP para H : θ = θ0 contra K : θ>θ0 es <strong>de</strong> la<br />

forma<br />

ϕθ0 (X) =<br />

⎧<br />

⎨<br />

⎩<br />

1 si max<br />

1≤i≤n Xi >θ0 n√ 1 − α<br />

0 si max<br />

1≤i≤n Xi ≤ θ0 n√ 1 − α<br />

En este caso, si T = max1≤i≤n Xi y kα(θ) =θ n√ 1 − α<br />

resulta igual a<br />

S(X) ={θ ∈ IR : ϕθ(X) =0} = {θ ∈ IR : T ≤ kα(θ)}<br />

S(X) = {θ ∈ IR : max<br />

1≤i≤n Xi ≤ θ n√ 1 − α} =<br />

= {θ ∈ IR : θ ≥<br />

max<br />

1≤i≤n Xi<br />

n√ 1 − α }<br />

y θ será<br />

max<br />

1≤i≤n<br />

θ(X) =<br />

Xi<br />

n√<br />

1 − α<br />

puesto que este es el menor valor que pue<strong>de</strong> tomar θ que pertenece a S(X).<br />

Resulta entonces que<br />

max<br />

1≤i≤n<br />

I =[θ(X), +∞) =[<br />

Xi<br />

n√ , +∞)<br />

1 − α<br />

es un intervalo <strong>de</strong> confianza unilateral para θ <strong>de</strong> nivel 1 − α y que θ es la<br />

mejor cota inferior para θ.<br />

Ejemplo 2. Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

N(µ, σ 2 0 ) con σ2 0 conocido. Sabemos que el test UMP para H : µ = µ0 contra


58 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

K:µ>µ0, es <strong>de</strong> la forma<br />

ϕµ0 (X) =<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

1 si √ (X − µ0)<br />

n >zα<br />

σ0<br />

0 si √ (X − µ0)<br />

n ≤ zα<br />

σ0<br />

Procediendo en forma similar a la <strong>de</strong>l Ejemplo 1, resulta<br />

Luego,<br />

es la mejor cota inferior para µ y<br />

σ0<br />

S(X) ={µ ∈ IR : µ ≥ X − zα √ } .<br />

n<br />

σ0<br />

µ(X) =X − zα √<br />

n<br />

σ0<br />

I =[µ(X), +∞) =[X− zα √ , +∞)<br />

n<br />

es un intervalo unilateral <strong>de</strong> nivel 1 − α para µ.<br />

6.10 Relación entre intervalos <strong>de</strong> confianza con nivel<br />

asintótico 1−α y test con nivel <strong>de</strong> significación<br />

asintótico α<br />

Supongamos que X1,...,Xn es una muestra aleatoria <strong>de</strong> una distribución<br />

perteneciente a la familia F (x, θ) y que para cada θ0 se tenga una sucesión<br />

<strong>de</strong> test ϕ nθ0 (X1,...,Xn) con nivel <strong>de</strong> significación asintótico 1 − α para<br />

H:θ = θ0 contra K : θ = θ0. Luego, pue<strong>de</strong> construirse una sucesión <strong>de</strong><br />

intervalos <strong>de</strong> confianza con nivel asintótico 1 − α <strong>de</strong>finiendo<br />

Sn(X1,...,Xn) ={θ : ϕ nθ (X) =0} .<br />

Recíprocamente, dada una sucesión <strong>de</strong> intervalos <strong>de</strong> confianza<br />

Sn(X1,...,Xn) <strong>de</strong> nivel asintótico 1 − α, si <strong>de</strong>finimos<br />

ϕ (X) =<br />

nθ0<br />

<br />

1 si θ0 /∈ S(X1,...,Xn)<br />

0 si θ0 ∈ S(X1,...,Xn)


6.10. RELACION ENTRE INTERVALOS DE CONFIANZA... 59<br />

se tiene que ϕ es una sucesión <strong>de</strong> test con nivel <strong>de</strong> significación asintótico<br />

nθ0<br />

α para H : θ = θ0 contra K : θ = θ0. (Se <strong>de</strong>ja como ejercicio la <strong>de</strong>mostración<br />

<strong>de</strong> estos enunciados.)<br />

Ejemplo 1. Sea X1,...,Xn una muestra aleatoria <strong>de</strong> una distribución<br />

Bi(θ, 1). Ya se ha visto que<br />

√ n (X − θ0)<br />

θ0(1 − θ0)<br />

converge en distribución a la N(0, 1) cuando θ = θ0.<br />

Un intervalo <strong>de</strong> confianza para θ, con nivel asintótico 1 − α viene dado<br />

por<br />

Sn(X) ={θ : √ n<br />

|X − θ|<br />

θ(1 − θ)


60 CHAPTER 6. TESTS DE HIP ÓTESIS<br />

REFERENCIAS<br />

1. Chernoff, H. (1954). On the distribution of the likelihood ratio. Ann.<br />

Math. Statist. 25: 573-578.<br />

2. Ferguson, T.S. (1967). Mathematical Statistics. A Decision Theoretic<br />

Approach. Aca<strong>de</strong>mic Press.<br />

3. Lehmann, E.L. (1994). Testing Statistical Hypothesis. Chapman and<br />

Hall.<br />

4. Owen, D.B. (1965). The power of Stu<strong>de</strong>nt’s t test. J. Amer. Statist.<br />

Assoc. 60: 320-333.<br />

5. Wald, A. (1943). Tests of statistical hypothesis concerning several<br />

parameters when the number of observations is large. Trans. Am.<br />

Math. Soc. 54: 426-483.


Chapter 7<br />

Estimación Robusta<br />

7.1 El problema <strong>de</strong> la robustez para el<br />

mo<strong>de</strong>lo <strong>de</strong> posición<br />

Sea el mo<strong>de</strong>lo <strong>de</strong> posición y escala<br />

xi = µ + σui, 1 ≤ i ≤ n, (7.1)<br />

don<strong>de</strong> µ y σ son parámetros <strong>de</strong> posición y escala respectivamente,<br />

u1, ..., un son variables i.i.d. con distribución F . En este caso, x1, ..., xn<br />

resulta una muestra aleatoria <strong>de</strong> Fµσ, don<strong>de</strong> Fµσ(x) =F ((x−µ)/σ) Por<br />

ejemplo las xi pue<strong>de</strong>n ser distintas mediciones <strong>de</strong> una misma magnitud<br />

física µ medida con un error σui .<br />

Si F =Φ, la función <strong>de</strong> una distribución N(0,1), entonces las xi<br />

tienen distribución N(µ, σ 2 ). Por lo tanto, un estimador óptimo <strong>de</strong> µ<br />

es ¯x = n i=1 xi/n. Efectivamente este estimador es IMVU y minimax.<br />

Es importante señalar que para que ¯x tenga estas propieda<strong>de</strong>s, la distribución<br />

<strong>de</strong> los ui <strong>de</strong>be ser exactamente N(0,1). Sin embargo, en la<br />

mayoría <strong>de</strong> las aplicaciones prácticas a lo sumo se pue<strong>de</strong> asegurar los<br />

errores <strong>de</strong> medición tienen distribución aproximadamente normal. Por<br />

lo tanto, cabe preguntarse cual será el comportamiento <strong>de</strong> estimador ¯x<br />

en este caso.<br />

Una forma <strong>de</strong> <strong>de</strong>terminar distribuciones aproximadamente normales<br />

es consi<strong>de</strong>rar entornos <strong>de</strong> contaminación <strong>de</strong> la función <strong>de</strong> distribución<br />

1


2 CHAPTER 7. ESTIMACIÓN ROBUSTA<br />

Φ <strong>de</strong> la N(0,1). Un entorno <strong>de</strong> contaminación <strong>de</strong> tamaño ɛ <strong>de</strong> la distribución<br />

Φ se <strong>de</strong>fine por<br />

Vɛ = {F : F =(1− ɛ)Φ + ɛH con H arbitraria}. (7.2)<br />

La distribución F =(1− ɛ)Φ + ɛH correspon<strong>de</strong> a que las observaciones<br />

con probabilidad 1 − ɛ provienen <strong>de</strong> la distribución Φ y con<br />

probabilidad ɛ <strong>de</strong> la distribución H.<br />

En efecto supongamos que se tienen tres variables aleatoria in<strong>de</strong>pendientes<br />

: Z con distribución Φ, V con distribución H, yW con<br />

distribución Bi(1,ɛ). Definamos entonces la variable aleatoria U <strong>de</strong> la<br />

siguiente manera<br />

Luego<br />

<br />

U =<br />

Z si W =0<br />

V si W =1 .<br />

FU(u) = P (U ≤ u) =P (U ≤ u, W =0)+P (U ≤ u, W =1)<br />

= P (U ≤ u| W =0)P (W =0)+P (U ≤ u| W =1)P (W =1)<br />

= (1−ɛ)Φ(u)+ɛH(u). Con lo cual, si ɛ es pequeño (por ejemplo .05 o .10) esto significará<br />

que la gran mayoría <strong>de</strong> las observaciones se obtendrán a partir <strong>de</strong> la<br />

distribución Φ, es <strong>de</strong>cir serán normales. Por lo tanto, po<strong>de</strong>mos afirmar<br />

que si ɛ es pequeño y F ∈Vɛ, entonces F está cerca <strong>de</strong> Φ. Supongamos<br />

que tenemos una muestra aleatoria x1, ..., xn <strong>de</strong> F ∈ Vɛ . Por lo tanto<br />

una proporción (1 − ɛ) <strong>de</strong> las observaciones estarán dadas por (7.1)<br />

con ui proveniente <strong>de</strong> una distribución Φ, y una proporción ɛ tendrán<br />

el correspondiente ui proveniente <strong>de</strong> la distribución H. Estas últimas<br />

observaciones serán <strong>de</strong>nominadas puntos atípicos o outliers, y pue<strong>de</strong>n<br />

ser <strong>de</strong>bidas a realizaciones <strong>de</strong>l experimento en circunstancias anormales<br />

u otros factores <strong>de</strong> error como, por ejemplo, una equivocación en la<br />

transcripción <strong>de</strong>l dato.<br />

Lo que vamos a mostrar a continuación es que aunque ɛ sea pequeño<br />

el comportamiento <strong>de</strong>l estimador ¯x pue<strong>de</strong> ser muy ineficiente para distribuciones<br />

F ∈Vɛ.<br />

Primero mostraremos que si<br />

F =(1− ɛ)Φ + ɛH, (7.3)


7.1. EL PROBLEMA DE LA ROBUSTEZ PARA EL MODELO DE POSICI ÓN3<br />

entonces<br />

EF (u) =(1− ɛ)EΦ(u)+ɛEH(u). (7.4)<br />

A<strong>de</strong>más, si EH(u) =0, se tiene<br />

varF (u) =(1− ɛ)varΦ(u)+ɛvarH(u). (7.5)<br />

Para mostrar (7.4) supongamos que la H tiene <strong>de</strong>nsidad h , y sea<br />

ϕ la <strong>de</strong>nsidad correspondiente a Φ. Luego la <strong>de</strong>nsidad <strong>de</strong> F es<br />

y luego<br />

∞<br />

EF (u) =<br />

−∞<br />

f =(1− ɛ)ϕ + ɛh,<br />

∞<br />

∞<br />

uf(u)du =(1−ɛ) uϕ(u)du+ɛ uh(u)du =(1−ɛ)EΦ(u)+ɛEH(u).<br />

−∞<br />

−∞<br />

Para mostrar (7.5), observemos que<br />

varF (u) =<br />

∞<br />

u<br />

−∞<br />

2 =<br />

f(u)du<br />

∞<br />

(1−ɛ) u 2 ∞<br />

ϕ(u)du + ɛ u 2 h(u)du =<br />

−∞<br />

= (1− ɛ)+ɛ varH(u).<br />

Consi<strong>de</strong>remos ahora al estimador ˆµ =¯x, don<strong>de</strong> la muestra x1, ..., xn son<br />

generadas por (7.1) don<strong>de</strong> las ui son in<strong>de</strong>pendientes con distribución<br />

dada por (7.3) con EH(u) =0<br />

Luego<br />

varF (¯x) = σ2 varF (u)<br />

n<br />

−∞<br />

= σ2 ((1 − ɛ)+ɛ varH(u))<br />

.<br />

n<br />

Luego, si ɛ = 0, entonces var(¯x) =σ 2 /n. En cambio una contaminación<br />

<strong>de</strong> tamaño ɛ pue<strong>de</strong> producir un aumento <strong>de</strong> la varianza ilimitado,<br />

ya que varH(u) pue<strong>de</strong> ser ilimitada, inclusive infinita.<br />

Esta extrema sensibilidad <strong>de</strong> ¯x a una contaminación con una proporción<br />

pequeña <strong>de</strong> outliers también pue<strong>de</strong> verse <strong>de</strong> la siguiente forma.<br />

Supongamos que se tiene una muestra x1, ..., xn y se agrega una observación<br />

xn+1. Si esta observación es un outlier, su influencia en ¯x pue<strong>de</strong>


4 CHAPTER 7. ESTIMACIÓN ROBUSTA<br />

ser ilimitada. En efecto sean ¯xn y¯xn+1 el promedio basado en n y n+1<br />

observaciones respectivamente. Luego se tiene<br />

¯xn+1 = n<br />

n +1 ¯xn + 1<br />

n +1 xn+1 =¯xn + 1<br />

n +1 (xn+1 − ¯xn),<br />

y por lo tanto e ¯xn+1 pue<strong>de</strong> tomar valores tan altos ( o tan bajos) como<br />

se quiera con tal <strong>de</strong> tomar xn+1 suficientemente lejos <strong>de</strong> ¯xn.<br />

Supongamos que tenemos el mo<strong>de</strong>lo <strong>de</strong> posición dado por (7.1)<br />

don<strong>de</strong> la distribución F <strong>de</strong> los ui es simétrica respecto <strong>de</strong> 0. Como<br />

en este caso µ es también la mediana <strong>de</strong> las observaciones, un estimador<br />

alternativo será ˜µ =mediana(x1, ..., xn). Or<strong>de</strong>nemos los datos<br />

x1, ..., xn <strong>de</strong> menor a mayor obteniendo los valores x(1) ≤ ... ≤ x(n).<br />

Luego la mediana estará dada por<br />

<br />

˜µ =<br />

x(m+1) si n =2m +1<br />

x(m)+x(m+1) si n =2m<br />

Veamos que este estimador es mucho más resistente a outliers que<br />

la media. En efecto, para que la mediana tome un valor ilimitado no es<br />

suficiente agregar un outlier, sino se requiere por lo menos n/2 outliers.<br />

Un estimador como la mediana que es poco sensible a outliers se<br />

<strong>de</strong>nomina robusto<br />

La distribución <strong>de</strong> ˜µ para muestras finitas es muy complicada aún<br />

en el caso <strong>de</strong> muestras normales. Sin embargo, podremos <strong>de</strong>rivar su<br />

distribución asintótica. Para ello necesitamos una version <strong>de</strong>l Teorema<br />

Central <strong>de</strong>l Límite para arreglos triangulares que enunciaremos<br />

sin <strong>de</strong>mostración.<br />

Teorema Central <strong>de</strong>l Límite. Sean para cada n natural, vn1, ...vnn,<br />

v variables aleatoria in<strong>de</strong>pendientes igualmente disribuidas. Supongamos<br />

que existan constantes M>0ym>0, tales que |vni| ≤M y<br />

limn→∞var(vni) ≥ m. Luego se tiene que<br />

1<br />

n 1/2<br />

n<br />

i=1<br />

(vni − E(vni))<br />

var(vni) 1/2<br />

D<br />

−→ N(0, 1).<br />

.


7.1. EL PROBLEMA DE LA ROBUSTEZ PARA EL MODELO DE POSICI ÓN5<br />

El siguiente Teorema establece la distribución asintótica <strong>de</strong> la mediana.<br />

Teorema 1. Sea x1, ..., xn una muestra aleatoria <strong>de</strong> una distribución<br />

F con una única mediana µ y con una <strong>de</strong>nsidad f tal que f(µ) > 0.<br />

Entonces si ˜µn es la mediana <strong>de</strong> la muestra, se tiene que<br />

n 1/2 (˜µn − µ) D<br />

<br />

1<br />

−→ N 0,<br />

4f 2 <br />

.<br />

(µ)<br />

Demostración: Para facilitar la <strong>de</strong>mostración consi<strong>de</strong>raremos solo el caso<br />

que n =2m +1. Tenemos que <strong>de</strong>mostrar<br />

lim<br />

n→∞ P (n1/2 (˜µn − µ) ≤ y) = Φ(2f(µ)y), (7.6)<br />

don<strong>de</strong> Φ es la función <strong>de</strong> distribución correspondiente a N(0,1)<br />

Es inmediato que<br />

P (n 1/2 <br />

(˜µn − µ) ≤ y) =P ˜µn ≤ µ + y<br />

n1/2 <br />

. (7.7)<br />

y<br />

Sea<br />

⎧<br />

⎪⎨ 1 si xi ≤ µ +<br />

vni =<br />

⎪⎩<br />

y<br />

n1/2 0 si xi >µ+ y<br />

n1/2 , 1 ≤ i ≤ n. (7.8)<br />

Como vni tiene distribución Bi(F (µ + yn−1/2 , 1) se tiene<br />

E(vni) =νn = F (µ + y<br />

),<br />

n1/2 var(vni) =νn(1 − νn).<br />

De acuerdo a la <strong>de</strong>finición <strong>de</strong> mediana se tiene que<br />

<br />

P ˜µn ≤ µ + y<br />

n1/2 <br />

n<br />

= P vni ≥<br />

i=1<br />

n<br />

<br />

2<br />

= P<br />

1<br />

n 1/2<br />

n<br />

i=1<br />

(vni − νn) (n/2 − nνn)<br />

≥<br />

(νn(1 − νn)) 1/2 (nνn(1 − νn)) 1/2<br />

<br />

. (7.9)


6 CHAPTER 7. ESTIMACIÓN ROBUSTA<br />

Como |vni| ≤1, y limn→∞var(vni) =1/4. se cumplen las hipótesis<br />

<strong>de</strong>l Teorema Central <strong>de</strong>l Límite. Luego<br />

1<br />

n 1/2<br />

n<br />

i=1<br />

(vni − νn)<br />

(νn(1 − νn)) 1/2<br />

D<br />

−→ N(0, 1). (7.10)<br />

Usando el hecho <strong>de</strong> que F (µ) =1/2, y el Teorema <strong>de</strong>l Valor Medio<br />

tenemos<br />

(n/2 − nνn)<br />

n1/2 = n 1/2<br />

<br />

F (µ) − F (µ + y<br />

<br />

)<br />

n1/2 = −n 1/2 f(µ ∗ y<br />

n )<br />

n1/2 = −yf(µ∗n ),<br />

don<strong>de</strong> µ ∗ n es un punto intermedio entre µ y νn. Luego usando el hecho<br />

que νn → 1/2 yµ ∗ n → µ, resulta<br />

(n/2 − nνn)<br />

→−2yf(µ). (7.11)<br />

(nνn(1 − νn)) 1/2<br />

Luego, usando (7.7), (7.9), (7.10) y (7.11) tenemos que<br />

lim<br />

n→∞ P (n1/2 (˜µn − µ) ≤ y) =<br />

<br />

P ˜µn ≤ µ + y<br />

n1/2 <br />

= 1−Φ(−2f(µ)y) = Φ(2f(µ)y),<br />

y por lo tanto hemos probado (7.6).<br />

p<br />

Observación 1. El Teorema 1 implica que ˜µn −→ µ. También pue<strong>de</strong><br />

a.s.<br />

probarse que ˜µn −→ µ, pero no se dará la <strong>de</strong>mostración.<br />

Apliquemos ahora este resultado al mo<strong>de</strong>lo (7.1) y supongamos que<br />

la distribución F <strong>de</strong> las ui sea simétrica respecto <strong>de</strong> 0 con <strong>de</strong>nsidad f.<br />

En este caso se tendrá que la mediana <strong>de</strong> la distribución Fµσ es µ y<br />

fµσ(x) = 1<br />

σ f<br />

<br />

x − µ<br />

,<br />

σ<br />

y por lo tanto,<br />

fµσ(µ) = 1<br />

σ f(0).<br />

Luego, <strong>de</strong> acuerdo al Teorema 1, se tendrá<br />

n 1/2 (˜µn − µ) D<br />

<br />

−→ N 0, .<br />

σ 2<br />

4f 2 (0)


7.2. M-ESTIMADORES DE POSICIÓN 7<br />

Si F = Φ, entonces f(0) = 1/ √ 2π y entonces<br />

n 1/2 (ˆµn − µ) D<br />

<br />

−→ N 0, π<br />

2 σ2<br />

<br />

.<br />

Por otro lado, n 1/2 (¯xn − µ) tiene distribución N(0,σ 2 ). Por lo tanto<br />

la varianza asintótica <strong>de</strong> ˆµn es aproximadamente 57% más alta que la<br />

varianza <strong>de</strong> ¯xn. Esto significa que la propiedad que tiene la mediana<br />

<strong>de</strong> ser poco sensible a observaciones atípicas tiene como contrapartida<br />

negativa ser 57% menos eficiente que ¯xn en el caso <strong>de</strong> errores normales.<br />

De todas maneras esto es menos grave que el comportamiento <strong>de</strong> ¯xn<br />

bajo una contaminación con outliers. En efecto, recor<strong>de</strong>mos que en<br />

este caso una fracción <strong>de</strong> outliers tan pequeña como se quisiera podía<br />

provocar que la varianza se hiciese infinita.<br />

Sin embargo, lo i<strong>de</strong>al sería tener un estimador robusto, es <strong>de</strong>cir<br />

poco sensible a outliers y que simultáneamente fuera altamente eficiente<br />

cuando los datos son normales. En las secciones siguientes vamos a<br />

tratar entonces <strong>de</strong> encontrar estimadores con estas propieda<strong>de</strong>s.<br />

7.2 M-estimadores <strong>de</strong> posición<br />

7.2.1 Definición <strong>de</strong> M-estimadores<br />

Consi<strong>de</strong>remos el mo<strong>de</strong>lo (7.1) y supongamos que conozcamos la distribución<br />

F <strong>de</strong> las ui. y el parámetro <strong>de</strong> escala σ. Estas hipótesis no<br />

son muy realistas y más a<strong>de</strong>lante las eliminaremos. Sin embargo será<br />

conveniente suponerlas momentáneamente para simplificar el planteo<br />

<strong>de</strong>l problema. Supongamos que F tiene una <strong>de</strong>nsidad que llamaremos<br />

f = F ′ . Luego, la <strong>de</strong>nsidad <strong>de</strong> cada xi será<br />

fµσ(x) = 1<br />

σ f<br />

x − µ<br />

y luego la función <strong>de</strong> verosimilitud correspondiente a la muestra x1, ..., xn<br />

será<br />

L(µ) = 1<br />

σn n<br />

<br />

xi − µ<br />

f .<br />

σ<br />

i=1<br />

σ<br />

<br />

,


8 CHAPTER 7. ESTIMACIÓN ROBUSTA<br />

Tomando logaritmos, como σ se supone conocida, se tendrá que el<br />

estimador <strong>de</strong> máxima verosimilitud <strong>de</strong> µ que llamaremos ˆµf( laf como<br />

subscripto indica que correspon<strong>de</strong> a que las ui tienen <strong>de</strong>nsidad f) estará<br />

dado por el valor que maximiza<br />

don<strong>de</strong><br />

n<br />

<br />

xi − µ<br />

log f .<br />

i=1 σ<br />

Equivalentemente, po<strong>de</strong>mos <strong>de</strong>cir que ˆµf minimiza<br />

n<br />

<br />

xi − µ<br />

S(µ) = ρf , (7.12)<br />

σ<br />

i=1<br />

ρf(u) =− log f(u) + log f(0).<br />

Por ejemplo, si f correspon<strong>de</strong> a la distribución N(0,1). Entonces<br />

ρf(u) =u 2 /2, y entonces el estimador <strong>de</strong> máxima verosimilitud mini-<br />

miza<br />

S(µ) = 1<br />

2σ 2<br />

n<br />

(xi − µ)<br />

i=1<br />

2 ,<br />

o equivalentemente, el que minimiza<br />

n<br />

S(µ) = (xi − µ)<br />

i=1<br />

2 ,<br />

el cual es precisamente ¯xn.<br />

Si f correspon<strong>de</strong> a la distribución doble exponencial, entonces<br />

f(u) = 1<br />

2 e−|u| , −∞


7.2. M-ESTIMADORES DE POSICIÓN 9<br />

En el párrafo anterior hemos visto los inconvenientes <strong>de</strong> media y<br />

la mediana muestral. Si conociéramos exactamente f, podríamos utilizar<br />

el estimador <strong>de</strong> máxima verosimilitud, <strong>de</strong>l cual conocemos que<br />

tiene varianza asintótica mínima y que está dado por (7.12). Como<br />

en general se tiene sólo un conocimiento aproximado <strong>de</strong> f, por ejemplo<br />

que correspon<strong>de</strong> a una distribución <strong>de</strong> Vɛ, Huber (1964) <strong>de</strong>finió los<br />

M-estimadores para el mo<strong>de</strong>lo <strong>de</strong> posición como el valor ˆµ valor que<br />

minimiza<br />

n<br />

<br />

xi − µ<br />

S(µ) = ρ , (7.14)<br />

i=1 σ<br />

don<strong>de</strong> la función ρ es elegida in<strong>de</strong>pendientemente <strong>de</strong> f y <strong>de</strong> tal manera<br />

que tenga las propieda<strong>de</strong>s <strong>de</strong>seadas:<br />

1. El estimador es altamente eficiente cuando f correspon<strong>de</strong> a la<br />

distribución N(0,1)<br />

2. El estimador es poco sensible a contaminación por outliers, en<br />

particular es altamente eficiente para toda f correspondiente a<br />

una distribución <strong>de</strong> Vɛ.<br />

A la función ρ que <strong>de</strong>fine al M-estimador se le pedirá las siguientes<br />

propieda<strong>de</strong>s<br />

A1 La función ρ es <strong>de</strong>rivable. Denominaremos ψ = ρ ′ .<br />

A2 La función ρ es par.<br />

A3 La función ρ(u) es monótona no <strong>de</strong>creciente en |u|.<br />

A4 Se cumple que ρ(0) = 0.<br />

Huber (1964) propuso una familia <strong>de</strong> funciones ρ intermedias entre<br />

las correspondientes a la distribución N(0,1) y a la doble exponencial.<br />

Esta funciones es cuadrática para valores <strong>de</strong> valor absoluto pequeños<br />

y lineal para valores absolutos gran<strong>de</strong>s. Más precisamente, para cada<br />

k ≥ 0 se <strong>de</strong>fine ρH k por<br />

ρ H ⎧<br />

⎪⎨<br />

k (u) =<br />

⎪⎩<br />

−ku − k 2 /2 si uk<br />

.


10 CHAPTER 7. ESTIMACIÓN ROBUSTA<br />

0 1 2 3 4<br />

Media<br />

Mediana<br />

Huber<br />

-3 -2 -1 0 1 2 3<br />

Figure 7.1: Funciones ρ correspondientes a la Media (en negro), la<br />

mediana (en rojo) y el M-estimador con función <strong>de</strong> Huber (en ver<strong>de</strong>)<br />

En la Figura 7.1 se grafican las funciones ρ correspondiente la media<br />

a la mediana y a la función <strong>de</strong> Huber. Obsérvese que las funciones ρH k<br />

resultan <strong>de</strong>rivables en todos los puntos, incluidos los puntos <strong>de</strong> cambio<br />

k y −k. Más a<strong>de</strong>lante mostraremos que eligiendo k convenientemente<br />

los M-estimadores basadas en estas funciones gozan <strong>de</strong> las propieda<strong>de</strong>s<br />

1 y 2 enunciadas en esta sección.<br />

Para encontrar el valor mínimo <strong>de</strong> S(µ) en (7.14) que <strong>de</strong>fine el Mestimador<br />

po<strong>de</strong>mos encontrar sus punto críticos <strong>de</strong>rivando. De esta<br />

manera obtenemos la siguiente ecuación<br />

n<br />

<br />

xi − µ<br />

A(µ) = ψ =0. (7.15)<br />

i=1 σ<br />

El siguiente Teorema muestra que bajo ciertas condiciones la ecuación<br />

7.15 tiene solución y correspon<strong>de</strong> a un mínimo <strong>de</strong> S(µ).<br />

Teorema 2. Supongamos que ψ es continua impar, no <strong>de</strong>creciente y<br />

para algún a se tiene ψ(a) > 0. Entonces


7.2. M-ESTIMADORES DE POSICIÓN 11<br />

(i) La ecuación (7.15) tiene al menos una raíz.<br />

(ii) Toda raíz <strong>de</strong> (7.15) correspon<strong>de</strong> a un mínimo <strong>de</strong> S(µ).<br />

(iii) Las raíces <strong>de</strong> (7.15) forman un intervalo.<br />

(iv) Si ψ es estrictamente creciente hay una única raíz <strong>de</strong> (7.15).<br />

Demostración. (i) Sea M = max1≤i≤n xi y m = min1≤i≤n xi . Sea µ1 =<br />

m−σa y µ2 = M+σa. Luego (xi−µ1)/σ ≥ a para todo i y(xi−µ2)/σ ≤<br />

−a para todo i. Luego ψ((xi − µ1)/σ) ≥ ψ(a) > 0 para todo i y<br />

ψ((xi − µ2)/σ) ≤ ψ(−a) =−ψ(a) < 0 para todo i. Luego A(µ1) > 0<br />

y A(µ2) < 0. Como A(µ) es continua, existe un punto µ0 entre µ2 y µ1<br />

tal que A(µ0) =0.<br />

(ii) Como S ′ (µ) = (−1/σ)A(µ),es fácil ver que S(µ) − S(µ0) =<br />

(−1/σ) µ<br />

µ0 A(u)du. Supongamos que µ0 es una raíz <strong>de</strong> A(µ). Supongamos<br />

que µ0 > 0. Habrá que mostrar que<br />

S(µ0) ≤ S(µ), ∀µ. (7.16)<br />

Vamos a mostrar (7.16) solamente para µ>µ0. El caso µµ0, luego<br />

S(µ) = 1<br />

µ<br />

A(u)du.<br />

σ µ0<br />

Como ψ es no <strong>de</strong>creciente resulta A no creciente. Luego como<br />

A(µ0) = 0, resulta A(µ) ≤ 0 para µ > µ0. Por lo tanto resulta<br />

A(u)du ≤ 0, y por lo tanto<br />

µ<br />

µ0<br />

S(µ) ≥ S(µ0).<br />

En el caso µ < µ0 se <strong>de</strong>muestra similarmente que también vale<br />

(7.16).<br />

(iii) Supongamos que µ1


12 CHAPTER 7. ESTIMACIÓN ROBUSTA<br />

-3 -2 -1 0 1 2 3<br />

-3 -2 -1 0 1 2 3<br />

-3 -2 -1 0 1 2 3<br />

Media Mediana<br />

-3 -2 -1 0 1 2 3<br />

-3 -2 -1 0 1 2 3<br />

Huber<br />

-3 -2 -1 0 1 2 3<br />

Figure 7.2: Funciones ψ correspondientes a la Media (en negro), la<br />

mediana (en rojo) y el M-estimador con función <strong>de</strong> Huber (en ver<strong>de</strong>)<br />

y luego A(µ) =0.<br />

(iv) Supongamos que A(µ) =0. Veremos que no pue<strong>de</strong> haber otra<br />

raíz <strong>de</strong> A. Sea primero µ ∗ >µ,como en este caso A es estrictamente<br />

<strong>de</strong>creciente se tendrá A(µ ∗ ) < 0. Similarmente se <strong>de</strong>muestra que si<br />

µ ∗ 0.<br />

Como vamos a ver más a<strong>de</strong>lante la función ψ cumple un papel muy<br />

importante en la teoría <strong>de</strong> M-estimadores. Para la función ρ correspon-<br />

diente a la media, resulta ψ(u) =u, para la función ρ correspondi-<br />

, las correspondientes<br />

ente mediana ψ(u) =|u|, y para la funciones ρH k<br />

<strong>de</strong>rivadas ψH k están dadas por<br />

ψ H ⎧<br />

⎪⎨<br />

k (u) =<br />

⎪⎩<br />

−k si uk<br />

la cual correspon<strong>de</strong> a una i<strong>de</strong>ntidad truncada. En Fig. 7.2 se grafican<br />

estas tres funciones ψ.<br />

Como consecuencia <strong>de</strong> la propiedad A2, la función ψ es impar .<br />

.


7.2. M-ESTIMADORES DE POSICIÓN 13<br />

Para que el M-estimador sea robusto como veremos más a<strong>de</strong>lante se<br />

requerirá que la función ψ sea acotada.<br />

7.2.2 Propieda<strong>de</strong>s asintóticas <strong>de</strong> M-estimadores<br />

La condición <strong>de</strong> consistencia <strong>de</strong> Fisher, requerida para que el M-estimador<br />

converja a µ está dada por<br />

<br />

x − µ<br />

EFµσ ψ =0,<br />

σ<br />

y <strong>de</strong> acuerdo a (7.1), esto es equivalente a<br />

EF (ψ(u)) = 0. (7.17)<br />

Esta condición se cumple automaticamente si F tiene una <strong>de</strong>nsidad<br />

simétrica respecto <strong>de</strong> 0 ya que en ese caso se tendrá<br />

∞<br />

EF (ψ(u)) = uf(u)du =0,<br />

∞<br />

ya que uf(u) será una función impar.<br />

Luego, se tendrá el siguiente Teorema que muestra la consistencia<br />

<strong>de</strong> los M-estimadores:<br />

Teorema 3. Sean x1, ...xn variables aleatorias in<strong>de</strong>pendientes que satisfacen<br />

el mo<strong>de</strong>lo (7.1). Consi<strong>de</strong>remos un estimador ˆµn solución <strong>de</strong><br />

(7.15), don<strong>de</strong> ψ y F satisfacen (7.17) . Luego ˆµn converge en casi todo<br />

punto a µ en cualquiera <strong>de</strong> los siguientes casos<br />

1. La función ψ es estrictamente creciente.<br />

2. La función ψ es no <strong>de</strong>creciente, ψ(u) >ψ(0) y F (u) >F(0) para<br />

todo u>0.<br />

Demostración: Solamente mostraremos el Teorema para el caso 1. Consi<strong>de</strong>remos<br />

ɛ>0. Luego como ψ es estrictamente creciente tenemos que<br />

ψ(u − ɛ)


14 CHAPTER 7. ESTIMACIÓN ROBUSTA<br />

Por lo tanto<br />

<br />

x − (µ + ɛ)<br />

EFµσψ<br />

= EF ψ(u − ɛ) < 0. (7.18)<br />

σ<br />

Similarmente se pue<strong>de</strong> probar que<br />

<br />

x − (µ − ɛ)<br />

EFµσψ<br />

= EF ψ(u + ɛ) > 0. (7.19)<br />

σ<br />

Sea ahora<br />

Gn(µ ∗ )= 1<br />

n<br />

<br />

xi − µ<br />

ψ<br />

n i=1<br />

∗ <br />

,<br />

σ<br />

luego el M-estimador ˆµn satisface<br />

Gn(ˆµn) =0. (7.20)<br />

Por otro lado usando la ley <strong>de</strong> los gran<strong>de</strong>s números y (7.18) y (7.19)<br />

se tiene que con probabilidad 1 existe un n0 tal que para todo n>n0<br />

se tiene que<br />

Gn(µ + ɛ) < 0, Gn(µ − ɛ) > 0,<br />

y por lo tanto como Gn es monótona <strong>de</strong>creciente, se tiene que el valor<br />

ˆµn satisfaciendo (7.20) tendrá que satisfacer que<br />

µ − ɛ


7.2. M-ESTIMADORES DE POSICIÓN 15<br />

don<strong>de</strong><br />

V (ψ,F)= EF ψ2 (u)<br />

(EF ψ ′ . (7.21)<br />

(u)) 2<br />

Demostración. El M-estimador ˆµn satisface<br />

n<br />

<br />

xi − ˆµn<br />

ψ<br />

=0,<br />

i=1 σ<br />

y haciendo un <strong>de</strong>sarrollo <strong>de</strong> Taylor en el punto µ se tiene<br />

n<br />

<br />

xi − µ<br />

n<br />

0= ψ − ψ<br />

σ<br />

′<br />

<br />

xi − µ ˆµn − µ<br />

σ σ +1<br />

n<br />

ψ<br />

2<br />

′′<br />

<br />

xi − µ ∗ <br />

n (ˆµn − µ)<br />

σ<br />

2<br />

σ2 ,<br />

i=1<br />

i=1<br />

don<strong>de</strong> µ ∗ n es un punto intermedio entre ˆµn y µ.<br />

Luego, haciendo un <strong>de</strong>speje parcial <strong>de</strong> (ˆµn − µ) se tiene<br />

(ˆµn − µ) =<br />

y luego<br />

n 1/2 (ˆµn−µ) =<br />

y<br />

Sea<br />

i=1<br />

n<br />

ψ ((xi − µ)/σ)<br />

i=1<br />

1<br />

n<br />

ψ<br />

σ i=1<br />

′ ((xi − µ)/σ) − 1 (ˆµn − µ)<br />

2 σ2 n<br />

i=1<br />

1<br />

nσ<br />

n<br />

i=1<br />

An = 1<br />

n 1/2<br />

Bn = 1<br />

n<br />

ψ ′′ ((xi − µ ∗ ,<br />

n)/σ)<br />

1<br />

n1/2 n<br />

ψ ((xi − µ)/σ)<br />

i=1<br />

ψ ′ ((xi − µ)/σ) − 1<br />

2σ2 (ˆµn − µ) 1<br />

n<br />

ψ<br />

n i=1<br />

′′ ((xi − µ ∗ .<br />

n)/σ)<br />

n<br />

i=1<br />

n<br />

i=1<br />

Cn = 1<br />

2 (ˆµn − µ) 1<br />

n<br />

ψ ((xi − µ)/σ) = 1<br />

n 1/2<br />

ψ ′ ((xi − µ)/σ) = 1<br />

n<br />

n<br />

ψ (ui) ,<br />

i=1<br />

n<br />

ψ<br />

i=1<br />

′ (ui) ,<br />

n<br />

ψ<br />

i=1<br />

′′ ((xi − µ ∗ n)/σ) .<br />

(7.22)


16 CHAPTER 7. ESTIMACIÓN ROBUSTA<br />

Luego<br />

n 1/2 (ˆµn − µ) =<br />

An<br />

σ −1 Bn + σ −2 Cn<br />

Por el Teorema Central <strong>de</strong>l Límite se tiene<br />

An<br />

. (7.23)<br />

D<br />

−→ N(0,EF (ψ 2 (u))). (7.24)<br />

Por la Ley Fuerte <strong>de</strong> los Gran<strong>de</strong>s Números se tiene<br />

Bn<br />

p<br />

−→ EF (ψ ′ (u)). (7.25)<br />

Finalmente, por hipótesis existe una constante K tal que |ψ ′′ (u)| <<br />

p<br />

K. Luego |Cn| < (K/2)(ˆµn − µ). Usando el hecho <strong>de</strong> que ˆµn −→ µ, se<br />

tiene que<br />

p<br />

−→ 0. (7.26)<br />

Cn<br />

Usando (7.23)-(7.26) se <strong>de</strong>duce el Teorema.<br />

7.2.3 M-estimador minimax para la varianza asintótica<br />

El problema que vamos a <strong>de</strong>sarrollar en esta sección es el <strong>de</strong> elegir la<br />

función ρ o equivalentemente la función ψ <strong>de</strong>l M-estimador. En está<br />

sección vamos a utilizar como criterio minimizar la varianza asintótica<br />

<strong>de</strong>l M-estimador dada en (7.21). Si conociéramos la distribución F <strong>de</strong><br />

las ui, utilizaríamos el M-estimador que tiene como función ψ la dada<br />

por<br />

d log f(u)<br />

ψ(u) = ,<br />

du<br />

es <strong>de</strong>cir el estimador <strong>de</strong> máxima verosimilitud. Este estimador minimiza<br />

la varianza asintótica V (ψ,F) dada en (7.21). Cuando existe la<br />

posibilidad <strong>de</strong> que hubieran outliers la distribución F no es conocida<br />

exactamente y por lo tanto no po<strong>de</strong>mos usar este estimador.<br />

La solución que propuso Huber (1964) es la siguiente. supongamos<br />

que F esté en el entorno <strong>de</strong> contaminación dado por (7.2), pero restringiendo<br />

H a distribuciones simétricas respecto <strong>de</strong> 0. Para esto<br />

<strong>de</strong>finimos un nuevo entorno <strong>de</strong> distribuciones <strong>de</strong> Φ<br />

V ∗ ɛ<br />

= {F : F =(1− ɛ)Φ + ɛH con H simétrica}. (7.27)


7.2. M-ESTIMADORES DE POSICIÓN 17<br />

Luego, si usa el M-estimador basado en la función ψ. la mayor varianza<br />

posible en este entorno está dada por<br />

V ∗ (ψ) = sup<br />

F ∈V∗ V (ψ,F).<br />

ɛ<br />

El criterio <strong>de</strong> Huber para elegir el M-estimador es utilizar la función<br />

ψ∗ que minimice V ∗ (ψ). Estos estimadores se <strong>de</strong>nominarán minimax<br />

(minimizan la máxima varianza asintótica en el entorno <strong>de</strong> contami-<br />

nación V ∗<br />

ε . En Huber (1964) se muestra que ψ∗ está en la familia ψ H k ,<br />

don<strong>de</strong> k <strong>de</strong>pen<strong>de</strong> <strong>de</strong> la cantidad <strong>de</strong> contaminación ɛ.<br />

7.2.4 M-estimadores con escala <strong>de</strong>sconocida<br />

La <strong>de</strong>finición <strong>de</strong> los M-estimadores dada en (7.14) supone que σ es<br />

conocida. Sin embargo, en la práctica σ es <strong>de</strong>sconocida. En estos<br />

casos po<strong>de</strong>mos reemplazar en esta ecuación σ por un estimador ˆσ, yel<br />

M-estimador se <strong>de</strong>finirá por el valor ˆµ que minimiza<br />

n<br />

<br />

xi − µ<br />

S(µ) = ρ . (7.28)<br />

i=1 ˆσn<br />

Si queremos que el M-estimador resultante <strong>de</strong> µ sea robusto, será<br />

necesario que ˆσ también lo sea. El estimador insesgado usual <strong>de</strong> σ dado<br />

por<br />

ˆσ 2 = 1<br />

n<br />

<br />

(xi − ¯x)<br />

i=1<br />

2<br />

no es robusto. En efecto, es fácil ver que una observación lo pueda<br />

llevar fuera <strong>de</strong> todo límite. Un estimador robusto <strong>de</strong> σ es el llamado<br />

MAD (median absolute <strong>de</strong>viation), que está <strong>de</strong>finido por<br />

don<strong>de</strong><br />

ˆσ 2 = A mediana{|xi − ˜µn|, 1 ≤ i ≤ n},<br />

˜µn = mediana{xi :1≤ i ≤ n},<br />

y don<strong>de</strong> A es una constante que hace que el estimador sea consistente<br />

a σ en el caso <strong>de</strong> que las observaciones sean una muestra aleatoria <strong>de</strong><br />

una N(µ, σ 2 ).


18 CHAPTER 7. ESTIMACIÓN ROBUSTA<br />

Vamos ahora a <strong>de</strong>ducir cual <strong>de</strong>be ser el valor <strong>de</strong> A. Sean x1, ..., xn<br />

una muestra <strong>de</strong> una distribución N(µ,σ 2 ). Entonces po<strong>de</strong>mos escribir<br />

xi = µ + σui, don<strong>de</strong> u1, ..., un es una muestra aleatoria <strong>de</strong> una distribución<br />

N(0,1). En este caso tenemos que<br />

y<br />

xi − ˜µn =(µ − ˜µn)+σui<br />

mediana{|xi − ˜µn|, 1 ≤ i ≤ n} = mediana{|(µ− ˜µn)+σui|, 1 ≤ i ≤ n}.<br />

Como <strong>de</strong> acuerdo a lo visto en Observación 1, lim(µ − ˜µn) = 0 casi<br />

seguramente, se tendrá que<br />

lim<br />

n→∞ mediana{|xi−˜µn|, 1 ≤ i ≤ n} = lim<br />

n→∞ mediana{|σui|, 1 ≤ i ≤ n} }<br />

= σ lim mediana{|ui|, 1 ≤ i ≤ n}, c.s.. (7.29)<br />

n→∞<br />

Si u es N(0,1), entonces |u| tiene distribución 2Φ − 1. Sea entonces<br />

B = mediana(2Φ − 1), luego por lo visto en Observación 1 se tiene<br />

y usando (7.29)<br />

o sea<br />

lim<br />

n→∞ mediana{|ui|, 1 ≤ i ≤ n} = B, c.s.<br />

lim<br />

n→∞ mediana{|xi − ˜µn|, 1 ≤ i ≤ n} = σB c.s.<br />

Luego A =1/B. La constante B se calcula <strong>de</strong> la siguiente manera<br />

2Φ(B) − 1=0.5,<br />

Φ(B) =0.75, B=Φ −1 (0.75) = 0.675.<br />

Luego se tendrá que el estimador MAD <strong>de</strong> σ viene dado por<br />

ˆσ 2 = 1<br />

0.6745 mediana{|xi − ˜µn|, 1 ≤ i ≤ n}.<br />

Cuando el M-estimador se obtiene minimizando (7.28), la ecuación<br />

(7.15) se transforma en


7.2. M-ESTIMADORES DE POSICIÓN 19<br />

n<br />

<br />

xi − µ<br />

ψ =0. (7.30)<br />

i=1 ˆσ<br />

Las propieda<strong>de</strong>s asintóticas <strong>de</strong>l estimador ˆµ solución <strong>de</strong> (7.30) son<br />

similares a las <strong>de</strong>l estimador correspondiente al caso <strong>de</strong> σ conocida. El<br />

siguiente Teorema se dará sin <strong>de</strong>mostración.<br />

Teorema 5. Sean x1, ...xn variables aleatorias in<strong>de</strong>pendientes que satisfacen<br />

el mo<strong>de</strong>lo (7.1). Consi<strong>de</strong>remos un estimador ˆµn solución <strong>de</strong><br />

(7.30), don<strong>de</strong> ψ es impar y F es simétrica respecto <strong>de</strong> 0. Supongamos<br />

que ˆµn es consistente a µ yˆσn es consistente a σ, y que a<strong>de</strong>más ψ tiene<br />

dos <strong>de</strong>rivadas continuas y ψ ′′ es acotada. Luego se tiene que<br />

don<strong>de</strong> V está dada por (7.21)<br />

n 1/2 (ˆµn − µ) D<br />

−→ N(0,σ 2 V (ψ,F)),<br />

7.2.5 Algoritmos para calcular M-estimadores<br />

A continuación vamos a <strong>de</strong>scribir tres algoritmos para computar el Mestimador<br />

<strong>de</strong>finido como la solución <strong>de</strong> (7.30).<br />

Algoritmo basado en medias pon<strong>de</strong>radas iteradas (MPI)<br />

Llamemos w(u) =ψ(u)/u. Luego la ecuación (7.30).se pue<strong>de</strong> escribir<br />

como<br />

n<br />

<br />

xi − ˆµ<br />

(xi − ˆµ)w =0,<br />

i=1<br />

ˆσ<br />

o sea<br />

n<br />

<br />

xi − ˆµ xi − ˆµ<br />

xiw =ˆµw ,<br />

i=1 ˆσ<br />

ˆσ<br />

y haciendo un <strong>de</strong>speje “parcial”<strong>de</strong> ˆµ se tiene<br />

ˆµ =<br />

n<br />

xiw ((xi − ˆµ)/ˆσ)<br />

i=1<br />

n<br />

. (7.31)<br />

w ((xi− ˆµ)/ˆσ)<br />

i=1


20 CHAPTER 7. ESTIMACIÓN ROBUSTA<br />

En realidad esta expresión no es un verda<strong>de</strong>ro <strong>de</strong>speje, ya que el<br />

miembro <strong>de</strong>recho también aparece ˆµ. Sin embargo esta fórmula nos va<br />

a sugerir un algoritmo iterativo para calcular ˆµ.<br />

En efecto, consi<strong>de</strong>remos un estimador inicial ˆµ0 <strong>de</strong> µ, como por<br />

ejemplo la mediana.Luego po<strong>de</strong>mos <strong>de</strong>finir<br />

ˆµ1 =<br />

n<br />

xiw ((xi − ˆµ0)/ˆσ)<br />

i=1<br />

n<br />

,<br />

w ((xi− ˆµ0)/ˆσ)<br />

i=1<br />

y en general si ya tememos <strong>de</strong>finido ˆµh, po<strong>de</strong>mos <strong>de</strong>finir ˆµh+1 por<br />

ˆµh+1 =<br />

n<br />

xiw ((xi − ˆµh)/ˆσ)<br />

i=1<br />

n<br />

. (7.32)<br />

w ((xi− ˆµh)/ˆσ)<br />

i=1<br />

Se pue<strong>de</strong> mostrar que este si ψ es continua, entonces cuando este<br />

algoritmo iterativo converge, lo hace a una solución <strong>de</strong> (7.30). En efecto<br />

supongamos que limh→∞ ˆµh =ˆµ, luego tomando limite en ambos lados<br />

<strong>de</strong> (7.32), se tendrá<br />

ˆµ =<br />

n<br />

xiw ((xi − ˆµ)/ˆσ)<br />

i=1<br />

n<br />

. (7.33)<br />

w ((xi− ˆµ)/ˆσ)<br />

i=1<br />

Pero esta ecuación es precisamente (7.31) , que ya hemos visto es<br />

equivalente a (7.30).<br />

La ecuación (7.33) muestra a ˆµ como promedio pesado <strong>de</strong> las xi y<br />

pesos proporcionales a w ((xi − ˆµ)/ˆσ) . Como en general w(u) es una<br />

función par monótona no creciente en |u|, (7.33) se pue<strong>de</strong> interpretar<br />

como que el M-estimador da a cada observación un peso que penaliza<br />

las observaciones para las cuales |xi − ˆµ|/ˆσ es gran<strong>de</strong>. Para la media<br />

se tiene w(u) =1, y para el estimador basado en la función ψ H k , la<br />

correspondiente función <strong>de</strong> peso está dada por


7.2. M-ESTIMADORES DE POSICIÓN 21<br />

0.5 0.6 0.7 0.8 0.9 1.0<br />

Media<br />

-3 -2 -1 0 1 2 3<br />

0.5 0.6 0.7 0.8 0.9 1.0<br />

Huber<br />

-3 -2 -1 0 1 2 3<br />

Figure 7.3: Funciones <strong>de</strong> peso w correspondientes a la Media (en negro)<br />

y al M-estimador con función <strong>de</strong> Huber (en ver<strong>de</strong>)<br />

w H <br />

k (u) =<br />

1<br />

k<br />

|u|<br />

si<br />

si<br />

|u| ≤k<br />

|u| >k .<br />

El gráfico <strong>de</strong> esta función se encuentra en la Figura 7.3.<br />

Algoritmo basado en medias <strong>de</strong> pseudovalores iteradas (MPVI)<br />

Definamos el pseudovalor x∗ i (µ) por<br />

Luego se tiene<br />

x ∗ i (µ) =µ +ˆσψ ((xi − ˆµ)/ˆσ) .<br />

ψ ((xi − ˆµ)/ˆσ) =(x ∗ i (µ) − ˆµ)/ˆσ,<br />

y reemplazando en (7.30) se tiene la ecuación para el M-estimador es<br />

n<br />

(x<br />

i=1<br />

∗ i (ˆµ) − ˆµ)/ˆσ =0.


22 CHAPTER 7. ESTIMACIÓN ROBUSTA<br />

Haciendo un <strong>de</strong>speje parcial <strong>de</strong> ˆµ se tiene<br />

ˆµ = 1<br />

n<br />

n<br />

x<br />

i=1<br />

∗ i (ˆµ). (7.34)<br />

Es <strong>de</strong>cir, se tiene expresado el M-estimador como promedio simple<br />

<strong>de</strong> los pseudo valores. Esta fórmula no permite calcular el M-estimador<br />

directamente, ya que el miembro <strong>de</strong>recho también <strong>de</strong>pen<strong>de</strong> <strong>de</strong> ˆµ. Sin<br />

embargo, nos sugiere el siguiente algoritmo iterativo. Partiendo <strong>de</strong> un<br />

estimador inicial ˆµ0, consi<strong>de</strong>ramos la siguiente fórmula recursiva para<br />

ˆµh<br />

ˆµh+1 = 1<br />

n<br />

n<br />

x<br />

i=1<br />

∗ i (ˆµh). (7.35)<br />

Es interesante calcular los pseudovalores correspondientes a ψ H k<br />

cuales están dados por<br />

x ∗ ⎧<br />

⎪⎨ µ − kˆσ si xi µ+ kˆσ<br />

.<br />

, los<br />

Es <strong>de</strong>cir, si xi pertenece al intervalo [µ−kˆσ, µ+kˆσ], el pseudovalor<br />

x ∗ i (µ) es igual a la observación xi. Si xi está fuera <strong>de</strong> este intervalo el<br />

psudovalor se <strong>de</strong>fine como el extremo <strong>de</strong>l intervalo más cercano.<br />

Vamos a ver ahora que si limh→∞ ˆµh =ˆµ y ψ es continua, entonces<br />

ˆµ es el M-estimador solución <strong>de</strong> (7.30). En efecto, tomando límite en<br />

ambos miembros <strong>de</strong> (7.35) se obtiene (7.34), que ya hemos visto es<br />

equivalente a (7.30).<br />

Algoritmo <strong>de</strong> Newton Raphson (NR)<br />

De acuerdo a lo visto anteriormente, el algoritmo <strong>de</strong> Newton Raphson<br />

para calcular la raíz <strong>de</strong> (7.30) tiene la siguiente fórmula recursiva<br />

n<br />

ψ ((xi − ˆµh)/ˆσ)<br />

i=1<br />

ˆµh+1 =ˆµh +ˆσ n<br />

ψ<br />

i=1<br />

′ . (7.36)<br />

((xi − ˆµh)/ˆσ)


7.2. M-ESTIMADORES DE POSICIÓN 23<br />

Para el caso <strong>de</strong> que ψ = ψ H k<br />

, está formula toma una expresión<br />

particularmente interesante.<br />

Para cada valor µ dividamos el conjunto <strong>de</strong> observaciones en tres<br />

conjuntos<br />

D− = {i :(xi − ˆµh)/ˆσ k}.<br />

ψ H k ((xi<br />

⎧<br />

⎪⎨ −k<br />

− ˆµh)/ˆσ) = (xi − ˆµh)/ˆσ<br />

⎪⎩<br />

k<br />

si<br />

si<br />

si<br />

i ∈ D−<br />

i ∈ D0<br />

i ∈ D+<br />

,<br />

y<br />

ψ H′<br />

k ((xi<br />

⎧<br />

⎪⎨ 0<br />

− ˆµh)/ˆσ) = 1<br />

⎪⎩<br />

0<br />

si<br />

si<br />

si<br />

i ∈ D−(ˆµh)<br />

i ∈ D0(ˆµh)<br />

i ∈ D+(ˆµh)<br />

.<br />

Llamando n−, n0y n−, al número <strong>de</strong> elementos <strong>de</strong> D−, D0y D+<br />

y reemplazando en (7.36), se tiene<br />

k(n+ − n−)+<br />

ˆµh+1 =ˆµh+ˆσ<br />

<br />

(xi − ˆµh)/ˆσ<br />

i∈D0<br />

=<br />

n0<br />

n+ − n−<br />

ˆσk+<br />

n0<br />

1 <br />

xi.<br />

n0 i∈D0<br />

Obsérvese que el miembro <strong>de</strong>recho <strong>de</strong> esta última fórmula solo <strong>de</strong>pen<strong>de</strong><br />

<strong>de</strong> D−, D0y D+. Estos tres conjuntos forman una partición <strong>de</strong>l<br />

conjunto {1, 2, ..., n}. Es claro que hay un número finito <strong>de</strong> estas particiones,<br />

y por lo tanto si ˆµh converge lo <strong>de</strong>be hacer en un número finito<br />

<strong>de</strong> pasos.<br />

Convergencia <strong>de</strong> los algoritmos iterativos<br />

Se pue<strong>de</strong> <strong>de</strong>mostrar que los 3 algoritmos iterativos que hemos estudiado<br />

MPI, MPVI, y NR convergen a la raíz <strong>de</strong> (7.30) cuando ψ es monótona<br />

no <strong>de</strong>creciente cuando ésta es única. Si (7.30) tiene más <strong>de</strong> una raíz, se<br />

pue<strong>de</strong> <strong>de</strong>mostrar que si [ˆµ1, ˆµ2] es el intervalo <strong>de</strong> soluciones, entonces<br />

dado ɛ>0, existe h0 tal que ˆµh ∈ [ˆµ1 − ɛ, ˆµ2 + ɛ] para todo h>h0.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!