Notas de Estadística

Notas de Estadística 

Autores: Graciela Boente- Víctor Yohai

Contenido 

1. Introducción a la inferencia estadística 

2. Estimación puntual 

3. Estimadores Bayesianos y Minimax 

4. Intervalos y regiones de confianza 

5. Tests de hipótesis 

6. Estimación robusta

Chapter 2 

Introducción a la Inferencia 

Estadística 

2.1 Poblaciones finitas 

Frecuentemente en los problemas de las diferentes disciplinas se estudia el 

comportamiento de varias variables definidas sobre un conjunto de objetos. 

El conjunto de objetos será denominado población y será representado 

por P = {a1,a2,...,an}; a1,a2,...,an serán denominados los elementos 

de la población P. Sobre esos elementos se observan variables, indicadas 

X1,X2,...,Xk, que son características que cambian de individuo a individuo. 

Luego para cada elemento a en P, estará definido 

X1(a),X2(a),...,Xk(a). 

Ejemplo 1: Consideremos una población P formada por un conjunto de 

1000 parcelas que constituyen una explotación agrícola y donde se cultiva 

solamente trigo. Sea X(a) la cosecha en la parcela a durante un determinado 

año medida en kilogramos. 

Ejemplo 2: Consideremos el conjunto P de votantes en una determinada 

elección donde se presentan 3 candidatos, que denominamos 1, 2 y 3. Definimos 

X(a) como el número del candidato votado por a. 

Ejemplo 3: Supongamos que la población P consiste de todos los pájaros 

de una especie determinada que habitan en una región determinada. Para 

1

2 CHAPTER 2. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA 

cada pájaro se define X(a) como el largo del pájaro y Y (a) el área de las 

alas. 

Distribución de una variable en la población. Llamaremos distribución 

de una variable X en la población P a la distribución que se obtiene cuando 

se elige al azar un elemento de la población, es decir, cuando se le da a todo 

elemento de la población la misma probabilidad. Luego se tiene 

FX(x) = 

# {a ∈P, X(a) ≤ x} 

# P 

donde # A indica el número de elementos de A. Del mismo modo se define 

distribución conjunta de dos o más variables en la población P. Luego si X 

e Y son variables definidas sobre la población P será 

FXY (x, y) = 

# {a ∈P : X(a) ≤ x, Y (a) ≤ y} 

# P 

Obsérvese que la distribución de una variable definida en una población 

finita es necesariamente discreta, ya que la variable correspondiente toma 

sólo un número finito de valores. 

2.2 Poblaciones infinitas 

En muchos problemas interesa la distribución de una variable aleatoria X (o 

de varias variables X1,X2,...,Xk) que se observan cada vez que se repite un 

mismo experimento perfectamente definido. En estos casos, cada elemento 

a estudiar corresponde al resultado de un experimento, pero no existe un 

conjunto finito fijo de experimentos definido de antemano, ya que al menos 

teóricamente se puede repetir el experimento tantas veces como se quiera. 

Se puede pensar entonces en una población infinita compuesta por los infinitos 

posibles experimentos que teóricamente se pueden realizar, aunque tal 

población no tiene existencia real. 

Ejemplo 1: El experimento consiste en tirar una moneda y X vale 0 ó 1 

según caiga ceca o cara. 

Ejemplo 2: El experimento consiste en repartir 10 cartas elegidas al azar 

de un mazo de 52. X es el número de corazones, e Y el número de sietes.

2.3. MODELOS PARA LA DISTRIBUCION DE UNA VARIABLE 3 

Ejemplo 3: El experimento consiste en fabricar y probar una lámpara; X 

es el tiempo de duración de la misma. 

Ejemplo 4: Se desea medir una magnitud física, cuyo valor verdadero µ es 

desconocido. Cada medición está afectada de un error aleatorio. Luego lo 

que se observa al hacer una medición es una variable X = µ + ε, donde ε es 

el error. La medición se puede repetir tantas veces como se quiera. 

Lo que hace que una población sea infinita es que el experimento pueda 

repetirse infinitas veces y no el número de posibles resultados que puede ser 

finito como puede verse en los ejemplos 1 y 2. 

Distribución de una variable en una población infinita. En el caso de 

población infinita se puede suponer que cada vez que se repite el experimento 

se observa una variable aleatoria X (o varias variables X1,X2,...,Xk) con 

una cierta distribución F (x) (o distribución conjunta F (x1,x2,...,xk)), y 

que a diferentes experimentos corresponden variables aleatorias independientes. 

De acuerdo a la ley de los grandes números, F (x) puede verse como el 

límite en casi todo punto de la distribución empírica asociada a n repeticiones 

independientes del experimento. Es decir, si se realiza una sucesión 

de experimentos y los valores observados son x1,x2,...,xn,..., entonces si 

Fn(x) =#{xi : xi ≤ x, 1 ≤ i ≤ n} /nse tendrá Fn(x) → F (x) en c.t.p. 

La distribución F (x) será denominada distribución de la variable X en la 

población infinita considerada. 

2.3 Modelos para la distribución de una variable 

en una población 

Tanto en el caso de poblaciones finitas como en el de poblaciones infinitas, 

la distribución F puede ser muy complicada e irregular. Sin embargo, 

frecuentemente puede ser aproximada por una distribución de forma relativamente 

sencilla. Consideremos el ejemplo 1 de 2.1. Como la población es 

finita, la distribución real de X es discreta. Sin embargo, como el número 

de parcelas es muy grande, 1000, y como es muy probable que los valores 

X(ai) sean todos diferentes (pueden diferir muy poco, pero es muy difícil 

que haya 2 exactamente iguales), resulta que la probabilidad de cada uno de 

los valores es muy pequeña (1/1000). Por lo tanto, se puede pensar que la 

distribución real puede aproximarse por una distribución continua de forma


sencilla, por ejemplo una distribución normal. Esto sugiere la introducción 

del concepto de modelo. 

Llamaremos modelo de la distribución de una variable en una población a 

un conjunto de hipótesis que se suponen válidas para la distribución de una 

variable en una población. Más formalmente, supongamos que la variable 

tiene distribución F perteneciente a una familia F. Al fijar el modelo, se 

establecen hipótesis sobre la familia F que, en general, se cumplirán en forma 

aproximada. La bondad de un modelo para describir la distribución de una 

población estará dada por el grado de aproximación que tengan las hipótesis 

del modelo con la distribución real. 

Por lo tanto, de acuerdo a lo que dijimos anteriormente, se podría usar 

un modelo continuo para la distribución de variables en poblaciones finitas. 

Clasificaremos los modelos en paramétricos y no paramétricos. 

Modelos paramétricos: Consisten en suponer que la distribución F (x) 

de la variable en la población pertenece a una familia de distribuciones que 

depende de un número finito de parámetros reales. Así, ejemplos de modelos 

paramétricos son los siguientes: 

(a) F (x) pertenece a la familia N(µ, σ 2 ), 

(b) F (x) pertenece a la familia Bi(θ, n), 

(c) F (x) pertenece a la familia P (λ), 

(d) F (x) pertenece a la familia ε(λ), 

(e) Si F (x, y) es la distribución de dos variables, un modelo puede ser 

F (x, y) pertenece a la familia N(µ1,µ2,σ 2 1 ,σ2 2 ,ρ), 

(f) Si F (x1,x2,...,xk) es la distribución de k variables un modelo puede 

ser F (x1,...,xk) pertenece a la familia M(θ1,θ2,...,θk,n). 

En general, un modelo paramétrico tendrá la siguiente forma. Si F (x) 

es la distribución de una variable X, entonces F (x) pertenece a la familia 

F = {F (x, θ1,θ2,...,θk) θ ∈ Θ}, donde θ =(θ1,θ2,...,θk) es el vector 

de parámetros que toma valores en un conjunto Θ ⊂ R k . Esto significa 

que existe algún valor θ ∈ Θ, digamos θ0 tal que F (x, θ0) coincide con la 

distribución F (x) (aunque en la realidad no coincidirá, sino que resultará 

parecida).

2.3. MODELOS PARA LA DISTRIBUCION DE UNA VARIABLE 5 

Ejemplo 1: Para el ejemplo 1 de 2.1, podemos usar el modelo definido por 

la familia de distribuciones N(µ, σ 2 ). 

Ejemplo 2: Para el ejemplo 2 de 2.1 , podemos usar el modelo M(θ1,θ2,θ3, 1). 

En este caso, el modelo será exacto con 

θi = 

# {a ∈ P ; X(a) =i} 

, i =1, 2, 3. 

# P 

Ejemplo 3: Para el ejemplo 3 de 2.1, podemos usar para la distribución 

F (x, y) el modelo N(µ1,µ2,σ 2 1 ,σ2 2 ,ρ). 

Ejemplo 4: Para el ejemplo 3 de 2.2 podemos usar el modelo ε(λ). 

Ejemplo 5: Para el ejemplo 4 de 2.2 se puede usar el modelo N(µ, σ 2 ). 

Modelos no paramétricos: En los modelos no paramétricos se supone 

que la distribución F (x) de la variable (o de las variables si hay más de una) 

en la población, pertenece a una familia F, pero esta familia no puede ser 

indicada con un número finito de parámetros reales. 

Ejemplo 6: Consideremos nuevamente el ejemplo 4 de 2.2. Un modelo no 

paramétrico razonable sería el siguiente. Sea µ el valor verdadero que se 

quiere medir, luego la distribución de X (el valor observado en una medición 

pertenece a la familia F de todas las distribuciones tales que: 

(i) Son continuas con densidad f(x), 

(ii) f(µ + x) =f(µ − x) es decir son simétricas alrededor del verdadero 

valor µ, por lo tanto la “probabilidad” de un error positivo es la misma 

que de uno de igual valor absoluto pero negativo. 

(iii) Si µ>x>x ′ , entonces f(x ′ )


Ventajas relativas de los modelos paramétricos y no paramétricos 

La ventaja fundamental de los modelos paramétricos, consiste en que la 

distribución que se elige para representar a la distribución de la variable en 

la población puede ser descripta por un número finito de parámetros. Esto 

permite inclusive la posibilidad de tabulación. Por ejemplo en el caso de 

la familia N(µ, σ 2 ) basta tabular la distribución N(0, 1). Para obtener otra 

distribución de la familia basta con realizar una transformación lineal. En 

el caso de la familia P (λ) basta tabularla para algunos valores de λ. Por 

ejemplo, para valores de λ escalonados de 0.1 en 0.1. Para otros valores de 

λ, la distribución se puede obtener por interpolación. 

Además, como la descripción del modelo tiene una formulación analítica 

relativamente simple, su tratamiento matemático es más sencillo y las conclusiones 

a las que se pueden arribar más fuertes. 

Los modelos no paramétricos carecen de estas ventajas, pero en recompensa 

tienen mucha mayor flexibilidad. Esto se debe a que la familia de posibles 

distribuciones para la población es más numerosa y por lo tanto mayor 

es la posibilidad que haya en esta familia una distribución muy próxima a 

la real. 

Por ejemplo, en el caso del ejemplo 6 de 2.3 µ ya no representa el valor 

esperado de la variable X, que podría no existir. Por lo tanto, su valor aproximado 

no podría conocerse promediando los valores observados como en el 

caso paramétrico, en el que se supone, por ejemplo, que X tiene distribución 

N(µ, σ 2 ). 

Elección del modelo: La elección del modelo puede ser hecha en base 

a consideraciones teóricas, o porque la experiencia indica que ajusta bien. 

Por ejemplo, si F es la distribución del tiempo de espera hasta que un determinado 

mecanismo falle, y por consideraciones teóricas podemos suponer 

que el mecanismo tiene “falta de desgaste”, podemos suponer como modelo 

para F la familia exponencial ε(λ). En otros problemas puede suceder que 

no se pueda elegir el modelo en base a consideraciones teóricas, pero si la 

experiencia indica a través de estudios anteriores, por ejemplo, que puede 

ser bien aproximada por una distribución normal, entonces se usaría como 

modelo la familia N(µ, σ 2 ). 

Veremos en el transcurso del curso, métodos para poner a prueba el 

modelo elegido, es decir métodos para determinar si el modelo elegido puede 

describir dentro de una aproximación aceptable la distribución de la variable 

(o variables) en la población. Esto se hará en el capítulo 6.

2.4. INFERENCIA ESTADISTICA 7 

2.4 Muestra de una distribución. Inferencia estadística 

Supongamos que hemos definido un modelo para la distribución F de una 

variable en una población, y para fijar ideas supongamos que hemos elegido 

un modelo paramétrico F (x, θ) con θ =(θ1,θ2,...,θk) ∈ Θ, donde Θ ∈ R k . 

En general, va a interesar saber sobre F algo más que el hecho de pertenecer 

a la familia F (x, θ). Puede interesar conocer totalmente la distribución, es 

decir, el valor de θ, o algunas características de la misma. 

Ejemplo 1: Volvamos al ejemplo 1 de 2.1 y supongamos que hemos elegido 

para la distribución de X en la población la familia N(µ, σ 2 ). Consideremos 

tres problemas diferentes. 

(a) Interesa conocer la distribución F completamente. En este caso hace 

falta conocer los valores de ambos parámetros, µ y σ 2 . 

(b) Se requiere sólo el conocimiento de la producción total. Como hay 

1000 parcelas la producción total sería 1000 µ y por lo tanto bastaría 

con conocer µ. 

(c) Se ha fijado una meta de producir al menos 200 toneladas de trigo y 

lo único que interesa es saber si se cumple o no la meta. Luego en este 

caso lo único que interesa es saber si µ


deberíamos conocer la producción de todas las parcelas. Observar el valor 

de la variable para todos los elementos de la población puede ser muy costoso, 

o aún imposible, como en el caso de poblaciones infinitas. Inclusive en 

el caso de poblaciones finitas puede ser imposible si se quiere la información 

con cierta premura. En el ejemplo 1, si se pueden cosechar sólo 20 parcelas 

por día, se necesitarían 50 días para conocer cuál es la producción de cada 

una de las 1000 parcelas. Si se quisiera el primer día de la cosecha hacer 

una estimación de la producción total, ésta debería hacerse en base a los 

resultados de las 20 parcelas cosechadas ese día. 

Se puede definir la Estadística como la ciencia que estudia los procedimientos 

para determinar el valor de una o varias características q(θ1,...,θk) 

de una distribución de una variable en una población que se supone pertenece 

a una familia F (x, θ1,θ2,...,θk) observando sólo unos pocos elementos si se 

trata de una población finita o realizando unos pocos experimentos en el 

caso de una población infinita. Al conjunto de estas pocas observaciones en 

base a las cuales se determinará q(θ1,θ2,...,θk) se denomina muestra. Si el 

modelo es no paramétrico esta formulación cambiará ligeramente, como se 

verá más adelante. 

Los procedimientos estadísticos pueden clasificarse en dos grandes tipos: 

procedimientos de diseño y procedimientos de inferencia. 

Procedimientos de diseño: Son los procedimientos para elegir las observaciones 

que componen la muestra, de manera que con pocas observaciones 

se pueda obtener la mayor información posible sobre q(θ1,θ2,...,θk). 

Procedimientos de inferencia: Son los procedimientos que permiten a 

partir de la muestra inferir la característica de la distribución de la variable 

en la población que interesa, es decir q(θ1,θ2,...,θk). 

Para ejemplificar, volvemos nuevamente al Ejemplo 1. En este caso un 

posible diseño, no necesariamente el óptimo, para la selección de la muestra 

de 20 observaciones puede ser el siguiente. Se elige la primera parcela al azar. 

El rendimiento de esta parcela será una variable aleatoria que llamaremos 

X1 y que tendrá distribución N(µ, σ 2 ). La segunda parcela se elige al azar 

entre todas las que quedan. El rendimiento de esta parcela será una variable 

aleatoria que llamaremos X2. Como la población de parcelas es grande 

(hay 1000 parcelas), la distribución de la variable X prácticamente no se 

modificará después de la extracción de la primera parcela, por lo tanto a 

los efectos prácticos, X2 puede ser considerada como una variable aleatoria


independiente de X1 y con la misma distribución N(µ, σ 2 ). Repitiendo este 

procedimiento tendremos variables aleatorias X1,X2,...,X20 que podemos 

considerar independientes y cada una con una distribución N(µ, σ 2 ). Denominaremos 

a X1,X2,...,X20 muestra aleatoria de tamaño 20 de la distribución 

N(µ, σ 2 ). 

En general, se dirá que X1, X2,...,Xn es una muestra aleatoria de 

tamaño n de una distribución F (x) siX1, X2,...,Xn son variables aleatorias 

(o vectores aleatorios) independientes e idénticamente distribuídas con 

distribución F (x). Es decir si 

FX1,X2,...,Xn(x1, x2,...,xn) =F (x1) F (x2) ...F(xn) (2.1) 

y en el caso que F (x) sea una distribución discreta o continua con función 

de frecuencia o de probabilidad p, (2.1) será equivalente a 

pX1,X2,...,Xn(x1, x2,...,xn) =p(x1) p(x2) ...p(xn) 

En el caso de poblaciones finitas, una muestra aleatoria de tamaño n se obtendrá 

observando n elementos de la población elegidos al azar. Para que las 

variables fuesen estrictamente independientes los elementos deberían elegirse 

uno a uno y ser restituídos en la población antes de elegir el próximo. Sin 

embargo si el tamaño de la muestra es relativamente pequeño respecto al total 

de la población, aunque no se haga la restitución las variables observadas 

serán aproximadamente independientes, y a los fines prácticos podemos considerarla 

una muestra aleatoria. 

En el caso de poblaciones infinitas, la muestra aleatoria se obtendrá simplemente 

repitiendo el experimento n veces y observando cada vez el vector 

de variables correspondiente. 

Consideremos ahora cómo a partir de la muestra X1,X2,...,X20 que 

hemos obtenido, utilizando procedimientos de inferencia resolvemos los problemas 

(a), (b) y (c) que hemos planteado. 

El problema (a) consistía en encontrar aproximadamente la distribución 

de la variable X en la población, es decir, estimar µ y σ 2 . 

Definamos Xn =(1/n) n i=1 Xi; luego para estimar µ se puede usar X20. 

Es de esperar que X20 se aproxima a µ ya que de acuerdo a la ley de los 

grandes números limn→∞ Xn = µ c.t.p. 

El procedimiento estadístico para estimar µ a partir de la muestra, es 

formar el promedio de los valores que la componen; es decir X20. Esto es 

un procedimiento de inferencia estadística, ya que a partir de una muestra


de 20 observaciones, inferimos el valor µ característico de la distribución de 

la variable en la población. 

Similarmente se puede estimar σ2 . Partimos de σ2 =VarXi = E(X2 i ) − 

(E(Xi)) 2 . Dado que E(X2 i ) puede estimarse por (1/20) 20 i=1 X2 i , σ2 puede 

estimarse por 

σ 2 1 20 

20 = X 

20 

2 i − X220 

i=1 

Haciendo manipulaciones algebraicas, se obtiene 

σ 2 20 

= 1 

20 

20 

(Xi − X20) 

i=1 

2 

En general, si se tuviese una muestra aleatoria de tamaño n, σ2 podría 

estimarse por 

σ 2 n 1 

n = 

n 

(Xi − Xn) 

i=1 

2 

En el problema (b), cuando se quiere conocer la producción total, es decir 

q(µ, σ 2 ) = 1000µ, podemos usar para esta estimación 1000 X20. Es decir, 

el procedimiento de inferencia sería el siguiente. Se hace el promedio de las 

observaciones que componen la muestra, y se lo multiplica por 1000. 

En el problema (c), es decir el problema de decidir si µ


Θ ⊆ R k , se quiere inferir conocimiento de algunas características de esta 

distribución, definidas por una función q(θ) que va de Θ en R h , siendo h el 

número de características en las que se está interesado. 

Ejemplo 2: Volvamos al ejemplo 6 de 2.3. Supongamos que se quiere 

conocer µ. Observemos que si F es la distribución de la variable X, entonces 

de acuerdo con las hipótesis del modelo para toda F ∈Fse tiene 

que µ es la esperanza correspondiente a la distribución F , si es que esta 

existe (puede no existir) y también µ es la mediana correspondiente a F 

(la mediana siempre existe). Luego µ es una cierta función de F , digamos 

µ = q(F ). Si queremos estimar µ, debemos tomar una muestra aleatoria 

de F , digamos de tamaño n; X1,X2,...,Xn. Esto se logrará repitiendo n 

veces la medición de µ. Consideremos ahora el procedimiento para inferir µ. 

Si estuviésemos seguros que F tiene esperanza podríamos usar para estimar 

µ, Xn =(1/n) n i=1 Xi, ya que de acuerdo a la ley de los grandes números 

debería converger a E(Xi) =µ. Sin embargo la existencia de esperanza no 

es una hipótesis que hemos requerido para que F ∈F. En caso que F no 

tenga esperanza, se puede mostrar que Xn no converge a µ y por lo tanto 

no será un buen estimador. 

En este caso, podemos usar el siguiente procedimiento: ordenamos las 

Xi, obteniendo X (1)


Ejemplo 3: Supongamos que el rendimiento por hectárea de un cierto 

cultivo depende de la cantidad de fertilizante que se usa y que la relación es 

de la forma 

X = aG + b + ε 

donde G es la cantidad de fertilizante usado por hectárea, X el rendimiento 

por hectárea y ε un término aleatorio que tiene en cuenta todos los otros 

factores que intervienen en la determinación de los rendimientos, a y b son 

parámetros desconocidos. 

Supongamos que se cultivan n parcelas usando respectivamente 

G1,G2,...,Gn cantidad de fertilizante por hectárea y sean los rendimientos 

respectivos observados X1,X2,...,Xn. Luego se tendrá: 

Xi = aGi + b + εi 1 ≤ i ≤ n 

Supongamos que las εi son variables aleatorias independientes igualmente 

distribuídas con distribución N(0,σ2 ), donde σ2 es desconocido. Los valores 

G1,G2,...,Gn son valores numéricos conocidos (no variables aleatorias). 

Luego en este caso las variables aleatorias Xi, 1 ≤ i ≤ n, serán independientes 

con distribución N(aGi + b, σ2 ) y por lo tanto no son igualmente 

distribuídas. En este caso estamos interesados en conocer los parámetros a y 

b que establecen la relación entre G y X quizás también en σ2 que establece 

la varianza de ε, es decir del término residual. 

Estos parámetros deben ser estimados a partir del vector muestra X = 

(X1,X2,...,Xn). Sin embargo, el vector X tiene componentes con diferentes 

distribuciones. Se podrían dar ejemplos donde las variables no sean tampoco 

independientes. 

Esto nos sugiere un concepto más amplio de problema estadístico que los 

vistos anteriormente. 

Un problema de inferencia estadística paramétrica general consistirá en: 

dado un vector muestra X =(X1,X2,...,Xn) de cuya distribución conjunta 

se conoce solamente que pertenece a una familia 

F = {F (x1,x2,...,xn,θ1,θ2,...,θk) con θ =(θ1,θ2,...,θk) ∈ Θ ⊂ Rk }, 

inferir conocimiento sobre una función q(θ) de Θ en Rh . 

En el ejemplo 3, θ =(a, b, σ2 ) y la densidad correspondiente a la distribución 

es 

p(x1,x2,...,xn; a, b, σ 2 )= 

1 

1 

e− 2 σ 

(2π) n/2 2 

n i=1 (xi−a Gi−b) 2 

La función q(θ) dependerá del problema que interesa. Si se quiere conocer 

la relación entre G y X lo que interesará será q(θ) =(a, b). Si interesa saber


cuál es el rendimiento promedio cuando se utilizan 200 kg por hectárea, lo 

que interesará conocer será q(θ) =200a + b. Si interesa saber solamente 

si el fertilizante tiene un efecto positivo, la función q(θ) estará dada por 

0 si a ≤ 0 

q(θ) = 

1 si a>0 . 

Un procedimiento de inferencia estadística para este problema se verá en 

el ejemplo 1 de la sección 3.4. Una teoría general que abarca este problema 

se verá en el capítulo 7. 

De la misma forma se podría formular el concepto de problema de inferencia 

estadística no paramétrica general. 

Concepto de estadístico 

Supongamos dado un problema de inferencia estadística donde se observa 

un vector muestra X =(X1,X2,...,Xn) con distribución en la familia 

F (x1,x2,...,xn; θ) con θ ∈ Θ y donde se quiera inferir acerca de q(θ). Esta 

inferencia se tendrá que hacer a partir de X, es decir, por funciones de X. 

Luego se define como estadístico a cualquier función medible que tenga como 

argumento a X y que tome valores en un espacio euclideo de dimensión finita. 

En el ejemplo 1, hemos visto que la estimación de µ y σ2 se hacía mediante 

el estadístico 

 

n 

T = r(X) = 

i=1 

Xi 

n , 

n (Xi − Xn) 2 

 

En el ejemplo 3, se usó el estadístico T = r(X) =X (p+1) . 

Hasta ahora, hemos supuesto que el parámetro de existir es fijo. Existe 

otra aproximación, en la cual, el parámetro es una variable aleatoria. 

Los procedimientos estadísticos bayesianos suponen que θ es una variable 

aleatoria no observable, a valores en un espacio Θ con distribución τ. La 

distribución a priori τ establecida antes de tomar la muestra, se modifica en 

base a los datos para determinar la distribución a posteriori, que resume lo 

que se puede decir del parámetro θ en base a las suposiciones hechas y a los 

datos. 

Los métodos estadísticos, que van desde el análisis de datos hasta el 

análisis bayesiano, permiten sacar en forma creciente conclusiones cada vez 

más fuertes, pero lo hacen al precio de hipótesis cada vez más exigentes y, 

por lo tanto, menos verificables. 

i=1 

n

Chapter 3 

Estimación puntual 

3.1 Introducción 

En este capítulo introduciremos algunos conceptos de la teoría de estimación 

puntual. Los resultados que se desarrollarán, se aplican al problema de ajustar 

distribuciones de probabilidad a los datos. Muchas familias de distribuciones, 

como la normal, N(µ, σ 2 ), o la Poisson, P (λ), dependen de un número 

finito de parámetros y salvo que éstos se conozcan de antemano, deben ser 

estimados para conocer aproximadamente la distribución de probabilidad. 

Consideremos el siguiente problema de inferencia estadística paramétrica. 

Supongamos se ha observado un vector muestra X =(X1,X2,...,Xn) 

de cuya distribución sólo se conoce que pertenece a una familia 

F = {F (x1,x2,...,xn, θ) donde θ =(θ1,...,θp) ∈ Θ ⊂ IR p }. Supongamos 

que interese conocer aproximadamente q(θ), donde q(θ) es una función 

de Θ en IR. La única información que se tiene sobre θ es el vector X, por lo 

tanto cualquier estimación que se haga de θ, deberá estar basada en X. Un 

estimador puntual de q(θ) será cualquier estadístico δ(X) deIR n en IR. 

Un buen estimador δ(X) deberá tener la propiedad de que cualquiera sea 

el valor de θ, que es desconocido, la diferencia δ(X) − q(θ) sea pequeña. En 

qué sentido esta diferencia es pequeña será especificado más adelante. 

Así en el ejemplo 1 de 2.4 se tenía para el problema (a) necesidad de 

estimar q1(µ, σ 2 )=µ y q2(µ, σ 2 )=σ 2 , para el problema (b) se requería 

estimar q(µ, σ 2 ) = 1000 µ. En cambio el problema (c) no era de estimación, 

ya que lo que se buscaba no era aproximar q(µ, σ 2 ) que vale 0 ó 1 según 

µ

2 CHAPTER 3. ESTIMACIÓN PUNTUAL 

También podemos considerar problemas de estimación puntual no 

paramétrica. En este caso sólo se conoce que el vector muestra 

X =(X1,X2,...,Xn) tiene una distribución F (x1,x2,...,xn) perteneciente 

a una familia F, pero esta familia no puede indicarse con un número finito 

de parámetros, y quiere estimarse una función q(F ) que va de F en IR. El 

ejemplo 2 de 2.4 es un ejemplo de este tipo. 

El ejemplo 3 de 2.4 es otro ejemplo de estimación puntual paramétrica. 

Comenzaremos describiendo distintos métodos de estimación que intuitivamente 

parecen razonables, su justificación queda diferida para más adelante. 

3.2 Método de los momentos 

Sea X =(X1,X2,...,Xn) una muestra aleatoria de una familia de distribuciones 

F (x, θ), donde θ ∈ Θ ⊂ IR, y supongamos que se quiera estimar 

θ. 

Sea g una función de IR en IR, luego el método de los momentos estima 

θ, por el valor θ = δ(X) que satisface la ecuación 

n 1 

g(Xi) =Eθ n 

i=1 

(g(X1)), (3.1) 

donde Eθ(X) significa la esperanza de X cuando X tiene la distribución 

F (x, θ). La justificación heurística de este método se basa en el hecho que 

de acuerdo a la ley de los grandes números 

1 

n 

n 

g(Xi) → Eθ(g(X1)) c.t.p. 

i=1 

y por lo tanto, si θ puede expresarse como una función continua de Eθ(g(X1)), 

se puede esperar que cuando n es grande el valor θ que satisface la ecuación 

(3.1) estará cerca de θ. 

En general, se toman como funciones g las funciones generadoras de momentos, 

ya que se supone que los parámetros de la distribución se relacionan 

con los momentos a través de alguna función continua. 

Ejemplo 1: Sea X1,X2,...,Xn una muestra aleatoria de una distribución 

de la cual sólo se conoce que está en la familia N(µ, 1). Usando el método

3.2. MÉTODO DE LOS MOMENTOS 3 

de los momentos y usando g(x) =x se obtiene 

n 1 

Xi = Eµ (X1) =µ . 

n 

i=1 

Luego µ =(1/n) n i=1 Xi es el estimador de µ resultante. 


N(0,σ2 ). Usando el método de los momentos con g(x) =x2 se obtiene 

n 1 

X 

n 

i=1 

2 i = Eθ (X2 1 )=σ2 . 

Luego σ 2 = δ(X1,...,Xn) =(1/n) n i=1 X2 i es el estimador de σ2 resultante. 


P (λ), usando la función g1(x) =x se obtiene como estimador de λ 

n 1 

Xi = Eλ n 

i=1 

(Xi) = λ. 

Luego el estimador de los momentos resultantes usando la función g1 resulta 

λ1 = δ1(X1,X2,...,Xn) = 1 

n 

Xi . 

n 

i=1 

También podemos usar la función g2(x) =x2 . Recordando que 

Eλ(X 2 1 )=Varλ(X1)+(Eλ(X1)) 2 = λ + λ 2 , 

obtenemos 

n 1 

X 

n 

i=1 

2 1 = Eλ (X2 1 )= λ + λ 2 , 

y resolviendo esta ecuación de segundo grado el valor resulta 

λ = − 1 

2 ± 

 

 

 

1 

4 + 

n 

i=1 

X 2 i 

n . 

Como el parámetro λ es positivo, la solución que interesa es la positiva. 

Luego el estimador correspondiente a g2 vendrá dado por 

λ2 = δ2(X1,X2,...,Xn) =− 1 

2 + 

 

 

 

1 

4 + 

n X2 i 

n 

i=1


Luego observamos que eligiendo distintas funciones g, obtenemos diferentes 

estimadores. Todavía no estamos en condiciones de comparar uno con otro, 

por lo que dejamos este punto sin resolver hasta más adelante. 

Generalización cuando hay varios parámetros: Supongamos que se 

tiene una muestra aleatoria X1,X2,...,Xn de una distribución perteneciente 

a la familia F = {F (x, θ1,θ2,...,θp) con θ =(θ1,θ2,...,θp) ∈ Θ ⊂ IR p }. 

Para estimar θ1,θ2,...,θp por el método de los momentos se procede 

como sigue: Se consideran k funciones g1,g2,...,gp de IR en IR y se resuelve 

el siguiente sistema 

1 

n 

n 

gj(Xi) =Eθ (gj(X1)) j =1, 2,...,p. 

i=1 


N(µ, σ 2 ). Consideremos g1(x) =x y g2(x) =x 2 . Como se tiene 

E µ,σ 2(g1(X1)) = µ y E µ,σ 2(g2(X1)) = σ 2 + µ 2 , 

para estimar µ y σ2 se deberá resolver el sistema 

n 1 

Xi 

n 

i=1 

= µ 

n 1 

X 

n 

2 i = µ 2 + σ 2 . 

Luego, se tiene 

y 

i=1 

σ 2 = δ2(X1,X2,...,Xn) = 1 

n 

µ = δ1(X1,X2,...,Xn) = 1 

n 

n 

X 

i=1 

2 i − 

1 

n 

n 

Xi 

i=1 

n 

2 Xi 

i=1 

= 1 

n 

n 

(Xi − µ) 

i=1 

2 

que coinciden con los estimadores que habíamos propuesto en el ejemplo 1 

de 2.4. 


Γ(α, λ). Consideremos g1(x) =x y g2(x) =x 2 . Como se tiene 

Eα,λ(g1(X1)) = α 

λ y Eα,λ(g2(X1)) 

α(α +1) 

= 

λ2 ,

3.3. MÉTODO DE MÁXIMA VEROSIMILITUD 5 

para estimar α y λ se deberá resolver el sistema 

n 1 

Xi 

n 

i=1 

n 1 

X 

n 

i=1 

2 i 

= α 

λ 

= α(α+1) 

λ 2 

Indiquemos por X = 1 ni=1 n 

Xi yporσ2 = 1 ni=1 n (Xi − X) 2 . Entonces, 

despejando del sistema anterior, los estimadores de los momentos para λ y 

α resultan ser 

λ = δ1(X1,X2,...,Xn) = X 

σ 2 

y 

α = δ2(X1,X2,...,Xn) = X2 

. 

σ 2 

Estimación de q(θ). Si lo que interesa estimar es una función de θ, q(θ) 

y esta función es continua, el método de los momentos consistirá en estimar 

primero θ por θ y luego q(θ) se estimará por q( θ). La justificación de esto 

reside en que si θ está próximo a θ, entonces como q es continua, q( θ) estará 

próxima a q(θ). 

3.3 Método de máxima verosimilitud 

Supongamos que se observa un vector muestra X =(X1,X2,...,Xn) discreto 

o continuo cuya función de densidad discreta o continua pertenezca a 

una familia p(x, θ), θ ∈ Θ y se quiera estimar θ. 

En el caso discreto p(x, θ) representa la probabilidad de observar el vector 

x =(x1,x2,...,xn), cuando el valor del parámetro es θ. Es razonable pensar 

que si hemos observado el vector x, este tendrá alta probabilidad. Luego se 

podría estimar θ como el valor que hace máxima p(x, θ). Un razonamiento 

análogo se puede hacer en el caso continuo, recordando que la probabilidad 

de un hipercubo con centro en x y de arista ∆, cuando ∆ es pequeño tiene 

probabilidad aproximadamente igual p(x, θ) ∆ n . Esto sugiere la siguiente 

definición: 

.


Definición 1: Diremos θ(X) es un estimador de máxima verosimilitud 

(E.M.V.) de θ, si se cumple 

p(X, θ(X)) = max p(X, θ) 

θ∈Θ 

Ejemplo 1: Supongamos que θ puede tomar valores θ =1óθ = 0 y que 

p(x, θ) viene dado por 

x 

θ 

0 1 

0 0.3 0.6 

1 0.7 0.4 

Σ 1 1 

Supongamos que se observe una muestra de tamaño 1 con valor X. Luego 

el estimador de máxima verosimilitud viene dado por 

 

θ(X) 

1 si X =0 

= 

0 si X =1 

Cómputo del E.M.V.: Supongamos ahora que Θ es un subconjunto 

abierto de IR p , que el soporte de p(x, θ) no depende de θ y que p(x, θ) 

tiene derivadas parciales respecto a todas las componentes θi. 

Como la función ln(µ) (logaritmo natural) es monótona creciente, maximizar 

p(x, θ) será equivalente a maximizar ln p(x, θ). Luego el E.M.V. θ(X) 

debe verificar: 

∂ ln p(X, θ) 

=0 i =1, 2,...,p. (3.2) 

∂θi 

Hasta ahora hemos supuesto que X es un vector con una distribución 

arbitraria. Supongamos ahora que X =(X1,X2,...,Xn) es una muestra 

aleatoria de una distribución discreta o continua con densidad p(x, θ). Luego 

se tiene 

n 

p(x, θ) =p(x1,x2,...,xn, θ) = p(xj, θ) 

j=1


y bajo las condiciones dadas anteriormente, el sistema de ecuaciones (3.2) 

se transforma en 

n ∂ ln p(xi, θ) 

=0 j =1, 2,...,p. (3.3) 

∂θj 

i=1 

Supongamos que indicamos por ψj(x, θ) = ∂ ln p(x, θ) 

, entonces (3.3) puede 

∂θj 

escribirse como 

n 

ψj(xi, θ) =0 j =1, 2,...,p. 

i=1 

Esta ecuación corresponde a la forma general de los denominados M−estimadores, 

que veremos más adelante. 

Por supuesto que tanto (3.2) como (3.3) son condiciones necesarias pero 

no suficientes para que θ sea un máximo. Para asegurarse que θ es un 

máximo deberían verificarse las condiciones de segundo orden respectivas. 

Además debe verificarse que no se trata de un máximo relativo sino absoluto. 


Bi(θ, k), con k conocido, luego cada variable Xi tiene función de densidad 

 

k 

p(x, θ) = θ 

x 

x (1 − θ) k−x 

y 

∂ ln p(x, θ) 

= 

∂θ 

x k − x x − kθ 

− = 

θ 1 − θ θ(1 − θ) . 

Luego (3.3) se transforma en la ecuación 

n Xi − k 

i=1 

θ 

θ(1 − θ) =0, 

y despejando θ resulta 

θ(X1,X2,...,Xn) = 1 

n 

Xi . 

nk 

i=1 


N(µ, σ2 ). Busquemos los E.M.V. de µ y σ2 . La función de densidad de cada 

variable Xi es 

p(x, µ, σ 2 

1 

1 

− 

)= √ e 2 σ2 (x−µ)2 

. 

2πσ2


Por lo tanto, 

y 

∂ ln p(x, µ, σ 2 ) 

∂σ 2 

∂ ln p(x, µ, σ 2 ) 

∂µ 

= x − µ 

σ 2 

= − 1 

2 σ 2 +(σ2 ) 2 1 

2 (x − µ)2 . 

Luego el sistema (3.3) se transforma en el sistema 

que tiene como solución 

n 

(Xi − µ)/σ 

i=1 

2 = 0 

n 

− 

i=1 

1 1 

+ 

2σ 2 2σ 4 (Xi − µ) 2 = 0 

µ(X1,X2,...,Xn) = 

σ 2 (X1,X2,...,Xn) = 

n 

Xi/n = X 

i=1 

n 

(Xi − X) 

i=1 

2 /n 

que son los mismos estimadores que encontramos por el método de los momentos. 


Γ(α, λ). La densidad de Xi está dada por 

con lo cual 

y 

p(x, α, λ) = 1 

Γ(α) λα x α−1 e −λx , 

∂ ln p(x, α, λ) 

∂α 

∂ ln p(x, α, λ) 

∂λ 

=lnλ +lnx − Γ′ (α) 

Γ(α) 

= α 

− x, 

λ 

donde Γ ′ (α) indica la derivada de la función Γ(α). Luego el sistema (3.3) se 

transforma en el sistema


con X = 1 

n 

n ln n 

λ + ln(Xi) − n 

i=1 

Γ′ (α) 

Γ(α) 

= 0 

n α 

− n X 

λ 

= 0 , 

ni=1 Xi. Luego λ = α . Pero, este sistema no tiene una solución 

X 

explícita ya que al reemplazar el valor de λ obtenemos la ecuación no lineal 

 

n 

n ln α − ln(X) + ln(Xi) − n Γ′ (α) 

Γ(α) =0, 

i=1 

que puede resolverse, por ejemplo mediante, el algoritmo de Newton-Raphson. 

Para iniciar el proceso, se puede tomar como estimador inicial el estimador 

de los momentos, por ejemplo. 

En este caso, el estimador de máxima verosimilitud no coincide con el 

estimador de los momentos. 

Invarianza de los E.M.V. Supongamos que λ = q(θ) es una función 

biunívoca de Θ sobre Λ, donde Λ ⊂ IR p . Luego la densidad p(x, θ) se puede 

expresar en función de λ ya que θ = q −1 (λ). Denominemos a la densidad 

de X como función de λ por p ∗ (x, λ). Claramente se tiene 

p ∗ (x, λ) =p(x,q −1 (λ)) 

Luego se definen los E.M.V. θ y λ por 

p(x, θ)=maxp(x, 

θ) (3.4) 

θ∈Θ 

y 

p ∗ (x, λ)=max 

λ∈Λ p∗ (x, λ) (3.5) 

El siguiente teorema muestra que los estimadores de máxima verosimilitud 

son invariantes por transformaciones biunívocas. 

Teorema 1: Si θ es E.M.V. de θ, entonces λ = q( θ) es E.M.V. de λ. 

Demostración: Como θ es E.M.V. de θ se tendrá que (3.4) vale. Como 

λ = q( θ), (3.4) se puede escribir como 

p(x,q −1 ( λ)) = max p(x,q 

λ∈Λ 

−1 (λ))


pero, esta ecuación de acuerdo a la definición de p ∗ es equivalente a 

p ∗ (x, λ)=maxp 

λ∈Λ 

∗ (x, λ) , 

luego λ satisface (3.5) y por lo tanto es un E.M.V. de λ. 

Ejemplo 5: De acuerdo al Teorema 1, en el ejemplo 2, el E.M.V. de λ = 

q(θ) =lnθserá λ =ln X 

θ =ln . 

k 

En general, si λ = q(θ), aunque q no sea bunívoca, se define el estimador 

de máxima verosimilitud de λ por 

λ = q( θ) . 

Ejemplo 6: Supongamos que en el ejemplo 3 interese encontrar el E.M.V. 

de λ = q(µ, σ2 )=µ/σ2 . Aunque esta transformación no es biunívoca, el 

E.M.V. de λ será 

λ = q(µ, σ 2 )= 

X 

ni=1 (Xi − X) 2 /n = 

ni=1 Xi 

ni=1 (Xi − X) 2 

pues basta completar la transformación dada a una transformación biunívoca, 

tomando por ejemplo, q1(µ, σ 2 )=µ. 

3.4 Método de cuadrados mínimos 

Supongamos que X1,X2,...,Xn son variables aleatorias de la forma 

Xi = Si(θ1,...,θp)+εi 1 ≤ i ≤ n (3.6) 

donde θ =(θ1,θ2,...,θp) es un vector de parámetros desconocido, del cual 

lo único que se conoce es que está en un conjunto Θ ⊂ IR p y εi son variables 

aleatorias con 

(i) E(εi) =0 

(ii) Var(εi) =σ 2

3.4. MÉTODO DE CUADRADOS MÍNIMOS 11 

(iii) ε1,ε2,...,εn son variables aleatorias independientes. 

Ejemplo 1: Consideremos el ejemplo 3 de 2.4. Luego, en este caso, poniendo 

θ1 en lugar de a y θ2 en lugar de b, se tiene 

Xi = θ1Gi + θ2 + εi 

donde las variables εi satisfacen (i), (ii) y (iii). 

Luego si llamamos: 

Si(θ1,θ2) =θ1Gi + θ2 

1 ≤ i ≤ n 

1 ≤ i ≤ n 

estamos en la situación descripta por la ecuación (3.6). 

Ejemplo 2: Podemos generalizar el ejemplo 1 por la siguiente situación. 

Supongamos que la variable X depende de otras dos variables G y H y que 

la forma de la dependencia es 

X = u(G,H,θ1,θ2,...,θp)+ε 

donde θ =(θ1,...,θp) se conoce que pertenece a un conjunto Θ ⊂ IR p ,y 

donde ε es una variable aleatoria que aglutina todos los otros factores que 

determina X y que son desconocidos. 

Por ejemplo se pueden tener 

o 

o 

u1(G, H, θ) =θ1G + θ2H + θ3 

u2(G, H, θ) =θ1G 2 + θ2H 2 + θ3HG + θ4H + θ5G + θ6 

u3(G, H, θ) =θ1e θ2G + θ3e θ4H . 

Supongamos que se hagan n experimentos. En el experimento i-ésimo 

se fijan G y H iguales respectivamente a Gi y Hi y se observa un valor Xi. 

Luego se tendrá 

Xi = u(Gi,Hi,θ1,θ2,...,θp)+εi 

1 ≤ i ≤ n 

donde se puede suponer que las εi satisfacen (i), (ii) y (iii). Luego, si llamamos 

Si(θ1,θ2,...,θp) =u(Gi,Hi,θ1,θ2,...,θp)


obtenemos que las variables Xi satisfacen (3.6). 

Llamaremos estimador de cuadrados mínimos (E.C.M.) al valor 

θ(X1,X2,...,Xn) que hace mínima la expresión n i=1 (Xi−Si(θ1,θ2,...,θp)) 2 , 

es decir si 

n 

(Xi − Si( 

i=1 

θ)) 2 n 

= min (Xi − Si(θ)) 

θ∈Θ i=1 

2 . (3.7) 

Este estimador tiene la siguiente justificación intuitiva: Se desea que 

Si(θ1 ...θp) “ajuste” bien a Xi, y por lo tanto los términos residuales εi 

deberían ser pequeños. Esto se logra minimizando la suma de los cuadrados 

de las desviaciones respectivas. 

Se puede demostrar que si además de satisfacer (i), (ii) y (iii), los εi 

tienen distribución normal, entonces el E.M.C. coincide con el E.M.V. Esto 

se verá en el problema 3 de 3.4. 

Computación de los E.C.M.: Si Θ es abierto y si las funciones 

Si(θ1,θ2,...,θp) son derivables respecto a cada θi, θ deberá satisfacer el 

sistema de ecuaciones siguiente 

que es equivalente a: 

∂ n i=1 (Xi − Si( θ)) 2 

∂θj 

=0 j =1, 2,...,p, 

n 

(Xi − Si( 

i=1 

θ)) ∂Si( θ) 

=0 j =1, 2,...,p. 

∂θj 

Igual que en el caso de los E.M.V. estas condiciones son necesarias para el 

E.M.C. pero no son suficientes. También se deberán cumplir las condiciones 

de segundo orden, y se deberá verificar que se trata de un mínimo absoluto 

y no local. 

Ejemplo 3: Volvemos al ejemplo 1. Luego se tiene 

∂Si(θ) 

= Gi 

∂θ1 

Luego (3.7) se transforma en 

y 

∂Si(θ) 

=1. 

∂θ2

3.5. CRITERIOS PARA MEDIR LA BONDAD DE UN ESTIMADOR 13 

n 

(X − 

i=1 

θ1Gi − θ2)Gi = 0 

n 

(Xi − 

i=1 

θ1Gi − θ2) = 0 . 

Es fácil ver la que la solución de este sistema viene dada por 

donde 

θ1 = 

n 

n 

(Xi − X)(Gi − G) (Gi − G) 

i=1 

i=1 

2 , 

θ2 = X − θ1G, 

X = 1 

n 

n 

i=1 

Xi y G = 1 

n 

n 

Gi . 

Geométricamente la recta X = θ1G + θ2 tiene la propiedad siguiente: 

Minimaza la suma de los cuadrados de las distancias de los puntos (Gi,Xi) 

a la recta, si esta distancia se la mide paralelamente al eje de las X. Es decir 

si X ∗ i = θ1G1 + θ2, la recta X = θ1G + θ2 hace mínimo n i=1 (Xi − X ∗ i )2 . 

Para un mayor desarrollo de los métodos de cuadrados mínimos, consultar 

Draper y Smith [2]. 

3.5 Criterios para medir la bondad de un estimador 

Supongamos que se tenga una muestra X =(X1,X2,...,Xn) de cuya distribución 

sólo se conoce que pertenece a la familia 

F = {F (x, θ) donde θ ∈ Θ ⊂ IR p }. Supongamos además que se está interesado 

en estimar una función real q(θ). Para poder elegir el estimador 

δ(X) que se utilizará, se deberá dar un criterio para comparar dos estimadores 

cualesquiera. Esto se hará como sigue: 

Es razonable pensar que dado un estimador δ(X) de q(θ), el error 

δ(X) − q(θ) producirá un perjuicio o pérdida dado por un real no negativo, 

que dependerá por un lado del valor del estimador δ(X) y por otro del 

valor verdadero del vector θ de parámetros. 

i=1


Así llamaremos función de pérdida a una función ℓ(θ,d) no negativa que 

nos indica cuánto se pierde cuando el valor del estimador es “d” y el valor 

verdadero del vector de parámetros es θ. Entonces si usamos el estimador 

δ(X) lapérdida será 

ℓ(θ,δ(X)) 

y esta pérdida será una variable aleatoria ya que depende de X. Para evaluar 

globalmente el estimador δ(X) se puede utilizar el valor medio de esta 

pérdida, que indicará de acuerdo a la ley de los grandes números aproximadamente 

la pérdida promedio, si estimamos q(θ) muchas veces con vectores X 

independientes. Luego, definimos la función de pérdida media del estimador 

δ o función de riesgo R(δ, θ) a 

R(δ, θ) =E θ (ℓ(θ,δ(X))) 

Un primer ejemplo de función de pérdida puede obtenerse tomando el error 

absoluto, es decir 

ℓ1(θ,d)=|d − q(θ)| 

y en este caso, la pérdida media corresponde a un estimador δ(X) viene dada 

por 

R1(δ, θ) =Eθ (|δ(X − q(θ)|) 

Si consideramos como función de pérdida el cuadrado del error tenemos 

ℓ2(θ,d)=(d − q(θ)) 2 

que es una función que desde el punto de vista matemático es más sencilla 

que ℓ1, ya que es derivable en todo punto. 

La función de pérdida cuadrática fue la primera utilizada en Estadística, 

yaún hoy la más difundida. De ahora en adelante, salvo mención en contrario 

supondremos que la función de pérdida es ℓ2. La pérdida media, o riesgo, 

correspondiente está dada por 

R2(δ, θ) =E(δ(X) − q(θ)) 2 

y será llamada en adelante error cuadrático medio, e indicada por ECMθ (δ). 

Luego 

ECMθ (δ) =R2(δ, θ) =Eθ (δ(X) − q(θ)) 2 

(3.8) 

La función ECMθ (δ) nos proporciona un criterio para determinar si un estimador 

δ1(X) deq(θ) es mejor que otro δ2(X), basta verificar 

ECM θ (δ1) ≤ ECM θ (δ2) ∀ θ ∈ Θ

3.5. CRITERIOS PARA MEDIR LA BONDAD DE UN ESTIMADOR 15 

En este orden de ideas, un estimador óptimo δ ∗ podría definirse mediante la 

siguiente condición: Para cualquier otro estimador δ se tiene 

ECM θ (δ ∗ ) ≤ ECM θ (δ) ∀ θ ∈ Θ (3.9) 

Sin embargo, salvo en casos triviales no existirán tales estimadores óptimos. 

Para mostrar esto definamos para cada posible valor θ ∈ Θ, el estimador 

constante δ θ (X) =q(θ) que no depende del valor de la muestra. Luego si 

δ ∗ satisface (3.9), debe cumplirse: 

ECM θ (δ ∗ ) ≤ ECM θ (δ θ )=E θ ((q(θ) − q(θ)) 2 )=0 ∀θ ∈ Θ 

Pero como ECM θ (δ ∗ ) ≥ 0yℓ2(θ,d) = 0 implica que d = q(θ), se obtiene 

P θ (δ ∗ (X) =q(θ)) = 1 ∀θ ∈ Θ (3.10) 

(donde Pθ (Λ) indica la probabilidad del evento Λ cuando el valor de los 

parámetros está dado por el vector θ). La ecuación (3.10) significa que a 

partir de la muestra se puede estimar sin error q(θ). Esta situación sólo se 

da muy raramente, por ejemplo, cuando q(θ) es constante. 

Otro ejemplo algo diferente de función de pérdida, corresponde a la 

función 

ℓ3(θ,d)=I {|q(θ)−d|>c} 

donde I {|q(θ)−d|>c} es la función que vale 1 si |q(θ) − d| >cy 0 en caso 

contrario. Esta pérdida da origen a la función de riesgo 

R3(δ, θ) =P θ (|δ(X) − q(θ)| >c) . 

A diferencia de las anteriores, en este caso, ℓ3(θ,d) = 0 no implica implica 

q(θ) =d. Por otra parte, esta pérdida no es convexa como función de d 

mientras que ℓ1 y ℓ2 lo son. En muchas situaciones, se podrán obtener 

procedimientos de estimación más efectivos para pérdidas convexas. 

El estimador δ ∗ con E.C.M. mínimo uniformemente en θ como se indica 

en (3.9) no existe, salvo en casos excepcionales, debido a que la clase de 

todos los posibles estimadores es muy amplia y contiene estimadores poco 

razonables como los δ θ (X) definidos anteriormente. Por lo tanto, una manera 

de obtener estimadores óptimos consistirá en restringir primero la clase 

de los estimadores δ considerados, y luego buscar aquél con E.C.M. uniformemente 

menor dentro de esta clase. Otra forma de obtener estimadores 

óptimos consistirá en minimizar algún criterio general basado en la función 

de riesgo, como el máximo riesgo.


Antes de empezar el estudio de las clases de estimadores daremos una 

noción importante. 

Definición 1: Se dice que un estimador δ(X) de q(θ) es inadmisible 

respecto de la pérdida ℓ(θ,d), si existe otro estimador δ ′ (X) mejor que él, es 

decir, si existe δ ′ (X) tal que 

R(δ ′ , θ) ≤ R(δ, θ) ∀ θ ∈ Θ 

El estimador δ(X) se dirá admisible si no es inadmisible, es decir, si no existe 

ningún otro estimador que sea uniformemente mejor que él. 

El siguiente Teorema muestra la ventaja de utilizar pérdidas convexas. 

Teorema 1. Supongamos que ℓ(θ,d) es una pérdida estrictamente convexa 

en d y que δ(X) es admisible para q(θ). Siδ ′ (X) es otro estimador de q(θ) 

con el mismo riesgo que δ(X) entonces P θ (δ(X) =δ ′ (X)) = 1. 

Demostración. Supongamos que P θ (δ(X) =δ ′ (X)) < 1 y sea δ ∗ (X) = 

(δ(X)+δ ′ (X)) /2. Luego, por ser ℓ(θ,d) convexa se cumple 

ℓ(θ,δ ∗ (X)) < ℓ(θ,δ(X)) + ℓ(θ,δ′ (X)) 

(3.11) 

2 

salvo si δ(X) =δ ′ (X). Luego, tomando esperanza en ambos miembros de 

(3.11) se obtiene 

R(δ ∗ , θ) < R(δ, θ)+R(δ′ , θ) 

= R(δ, θ) (3.12) 

2 

lo que contradice el hecho de que δ(X) es admisible. 

3.6 Estimadores insesgados 

Una propiedad “razonable” que se puede exigir a un estimador está dada 

por la siguiente definición: 

Definición 1: Se dice que δ(X) es un estimador insesgado para q(θ) si 

E θ (δ(X)) = q(θ) ∀θ ∈ Θ. 

Esto significa que si calculamos el estimador δ para varias muestras independientes, 

y luego promediamos los valores así obtenidos, entonces de

3.6. ESTIMADORES INSESGADOS 17 

acuerdo a la ley de los grandes números el promedio converge al valor q(θ) 

que queremos estimar. 

Definición 2: Si un estimador no es insesgado, se dice sesgado, definiéndose 

el sesgo del estimador como E θ (δ(X)) − q(θ). 

Cuando δ(X) es un estimador insesgado, su ECM coincide con su varianza 

ya que 

ECM θ (δ) =E θ [(δ(X) − q(θ)) 2 ]=E θ [(δ(X) − E θ (δ(X))) 2 ]=Var θ (δ(X)). 

Para ilustrar estas definiciones veremos algunos ejemplos. 

Ejemplo 1: Supongamos tener una variable X de cuya distribución F en la 

población sólo se sabe que tiene esperanza finita, es decir sólo se conoce que 

pertenece a F, donde F es la familia de todas las distribuciones con esperanza 

finita. Sea X1,X2,...,Xn una muestra aleatoria de F y supongamos que se 

quiere estimar q1(F )=EF (X). Estamos frente a un problema de estimación 

no paramétrica, ya que la familia no puede indicarse con un número finito 

de parámetros. Un posible estimador para q1(F )esX =(1/n) n i=1 Xi. El 

estimador X es insesgado ya que 

EF (X) =EF 

1 

n 

n 

Xi 

i=1 

X se denomina media muestral. 

= 1 

n 

n 

EF (Xi) =EF (X) =q1(F ) 

i=1 

Ejemplo 2: Supongamos ahora que se conoce que la distribución F de X en 

la población pertenece a la familia F de todas las distribuciones que tienen 

segundo momento finito, es decir tales que EF (X 2 ) < ∞. Supongamos 

que se quiere estimar q2(F )=VarF (X) a partir de una muestra aleatoria 

X1,X2,...,Xn. Ya hemos visto que un estimador adecuado podría ser 

σ 2 = 1 

n 

n 

(Xi − X) 

i=1 

2 

Veremos que σ 2 no es un estimador insesgado de q2(F ). Desarrollando el 

cuadrado del segundo miembro en la definición obtenemos 

σ 2 ni=1 X 

= 

2 i − nX2 

. 

n



EF (σ 2 )=EF (X 2 ) − EF (X 2 ) (3.13) 

Por otro lado, se tiene 

VarF (X) = 1 

n2 n 

VarF (Xi) = 1 

n VarF (X) . 

Como 

resulta 

i=1 

VarF (X) =EF (X 2 ) − (EF (X)) 2 , 

EF (X 2 )=VarF (X)+(EF (X)) 2 = 1 

n VarF (X)+(EF (X)) 2 

(3.14) 

y reemplazando (3.14) en (3.13) resulta 

EF (σ 2 ) = EF (X 2 ) − (EF (X)) 2 − 1 

n VarF (X) =VarF (X)(1 − 1/n) 

= n − 1 

n VarF 

n − 1 

(X) = 

n q2(F ). 

Esto prueba que σ 2 no es un estimador insesgado para VarF (X), aunque 

el sesgo es −VarF (X)/n, y por lo tanto, tiende a 0 cuando n tiende a infinito. 

El sesgo puede corregirse dividiendo σ 2 por (n − 1)/n, obteniendo así el 

estimador insesgado 

s 2 = n 

n − 1 σ2 = 1 

n 

(Xi − X) 

n − 1 

i=1 

2 

que denominaremos varianza muestral. 


de la cual se conoce únicamente que pertenece a la familia N(µ, σ 2 ) y supongamos 

que se quieran estimar µ y σ 2 . Como se tiene 

µ = E µ,σ 2(X) ; σ 2 =Var µ,σ 2(X) 

por lo visto en Ejemplos 1 y 2, resulta que X y s 2 son estimadores insesgados 

de µ y σ 2 respectivamente. 

Si nos restringimos a la clase de los estimadores insesgados, se podrá encontrar 

frecuentemente, estimadores óptimos. Daremos la siguiente definición: 

Definición 2: Se dirá que δ(X) es un estimador insesgado de mínima 

varianza para q(θ), uniformemente en θ ∈ Θ (IMVU) si:

3.7. ESTADÍSTICOS SUFICIENTES 19 

(a) δ(X) es insesgado para q(θ) 

(b) dado otro estimador insesgado para q(θ), δ ∗ (X), se cumple Var θ (δ(X)) ≤ 

Var θ (δ ∗ (X)) ∀ θ ∈ Θ. 

3.7 Estadísticos suficientes 

Consideremos un vector aleatorio X de dimensión n cuya distribución pertenece 

a una familia F = {F (x, θ) con θ ∈ Θ ⊂ IR p }. El vector X interesa en 

cuanto nos provee información sobre el valor verdadero de θ. Puede ocurrir 

que una parte de la información contenida en X carezca de interés para 

el conocimiento de θ, y por consiguiente convenga eliminarla simplificando 

así la información disponible. 

Al realizar esta simplificación, eliminando de X toda la información irrelevante, 

se obtendrá otro vector T que puede ser de dimensión menor que 

n. 

Llamaremos estadístico a cualquier función medible T = r(X) con valores 

en un espacio euclídeo de dimensión finita. 

Si la función r no es biunívoca, del conocimiento de T no se podrá 

reconstruir el valor de X, por lo que T conservará sólo una parte de la 

información que hay en X. El estadístico T será llamado suficiente cuando 

conserve toda la información relevante para el conocimiento de θ. Esto se 

formalizará en la siguiente definición. 

Definición 1: Sea X un vector aleatorio de dimensión n cuya distribución 

es F (x, θ) con θ ∈ Θ. Se dice que un estadístico T = r(X) es suficiente 

para θ si la distribución de X condicional a que T = t es independiente de 

θ para todo t. 

Esto puede interpretarse como afirmando que una vez conocido el valor t 

de T, la distribución de X es independiente de θ y por lo tanto no contiene 

información suplementaria sobre θ. En otros términos: una vez conocido 

el valor de T podemos olvidarnos del valor X, ya que en T está toda la 

información que X tiene sobre θ. 

Ejemplo 1: Supongamos que una máquina produce cierto artículo, existiendo 

la probabilidad θ de que lo produzca defectuoso. Supongamos además 

que se observa un lote de n artículos producidos sucesivamente por la máquina,


de manera que la aparición de uno defectuoso resulte independiente del resultado 

obtenido para los restantes artículos del lote. 

Consideremos las variable aleatorias Xi , 1 ≤ i ≤ n, que valen 1 ó 0 

según el i-ésimo artículo observado sea o no defectuoso. Entonces cada una 

de las variables X1,X2,...,Xn sigue una ley binomial Bi(θ, 1), de modo que 

la función de probabilidad puntual conjunta es igual a 

p(x1,x2,...,xn,θ)=θ Σn i=1 xi (1 − θ) n−Σ n i=1 xi 

donde xi vale 0 ó 1. 

Si queremos estimar el parámetro θ, parece razonable pensar que sólo se 

deberá utilizar la cantidad total de artículos defectuosos del lote, ya que el orden 

en que han aparecido los mismos parece irrelevante para el conocimiento 

de θ. Por lo tanto, es de esperar que el estadístico T = n i=1 Xi sea suficiente. 

Para ver si esta conjetura es correcta, calculemos la distribución de 

X =(X1,...,Xn) dado T = t: 

pX|T (x1,...,xn,θ|t) = pX,T (x1,x2,...,xn,t,θ) 

(3.15) 

pT (t, θ) 

El numerador de este cociente es la probabilidad conjunta: 

= 

Pθ(X1 = x1,...,Xn = xn,r(X1,...,Xn) =t) 

 

θt (1 − θ) n−t si r(x1,...,xn) =t 

0 si r(x1,...,xn) = t 

y como el estadístico T = n i=1 Xi sigue una ley binomial Bi(θ, n) el denominador 

de (3.15) vale 

pT (t, θ) = 

n 

t 

 

θ t (1 − θ) n−t 

Así resulta 

⎧ 

⎪⎨ 

 

n 

 

1/ si r(x1,...,xn) =t 

pX|T (x1,...,xn,θ|t) = t 

⎪⎩ 0 si r(x1,...,xn) = t. 

De esta manera p X/T es independiente de θ y por lo tanto el estadístico 

T =ΣXi es suficiente para θ. 

Una caracterización útil de los estadísticos suficientes es la proporcionada 

por el siguiente teorema:

3.7. ESTADÍSTICOS SUFICIENTES 21 

Teorema 1 (de factorización): Sea X un vector aleatorio con función de 

densidad o función de probabilidad puntual p(x, θ), θ ∈ Θ. Entonces, el 

estadístico T = r(X) es suficiente para θ si y sólo si existen dos funciones g 

y h tales que 

p(x, θ) =g(r(x), θ)h(x) (3.16) 

Demostración: La haremos sólo para el caso discreto. Supongamos primero 

que existen dos funciones g y h tales que p(x, θ) se factoriza según (3.16). 

Entonces la función de densidad conjunta vale 

pXT(x, t, θ) = 

 

g(t, θ)h(x) si r(x) =t 

0 si r(x) = t 

y la densidad marginal pT(t, θ) está dada por 

pT(t, θ) = 

pXT(x, t, θ) = 

r(x)=t 

= g(t, θ) 

r(x)=t 

r(x)=t 

h(x) =g(t, θ)h ∗ (t) 

g(r(x), θ)h(x) 

donde las sumatorias se realizan sobre todos los x =(x1,x2,...,xn) tales 

que r(x) =t. Así resulta la función de densidad condicional 

p X|T(x, θ|t) = 

 

h(x)/h ∗ (t) si r(x) =t 

0 si r(x) = t 

y por lo tanto la distribución de X dado T = t es independiente de θ para 

todo t. 

Recíprocamente, si suponemos que T = r(X) es suficiente para θ, se 

tiene 

Pθ(X = x) = Pθ (X = x, T = r(x)) = pXT(x,r(x), θ) 

= pX|T(x, θ|r(x))pT(r(x), θ) 

El primero de los factores del último miembro es por hipótesis independiente 

de θ y por eso podemos llamarlo h(x); mientras que el segundo –que 

depende de x a través de t– puede denominarse g(r(x), θ). El teorema queda 

demostrado. Para una demostración general, ver Teorema 8 y Corolario 1 

de Lehmann [4]. También se puede ver Bahadur [1].


Ejemplo 2: Supongamos que las variables aleatorias X1,X2,...,Xn son 

independientes y que están uniformemente distribuídas en el intervalo [θ1,θ2] 

de manera que su función de densidad conjunta vale 

 

p(x1,...,xn,θ1,θ2) = 

Si definimos los estadísticos 

(θ2 − θ1) −n si θ1 ≤ xi ≤ θ2, ∀i, 1 ≤ i ≤ n 

0 en el resto deIR n 

r1(X) = min{Xi : 1 ≤ i ≤ n} y r2(X) = max{Xi : 1 ≤ i ≤ n} 

y si denotamos con I [θ1,θ2](y) a la función característica del intervalo [θ1,θ2] 

(que vale 1 para todo y del intervalo y 0 fuera del mismo), resulta: 

p(x1,...,xn,θ1,θ2) =(θ2−θ1) −n I [θ1,θ2](r1(x1,...,xn))I [θ1,θ2](r2(x1,...,xn)) 

Por lo tanto la función de densidad p(x, θ) se factoriza como en (3.16) con 

h(x) = 1. La función g que depende de X a través de r1(x) yr2(x) vale en 

este caso 

g(r1(x),r2(x), θ) =(θ2 − θ1) −n I [θ1,θ2](r1(x))I [θ1,θ2](r2(x)) 

Esto demuestra que el estadístico 

es suficiente para θ1 y θ2. 

T =(r1(X) ,r2(X)) 

El siguiente resultado es Corolario inmediato del Teorema 1. 

Corolario. Sea X un vector aleatorio con función de densidad o función de 

probabilidad puntual p(x, θ), θ ∈ Θ. Supongamos que la familia {p(x, θ)} 

tiene soporte común, independiente de θ. Entonces, una condición necesaria 

y suficiente para que T sea suficiente para θ es que fijados θ1 y θ2 el cociente 

p(x,θ1) 

p(x,θ2) 

sea función de T. 

El siguiente Teorema muestra que una función biunívoca de un estadístico 

suficiente es también un estadístico suficiente. Esta propiedad es intuitivamente 

razonable: si T contiene toda la información relevante acerca de θ, y 

T ∗ es una función biunívoca de T, entonces también T ∗ la contiene ya que 

el vector T puede reconstruirse a partir del vector T ∗ .

3.8. ESTADÍSTICOS MINIMALES SUFICIENTES 23 

Teorema 2: Si X es un vector aleatorio con una distribución F (x, θ), con 

θ ∈ Θ si T = r(X) es un estadístico suficiente para θ ysim es una función 

biunívoca de T entonces el estadístico T∗ = m(T) también es suficiente para 

θ. 

Demostración: Apliquemos el teorema de factorización a la función de 

densidad del vector X: 

p(x, θ) =g(r(x), θ)h(x) =g(m −1 (m(r(x)), θ)h(x) 

El primer factor del último miembro es una función g ∗ (r ∗ (x), θ), donde 

r ∗ (x) =m(r(x)), y esto prueba que T ∗ = r ∗ (X) es suficiente para θ. 

3.8 Estadísticos minimales suficientes 

De la noción intuitiva de suficiencia, se deduce que si T es suficiente para 

θ y T = H(U) entonces U es suficiente para θ, ya que el conocimiento de 

U permite conocer T que es el que contiene toda la información relevante 

sobre θ. Más aún, salvo que H sea biunívoca T da una mayor reducción de 

la muestra original que U. Este hecho motiva la siguiente definición. 

Definición 1: Sea X un vector aleatorio de dimensión n cuya distribución 

es F (x, θ) con θ ∈ Θ. Se dice que un estadístico T = r(X) es minimal 

suficiente para θ si dado cualquier otro estadístico U = g(X) suficiente para 

θ existe una función H tal que T = H(U). 

En muchas situaciones, es fácil construir estadísticos minimal suficientes. 

Sea S(θ) = {x : p(x, θ) > 0}, S(θ) se llama el soporte de la densidad 

o de la probabilidad puntual p(x, θ), según corresponda. Para simplificar, 

supondremos que las posibles distribuciones del vector X tienen todas el 

mismo soporte, es decir, que el conjunto S(θ) no depende de θ. 

Teorema 1. Supongamos que X tiene una distribución perteneciente a una 

familia finita de distribuciones F = {F (x, θi) 1 ≤ i ≤ k} con densidades 

o probabilidades puntuales p(x, θi), 1 ≤ i ≤ k todas con el mismo soporte. 

Entonces el estadístico 

es minimal suficiente. 

T = r(x) = 

 

p(x, θ2) θk) 

,...,p(x, 

p(x, θ1) p(x, θ1)


Demostración. Obviamente, para todo 1 ≤ i < j ≤ k el cociente 

p(x, θi)/p(x, θj) es función de T. Por lo tanto, por el Corolario del teorema 

de Factorización, T es suficiente. 

Sea ahora U un estadístico suficiente para θ. Entonces, utilizando el Corolario 

anterior se cumple que para todo 2 ≤ i ≤ k, el cociente p(x,θi) 

es una 

p(x,θ1) 

función de U. Luego, T es función de U y T es minimal suficiente. 

En muchas situaciones, se pueden obtener estadísticos minimales suficientes 

combinando el Teorema 1 con el siguiente Teorema. 

Teorema 2. Supongamos que X tiene una distribución perteneciente a una 

familia de distribuciones F = {F (x, θ) θ ∈ Θ} con densidades o probabilidades 

puntuales p(x, θ), todas con el mismo soporte. Sea 

F0 = {F (x, θ) θ ∈ Θ0 ⊂ Θ} ⊂F. 

Supongamos además que T = r(X) es un estadístico minimal suficiente para 

θ ∈ Θ0 y suficiente para θ ∈ Θ, entonces T es minimal suficiente para θ ∈ Θ. 

Demostración. Sea U un estadístico suficiente para θ, entonces U es 

suficiente para θ ∈ Θ0. Por lo tanto, T es función de U, con lo cual T es 

minimal suficiente. 

Ejemplo 1. Sean X1,...,Xn una muestra aleatoria de una distribución 

Bi(θ, 1), 0 < θ < 1. Hemos visto que T = n i=1 Xi es suficiente para 

θ ∈ (0, 1). Queremos ver que es minimal suficiente. 

Para ello consideremos la familia finita F0 = {Bi(1/4, 1),Bi(3/4, 1)}. 

Luego, un estadístico minimal suficiente para esta familia está dado por 

U = g(x) = 

3 p(x, 4 ) 

p(x, 1 

−n 

=32T 

4 ) 

que es una función biunívoca de T . Por lo tanto, T es un estadístico minimal 

suficiente para F0 y suficiente para θ ∈ (0, 1), con lo cual es minimal 

suficiente para θ ∈ (0, 1). 

3.9 Estimadores basados en estadísticos suficientes 

Supongamos que X es un vector correspondiente a una muestra de una 

distribución que pertenece a la familia F (x, θ) con θ ∈ Θ. Supongamos que 

T = r(X) es un estadístico suficiente para θ. Luego de acuerdo al concepto

3.9. ESTIMADORES BASADOS EN ESTADÍSTICOS SUFICIENTES 25 

intuitivo que tenemos de estadístico suficiente, para estimar una función q(θ) 

deberán bastar estimadores que dependan sólo de T, ya que en T está toda 

la información que X contiene sobre el parámetro θ. Esto es justamente lo 

que afirma el siguiente teorema. 

Teorema 1 (Rao–Blackwell): Sea X un vector de una distribución perteneciente 

a la familia F (x, θ) con θ ∈ Θ. Sea T un estadístico suficiente para 

θ y δ(X) un estimador de q(θ). Definamos un nuevo estimador 

Luego se tiene 

δ ∗ (T) =E(δ(X)|T). 

(i) ECM θ (δ ∗ ) ≤ ECM θ (δ), ∀ θ ∈ Θ 

(ii) La igualdad en (i) se satisface si y sólo si 

P θ (δ ∗ (T) =δ(X)) = 1 ∀ θ ∈ Θ 

(iii) Si δ(X) es insesgado, entonces δ ∗ (T) también lo es. 

Demostración: Podemos escribir 

ECM θ (δ) = E θ ((δ(X) − q(θ)) 2 ) 

Luego, usando 

= Eθ ([(δ ∗ (T) − q(θ)) + (δ(X) − δ ∗ (T ))] 2 ) 

= Eθ ((δ ∗ (T) − q(θ)) 2 )+Eθ ((δ(X) − δ ∗ (T)) 2 ) 

+ 2Eθ ((δ ∗ (T) − q(θ))(δ(X) − δ ∗ (T))) (3.17) 

Eθ ((δ ∗ (T) − q(θ))(δ(X) − δ ∗ (T))) = Eθ [E((δ ∗ (T) − q(θ))(δ(X) − δ ∗ (T))|T] 

= Eθ [(δ ∗ (T) − q(θ))E(δ(X) − δ ∗ (T)|T] 

y 

E θ (δ(X) − δ ∗ (T)|T) =E(δ(X)|T) − δ ∗ (T) =δ ∗ (T) − δ ∗ (T) =0, 

se obtiene 

E θ ((δ ∗ (T) − q(θ))(δ(X) − δ ∗ (T))) = 0 .


Luego (3.17) se transforma en 

y resulta 

ECM θ (δ) = ECM θ (δ ∗ )+E θ ((δ(X) − δ ∗ (T)) 2 ) 

ECM θ (δ) ≥ ECM θ (δ ∗ ) . 

Además igualdad se cumple sólo si P θ (δ(X) =δ ∗ (T)) = 0 ∀ θ ∈ Θ. 

Luego ya se ha demostrado (i) y (ii). Para mostrar (iii) supongamos que 

δ es insesgado, luego se tiene 

Luego se cumple (iii). 

E θ (δ ∗ (T)) = E θ (E(δ(X)|T)) = E θ (δ(X)) = q(θ) 

Observación: El estimador δ ∗ (T) =E(δ(X)|T) es realmente un estimador 

ya que depende sólo de T (y por lo tanto de X) ynodeθ, ya que por ser T 

un estadístico suficiente la distribución de δ(X) condicional T = t es independiente 

de θ, por lo tanto lo mismo sucede con la esperanza condicional. 


Bi(θ, 1). Luego δ(X1,...,Xn) =X1 es un estimador insesgado de θ. Un 

estadístico suficiente para θ es T = n i=1 Xi (ver ejemplo 1 de 3.7). Por lo 

tanto, de acuerdo al teorema de Rao–Blackwell, δ ∗ (T )=E(δ(X1,...,Xn)|T ) 

será otro estimador insesgado de θ yVarθ(δ ∗ ) ≤ Varθ(δ). Vamos a calcular 

entonces δ ∗ (T ). 

Por ser X1,X2,...,Xn idénticamente distribuídas y como T es invariante 

por permutaciones entre X1,X2,...,Xn, la distribución conjunta de (Xi,T) 

es la misma para todo i. Por lo tanto, E(Xi|T ) será independiente de i (ver 

Problema 1 de 3.9). Luego 

E(Xi|T )=E(X1|T )=δ ∗ (T ) 1 ≤ i ≤ n. 

Sumando en i se tiene 

n 

E(Xi|T )=nδ 

i=1 

∗ (T ) . 

Pero además vale que 

n 

n 

 

E(Xi|T )=E Xi|T = E(T |T )=T, 

i=1 

i=1

3.10. FAMILIAS EXPONENCIALES 27 

luego 

Es fácil ver que 

ya que 

δ ∗ (T )= T 

n 

= 1 

n 

n 

Xi . 

i=1 

Varθ(δ ∗ (T )) ≤ Varθ(δ(X)) 

Varθ(δ ∗ (T )) = θ(1 − θ)/n y Varθ(δ(X)) = θ(1 − θ) . 

3.10 Familias exponenciales 

Definición: Se dice que una familia de distribuciones continuas o discretas 

en IR q , F (x, θ), donde x = (x1,...,xq) yθ ∈ Θ ⊂ IR p es una familia 

exponencial a k parámetros si la correspondiente función de densidad discreta 

o continua se puede escribir como 

p(x, θ) =A(θ)e Σk i=1 ci(θ)ri(x) h(x) (3.18) 

donde c1(θ),...,ck(θ) son funciones de Θ en IR, A(θ) es una función de Θ 

en IR + (reales no negativos), r1(x),...,rk(x) son funciones de IR q en IR y 

h(x) es una función de IR q en IR + . 

Ejemplo 1: Sea la familia Bi(θ, n) con n fijo y θ en (0,1). Luego 

p(x, θ) = 

n 

x 

 

θx (1 − θ) n−x =(1−θ) n n 

θ n 

 

1−θ x 

=(1−θ) nex ln(θ/(1−θ)) n 

 

x 

x =0, 1,...,n 

Luego esta familia es exponencial a un parámetro con A(θ) = (1 − θ) n ; 

r(x) =x; c(θ) =ln(θ/(1 − θ)) y h(x) = 

n 

x 

Ejemplo 2: Sea la familia N(µ, σ 2 ) con µ ∈ IR y σ 2 real positivo. Luego, 

su densidad viene dada por 

p(x, µ, σ 2 ) = 

1 

√ 2πσ 2 

 

. 

1 

e− 2 σ2 (x−µ)2


= 

= 

1 

1 

√ e− 

2πσ2 µ2 

e− 2σ2 2πσ 2 ) e 

2 σ2 x2 +( µ µ2 

σ2 )x− 

2σ2 1 

(− 

2 σ2 )x2 + µ 

σ2 x 

(3.19) 

Luego esta es una familia exponencial a dos parámetros con A(µ, σ2 ) = 

e−µ2 /2σ2 / √ 2πσ2 ; c1(µ, σ2 ) = (−1/2 σ2 ); c2(µ, σ2 ) = µ/σ2 ; r1(x) = x2 ; 

r2(x) =x; h(x) =1. 

Ejemplo 3: Sea la familia P (λ). Se puede mostrar que es exponencial a un 

parámetro. Ver problema 2.i) de 3.10. 

Ejemplo 4: Sea la familia ε(λ). Se puede mostrar que es exponencial a un 

parámetro. Ver problema 2.ii) de 3.10. 

Ejemplo 5: Sea la familia de distribuciones normales bivariadas 

N(µ1,µ2,σ2 1 ,σ2 2 ,ρ). 

de 3.10. 

Es exponencial a 5 parámetros. Ver problema 2.iii) 

Teorema 1: Una familia exponencial a k parámetros cuya función de densidad 

viene dada por (3.18) tiene como estadístico suficiente para θ el vector 

T = r(X) =(r1(X),...,rk(X)). 

Demostración. Inmediata a partir del Teorema 1 de 3.9. 

El siguiente teorema establece la propiedad más importante de las familias 

exponenciales. 

Teorema 2: Sea X1, X2,...,Xn una muestra aleatoria de una distribución 

que pertenece a una familia exponencial a k parámetros, cuya función de densidad 

viene dada por (3.18). Luego la distribución conjunta de X1,...,Xn 

también pertenece a una familia exponencial a k parámetros y el estadístico 

suficiente para θ es el vector 

T ∗ =(T ∗ 1 ,...,T ∗ k ), donde T ∗ 

n 

i = ri(Xj), 1 ≤ i ≤ k 

j=1 

Demostración: Es inmediata, ya que por (3.18) se tiene 

p(x1, x2,...,xn, θ) = n j=1 p(xi, θ) 

=(A(θ)) n e c1(θ)Σ n i=1 r1(xj)+···+ck(θ)Σ n i=1 rk(xj) n j=1 h(xj) 

= A ∗ (θ)e c1(θ)r ∗ 1 (x1,...,xn)+···+ck(θ)r ∗ k (x1,...,xn) h ∗ (x1,...,xn)


donde A ∗ (θ) = A(θ) n ; r ∗ i (x1,...,xn) = n j=1 ri(xj), h ∗ (x1,...,xn) = 

ni=1 h(xj), y por lo tanto el Teorema 2 queda demostrado. 

Este último Teorema nos afirma que para familias exponenciales de k 

parámetros, cualquiera sea el tamaño de la muestra, siempre existe un estadístico 

suficiente de sólo k componentes. Es decir, que toda la información 

se puede resumir en k variables aleatorias. Se puede mostrar que 

esta propiedad bajo condiciones generales caracteriza a las familias exponenciales. 

Para esta caracterización se puede consultar Sección 2.5 de Zacks 

[7] y Dynkin [3]. 

Ejemplo 3: Volvamos al ejemplo 1. Supongamos que tomamos una muestra 

aleatoria X1,X2,...,Xn de una distribución Bi(θ, n) con n fijo. Luego la 

distribución conjunta de la muestra pertenecerá a una familia exponencial a 

un parámetro con estadístico suficiente T = n i=1 Xi. 

Ejemplo 4: Sea X1,...,Xn una muestra de una distribución perteneciente 

a la familia N(µ, σ2 ). Luego, de acuerdo a lo visto en el ejemplo 2 y 

al teorema 2, la distribución conjunta de X1,X2,...,Xn pertenece a 

una familia exponencial a dos parámetros y con estadístico suficiente 

ni=1 

T = X2 i , 

n 

i=1 Xi . 

El siguiente teorema establece que las familias de distribuciones de los 

estadísticos suficientes de una familia exponencial a k parámetros también 

forma una familia exponencial a k parámetros. 

Teorema 3: Sea X un vector cuya distribución pertenece a una familia 

exponencial a k parámetros cuya función de densidad satisface (3.18). Luego 

la función de densidad de los estadísticos suficientes T =(r1(X),...,rk(X)) 

es de la forma 

pT(t1,t2,...,tk, θ) =A(θ)e c1(θ)t1+···+ck(θ)tk h ∗ (t1,...,tk) 

Por lo tanto la familia de distribuciones de T también forma una familia 

exponencial a k parámetros. 

Demostración: Sólo se hará para el caso discreto. Para el caso general se 

puede consultar Lema 8 de 2.7 en Lehmann [4]. En el caso particular elegido 

se tiene: 

k p(x, θ) =A(θ)e j=1 cj(θ)rj(x) 

h(x)


Luego si T = r(x) =(r1(X),...,rk(X)) y si t =(t1,...,tk), se tendrá 

pT(t, θ) = 

p(x, θ) = 

k A(θ)e j=1 cj(θ)rj(x) 

h(x) 

{x: r(x)=t} 

k j=1 cj(θ)tj 

= A(θ)e 

con h ∗ (t) = 

{x:r(x)=t} h(x). 

{x: r(x)=t} 

 

{x: r(x)=t} 

k h(x) =A(θ)e j=1 cj(θ)tj ∗ 

h (t) 

El siguiente lema es de carácter técnico y nos será útil en lo que sigue. 

Lema 1: Sea X = (X1,...,Xq) un vector aleatorio cuya distribución 

pertenece a una familia exponencial a un parámetro discreta o continua con 

densidad dada por p(x, θ) =A(θ)ec(θ)r(x) h(x); con θ ∈ Θ, donde Θ es un 

abierto en IR y c(θ) infinitamente derivable. Luego, si m(x) es un estadístico 

tal que 

... |m(x)|p(x,θ)dx1 ...dxq < ∞ ∀θ∈Θ o 

Σx1 ...Σxq|m(x)|p(x,θ) < ∞ 

según sea X continua o discreta, entonces las expresiones 

 

... 

m(x)e c(θ)r(x) h(x)dx1 ...dxq o Σx1 ...Σxqm(x)e c(θ)r(x) h(x) 

según corresponda, son infinitamente derivables y se puede derivar dentro 

de los signos integral o sumatoria, respectivamente. 

Demostración: No se dará en este curso, puede consultarse en el Teorema 

9 de 2.7 de Lehmann [4]. 

Teorema 4: Sea X =(X1,...,Xq) un vector aleatorio cuya distribución 

pertenece a una familia exponencial a un parámetro con densidad dada por 

p(x,θ)=A(θ)e c(θ)r(x) h(x) con θ ∈ Θ, donde Θ es un abierto en IR y c(θ) es 

infinitamente derivable. Luego se tiene: 

(i) A(θ) es infinitamente derivable. 

(ii) 

Eθ(r(X)) = − A′ (θ) 

A(θ)c ′ (θ)


(iii) 

Varθ(r(x)) = 

∂Eθ(r(x)) 

∂θ 

c ′ (θ) 

Demostración: Supongamos que X sea continuo. El caso discreto es 

totalmente similar. Como 

 

... A(θ)e c(θ)r(x) h(x)dx1 ...dxq =1 

se tiene 

1 

A(θ) = 

 

 

... 

e c(θ)r(x) h(x)dx1 ...dxq 

Como el segundo miembro de esta igualdad satisface las condiciones del 

Lema 1 con m(x) = 1, resulta infinitamente derivable y luego también A(θ), 

con lo cual queda demostrado (i). 

Por otro lado se tiene 

 

A(θ) 

 

... 

e c(θ)r(x) h(x)dx1 ...dxq =1 ∀ θ ∈ Θ 

y usando el Lema 1 que nos permite derivar dentro del signo integral resulta 

A ′ 

(θ) 

A(θ)c ′ (θ) 

y esta última ecuación se puede escribir 

y luego 

 

... e c(θ)r(x) h(x)dx1 ...dxq + 

 

... r(x)e c(θ)r(x) dx1 ...dxq =0 

A ′ (θ) 

A(θ) + c′ (θ)Eθ(r(x)) = 0 

Eθ(r(x)) = − A′ (θ) 

c ′ (θ)A(θ) 

y se ha demostrado (ii). 

(iii) se deja para resolver en el Problema 3 de 3.10.


3.11 Estadísticos completos 

Sea X un vector aleatorio cuya distribución pertenece a la familia F (x, θ) 

con θ ∈ Θ. Hasta ahora hemos visto que tomando estimadores insesgados 

de una función q(θ) basados en estadísticos suficientes se logra mejorar la 

estimación. Lo que no conocemos es si puede haber más de un estimador 

insesgado, basado en un estadístico suficiente T dado. Veremos que bajo 

ciertas condiciones hay uno solo. 

Definición 1: Sea X un vector aleatorio cuya distribución pertenece a una 

familia F (x, θ) con θ ∈ Θ. Un estadístico T = r(X) se dice completo si 

Eθ(g(T)) = 0 para todo θ implica que P θ (g(T) = 0) = 1 para todo θ ∈ Θ 

Ejemplo 1: Sea X una variable aleatoria con distribución Bi(θ, k) con k 

fijo y 0 ≤ θ ≤ 1. Sea g tal que Eθ(g(X)) = 0, para todo θ. Mostraremos que 

g(x) =0,x =0, 1,...,k. Tenemos 

Eθ(g(X)) = 

k 

x=0 

 

k 

g(x) 

x 

 

θ x (1 − θ) k−x =0 ∀ θ ∈ [0, 1] (3.20) 

Sea λ = θ/(1 − θ); luego cuando θ ∈ [0, 1], λ toma los valores en IR + (reales 

no negativos). 

Poniendo (3.20) en función de λ resulta 

Luego 

(1 − θ) k 

Q(λ) = 

k 

x=0 

k 

x=0 

 

k 

g(x) 

x 

 

k 

g(x) 

x 

 

λ x =0 ∀ λ ∈ IR + 

 

λ x =0 ∀ λ ∈ IR + 

Pero Q(λ) es un polinomio de grado k con infinitas raíces, luego todos sus 

coeficientes deben ser 0. Por lo tanto, 

 

k 

 

g(x) =0 x =0, 1,...,k , 

x 

y entonces 

g(x) =0 x =0, 1,...,k . 

Con lo que queda probado que T (X) =X es un estadístico completo.

3.11. ESTADÍSTICOS COMPLETOS 33 


que pertenece a la familia Bi(θ, k). Sea T = r(X1,...,Xn) =X1 + X2 + 

···+ Xn. Luego T es un estadístico suficiente y tiene distribución Bi(θ, nk), 

por lo tanto de acuerdo a lo visto en el ejemplo 1 es completo. 

Ejemplo 3: Consideremos una variable X con distribución U[0,θ], θ ∈ IR + . 

Sea T = X. Luego se puede demostrar que T es un estadístico completo. La 

demostración de este hecho está fuera de los alcances de este curso. De todos 

modos, veremos una proposición más débil relacionada con completitud. Sea 

g de IR + en IR una función continua. Luego veremos que si Eθ(g(X)) = 0 

para todo θ en IR + , entonces g(x) =0 

Eθ(g(X)) = 1 

θ 

g(x)dx =0, ∀ θ ≥ 0, 

θ) 0 

luego 

θ 

g(x)dx =0, ∀ θ ∈ IR + 

Sea G(θ) = θ 

0 g(x)dx, entonces se tiene 

G(θ) =0 ∀ θ ∈ IR + 

0 

Usando el Teorema Fundamental del Cálculo Integral se tiene que 

∂G(θ) 

∂θ 

= g(θ) =0 ∀ θ ∈ IR + 

Lo que faltaría ver es que en el caso en que g no es continua, Eθ(g(X)) = 

0 ∀ θ ∈ IR + implica g(x) = 0 con probabilidad 1. 

El siguiente teorema muestra que bajo condiciones muy generales el estadístico 

suficiente correspondiente a una familia exponencial es completo. 

Teorema 1: Sea una familia exponencial a k parámetros, discreta o continua 

con función de densidad dada por 

p(x, θ) =A(θ)e c1(θ)r1(x)+...+ck(θ)rk(x) h(x) 

y sea Λ={λ =(λ1,λ2,...,λk) :λi = ci(θ); θ ∈ Θ}. 

a) Si Λ contiene k + 1 puntos λ (1) ,...,λ (k+1) 

tales que 

{λ (j) − λ (1) , 2 ≤ j ≤ k +1} son linealmente independientes, entonces 

el estadístico suficiente T =(r1(X),...,rk(X)) es minimal suficiente.


b) Si Λ un conjunto que contiene una esfera en IR k , entonces estadístico 

suficiente T =(r1(X),...,rk(X)) es completo. 

Demostración: a) Como T es suficiente para 

F = {p(x, θ) =A(θ)ec1(θ)r1(x)+...+ck(θ)rk(x) h(x) θ ∈ Θ}, de acuerdo al 

Teorema 2 de la sección 3.8 bastará probar que T es minimal suficiente para 

una subfamilia finita de F. Sean θ (j) , 1 ≤ j ≤ k + 1, tales que 

λ (j) =(λ (j) 

1 ,...,λ(j) k )= 

 

c1(θ (j) ),...,ck(θ (j) 

) . 

Consideremos la subfamilia 

F0 = {p(x, θ (j) ) = A(θ (j) k )e i=1 ci(θ (j) )ri(x) 

h(x) 

= A(θ (j) k )e 

i=1 λ(j) 

i ri(x) h(x) 1≤ j ≤ k +1} . 

Luego, por el Teorema 1 de la sección 3.8 un estadístico minimal suficiente 

para F0 está dado por 

T ∗ = r ∗ (x) = 

= 

⎛ 

⎝ A(θ(2) )eλ(2) 1 

A(θ (1) )eλ(1) 1 

que es equivalente a 

 

(2) 

p(x, θ ) 

p(x, θ (1) ) ,...,p(x, θ(k+1) ) 

p(x, θ (1) 

) 

r1(x)+...+λ (2) 

k rk(x) 

r1(x)+...+λ (1) 

k rk(x) ,...,A(θ(k+1) )eλ(k+1) 1 

A(θ (1) )eλ(1) 1 

T ∗∗ = r (∗∗) 

k 

(x) = [λ 

i=1 

(2) 

k 

i − λ(1) i ]ri(x),..., [λ 

i=1 

(k+1) 

i 

r1(x)+...+λ (k+1) 

rk(x) 

k 

(1) 

r1(x)+...+λ k rk(x) 

⎞ 

⎠ 

− λ (1) 

 

i ]ri(x) 

Como T ∗∗ = MT donde la matriz M ∈ IR k×k es no singular, ya que su 

j−ésima columna es el vector λ (j+1) − λ (1) , T es equivalente a T ∗∗ y por lo 

tanto, es minimal suficiente para F0, de donde se obtiene el resultado. 

b) Para una demostración general se puede ver Teorema 1 de Sección 4.3 de 

Lehmann [4]. En este curso sólo se demostrará para el caso que k =1,y 

que T = r(X) toma un número finito de valores racionales. De acuerdo al 

teorema 3, en este caso la función de densidad de T será de la forma: 

p(t, θ) =A(θ)e c(θ)t h(t) 

.

3.11. ESTADÍSTICOS COMPLETOS 35 

Supongamos que los posibles valores de T que tienen probabilidad positiva 

es el conjunto A = {t1,t2,...,tr}∪{−t ′ 1 , −t′ 2 ,...,−t′ s} donde los ti y los t ′ j 

son racionales no negativos. 

Sea v un múltiplo común de los denominadores de todos los racionales ti 

y t ′ j y sean wi = vti 1 ≤ i ≤ r y w ′ i = vt′ i ,1≤ i ≤ s. Luego los wi y los w ′ i 

son naturales. Finalmente sea w = max1≤i≤s w ′ i , zi = wi + w, 1 ≤ i ≤ r 

y z ′ i = −w′ i + w, 1≤ i ≤ s. Luego los zi y los z ′ i 

diferentes. 

Supongamos que 

E θ (g(T )) = 0 ∀ θ ∈ Θ 

son naturales y todos 

luego 

r 

s 

g(ti)p(ti, θ)+ g(−t 

i=1 

i=1 

′ i)p(−t ′ i, θ) =0 ∀ θ ∈ Θ 

con lo cual 

r 

g(ti)A(θ)e c(θ)ti 

s 

h(ti)+ g(−t ′ i)A(θ)e −c(θ)t′ ih(−t ′ i)=0 ∀ θ ∈ Θ , 

i=1 

de donde se obtiene 

i=1 

r 

g(ti)h(ti)(e 

i=1 

c(θ)/v) ) tiv 

s 

+ g(−t 

i=1 

′ i)h(−t ′ i)(e c(θ)/v) ) −t′ iv =0 ∀ θ ∈ Θ . 

Llamando λ = ec(θ)/v resulta que como hay infinitos posibles valores 

de c(θ), el conjunto Λ de posibles valores de λ, también es infinito. Luego 

tenemos 

r 

g(ti)h(ti)λ wi 

s 

+ g(−t ′ i)h(−t ′ i)λ −w′ i =0 ∀ λ ∈ Λ 

i=1 

i=1 

Multiplicando por λw la última ecuación resulta 

r 

P (λ) = g(ti)h(ti)λ zi 

s 

+ g(t ′ i)h(−t ′ i)λ z′ i =0 ∀ λ ∈ Λ 

i=1 

i=1 

Luego el polinomio P (λ) tiene infinitas raíces y por lo tanto, todos los coe- 

ficientes deben ser 0, es decir, g(ti)h(ti) =0, 1 ≤ i ≤ r y g(−t ′ i )h(−t′ i )= 

0, 1 ≤ i ≤ s. Como h(ti) > 0, 1 ≤ i ≤ r y h(−t ′ i ) > 0, 1 ≤ i ≤ s,


resulta que g(ti) =0 1≤ i ≤ r y g(−t ′ i )=0 1≤ i ≤ s. Con lo cual, 

Pθ (g(T ) = 0) = 1 para todo θ ∈ Θ. 

Ejemplo 4: Sea X1 una variable N(µ, σ2 1 )yX2 independiente de X1 una 

variable N(µ, σ2 2 ), luego si θ = (µ, σ2 1 ,σ2 2 ) la densidad de X = (X1,X2) 

puede escribirse como 

1 

p(x1,x2, θ) = 

2 πσ1σ2 

e −µ2 ( 1 

2 σ2 − 

1 

1 

2σ2 1 

) (− 

2 σ 

2 e 2 )x 

1 

2 1 

1 +(− 

2 σ2 )x 

2 

2 µ 

2 +( 

σ2 )x1+( 

1 

µ 

σ2 )x2 

2 

Por lo tanto es una familia exponencial a 4 parámetros, pero no satisface 

la condición del Teorema 1 ya que el conjunto 

Λ={λ =(λ1,λ2,λ3,λ4) con λ1 = − 1 

2 σ 2 1 

,λ2 = − 1 

2 σ 2 2 

λ3 = µ 

σ 2 1 

λ4 = µ 

σ2 } , 

2 

está en una superficie de dimensión 3, ya que depende de 3 parámetros, 

σ 2 1 , σ2 2 y µ, y por lo tanto no contiene ninguna esfera de IR 4 . Como el 

Teorema 1 de la sección 3.11 da un condición suficiente pero no necesaria 

para completitud, no se deduce que T =(X1,X2,X2 1 ,X2 2 ) no sea completo. 

Sin embargo, dado que E µ,σ 2 1 ,σ 2 2 (X1 − X2) =µ − µ =0yX1 − X2 no es igual 

a 0 resulta que T no es completo. 

El Teorema 1 nos permite, sin embargo, deducir que T es minimal suficiente. 

Por lo tanto, hemos visto un estadístico minimal suficiente no necesariamente 

es completo. El siguiente resultado establece la recíproca. 

Teorema 2: Sea T un estadístico suficiente y completo para θ. Si existe 

un estadístico minimal suficiente para θ entonces T es minimal suficiente. 

Demostración. La haremos sólo en el caso en que el estadístico minimal 

suficiente y el estadístico suficiente y completo T tienen dimensión 1. Sea U 

el estadístico minimal suficiente para θ, luego por ser T suficiente se cumple 

que U = m(T ). Queremos ver que m es biunívoca. 

Sea ψ(t) la función arcotangente. Luego ψ : IR → [0, 2π] es una función 

estrictamente creciente y acotada. Por lo tanto, E θ (ψ(T )) < ∞ y bastará 

mostrar que ψ(T ) es función de U. 

Definamos η(U) =E (ψ(T )|U). Como U es suficiente η(U) es un estadístico. 

Luego, si 

g(T )=ψ(T ) − η [m(T )] = ψ(T ) − η(U)

3.12. ESTIMADORES INSESGADOS DE MINIMA VARIANZA... 37 

se cumple que E θ [g(T )] = 0 para todo θ ∈ Θ. Por lo tanto, 

P θ (ψ(T )=η(U)) = 1 para todo θ ∈ Θ, y entonces T es equivalente a 

U. 

El siguiente Teorema es útil en muchas situaciones, donde probar independencia 

entre estadísticos puede resultar laborioso. 

Teorema 3: (Teorema de Basu) Sea T un estadístico suficiente y completo 

para θ. Sea U = g(X) un estadístico cuya distribución no depende de θ 

entonces U es independiente de T. 

Demostración. Sea A un suceso, como U tiene distribución independiente 

de θ, pA = P (U ∈ A) no depende de θ. 

Sea ηA(t) =P (U ∈ A|T = t). Como T es suficiente ηA(T) es un estadístico. 

Por otra parte, E θ (ηA(T) − pA) = 0 para todo θ ∈ Θ, con lo cual la completitud 

de T implica que P θ (ηA(T) =pA) = 1 para todo θ ∈ Θyporlo 

tanto, U es independiente de T. 

3.12 Estimadores insesgados de mínima varianza 

uniformemente 

El siguiente teorema nos da un método para construir estimadores IMVU 

cuando se conoce un estadístico que es a la vez suficiente y completo. 

Teorema 1 (Lehmann-Scheffé): Sea X un vector aleatorio de cuya distribución 

pertenece a la familia F (x, θ) con θ ∈ Θ. Sea T un estadístico 

suficiente y completo. Luego dada una función q(θ) de Θ en IR, se tiene que 

(i) Existe a lo sumo un estimador insesgado de q(θ), basado en T. 

(ii) Si δ(T) es un estimador insesgado de q(θ), entonces δ(T) es IMVU. 

(iii) Si δ(X) es un estimador insesgado para q(θ), luego δ ∗ (T) =E(δ(X)|T) 

es un estimador IMVU para q(θ). 

Demostración: 

(i) Sean δ1(T) yδ2(T) dos estimadores insesgados de q(θ). Luego 

E θ (δ1(T) − δ2(T)) = q(θ) − q(θ) =0 ∀ θ ∈ Θ


luego como T es completo 

P θ (δ1(T) − δ2(T) =0)=1, ∀θ ∈ Θ 

(ii) Sea δ(T) un estimador insesgado de q(θ), y sea δ1(X) otro estimador 

insesgado. Si llamamos δ∗ 1 (T) =E(δ1(X)|T) sabemos por el Teorema 

1 de la sección 3.9 que δ∗ 1 (T) es insesgado y 

Var θ (δ ∗ 1) ≤ Var θ (δ1) ∀ θ ∈ Θ (3.21) 

Pero de acuerdo a (i) se tiene que δ∗ 1 (T) =δ(T) con probabilidad 1. 

Luego 

Varθ (δ ∗ 1 )=Varθ(δ) 

y luego de 3.21 resulta que 

y (ii) queda demostrado. 

Var θ (δ) ≤ Var θ (δ1) 

(iii) Como δ ∗ (T) es por el Teorema 1 de la sección 3.9 insesgado, de (ii) se 

deduce que es un estimador IMVU para q(θ). 

De acuerdo al punto (ii) de este teorema, en el caso de tener un estadístico 

suficiente y completo T, cualquier estimador insesgado basado en T es un 

estimador IMVU. El punto (iii) nos indica cómo construir un estimador 

IMVU de q(θ) a partir de cualquier estimador insesgado. 

Teorema 2: Sea X un vector aleatorio cuya distribución pertenece a una 

familia exponencial a k parámetros con función de densidad dada por 

p(x, θ) =A(θ)e c1(θ)r1(x)+···+ck(θ)rk(x) h(x) 

donde θ toma valores en el conjunto Θ. Supongamos además que 

Λ={λ =(λ1,λ2,...,λk) :λi = ci(θ); θ ∈ Θ} 

contiene una esfera en IR k . Sea T =(r1(X),...,rk(X)), luego si δ(T) es 

un estimador insesgado de q(θ), entonces δ(T) es un estimador IMVU para 

q(θ). 

Demostración: Inmediata a partir de los Teoremas 3 de sección 3.10 y 1 

de sección 3.12.

3.12. ESTIMADORES INSESGADOS DE MINIMA VARIANZA... 39 


perteneciente a la familia Bi(θ, k) con k fijo. Luego, la distribución conjunta 

de la muestra viene dada por 

 

k 

p(x1,x2,...,xn,θ) = 

x1 

k 

x2 

 

k 

... 

xn 

=(1− θ) nk e (Σn i=1 xi) ln(θ/(1−θ)) k 

 

θ Σn i=1 xi (1 − θ) nk−Σ n i=1 xi 

x1 

k 

x2 

 

k 

... 

xn 

Esta familia constituye una familia exponencial, con estadístico suficiente 

T = n i=1 Xi. Por otro lado c(θ) =lnθ/(1 − θ) toma todos los posibles 

valores de IR cuando θ varía en el intervalo (0,1). Luego T es un estadístico 

suficiente y completo. Como δ(T )=T/nk es un estimador insesgado de θ, 

resulta un estimador IMVU de θ. 


perteneciente a la familia N(µ, σ 2 ). Luego usando (3.19) resulta que la 

distribución conjunta de la muestra viene dada por 

p(x1,...,xn,µ,σ 2 )= 

1 

2πσ2 nµ2 

e− 2σ 

) n/2 2 1 

− 

e 2σ2 n i=1 X2 µ 

i + 

σ2 n i=1 Xi 

Luego constituye una familia exponencial a dos parámetros con estadístico 

ni=1 

suficiente T = X2 i , 

n 

i=1 Xi . Mostraremos ahora que T es completo. 

Bastará mostrar que 

Λ={(λ1,λ2) :λ1 = − 1 

2 σ2 ,λ2 = µ 

σ2 ,λ∈ IR, σ 2 ∈ IR + } 

contiene una esfera. 

Mostraremos que Λ contiene todo (λ1,λ2) ∈ IR 2 con λ1 < 0. 

Sea (λ1,λ2) con λ1 < 0, tenemos que mostrar que viene de un par (µ, σ2 ) 

con σ2 > 0. Para ver esto basta tomar σ2 = −1/2 λ1 y µ = λ2σ2 = −λ2/2λ1. 

Luego T es completo. 

Como X es un estimador insesgado de µ, y como depende de T, resulta 

que es IMVU de µ. 

Por otro lado s2 = n i=1 (Xi − X) 2 ni=1 

/(n − 1) = X2 i − nX2 )/(n − 1) 

es un estimador insesgado de σ2 y además depende de T, luego es IMVU 

para σ2 . 

Ejemplo 3: Sea X1 una variable N(µ, σ2 1 )yX2 independiente de X1 una variable 

N(µ, σ2 2 ). Vimos en el Ejemplo 4 de la sección 3.11 que


T =(X1,X2,X2 1 ,X2 2 ) era minimal suficiente pero no era completo. Se puede 

mostrar que en este caso no hay ningún estimador IMVU (ver Problema 7 

de 3.11). 

Ejemplo 4: El siguiente ejemplo muestra que no siempre existen estimadores 

IMVU. Volvamos al ejemplo 1 y supongamos que se quiera estimar 

q(θ). Como T = n i=1 Xi es un estadístico suficiente, un estimador IMVU 

de q(θ) deberá estar basado en T . Supongamos que δ(T ) es un estimador 

IMVU para q(θ). Como T tiene distribución Bi(θ, kn) yδ(T ) es insesgado 

se tendrá 

q(θ) =Eθ(δ(T )) = 

kn 

i=0 

 

kn 

δ(t) 

t 

 

θ r (1 − θ) kn−t 

Luego una condición necesaria para que q(θ) tenga un estimador IMVU 

es que sea un polinomio de grado menor o igual a kn. Se puede mostrar que 

es también una condición suficiente aunque no lo demostraremos. 

Por lo tanto no existen estimadores IMVU, por ejemplo, para e θ ,lnθ, 

sen θ. Esto no quiere decir que no existen buenos estimadores. Si q(θ) 

es continua, un buen estimador será δ(T )=q(T/nk) ya que T/nk es un 

estimador IMVU de θ. 

Ejemplo 5: En este ejemplo veremos que un estimador IMVU puede ser 

mejorado en su error cuadrático medio por otro estimador no insesgado. 

Volvamos al ejemplo 2 y supongamos que se desea estimar σ2 . Hemos visto 

que un estimador IMVU para σ2 es s2 = n i=1 (Xi−X) 2 /(n−1), sin embargo 

veremos que s2 no es admisible. 

Sea σ 2 c = cU donde U = n i=1 (Xi − X) 2 . Luego, s2 = σ 2 1 . Sabemos 

n−1 

que U/σ2 tiene distribución χ2 n−1 , por lo tanto, Eσ2(U) = (n− 1) σ2 y 

Var σ2(U) =2(n− 1) σ4 . Con lo cual, 

ECMσ2(σ 2 c ) = 

 

Eσ2 (σ 2 c − σ 2 ) 2 

= Varσ2(σ 2 

c )+ Eσ2(σ 2 c ) − σ 2 = 

2 

c 2 

Var σ2(U)+ cEσ2(U) − σ 22 = 2c 2 (n − 1) σ 4 

+ c (n − 1) σ 2 − σ 2 2 

= 

 

4 

σ c 2 

(n + 1)(n − 1) − 2(n − 1)c +1

3.13. DESIGUALDAD DE RAO–CRAMER 41 

Luego, el ECM de σ 2 c es un polinomio de grado 2 en c que alcanza su mínimo 

cuando c =1/(n + 1). Por lo tanto, U/(n + 1) tiene menor ECM que el 

estimador IMVU s2 . 

Cómo caraterizamos los estimadores IMVU cuando no existe un estadístico 

suficiente y completo? 

Lema 1: Sea δ0 un estimador insesgado de q(θ). Dado cualquier otro 

estimador δ insesgado de q(θ), se cumple que δ = δ0 − U con Eθ(U) =0 

∀θ ∈ Θ. 

Luego como ECMθ(δ) =Varθ(δ) =Varθ(δ0 − U) =Eθ{(δ0 − U) 2 }− 

q(θ) 2 , para encontrar el estimador IMVU basta minimizar Eθ{(δ0 − U) 2 },o 

sea, basta encontrar la proyección de δ0 sobre el espacio de los estimadores 

del 0. 

Teorema 3: Supongamos que X es un vector aleatorio de cuya distribución 

pertenece a la familia F (x, θ) con θ ∈ Θ. Sea ∆={δ(X) : Eθδ 2 (X) < ∞}. 

Sea U = {{δ(X) ∈ ∆: Eθδ(X)} =0∀θ ∈ Θ. Una condición necesaria y 

suficiente para que δ ∈ ∆, insesgado, sea IMVU para q(θ) es que Eθ(δU) =0, 

∀θ ∈ Θ, ∀U ∈U. 

3.13 Desigualdad de Rao–Cramer 

En esta sección mostraremos que bajo hipótesis muy generales, la varianza 

de un estimador insesgado no puede ser inferior a cierta cota. 

Supongamos que X =(X1,...,Xn) es un vector aleatorio de cuya distribución 

pertenece a la familia de distribuciones discreta o continua con 

densidad p(x,θ), con θ ∈ Θ; donde Θ es un conjunto abierto de IR. Supongamos 

además que se cumplen las siguientes condiciones (en lo que sigue 

suponemos que X es continuo, para el caso discreto habrá que reemplazar 

todos los signos por ): 

(A) El conjunto S = {x : p(x,θ) > 0} es independiente de θ. 

(B) Para todo x, p(x,θ) es derivable respecto de θ. 

(C) Si h(X) es un estadístico tal que Eθ[|h(X)|] < ∞ para todo θ ∈ Θ 

entonces se tiene 

 

∂ ∞ ∞ 

... 

h(x) 

∂θ 

∂p(x,θ) 

dx 

∂θ 

−∞ 

−∞ 

∞ 

h(x)p(x,θ)dx = 

∞ 

... 

−∞ −∞


(D) 

donde dx =(dx1,...,dxn) (o sea se puede derivar dentro del signo 

integral) 

0


Esta última ecuación es equivalente a 

∞ ∞ 

∂ ln p(x,θ) 

... 

IS(x)p(x,θ)dx =0 

∞ ∞ ∂θ 

la cual implica 

 

∂ ln p(X,θ) 

Eθψ(X,θ)=Eθ 

= 0 (3.23) 

∂θ 

Como I(θ) =Eθψ2 (X,θ), (3.23) implica que Varθψ(X,θ)=I(θ) 

(ii) De la igualdad 

se obtiene que 

∂ 2 ln p(x,θ) 

∂θ 2 

= 

∂ 2 p(x,θ) 

∂θ 2 

p(x,θ) − ψ2 (x,θ) 

∂ 

Eθ 

2 ln p(X,θ) 

∂θ2 ∞ ∞ ∂ 

= ... 

−∞ −∞ 

2p(x,θ) ∂θ2 dx − Eθψ 2 (X,θ) . (3.24) 

Utilizando (3.22) con h(x) =IS(x) se obtiene que el primer término del lado 

derecho de (3.24) es igual a cero, de donde el resultado. 

Teorema 1 (Rao–Cramer): Bajo las condiciones A, B, C y D si δ(X) es un 

estimador insesgado de q(θ) tal que Eθδ 2 (X) < ∞ se tiene 

(i) 

Var θ(δ(X)) ≥ |q′ (θ)| 2 

I(θ) 

(ii) (i) vale como igualdad si y sólo si δ(X) es estadístico suficiente de una 

familia exponencial, es decir si y sólo si 

p(x,θ)=A(θ)e c(θ)δ(x) h(x) (3.25) 

Demostración: (i) Sea ψ(x,θ)= ∂p(x,θ) 

∂θ . Por el Lema 1 tenemos que 

Eθψ(X,θ)=0 y Varθψ(X,θ)=I(θ). (3.26) 

Por otro lado, como δ(X) es insesgado se tiene 

∞ 

Eθ(δ(X)) = 

−∞ 

∞ 

... δ(x)p(x,θ)IS(x)dx = q(θ) 

−∞


y luego aplicando la hipótesis C, tomando h(X) =δ(X)IS(X) se obtiene 

derivando ambos miembros que 

∞ ∞ 

... δ(x) 

−∞ −∞ 

∂p(x,θ) 

IS(x)dx = q 

∂θ 

′ (θ) 

de donde 

∞ ∞ 

Eθ [δ(X)ψ(X,θ)] = ... δ(x)ψ(x,θ)p(x,θ)dx 

−∞ −∞ 

∞ ∞ ∂ ln p(x,θ) 

= ... δ(x) IS(x)p(x,θ)dx 

−∞ −∞ ∂θ 

= q ′ (θ) (3.27) 

Teniendo en cuenta (3.26), (3.27) se puede escribir como 

Cov (δ(X), ψ(X,θ)) = q ′ (θ) (3.28) 

De acuerdo a la desigualdad de Cauchy–Schwartz, 

Cov(X, Y ) 2 ≤ Var(X), Var(Y ), y vale la igualdad si y sólo si 

P (Y = aX + b) = 1 para algunas constantes a y b. Por lo tanto, usando 

(3.28) resulta 

q ′ (θ) 2 ≤ Varθ(δ(X)) · Varθ (ψ(X,θ)) (3.29) 

y la igualdad vale si y sólo si 

∂ ln p(X,θ) 

= ψ(x,θ)=a(θ)δ(x)+b(θ) con probabilidad 1. (3.30) 

∂θ 

Usando (3.26) y (3.29) resulta 

Varθ(δ(X) ≥ q′ (θ) 2 

I(θ) 

que es lo que se afirma en (i). 

(3.31) 

(ii) (3.31) valdrá como igualdad si y sólo si cumple (3.30). Mostraremos que 

(3.30) se cumple si y sólo si se cumple (3.25). 

Integrando respecto de θ en (3.30), se obtiene 

 

 

ln p(x,θ)=δ(x) a(θ)dθ + g(x)+ b(θ)dθ 

que se puede escribir como 

ln p(x,θ)=δ(x)c(θ)+g(x)+B(θ)


donde c(θ) = a(θ)dθ y B(θ) = b(θ)dθ. Luego, despejando p(x,θ) resulta 

p(x,θ)=e B(θ) e δ(x)c(θ) e g(x) 

y llamando A(θ) =e B(θ) y h(x) =e g(x) ; resulta (3.25). 

Supongamos ahora que se cumple (3.25), mostraremos que se cumple 

(3.30). 

Si se cumple (3.25), tomando logaritmos se tiene 

ln p(x,θ)=lnA(θ)+c(θ)δ(x)+lnh(x) 

y derivando se obtiene 


= 

∂θ 

A′ (θ) 

A(θ) + c′ (θ)δ(x) 

y por lo tanto se cumple (3.30). Esto prueba el punto (ii). 

Observación 1: Si δ(X) es un estimador insesgado de q(θ) yVarθ(δ(x)) = 

[q ′ (θ)] 2 /I(θ) para todo θ ∈ Θ. Entonces del punto (i) del Teorema 1 resulta 

que δ(X) es IMVU. Por lo tanto esto da otro criterio para verificar si un 

estimador insesgado dado es IMVU. 

Observación 2: Si p(x,θ)=A(θ)e c(θ)δ(x) h(x), y si δ(X) es un estimador 

insesgado de q(θ), entonces δ(X) es un estimador IMVU de q(θ). Esto resulta 

de (i) y (ii). 

Observación 3: Si δ(X) es un estimador de θ, su varianza debe ser mayor 

o igual que 1/I(θ). Luego se puede esperar que cuanto mayor sea I(θ) (como 

1/I(θ) será menor) existe la posibilidad de encontrar estimadores con menor 

varianza y por lo tanto más precisos. De ahí el nombre de “número de 

información” que se le da a I(θ). Es decir cuanto mayor es I(θ), mejores 

estimadores de θ se pueden encontrar, y por lo tanto se puede decir que más 

información da el vector X sobre θ. El hecho de que se pueden encontrar 

estimadores con varianza aproximadamente igual a 1/I(θ) será cierto para n 

grande. Para esto consultar sección 3.13 y el apéndice (B) de este capítulo. 

Para una generalización del Teorema de Rao–Cramer el caso en que θ es un 

vector puede consultarse el Teorema 4.3.1 de Zacks [7] y el Teorema 7.3 de 

Lehmann [5]. 

El siguiente teorema nos indica que una muestra aleatoria de tamaño 

n X1, X2,...,Xn de una familia con densidad p(X, θ) nos da n veces más 

información que una sola observación.


Teorema 2: Sea X1,...,Xn una muestra aleatoria de una distribución con 

densidad p(x,θ) con θ ∈ Θ ⊂ IR. Luego, si se denomina In(θ) al número 

de información de X1, X2,...,Xn y I1(θ) al número de información de X1, 

entonces se tiene In(θ) =nI1(θ). 

Demostración: Se tiene que 

n 

p(x1, x2,...,xn,θ)= p(xi,θ) 

y entonces 

Por lo tanto, 

i=1 

n 

ln p(x1,...,xn,θ)= ln p(xi,θ) . 

i=1 

∂ ln p(x1,...,xn,θ) 

∂θ 

= 

n 

i=1 

∂ ln p(xi,θ) 

∂θ 

Con lo cual, por ser X1,...,Xn independientes, se tiene 

n 

 

∂ ln p(X1,...,Xn,θ) 

∂ ln p(Xi,θ) 

I(θ) =Varθ 

= Varθ 

= nI1(θ) . 

∂θ 

∂θ 

i=1 


perteneciente a la familia Bi(θ, 1). Luego se tiene 

luego 

y por lo tanto 

luego 

p(x, θ) =θ x (1 − θ) 1−x 

ln p(x, θ) =x ln θ +(1− x) ln(1 − θ) 

∂ ln p(x, θ) 

∂θ 

= x 1 − x x − θ 

− = 

θ 1 − θ θ(1 − θ) 

I1(θ) = 

= 

∂ ln p(X1,θ) 

2 

E 

∂θ 

1 2 Eθ(X − θ) 

θ(1 − θ) 

2 

= 

1 2 Varθ(X − θ) 

θ(1 − θ) 

2 

= 

1 

θ(1 − θ)


y por lo tanto, 

n 

In(θ) = 

θ(1 − θ) . 

Consideremos el estimador insesgado de θ, X =(1/n) n i=1 Xi. Se tiene 

que 

Varθ(X) = 

θ(1 − θ) 

n 

= 1 

I(θ) 

y por lo tanto, de acuerdo con la observación 2 es IMVU. Esto es un ejemplo 

donde el estimador IMVU satisface la desigualdad de Rao–Cramer como 

igualdad. Esto podríamos haberlo visto directamente mostrando que X es 

el estadístico suficiente de una familia exponencial. 

Veremos ahora un ejemplo donde el estimador IMVU satisface la desigualdad 

de Rao–Cramer estrictamente. 

Sea q(θ) =θ(1 − θ) =Varθ(X1). Conocemos por el ejemplo 2 de la 

sección 3.3, que 

δ(X1,X2,...,Xn) =s 2 = 1 

n − 1 

es un estimador insesgado de q(θ). Además se tiene 

δ(X1,...,Xn) = 

= 

= 

 

n 

1 

n − 1 

n 

(Xi − X) 

i=1 

2 

X 

i=1 

2 i − nX 2 

 

n 

1 

n − 1 

i=1 

n 

X(1 − X) 

n − 1 

 

Xi − nX 2 

 

Luego δ(X1,...,Xn) depende del estadístico suficiente y completo X y 

por lo tanto es IMVU. 

Sin embargo se tendrá que 

Varθ(δ(X1,...,Xn)) > q′ (θ) 2 

nI1(θ) 

(3.32) 

ya que δ(X1,...,Xn) no es el estadístico suficiente de una familia exponencial. 

Para la verificación directa de (3.32) ver Problema 11 de 3.13.


3.14 Consistencia de estimadores 

La teoría asintótica estudia las propiedades de los procedimientos de inferencia 

estadística cuando el tamaño de la muestra n que se utiliza es grande, 

más precisamente, en el límite cuando n tiende a infinito. 

Una propiedad deseable para un estimador, es que cuando n es grande la 

sucesión δn(X1,...,Xn) se aproxime en algún sentido al valor que queremos 

estimar. Para precisar estas ideas introduciremos el concepto de consistencia. 

Sea F = {F (x, θ) con θ ∈ Θ} una familia de distribuciones y supongamos 

que para cada n se tiene un estimador δn(X1,...,Xn) deq(θ) basado en una 

muestra aleatoria de tamaño n. Daremos la siguiente definición: 

Definición 1: δn(X1,...,Xn) es una sucesión fuertemente consistente de 

estimadores de q(θ) si 

lim 

n→∞ δn(X1,...,Xn) =q(θ) c.t.p. 

o sea si P θ (δn(X1,...,Xn) → q(θ)) = 1 para todo θ ∈ Θ. 

Definición 2: δn(X1,...,Xn) es una sucesión débilmente consistente de 

estimadores de q(θ) si 

lim 

n→∞ δn(X1,...,Xn) =q(θ) en probabilidad. 

Es decir, para todo ε>0yθ ∈ Θ 

lim 

n→∞ P θ (|δn(X1,...,Xn) − q(θ)| >ε)=0. 

Observación 1: Puesto que convergencia en c.t.p. implica convergencia 

en probabilidad, entonces toda sucesión fuertemente convergente también lo 

será débilmente. 

Ejemplo 1: Sea X1,...,Xn una muestra aleatoria de una función de distribución 

F (x) totalmente desconocida, tal que EF (X1) existe. Llamemos 

q(F )aEF (X1). Si 

δn(X1,...,Xn) =Xn = 1 

n 

n 

Xi , 

i=1

3.14. CONSISTENCIA DE ESTIMADORES 49 

por la ley fuerte de los grandes números este estimador resulta fuertemente 

consistente para q(F ). 

Si además EF (X 2 ) < ∞, entonces 

δn(X1,...,Xn) =s 2 n = 1 

n − 1 

n 

(Xi − Xn) 

i=1 

2 = 1 

n − 1 

es fuertemente consistente para q(F )=VarF X1. En efecto, 

s 2 n = n 1 

n − 1 n 

n 

i=1 

Por la ley fuerte de los grande números 

n 1 

X 

n 

2 i → EF (X 2 1 ) c.t.p. y 

i=1 

X 2 i − n 

n − 1 X2 

n . 

n 

i=1 

X 2 i − n 

n − 1 X2 

n 

n 1 

Xi → EF (X1) c.t.p. 

n 

i=1 

Luego, X 2 

n → EF (X1) 2 c.t.p. y como n/(n − 1) converge a 1 se tiene que 

lim 

n→∞ s2 n =VarF (X1) c.t.p. 

Observación 2: Si X1,...,Xn es una muestra aleatoria de una distribución 

N(µ, σ2 ) se tiene que Xn es fuertemente consistente para µ y s2 n es fuertemente 

consistente para σ2 , ya que por lo visto recién 

y 

lim 

n→∞ Xn = E(X1) c.t.p. 

lim 

n→∞ s2 n =Var(X1) c.t.p. 

y sabemos que E(X1) =µ yVar(X1) =σ 2 . 

El siguiente teorema nos da una condición suficiente para que una sucesión 

de estimadores sea débilmente consistente. 

Teorema 1: Sea, para todo n, δn = δn(X1,...,Xn) un estimador de q(θ) 

basado en una muestra aleatoria de tamaño n. Si Var θ (δn) → 0 y E θ (δn) → 

q(θ), entonces δn(X1,...,Xn) es débilmente consistente. 

Demostración: Debemos ver que 

lim 

n→∞ P θ (|δn(X1,...,Xn) − q(θ)| >ε)=0 ∀ε >0.


Por la desigualdad de Markov se tiene 

P θ (|δn(X1,...,Xn) − q(θ)| ≥ε) ≤ E θ (δn(X1,...,Xn) − q(θ)) 2 

ε 2 

≤ Var θ (δn)+ E θ (δn) − q(θ) 2 

ε 2 

Como por hipótesis E θ (δn) − q(θ)) → 0y(Var θ (δn)) → 0 se obtiene el 

resultado. 

El siguiente teorema muestra que si δn(X1,...,Xn) es una sucesión de 

estimadores IMVU para q(θ) entonces cumple la hipótesis del Teorema 1. 

Teorema 2: Sea δn(X1,...,Xn) una sucesión de estimadores IMVU para 

q(θ), donde X1,...,Xn es una muestra aleatoria de una distribución perteneciente 

a la familia F (x, θ), θ ∈ Θ. Luego Var θ (δn(X1,...,Xn)) tiende a 

cero si n tiende a infinito. 

Demostración: Sea 

δ ∗ n (X1,...,Xn) = 

luego E θ (δ ∗ n )=E θ (δ1) =q(θ), es decir δ ∗ n 

ni=1 δ1(Xi) 

es un estimador insesgado de 

q(θ). 

Por otro lado, Varθ (δ∗ n(X1,...,Xn)) 

δn(X1,...,Xn) IMVU de q(θ) se cumple 

= Varθ (δ1(X1))/n. Por ser 

Var θ (δn(X1,...,Xn)) ≤ Var θ (δ ∗ n (X1,...,Xn)) = Var θ (δ1(X1))/n 


lim 

n→∞ Var θ (δn(X1,...,Xn)) = 0. 

Corolario 1: Si δn(X1,...,Xn) es una sucesión de estimadores IMVU para 

q(θ) donde X1,...,Xn es una muestra aleatoria de una distribución perteneciente 

a la familia F = {F (x, θ) con θ ∈ Θ} entonces δn(X1,...,Xn) es 

una sucesión de estimadores débilmente consistentes. 

Demostración: Resulta inmediatamente de los teoremas 1 y 2. 

n

3.15. CONSISTENCIA DE LOS ESTIMADORES DE LOS MOM... 51 

3.15 Consistencia de los estimadores de los momentos 

En este párrafo demostraremos la consistencia de los estimadores de los 

momentos. 

Teorema 3: Sea X1,...,Xn una muestra aleatoria de una distribución perteneciente 

a la familia F = {F (x, θ) con θ ∈ Θ ⊂ IR}, h(x) una función 

continua con valores en IR y supongamos que Eθ(h(X1)) = g(θ) es, como 

función de θ, continua y estrictamente monótona. Sea el estimador de momentos 

θn definido como la solución de 

n 1 

h(Xi) =Eθ(h(X1)) = g(θ). 

n 

i=1 

Luego con probabilidad 1 existe n0 tal que para todo n ≥ n0 la ecuación que 

define θn tiene solución y es fuertemente consistente para θ. 

Demostración: Sea ε>0. Hay que demostrar que, con probabilidad 1, 

existe n0 tal que 

| θn − θ|


De esta desigualdad se infiere que 

g(θ − ε) ≤ 1 

h(Xi) ≤ g(θ + ε) para n ≥ n0 

n 

y como g(θ) es continua y estrictamente creciente, para n ≥ n0 existe un 

único valor θn que satisface 

1 

h(Xi) =Eθn n 

(h(X1)) = g( θn) 

Además dicho valor debe estar entre θ−ε y θ+ε, es decir que θ−ε ≤ θn ≤ θ+ε 

para n ≥ n0 que es lo que queríamos demostrar. 

3.16 Consistencia de los estimadores de máxima 

verosimilitud 

En esta sección enunciaremos un teorema que establece la consistencia de 

los estimadores de máxima verosimilitud para el caso de un solo parámetro. 

La demostración se dará en el Apéndice A. 

max 

θ∈Θ 

n 

n 

p(xi, θ) = p(xi, 

i=1 

i=1 

θn) (3.33) 

Se puede demostrar que bajo condiciones muy generales θn definido por 

(3.33) es fuertemente consistente. 

Teorema 1: Sea X1,...,Xn una muestra aleatoria de una distribución 

discreta o continua con densidad en la familia p(x, θ) con θ ∈ Θ, donde Θ es 

un intervalo abierto de IR. Supongamos que p(x, θ) es derivable respecto de 

θ y que el conjunto S = {x : p(x, θ) = 0} es independiente de θ para todo 

θ ∈ Θ. Sea θn el estimador de máxima verosimilitud de θ, que satisface 

n 

i=1 

∂ ln p(xi, θn) 

∂θ 

= 0 (3.34) 

Supongamos finalmente que la ecuación (3.34) tiene a lo sumo una solución 

y que θ = θ ′ implica que p(x, θ) = p(x, θ ′ ). Entonces limn→∞ θn = θ c.t.p., 

es decir, θn es una sucesión de estimadores fuertemente consistente.

3.17. ESTIMADORES EFICIENTES 53 

Con el objetivo de simplificar la demostración, la condiciones utilizadas 

en el Teorema 1 son más fuertes que las estrictamente necesarias para que 

el teorema sea válido. El teorema también vale en el caso de que haya más 

de un parámetro. Para una demostración más general se puede consultar el 

Teorema 5.3.1 de Zacks [7] y en Wald [6]. 

3.17 Estimadores asintóticamente normales y eficientes 

Sea X1,X2,...,Xn una muestra aleatoria de una distribución con densidad 

perteneciente a la familia p(x, θ) con θ ∈ Θ, donde Θ es un intervalo 

abierto de IR, y sea δn(X1,...,Xn) un estimador insesgado de q(θ). Luego 

suponiendo las condiciones A, B, C y D del Teorema 1 de la sección 3.13 se 

tiene 

Eθ[δn(X1,...,Xn)] = q(θ) (3.35) 

Varθ(δn(X1,...,Xn)) ≥ [q′ (θ)] 2 

. (3.36) 

nI1(θ) 

(3.35) y (3.36) son equivalentes a: 

Eθ[ √ n(δn(X1,...,Xn) − q(θ))] = 0 (3.37) 

Varθ[ √ n(δn(X1,...,Xn) − q(θ))] ≥ [q′ (θ)] 2 

. (3.38) 

I1(θ) 

El mismo Teorema 1 de 3.13, establece que sólo excepcionalmente habrá 

estimadores que satisfagan simultaneamente (3.37), y la igualdad en (3.38) 

para n finito. En efecto, esto sucede unicamente si se cumplen 

q(θ) =Eθ(δn(X1,...,Xn)) y p(x,θ)=A(θ)e c(θ)δn(x1,...,xn) h(x1,...,xn) 

Sin embargo, bajo condiciones muy generales, existen estimadores (por ejemplo, 

los de máxima verosimilitud), que para n grande satisfacen aproximadamente 

(3.37) y la igualdad en (3.38). Para precisar estas propiedades daremos 

la siguiente definición: 

Definición 1: Se dice que δn(X1,...,Xn) es una sucesión de estimadores 

asintóticamente normal y eficiente (A.N.E.) si √ n(δn(X1,...,Xn) − 

q(θ)) converge en distribución a una normal con media cero y varianza 

[q ′ (θ)] 2 /I1(θ).


Es decir que si δn(X1,...,Xn) es A.N.E., para n grande se comporta 

aproximadamente como si tuviese distribución N(q(θ), [q ′ (θ)] 2 /nI1(θ)), es 

decir como si fuera insesgado con varianza [q ′ (θ)] 2 /nI1(θ), que es la menor 

varianza posible de acuerdo con el Teorema de Rao–Cramer. 

El siguiente Teorema, demostrado en el Apéndice B, establece que bajo 

condiciones muy generales los estimadores de máxima verosimilitud son 

A.N.E. 


discreta o continua con densidad perteneciente a la familia p(x, θ) con θ ∈ Θ 

y Θ un abierto en IR. Supongamos que p(x,θ) tiene derivada tercera respecto 

de θ continua y que satisface las condiciones A, C y D del Teorema 1 de 3.13. 

Sea ψ(x, θ) = y supongamos además que 


∂θ 

 

 

∂3 ln p(x, θ) 

∂θ3 

 

= ∂2ψ(x, θ) 

∂θ2 

 

≤ K 

para todo x ∈ S y para todo θ ∈ Θ (S es el mismo que en la condición A). 

Sea θn un estimador de máxima verosimilitud de θ consistente y sea q(θ) 

derivable con q ′ (θ) = 0para todo θ. Entonces q( θn) es A.N.E. para estimar 

q(θ). 

Las hipótesis que se han supuesto en este teorema son más fuertes que 

las estrictamente necesarias con el objetivo de simplificar la demostración. 

También se puede demostrar un teorema similar para el caso de más de un 

parámetro. Una demostración más general se puede ver en la sección 5.5 de 

Zacks [7]. 

3.18 Apéndice A: Demostración de la consistencia 

de los estimadores de máxima verosimilitud 

Comenzaremos probando algunas propiedades de funciones convexas. 

Definición 1: Sea f(x) una función definida sobre un intervalo de IR y que 

toma valores en IR. Diremos que f(x) esconvexa si: 

f(λx +(1− λ)y) ≤ λf(x)+(1− λ)f(y) con 0 ≤ λ ≤ 1

3.18. APÉNDICE A 55 

y diremos que f(x) esestrictamente convexa si: 

f(λx +(1− λ)y)


Teorema 3: Sea f : IR → IR tal que f”(x) > 0 para todo x; luego f(x) es 

convexa. 

Demostración: Puede verse en cualquier libro de cálculo. 

Teorema 4: Sean p y q dos densidades o dos funciones de densidad discretas 

o continuas distintas. Luego se tiene: 

 

Ep ln q(X) 

< 0 

p(X) 

(donde Ep significa que se calcula la esperanza considerando que X tiene 

una distribución discreta o continua cuya densidad o probabilidad puntual 

es p). 

Demostración: Primero veremos que q(X)/p(X) no es constante con probabilidad 

1. La demostración se hará suponiendo que X es continua. El caso 

discreto es totalmente análogo. Supongamos que q(X)/p(X) = k c.t.p., 

donde k es una constante. Luego Ep(q(X)/p(X)) = k. Esto es: 

pero 

+∞ 

−∞ 

+∞ 

−∞ 

(q(x)/p(x))p(x)dx = k (3.39) 

(q(x)/p(x))p(x)dx = 1 (3.40) 

pues q(x) es una densidad. Luego, de (3.39) y (3.40) resulta k = 1. Entonces 

p(X) =q(X) c.t.p. y esto contradice la hipótesis. Por lo tanto q(X)/p(X) 

no es constante. 

Por otro lado − ln(x) es una función estrictamente convexa ya que: 

d 2 (− ln x) 

dx 2 

= 1 

> 0 . 

x2 Luego, estamos en condiciones de aplicar la desigualdad de Jensen (Teorema 

2), con Y = q(X)/p(X) yh(x) =− ln x. En estas condiciones obtenemos 

 

Ep 

− ln q(X) 

 

p(X) 

 

> − ln 

Ep 

 

q(X) 

p(X) 

+∞ q(x) 

= − ln p(x)dx = − ln 1 = 0. 

−∞ p(x) 

Luego Ep[− ln(q(X)/p(X))] > 0yEp[ln(q(X)/p(X))] < 0 con lo que obtenemos 

la tesis.

3.18. APÉNDICE A 57 

Demostración del Teorema 1 de Sección 3.16 

Sea Ln(X1,...,Xn,θ) = (1/n) n i=1 ln p(Xi,θ). Luego θn satisface 

Ln(X1,...,Xn, θn) = maxθ∈Θ Ln(X1,...,Xn,θ)y 

Además se tiene 

∂Ln(X1,...,Xn, θn) 

∂θ 

=0. 

Ln(X1,...,Xn,θ+ δ) − Ln(X1,...,Xn,θ)= 1 

n p(Xi,θ+ δ) 

ln 

n p(Xi,θ) 

i=1 

(3.41) 

Ln(X1,...,Xn,θ− δ) − Ln(X1,...,Xn,θ)= 1 

n p(Xi,θ− δ) 

ln 

(3.42) 

n p(Xi,θ) 

i=1 

Como θ = θ ′ implica p(X1,θ) = p(X1,θ ′ ), aplicando el Teorema 4 resulta 

que 

 

p(X1,θ+ δ) 

Eθ ln 

< 0 (3.43) 

p(X1,θ) 

Eθ 

 

p(X1,θ− δ) 

ln 

< 0 (3.44) 

p(X1,θ) 

Entonces, de (3.41), (3.42), (3.43) y (3.44) y de la ley fuerte de los grandes 

números resulta que con probabilidad igual a 1 existe un n0 tal que n>n0 

implica: 

Ln(X1,...,Xn,θ− δ)


3.19 Apéndice B: Demostración de la normalidad 

y eficiencia asintótica de los estimadores de 

máxima verosimilitud 

Demostraremos previamente un lema. 

Lema 1: Sea X1,...,Xn una sucesión de variables aleatorias tales que 

√ n(Xn − µ) converge en distribución a N(0,σ 2 ). Sea g(x) una función 

definida en IR tal que g ′ (µ) = 0 y g ′ (x) es continua en x = µ. Luego 

se tiene que √ n(g(Xn) − g(µ)) converge en distribución a una distribución 

N(0,σ 2 (g ′ (µ)) 2 ). 

Demostración: Primero demostraremos que Xn → µ en probabilidad. 

Sean ε>0yδ>0 arbitrarios y X una variable aleatoria con distribución 

N(0,σ 2 ). Luego existe K suficientemente grande tal que P (|X| >K) ε)=P ( √ n|Xn − µ ≥ √ nε). Sea n0 tal que 

√ n0 ε ≥ K. Luego si n ≥ n0: 

P (|Xn − µ| ≥ε) ≤ P ( √ n|Xn − µ| ≥K) . 

Como √ n(Xn − µ) converge en distribución a una variable con distribución 

N(0,σ 2 ), se tiene 

lim 

n→∞ P (|Xn − µ| ≥ε) ≤ lim 

n→∞ P (√ n|Xn − µ| ≥K) =P (|X| ≥K)

3.19. APÉNDICE B 59 

Demostración del Teorema 1 de la sección 3.17. Indiquemos por 

ψ ′ (x, θ) = 

∂ψ(x, θ) 

∂θ 

y ψ ′′ (x, θ) = ∂2 ψ(x, θ) 

∂θ 2 

El estimador de máxima verosimilitud satisface: 

n 

ψ(Xi, θn) =0. 

i=1 

ψ 

i=1 

′ (Xi,θ) 

i=1 

Desarrollando en serie de Taylor alrededor de θ se obtiene: 

n 

 

n 

ψ(Xi,θ)+ 

 

( θn − θ)+ 1 

 

n 

2 

 

( θn − θ) 2 =0, 

ψ 

i=1 

′′ (Xi,ξn) 

donde ξn es un punto intermedio entre θn y θ. Despejando ( θn − θ) y multiplicando 

ambos miembros por √ n se obtiene: 

√ 

n( θn 

− 

− θ) = 

n i=1 ψ(Xi,θ)/ √ n 

(1/n) n i=1 ψ ′ ni=1 

(Xi,θ)+(1/2n) ψ ′′ 

(Xi,ξn) ( θn − θ) 

Sea D(X1,...,Xn,θ) el denominador de esta última expresión. Vamos a 

demostrar que: 

(a) 

D(X1,...,Xn,θ) →−I1(θ) =−Eθ [ψ(X, θ)] 2 

. 

en probabilidad. 

(b) n i=1 ψ(Xi,θ)/ √ n converge en distribución a una distribución N(0,I1(θ)) 

Probemos (a). Como |ψ ′′ (Xi,θ)| ≤K para todo θ, se tiene que 

 

n 1 

ψ 

2n 

′′ (Xi,ξn)( 

 

K 

θn − θ) ≤ 

2 |( θn − θ)| 

i=1 

y luego como θn es consistente se deduce que: 

n 1 

ψ 

n 

′′ (Xi,ξn)( θn − θ) → 0 en probabilidad. (3.46) 

i=1 

Por otro lado, como ψ ′ (Xi,θ) son n variables aleatorias, independientes igualmente 

distribuidas, por la ley de los grandes números implica que 

1 

n 

n 

ψ 

i=1 

′ (Xi,θ) → E(ψ ′ (X1,θ) en probabilidad. (3.47)


Pero de acuerdo con el Lema 1 de la sección 3.13 

Eθ(ψ ′ (X1,θ)) = −I1(θ) . 

Luego, usando (3.46) y (3.47) se obtiene: 

D(X1,...,Xn,θ) →−I1(θ) en probabilidad, 

con lo que queda probado (a). Para probar (b) observemos que, como las 

variables aleatorias 

∂ ln p(Xi,θ) 

ψ(Xi,θ)= 

∂θ 

son independientes e igualmente distribuidas con esperanza 0 y varianza 

I1(θ) (ver Lema 1 de la sección 3.13), por el Teorema Central del límite 

1 

√ n 

n 

ψ(Xi,θ) 

i=1 

converge en distribución a N(0,I1(θ)). 

Luego √ n( θn − θ) converge en distribución a una ley N(0,I1(θ)/(I1(θ) 2 ) 

o sea N(0, 1/I1(θ)). 

Consideremos ahora el estimador de máxima verosimilitud q(θ) dado por 

q( θn). 

Por el Lema 1 se tendrá que √ n(q( θn) − q(θ)) converge en distribución 

a una N(0, (q ′ (θ)) 2 /I1(θ)).

3.19. APÉNDICE B 61 

REFERENCIAS DEL CAPITULO 3 

[1 ] Bahadur, R.R. (1954). Sufficiency and Statistical Decision Functions. 

Annals of Mathematical Statistics 25, 423–462. 

[2 ] Draper, N. and Smith, H. (1966). Applied Regression Analysis. J. 

Wiley & Sons. 

[3 ] Dynkin, E.B. (1961). Necessary and Sufficient Statistics for Families 

of Distributions. Selected Translations of Mathematical Statistics and 

Probability 1, 23–41. 

[4 ] Lehmann, E.L. (1994). Testing Statistical Hypothesis. Chapman & 

Hall. 

[5 ] Lehmann, E.L. (1983). Theory of Point Estimation. J. Wiley & Sons. 

[6 ] Wald, A.N. (1949). Note on the Consistency of the Maximum Likelihood 

Estimates. Annals of Mathematical Statistics 20, 595–601. 

[7 ] Zacks, S. (1971). The Theory of Statistical Inference. J. Wiley & 

Sons.

Chapter 4 

Estimadores Bayesianos y 

Minimax 

4.1 Enfoque Bayesiano del problema de la estimación 

puntual 

Consideremos nuevamente un problema estadístico de estimación paramétrico. 

Se observa un vector X =(X1, ..., Xn), que puede ser, por ejemplo, aunque 

no necesariamente, una muestra aleatoria de cierta distribución) con densidad 

discreta o continua en la familia f(x, θ), con θ =(θ1, ..., θp) ∈ Θ ⊂ IR p . 

El enfoque llamadado frecuentista que hemos estudiado no supone ningún 

conocimiento previo de θ. El enfoque bayesiano, por lo contrario, supone que 

se tiene alguna información previa sobre θ. Esta información está expresada 

por medio de una distribución sobre θ, denominada distribución a priori. 

Aquí supondremos que esta distribución a priori, indicada por τ, tiene una 

densidad γ(θ). La distribución a priori puede tener distintas interpretaciones 

según el problema. Se pueden dar las siguientes alternativas 

• La distribución a priori está basada en experiencias previas similares. 

• La distribución a priori expresa una creencia subjetiva. 

El hecho de que el enfoque bayesiano considere una distribución de probabilidades 

sobre θ, supone tratar a θ como una variable aleatoria, y por lo 

tanto a esta variable la denominaremos Θ para distinguirla del valor que 

toma θ. Esta notación puede llevar a confusión dado que también llamamos 

1

2 CHAPTER 4. ESTIMADORES BAYESIANOS Y MINIMAX 

Θ al conjunto de valores de θ. Sin embargo, por el contexto quedará claro 

el significado de este símbolo en cada caso. 

Dado que consideramos ahora el valor del parámetro como el valor de 

una variable aleatoria, la interpretación de la familia de densidades f(x, θ) 

en el enfoque bayesiano también cambia. En el enfoque bayesiano f(x, θ) 

se interpreta como la distribución condicional de la muestra X dado que la 

variable Θ toma el valor θ. 

Una vez observada la muestra X se puede calcular la distribución condicional 

de Θ dada X. Esta distribución se denomina distribución a posteriori 

y está dada por 

f(θ|x) = 

f(x, θ)γ(θ) 

... f(x, t)γ(t)dt . (4.1) 

En efecto el numerador de (4.1) corresponde a la densidad conjunta de 

X y Θ, y el denominador a la densidad marginal de X. 

Si la distribución de θ fuese discreta, habría que reemplazar las integrales 

del denominador por las correspondientes sumatorias. En lo sucesivo, supondremos 

que las distribuciones de X ydeθ son continuas, pero el tratamiento 

en el caso discreto es similar. 

Una de las ventajas del enfoque bayesiano es que se pueden definir en 

forma natural estimadores óptimos, sin necesidad de restricciones poco naturales 

como la de estimadores insesgados a la que debimos recurrir en 

el enfoque frecuentista. Para ver esto supongamos que queremos estimar 

λ = q(θ) y consideremos una función de pérdida ℓ(θ,d) que indica el costo 

de estimar λ = q(θ) utilizando del valor d. Supongamos que se tiene un estimador 

ˆ λ = δ(x). Luego la pérdida será una variable aleatoria ℓ(Θ,δ(X)), 

ylapérdida esperada que llamaremos riesgo de Bayes está dada por 

r(δ, τ)=E(ℓ(Θ,δ(X))), (4.2) 

donde aquí la esperanza se toma con respecto a la distribución conjunta de 

X y Θ. Por lo tanto, dada la distribución priori τ, un estimador óptimo será 

aquel que minimice r(δ, τ). Este estimador se denomina estimador de Bayes 

correspondiente a la distribución a priori τ y será representado por δτ . 

Luego, la función de riesgo de la teoría frecuentista, R(δ, θ) , estará dada 

por 

R(δ, θ) = Eθ (ℓ(θ,δ(X))) 

 

= E(ℓ(Θ,δ(X))|Θ =θ) = ℓ(θ,δ(x))f(x, θ)dx. (4.3)

4.1. ESTIMADORES BAYESIANOS 3 

Con lo cual, 

 

r(δ, τ)=Eτ (E(ℓ(Θ,δ(X))|Θ)) = 

 

... 

R(δ, θ)γ(θ)dθ. (4.4) 

Consideremos como caso particular la función de pérdida cuadrática, es 

decir, 

ℓ(θ,d)=(q(θ) − d) 2 . 

En este caso, el estimador de Bayes será la función δτ (X) que minimiza el 

error cuadrático medio 

E((δ(X) − q(Θ)) 2 ) 

y por lo tanto, de acuerdo a la teoría de esperanza condicional, éste será 

único y estará dado por 

 

δτ (x) =E(q(Θ)|X = x) = ... q(θ)f(θ|x)dθ, 

es decir, será la esperanza condicional de q(Θ) con respecto a la distribución 

a posteriori de Θ. 

Ejemplo 1. Sea X =(X1, ..., Xn) una muestra independiente de una 

distribución Bi(θ, 1), y supongamos que la distribución a priori τ de θ sea 

una distribución β(a, b), es decir, con una densidad 

γ(θ) = 

Γ(a + b) 

Γ(a)Γ(b) θa−1 (1 − θ) b−1 I [0,1](θ). (4.5) 

Es conocido que esta distribución tiene la siguiente esperanza y varianza 

E(θ) = a 

, (4.6) 

a + b 

var(θ) = 

ab 

(a + b) 2 (a + b +1) 

E(θ)(1− E(θ)) 

= . (4.7) 

a + b +1 

Luego si se conoce la media y la varianza de la distribución a priori de 

Θ, se pueden determinar a y b. La fórmula (4.7) muestra que para un dado 

valor de la esperanza, la varianza depende de a + b, tendiendo a 0 cuando 

a + b → +∞. 

La distribución de la muestra X1,X2, ...Xn dado el valor de θ tiene una 

función de probabilidad puntual dada por 

n f(x1, ..xn,θ)=θ 

i=1 xi (1 − θ) n− n 

i=1 xi . (4.8)


Luego usando (4.1) se tiene que la distribución a posteriori de θ tiene una 

densidad dada por 

f(θ|x1, ..., xn) = θ 

n i=1 xi+a−1 n− 

(1 − θ) n i=1 xi+b−1 

1 

0 t 

n i=1 xi+a−1 n− 

(1 − t) n i=1 xi+b−1 

. (4.9) 

dt 

Ahora bien, el denominador de esta expresión es igual a 

Γ(n + a + b) 

Γ(a + n i=1 xi)Γ(n − n i=1 xi + b) 

por lo tanto, la distribución a posteriori de θ dado X = x es 

β(a + n i=1 xi,n− n i=1 +b). 

Supongamos que la función de pérdida es cuadrática. Luego el estimador 

de Bayes, que indicaremos por δa,b, está dado por E(Θ|X), y de acuerdo a 

(4.6) tendremos que 

δa,b = 

T + a 

a + b + n = 

n 

n + a + b 

T a + b 

+ 

n a + b + n 

a 

, (4.10) 

a + b 

donde T = n i=1 Xi. Por lo tanto, el estimador de Bayes se comporta como 

un promedio ponderado de dos estimadores: el IMVU δ1 = T/n que no usa 

la información de la distribución a priori y δ2 = a/(a + b) que corresponde 

a la esperanza de la distribución a priori y que se usaría si no se hubiese 

observado la muestra. También vemos que el peso asignado a δ2 tiende a 0 

cuando el tamaño de la muestra n aumenta. 

De acuerdo a (4.10), el estimador de Bayes correspondiente a una distribución 

a priori β(a, b) puede interpretarse como el estimador frecuentista 

correspondiente a una muestra de tamaño n + a + b con n i=1 Xi + a éxitos. 

Observación 1. En el ejemplo anterior hemos partido de una distribución 

a priori β(a, b), y hemos obtenido que la distribución a posteriori también 

está en la misma familia, ya que es β(a + n i=1 xi,n− n i=1 xi + b). Se dice 

entonces que la familia de distribuciones beta es la conjugada de la familia 

de distribuciones binomial. 

Ejemplo 2. Sea X =(X1, ..., Xn) una muestra independiente de una distribución 

N(θ, σ 2 ), con σ 2 conocido, y supongamos que la distribución a 

priori de θ sea N(µ, ρ 2 ). 

Luego la densidad de la muestra X =(X1, ..., Xn) dado θ está dada por 

1 

f(x,θ)= 

(2π) n/2 

−1 

exp 

σn 2σ2 n 

(xi − θ) 

i=1 

2 

 

, (4.11)

4.1. ESTIMADORES BAYESIANOS 5 

donde exp(x) =e x . La densidad de la distribución a priori está dada por 

1 

γ(θ) = 

(2π) 1/2ρ exp 

 

−(θ − µ) 2 

2ρ2 

(4.12) 

Luego multiplicando (4.11) y (4.12), desarrollando los cuadrados y haciendo 

algún manipuleo algebraico, se obtiene que distribución conjunta de X yΘ 

está dada por 

fX,Θ(x,θ)=C1(x,σ 2 ,µ,ρ 2 

)exp 

− θ2 

2 

 

n 1 

+ 

σ2 ρ2 

n¯x µ 

+ θ + 

σ2 ρ2 , 

donde C1(x,σ 2 ,µ,ρ 2 ) no depende de θ. Completando cuadrados, se obtiene 

fX,Θ(x,θ)=C2(x,σ 2 ,µ,ρ 2 )exp 


D = 

 

− 1 

2D 

 

n¯x µ 

θ − D + 

σ2 ρ2 

2 

, (4.13) 

1 

(n/σ2 )+(1/ρ2 . (4.14) 

) 

Finalmente, usando (1) obtenemos 

f(θ|x) =C3(x,σ 2 ,ρ 2 

,µ)exp − 1 

 

¯x µ 

(θ − D + 

2D σ2 ρ2 2 (4.15) 

Luego, esta densidad, excepto una función que depende sólo de x, corresponde 

a una distribución 

 

n¯x µ 

N D + 

σ2 ρ2 

,D . (4.16) 

Como se trata de la distribución condicional de Θ dado X = x, podemos 

considerar a C3 como constante. Luego la distribución a posteriori de Θ está 

dada por (4.16). 

Supongamos nuevamente que consideramos una función de pérdida cuadrática. 

El estimador de Bayes estará dado, en ese caso, por la esperanza condicional 

de Θ dado X, y por lo tanto de acuerdo a (4.16) y (4.14) estará dado 

por 

 

nX¯ δτ (X) =D 

µ 

+ 

σ2 ρ2 

= w ¯ X +(1− w)µ, (4.17)



n/σ 

w = 

2 

(n/σ2 )+(1/ρ2 ) . 

Por lo tanto, nuevamente, el estimador de Bayes es un promedio ponderado 

del estimador IMVU de la teoría frecuentista ¯ X y la media de la distribución 

a priori µ. Los pesos son inversamente proporcionales a las varianzas σ2 /n 

y ρ2 de ambos estimadores. A medida que el tamaño de la muestra n crece, 

el peso del estimador basado en la información a priori tiende a 0. Es decir, 

a medida que el tamaño de la muestra crece, la información a priori tiene 

menos relevancia para determinar el estimador de Bayes. 

Observación 2. En este ejemplo partimos de una distribución a priori en 

la familia N(µ, ρ 2 ), y obtenemos que la distribución a posteriori está dada 

por (4.16), y por lo tanto está en la misma familia normal. Luego la familia 

de distribuciones conjugadas de la familia normal con varianza conocida es 

la familia normal. 

Veamos algunas propiedades de los estimadores Bayes para funciones de 

pérdida arbitrarias. 

Teorema 1. Sea δτ un estimador Bayes respecto de la distribución a priori 

τ y supongamos que δτ es único, entonces δτ es admisible. 

Demostración. Supongamos que existe otro estimador δ ∗ tan bueno como 

δτ , es decir, R(δ ∗ , θ) ≤ R(δτ , θ) para todo θ ∈ Θ. Integrando respecto a la 

distribución a priori de θ en ambos miembros de la desigualdad, obtenemos 

r(δ ∗ ,τ) ≤ r(δτ ,τ). Con lo cual, por la unicidad δ ∗ = δτ . 

Se puede obtener un resultado de admisibilidad para reglas Bayes sin 

pedir unicidad, siempre y cuando, Θ sea abierto, la distribución a priori 

tenga una densidad positiva para todo θ ∈ Θ y la función de riesgo R(δ, θ) 

sea continua en θ para todo estimador δ. 

Hemos visto que en el caso de la pérdida cuadrática, el estimador Bayes 

podía obtenerse como la esperanza de la distribución a posteriori de Θ. El 

siguiente Teorema da una manera de obtener el estimador Bayes para el caso 

de otras funciones de pérdida. 

Teorema 2. Sea τ la distribución de Θ y F θ (x) la distribución condicional 

de X dado θ. Supongamos que se cumplen las siguientes condiciones para 

estimar q(θ) utilizando la pérdida ℓ(θ,d)

4.2. ESTIMADORES MINIMAX 7 

a) Existe un estimador δ0 con riesgo finito. 

b) Para cada valor de x existe un valor, que indicaremos δτ (x), que minimiza 

E (ℓ(θ,d)|X = x). 

Entonces, δτ (x) es un estimador de Bayes respecto a τ. 

Demostración. Sea δ(X) un estimador con riesgo Bayes finito. Luego, 

como la pérdida es nonegativa, E (ℓ(θ,δ(X))|X = x) es finita para casi todo 

x. Por lo tanto, tenemos 

E (ℓ (θ,δ(x)) |X = x) ≥ E (ℓ (θ,δτ (x)) |X = x) 

de donde, tomando esperanza respecto a la distribución marginal de X, 

obtenemos r(δ, τ) ≥ r(δτ ,τ) y por lo tanto, δτ es un estimador Bayes. 

Corolario Sea τ una distribución a priori para θ y supongamos que se 

cumplen las condiciones del Teorema 2. 

a) Para la pérdida ℓ(θ,d) = w(θ)(q(θ) − d) 2 , donde w(θ) > 0 y 

E(w(θ)) < ∞, la regla Bayes δτ está dada por 

δτ (x) = 

E (q(θ)w(θ)|X = x) 

E (w(θ)|X = x) 

b) Para la pérdida ℓ(θ,d)=|q(θ) − d|, la regla Bayes δτ (x) es la mediana 

de la distribución a posteriori de q(θ) condicional a x 

c) Para la pérdida ℓ(θ,d) = I |q(θ)−d|>c , la regla Bayes δτ es el punto 

medio del intervalo I de longitud 2c que maximiza P (q(θ) ∈I|X = x) 

4.2 Utilización de métodos bayesianos para resolver 

problemas frecuentistas 

En esta sección vamos a mostrar como los resultados de la teoría bayesiana 

pueden ser útiles, aunque no se comparta ese punto de vista. Es decir, veremos 

que los resultados de esta teoría se pueden usar para resolver problemas 

que surgen de la teoría frecuentista. 

Consideremos una muestra X =(X1,...,,Xn) con distribución conjunta 

f(x, θ) donde el vector de parámetros θ ∈ Θ. Supongamos que queremos


estimar λ = q(θ) y que tenemos una función de pérdida ℓ(θ,d). En el enfoque 

frecuentista un estimador δ(X) deλqueda caracterizado por su función de 

riesgo 

 

R(δ, θ) =Eθ (ℓ(θ,δ(X)) = ℓ(θ,δ(x))f(x, θ)dx. (4.18) 

Como θ es desconocido, lo ideal sería encontrar un estimador δ ∗ (X) tal 

que, dado cualquier otro estimador δ(x) se tuviese 

R(δ ∗ , θ) ≤ R(δ, θ) ∀θ ∈ Θ. 

Como ya hemos visto al comienzo del curso estos estimadores no existen 

excepto en casos muy poco interesantes. 

Una alternativa es comparar los estimadores a través del máximo riesgo. 

Dado un estimador δ(X) deλ su máximo riesgo se define por 

MR(δ) = sup R(δ, θ). (4.19) 

θ∈Θ 

El criterio de comparar los estimadores por su máximo riesgo es pesimista, 

ya que actua como si el parámetro fuese a tomar el valor más desfavorable 

para el estimador. Un estimador óptimo de acuerdo a este criterio es un 

estimador δ∗ tal que dado cualquier otro estimador δ se tiene 

MR(δ ∗ ) ≤ MR(δ). (4.20) 

Definición 1. Un estimador satisfaciendo (4.20) se denomina minimax. 

Vamos a ver como la teoría bayesiana nos ayuda a encontrar estimadores 

minimax. Para ello, consideremos una distribución a priori τ con densidad 

γ(θ). El correspondiente estimador de Bayes δτ verifica que, dado cualquier 

otro estimador δ, se tiene 

r(δτ ,τ) ≤ r(δ, τ). (4.21) 

Luego, de acuerdo a (4.4) se tendrá entonces que para cualquier estimador δ 

 

 

R(δτ , θ)γ(θ)dθ ≤ R(δ, θ)γ(θ)dθ. (4.22) 

Sea rτ = r(δτ ,τ), es decir, el mínimo riesgo de Bayes cuando la distribución 

a priori es τ.


Definición 2. Se dirá que una distribución a priori τ0 es menos favorable 

si, para cualquier otra distribución τ, se tiene rτ ≤ rτ0 . 

Naturalmente uno se puede preguntar para qué distribuciones a priori τ el 

estimador Bayes δτ será minimax. Un procedimiento minimax, al minimizar 

el máximo riesgo, trata de comportarse lo mejor posible en la peor situación. 

Por lo tanto, uno puede esperar que el estimador minimax sea Bayes para 

la peor distribución posible que es la distribución menos favorable. 

El siguiente Teorema nos permite usar la teoría bayesiana para encontrar 

estimadores minimax. 

Teorema 1. Supongamos que se tiene una distribución a priori τ0 tal que 

el estimador de Bayes δτ0 tiene función de riesgo, R(δτ , θ), constante en θ. 

Entonces: 

a) δτ0 

es un estimador minimax, 

b) si δτ0 es el único estimador Bayes respecto de τ0, δτ0 es el único estimador 

minimax, 

c) τ0 es la distribución menos favorable. 

Demostración. Como el riesgo de δτ0 es constante se cumple que 

r(δτ0 ,τ0) 

 

= R(δτ0 , θ)γ0(θ)dθ = sup R(δτ0 , θ). 

θ∈Θ 

(4.23) 

a) Consideremos un estimador δ = δτ0 , luego como 

MR(δ) = sup R(δ, θ) ≥ R(δ, θ) 

θ∈Θ 

tomando esperanza respecto a la distribución a priori τ0 obtenemos 

 

MR(δ) = sup R(δ, θ) ≥ R(δ, θ)γ0(θ)dθ = r(δ, τ0). (4.24) 

θ∈Θ 

Como δτ0 es Bayes respecto de τ0, se cumple que 

r(δ, τ0) ≥ r(δτ0 ,τ0). (4.25) 

Con lo cual, a partir de (4.23), (4.24) y (4.25) obtenemos 

MR(δ) ≥ r(δτ0 ,τ0) = sup R(δτ0 , θ) =MR(δτ0 ) 

θ∈Θ


y por lo tanto, δτ0 es minimax. 

b) Supongamos ahora que δτ0 

cumple 

es el único estimador Bayes, luego se 

r(δ, τ0) >r(δτ0 ,τ0). (4.26) 

Con lo cual, utilizando ahora (4.23), (4.24) y (4.26) obtenemos 

MR(δ) ≥ r(δ, τ0) >r(δτ0 ,τ0) =MR(δτ0 ) 

y por lo tanto, δτ0 es el único estimador minimax. 

c) Sea τ otra distribución a priori y δτ el estimador Bayes respecto de τ. 

Luego, por ser δτ Bayes se cumple 

r(δτ ,τ) ≤ r(δτ0 ,τ). (4.27) 

Por otra parte, como el riesgo de δτ0 

 

es constante se verifica 

r(δτ0 ,τ) = R(δτ0 , θ)γ(θ)dθ 

= sup R(δτ0 

θ∈Θ 

, θ) =r(δτ0 ,τ0), (4.28) 

Por lo tanto, (4.27) y (4.28) nos permiten concluir que 

r(δτ ,τ) ≤ r(δτ0 ,τ0) 

con lo cual, τ0 es la distribución menos favorable. 

Ejemplo 3. Consideremos el Ejemplo 1 de estimación bayesiana para la 

familia binomial, usando distribuciones a priori en la familia β(a, b) y como 

fúnción de pérdida la función ℓ(θ, d) =(θ − d) 2 . Luego hemos visto que el 

único estimador de Bayes está dado por 

T + a 

δa,b = 

n + a + b , 

con T = n i=1 Xi. 

Si encontramos a y b tales que R(δa,b,θ) es constante, ese estimador será 

minimax y la distribución a priori correspondiente será la distribución menos 

favorable. Como Eθ(T )=nθ y var(T )=nθ(1 − θ) se tiene 

Eθ(δa,b) = 

nθ + a 

, (4.29) 

n + a + b


y 

nθ(1 − θ) 

varθ(δa,b) = , (4.30) 

(n + a + b) 2 

Luego, usando (4.29) y (4.30) se deduce que 

R(δa,b,θ) = E((δa,b − θ) 2 ) 

= varθ(δa,b)+(θ − Eθ(δa,b)) 2 

= 

 

nθ(1 − θ) nθ + a 

+ θ − 

(n + a + b) 2 n + a + b 

2 

= nθ(1 − θ)+(a + b)2 θ 2 − 2a(a + b)θ + a 2 

(n + a + b) 2 

= (−n +(a + b)2 )θ 2 +(n − 2a(a + b))θ + a 2 

(n + a + b) 2 . (4.31) 

Para que (4.31) sea constante en θ, los coeficientes en θ y θ 2 del numerador 

deben ser 0. Por lo tanto, se debe cumplir 

−n +(a + b) 2 =0, n− 2a(a + b) =0 

La solución de este sistema de ecuaciones es a = b = √ n/2, y por lo tanto 

el estimador de Bayes correspondiente, que será minimax, estará dado por 

δmmax = T +(√n/2) n + √ . (4.32) 

n 

La correspondiente función de riesgo está dada por 

R(δmmax,θ)= 

n/4 

(n + √ = 

n) 2 

1 

4( √ . 

n +1) 2 

El Teorema 1 no nos permite obtener un estimador minimax en el caso 

de la media de una distribución normal. El siguiente Teorema resultará útil 

en esa situación. 

Teorema 2. Supongamos que δ(X) sea un estimador tal que 

(i) R(δ, θ) =C ∀θ ∈ Θ, 

(ii) existe una sucesión de distribuciones a priori τk tales que 

lim 

k→∞ r(δτk ,τk) =C.


Entonces δ es minimax. 

Demostración: Sea δ ′ otro estimador para q(θ). Se cumple entonces que 

sup R(δ 

θ 

′ 

, θ) ≥ R(δ ′ , θ)γk(θ)dθ = r(δ ′ ,τk) ≥ r(δτk ,τk). (4.33) 

Con lo cual, tomando límite en ambos miembros de (4.33), y usando (ii) 

se obtiene 

MR(δ ′ ) = sup R(δ 

θ 

′ , θ) ≥ C = MR(δ), 

y por lo tanto, δ es minimax. 

Ejemplo 4. Consideremos una muestra aleatoria X =(X1, ..., Xn) de una 

distribución N(θ, σ 2 ), donde σ 2 conocida. El estimador δ(X) = ¯ X tiene como 

función de riesgo R(δ, θ) =σ 2 /n, y por lo tanto se cumple la condición (i) 

del Teorema 2. Por otro lado, consideremos una sucesión de distribuciones a 

priori τk=N(0,ρ2 k ) con ρ2k → +∞. Usando la función de pérdida cuadrática, 

de acuerdo a lo visto en el ejemplo 2, los estimadores de Bayes son 


y que 

Es fácil ver que 

wk = 

δτk = wk ¯ X, 

n/σ 2 

(n/σ 2 )+(1/ρ 2 k ). 

(4.34) 

lim 

k→∞ wk = 1 (4.35) 

k→∞ ρ2 1/ρ 

k 

4 k 

((n/σ2 )+(1/ρ2 = 0 (4.36) 

k ))2 

lim 

k→∞ ρ2k (1 − wk) 2 = lim 

Por otro lado, se tiene 

R(δτk ,θ)=varθ(δτk )+(θ − Eθ(δτk ))2 = w 2 σ 

k 

2 

n +(1−wk) 2 θ 2 . (4.37) 

Luego 

r(δτk ,τk) =Eτk (R(δτk , θ)) = w2 σ 

k 

2 

n +(1−wk) 2 ρ 2 k . 

Con lo cual, usando (4.35) y (4.36) se concluye que 

lim 

k→∞ r(δτk ,τk) = σ2 

n


Por lo tanto se cumple la condición (ii) del Teorema 2, y el estimador 

δ(X) = ¯ X es minimax. El Teorema 2 no nos permite obtener la unicidad 

del estimador minimax.

Chapter 5 

Intervalos y Regiones de 

Confianza 

5.1 Regiones de confianza – Definición y Ejemplos 

Consideremos nuevamente el problema de estimación. Dado un vector X 

con distribución perteneciente a la familia F (x, θ) con θ ∈ Θ, un estimador 

puntual de θ es una función θ = δ(X) que representa un único valor que 

aproxima a θ. Si se da solamente ese valor no se tendrá ninguna idea de la 

precisión de dicha aproximación, es decir de las posibles diferencias entre θ y 

θ. Una forma de obtener información sobre la precisión de la estimación, en 

el caso de que θ sea unidimensional, es proporcionar un intervalo [a(X),b(X)] 

de manera que la probabilidad de que dicho intervalo contenga el verdadero 

valor θ sea alta, por ejemplo, 0.95. 

En este caso, la precisión con que se conoce θ depende de la longitud del 

intervalo, es decir, de b(X) − a(X), cuanto más pequeña sea esa longitud, 

más determinado quedará θ. 

Si θ es un vector de IR p , en vez de dar un intervalo para estimarlo, se 

deberá dar una cierta región de IR p , por ejemplo, esférica o rectangular. 

La siguiente definición formaliza estos conceptos. 

Definición 1: Dado un vector X con distribución perteneciente a la familia 

F (x, θ) con θ ∈ Θ, una región de confianza S(X) para θ con nivel 

de confianza 1 − α será una función que a cada X le hace corresponder un 

subconjunto de Θ de manera que P θ (θ ∈ S(X)) = 1 − α para todo θ ∈ Θ. 

Es decir, S(X) cubre el valor verdadero del parámetro con probabilidad 

1

2 CHAPTER 5. INTERVALOS Y REGIONES DE CONFIANZA 

1 − α. El valor de α debe ser fijado de acuerdo al grado de seguridad con 

que se quiere conocer θ; generalmente se toma α =0.05 ó α =0.01. 

Como caso particular, cuando θ sea unidimensional se dirá que S(X) es 

un intervalo de confianza si S(X) es de la forma 

La longitud de S(X) 

S(X) =[a(X),b(X)] 

L = b(X) − a(X) 

dependerá del nivel α elegido, cuanto más chico sea α, o sea, cuanto más 

grande sea la probabilidad con que el intervalo cubra al verdadero valor del 

parámetro, más grande será la longitud de aquél, o sea, menos precisa la 

estimación de θ. 

Ejemplo 1: Sea X1,...,Xn una muestra de una población con distribución 

N(µ, σ2 0 ) donde µ es desconocido y σ2 0 conocido. Supongamos que se necesite 

un intervalo de confianza para µ de nivel 1 − α. 

Consideremos Xn =(1/n) n i=1 Xi. Sabemos que Xn tiene distribución 

N(µ, σ 2 0 /n). Luego V = √ n(Xn − µ)/σ0, tendrá distribución N(0, 1). La 

ventaja de la variable aleatoria V sobre Xn es que tiene distribución independiente 

de µ. 

Definimos zα tal que P (V ≥ zα) =α; y por simetría P (V ≤−zα) =α. 

Luego 

P (−z α 

2 ≤ V ≤ z α 

2 ) = 1− P (V ≤ z α 

2 ) − P (V ≤−z α 

2 ) 

= 1− α α 

− =1− α. 

2 2 

Si reemplazamos V por √ n(Xn − µ)/σ0 se tendrá 

 

 

Pµ 

−z α 

2 ≤ √ 

Xn − µ 

n 

σ0 

con lo cual, despejando resulta 

Pµ(Xn − z α 

2 

≤ z α 

2 

σ0 

√ n ≤ µ ≤ Xn + z α 

2 

=1− α, 

σ0 

√ n )=1− α. 

Por lo tanto, un intervalo de confianza para µ de nivel 1 − α será 

 

 

σ0 

σ0 

S(X) = Xn − z α √ , Xn + z α √ 

2 n 2 n

5.2. PROCEDIMIENTOS GENERALES PARA OBTENER REG... 3 

ya que 

Pµ[µ ∈ S(X)] = 1 − α. 

Conviene precisar nuevamente el significado de esta igualdad. Para fijar 

ideas, supongamos α =0.05. La expresión “S(X) cubre a µ con probabilidad 

0.95”, indica que si un experimentador extrayese un número suficientemente 

grande de muestras X de tamaño n de una distribución N(µ, σ 2 0 )y 

construyese las regiones S(X) correspondientes a cada una de ellas, aproximadamente 

el 95% de estas regiones S(X) contendrán el parámetro µ. Esto 

es, dada X, la afirmación “S(X) cubre a µ” tiene probabilidad 0.95 de ser 

correcta y probabilidad 0.05 de ser falsa. 

Ejemplo 2: Un físico hace 16 mediciones de cierta magnitud (a determinar), 

dichas mediciones Xi serán Xi = µ + ɛi donde ɛi son los errores de medición. 

Supongamos que los ɛi son variables aleatorias independientes con distribución 

N(0, 4) (dato que se conoce por experimentos anteriores). 

Supongamos que el promedio de las 16 observaciones obtenidas es X16 = 

20 y consideremos el problema de encontrar un intervalo de confianza para 

µ con nivel 0.95; luego α =0.05 y de las tablas normales se obtiene z α/2 = 

z0.025 =1.96. 

Luego el intervalo de confianza será: 

 

20 − 1.96√ 4 

√ 16 

, 20 + 1.96√ 

4 

√ = [19.02 , 20.98], 

16 

y su longitud es 1.96. 

Supongamos ahora que se quiere conocer cuál deberá ser el número de 

observaciones para que el intervalo sea de longitud 0.1. Entonces 

0.1 =1.96 2 

√ o sea 

n √ n =1.96 2 

0.1 =39.2 

de donde, n = (39.2) 2 = 1536.64. Por lo tanto, se necesitan 1537 observaciones 

para obtener un intervalo con la longitud deseada. 

5.2 Procedimientos generales para obtener regiones 

de confianza 

Teorema 1: Sea X un vector aleatorio cuya distribución pertenece a la 

familia F (x, θ), θ ∈ Θ, y sea U = G(X, θ) una variable aleatoria cuya


distribución es independiente de θ. Sean A y B tales que P (A ≤ U ≤ B) = 

1−α. Luego, si se define S(X) ={θ : A ≤ G(X, θ) ≤ B}, se tiene que S(X) 

es una región de confianza a nivel (1 − α) para θ. 


Pθ (θ ∈ S(X)) = Pθ (A ≤ G(X, θ) ≤ B) = 

= Pθ (A ≤ U ≤ B) =P (A ≤ U ≤ B) =1− α 

la penúltima igualdad es válida pues la distribución de U es independiente 

de θ. 

Cabe preguntarse bajo qué condiciones S(X) es un intervalo, en el caso en 

que θ es unidimensional. Notemos que, en ese caso, si G(X,θ) es monótona 

como función de θ, para cada valor de X dado, entonces 

hX(θ) =G(X,θ) 

tiene inversa. 

Supongamos hX(θ) creciente, resulta entonces 

S(X) ={θ : h −1 

X (A) ≤ θ ≤ h−1 

X (B)} 

es decir, S(X) es un intervalo. 

Si hX(θ) es decreciente, resultará en forma análoga, 

S(X) ={θ : h −1 

X (B) ≤ θ ≤ h−1 

X (A)} 

Nota: En el Ejemplo 1, consideramos U = √ n(Xn − µ)/σ0 y vimos que 

esta variable aleatoria tiene distribución N(0, 1), o sea, independiente de µ. 

En ese ejemplo tomamos A = −zα/2 y B = zα/2. También podríamos haber 

tomado A = −zβ y B = zγ donde β y γ son arbitrarios tales que β + γ = α. 

El hecho de tomar β = γ = α/2 se debe a que de esta forma se obtiene el 

intervalo más pequeño posible (Ver problema 1 de 5.1). 

Veamos que el procedimiento que hemos usado en dicho ejemplo es el 

que se deduce del Teorema 1. 

De acuerdo al Teorema 1, 

S(X) = 

= 

{µ : −z α 

 

= 

µ : −z α 

2 ≤ 

 

µ : −z α 

2 

2 ≤ G(X,µ) ≤ z α 

2 

√ n(Xn − µ) 

σ0 

} = 

≤ z α 

2 

 

= 

σ0 

√ n + Xn ≤ µ ≤ Xn + z α 

2 

 

σ0 

√ 

n 

.


Vamos a tratar de usar un procedimiento similar para el caso de tener una 

muestra X1,X2,...,Xn de una distribución N(µ, σ 2 ) donde ahora también 

σ 2 es desconocido. En este caso, parece natural reemplazar σ 2 por un estimador 

del mismo. Sabemos que el estimador IMVU para σ 2 es 

s 2 = 1 

n − 1 

n 

(Xi − X) 

i=1 

2 , 

y luego podríamos definir 

√ 

n(X − µ) 

U = 

(5.1) 

s 

Para poder aplicar el método que nos proporciona el Teorema 1, debemos 

demostrar que U tiene una distribución que no depende de µ y σ2 y, además, 

debemos conocer esa distribución. Esto se hará en el siguiente Teorema. 

Teorema 2: Sea X1, ..., Xn una muestra aleatoria de una distribución 

N(µ, σ 2 ). Luego 

(i) V = √ n(X − µ) tiene distibución N(0, 1) 

(ii) W = n i=1 (Xi − X) 2 /σ 2 tiene distribución χ 2 con n-1 grados de libertad 

(iii) V y W son independientes 

(iv) U dado por (5.1) tiene distribución Tn−1, de Student con n − 1 grados 

de libertad. 

Demostración: Sea Yi =(Xi − µ)/σ, 1 ≤ i ≤ n. Luego estas variables 

forman una muestra aleatoria de una distribución N(0, 1). Además, es fácil 

verificar que 

V = √ n Y, W = 

n 

i=1 

Y 2 

i , U = 

V 

W/(n − 1) , (5.2) 

Sea a1 el vector fila n-dimensional con todas sus componentes iguales a 

1/ √ n. Como a1 = 1, se puede completar una base ortonormal a1,...,an. 

Sea A la matriz de n × n cuyas filas son a1,...an. Como las filas de A son 

ortogonales y de norma 1, la matriz A resulta ortogonal. Consideremos


la transformación Z = AY, donde Y =(Y1, ..., Yn) ′ y Z =(Z1, ..., Zn) ′ . 

Luego, por una propiedad de los vectores normales respecto de transformaciones 

ortogonales, las variables Z1, ..., Zn son también independientes con 

distribución N(0, 1). Por otro lado, resulta 

Z1 = 

n 

i=1 

y el punto (i) queda demostrado. 

Además, se tiene que: 

n 

(Yi − Y ) 

i=1 

2 n 

= Y 

i=1 

2 

i − nY 2 n 

= 

i=1 

Como A es ortogonal se deduce que 

Yi 

√ n = √ n Y = V (5.3) 

n 

Z 

i=1 

2 n 

i = Y 

i=1 

2 

i , 

y usando (5.2) y (5.4) obtenemos 

n 

W = Z 

i=2 

2 i , 

Y 2 

i − Z 2 1. (5.4) 

y por lo tanto queda demostrado (ii). 

Como V depende de Z1 y W de Z2, ..., Zn también queda demostrado 

(iii). 

Finalmente, (iv) se deduce de los puntos (i), (ii), (iii) del Teorema y de 

(5.2). 

Estamos ahora en condiciones de encontrar intervalos de confianza para 

la media, en el caso de una muestra aleatoria con media y varianza desconocidas. 

Definamos tn,α por la ecuación 

P (U >tn,α) =α 

donde U es una variable aleatoria Tn. Luego, análogamente al caso normal, 

se tiene: 

P (−t α 

n, )=1− α 

2 ≤ U ≤ tn, α 

2


Teorema 3: Sea X1,X2,...,Xn una muestra aleatoria cuya distribución 

pertenece a la familia N(µ, σ2 ) con µ y σ2 desconocidos. Luego si 

ni=1 ni=1(Xi Xi 

− X) 2 

X = 

n 

y s 2 = 

n − 1 

se tiene que un intervalo de confianza con nivel (1−α) para µ está dado por: 

 

X − t n−1, α 

2 

s 

√ n , X + t n−1, α 

2 

 

s 

√ 

n 

Demostración: Por el Teorema 2 se tiene que U = √ n(X − µ)/s tiene 

distribución Tn−1 y luego 

Luego, por el Teorema 1 

 

P (−t n−1, α 

µ : −t n−1, α 

2 

2 ≤ U ≤ tn−1, α 

2 

≤ X − µ 

s 

)=1− α. 

√ n ≤ tn−1, α 

2 

es una región de confianza para µ con nivel 1 − α. Pero esta región es 

equivalente a 

 

 

s 

s 

µ : X − t α 

n−1, √ ≤ µ ≤ X + t α 

n−1, √ . 

2 n 2 n 

En el próximo Teorema encontraremos intervalos de confianza para la 

varianza, en el caso de una muestra normal, con media conocida o no. 

Definamos χ 2 n,α por la ecuación 

P (U >χ 2 n,α) =α 

donde U es una variable aleatoria con distribución χ 2 n . 

Teorema 4: Sea X1,...,Xn una muestra aleatoria cuya distribución pertenece 

a la familia N(µ, σ 2 ). Sean β y γ tales que β + γ = α 

(i) Si µ es conocido, un intervalo de confianza de nivel 1 − α para σ2 está 

dado por: ni=1 (Xi − µ) 2 

≤ σ 2 ni=1 (Xi − µ) 

≤ 

2 

 

χ 2 n,β 

χ 2 n,1−γ


(ii) Si µ es desconocido, un intervalo de confianza de nivel 1 − α para σ 2 

está dado por: 

ni=1 (Xi − X) 2 

χ 2 n−1,β 

≤ σ 2 ≤ 

ni=1 (Xi − X) 2 

 

χ 2 n−1,1−γ 

Demostración: (i) Sea W = n i=1 (Xi − µ) 2 /σ 2 . Como las variables Yi = 

(Xi − µ)/σ son independientes, con distribución N(0, 1) y W = n i=1 Y 2 

i 

entonces W tiene distribución χ 2 n. Luego: 

P (χ 2 n,1−γ ≤ W ≤ χ 2 n,β) = P (W ≥ χ 2 n,1−γ) − P (W >χ 2 n,β) = 

= 1− γ − β =1− α 

Entonces, una región de confianza a nivel 1 − α está dada por 

 

σ 2 : χ 2 n,1−γ ≤ 

ni=1 (Xi − µ) 2 

σ2 ≤ χ 2 

n,β = 

 

= σ 2 1 

: 

χ2 ni=1 (Xi − µ) 

≤ 

n,β 

2 

σ2 ≤ 1 

χ2 

n,1−γ 

y esto es equivalente a la región definida en (i). 

(ii) Definamos ahora 

W = 

ni=1 (Xi − X) 2 

Sabemos por el Teorema 2 (ii) que W tiene distribución χ2 n−1 . Por lo tanto: 

σ 2 

P (χ 2 n−1,1−γ ≤ W ≤ χ2n−1,β )=1− α 

Entonces, una región de confianza de nivel 1 − α está dada por: 

 

 

= 

= 

σ 2 : χ 2 ni=1 (Xi − X) 

n−1,1−γ ≤ 

2 

σ2 ≤ χ 2 n−1,β 

 

σ 2 1 

: 

χ2 σ 

≤ 

n−1,β 

2 

1 

ni=1 ≤ 

(Xi − X) 2 χ2 

n−1,1−γ 

ni=1 (Xi − X) 2 ni=1 (Xi − X) 2 

 

σ 2 : 

χ 2 n−1,β 

≤ σ 2 ≤ 

χ 2 n−1,1−γ 

.

5.3. PROCEDIMIENTOS EN DOS PASOS PARA ENCONTRAR... 9 

5.3 Procedimiento en dos pasos para encontrar un 

intervalo de longitud prefijada para la media 

de una N(µ, σ 2 ), µ y σ desconocidos 

Volvamos a considerar el intervalo de confianza para µ cuando σ 2 es desconocido, 

en el caso de una muestra con distribución N(µ, σ 2 ). La longitud de 

dicho intervalo, L(X1,...,Xn), está dada por 

L(X1,...,Xn) =2t n−1, α 

2 

s 

√ n 

Como se ve, este intervalo tiene longitud variable, ya que depende de s, 

que es una variable aleatoria dependiente de los valores que toma la muestra. 

Luego, es imposible calcular n de modo que la longitud del intervalo 

sea igual a un número prefijado. Esto es comprensible, ya que lógicamente 

cuanto más grande sea la varianza, más grande debe ser la muestra necesaria 

para obtener la misma precisión en la estimación de µ. Como σ 2 no es conocida, 

no se podrá asegurar con una muestra de tamaño fijo una determinada 

precisión, es decir, una determinada longitud del intervalo. Una manera de 

solucionar este problema es tomando dos muestras, una inicial para estimar 

σ 2 , y en base a esta estimación, determinar el tamaño de otra muestra complementaria 

que nos permita obtener un intervalo con la longitud deseada. 

Seguidamente describimos el método. Supongamos que se quiera obtener 

un intervalo de confianza de longitud L para la media µ, de una población 

normal con media y varianza desconocida. Se toma una muestra inicial de 

tamaño m : X1,...,Xm. Este valor m inicial, puede ser cualquier valor 

mayor que dos. A partir de este valor inicial estimamos σ 2 por: 

s 2 m 

= 1 

m − 1 

m 

(Xi − Xm) 

i=1 

2 

2t m−1, α 

2 

donde Xm = 1 

m 

m 

Xi 

i=1 

Luego, la muestra complementaria se debe tomar de tamaño n donde n 

satisface 

sm 

√ ≤ L 

m + n 

(5.5) 

Sea Xm+1,...,Xm+n la muestra complementaria y 

Xm+n = 1 

m+n 

m + n 

i=1 

Xi


El intervalo de confianza de nivel 1 − α estará dado por: 

 

 

sm 

sm 

Xm+n − t α 

m−1, √ , Xm+n + t α 

m−1, √ 

2 m + n 2 m + n 

(5.6) 

Este intervalo tiene longitud 2t m−1, α 

2 sm/ √ m + n que por (5.5) es menor o 

igual que L. 

El siguiente Teorema muestra que el intervalo dado por (5.6) es un intervalo 

de confianza para µ de nivel 1 − α. 

Teorema 5: Sean X1, ...Xn variables aleatorias independientes con distribución 

N(µ, σ 2 ), donde n se elige satisfaciendo (5.5). Luego el intervalo 

dado por (5.6) es un intervalo de confianza de nivel 1-α de longitud menor 

o igual que L. 

Demostración: Comencemos por mostrar las siguientes proposiciones: 

(i) W =(m − 1)s 2 m /σ2 tiene distribución χ 2 m−1 

(ii) V = √ m + n(Xm+n − µ)/σ tiene distribución N(0, 1) 

(iii) V y W son independientes 

(iv) √ m + n(Xm+n − µ)/sm tiene distribución Tm−1 

En el Teorema 2 ya ha sido probado (i). 

Podría parecer que (ii) fue demostrada en el mismo Teorema. Sin embargo, 

esto es no es cierto ya que lo que se demostró es que el promedio 

normalizado de observaciones N(µ, σ2 ) tiene distribución N(0, 1), para 

un tamaño de muestra fijo. En nuestro caso, n es un número aleatorio, 

ya que depende del valor sm, obtenido con las primeras m observaciones. 

Comencemos obteniendo la función de distribución conjunta de V y W , 

FVW(v, w) =P (V ≤ v, W ≤ w). 

Llamemos Ai al evento {n = i}. Los sucesos Ai son obviamente disjuntos y 

además ∞ i=1 Ai = Ω, donde Ω es el espacio muestral. 

Dado un evento cualquiera A, se tiene 

∞ 

A = 

P (A) = 

i=1 

∞ 

i=1 

(A ∩ Ai) 

P (A ∩ Ai),

5.3. PROCEDIMIENTOS EN DOS PASOS PARA ENCONTRAR... 11 


FV W(v, w) = 

∞ 

P (V ≤ v, W ≤ w) = P (V ≤ v,W ≤ w, n= i) 

i=0 

= 

∞ 

P ( 

i=0 

√ m + i (Xm+i − µ) 

≤ v,W ≤ w, n= i) . 

σ 

En virtud del Teorema 2, se tiene que m j=1 Xj es independiente de sm y 

por otra parte, cada Xj con j>mtambién es independiente de sm. Por 

lo tanto, como Xm+i =(1/(m + i))( m j=1 Xj + m+i 

j=m+1 Xj) se deduce que 

Xm+i es independiente de sm. 

Por otro lado, de acuerdo con su definición, n depende sólo de sm. Luego, 

el suceso 

{ √ m + i (Xm+i − µ) 

σ 

≤ v} 

es independiente de {W ≤ w}∩{n = i} y por lo tanto, 

FVW(v, w) = 

∞ 

i=1 

P ( √ m + i (Xm+i − µ) 

σ 

≤ v)P (W ≤ w, n= i) . 

Pero, por el Teorema 2, para cada i fijo √ m + i(Xm+i − µ)/σ tiene distribución 

N(0, 1). Luego si Φ(v) es la función de distribución de una variable 

N(0, 1), se tendrá 

FVW(v, w) = 

∞ 

Φ(v)P (W ≤ w, n= i) 

i=1 

= 

∞ 

Φ(v) P (W ≤ w, n= i) . 

i=0 

Pero ∞ i=1 P (W ≤ w, n= i) =P (W ≤ w) =FW (w). Por lo tanto, se tiene 

y como 

FVW(v, w) =Φ(v)FW (w) (5.7) 

FV (v) = lim 

w→∞ FVW(v, w) =Φ(v) lim 

w→∞ FW (w) =Φ(v) , 

hemos demostrado (ii).


Para demostrar (iii) reemplacemos en (5.7) Φ(v) porFV (v) y obtenemos 

FVW(v, w) =FV (v)FW (w) 

lo que implica que V y W son independientes. 

(iv) se deduce inmediatamente de (i), (ii) y (iii), teniendo en cuenta que 

√ 

m + n(Xm+n − µ) 

= 

sm 

√ m + n(Xm+n − µ)/σ 

((m − 1)s 2 m/(m − 1)σ 2 ) 1/2 

Llamemos U a esta última variable, de acuerdo a (iv) se tiene que U tiene 

distribución independiente de µ y σ 2 y además 

µ : −t m−1, α 

2 ≤ 

P (−t m−1, α 

2 ≤ U ≤ tm−1, α 

2 

)=1− α 

Luego, de acuerdo con el método general para obtener regiones de confianza, 

se tendrá que una región de confianza para µ de nivel (1 − α) estará dada 

por: 

 

√ 

m + n(Xm+n − µ) 

= 

 

µ : Xm+n − t m−1, α 

2 

sm 

≤ t m−1, α 

2 

sm 

√ m + n ≤ µ ≤ Xm+n + t m−1, α 

2 

 

sm 

√ 

m + n 

Nota: El tamaño de la muestra inicial, m, puede ser, en principio, cualquiera 

con la condición de que sea mayor que dos. El valor más conveniente a 

usar dependerá del conocimiento previo que se tenga sobre σ 2 . Si m es 

muy pequeño, la estimación de σ 2 será poco confiable y habrá que tomar 

una segunda muestra grande, con lo cual aumentará el costo. Si se toma 

muy grande, es probable que se tomen más observaciones que las necesarias. 

Lo ideal sería elegir m cerca del número total de observaciones que serían 

necesarias si se conociera σ 2 . 

5.4 Intervalos de confianza para diferencia de medias 

de una distribución normal 

5.4.1 Muestras independientes 

Supongamos primero que se tienen dos muestras aleatorias X1,...,Xn1 y 

Y1,...,Yn2 independientes entre sí, de distribuciones N(µ1,σ 2 )yN(µ2,σ 2 ) 

.

5.4. INTERVALOS DE CONFIANZA PARA DIFERENCIA... 13 

respectivamente con µ1,µ2 y σ 2 desconocidos, y se desea encontrar un intervalo 

de confianza para λ = µ1 − µ2. Observemos que ˆ λ = Y − X es un 

estimador insesgado de λ. Es fácil demostrar utilizando el Teorema 2 de la 

sección 3.12 que este estimador es IMVU. 

La varianza de este estimador es 

 

1 

Por lo tanto, 

U = ˆ λ − λ 

σˆ λ 

σ 2 ˆ λ = σ 2 

= 

n1 · n2 

n1 + n2 

n1 

+ 1 

 

n2 

· X − Y − (µ1 − µ2) 

σ 

(5.8) 

(5.9) 

tiene distribución N(0,1). 

Como σ es desconocido, no podemos utilizar U para encontrar un intervalo 

de confianza para λ. La solución a este problema es reemplazar σ por 

un estimador. Un estimador insesgado de σ2 es 

s 2 

n1 

1 

= 

(Xi − X) 

n1 + n2 − 2 

2 n2 

+ (Yi − Y ) 2 

 

i=1 

Para demostrar que s 2 es insesgado basta recordar que de acuerdo a lo 

visto en el Capítulo 3 se tiene 

y 

n1 

E( 

i=1 

(Xi − X) 

i=1 

2 )=(n1 − 1)σ 2 

n2 

E( 

(Yi − Y ) 

i=1 

2 )=(n2 − 1)σ 2 . 

También del Teorema 2 de la Sección 3.12 se puede deducir que s 2 es 

IMVU. Luego, definimos el estadístico T reemplazando en U el parámetro σ 

por el estimador s, es decir, 


T = ˆ λ − λ 

ˆσˆ λ 

= 

n1n2 

n1 + n2 

ˆσ 2 λ ˆ = s 2 

 

1 

+ 

n1 

1 

 

n2 

X − Y − (µ1 − µ2) 

s 

(5.10) 

(5.11)


El siguiente Teorema prueba que T tiene distribución de Student con 

n1 + n2 − 2 grados de libertad 

Teorema 1: Sean X1, ..., Xn1 y Y1, ..., Yn2 

dos muestras aleatorias indepen- 

dientes de las distribuciones N(µ1,σ2 )yN(µ2,σ2 ) respectivamente. Sean 

n1 i=1 (Xi − X) 2 

Luego 

V = 

W = 

σ 2 

n2 

i=1 (Yi − Y ) 2 

σ 2 

(i) U definida en (5.9), V y W son variables aleatorias independientes con 

distribuciones N(0, 1), χ 2 n1−1 y χ2 n2−1 respectivamente. 

(ii) La variable 

tiene distribución χ 2 n1+n2−2 . 

Z = V + W 

(iii) La variable T definida en (5.10) tiene distribución Tn1+n2−2. 

(iv) El intervalo 

ˆλ − tn1+n2−2, α 

2 ˆσˆ λ , ˆ λ + t n1+n2−2, α 

2 ˆσˆ λ 

es un intervalo de confianza a nivel 1 − α para λ = µ1 − µ2. 

Demostración: Ya hemos demostrado que U tiene distribución N(0, 1). 

Por otra parte, en el Teorema 2 de la Sección 5.2, se demostró la independencia 

entre X y V y entre Y y W . Como además resulta X independiente de 

W (la primera depende de X1,...,Xn1 y la segunda de Y1,...,Yn2 )yY independiente 

de V , resulta U independiente de V y W . En el mismo Teorema se 

demostró que V y W tienen distribuciónes χ 2 n1−1 y χ2 n2−1 

 

, respectivamente. 

Resulta entonces claro que V y W son también independientes. 

Para demostrar (ii) basta utilizar el hecho de que suma de variables 

χ 2 independientes tiene también distribución χ 2 con número de grados de 

libertad igual a la suma de los grados de libertad de los sumandos. 

El resultado (iii) resulta inmediato de los puntos (i) y (ii). El resultado 

(iv) resulta de aplicar (ii) y el Teorema 1 de la Sección 5.2.


En el caso más simple en que σ2 sea conocido, se puede también encontrar 

fácilmente un intervalo de confianza para λ utilizando el estadístico U. 

Si X1,...,Xn1 y Y1,...,Yn2 son muestras aleatorias independientes en- 

tre sí de distribuciones N(µ1,σ2 1 )yN(µ2,σ2 2 ) con µ1,µ2,σ2 1 y σ2 2 desconocidos 

(σ2 1 = σ2 2 

), el problema de encontrar una región de confianza para 

µ1 −µ2 con nivel exacto 1−α no tiene una solución totalmente satisfactoria. 

Este problema se conoce con el nombre de Behrens–Fisher. Sin embargo, es 

posible encontrar en forma sencilla un intervalo de confianza para µ1 − µ2 

de nivel asintótico 1 − α (ver definición 1 y problema 7 de 5.6). 

Nota 1: Si X1,...,Xn1 y Y1,...,Yn2 son muestras aleatorias independientes 

entre sí de distribuciones N(µ1,σ2 1 )yN(µ2,σ2 2 ) respectivamente, con µ1,µ2 

conocidos o no, entonces: 

(1) Si σ 2 1 = σ2 2 = σ2 se pueden encontrar intervalos de confianza para σ 2 

(o para σ) (ver problema 1 de 5.4). 

(2) Si no se puede suponer σ2 1 = σ2 2 

confianza para σ2 2 /σ2 1 (o para σ2/σ1) (ver problema 2 de 5.4). 

5.4.2 Muestras apareadas 

es posible encontrar intervalos de 

Supongamos ahora que (X1,Y1),...,(Xn,Yn) es una muestra aleatoria de 

una distribución normal bivariada N(µ1,µ2,σ2 1 ,σ2 2 ,ρ) con µ1,µ2,σ2 1 ,σ2 2 ,ρdesconocidos 

y que se desea encontrar un intervalo de confianza para 

λ = µ1 − µ2. 

En este caso podemos definir las variables Zi = Xi −Yi, 1≤ i ≤ n. Estas 

variables forman una muestra de una distribución N(λ,σ2 Z ), con 

σ 2 Z = σ 2 1 + σ 2 2 − 2ρσ1σ2, 

y por lo tanto, de acuerdo a lo visto en el Teorema 3 de la Sección 5.2 

tenemos que un intervalo de confianza de nivel 1 − α está dado por 


Z = 1 

n 

 

Z − t n−1, α 

2 

n 

i=1 

sZ 

√ n , Z + t n−1, α 

2 

Zi, s 2 Z = 1 

n − 1 

n 

 

sZ 

√ 

n 

(Zi − Z) 

i=1 

2 . 

(5.12)


Nota 2: Muchas veces, en los casos reales, interesará decidir antes de tomar 

la muestra, si conviene usar un diseño de muestras aleatorias independientes 

entre sí provenientes de distribuciones N(µ1,σ 2 ), N(µ2,σ 2 ) o muestras 

apareadas provenientes de una distribución bivariada, N(µ1,µ2,σ 2 ,σ 2 ,ρ). 

Por ejemplo, si se quiere estimar la diferencia de rendimientos de dos 

variedades de un cereal, uno podría preguntarse cuál de los dos diseños 

siguientes proveerá más información sobre esta diferencia: 

(i) Elegir al azar en el terreno considerado 2n parcelas de área A. En n de 

ellas elegidas al azar cultivar la variedad 1 y en en los restantes cultivar 

la variedad 2. 

(ii) Elegir al azar n parcelas de área 2A y dividir cada una de ellas en 

dos mitades de la misma área. y luego éstas en dos mitades. En cada 

mitad de una parcela cultivar una variedad distinta. 

En el primer caso, tendríamos un diseño correspondiente a muestras 

aleatorias normales independientes entre sí. En el segundo, uno correspondiente 

a muestras apareadas que podrían ser consideradas provenientes de 

una normal bivariada con un cierto cociente de correlación ρ. 

Trataremos de determinar cuál de los dos diseños es mejor, comparando 

las longitudes de los intervalos de confianza respectivos. Para esto supondremos 

que las varianzas para los rendimientos de ambos cereales son los 

mismos. 

Para el caso de muestras independientes tendremos n1 = n2 = n, yla 

longitud del intervalo viene dado por 

 



s 2 = 

L1 =2t 2n−2, α 

2 

2 s2 

n 

1 

 

n 

(Xi − X) 

2n − 2 

i=1 

2 + 

n 

(Yi − Y ) 

i=1 

2 

y para el caso de muestras para muestras apareadas 

L2 =2t n−1, α 

2 

s 2 Z = 1 

n − 1 

n 

 

s 2 Z 

n 

(Zi − Z) 

i=1 

2 .


Como estas longitudes dependen de la muestra considerada, y por lo 

tanto son aleatorias, consideraremos cuál diseño nos provee el intervalo con 

menor longitud cuadrada esperada. Es decir, compararemos las esperanzas 

de los cuadrados de las longitudes. Se toman cuadrados por la única razón 

son estimadores 

de simplificar el cálculo de las esperanzas. Como s2 y s2 Z 

insesgados de σ2 ydeσ2 Z = 2(1 − ρ)σ2 , se tiene 

E(L 2 1 )=4 × 2σ2 t 2 2n−2, α 

2 

n 

y en el caso de muestras apareadas 

Luego resulta 

E(L 2 2 )=4 × 2σ2 (1 − ρ)t 2 n−1, α 

2 

n 

E(L 2 2 ) 

E(L2 1 ) =(1−ρ) t2 n−1, α 

2 

t2 2n−2, α 

2 

Por lo tanto será mejor tomar muestras apareadas si 

o sea si 

(1 − ρ) t2 n−1, α 

2 

t 2 2n−2, α 

2 

< 1 

ρ>1 − t2 2n−2, α 

2 

t2 n−1, α 

2 

Se puede mostrar que t α 

n, 2 tiende a z α 

2 

cuando n →∞. Luego se tendrá que 

λ =1− t2 2n−2, α 

2 

t 2 n−1, α 

2 

(5.13) 

en forma monótona decreciente 

tendiendo a 0 cuando n →∞. 

Luego, para que sea más conveniente tomar muestras apareadas es una 

condición necesaria que ρ>0. Para muestras grandes esta condición es 

prácticamente suficiente ya que λ se hace muy pequeño. 

Sea, por ejemplo, n =20yα =0.05, luego λ =0.03. Luego basta que 

ρ>0.03 para que el diseño apareado sea más eficiente. Para un ejemplo 

práctico, ver ejercicio 3 de 5.4. Por otra parte, por (5.13) resulta que en caso 

de tomarse muestras apareadas convendrá elegir los pares de manera que ρ 

sea lo más grande posible. 

> 0


5.5 Optimalidad de los intervalos de confianza 

Sea X un vector cuya distribución pertenece a la familia F (x,θ) con θ ∈ Θ ⊂ 

IR y sea S(X) =[a(X),b(X)] un intervalo de confianza con nivel 1 − α para 

θ. Como ya lo hemos observado en 5.1, la precisión de nuestra estimación 

vendrá dada por la longitud del intervalo, es decir, por L(X) =b(X) − a(X) 

y por lo tanto, será conveniente que ésta fuese lo menor posible. Como 

ya lo hemos visto, L(X) es en general una variable aleatoria; luego parece 

razonable como criterio para medir la bondad de un intervalo de confianza 

considerar Eθ(L(X)). 

Luego, un intervalo de confianza con nivel 1 − α, [a(X),b(X)], puede ser 

considerado óptimo si, para todo otro intervalo de confianza de nivel 1 − α, 

[a ′ (X),b ′ (X)] se tiene 

Eθ(b(X) − a(X)) ≤ Eθ(b ′ (X) − a ′ (X)) ∀ θ ∈ Θ . 

Sin embargo, igual que en el caso de estimación puntual, es posible 

mostrar que salvo ejemplos triviales no existen intervalos con esta propiedad. 

La única forma de encontrar intervalos óptimos es restringir la clase de posibles 

intervalos. 

Una forma de restringir los posibles intervalos de confianza o en general 

las regiones de confianza, es exigiendo la siguiente propiedad. 

Definición 1: Se dirá que una región S(X) esinsesgada si 

Pθ(θ ∈ S(X)) ≥ Pθ(θ ′ ∈ S(X)) ∀ θ, θ ′ ∈ Θ . 

Es decir que S(X) es insesgado si el valor verdadero θ tiene mayor probabilidad 

de estar en la región que cualquier otro valor θ ′ . 

Luego parece natural buscar el intervalo de confianza de menor longitud 

entre los intervalos de confianza insesgados. Luego surge la siguiente 

definición: 

Definición 2: Se dirá que un intervalo de confianza S(X) esinsesgado de 

mínima longitud esperada uniformemente en θ (IMLEU) con nivel (1 − α) si 

a) S(X) es insesgado y tiene nivel (1 − α). 

b) Sea S(X) = [a(X),b(X)]. Luego si S ′ (X) = [a ′ (X),b ′ (X)] es otro 

intervalo insesgado de nivel 1 − α, se tiene 

Eθ(b(X) − a(X)) ≤ Eθ(b ′ (X) − a ′ (X)) ∀ θ ∈ Θ .

5.6. REGIONES DE CONFIANZA CON NIVEL ASINT... 19 

Se puede mostrar que los intervalos obtenidos para µ cuando X1,...,Xn 

es una muestra aleatoria de N(µ, σ 2 ) para el caso de σ 2 conocido o desconocido 

(en Ejemplo 1 de 5.1 y Teorema 3 de 5.2) son realmente IMLEU. 

También, los intervalos obtenidos para σ 2 cuando µ es conocido o desconocido 

en el Teorema 4 de 5.2 es IMLEU, si β y γ se eligen de manera que 

la longitud esperada sea mínima. Se puede mostrar que para n grande estos 

β y γ se aproximan a α/2 (ver [3]). Los procedimientos desarrollados 

en 5.4 para encontrar intervalos de confianza para las diferencias de medias 

también son IMLEU. 

El estudio detallado de la optimalidad de estos procedimientos puede 

verse en Pratt [2]. Estos resultados dependen de resultados relacionados con 

la teoría de tests óptimos que puede verse en Lehmann [1]. 

5.6 Regiones de confianza con nivel asintótico 

(1 − α) 

En muchos problemas estadísticos, es imposible o muy complicado encontrar 

regiones de confianza con un nivel dado. En su reemplazo se pueden construir 

regiones cuyo nivel sea aproximadamente el deseado, tendiendo a él a medida 

que el tamaño de la muestra aumenta. La siguiente definición formaliza esta 

idea. 

Definición 1: Sea X1,X2,...,Xn una muestra aleatoria de una distribución 

perteneciente a la familia F (x, θ), θ ∈ Θ. Se dice que Sn(X1,...,Xn) es una 

sucesión de regiones de confianza con nivel asintótico 1 − α si: 

lim 

n→∞ Pθ (θ ∈ Sn(X1,...,Xn)) = 1 − α ∀ θ ∈ Θ . 

El siguiente Teorema nos da un procedimiento para construir intervalos 

de confianza con nivel asintótico (1 − α). 


perteneciente a la familia F (x, θ), θ ∈ Θ. Supongamos que para cada n se 

tienen definidas funciones Un = Gn(X1,...,Xn, θ) tales que Un converge a U 

en distribución, donde U es una variable aleatoria con distribución independiente 

de θ. Sean A y B puntos de continuidad de FU , tales que P (A ≤ U ≤ 

B) =1−α. Definamos Sn(X1,...,Xn) ={θ : A ≤ Gn(X1,...,Xn, θ) ≤ B}. 

Luego, Sn(X1,...,Xn) es una sucesión de regiones de confianza con nivel 

asintótico (1 − α).



Pθ (θ ∈ Sn(X1,...,Xn)) = Pθ (A ≤ Gn(X1,...,Xn, θ) ≤ B) 

= Pθ (A ≤ Un ≤ B) 

Luego, limn→∞ P θ (θ ∈ Sn(X1,...,Xn)) = limn→∞ P θ (A ≤ Un ≤ B) = 

P θ (A ≤ U ≤ B) =P (A ≤ U ≤ B) =1− α. 

Ejemplo 1: Sea X1,...,Xn una muestra independiente de una distribución 

Bi(θ, 1). Definamos: 

Un = 

ni=1 Xi − nθ 

nθ(1 − θ) 

Sabemos por el Teorema Central del Límite que Un converge en distribución 

a una ley N(0, 1); por lo tanto, una sucesión de regiones de confianza con 

nivel asintótico 1 − α vendrá dada por: 

 

Sn(X1,...,Xn) = 

θ : −z α 

2 ≤ 

⎧ 

⎨ ni=1 2 

Xi − nθ 

= θ : ≤ z 

⎩ nθ(1 − θ) 

2 ⎫ 

⎬ 

α 

2 ⎭ 

⎧ 

⎨ n 

2 = θ : Xi + n 

⎩ 

i=1 

2 θ 2 n 

− 2nθ 

i=1 

⎧ 

⎨ 

= 

⎩ θ : θ2 (n 2 + nz 2 

n 

α ) − θ 2n 

2 

i=1 

= [ θ1, θ2] 

 

ni=1 

Xi − nθ 

≤ z α 

2 

nθ(1 − θ) 

Xi ≤ z 2 α 

2 

Xi + z 2 α 

2 

⎫ 

⎬ 

nθ(1 − θ) 

⎭ 

 

n 

⎫ 

2 ⎬ 

n + Xi ≤ 0 

⎭ 

donde θ1 y θ2 son las raíces de la ecuación 

θ 2 (n 2 + nz 2 

n 

α ) − θ 2n Xi + z 

2 

i=1 

2 

n 

2 α n + Xi =0 

2 

i=1 

La siguiente propiedad, que daremos sin demostración y que es equivalente 

a la propiedad 5 de 1.8, nos permitirá encontrar un intervalo de confianza 

más sencillo para θ en el ejemplo anterior. 

Propiedad 1: Sea Xn una sucesión de variables aleatorias, X una variable 

aleatoria y a una constante. Supongamos que Xn → X en distribución. 

i=1

5.6. REGIONES DE CONFIANZA CON NIVEL ASINT... 21 

Sea además, una sucesión de variables aleatorias Yn tal que Yn → a en 

probabilidad; luego YnXn → aX en distribución. 

Volvamos ahora al Ejemplo 1. Un se puede escribir 

√ 

n(X − θ) 

Un = 

θ(1 − θ) 

Por otro lado, sabemos que un estimador consistente de θ es X. Luego 

 

1 

→ 

X(1 − X) 

1 

θ(1 − θ) 

en probabilidad. 

Con lo cual, usando la propiedad anterior y llamando 

√ 

n(X − θ) 

Vn = 

X(1 − X) 

se tiene que Vn → N(0, 1) en distribución. 

Por lo tanto, un intervalo de confianza para θ de nivel 1 − α, viene dado 

por 

Sn(X1,...,Xn) = 

= 

⎧ 

⎨ 

⎩ θ : −z α 

2 ≤ 

⎡ 

⎣X − z α 

2 

√ n(X − θ) 

 

X(1 − X) 

⎫ 

⎬ 

≤ z α 

2 ⎭ 

 

X(1 − X) 

√ , X + z α 

n 

2 

 

X(1 − X) 

√ n 

Ejemplo 2: Supongamos que se tiene una muestra aleatoria X1,...,Xn de 

una distribución totalmente desconocida y sólo se sabe que E(X1) =µ y 

Var(X1) =σ 2 son finitos. Se quiere encontrar un intervalo de confianza para 

µ con nivel asintótico 1 − α. Sea 

Un = √ n(X − µ)/σ 

Por el Teorema Central del Límite, sabemos que Un → N(0, 1) en distribución. 

Por otro lado, 

s 2 n = 1 

n − 1 

n 

(Xi − X) 

i=1 

2 

⎤ 

⎦


es un estimador fuertemente consistente de σ 2 . Luego, sn → σ en probabilidad. 

Con lo cual, utilizando la Propiedad 1, si 

se tendrá que 

Vn = √ n(X − µ)/sn 

Vn → N(0, 1) en distribución. 

Luego, un intervalo de confianza para µ, con nivel asintótico 1 − α estará 

dado por 

√ 

n(X − µ) 

Sn(X1,...,Xn) = 

= 

µ : −z α 

2 ≤ 

 

X − z α 

2 

sn 

sn 

√ n , X + z α 

2 

≤ z α 

2 

 

sn 

√ 

n 

5.7 Regiones de confianza basadas en estimadores 

de máxima verosimilitud 

Veamos ahora un procedimiento que nos permitirá, en condiciones bastante 

generales, encontrar regiones de confianza con nivel asintótico (1 − α). 

Sea X1,X2,...,Xn una muestra aleatoria de una distribución con densidad 

f(x, θ). Sabemos, que bajo condiciones muy generales (ver Capítulo 3) el 

estimador de máxima verosimilitud,EMV, θ tiene distribución asintóticamente 

normal. Más precisamente, cuando θ ∈ IR bajo condiciones de regularidad, 

√ n( θn − θ) → N(0, 

1 

) en distribución, 

I1(θ) 

donde I1(θ) es el número de información de Fisher de X1. 

Luego, si llamamos 

Un = √ 

n I1(θ)( θn − θ) 

se tendrá que 

Un → N(0, 1) en distribución. 

Por lo tanto, una región de confianza para θ de nivel asintótico 1 − α estará 

dada por 

Sn = {θ : −z α 

2 ≤ √ n 

 

I1(θ)( θn − θ) ≤ z α 

2 } 

.

5.7. REGIONES DE CONFIANZA BASADAS EN EMV 23 

Obsérvese que éste fue el procedimiento que se usó en el Ejemplo 1 de 

(5.6)(demostrarlo). 

Esta región no tiene porqué ser un intervalo, y puede ser difícil de calcular. 

En el caso en que I1(θ) sea continua, se podrá obtener un intervalo de 

confianza a nivel asintótico (1 − α), de la siguiente forma relativamente simple: 

Sabemos que θn → θ en probabilidad, ya que el E.M.V. es consistente, 

entonces si I1(θ) es continua, se tiene 

Si llamamos U ∗ n = √ n 

lim 

n→∞ I1( θn) =I1(θ) en probabilidad. 

 

I1( θn)( θn − θ), resulta que 

U ∗ n 

→ N(0, 1) en distribución. 

Por lo tanto, un intervalo de confianza para θ de nivel de confianza asintótico 

1 − α vendrá dado por: 

Sn = {θ : −z α 

2 ≤ √ 

n I1( θn)( θn − θ) ≤ z α 

2 } 

⎡ 

= 

z α 

⎣ 2 

θn − 

I1( θn) √ , 

n 

z α 

2 

θn + 

I1( θn) √ ⎤ 

⎦ . 

n 

La longitud de estos intervalos es 

L =2z α 

2 

1 

 

√ 

n I1( . 

θn) 

Luego, bajo condiciones en que vale el Teorema de consistencia del EMV se 

tiene 

√ 1 

lim nL=2zα c.t.p. 

n→∞ 

2 I1(θ) 

y bajo condiciones muy generales, también se puede mostrar que 

1 

 

I1(θ) . 

√ 

lim nEθ(L) =2zα n→∞ 

2 

Puede demostrarse que bajo condiciones muy generales, para todo intervalo 

I insesgado, con nivel asintótico 1 − α se tendrá 

√ 

lim nEθ(LI) ≥ 2z α 

n→∞ 

2 

1 

I1(θ)


donde, LI indica la longitud del intervalo I. Por lo tanto, los intervalos 

obtenidos a partir del estimador de máxima verosimilitud pueden considerarse 

asintóticamente insesgados de menor longitud esperada. 

Para ver estas propiedades en detalle, consultar Wilks [4, pp. 374–376]. 

Luego de la descripción de los métodos para obtener intervalos de confianza 

a nivel asintótico, podría pensarse en los casos que es posible encontrarlos 

en lugar de los intervalos exactos. Sin embargo, la convergencia del 

nivel de confianza al valor deseado depende fuertemente de la distribución y 

podría ser necesario un tamaño de muestra grande para que la aproximación 

del nivel asintótico sea aceptable. En general, no se puede determinar el 

tamaño de muestra n para el cual la aproximación asintótica es suficientemente 

buena usando consideraciones teóricas. En la mayoría de los casos 

es necesario estudiar este problema por métodos de Monte Carlo que se 

estudiarán más adelante. 

5.8 Regiones de confianza simultáneas 

Supongamos que se tiene un vector aleatorio X cuya distribución pertenece 

a la familia F (x, θ) yqueθ =(θ1,θ2). Ocurre a veces que se tienen regiones 

de confianza para θ1 y θ2 por separado, es decir, se tienen S1(X) yS2(X), 

tales que: 

P (θ1 ∈ S1(X)) = 1 − α y P (θ2 ∈ S2(X)) = 1 − α 

pero P (θ1 ∈ S1(X),θ2 ∈ S2(X)) ≤ 1 − α. 

Luego, S1(X) × S2(X) no es una región de confianza simultánea de nivel 

(1 − α) para (θ1,θ2). 

Una forma de conseguir que la probabilidad simultánea de que θ1 y θ2 

estén en S1(X) yS2(X) respectivamente, sea al menos (1 − α) se obtiene 

considerando regiones de confianza de nivel (1 − α/2) para θ1 y θ2, es decir, 

tales que: 

P (θ1 ∈ S1(X)) = 1 − α 

y P (θ2 ∈ S2(X)) = 1 − 

2 

α 

2 . 

Luego, si Ac indica el complemento del conjunto A, 

P (θ1 ∈ S1(X),θ2 ∈ S2(X) =1− P [(θ1 ∈ S1(X)) c ∪ (θ2 ∈ S2(X)) c ] . 

Como P (A ∪ B) ≤ P (A)+P (B), se deduce que 

P (θ1 ∈ S1(X),θ2 ∈ S2(X)) ≥ 

= 

1 − P (θ1 /∈ S1(X)) − P (θ2 /∈ S2(X)) 

1− α α 

− =1− α. 

2 2

5.8. REGIONES DE CONFIANZA SIMULTÁNEAS 25 

Es decir, tomando regiones de confianza para cada parámetro de nivel 1−α/2 

nos aseguramos un nivel simultáneo mayor o igual que 1 − α. Este procedimiento 

se puede generalizar inmediatamente para el caso que se requieran regiones 

simultáneas para k−parámetros. Bastará tomar para cada parámetro 

un región de nivel α/k. 

Ejemplo 1: Sea X1,...,Xn una muestra aleatoria de una distribución 

N(µ, σ 2 ). Hemos visto que un intervalo de confianza para µ de nivel 1 − α 

está dado por: 

S1 = 

 

X − t n−1, α 

2 

s 

√ n , X + t n−1, α 

2 

 

s 

√ 

n 

mientras que un intervalo de confianza para σ2 de nivel 1 − α está dado por: 

⎡ 

ni=1 (Xi − X) 

S2 = ⎣ 

2 ni=1 (Xi − X) 

, 

2 

⎤ 

⎦ . 

Luego, si tomamos 

S ∗ 1 = 

y S ∗ 2 = 

 

χ 2 n−1, α 

2 

X − t n−1, α 

4 

⎡ 

ni=1 (Xi − X) 

⎣ 

2 

, 

χ 2 n−1, α 

4 

χ 2 n−1,1− α 

2 

s 

√ n , X + t n−1, α 

4 

, 

 

s 

√ 

n 

ni=1 (Xi − X) 2 

χ 2 n−1,1− α 

4 

S∗ 1 × S∗ 2 es una región de confianza simultánea para (µ, σ2 ) de nivel mayor o 

igual que 1 − α. 

El inconveniente que tiene este método es que el nivel es mayor que el 

deseado, esto ofrece más seguridad que la deseada de que los valores de los 

parámetros estarán dentro de la región, pero por otra parte las regiones 

resultan más grandes que lo necesario y por lo tanto, será más imprecisa la 

determinación de los parámetros. 

Obtendremos ahora en el caso normal una región de confianza simultánea 

para µ y σ2 de nivel exactamente igual a 1 − α. 

Sea X1,...,Xn una muestra aleatoria de una distribución N(µ, σ2 ). Sabemos 

que U = √ n(X − µ)/σ y V = S2 /σ2 , donde S2 = n i=1(Xi − X) 2 son 

independientes con distribución N(0, 1) y χ2 n−1 respectivamente. Luego, se 

tendrá 

 

P 

−z β 

2 

√ 

n(X − µ) 

≤ 

σ 

≤ z β 

2 

,χ 2 

n−1,1− β 

2 

, 

⎤ 

⎦ 

≤ S2 

≤ χ2 

σ2 n−1, β 

 

= 

2


= 

 

P −z β 

2 

√ 

n(X − µ) 

≤ 

σ 

= (1−β)(1 − β) =(1−β) 2 

≤ z β 

2 

 

P 

 

χ n−1,1− β 

2 

≤ S2 

≤ χ2 

σ2 n−1, β 

 

2 

Tomemos β =1− (1 − α) 1/2 , entonces (1 − β) 2 =(1−α); luego 

 

Sn = (µ, σ 2 ):−z β 

2 

√ 

n(X − µ) 

≤ 

≤ z β ,χ 

σ 

2 

2 

n−1,1− β 

2 

≤ S2 

≤ χ2 

σ2 n−1, β 

2 

es una región de confianza simultánea para (µ, σ2 ) de nivel 1 − α. 

estudiar la forma de Sn podemos escribir 

Para 

⎧ 

⎨ 

Sn = 

⎩ (µ, σ2 ): ≤ σ 2 , ≤ σ 2 ≤ 

S2 ⎫ 

⎬ 

⎭ 

La condición 

n(X − µ)2 

z 2 β 

2 

σ 2 ≥ 

S 2 

χ 2 

n−1, β 

2 

n(X − µ)2 

z 2 β 

2 

χ 2 

n−1,1− β 

2 

nos indica la región del plano (µ, σ2 ), por encima de la parábola 

y la condición 

σ 2 = n(X − µ) 2 /z 2 β 

2 

S 2 

χ 2 

n−1, β 

2 

≤ σ 2 ≤ 

S 2 

χ 2 

n−1,1− β 

2 

indica la franja horizontal comprendida entre las rectas horizontales 

y S2 /χ2 . 

σ 2 = S 2 /χ 2 

n−1, β 

2 

n−1,1− β 

2 

5.9 Cotas superiores e inferiores de confianza 

En los ejemplos vistos anteriormente interesaba conocer el parámetro desconocido 

con la mayor precisión posible y para este propósito lo más adecuado 

era construir intervalos de confianza de longitud tan pequeña como era posible. 

En esta sección, estudiaremos otro tipo de regiones de confianza que 

surgen naturalmente cuando se está interesado en conocer una cota superior 

o inferior del parámetro. 

Consideremos el siguiente ejemplo. En el Departamento de Control de un 

laboratorio se recibe un frasco con cierta droga que puede contener alguna 

impureza indeseada.

5.9. COTAS SUPERIORES E INFERIORES DE CONFIANZA 27 

Supongamos que se hagan n mediciones de la concentración de la impureza, 

las que están afectadas de un error, luego se observan X1,...,Xn 


Xi = µ + εi , 1 ≤ i ≤ n 

donde µ es el valor verdadero de la concentración de la impureza y los εi 

son variables aleatorias N(0,σ 2 ) independientes. Luego X1,...,Xn es una 

muestra de una distribución N(µ, σ 2 ). 

En este caso, sólo se estará interesado en determinar si la droga es aceptable 

o no, y para esto más que un intervalo de confianza interesará tener 

una cota superior µ(X), (X =(X1,...,Xn)) tal que la probabilidad de que 

µ ≤ µ(X1,...,Xn) sea alta. De esta manera se tendría acotada con probabilidad 

grande la concentración de impureza de la droga. 

Esto sugiere la siguiente definición. 

Definición 1: Sea X un vector cuya distribución pertenece a la familia 

F (x,θ), donde θ ∈ Θ ⊂ IR. Se dirá que θ(X) es una cota superior de 

confianza con nivel de confianza (1 − α) para θ si P (θ(X) ≥ θ) =1− α o 

sea si (−∞, θ(X)] es una región de confianza de nivel 1 − α. A este tipo de 

región de confianza semirrecta izquierda se denomina también intervalo de 

confianza unilateral izquierdo con nivel 1 − α. 

Definición 2: Sea X un vector cuya distribución pertenece a la familia 

F (x,θ) con θ ∈ Θ ⊂ IR. Se dirá que θ(X) es una cota inferior de confianza 

con nivel de confianza 1−α si P (θ(X) ≤ θ) =1−α, o sea si [θ(X), ∞) es una 

región de confianza de nivel 1 − α. A este tipo de región la denominaremos 

intervalo de confianza unilateral derecho. 

El siguiente Teorema nos da un procedimiento general para obtener cotas 

superiores e inferiores de confianza con nivel 1 − α. 

Teorema. Sea X un vector aleatorio cuya distribución pertenece a la familia 

F (x,θ) con θ ∈ Θ ⊂ IR. Sea G(x,θ) una función estrictamente monótona en 

θ y tal que U = G(X,θ) tiene distribución independiente de θ. Consideremos 

A y B tales que P (U ≤ A) =α y P (U ≥ B) =α. 

(a) Si G(x,θ) es creciente y continua en θ, las cotas superiores e inferior 

con nivel de confianza 1 − α vienen dadas respectivamente por las 

soluciones a las siguientes ecuaciones 

G(X, θ(X)) = B y G(X,θ(X)) = A.


(b) Si G(X,θ) es decreciente y continua en cambio θ(X) y θ(X) vienen 

dadas respectivamente por 

G(X, θ(X)) = A y G(X,θ(X)) = B. 

Demostración: La haremos sólo para el caso que G(x,θ) es creciente en 

θ y para la cota superior. En este caso θ(X) está definida por 

Luego, 

G(X, θ(X)) = B. 

Pθ(θ ≤ θ(X)) = Pθ(G(X,θ) ≤ G(X, θ(X))) 

= Pθ(G(X,θ) ≤ B) =P (U ≤ B) =1− α. 

Ejemplo 1: Supongamos que como en el ejemplo de la droga, donde se 

quería medir la concentración de impureza, X =(X1,...,Xn) es una muestra 

aleatoria de una distribución N(µ, σ 2 ) y supongamos que σ 2 sea conocido. 

Luego, 

√ 

n(X − µ) 

U = G(X,µ)= 

σ 

tiene distribución N(0, 1). Por lo tanto, en este caso A = −zα y B = zα. 

Luego, como G(x,µ) es decreciente en µ se tendrá que las cotas superiores 

e inferiores de confianza de nivel de confianza 1 − α se obtendrán de la 

siguiente forma. 

Sean µ(X) yµ(X)) definidas por 

√ √ 

n(X − µ(X)) 

n(X − µ(X)) 

= −zα, 

= zα 

σ 

σ 

es decir, despejando se obtiene 

σ 

µ(X) =X + zα √ 

n 

σ 

µ(X) =X − zα √ 

n 

Ejemplo 2: Sea X1,...,Xn una muestra aleatoria de una distribución 

N(µ, σ 2 ) y supongamos σ 2 desconocido; luego sabemos que 

√ 

n(X − µ) 

U = G(X,µ)= 

s

5.9. COTAS SUPERIORES E INFERIORES DE CONFIANZA 29 

tiene distribución Tn−1. 

Luego, procediendo como en el Ejemplo 1, obtendremos como cota superior 

e inferior de confianza con nivel 1 − α 

µ(X) =X + t n−1, α 

2 

s 

√ n , y µ(X) =X − t n−1, α 

2 

s 

√ n 

5.9.1 Comparación de cotas superiores e inferiores de confianza 

Así como en el caso de intervalos de confianza interesaba que tuviesen longitud 

lo más corta posible, cabe preguntarse cómo sería deseable que fuesen las 

cotas superiores e inferiores. Planteado de otra manera, dadas por ejemplo 

dos cotas superiores θ1(X) yθ2(X), existe algún criterio para compararlas 

y concluir por ejemplo que una es más conveniente que otra? Análogamente 

en el caso de cotas inferiores. 

Como en el caso de cota superior se tiene controlada la posibilidad que 

θ(X) esté por debajo de θ, ya que esto sólo puede suceder con probabilidad 

α, el riesgo no controlado es que θ(X) sobrevalúe θ muy por encima de lo 

necesario. Esta sobrevaluación que la llamaremos C(X,θ) estará dada por 

C(X,θ)= 

 

θ(X) − θ si θ(X) >θ 

0 si θ(X) ≤ θ 

Luego parece razonable buscar cotas superiores que minimicen Eθ(C(X,θ)) 

uniformemente en θ. 

Del mismo modo en el caso de cotas inferiores, se puede definir la subvaluación 

por 

 

D(X,θ)= 

θ − θ(X) si θ>θ(X) 

0 si θ ≤ θ(X) 

y en este caso interesará minimizar Eθ(D(X,θ)) uniformemente en θ. 

La teoría de la optimalidad de las cotas de confianza se deriva de la teoría 

de optimalidad de los tests y por lo tanto se pospone hasta el Capítulo 6. 

Solamente diremos que contrariamente a lo que sucedía con intervalos de 

confianza, existen en casos no triviales cotas uniformemente óptimas. Por 

ejemplo, los procedimientos derivados en el Ejemplo 1 tienen esta propiedad. 

En el caso del Ejemplo 2, no existen procedimientos uniformemente óptimos.


De todos modos los procedimientos derivados en ese ejemplo son uniformemente 

óptimos si se restringe al conjunto de procedimientos insesgados. (Una 

cota es insesgada si su intervalo de confianza unilateral asociado es una región 

de confianza insesgada.) 

REFERENCIAS 

1. Lehmann, E.L. (1994) Testing Statistical Hypothesis. Chapman and 

Hall. 

2. Pratt, E. (1961) Length of Confidence Intervals, J. Amer. Statist. 

Assoc. 16: 243–258. 

3. Tate, R.F. y Klett, G.W. (1959) Optimal Confidence Intervals for the 

variance of a Normal Distribution, J. Amer. Statist. Assoc. 54: 674– 

682. 

4. Wilks, S.S. (1962) Mathematical Statistics, J. Wiley and Sons.

Chapter 6 

Tests de Hipótesis 

6.1 Introducción 

El test de hipótesis es una manera formal de decidir entre dos opciones, o 

sea, es una manera de distinguir entre distribuciones de probabilidad en base 

a variables aleatorias generadas por una de ellas. Veamos un ejemplo para 

tener una idea de lo que significan. 

Ejemplo 1. Supongamos que un comerciante debe comprar un cargamento 

de N manzanas. El comerciante ignora qué parte del cargamento no 

se encuentra en buen estado. Como inspeccionar todo el cargamento es muy 

costoso, decide elegir al azar una muestra de n manzanas. 

Sea X el número de manzanas en mal estado que observa en la muestra. 

Luego si D es el número de manzanas en mal estado que hay en el cargamento, 

se tiene que la distribución de X es hipergeométrica y su función de 

probabilidad puntual está dada por 

p(x, D) = 

 

D 

x 

 

N − D 

 

n − x 

 

N 

n 

si max(0,D− N + n) ≤ x ≤ min(n, D) 

y D puede tomar valores en el conjunto Θ = {0, 1, 2,...,N}. 

Supongamos que se hubiese convenido que el cargamento debería tener 

no más de D0 manzanas en mal estado. Luego, en base a la variable X, que 

el comerciante observa, debe decidir si el cargamento satisface los requisitos 

1

2 CHAPTER 6. TESTS DE HIP ÓTESIS 

convenidos. Es decir, debe decidir entre dos alternativas 

D ∈ Θ1 = {0, 1,...,D0} o D ∈ Θ2 = {D0 +1,...,N} 

Esto puede ser expresado como que el comerciante debe decidir entre dos 

hipótesis: 

H:D ∈ Θ1 contra K : D ∈ Θ2 

y esta decisión debe hacerla a partir del valor observado X. 

Un test será una regla de decisión basada en X. Esto puede ser expresado 

matemáticamente como una función ϕ(X) que toma dos valores: 1 y 0. 1 

significará que rechaza H y por lo tanto acepta K y 0 que acepta H. 

Supongamos por ejemplo que N = 1000, n = 100 y D0 = 150. Un posible 

test está dado por: 

ϕ1(X) = 

 

1 si X>15 

0 si X ≤ 15 . 

De acuerdo con este test se rechaza el cargamento, es decir, se decide que 

D ∈ Θ2 si se observa en la muestra más de 15 manzanas en mal estado. Si 

se quisiera usar un test más seguro para el comprador (en el sentido de que 

la probabilidad de aceptar un cargamento con más de 150 manzanas en mal 

estado sea menor) se podría usar, por ejemplo, 

ϕ2(X) = 

 

1 si X>5 

0 si X ≤ 5 . 

Por ahora, no tenemos ningún criterio para elegir entre dos tests, ni entre 

los muchos otros que podrían definirse. En los párrafos siguientes atacaremos 

el problema de definir criterios para comparar diferentes tests, y el de elegir 

un test óptimo. 

Ejemplo 2. Supongamos que para curar una determinada enfermedad se 

emplea una droga que cura la enfermedad con una probabilidad θ0 conocida. 

Se ha obtenido una nueva droga y se quiere determinar si vale la pena cambiar 

la droga. Para ello se prueba la nueva droga con n pacientes obteniéndose 

los resultados X1,...,Xn, donde Xi = 1 indica que el i−ésimo paciente se 

curó y Xi = 0, que no se curó. Sea θ la probabilidad de curar de la nueva 

droga, la cual no es conocida.

6.2. FORMULACION GENERAL DEL TEST DE HIPOTESIS 3 

Se está dispuesto a cambiar de droga si la nueva droga es tal que θ ≥ 

θ0 +0.05, es decir si esta última cura al menos un 5% más de pacientes que 

la vieja. Luego, se tiene que decidir entre dos hipótesis: 

H:θ ≤ θ0 +0.05 y K : θ>θ0 +0.05 

Un test será una función ϕ(X1,...,Xn) que toma valores 1 ó 0. 

ϕ(X1,...,Xn) = 0 indicará que aceptamos H, es decir, no se continúa usando 

la droga vieja. 

Para ejemplificar, supongamos que θ0 =0.8 yn = 100. Un posible test 

sería 

⎧ 

⎪⎨ 

ϕ(X1,...,Xn) = 

⎪⎩ 

1 si 100 

i=1 Xi ≥ 85 

0 si 100 

i=1 Xi < 85 . 

Este test acepta K, es decir, cambia de droga si 85 pacientes o más 

resultan curados. 

Si se quisiera ser más conservador, es decir, estar más seguro que la droga 

tiene la probabilidad de curar mayor que 0.85 antes de tomar la decisión de 

cambiarla, se podría usar el test 

⎧ 

⎪⎨ 

ϕ(X1,...,Xn) = 

⎪⎩ 

1 si 100 

i=1 Xi ≥ 90 

0 si 100 

i=1 Xi < 90 . 

6.2 Formulación general del problema del test de 

hipótesis 

Supongamos que se obtiene un vector aleatorio X =(X1, ..., Xn) cuya función 

de distribución pertenece a la familia F (x, θ) con θ ∈ Θ ⊂ IR p . Sean Θ1 y 

Θ2 tales que Θ1 ∩ Θ2 = ∅ yΘ1 ∪ Θ2 = Θ. Un test para este problema será 

una regla basada en X para decidir entre las dos hipótesis 

H:θ ∈ Θ1 contra K : θ ∈ Θ2 

Definición 1. Se llama test a una función ϕ : IR n → [0, 1]. 

Se dice que un test ϕ es no aleatorizado si toma solamente los valores 0 

ó1.


Cuando ϕ(X) = 1 se rechazará la hipótesis H y por lo tanto, se aceptará 

K. En cambio, ϕ(X) = 0 indicará que se acepta H. 

Si el test toma valores distintos de 0 y 1 se dice que es un test aleatorizado. 

En este caso, el valor ϕ(x) indica con que probabilidad se rechaza H si se 

observa X = x, es decir, ϕ(x) =P (rechazar H|X = x) 

Por ejemplo, ϕ(X) =1/2 indicará que si observamos el vector X debemos 

rechazar H con probabilidad 1/2, es decir, podríamos tirar una moneda y si 

saliera ceca aceptarla, ϕ(X) =1/6 indicará que si observamos X debemos 

rechazar H con probabilidad 1/6; en este caso podríamos tirar un dado; si 

saliese 1 rechazaríamos H y en los demás casos la aceptaríamos. 

La aleatorización introduce en la decisión un elemento extraño al fenómeno 

estudiado, como el lanzamiento de una moneda o un dado, con que hemos 

ejemplificado. Por lo tanto, se evitan en lo posible los tests aleatorizados en 

los casos prácticos. Sin embargo, desde el punto de vista teórico, conviene 

como se verá, admitir la posibilidad de tests aleatorizados. 

En la mayoría de las situaciones, los tests vienen dados como funciones 

de un estadístico, llamado estadístico del test, que, por ejemplo, como en el 

caso de la sección anterior, sirven para rechazar H para valores grandes. En 

general, el estadístico del test sirve para medir la diferencia entre los datos 

y lo que se espera de ellos bajo H. 

Definición 2. La región crítica R, de un test ϕ, es el conjunto de puntos 

X que llevan a la decisión de rechazar H y la región de aceptación A es el 

conjunto de puntos X que llevan a aceptar H. 

Dado un test para un problema de test de hipótesis se podrá incurrir en 

dos tipos de error. 

Definición 3. Se llamará error de tipo 1 al que se comete al rechazar la 

hipótesis H, cuando es verdadera. Se llamará error de tipo 2 al que se comete 

al aceptar H, cuando esta hipótesis es falsa. 

Luego, para un test no aleatorizado, la probabilidad de cometer un error 

de tipo 1 será P θ (R), cuando θ ∈ Θ1. Mientras que la probabilidad de error 

de tipo 2, será P θ (A) =1− P θ (R), cuando θ ∈ Θ2. 

Ejemplo 1 (donde se visualiza la necesidad de introducir tests aleatorizados). 

Supongamos que una empresa automotriz sostiene que domina la 

mitad del mercado, esto es que la mitad de los compradores de automóviles


se deciden por alguno de los modelos fabricados por ella. Se desea testear si 

la afirmación hecha por la empresa es exagerada o no. 

Supongamos que se toma una muestra de compradores que, para facilidad 

en los cálculos, consideraremos de tamaño n =6. 

Las hipótesis en cuestión son: 

H:θ =1/2 contra K : θ


Tendría sentido, en esta situación, plantearse un test de la forma 

⎧ 

⎪⎨ 1 si T2 

y tratar de elegir γ de forma tal que tenga el error de tipo I deseado. Para 

eso se requiere 

P 1 (ϕ(X) =1)=P 1 (T


Definición 4. Se llama función de potencia del test ϕ(X) a la función 

βϕ(θ) =P θ (rechazar H), 

donde P θ indica la probabilidad cuando θ es el valor verdadero. 

En el caso que ϕ es un test no aleatorizado se tiene 

βϕ(θ) =P θ (ϕ(X) =1)=E θ (ϕ(X)) . 

Si ϕ es aleatorizado, ϕ(X) puede interpretarse como la probabilidad de 

rechazar H, condicional a observar X; luego se tiene 

y resulta 

ϕ(X) =P (rechazar H|X) 

βϕ(θ) =P θ ( rechazar H) = E θ (P ( rechazar H|X)) = E θ (ϕ(X)) . 

Por lo tanto, en todos los casos se tiene 

βϕ(θ) =E θ (ϕ(X)) . 

Expresemos ahora las probabilidades de los errores de un test en términos 

de βϕ(θ) 

• La probabilidad que ocurra un error de tipo 1 será βϕ(θ) para θ ∈ Θ1. 

• La probabilidad que ocurra un error de tipo 2 será (1 − βϕ(θ)) para 

θ ∈ Θ2. 

Un buen test deberá tener errores de tipo 1 y 2 pequeños, y por lo tanto 

debe tener una función de potencia βϕ(θ) que tome valores cercanos a 0 para 

θ ∈ Θ1 y valores cercanos a 1 para θ ∈ Θ2. 

En realidad, no podemos hacer ambos errores pequeños simultáneamente. 

Más aún, para un tamaño de muestra dado para que decrezca la probabilidad 

de que ocurra un error de tipo 1, debemos aumentar la probabilidad de que 

ocurra un error de tipo 2 (o sea disminuir la potencia). Si queremos que 

ambos sean pequeños debemos aumentar la cantidad de observaciones. 

Por ejemplo, en el Ejemplo 1, el test ϕ∗ cumplía βϕ∗(1/2) = 0.10. Por 

otra parte, se verifica que βϕ∗(θ) =(1−θ)6 +5.4 θ(1 − θ) 5 , con lo cual


tenemos la tabla siguiente que da la función de potencia del test ϕ ∗ para 

algunos valores de θ ∈ [0, 1/2] 

θ 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 

βϕ∗(θ) 1 0.944 0.85 0.736 0.616 0.498 0.389 0.295 0.215 0.149 0.1 

Como vemos, la función de potencia de ϕ ∗ es una función decreciente de 

θ en el intervalo [0, 1/2] que tiende a 1 cuando θ → 0 y tiende a 0.1 cuando 

θ → 1/2. Es decir, la probabilidad de error 2 tiende a 0 cuando θ → 0ypor 

lo tanto, se logran detectar bien alternativas lejanas a la hipótesis H. 

Para los procedimientos que daremos 1−P (error de tipo 1) ≥ P (error de tipo 2). 

El objetivo será encontrar procedimientos con la menor probabilidad de tipo 

2, fijada la probabilidad de tipo 1, es decir, buscaremos procedimientos con 

potencia grande para θ ∈ Θ2. 

6.2.1 Nivel de significación de un test 

La teoría clásica de test de hipótesis considera que el error de tipo 1 es mucho 

más grave que el error de tipo 2. Es decir, la situación de las hipótesis H y K 

no es simétrica; es mucho más grave rechazar H cuando es cierta que aceptarla 

cuando es falsa. Esto significa que se debe tener mucha evidencia sobre 

que H es falsa antes de rechazarla. Se observa en el Ejemplo 2 de la sección 

1, que esta simetría corresponde a una situación real, puesto que antes de 

cambiar de droga, es decir rechazar H, habría que tener un grado de certeza 

muy alto respecto de que la nueva droga es mejor que la primera. Desde 

ahora en adelante H se denominará hipótesis nula yKhipótesis alternativa. 

Veamos un ejemplo que servirá para fijar ideas y clarificar la mecánica 

de elección de H 

Ejemplo 1. Supongamos que se quiere decidir si un paciente tiene o no tuberculosis, 

para proceder, en caso afirmativo, a suministrarle un tratamiento 

adecuado. Tendremos entonces dos hipótesis: 

(A) El señor W está tuberculoso; 

(B) El señor W no está tuberculoso. 

Es claro que el médico responsable de la decisión considerará mucho más 

grave rechazar (A) cuando es cierta, que rechazar (B) cuando es cierta (esto 

es lo mismo que aceptar H cuando es falsa), puesto que en el primer caso


se expone al paciente a una agudización grave de su enfermedad, mientras 

que en el segundo se le aplicará un tratamiento que no necesita y cuyas 

consecuencias nunca serán comparables con el daño de no tratarlo estando 

enfermo. 

Luego la hipótesis nula será H : “El señor W está tuberculoso”; y la 

alternativa K : “El señor W no está tuberculoso”. 

Como dijimos más arriba, supondremos que el error de tipo 1 (rechazar 

H cuando es cierta), es el más grave. Por lo tanto se va requerir que el 

error de tipo 1 del test a utilizar no sea mayor que un número 0


Es decir, la probabilidad de error cuando θ2 es el verdadero valor es menor 

para el test ϕ que para cualquier otro ϕ ∗ de nivel menor o igual que α (o 

sea, (1 − βϕ(θ2)) ≤ (1 − βϕ ∗(θ2)) ). 

Es claro que si cambiamos la alternativa θ2 ∈ Θ2 por otro θ ′ 2 ∈ Θ2, el test 

más potente para esta θ ′ 2 no tiene porque coincidir con el correspondiente a 

θ2. Por ejemplo, si se quiere testear H : µ = µ0 contra K : µ = µ0, para una 

distribución N(µ, σ2 0 ) con σ2 0 conocida, resultará 

Θ1 = {µ0} ; Θ2 = {µ ∈ IR : µ = µ0}. 

Si se toma una alternativa fija µ1 µ0, como veremos más adelante. 

Definición 7. Diremos que un ϕ es un test uniformemente más potente, 

UMP, de nivel menor o igual que α para H : θ ∈ Θ1 contra K : θ ∈ Θ2, 

si ϕ es el más potente de nivel menor o igual que α para todo θ2 ∈ Θ2, es 

decir, si el mismo test es óptimo cualquiera sea la alternativa fija θ2 ∈ Θ2 

considerada. 

Lo ideal sería encontrar (cuando existan) tests uniformemente más potentes 

de nivel menor o igual que α. Estudiaremos casos donde estos tests 

existen y otros donde no. En estos últimos habrá que elegir otros criterios 

para seleccionar el test a usar. 

Definición 8. El nivel crítico o p-valor es el menor valor de significación 

para el que rechazamos la hipótesis H para una observación dada x. 

En el Ejemplo 1 de la sección 2, por ejemplo si observamos X =2el 

p-valor del test {ϕk} que rechaza para valores pequeños de T , será p =7/64. 

Prefijado el nivel de significación α, y evaluado el p- valor, p, del test 

utilizado, rechazaremos H si p

6.3. HIPOTESIS SIMPLE CONTRA HIPOTESIS SIMPLE 11 

hecho lleva a una contradicción y por lo tanto, a abandonar nuestra hipótesis 

de que H era cierta. 

Es tentador pensar que el p–valor da la probabilidad de que H sea cierta, 

pero no es así. No importa cuántas veces se repita el experimento, H será 

siempre cierta o siempre falsa. Es decir, el nivel crítico da la probabilidad 

de obtener evidencia en contra de la hipótesis nula suponiendo que ésta sea 

cierta. Por lo tanto, cuanto menor sea el p-valor más evidencia en contra de 

H tenemos, suponiendo que H es cierta. 

6.3 Tests óptimos para el caso de hipótesis simple 

contra hipótesis simple 

El caso más simple de problema de test de hipótesis es la situación donde 

Θ1 yΘ2 contengan cada uno un elemento. En este caso, se dice, H y K son 

hipótesis simples. 

Si Θ1 tuviera más de un elemento, H se llamará hipótesis compuesta, y 

lo mismo vale para K en relación a Θ2. 

En el caso en que H y K sean simples, un problema de test de hipótesis 

será de la forma 

H:θ = θ1 contra K : θ = θ2 

Supongamos que X sea un vector discreto (o continuo) bajo θ1 y θ2 y que 

las funciones de densidad correspondientes sean p(x, θ1) yp(x, θ2). Luego, 

intuitivamente, parece razonable rechazar H si la “probabilidad” de obtener 

el valor observado x bajo θ2 es grande comparada con la “probabilidad” de 

obtener x bajo θ1, es decir, cuando 

p(x, θ2) 

L21 = ≥ kα 

p(x, θ1) 

donde kα es una constante que depende del nivel α. Por lo tanto, se podría 

pensar en construir un test de la forma 

⎧ 

⎪⎨ 1 si L21 >kα 

ϕ(X) = γα si L21 = kα 

⎪⎩ 0 si L21 kαp(x, θ1) 

ϕ(X) = γα si p(x, θ2) =kα p(x, θ1) 

(6.1) 

⎪⎩ 0 si p(x, θ2)


donde 0 ≤ γα ≤ 1, correspondiendo el caso kα =+∞ al test 

 

1 si p(x, θ1) =0 

ϕ(X) = 

0 si p(x, θ1) > 0 

(6.2) 

que tiene nivel 0. 

Si queremos que el test (6.1) tenga nivel α debemos elegir kα y βα tales 

que se cumpla 

E (ϕ(X)) = α. (6.3) 

θ1 

Notemos que entonces, en este tipo de test kα es una función decreciente 

de α. 

Un test de la forma (6.1) se llama test del cociente de verosimilitud. El 

siguiente teorema establece que se pueden elegir kα y γα de manera que 

se cumpla (6.3) y que usando estos valores en (6.1) se obtiene un test más 

potente de nivel menor o igual que α. Sin embargo, los tests de la forma (6.1) 

no garantizan la unicidad y es por ello, que para obtenerla le permitiremos 

a γα depender de x. 

Teorema 1 (de Neyman–Pearson) 

(i) Dado 0 ≤ α ≤ 1 se pueden elegir kα y γα, 0 ≤ γα ≤ 1, tales que el test 

de la forma (6.1) satisfaga (6.3). 

(ii) Sea un test de la forma (6.1) que satisface (6.3) para α>0 ydela 

forma (6.2) para α =0. Luego ese test es el más potente de nivel 

menor o igual que α para 

H:θ = θ1 contra K : θ = θ2 . 

(iii) Si ϕ∗ es un test uniformemente más potente de nivel α > 0 para 

H:θ = θ1 versus K : θ = θ2 entonces ϕ∗ es de la forma 

⎧ 

⎪⎨ 1 si p(x, θ2) >kαp(x, θ1) 

ϕ(X) = γα(x) 

⎪⎩ 0 

si p(x, θ2) =kα p(x, θ1) 

si p(x, θ2)



0 0 

1 si p(x, θ1) =0 

Eθ1 (ϕ(X)) = Pθ1 (L21 >kα)+γPθ1 (L21 = kα) 

= 1−Pθ1 (L21 ≤ kα)+γα Pθ1 (L21 = kα) . 

Si existe una constante k0 tal que P θ1 (L21 ≤ k0) =α tomamos kα = k0 y 

γα = 0. En caso contrario, siempre existe k0 tal que 

P θ1 (L21 kα p(x, θ1) . 

. 

.


Luego, de acuerdo con (6.1), se tendrá ϕ(x) = 1 y por lo tanto ϕ(x) ≥ ϕ ∗ (x), 

de donde, U(x) ≥ 0. 

Si p(x, θ2) =kα p(x, θ1), es claro que U(x) =0. 

Finalmente, si 

p(x, θ2) 0} excepto quizás 

en un conjunto de medida 0. Por lo tanto, como ϕ(x) =0sip(x, θ1) > 0y 

ϕ(x) =1sip(x, θ1) = 0 se tiene


βϕ(θ2) − βϕ∗(θ2) = Eθ2 (ϕ(X)) − Eθ2 (ϕ∗ (X)) 

 

= 

[ϕ(X) − ϕ 

{x: p(x,θ1)=0} 

∗ (X)] p(x, θ2)dx 

 

+ 

[ϕ(X) − ϕ 

{x: p(x,θ1)>0} 

∗ 

(X)] p(x, θ2)dx 

= 

[1 − ϕ ∗ (X)] p(x, θ2)dx ≥ 0 . 

{x: p(x,θ1)=0} 

(iii) Haremos primero el caso α = 0. Sea ϕ el test de la forma (6.2) y 

ϕ ∗ un test de nivel 0. Hemos visto que entonces ϕ ∗ (x) = 0 en el conjunto 

{x : p(x, θ1) > 0} excepto quizás en un conjunto N1 de medida 0. Luego, 

P θ1 (N1) =P θ2 (N1) =0yϕ ∗ (x) =ϕ(x) en{x : p(x, θ1) > 0}−N1. 

Falta ver que ϕ ∗ (x) =ϕ(x) =1en{x : p(x, θ1) =0} excepto quizás un 

conjunto de medida 0. Como 

se cumple 

0 = 

= 

 

 

E θ2 (ϕ(X)) = E θ2 (ϕ∗ (X)) 

{x: p(x,θ1)=0} 

 

+ 

{x: p(x,θ1)>0} 

[ϕ(X) − ϕ ∗ (X)] p(x, θ2)dx 

[ϕ(X) − ϕ ∗ (X)] p(x, θ2)dx 

[1 − ϕ ∗ (X)] p(x, θ2)dx . 

{x: p(x,θ1)=0} 

Pero ϕ∗ ≤ 1 luego el integrando es no negativo y la integral es cero si y solo 

si ϕ∗ = 1 en el conjunto {x : p(x, θ1) =0}∩{x : p(x, θ2) > 0} excepto 

quizás en un conjunto N2 de medida 0. Luego si 

N = N1 ∪N2 ∪ ({x : p(x, θ1) =0}∩{x : p(x, θ2) =0}) 

se tiene P θ1 (N )=P θ2 (N )=0yϕ∗ (x) =ϕ(x) para x /∈ N. 

Supongamos ahora α>0. Sea ϕ ∗ un test de nivel α uniformemente 

más potente para H versus K y ϕ el test dado por (6.1) que también es 

uniformemente más potente para H versus K por lo visto en (ii). Luego se 

cumple 

E θ1 (ϕ(X)) = E θ1 (ϕ∗ (X)) y E θ2 (ϕ(X)) = E θ2 (ϕ∗ (X)) (6.8)


Por otra parte, la función U(x) definida en (6.7) es no negativa y por (6.8) 

U(x)dx = 0. Luego, U(x) debe ser nula excepto en un conjunto N de 

medida 0. Es decir, (ϕ(x) − ϕ ∗ (x))(p(x, θ2) − kα p(x, θ1)) = 0 para x /∈ N. 

Por lo tanto, ϕ(x) =ϕ ∗ (x) en el conjunto {x : p(x, θ2) = kα p(x, θ1)}∩N c 

de donde el resultado. 

Observación. Si L21 es una variable continua no hay que preocuparse por 

γα, ya que P (L21 = kα) =0. 

Ejemplo 1. Sea X1,...,Xn una muestra aleatoria de una distribución 

perteneciente a N(µ, σ2 0 ) donde σ2 0 es conocido, y supongamos que se quiere 

decidir entre H : µ = µ1 contra K : µ = µ2. Supongamos primero que 

µ2 >µ1. En este caso, el test más potente rechaza H si 

p(X1,...,Xn; µ2) 

≥ kα 

p(X1,...,Xn; µ1) 

donde p(X1,...,Xn; µ) indica la densidad conjunta de X =(X1,...,Xn) 

cuando Xi tiene distribución N(µ, σ 2 0 ). Luego, ϕ(X1,...,Xn) =1si 

o sea ϕ(X1,...,Xn) =1si 

L21 = (2 πσ0) −n/2 e −Σn i=1 (Xi−µ2) 2 /2σ 2 0 

(2 πσ0) −n/2 e −Σn i=1 (Xi−µ1) 2 /2σ 2 0 

≥ kα 

e −Σn i=1 (Xi−µ2) 2 /2σ 2 0 +Σn i=1 (Xi−µ1) 2 /2σ 2 0 ≥ kα 

o equivalentemente, ϕ(X1,...,Xn) =1si 

n 

n 

− 

(Xi − µ2) 

i=1 

2 + 

(Xi − µ1) 

i=1 

2 ≥ 2σ 2 0 ln kα . 

Desarrollando el primer miembro de esta desigualdad, se tiene que 

ϕ(X1,...,Xn) =1si 

n 

2(µ2 − µ1) Xi ≥ 2σ 2 0 ln kα + nµ 2 2 − nµ 2 1 . 

i=1 

Como µ2 − µ1 > 0, se tiene que ϕ(X1,...,Xn) =1si 

n 

i=1 

Xi ≥ 2σ2 0 ln kα + nµ 2 2 − nµ2 1 

2(µ2 − µ1)


pero el segundo miembro de esta desigualdad es una constante, llamémosla 

k ′ α. 

Luego, el test más potente es de la forma 

n 

ϕ(X1,...,Xn) =1 si 

Xi ≥ k 

i=1 

′ α 

(puesto que las regiones de rechazo planteadas inicialmente y esta última 

son equivalentes). La constante k ′ α deberá elegirse de modo que 

Eµ1 (ϕ(X1,...,Xn) =α (6.9) 

Para encontrar el k ′ α que hace que (6.9) se satisfaga, necesitaríamos una 

tabla de la distribución N(nµ1,nσ2 0 ), pero para trabajar más cómodamente 

transformamos el estadístico n i=1 Xi en otro cuya distribución sea N(0, 1). 

Para esto escribimos el test de la siguiente forma ϕ(X1,...,Xn) =1si 

√ n (Xn − µ1) 

σ0 

≥ √ n (k′ α/n − µ1) 

σ0 

donde Xn =(1/n) n i=1 Xi. Nuevamente √ n(k ′ α/n − µ1)/σ0 es una constante 

que llamaremos k ′′ α. Luego el test puede ser escrito de la forma 

ϕ(X1,...,Xn) =1 si √ n (Xn − µ1) 

≥ k ′′ α. 

Calculemos k ′′ α. De acuerdo con el Teorema de Neyman–Pearson, debería 

tenerse que 

σ0 

α = Eµ1 (ϕ(X1,...,Xn)) 

= Pµ1 (ϕ(X1,...,Xn) =1) 

= Pµ1 (√n (Xn − µ1) 

≥ k ′′ α) . 

σ0 

Pero cuando µ es µ1, √ n(Xn − µ1)/σ0 es N(0, 1). Luego, k ′′ α debe ser igual 

a zα. 

Finalmente, el test queda como 

⎧ 

⎪⎨ 

ϕ(X1,...,Xn) = 

⎪⎩ 

1 si √ n (X−µ1) 

σ0 

0 si √ n (X−µ1) 

σ0 

≥ zα 


En este caso, no debemos preocuparnos por el caso en que L21 = kα ya 

que la variable L21 es continua. 

Si se hubiera tenido que µ2 −zα 

(6.11) 

De (6.10) resulta que el test más potente para H : µ = µ1 contra 

K:µ = µ2 no depende de µ2, es decir es el mismo cualquiera sea µ2 >µ1. 

Por lo tanto, el test dado por (6.10) es el test uniformemente más potente 

de nivel menor o igual que α para H : µ = µ1 contra K : µ>µ1. 

Análogamente el test dado por (6.11) es el test uniformemente más potente 

de nivel menor o igual que α para H : µ = µ1 contra K :µ


C. limµ→+∞ βϕ(µ) =1− limx→−∞ Φ(x) =1− 0=1. 

D. limµ→−∞ βϕ(µ) =1− limx→+∞ Φ(x) =1− 1=0. 

E. Para µ2 fijo, µ2 >µ1, se tiene 

lim 

n→∞ βϕ(µ2) =1− lim Φ(x) =1− 0=1. 

n→∞ 

De aquí se deduce que tomando n grande, para un µ2 fijo, la probabilidad 

de error de tipo 2 se puede hacer tan pequeño como se quiera. 

De A y B resulta que 

sup βϕ(µ) =α, 

µ≤µ1 

y luego ϕ resulta un test de nivel igual que α para H : µ ≤ µ1 contra 

K:µ>µ1. 

Veamos ahora que ϕ es el test de nivel ≤ α, uniformemente más potente 

para estas mismas hipótesis. Sea ϕ∗ otro test de nivel menor o igual que α 

para H : µ ≤ µ1; también tendrá este nivel para H : µ = µ1, pero ϕ es el test 

uniformemente más potente para H : µ = µ1 contra K : µ>µ1. Entonces 

se tiene 

βϕ(µ) ≥ βϕ∗(µ) ∀ µ>µ1 

y ϕ resulta el test más potente de nivel menor o igual que α para H : µ ≤ µ1 

contra K : µ>µ1. 

Luego hemos demostrado el siguiente teorema 

Teorema 2. 

(i) El test ϕ dado por (6.10) es el uniformemente más potente de nivel 


(a) H : µ = µ1 contra K : µ>µ1 

y para 

(b) H : µ ≤ µ1 contra K : µ>µ1. 

Su función de potencia viene dada por 

βϕ(µ) =1− Φ(zα + √ n(µ1 − µ)/σ0). 

(b) En forma similar el test ϕ dado por (6.11) es el uniformemente más 

potente de nivel menor o igual que α para 

(a) H : µ = µ1 contra K : µ


y para 

(b) H : µ ≥ µ1 contra K : µ

6.4. FAMILIAS DE CVM 21 

cumple la especificación). Tenemos que calcular la función de potencia del 

test. De acuerdo con lo que hemos visto, será 

 

 

(µ − 0.7) 

βϕ(µ) =Φ −1.65 − 8 = Φ(54.35 − 80µ) . 

0.1 

Si queremos, por ejemplo, calcular βϕ(0.65), esto será uno menos la probabilidad 

de rechazar el producto cuando µ =0.65, luego 

βϕ(0.65) = Φ(54.35 − 80 × 0.65) = Φ(2.35) = 0.99 . 

Esto quiere decir que la probabilidad de rechazar la droga, cuando µ =0.65 

es 0.01. 

6.4 Tests uniformemente más potentes para hipótesis 

unilaterales 

Hemos visto en el parágrafo anterior la forma de encontrar tests más potentes 

en el caso de hipótesis simples 

H:θ = θ0 contra K : θ = θ1 . 

Esta situación es principalmente de interés teórico puesto que aún las situaciones 

más simples que se presentan en la práctica, cuando θ ∈ IR, implican 

problemas de la forma 

(a) H : θ = θ0 contra K : θ>θ0 

(b) H : θ = θ0 contra K : θθ0 

(d) H : θ ≥ θ0 contra K : θµ0 

H:µ ≤ µ0 contra K : µ>µ0 

H:µ = µ0 contra K : µ


H:µ ≥ µ0 contra K : µ 0} 

Observación. A los efectos de la Definición 1 si p(x,θ1) =0yp(x,θ2) > 0, 

el cociente p(x,θ2)/p(x,θ1) se considerará igual a ∞. 

Es sencillo mostrar que las familias exponenciales a un parámetro con 

c(θ) estrictamente monótona son de CVM. 

Teorema 1. Sea la familia exponencial a un parámetro con función de 

densidad o probabilidad p(x,θ)=A(θ)e c(θ)r(x) h(x) con θ ∈ Θ ⊂ IR. Luego, 

(i) Si c(θ) es estrictamente creciente la familia dada es de CVM en r(X) 

(ii) Si c(θ) es estrictamente decreciente la familia dada es de CVM en 

−r(X) 

Demostración. Sólo demostraremos (i). La parte (ii) se demuestra idénticamente. 

En este caso se tiene si θ1


es una función creciente. 

Por otro lado, por ser c estrictamente monótona, θ1 = θ2 implica 

c(θ1) = c(θ2) y luego p(x,θ1) yp(x,θ2) corresponden a distribuciones diferentes. 

Luego, la familia dada es de cociente de verosimilitud monótono en 

T = r(X). 

Vamos a mostrar ahora que existen familias de CVM que no son exponenciales. 

Para ello consideramos el siguiente ejemplo 

Ejemplo 1. Consideremos una muestra aleatoria (X1,...,Xn) de una distribución 

U[0,θ] con θ ∈ IR + . 

Luego, la familia de distribuciones conjuntas de X =(X1,...,Xn) se 

puede escribir 

p(x,θ)= 1 

θ n I [0,θ]( max 

1≤i≤n xi) I [0,∞]( min 

1≤i≤n xi) . (6.13) 

Mostraremos que esta familia es de CVM en r(X) =max1≤i≤n Xi. Sea 

θ2 >θ1, luego, el conjunto S = {t : r(x) con p(x,θ1) > 0op(x,θ2) > 0} 

resulta igual al intervalo [0,θ2]. Definiendo 

gθ1θ2 (t) =θn 1 

θ n 2 

I [0,θ2](t) 

I [0,θ1](t) , 

se tiene que 

p(x,θ2) 

= gθ1θ2 (r(x)). 

p(x,θ1) 

Po lo tanto, bastará mostrar que gθ1θ2 (t) es monótona en S. Pero 

gθ1θ2 (t) = 

 

(θ1/θ2) n si 0 ≤ t ≤ θ1 

∞ si θ1 ≤ t ≤ θ2 . 

Con lo cual, gθ1θ2 (t) es monótona y la familia dada por (6.13) es de 

CVM en r(X). Por otro lado, la familia dada por (6.13) no es exponencial 

de acuerdo a lo visto en el ejercicio 2 del Capítulo 3. 

Ejemplo 2. Consideremos una variable aleatoria X con distribución C(θ, 1), 

θ ∈ IR, o sea, su densidad viene dada por 

p(x, θ) = 

1 

π [1 + (x − θ) 2 ] .


Veremos que esta familia no es de cociente de verosimiltud monótono en 

r(X) =X. 

Sea θ2 >θ1, luego, se tiene que 

p(x, θ2) 

p(x, θ1) = 

 

1+(x− θ1) 2 

[1 + (x − θ2) 2 = gθ1θ2 (x). 

] 

Sin embargo, la función gθ1θ2 (x) no es monótona en x ya que 

(x) =1. 

limx→−∞ gθ1θ2 (x) = limx→+∞ gθ1θ2 

El siguiente teorema nos permite encontrar tests UMP para familia con 

la propiedad de CVM. 

Teorema 1. Sea X un vector aleatorio con función de probabilidad o 

densidad perteneciente a la familia p(x,θ) con θ ∈ Θ ⊂ IR, que tiene la 

propiedad de ser de CVM en T = r(X). Luego 

(i) Existen kα y γα tales que si definimos 

se satisface 

⎧ 

⎪⎨ 1 si T>kα 

ϕ(X) = γα 

⎪⎩ 0 

si T = kα 

si Tθ1 . 

(iii) βϕ(θ) es monótona no decreciente para todo θ y estrictamente creciente 

para todo θ tal que 0 θ1 . 

Demostración: La demostración de (i) es idéntica a la dada en el Teorema 

de Neyman-Pearson.


Demostraremos (ii) suponiendo que si θ2 >θ1 

p(x,θ2) 

= gθ1θ2 (r(x)) 

p(x,θ1) 

con gθ1θ2 (t) estrictamente creciente. (Esta hipótesis no es necesaria, basta 

con que sea no decreciente.) En este caso, dado θ2 >θ1 el test dado por 

(6.14) se puede escribir como 

⎧ 

⎪⎨ 1 si gθ1θ2 (r(X)) >gθ1θ2 (kα) 

ϕ(X) = γα si gθ1θ2 (r(X)) = gθ1θ2 (kα) 

⎪⎩ 0 si gθ1θ2 (r(X)) k′ α 

p(X,θ2) 

p(X,θ1) = k′ α 

⎪⎩ 

p(X,θ2) 

0 si 

p(X,θ1) θ1, 

luego ϕ es el test UMP de nivel menor o igual que α para H : θ = θ1 contra 

K:θ>θ2. 

(iii) Sólo demostraremos que βϕ(θ) es monótona no decreciente. 

Sean θ ∗ y θ ∗∗ cualesquiera, tales que θ ∗ < θ ∗∗ . Si llamamos α ∗ = 

Eθ∗(ϕ(X)), resulta por (ii) que ϕ(X) es el test más potente a nivel menor o 

igual que α∗ para las hipótesis simples 

Consideremos ahora el test 

H:θ = θ ∗ contra K : θ = θ ∗∗ . 

ϕ ∗ (X) =α ∗ . 

ϕ ∗ es un test de nivel α ∗ , luego ϕ ∗ es menos potente que ϕ en θ ∗∗ , es decir, 

Eθ ∗∗(ϕ∗ (X)) ≤ Eθ ∗∗(ϕ(X))


pero, 

y además 

por lo tanto, 

Eθ ∗∗(ϕ∗ (X)) = α ∗ = Eθ ∗(ϕ(X)) = βϕ(θ ∗ ) 

Eθ ∗∗(ϕ(X)) = βϕ(θ ∗∗ ) 

βϕ(θ ∗ ) ≤ βϕ(θ ∗∗ ) , 

con lo que queda demostrado que βϕ(θ) es monótona no decreciente. 

Para demostrar (iv), primero mostraremos que ϕ(X) es un test de nivel 


H:θ ≤ θ1 contra K : θ>θ1 

o sea que 

sup βϕ(θ) ≤ α. 

θ≤θ1 

Como βϕ(θ) es monótona creciente se tiene: 

sup βϕ(θ) =βϕ(θ1) =α 

θ≤θ1 

por (6.15). 

Consideremos ahora otro test ϕ ∗ (X) de nivel menor o igual que α para 

H:θ ≤ θ1 contra K : θ>θ1, luego ϕ ∗ (X) es de nivel menor o igual que α 

para H : θ = θ1 contra K : θ>θ1, pero por (ii) ϕ(X) es el test uniformemente 

más potente para este problema, por lo tanto 

βϕ(θ) ≥ βϕ ∗(θ) ∀ θ>θ1 . 

Análogamente se demuestra el siguiente teorema 

Teorema 2. Sea X un vector aleatorio con función de densidad perteneciente 

a la familia p(x,θ) con θ ∈ Θ ⊂ IR. Supongamos que esta familia es 

CMV en r(X). Luego 

(i) Existen kα y γα tales que si definimos 

⎧ 

⎪⎨ 1 si r(X) kα 

se satisface 

(6.16) 

Eθ1 (ϕ(X)) = α (6.17)


(ii) Sea ϕ(X) es un test de la forma (6.16) que satisface (6.17). Luego ϕ 

es el test uniformemente más potente a nivel menor o igual que α para 

H:θ = θ1 contra K : θ


kα y γα deberán ser elegidos de modo que 

Eθ1 (ϕ(X)) = Pθ1 (T>kα)+γαPθ1 (T = kα) =α. (6.18) 

Como T tiene distribución Bi(θ, n) que es discreta, puede suceder que 

exista o no k tal que 

Pθ1 (T>k)=α (6.19) 

Si existe k satisfaciendo (6.19), tomaremos ese valor como kα y γα =0. 

Si no existe k que verifique (6.19), siempre existirá k tal que 

Pθ1 (T>k) kα) 

Pθ1 (T ≥ kα) 

. 

− Pθ1 (T>kα) 

Por (6.20) resulta que 0 1/3 con 

nivel de significación menor o igual que 0.1. 

Cuando θ =1/3, la distribución de T = 3 i=1 Xi está dada por 

y por lo tanto, tenemos 

t 0 1 2 3 

pT (t) 8 

27 

12 

27 

6 

27 

1 

27 

k −1 0 1 2 3 

19 

P 1 (T >k) 1 

3 

27 

7 

27 

1 

27 

0


Por lo tanto, no existe kα que verifique (6.19) y el valor kα = 2 verifica 

(6.20), pues 

y γα será entonces 

P 1 (T >2) = 

3 

1 

27 

< 0.1 1) = 

3 

7 

27 

=0.27 . 

Como ejercicio se sugiere graficar la función de potencia de este test, y 

siendo el test aleatorizado, sugerir un mecanismo para decidir en caso en que 

T =2. 


perteneciente a la familia U[0,θ]. 

El test uniformemente más potente para H : θ ≤ θ1 contra K : θ>θ1, 

será de la forma 

donde kα verifica 

es 

⎧ 

⎪⎨ 

ϕ(X) = 

⎪⎩ 

1 si max 

1≤i≤n Xi ≥ kα 

0 si max 

1≤i≤n Xi


6.5 Tests insesgados 

En la mayoría de los casos en que la hipótesis alternativa es una hipótesis 

compuesta, no existe un test uniformemente más potente. 

Ejemplo 1. Supongamos que se tiene una muestra aleatoria X1,...,Xn 

de una distribución N(µ, σ 2 0 ) con σ0 conocido y se desea testear H : µ = µ0 

contra K : µ = µ0. Es fácil demostrar que no existe un test uniformemente 

más potente a nivel menor o igual que α. 

Supongamos que tal test existiera y llamémoslo ϕ; entonces será el test 

más potente a nivel menor o igual que α para 

y para 

H1 : µ = µ0 contra K1 : µ = µ1 (µ1 >µ0) 

H2 : µ = µ0 contra K2 : µ = µ2 (µ2

6.5. TESTS INSESGADOS 31 

llamaremos insesgados y luego se buscará el test uniformemente más potente 

en esta clase. 

Definición 1. Sea una familia de distribuciones F (x, θ) con θ ∈ Θ. Se dirá 

que un test ϕ para testear H : θ ∈ Θ1 contra K : θ ∈ Θ2 es insesgado si 

sup 

θ∈Θ1 

βϕ(θ) ≤ inf βϕ(θ) 

θ∈Θ2 

El sentido de esta desigualdad es que la probabilidad de rechazar H 

cuando θ ∈ Θ2, es decir cuando H es falsa, no pude ser menor que cuando 

θ ∈ Θ1, es decir cuando H es verdadera. 

Por lo tanto, un test insesgado de nivel α tiene función de potencia menor 

o igual que α para θ ∈ Θ1 y mayor o igual que α para θ ∈ Θ2. 

Observemos que un test UMP de nivel α es insesgado. 

Observación. Si la función de potencia βϕ(θ) del test ϕ es una función 

continua de θ y ϕ es un test insesgado de nivel α, entonces βϕ(θ) debe valer 

α en la frontera ΘF entre Θ1 yΘ2. 

En particular, si Θ ⊂ IR,Θ1 = {θ1} yΘ2 =Θ−{θ1}, o sea, si estamos 

testeando H : θ = θ1 contra K : θ = θ1, yϕ es un test insesgado de nivel α 

se tiene 

βϕ(θ1) =α 

βϕ(θ) ≥ α ∀θ = θ1 . 

Por lo tanto, si la función de potencia βϕ(θ) es derivable respecto de θ, ϕ 

debe cumplir 

β ′ ϕ (θ1) = ∂ 

βϕ(θ)|θ=θ1 =0. (6.22) 

∂θ 

En el caso particular de las familias exponenciales, la función de potencia 

de cualquier test es derivable y por lo tanto, los tests insesgados cumplen 

(6.22). 

Definición 2. Se dirá que un test ϕ para testear H : θ ∈ Θ1 contra 

K:θ ∈ Θ2 es uniformemente más potente de nivel α entre los insesgados, 

IUMP, si 

(a) ϕ tiene nivel α, o sea, 

sup βϕ(θ) =α 

θ∈Θ1


(b) ϕ es insesgado, es decir, 

βϕ(θ) ≥ α ∀θ ∈ Θ2 

(c) Dado otro test ϕ ∗ insesgado y de nivel α se verifica 

βϕ(θ) ≥ βϕ ∗(θ) ∀θ ∈ Θ2 . 

En la próxima Sección daremos un procedimiento general para encontrar 

tests para un problema determinado. En muchos casos este procedimiento 

da como resultado el test insesgado uniformente más potente. 

La teoría de los tests insesgados uniformemente más potentes escapa a 

las posibilidades de este curso y puede verse en Lehmann [3] o en Ferguson 

[2]. 

6.6 Test del cociente de máxima verosimilitud 

Supongamos que se observa un vector X, cuya distribución tiene función de 

densidad p(x, θ), θ ∈ Θ y se quiere testear H : θ ∈ Θ1 contra K : θ ∈ Θ2 

(Θ1 ∪ Θ2 = Θ). 

Un procedimiento intuitivamente razonable y que da buenos resultados 

en una gran variedad de situaciones es el siguiente. 

Tomemos estimadores de máxima verosimilitud de θ, suponiendo θ ∈ Θ1, 

llamémoslo θ1 y análogamente suponiendo θ ∈ Θ2, θ2; luego 

y 

p(X, θ1) = max p(X, θ) 

θ∈Θ1 

p(X, θ2) = max p(X, θ) . 

θ∈Θ2 

Si θ1 y θ2 no dependieran de la muestra, podríamos considerar el test 

más potente para testear H* : θ = θ1 contra K* : θ = θ2, el cual es de la 

forma 

⎧ 

⎪⎨ 1 si Lkα 


L = 1 

L21 

= p(X, θ1) 

p(X, θ2)

6.6. TEST DEL COCIENTE DE MÁXIMA VEROSIMILITUD 33 

y kα se elige de manera que el test resulte de nivel α. 

En algunos casos θ1 y θ2 pueden no existir, pero siempre tiene sentido 

hablar de L definido por 

L = sup p(X, θ) 

θ∈Θ1 

sup p(X, θ) 

θ∈Θ2 

Intuitivamente, este test puede interpretarse como rechazando H : θ ∈ Θ1 

cuando “el valor más probable de Θ2” tiene probabilidad considerablemente 

más grande que “el valor más probable de Θ1”. 

En muchos casos, como por ejemplo cuando la dimensión de Θ1 es menor 

que la dimensión de Θ = Θ1 ∪ Θ2, yp(x, θ) es continua, resulta que 

sup 

θ∈Θ2 

p(X, θ) = sup p(X, θ) (6.23) 

θ∈Θ 

En este caso, el test del cociente de máxima verosimilitud resulta equivalente 

a 

⎧ 

⎪⎨ 1 

ϕ(X) = 

⎪⎩ 

si L∗ γα 

kα 


L ∗ = sup p(X, θ) 

θ∈Θ1 

supθ∈Θ p(X, θ) . 

En general, es más fácil aplicar la forma del test basada en L∗ cuando es 

posible, es decir, cuando (6.23) se cumple. 

Ejemplo 1. Se tiene una muestra aleatoria X1,...,Xn de una distribución 

N(µ, σ 2 0 ) con σ0 conocido y se quiere testear H : µ = µ0 contra K : µ = µ0 

Como en este caso Θ1 = {µ0} tiene dimensión cero (se reduce a un 

punto) y Θ = {µ : −∞


Luego, 

y como 

resulta 

n 

L ∗ 1 

− 

2 σ 

= e 2 (Σ 

0 

n i=1 (Xi−µ0) 2−Σn i=1 (Xi−X) 2 ) 

(Xi − µ0) 

i=1 

2 − 

n 

(Xi − X) 

i=1 

2 = n(X − µ0) 2 

L ∗ n 

− 

2 σ 

= e 2 (X−µ0) 

0 

2 

. 

Sea T = √ n|X − µ0|/σ0. Luego, L∗ = g(T ) con g decreciente. Luego ϕ(X) 

es equivalente a 

⎧ 

⎪⎨ 

ϕ(X) = 

⎪⎩ 

1 si √ |X − µ0| 

n ≥ k 

σ0 

′ α 

0 si √ n |X−µ0| 

σ0 


y 

Como 


sup 

(µ,σ2 p(X,µ,σ 

)∈Θ1 

2 )= 

sup 


)∈Θ 

2 )= 

Por lo tanto, L ∗ está dado por 

se tiene que 

Sea ahora 

n 

L ∗ = 

(Xi − µ0) 

i=1 

2 = 

1 

e n 

2 (2π) n 

n 2 i=1 

1 

e n 

2 (2π) n 

n 2 i=1 

ni=1 (Xi − X) 2 

ni=1(Xi − µ0) 2 

n 

n 

2 

n 

(Xi−µ0) 2 

n 

2 

n 

(Xi−X) 2 

n 

2 

(Xi − X) 

i=1 

2 + n(X − µ0) 2 

L ∗ 

n(X − µ0) 2 

= 1+ ni=1 (Xi − X) 2 

n 

− 2 

T = √ (X − µ0) 

n 

s 

donde s 2 = n i=1 (Xi − X) 2 /(n − 1). Luego, 

L ∗ = 

 

1+ 

1 

T 2 

n−1 

Como la función 1/(1 + t2 /(n − 1)) es monótona decreciente de |t|, el test 

del cociente de máxima verosimilitud resulta equivalente a 

 

1 si |T |≥kα 

ϕ(X) = 

0 si |T |


Como T tiene distribución student con n − 1 grados de libertad, resulta 

kα = t α 

n−1, 2 . 

Obsérvese que este test es completamente análogo al del Ejemplo 1, con 

la diferencia que se reemplaza σ por s y zα/2 por t α 

n−1, 2 . 


N(µ, σ 2 ) con media y varianza desconocidas. Supongamos que se quiere 

testear H : µ ≤ µ0 contra K : µ>µ0. En este caso, 

y 

Θ1 = {(µ, σ 2 ):µ ≤ µ0, σ 2 > 0} 

Θ2 = {(µ, σ 2 ):µ>µ0, σ 2 > 0} . 

Luego, la dimensión de Θ1 es igual a la de Θ2, y el test del cociente de 

máxima verosimilitud deberá hacerse con L y no con L∗ . Como 

resulta 

p(X,µ,σ 2 )=(2πσ 2 n 1 

− − 

) 2 e 2σ2 ln p(X,µ,σ 2 )=− n n 

ln(2π) − 

2 2 ln σ2 − 1 

2σ2 Teniendo en cuenta que 

n 

(Xi − µ) 

i=1 

2 = 

n 

n (Xi−µ) 2 

i=1 

n 

(Xi − X) 

i=1 

2 + n(X − µ) 2 

(6.24) 

(Xi − µ) 

i=1 

2 . (6.25) 

se obtiene que el estimador de máxima verosimilitud de µ en Θ1, es igual a 

 

X si X ≤ µ0 

µ1 = 

(6.26) 

µ0 si X>µ0 

y que el estimador de máxima verosimilitud de µ en Θ2, es igual a 

 

X si X>µ0 

µ2 = 

(6.27) 

µ0 si X ≤ µ0 . 

El estimador de máxima verosimilitud de σ 2 , para θ ∈ Θ1 es 

σ 2 1 = 1 

n 

n 

(Xi − µ1) 

i=1 

2


y para θ ∈ Θ2 es 

σ 2 2 

= 1 

n 

Luego, reemplazando en (6.24) se obtiene 

para j =1, 2, de donde 

L = 

n 

max 


)∈Θj 

2 )=[2eπ 

ni=1 (Xi − µ2) 2 

ni=1 (Xi − µ1) 2 

n 

2 

= 

y usando (6.26) y (6.27) se deduce 

⎧ 

⎪⎨ 

L = 

⎪⎩ 

Si llamamos 

se tiene 

(Xi − µ2) 

i=1 

2 . 

n 

ni=1 (Xi − X) 2 + n(X − µ0) 2 

ni=1 (Xi − X) 2 

ni=1 (Xi − X) 2 

ni=1 (Xi − X) 2 + n(X − µ0) 2 

⎧ 

⎪⎨ (1 + 

L = 

⎪⎩ 

(1 + 

T = 

(Xi − µj) 

i=1 

2 /n] 

n 

− 2 

ni=1 (Xi − X) 2 + n(X − µ2) 2 

ni=1 (Xi − X) 2 +(X − µ1) 2 

√ n(X − µ0) 

n 

2 

n 

2 

n (Xi−X) 2 

i=1 

n−1 

T 2 n 

n−1 ) 2 si X ≤ µ0 

T 2 n 

n−1 

)− 2 si X>µ0 . 

si X ≤ µ0 

n 

2 

si X>µ0 .


Luego, el test del cociente de máxima verosimilitud es de la forma 

⎧ 

1 

⎪⎨ 

ϕ(X) = 

⎪⎩ 

⎧ 

⎪⎨ 

si 

⎪⎩ 

T 2 

1+ 

n − 1 ≤ kα 

0 

⎧ 

⎪⎨ 

si 

⎪⎩ 

1 

T 2 ≤ kα 

1+ n−1 

T 2 

1+ 

n − 1 

y 

y 

X ≤ µ0 

X>µ0 

(A) 

(B) 

>kα 

1 

T 2 >kα 

1+ n−1 

y 

y 

X ≤ µ0 

X>µ0 

(C) 

(D) . 

Tomemos ahora kα < 1 (con kα ≥ 1 se llega al mismo resultado), en este caso 

la primera desigualdad de (A) no puede ocurrir y la primera desigualdad de 

(C) ocurre siempre, luego ϕ(X) se transforma en 

⎧ 

1 

⎪⎨ 

ϕ(X) = 

0 

⎪⎩ 

Esto es equivalente a 

⎧ 

1 

si 

T 2 ≤ kα y 

1+ n−1 

⎧ 

X ≤ µ0 

⎪⎨ 

si 1 

⎪⎩ T 2 >kα y 

1+ n−1 

X>µ0 

X>µ0 . 

⎪⎨ ⎧ 

ϕ(X) = ⎪⎨ 

⎪⎩ 

0 si 

⎪⎩ 

de donde, se deduce que 

 

ϕ(X) = 

1 si |T |≥k ′ α y T>0 

|T | 0 

T


Se puede pensar que el caso más desfavorable, en el cual hay mayor 

probabilidad de rechazar H, es en el caso límite µ = µ0; por lo tanto parece 

razonable elegir k ′ α de manera que 

P µ0,σ 2(T ≥ k′ α)=α. 

Pero cuando µ = µ0, T tiene distribución de Student con n − 1 grados 

de libertad, y por lo tanto debemos tomar 

El test ϕ resulta entonces 

 

ϕ(X) = 

k ′ α = tn−1,α . 

1 si T ≥ tn−1,α 

0 si T


donde U es una variable aleatoria N(0, 1) y V tiene distribución χ 2 n, independientes. 

Luego, 

pero 

P (X∆ ≥ k|V = v) =P 

cn,k(∆) = P (X∆ ≥ k) =E [P (X∆ ≥ k|V )] , 

 

 

U +∆ 

v 

≥ k |V = v =1− Φ(k − ∆) . 

v/n n 

Luego esta última probabilidad, para k, n y v fijos, es una función creciente 

de ∆. Por lo tanto, si ∆1 < ∆2 se tiene 

P (X∆1 ≥ k|V = v)


σ2 , U tiene distribución N(0, 1) y V tiene distribución χ2 n−1 . Luego T tiene 

distribución Tn−1(∆) donde ∆ = √ n(µ − µ0)/σ. Además, 

βϕ(µ, σ 2 )=P µ,σ2(T ≥ tn−1,α) =cn−1,tn−1,α (∆) . 

Resulta, por el Teorema 1, que βϕ(µ, σ 2 ) es una función creciente de µ 

para cada σ 2 fijo. Como, por otra parte, βϕ(µ0,σ 2 )=α, para todo σ 2 ,se 

tiene 

βϕ(µ, σ 2 )


o equivalentemente 

P σ 2 0 

ni=1 (Xi − X) 2 

σ 2 0 

≥ kα 

σ2 

= α. 

0 

Como n i=1(Xi − X) 2 /σ 2 0 tiene distribución χ2 n−1 cuando σ2 = σ 2 0 ,se 

tiene que 

kα = σ 2 0 χ2 n−1,α . 

Para mostrar que el test tiene realmente nivel de significación α, bastará 

mostrar que la función de potencia es una función creciente y esto se deduce 

como sigue. Sea Dn(k) =P (Y ≥ k), donde Y es una variable aleatoria con 

distribución χ 2 n. Luego 

βϕ(σ 2 ) = P σ 2 

= P σ 2 

= Dn−1 

n 

 

(Xi − X) 

i=1 

2 ≥ σ 2 0χ2n−1,α ni=1 (Xi − X) 2 

σ2 ≥ σ2 0χ2n−1,α σ2 

 

σ2 0χ2 

n−1,α 

σ 2 

ya que cuando la varianza de cada Xi es σ 2 resulta que n i=1 (Xi − X) 2 /σ 2 

tiene distribución χ 2 n−1 . 

Como Dn(k) es una función decreciente de k, βϕ(σ 2 ) es una función 

creciente de σ 2 . 


N(µ, σ 2 ) con µ y σ 2 desconocidos y supongamos que se quiere testear 

H:σ 2 = σ 2 0 contra K : σ2 = σ 2 0 . 

En este caso, el test del cociente de máxima verosimilitud es de la forma 

⎧ 

1 si 

⎪⎨ 

ϕ(X) = 

1 si 

ni=1 (Xi − X) 2 

σ 2 0 

ni=1 (Xi − X) 2 

σ 2 0 

⎪⎩ 

0 en cualquier otro caso, 

, 

≥ k ′ α 


Para que ϕ tenga nivel de significación α, se debe cumplir que 

βϕ(σ 2 ni=1 (Xi − X) 

0) = Pσ2 0 

2 

σ2 ≥ k 

0 

′ 

α 

ni=1 (Xi − X) 

+Pσ2 0 

2 

σ2


aproximación es buena con tal que n no sea muy pequeño. Luego, el test 

que se usa viene dado por 

⎧ 

⎪⎨ 

⎪⎨ 1 si 

ϕ(X) = 

⎪⎩ 

⎪⎩ 

⎧ 

n 

(Xi − X) 

i=1 

2 ≥ σ 2 0χ 2 n−1, α 

2 

n 

0 si σ 2 0 χ2 n−1,1− α 

2 

(Xi − X) 

i=1 

2 ≤ σ 2 0χ 2 n−1,1− α 

2 

≤ 

n 

(Xi − X) 

i=1 

2 ≤ σ 2 0χ2n−1, α 

2 

Se puede mostrar que los tests obtenidos en los Ejemplos 1 a 5 son IUMP. 

Para estos resultados pueden consultarse el Capítulo 5 de Lehmann [3] o el 

Capítulo 5 de Ferguson [2]. 

6.7 Test con nivel de significación asintótico 

La mayoría de los test de hipótesis, por ejemplo, los del cociente de verosimilitud, 

son de la forma 

⎧ 

⎪⎨ 1 si T>kα 

ϕ(X) = γα si T = kα 

⎪⎩ 0 si T

6.7. TEST CON NIVEL DE SIGNIFICACIÓN ASINTÓTICO 45 

Ejemplo 1. Supongamos que X1,...,Xn es una muestra aleatoria de una 

distribución desconocida con media µ y varianza σ2 . 

Supongamos que se quiere testear H : µ ≤ µ0 contra K : µ > µ0. 

Llamemos 

ni=1 Xi 

ni=1 (Xi − X) 2 

X = 

y s 

n 

2 = 

. 

n − 1 

Ya hemos demostrado que 

√ (X − µ0) 

n 

s 

converge en distribución a la N(0, 1) cuando la esperanza de las variables Xi 

es µ0. Luego, si definimos 

⎧ 

⎪⎨ 

ϕn(X1,...,Xn) = 

⎪⎩ 

1 si √ (X − µ0) 

n ≥ zα 

s 

0 si √ (X − µ0) 

n


o bien, en forma paramétrica 

Θ1 = {θ =(θ1, ...θp) :θ1 = h1(λ),...,θp = hp(λ), λ ∈ Λ}, 

donde λ =(λ1,...,λp−j) yΛ⊂ IR p−j de dimensión p − j. 

Supongamos que se está interesado en el siguiente problema de test de 

hipótesis: 

H:θ ∈ Θ1 contra K : θ ∈ Θ2 

con Θ = Θ1 ∪ Θ2. Luego, el test del cociente de máxima verosimilitud es de 

la forma 

 

ϕ(X) = 


1 si L ∗ (X) ≤ kα 

0 si L ∗ (X) >kα 

L ∗ (X) = sup θ∈Θ1 

p(X, θ) 

supθ∈Θ p(X, θ) . 

Para determinar kα es necesario conocer la distribución de L ∗ (X) bajo H. 

Muchas veces esta es muy complicada y puede depender del valor particular 

θ ∈ Θ1 que se considere. Sin embargo, se puede mostrar que, bajo condi- 

ciones de regularidad muy generales en p(x, θ), la distribución asintótica de 

Z = −2lnL∗ cuando θ ∈ Θ1 es χ2 j . Luego un test de nivel de significación 

asintótico α está dado por 

⎧ 

⎪⎨ 1 

ϕ(X) = 

⎪⎩ 

si Z ≥ χ2 j,α 

0 si Z 0} es independiente de θ.


(B) Para todo x, p(x, θ) tiene derivada tercera respecto de θ continua y tal 

que 

 

 

∂3 ln p(x, θ) 

∂θ3 

 

= ∂2ψ(x, θ) 

∂θ2 

 

≤ K 

para todo x ∈S y para todo θ ∈ Θ, donde 

ψ(x, θ) = 

∂ ln p(x, θ) 

∂θ 

(C) Si h(X) es un estadístico tal que Eθ[|h(X)|] < ∞ para todo θ ∈ Θ 

entonces se tiene 

 

∂ ∞ ∞ 

... 

h(x) 

∂θ 

∂p(x,θ) 

dx 

∂θ 

si 

(D) 

−∞ 

−∞ 

donde dx =(dx1,...,dxn). 

∞ 

h(x)p(x,θ)dx = 

∞ 

... 

−∞ −∞ 

0


Luego, θn verifica 

ℓ ′ ( n 

θn) = ψ(Xi, 

i=1 

θn) =0. 

Con lo cual, desarrollando en serie de Taylor alrededor de θn se obtiene: 

ℓ(θ0) − ℓ( θn) = ℓ ′ ( θn)(θ0 − θn)+ 1 

2 ℓ′′ (ξ 1 n )(θ0 − θn) 2 

= 1 

2 (θ0 − θn) 2 

 

n 

 

= 1 

n(θ0 − 

2 

θn) 2 1 

n 

ψ 

i=1 

′ (Xi,ξ 1 n ) 

donde ξ 1 n es un punto intermedio entre θn y θ0 y 

i=1 

n 

ψ 

i=1 

′ (Xi,θ0)+Rn , 

Rn = 1 

n(θ0 − 

2 

θn) 2 n 1 

ψ 

n 

i=1 

′ (Xi,ξ 1 n 1 

n ) − ψ 

n 

i=1 

′ 

(Xi,θ0) . 

Aplicando el Teorema del valor medio se obtiene 

Rn = 1 

n(θ0 − 

2 

θn) 2 n 1 

ψ 

n 

′′ (Xi,ξ 2 n)(ξ 1 

n − θ0) (6.30) 

donde ξ 2 n es un punto intermedio entre ξ1 n y θ0. Observemos que por ser θn 

consistente, se obtiene entonces que ξ j n → θ0 en probabilidad para j =1, 2. 

Reemplazando, obtenemos que 

 

Z =2 ℓ( 

θn) − ℓ(θ0) = 

ni=1 ψ ′ (Xi,θ0). 

 

n( θn − θ0) 2 

An − Rn 

donde An = − 1 

n 

Hemos visto en el Teorema 1 de 3.17 que cuando θ = θ0 

√ 

n( θn 

1 

− θ0) → N(0, ) en distribución, 

I1(θ0) 

con lo cual 

(6.31) 

I1(θ0) n ( θn − θ0) 2 → χ 2 1 en distribución. (6.32) 

Por otra parte, la ley de los grandes números implica que 

n 1 

n 

ψ 

i=1 

′ (Xi,θ0) → E(ψ ′ (X1,θ0)) en probabilidad. (6.33)


Pero, 

Eθ0 (ψ′ (X1,θ0)) = −I1(θ0) , 

luego, usando (6.32) y (6.33) se obtiene que 

 

n ( θn − θ0) 2 

An → χ 2 1 en distribución. (6.34) 

Por lo tanto, a partir de (6.31) y (6.34) deducimos que bastará probar que 

Rn → 0 en probabilidad. (6.35) 

Como |ψ ′′ (Xi,θ)| ≤K para todo θ, se tiene que 

 

n 1 

ψ 

2n 

′′ (Xi,ξ 2 n)(ξ 1 

 

K 

n − θ0) ≤ 

2 |(ξ1 n − θ0)| 

i=1 

y luego como ξ1 n → θ0 en probabilidad se deduce que: 

n 

1 

n 

i=1 

ψ ′′ (Xi,ξ 2 n)(ξ 1 n − θ0) → 0 en probabilidad. (6.36) 

Pero, (6.32) implica que n( θn − θ0) 2 está acotado en probabilidad, luego 

(6.35)se obtiene de (6.30) y (6.36). 

Ejemplo 1. Sea X1,...,Xn una muestra de una distribución perteneciente 

a la familia Bi(θ, 1), 0 < θ < 1, y supongamos que se quiere testear 

H:θ = θ0 contra K : θ = θ0. Luego el test del cociente de máxima verosimilitud 

es 

L ∗ p(x,θ0) 

= 

supθ∈Θ p(x, θ) = θT 0 (1 − θ0) n−T 

X T , 

(1 − X) n−T 

donde T = n i=1 Xi. Luego, 

Z = −2lnL ∗ =2T ln X 

θ0 

+2(n − T )ln 

tiene una distribución asintótica χ2 1 

estará dado por 

⎧ 

⎪⎨ 1 si Z>χ2 1,α 

ϕ(X) = 

⎪⎩ 

(1 − X) 

1 − θ0 

bajo H y un test de nivel asintótico 

0 si Z


6.8 Relación entre regiones de confianza y test 

En esta sección se estudiará la relación que existe entre tests y regiones de 

confianza. 

Supongamos que se tiene un vector aleatorio X con distribución perteneciente 

a la familia F (x, θ) con θ ∈ Θ y supongamos que para cada θ0 

se tiene un test no aleatorizado de nivel α, ϕ θ0 , para H : θ = θ0 contra 

K:θ = θ0. 

Se puede construir una región de confianza de nivel (1 − α) para θ 

definiendo 

S(X) ={θ : ϕ θ (X) =0} 

Es decir, S(X) es el conjunto de todos los θ ∈ Θ tales que la hipótesis de 

que el valor verdadero es θ, es aceptada cuando se observa X. 

Demostraremos que S(X) asídefinida, es una región de confianza de nivel 

1 − α para θ 

P θ (θ ∈ S(X)) = P θ (ϕ θ (X) =0)=1− P θ (ϕ θ (X) =1)=1− α. 

Recíprocamente, si se tiene una región de confianza S(X) de nivel 1 − α 

para θ, se puede construir un test de nivel α, ϕ θ0 ,paraH:θ = θ0 contra 

K:θ = θ0. 

Definamos 

 

ϕ (X) = θ0 

1 si θ0 /∈ S(X) 

0 si θ0 ∈ S(X) . 

Mostraremos que este test tiene realmente nivel de significación α. Efectivamente, 

P θ0 (ϕ θ0 (X) =1)=P θ0 (θ0 /∈ S(X)) = 1−P θ0 (θ0 ∈ S(X)) = 1−(1−α) =α. 


N(µ, σ 2 ). 

En el capítulo anterior hemos demostrado que un intervalo de confianza 

a nivel (1 − α) para µ viene dado por 

S(X) =[X − t n−1, α 

2 

s 

√ n , X + t n−1, α 

2 

Construyamos el test correspondiente de nivel α para 

H:µ = µ0 contra K: µ = µ0 

s 

√ n ]

6.8. RELACIÓN ENTRE REGIONES DE CONFIANZA Y TEST 51 

ϕµ0 (X) = 

 

1 si µ0 /∈ S(X) 

0 si µ0 ∈ S(X) 

pero µ0 ∈ S(X) si y sólo si |µ0 − X| ≤t n−1, α 

2 (s/√ n), luego 

ϕµ0 (X) = 

⎧ 

⎪⎨ 

⎪⎩ 

1 si √ |X − µ0| 

n >t α 

n−1, 

s 

2 

0 si √ |X − µ0| 

n ≤ t α 

n−1, 

s 

2 . 

Por lo tanto, este test coincide con el obtenido en el Ejemplo 2 de 6.6, 

cuando obtuvimos el test del CMV para este problema. Recíprocamente, a 

partir de esta familia de tests si se usara el procedimiento indicado anteriormente 

para obtener intervalos de confianza, se llegará al intervalo inicial. 

Ejemplo 2. Sea X1,...,Xn1 

una muestra aleatoria de una distribución 

N(µ1,σ 2 )yseaY1,...,Yn2 una muestra aleatoria de una distribución N(µ2,σ 2 ) 

independiente de la primera. Se ha visto en el Capítulo 5 que 


T = 

 

n1 n2 

n1 + n2 

(X − Y − (µ1 + µ2)) 

s 

s 2 

n1 

1 

= 

(Xi − X) 

n2 + n1 − 2 

2 n2 

+ (Yi − Y ) 2 

 

i=1 

tiene distribución de Student con n1 + n2 − 2 grados de libertad y que un 

intervalo de confianza para µ1 − µ2 está dado por 

 

 

 

n1 + n2 

S(X) = 

X − Y − t n1+n2−2, α 

2 s 

n1 n2 

i=1 

, X − Y + t (n1+n2−2), α 

2 s 

 

n1 + n2 

n1 n2 

Luego, si se quiere testear H : µ1 − µ2 = λ0 contra K : µ1 − µ2 = λ0, con 

nivel de significación α, se puede obtener un test haciendo 

 

1 si λ0 /∈ S(X) 

ϕλ0 (X) = 

0 si λ0 ∈ S(X) 

pero λ0 ∈ S(X) si y sólo si 

 

n1 n2 

n1 + n2 

|X − Y − λ0| 

s 

≤ t n1+n2−2, α 

2 .


Por lo tanto, 

ϕλ0 (X) = 

⎧ 

⎪⎨ 

⎪⎩ 

1 si 

0 si 

n1 n2 

n1 + n2 

n1 n2 

n1 + n2 

|X − Y − λ0| 

s 

|X − Y − λ0| 

s 

≥ t n1+n2−2, α 

2 

θ0 

H2 : θ = θ0 contra K2 : θ

6.9. COTAS DE CONFIANZA ÓPTIMAS 53 

i) S(X) es una región de confianza de nivel 1 − α para θ. 

ii) Si ϕ∗ es cualquier otro test no aleatorizado de nivel α para esas 

θ0 

hipótesis y 

S ∗ (X) ={θ ∈ Θ:ϕ ∗ θ (X) =0} 

entonces Pθ{θ0 ∈ S(X)} ≤Pθ{θ0 ∈ S ∗ (X)} para todo θ>θ0. 

Demostración. i) Por la definición de S(X) sabemos que θ ∈ S(X) siy 

sólo si ϕθ(X) = 0, luego 

Pθ{θ ∈ S(X)} = Pθ{ϕθ(X) =0} =1− α 

por ser ϕθ de nivel α. 

ii) Igual que en i) S ∗ (X) será una región de confianza de nivel 1 − α. Por 

ser ϕθ0 (X) el test UMP para H1 contra K1 resulta que 

o sea, 

Por lo tanto, 

βϕθ (θ) ≥ βϕ 0 ∗ (θ) ∀ θ>θ0 

θ0 Pθ{ϕθ0 (X) =1}≥Pθ{ϕ ∗ θ0 (X) =1} ∀ θ>θ0 . 

Pθ{ϕθ0 (X) =0}≤Pθ{ϕ ∗ θ0 (X) =0} ∀θ>θ0 . 

pero como θ0 ∈ S(X) si y sólo si ϕθ0 (X) =0yθ0 ∈ S∗ (X) si y sólo si 

ϕ∗ (X) = 0, resulta 

θ0 

Pθ{θ0 ∈ S(X)} ≤Pθ{θ0 ∈ S ∗ (X)} ∀θ>θ0 . 

Un teorema similar puede demostrarse para H2 contra K2. 

Veamos cómo son las regiones S(X) en el caso del Teorema 1. 

Teorema 2. Sea X con distribución perteneciente a una familia F (x,θ) 

de cociente de verosimilitud monótono en T = r(X). Supongamos que la 

función de distribución FT (t, θ) de T es continua para todo θ . Sea, para 

cada θ0 ∈ Θ, ϕθ0 (X) el test UMP para H1 : θ = θ0 contra K1 : θ>θ0, o sea: 

 

ϕθ0 (X) = 

1 si T>kα(θ0) 

0 si T ≤ kα(θ0)


Si además FT (t, θ) es continua en θ para cada t fijo, la región de confianza 

S(X) ={θ ∈ Θ:ϕθ(X) =0} = {θ ∈ Θ:T = r(X) ≤ kα(θ)} 

es el intervalo I =[θ(X), +∞), donde 

θ(X) = inf{θ ∈ Θ:T ≤ kα(θ)} . 

Demostración. Ya hemos demostrado que si se tiene una familia 

de cociente de verosimilitud monótono en T = r(X), el test UMP para 

H1 : θ = θ0 contra K1: θ>θ0 es de la forma 

ϕθ0 (X) = 

⎧ 

⎪⎨ 

⎪⎩ 

con kα(θ0) yγα(θ0) tales que 

1 si T>kα(θ0) 

γα(θ0) si T = kα(θ0) 

0 si Tkα(θ0) 

ϕθ0 (X) = 

0 si T ≤ kα(θ0) . 

Mostraremos que 

(a) kα(θ) es una función no decreciente de θ. 

(b) kα(θ) es una función continua a derecha. 

(a) Sabemos que por ser ϕθ0 el test UMP de nivel α para H1 contra K1, la 

función de potencia de ϕθ0 es mayor o igual que el nivel para todo θ>θ0. 

Luego, dado cualquier θ1 >θ0 se cumple 

Como además 

tendremos 

α = Eθ0 (ϕθ0 (X)) = Pθ0 (T ≥ kα(θ0)) 

≤ Eθ1 (ϕθ0 (X)) = Pθ1 (T ≥ kα(θ0)) . 

α = Eθ1 (ϕθ1 (X)) = Pθ1 (T ≥ kα(θ1)) , 

α = Pθ1 (T ≥ kα(θ1)) ≤ Pθ1 (T ≥ kα(θ0)) ,


y por lo tanto, es posible tomar kα(θ1) tal que 

kα(θ1) ≥ kα(θ0) . 

Con lo cual, kα(θ) es una función no decreciente de θ. 

(b) Sea θn una sucesión decreciente que converge a θ, luego como kα(.) es 

no decreciente se tiene 

kα(θn) ≥ kα(θ) (6.37) 

Sea k = limn→∞ kα(θn) =infn≥1 kα(θn). Por (6.37) k ≥ kα(θ), bastará 

mostrar que k ≤ kα(θ). 

Como k ≤ kα(θn) se cumple 

Pθn (T ≤ k) ≤ Pθn (T ≤ kα(θn)) = α. (6.38) 

Pero además, como FT (k, θ) es continua en θ se tiene 

Por lo tanto, (6.38) y (6.39) implican que 

Pθ(T ≤ k) = lim Pθn (T ≤ k) . (6.39) 

n→∞ 

Pθ(T ≤ k) ≤ α = Pθ (T ≤ kα(θ)) 

luego, es posible tomar kα(θ) tal que k ≤ kα(θ). Con lo cual, k = kα(θ) y 

kα(θ) es continua a derecha. 

Veamos ahora que θ ∈ S(X) si y sólo si θ ≥ θ(X). 

Si θ ∈ S(X) entonces T ≤ kα(θ) de donde θ ∈{θ ∈ Θ:T ≤ kα(θ)} y 

θ ≥ θ(X) que es el ínfimo de este conjunto. 

Si θ>θ(X) entonces existe θ ′ ∈ Θ tal que T ≤ kα(θ ′ ) con θ(X) θ0, o sea: 

 

ϕθ0 (X) = 

1 

0 

si 

si 

T>kα(θ0) 

T ≤ kα(θ0)


suponiendo que la distribución, FT (t, θ), deT (X) es continua para todo θ. 

Supongamos además FT (t, θ) es continua en θ para cada t fijo. 

En estas condiciones 

θ(X) = inf{θ ∈ Θ:T ≤ kα(θ)} 

es una cota inferior para θ uniformemente óptima. 

Demostración. De acuerdo a la definición de cota inferior con nivel de 

confianza 1 − α uniformemente óptima deberá demostrarse que 

i) Pθ(θ ≥ θ(X)) = 1 − α para todo θ, 

ii) si θ ∗ es otra cota inferior a nivel α para θ 

Eθ(D(θ, θ)) ≤ Eθ(D(θ, θ ∗ )) para todo θ (6.40) 

donde D es una medida de la subevaluación de θ respecto de θ, definida 

por 

 

θ − θ 

D(θ, θ) = 

0 

si 

si 

θ>θ 

θ ≤ θ . 

(i) se deduce del Teorema 1, ya que 

S(X) ={θ : θ ≥ θ(X)} 

es un intervalo de nivel de confianza 1 − α. 

(ii) Demostraremos que dada cualquier otra cota θ ∗ a nivel 1 − α 

Pθ{θ ′ ≥ θ} ≤Pθ{θ ′ ≥ θ ∗ } para todo θ ′ ≤ θ. (6.41) 

Dado θ ′ ∈ Θ definamos 

ϕ ∗ 

θ ′(X) = 

1 si θ ′ ≤ θ ∗ 

0 si θ ′ >θ ∗ . 

Luego ϕ∗ θ ′(X) es un test de nivel α para H : θ = θ′ contra K : θ>θ ′ . Como 

′(X) es el UMP para estas hipótesis, por Teorema 1, ii) sabemos que 

ϕθ 

Pθ{θ ′ ≥ θ(X)} ≤Pθ{θ ′ ≥ θ ∗ (X)} para todo θ ≥ θ ′ 

y como esto se puede hacer para todo θ ′ ∈ Θ resulta (6.41).


Se podría demostrar que si θ cumple (6.41) entonces θ cumple (6.40). 

Intuitivamente esto parece razonable, puesto que una cota inferior θ de θ 

que cumple (6.41) es, en algún sentido, la “mayor” cota inferior y, en este 

caso, el defecto que presenta θ respecto de θ debería ser lo más pequeño 

posible. Sin embargo la demostración de esta implicación está fuera de los 

alcances de este curso. (Para la demostración ver Lehmann [3], ejercicio 21, 

página 117.) 


U[0,θ]. Sabemos que el test UMP para H : θ = θ0 contra K : θ>θ0 es de la 

forma 

ϕθ0 (X) = 

⎧ 

⎨ 

⎩ 

1 si max 

1≤i≤n Xi >θ0 n√ 1 − α 

0 si max 

1≤i≤n Xi ≤ θ0 n√ 1 − α 

En este caso, si T = max1≤i≤n Xi y kα(θ) =θ n√ 1 − α 

resulta igual a 

S(X) ={θ ∈ IR : ϕθ(X) =0} = {θ ∈ IR : T ≤ kα(θ)} 

S(X) = {θ ∈ IR : max 

1≤i≤n Xi ≤ θ n√ 1 − α} = 

= {θ ∈ IR : θ ≥ 

max 

1≤i≤n Xi 

n√ 1 − α } 

y θ será 

max 

1≤i≤n 

θ(X) = 

Xi 

n√ 

1 − α 

puesto que este es el menor valor que puede tomar θ que pertenece a S(X). 

Resulta entonces que 

max 

1≤i≤n 

I =[θ(X), +∞) =[ 

Xi 

n√ , +∞) 

1 − α 

es un intervalo de confianza unilateral para θ de nivel 1 − α y que θ es la 

mejor cota inferior para θ. 


N(µ, σ 2 0 ) con σ2 0 conocido. Sabemos que el test UMP para H : µ = µ0 contra


K:µ>µ0, es de la forma 

ϕµ0 (X) = 

⎧ 

⎪⎨ 

⎪⎩ 

1 si √ (X − µ0) 

n >zα 

σ0 

0 si √ (X − µ0) 

n ≤ zα 

σ0 

Procediendo en forma similar a la del Ejemplo 1, resulta 

Luego, 

es la mejor cota inferior para µ y 

σ0 

S(X) ={µ ∈ IR : µ ≥ X − zα √ } . 

n 

σ0 

µ(X) =X − zα √ 

n 

σ0 

I =[µ(X), +∞) =[X− zα √ , +∞) 

n 

es un intervalo unilateral de nivel 1 − α para µ. 

6.10 Relación entre intervalos de confianza con nivel 

asintótico 1−α y test con nivel de significación 

asintótico α 

Supongamos que X1,...,Xn es una muestra aleatoria de una distribución 

perteneciente a la familia F (x, θ) y que para cada θ0 se tenga una sucesión 

de test ϕ nθ0 (X1,...,Xn) con nivel de significación asintótico 1 − α para 

H:θ = θ0 contra K : θ = θ0. Luego, puede construirse una sucesión de 

intervalos de confianza con nivel asintótico 1 − α definiendo 

Sn(X1,...,Xn) ={θ : ϕ nθ (X) =0} . 

Recíprocamente, dada una sucesión de intervalos de confianza 

Sn(X1,...,Xn) de nivel asintótico 1 − α, si definimos 

ϕ (X) = 

nθ0 

 

1 si θ0 /∈ S(X1,...,Xn) 

0 si θ0 ∈ S(X1,...,Xn)

6.10. RELACION ENTRE INTERVALOS DE CONFIANZA... 59 

se tiene que ϕ es una sucesión de test con nivel de significación asintótico 

nθ0 

α para H : θ = θ0 contra K : θ = θ0. (Se deja como ejercicio la demostración 

de estos enunciados.) 


Bi(θ, 1). Ya se ha visto que 

√ n (X − θ0) 

θ0(1 − θ0) 

converge en distribución a la N(0, 1) cuando θ = θ0. 

Un intervalo de confianza para θ, con nivel asintótico 1 − α viene dado 

por 

Sn(X) ={θ : √ n 

|X − θ| 

θ(1 − θ)


REFERENCIAS 

1. Chernoff, H. (1954). On the distribution of the likelihood ratio. Ann. 

Math. Statist. 25: 573-578. 

2. Ferguson, T.S. (1967). Mathematical Statistics. A Decision Theoretic 

Approach. Academic Press. 

3. Lehmann, E.L. (1994). Testing Statistical Hypothesis. Chapman and 

Hall. 

4. Owen, D.B. (1965). The power of Student’s t test. J. Amer. Statist. 

Assoc. 60: 320-333. 

5. Wald, A. (1943). Tests of statistical hypothesis concerning several 

parameters when the number of observations is large. Trans. Am. 

Math. Soc. 54: 426-483.

Chapter 7 

Estimación Robusta 

7.1 El problema de la robustez para el 

modelo de posición 

Sea el modelo de posición y escala 

xi = µ + σui, 1 ≤ i ≤ n, (7.1) 

donde µ y σ son parámetros de posición y escala respectivamente, 

u1, ..., un son variables i.i.d. con distribución F . En este caso, x1, ..., xn 

resulta una muestra aleatoria de Fµσ, donde Fµσ(x) =F ((x−µ)/σ) Por 

ejemplo las xi pueden ser distintas mediciones de una misma magnitud 

física µ medida con un error σui . 

Si F =Φ, la función de una distribución N(0,1), entonces las xi 

tienen distribución N(µ, σ 2 ). Por lo tanto, un estimador óptimo de µ 

es ¯x = n i=1 xi/n. Efectivamente este estimador es IMVU y minimax. 

Es importante señalar que para que ¯x tenga estas propiedades, la distribución 

de los ui debe ser exactamente N(0,1). Sin embargo, en la 

mayoría de las aplicaciones prácticas a lo sumo se puede asegurar los 

errores de medición tienen distribución aproximadamente normal. Por 

lo tanto, cabe preguntarse cual será el comportamiento de estimador ¯x 

en este caso. 

Una forma de determinar distribuciones aproximadamente normales 

es considerar entornos de contaminación de la función de distribución 

1

2 CHAPTER 7. ESTIMACIÓN ROBUSTA 

Φ de la N(0,1). Un entorno de contaminación de tamaño ɛ de la distribución 

Φ se define por 

Vɛ = {F : F =(1− ɛ)Φ + ɛH con H arbitraria}. (7.2) 

La distribución F =(1− ɛ)Φ + ɛH corresponde a que las observaciones 

con probabilidad 1 − ɛ provienen de la distribución Φ y con 

probabilidad ɛ de la distribución H. 

En efecto supongamos que se tienen tres variables aleatoria independientes 

: Z con distribución Φ, V con distribución H, yW con 

distribución Bi(1,ɛ). Definamos entonces la variable aleatoria U de la 

siguiente manera 

Luego 

 

U = 

Z si W =0 

V si W =1 . 

FU(u) = P (U ≤ u) =P (U ≤ u, W =0)+P (U ≤ u, W =1) 

= P (U ≤ u| W =0)P (W =0)+P (U ≤ u| W =1)P (W =1) 

= (1−ɛ)Φ(u)+ɛH(u). Con lo cual, si ɛ es pequeño (por ejemplo .05 o .10) esto significará 

que la gran mayoría de las observaciones se obtendrán a partir de la 

distribución Φ, es decir serán normales. Por lo tanto, podemos afirmar 

que si ɛ es pequeño y F ∈Vɛ, entonces F está cerca de Φ. Supongamos 

que tenemos una muestra aleatoria x1, ..., xn de F ∈ Vɛ . Por lo tanto 

una proporción (1 − ɛ) de las observaciones estarán dadas por (7.1) 

con ui proveniente de una distribución Φ, y una proporción ɛ tendrán 

el correspondiente ui proveniente de la distribución H. Estas últimas 

observaciones serán denominadas puntos atípicos o outliers, y pueden 

ser debidas a realizaciones del experimento en circunstancias anormales 

u otros factores de error como, por ejemplo, una equivocación en la 

transcripción del dato. 

Lo que vamos a mostrar a continuación es que aunque ɛ sea pequeño 

el comportamiento del estimador ¯x puede ser muy ineficiente para distribuciones 

F ∈Vɛ. 

Primero mostraremos que si 

F =(1− ɛ)Φ + ɛH, (7.3)

7.1. EL PROBLEMA DE LA ROBUSTEZ PARA EL MODELO DE POSICI ÓN3 

entonces 

EF (u) =(1− ɛ)EΦ(u)+ɛEH(u). (7.4) 

Además, si EH(u) =0, se tiene 

varF (u) =(1− ɛ)varΦ(u)+ɛvarH(u). (7.5) 

Para mostrar (7.4) supongamos que la H tiene densidad h , y sea 

ϕ la densidad correspondiente a Φ. Luego la densidad de F es 

y luego 

∞ 

EF (u) = 

−∞ 

f =(1− ɛ)ϕ + ɛh, 

∞ 

∞ 

uf(u)du =(1−ɛ) uϕ(u)du+ɛ uh(u)du =(1−ɛ)EΦ(u)+ɛEH(u). 

−∞ 

−∞ 

Para mostrar (7.5), observemos que 

varF (u) = 

∞ 

u 

−∞ 

2 = 

f(u)du 

∞ 

(1−ɛ) u 2 ∞ 

ϕ(u)du + ɛ u 2 h(u)du = 

−∞ 

= (1− ɛ)+ɛ varH(u). 

Consideremos ahora al estimador ˆµ =¯x, donde la muestra x1, ..., xn son 

generadas por (7.1) donde las ui son independientes con distribución 

dada por (7.3) con EH(u) =0 

Luego 

varF (¯x) = σ2 varF (u) 

n 

−∞ 

= σ2 ((1 − ɛ)+ɛ varH(u)) 

. 

n 

Luego, si ɛ = 0, entonces var(¯x) =σ 2 /n. En cambio una contaminación 

de tamaño ɛ puede producir un aumento de la varianza ilimitado, 

ya que varH(u) puede ser ilimitada, inclusive infinita. 

Esta extrema sensibilidad de ¯x a una contaminación con una proporción 

pequeña de outliers también puede verse de la siguiente forma. 

Supongamos que se tiene una muestra x1, ..., xn y se agrega una observación 

xn+1. Si esta observación es un outlier, su influencia en ¯x puede


ser ilimitada. En efecto sean ¯xn y¯xn+1 el promedio basado en n y n+1 

observaciones respectivamente. Luego se tiene 

¯xn+1 = n 

n +1 ¯xn + 1 

n +1 xn+1 =¯xn + 1 

n +1 (xn+1 − ¯xn), 

y por lo tanto e ¯xn+1 puede tomar valores tan altos ( o tan bajos) como 

se quiera con tal de tomar xn+1 suficientemente lejos de ¯xn. 

Supongamos que tenemos el modelo de posición dado por (7.1) 

donde la distribución F de los ui es simétrica respecto de 0. Como 

en este caso µ es también la mediana de las observaciones, un estimador 

alternativo será ˜µ =mediana(x1, ..., xn). Ordenemos los datos 

x1, ..., xn de menor a mayor obteniendo los valores x(1) ≤ ... ≤ x(n). 

Luego la mediana estará dada por 

 

˜µ = 

x(m+1) si n =2m +1 

x(m)+x(m+1) si n =2m 

Veamos que este estimador es mucho más resistente a outliers que 

la media. En efecto, para que la mediana tome un valor ilimitado no es 

suficiente agregar un outlier, sino se requiere por lo menos n/2 outliers. 

Un estimador como la mediana que es poco sensible a outliers se 

denomina robusto 

La distribución de ˜µ para muestras finitas es muy complicada aún 

en el caso de muestras normales. Sin embargo, podremos derivar su 

distribución asintótica. Para ello necesitamos una version del Teorema 

Central del Límite para arreglos triangulares que enunciaremos 

sin demostración. 

Teorema Central del Límite. Sean para cada n natural, vn1, ...vnn, 

v variables aleatoria independientes igualmente disribuidas. Supongamos 

que existan constantes M>0ym>0, tales que |vni| ≤M y 

limn→∞var(vni) ≥ m. Luego se tiene que 

1 

n 1/2 

n 

i=1 

(vni − E(vni)) 

var(vni) 1/2 

D 

−→ N(0, 1). 

.

7.1. EL PROBLEMA DE LA ROBUSTEZ PARA EL MODELO DE POSICI ÓN5 

El siguiente Teorema establece la distribución asintótica de la mediana. 

Teorema 1. Sea x1, ..., xn una muestra aleatoria de una distribución 

F con una única mediana µ y con una densidad f tal que f(µ) > 0. 

Entonces si ˜µn es la mediana de la muestra, se tiene que 

n 1/2 (˜µn − µ) D 

 

1 

−→ N 0, 

4f 2 

. 

(µ) 

Demostración: Para facilitar la demostración consideraremos solo el caso 

que n =2m +1. Tenemos que demostrar 

lim 

n→∞ P (n1/2 (˜µn − µ) ≤ y) = Φ(2f(µ)y), (7.6) 

donde Φ es la función de distribución correspondiente a N(0,1) 

Es inmediato que 

P (n 1/2 

(˜µn − µ) ≤ y) =P ˜µn ≤ µ + y 

n1/2 

. (7.7) 

y 

Sea 

⎧ 

⎪⎨ 1 si xi ≤ µ + 

vni = 

⎪⎩ 

y 

n1/2 0 si xi >µ+ y 

n1/2 , 1 ≤ i ≤ n. (7.8) 

Como vni tiene distribución Bi(F (µ + yn−1/2 , 1) se tiene 

E(vni) =νn = F (µ + y 

), 

n1/2 var(vni) =νn(1 − νn). 

De acuerdo a la definición de mediana se tiene que 

 

P ˜µn ≤ µ + y 

n1/2 

n 

= P vni ≥ 

i=1 

n 

 

2 

= P 

1 

n 1/2 

n 

i=1 

(vni − νn) (n/2 − nνn) 

≥ 

(νn(1 − νn)) 1/2 (nνn(1 − νn)) 1/2 

 

. (7.9)


Como |vni| ≤1, y limn→∞var(vni) =1/4. se cumplen las hipótesis 

del Teorema Central del Límite. Luego 

1 

n 1/2 

n 

i=1 

(vni − νn) 

(νn(1 − νn)) 1/2 

D 

−→ N(0, 1). (7.10) 

Usando el hecho de que F (µ) =1/2, y el Teorema del Valor Medio 

tenemos 

(n/2 − nνn) 

n1/2 = n 1/2 

 

F (µ) − F (µ + y 

 

) 

n1/2 = −n 1/2 f(µ ∗ y 

n ) 

n1/2 = −yf(µ∗n ), 

donde µ ∗ n es un punto intermedio entre µ y νn. Luego usando el hecho 

que νn → 1/2 yµ ∗ n → µ, resulta 

(n/2 − nνn) 

→−2yf(µ). (7.11) 

(nνn(1 − νn)) 1/2 

Luego, usando (7.7), (7.9), (7.10) y (7.11) tenemos que 

lim 

n→∞ P (n1/2 (˜µn − µ) ≤ y) = 

 

P ˜µn ≤ µ + y 

n1/2 

= 1−Φ(−2f(µ)y) = Φ(2f(µ)y), 

y por lo tanto hemos probado (7.6). 

p 

Observación 1. El Teorema 1 implica que ˜µn −→ µ. También puede 

a.s. 

probarse que ˜µn −→ µ, pero no se dará la demostración. 

Apliquemos ahora este resultado al modelo (7.1) y supongamos que 

la distribución F de las ui sea simétrica respecto de 0 con densidad f. 

En este caso se tendrá que la mediana de la distribución Fµσ es µ y 

fµσ(x) = 1 

σ f 

 

x − µ 

, 

σ 


fµσ(µ) = 1 

σ f(0). 

Luego, de acuerdo al Teorema 1, se tendrá 

n 1/2 (˜µn − µ) D 

 

−→ N 0, . 

σ 2 

4f 2 (0)

7.2. M-ESTIMADORES DE POSICIÓN 7 

Si F = Φ, entonces f(0) = 1/ √ 2π y entonces 

n 1/2 (ˆµn − µ) D 

 

−→ N 0, π 

2 σ2 

 

. 

Por otro lado, n 1/2 (¯xn − µ) tiene distribución N(0,σ 2 ). Por lo tanto 

la varianza asintótica de ˆµn es aproximadamente 57% más alta que la 

varianza de ¯xn. Esto significa que la propiedad que tiene la mediana 

de ser poco sensible a observaciones atípicas tiene como contrapartida 

negativa ser 57% menos eficiente que ¯xn en el caso de errores normales. 

De todas maneras esto es menos grave que el comportamiento de ¯xn 

bajo una contaminación con outliers. En efecto, recordemos que en 

este caso una fracción de outliers tan pequeña como se quisiera podía 

provocar que la varianza se hiciese infinita. 

Sin embargo, lo ideal sería tener un estimador robusto, es decir 

poco sensible a outliers y que simultáneamente fuera altamente eficiente 

cuando los datos son normales. En las secciones siguientes vamos a 

tratar entonces de encontrar estimadores con estas propiedades. 

7.2 M-estimadores de posición 

7.2.1 Definición de M-estimadores 

Consideremos el modelo (7.1) y supongamos que conozcamos la distribución 

F de las ui. y el parámetro de escala σ. Estas hipótesis no 

son muy realistas y más adelante las eliminaremos. Sin embargo será 

conveniente suponerlas momentáneamente para simplificar el planteo 

del problema. Supongamos que F tiene una densidad que llamaremos 

f = F ′ . Luego, la densidad de cada xi será 

fµσ(x) = 1 

σ f 

x − µ 

y luego la función de verosimilitud correspondiente a la muestra x1, ..., xn 

será 

L(µ) = 1 

σn n 

 

xi − µ 

f . 

σ 

i=1 

σ 

 

,


Tomando logaritmos, como σ se supone conocida, se tendrá que el 

estimador de máxima verosimilitud de µ que llamaremos ˆµf( laf como 

subscripto indica que corresponde a que las ui tienen densidad f) estará 

dado por el valor que maximiza 


n 

 

xi − µ 

log f . 

i=1 σ 

Equivalentemente, podemos decir que ˆµf minimiza 

n 

 

xi − µ 

S(µ) = ρf , (7.12) 

σ 

i=1 

ρf(u) =− log f(u) + log f(0). 

Por ejemplo, si f corresponde a la distribución N(0,1). Entonces 

ρf(u) =u 2 /2, y entonces el estimador de máxima verosimilitud mini- 

miza 

S(µ) = 1 

2σ 2 

n 

(xi − µ) 

i=1 

2 , 

o equivalentemente, el que minimiza 

n 

S(µ) = (xi − µ) 

i=1 

2 , 

el cual es precisamente ¯xn. 

Si f corresponde a la distribución doble exponencial, entonces 

f(u) = 1 

2 e−|u| , −∞


En el párrafo anterior hemos visto los inconvenientes de media y 

la mediana muestral. Si conociéramos exactamente f, podríamos utilizar 

el estimador de máxima verosimilitud, del cual conocemos que 

tiene varianza asintótica mínima y que está dado por (7.12). Como 

en general se tiene sólo un conocimiento aproximado de f, por ejemplo 

que corresponde a una distribución de Vɛ, Huber (1964) definió los 

M-estimadores para el modelo de posición como el valor ˆµ valor que 

minimiza 

n 

 

xi − µ 

S(µ) = ρ , (7.14) 

i=1 σ 

donde la función ρ es elegida independientemente de f y de tal manera 

que tenga las propiedades deseadas: 

1. El estimador es altamente eficiente cuando f corresponde a la 

distribución N(0,1) 

2. El estimador es poco sensible a contaminación por outliers, en 

particular es altamente eficiente para toda f correspondiente a 

una distribución de Vɛ. 

A la función ρ que define al M-estimador se le pedirá las siguientes 

propiedades 

A1 La función ρ es derivable. Denominaremos ψ = ρ ′ . 

A2 La función ρ es par. 

A3 La función ρ(u) es monótona no decreciente en |u|. 

A4 Se cumple que ρ(0) = 0. 

Huber (1964) propuso una familia de funciones ρ intermedias entre 

las correspondientes a la distribución N(0,1) y a la doble exponencial. 

Esta funciones es cuadrática para valores de valor absoluto pequeños 

y lineal para valores absolutos grandes. Más precisamente, para cada 

k ≥ 0 se define ρH k por 

ρ H ⎧ 

⎪⎨ 

k (u) = 

⎪⎩ 

−ku − k 2 /2 si uk 

.


0 1 2 3 4 

Media 

Mediana 

Huber 

-3 -2 -1 0 1 2 3 

Figure 7.1: Funciones ρ correspondientes a la Media (en negro), la 

mediana (en rojo) y el M-estimador con función de Huber (en verde) 

En la Figura 7.1 se grafican las funciones ρ correspondiente la media 

a la mediana y a la función de Huber. Obsérvese que las funciones ρH k 

resultan derivables en todos los puntos, incluidos los puntos de cambio 

k y −k. Más adelante mostraremos que eligiendo k convenientemente 

los M-estimadores basadas en estas funciones gozan de las propiedades 

1 y 2 enunciadas en esta sección. 

Para encontrar el valor mínimo de S(µ) en (7.14) que define el Mestimador 

podemos encontrar sus punto críticos derivando. De esta 

manera obtenemos la siguiente ecuación 

n 

 

xi − µ 

A(µ) = ψ =0. (7.15) 

i=1 σ 

El siguiente Teorema muestra que bajo ciertas condiciones la ecuación 

7.15 tiene solución y corresponde a un mínimo de S(µ). 

Teorema 2. Supongamos que ψ es continua impar, no decreciente y 

para algún a se tiene ψ(a) > 0. Entonces


(i) La ecuación (7.15) tiene al menos una raíz. 

(ii) Toda raíz de (7.15) corresponde a un mínimo de S(µ). 

(iii) Las raíces de (7.15) forman un intervalo. 

(iv) Si ψ es estrictamente creciente hay una única raíz de (7.15). 

Demostración. (i) Sea M = max1≤i≤n xi y m = min1≤i≤n xi . Sea µ1 = 

m−σa y µ2 = M+σa. Luego (xi−µ1)/σ ≥ a para todo i y(xi−µ2)/σ ≤ 

−a para todo i. Luego ψ((xi − µ1)/σ) ≥ ψ(a) > 0 para todo i y 

ψ((xi − µ2)/σ) ≤ ψ(−a) =−ψ(a) < 0 para todo i. Luego A(µ1) > 0 

y A(µ2) < 0. Como A(µ) es continua, existe un punto µ0 entre µ2 y µ1 

tal que A(µ0) =0. 

(ii) Como S ′ (µ) = (−1/σ)A(µ),es fácil ver que S(µ) − S(µ0) = 

(−1/σ) µ 

µ0 A(u)du. Supongamos que µ0 es una raíz de A(µ). Supongamos 

que µ0 > 0. Habrá que mostrar que 

S(µ0) ≤ S(µ), ∀µ. (7.16) 

Vamos a mostrar (7.16) solamente para µ>µ0. El caso µµ0, luego 

S(µ) = 1 

µ 

A(u)du. 

σ µ0 

Como ψ es no decreciente resulta A no creciente. Luego como 

A(µ0) = 0, resulta A(µ) ≤ 0 para µ > µ0. Por lo tanto resulta 

A(u)du ≤ 0, y por lo tanto 

µ 

µ0 

S(µ) ≥ S(µ0). 

En el caso µ < µ0 se demuestra similarmente que también vale 

(7.16). 

(iii) Supongamos que µ1


-3 -2 -1 0 1 2 3 

-3 -2 -1 0 1 2 3 

-3 -2 -1 0 1 2 3 

Media Mediana 

-3 -2 -1 0 1 2 3 

-3 -2 -1 0 1 2 3 

Huber 

-3 -2 -1 0 1 2 3 

Figure 7.2: Funciones ψ correspondientes a la Media (en negro), la 

mediana (en rojo) y el M-estimador con función de Huber (en verde) 

y luego A(µ) =0. 

(iv) Supongamos que A(µ) =0. Veremos que no puede haber otra 

raíz de A. Sea primero µ ∗ >µ,como en este caso A es estrictamente 

decreciente se tendrá A(µ ∗ ) < 0. Similarmente se demuestra que si 

µ ∗ 0. 

Como vamos a ver más adelante la función ψ cumple un papel muy 

importante en la teoría de M-estimadores. Para la función ρ correspon- 

diente a la media, resulta ψ(u) =u, para la función ρ correspondi- 

, las correspondientes 

ente mediana ψ(u) =|u|, y para la funciones ρH k 

derivadas ψH k están dadas por 

ψ H ⎧ 

⎪⎨ 

k (u) = 

⎪⎩ 

−k si uk 

la cual corresponde a una identidad truncada. En Fig. 7.2 se grafican 

estas tres funciones ψ. 

Como consecuencia de la propiedad A2, la función ψ es impar . 

.


Para que el M-estimador sea robusto como veremos más adelante se 

requerirá que la función ψ sea acotada. 

7.2.2 Propiedades asintóticas de M-estimadores 

La condición de consistencia de Fisher, requerida para que el M-estimador 

converja a µ está dada por 

 

x − µ 

EFµσ ψ =0, 

σ 

y de acuerdo a (7.1), esto es equivalente a 

EF (ψ(u)) = 0. (7.17) 

Esta condición se cumple automaticamente si F tiene una densidad 

simétrica respecto de 0 ya que en ese caso se tendrá 

∞ 

EF (ψ(u)) = uf(u)du =0, 

∞ 

ya que uf(u) será una función impar. 

Luego, se tendrá el siguiente Teorema que muestra la consistencia 

de los M-estimadores: 

Teorema 3. Sean x1, ...xn variables aleatorias independientes que satisfacen 

el modelo (7.1). Consideremos un estimador ˆµn solución de 

(7.15), donde ψ y F satisfacen (7.17) . Luego ˆµn converge en casi todo 

punto a µ en cualquiera de los siguientes casos 

1. La función ψ es estrictamente creciente. 

2. La función ψ es no decreciente, ψ(u) >ψ(0) y F (u) >F(0) para 

todo u>0. 

Demostración: Solamente mostraremos el Teorema para el caso 1. Consideremos 

ɛ>0. Luego como ψ es estrictamente creciente tenemos que 

ψ(u − ɛ)


Por lo tanto 

 

x − (µ + ɛ) 

EFµσψ 

= EF ψ(u − ɛ) < 0. (7.18) 

σ 

Similarmente se puede probar que 

 

x − (µ − ɛ) 

EFµσψ 

= EF ψ(u + ɛ) > 0. (7.19) 

σ 

Sea ahora 

Gn(µ ∗ )= 1 

n 

 

xi − µ 

ψ 

n i=1 

∗ 

, 

σ 

luego el M-estimador ˆµn satisface 

Gn(ˆµn) =0. (7.20) 

Por otro lado usando la ley de los grandes números y (7.18) y (7.19) 

se tiene que con probabilidad 1 existe un n0 tal que para todo n>n0 

se tiene que 

Gn(µ + ɛ) < 0, Gn(µ − ɛ) > 0, 

y por lo tanto como Gn es monótona decreciente, se tiene que el valor 

ˆµn satisfaciendo (7.20) tendrá que satisfacer que 

µ − ɛ



V (ψ,F)= EF ψ2 (u) 

(EF ψ ′ . (7.21) 

(u)) 2 

Demostración. El M-estimador ˆµn satisface 

n 

 

xi − ˆµn 

ψ 

=0, 

i=1 σ 

y haciendo un desarrollo de Taylor en el punto µ se tiene 

n 

 

xi − µ 

n 

0= ψ − ψ 

σ 

′ 

 

xi − µ ˆµn − µ 

σ σ +1 

n 

ψ 

2 

′′ 

 

xi − µ ∗ 

n (ˆµn − µ) 

σ 

2 

σ2 , 

i=1 

i=1 

donde µ ∗ n es un punto intermedio entre ˆµn y µ. 

Luego, haciendo un despeje parcial de (ˆµn − µ) se tiene 

(ˆµn − µ) = 

y luego 

n 1/2 (ˆµn−µ) = 

y 

Sea 

i=1 

n 

ψ ((xi − µ)/σ) 

i=1 

1 

n 

ψ 

σ i=1 

′ ((xi − µ)/σ) − 1 (ˆµn − µ) 

2 σ2 n 

i=1 

1 

nσ 

n 

i=1 

An = 1 

n 1/2 

Bn = 1 

n 

ψ ′′ ((xi − µ ∗ , 

n)/σ) 

1 

n1/2 n 

ψ ((xi − µ)/σ) 

i=1 

ψ ′ ((xi − µ)/σ) − 1 

2σ2 (ˆµn − µ) 1 

n 

ψ 

n i=1 

′′ ((xi − µ ∗ . 

n)/σ) 

n 

i=1 

n 

i=1 

Cn = 1 

2 (ˆµn − µ) 1 

n 

ψ ((xi − µ)/σ) = 1 

n 1/2 

ψ ′ ((xi − µ)/σ) = 1 

n 

n 

ψ (ui) , 

i=1 

n 

ψ 

i=1 

′ (ui) , 

n 

ψ 

i=1 

′′ ((xi − µ ∗ n)/σ) . 

(7.22)


Luego 

n 1/2 (ˆµn − µ) = 

An 

σ −1 Bn + σ −2 Cn 

Por el Teorema Central del Límite se tiene 

An 

. (7.23) 

D 

−→ N(0,EF (ψ 2 (u))). (7.24) 

Por la Ley Fuerte de los Grandes Números se tiene 

Bn 

p 

−→ EF (ψ ′ (u)). (7.25) 

Finalmente, por hipótesis existe una constante K tal que |ψ ′′ (u)| < 

p 

K. Luego |Cn| < (K/2)(ˆµn − µ). Usando el hecho de que ˆµn −→ µ, se 

tiene que 

p 

−→ 0. (7.26) 

Cn 

Usando (7.23)-(7.26) se deduce el Teorema. 

7.2.3 M-estimador minimax para la varianza asintótica 

El problema que vamos a desarrollar en esta sección es el de elegir la 

función ρ o equivalentemente la función ψ del M-estimador. En está 

sección vamos a utilizar como criterio minimizar la varianza asintótica 

del M-estimador dada en (7.21). Si conociéramos la distribución F de 

las ui, utilizaríamos el M-estimador que tiene como función ψ la dada 

por 

d log f(u) 

ψ(u) = , 

du 

es decir el estimador de máxima verosimilitud. Este estimador minimiza 

la varianza asintótica V (ψ,F) dada en (7.21). Cuando existe la 

posibilidad de que hubieran outliers la distribución F no es conocida 

exactamente y por lo tanto no podemos usar este estimador. 

La solución que propuso Huber (1964) es la siguiente. supongamos 

que F esté en el entorno de contaminación dado por (7.2), pero restringiendo 

H a distribuciones simétricas respecto de 0. Para esto 

definimos un nuevo entorno de distribuciones de Φ 

V ∗ ɛ 

= {F : F =(1− ɛ)Φ + ɛH con H simétrica}. (7.27)


Luego, si usa el M-estimador basado en la función ψ. la mayor varianza 

posible en este entorno está dada por 

V ∗ (ψ) = sup 

F ∈V∗ V (ψ,F). 

ɛ 

El criterio de Huber para elegir el M-estimador es utilizar la función 

ψ∗ que minimice V ∗ (ψ). Estos estimadores se denominarán minimax 

(minimizan la máxima varianza asintótica en el entorno de contami- 

nación V ∗ 

ε . En Huber (1964) se muestra que ψ∗ está en la familia ψ H k , 

donde k depende de la cantidad de contaminación ɛ. 

7.2.4 M-estimadores con escala desconocida 

La definición de los M-estimadores dada en (7.14) supone que σ es 

conocida. Sin embargo, en la práctica σ es desconocida. En estos 

casos podemos reemplazar en esta ecuación σ por un estimador ˆσ, yel 

M-estimador se definirá por el valor ˆµ que minimiza 

n 

 

xi − µ 

S(µ) = ρ . (7.28) 

i=1 ˆσn 

Si queremos que el M-estimador resultante de µ sea robusto, será 

necesario que ˆσ también lo sea. El estimador insesgado usual de σ dado 

por 

ˆσ 2 = 1 

n 

 

(xi − ¯x) 

i=1 

2 

no es robusto. En efecto, es fácil ver que una observación lo pueda 

llevar fuera de todo límite. Un estimador robusto de σ es el llamado 

MAD (median absolute deviation), que está definido por 


ˆσ 2 = A mediana{|xi − ˜µn|, 1 ≤ i ≤ n}, 

˜µn = mediana{xi :1≤ i ≤ n}, 

y donde A es una constante que hace que el estimador sea consistente 

a σ en el caso de que las observaciones sean una muestra aleatoria de 

una N(µ, σ 2 ).


Vamos ahora a deducir cual debe ser el valor de A. Sean x1, ..., xn 

una muestra de una distribución N(µ,σ 2 ). Entonces podemos escribir 

xi = µ + σui, donde u1, ..., un es una muestra aleatoria de una distribución 

N(0,1). En este caso tenemos que 

y 

xi − ˜µn =(µ − ˜µn)+σui 

mediana{|xi − ˜µn|, 1 ≤ i ≤ n} = mediana{|(µ− ˜µn)+σui|, 1 ≤ i ≤ n}. 

Como de acuerdo a lo visto en Observación 1, lim(µ − ˜µn) = 0 casi 

seguramente, se tendrá que 

lim 

n→∞ mediana{|xi−˜µn|, 1 ≤ i ≤ n} = lim 

n→∞ mediana{|σui|, 1 ≤ i ≤ n} } 

= σ lim mediana{|ui|, 1 ≤ i ≤ n}, c.s.. (7.29) 

n→∞ 

Si u es N(0,1), entonces |u| tiene distribución 2Φ − 1. Sea entonces 

B = mediana(2Φ − 1), luego por lo visto en Observación 1 se tiene 

y usando (7.29) 

o sea 

lim 

n→∞ mediana{|ui|, 1 ≤ i ≤ n} = B, c.s. 

lim 

n→∞ mediana{|xi − ˜µn|, 1 ≤ i ≤ n} = σB c.s. 

Luego A =1/B. La constante B se calcula de la siguiente manera 

2Φ(B) − 1=0.5, 

Φ(B) =0.75, B=Φ −1 (0.75) = 0.675. 

Luego se tendrá que el estimador MAD de σ viene dado por 

ˆσ 2 = 1 

0.6745 mediana{|xi − ˜µn|, 1 ≤ i ≤ n}. 

Cuando el M-estimador se obtiene minimizando (7.28), la ecuación 

(7.15) se transforma en


n 

 

xi − µ 

ψ =0. (7.30) 

i=1 ˆσ 

Las propiedades asintóticas del estimador ˆµ solución de (7.30) son 

similares a las del estimador correspondiente al caso de σ conocida. El 

siguiente Teorema se dará sin demostración. 

Teorema 5. Sean x1, ...xn variables aleatorias independientes que satisfacen 

el modelo (7.1). Consideremos un estimador ˆµn solución de 

(7.30), donde ψ es impar y F es simétrica respecto de 0. Supongamos 

que ˆµn es consistente a µ yˆσn es consistente a σ, y que además ψ tiene 

dos derivadas continuas y ψ ′′ es acotada. Luego se tiene que 

donde V está dada por (7.21) 

n 1/2 (ˆµn − µ) D 

−→ N(0,σ 2 V (ψ,F)), 

7.2.5 Algoritmos para calcular M-estimadores 

A continuación vamos a describir tres algoritmos para computar el Mestimador 

definido como la solución de (7.30). 

Algoritmo basado en medias ponderadas iteradas (MPI) 

Llamemos w(u) =ψ(u)/u. Luego la ecuación (7.30).se puede escribir 

como 

n 

 

xi − ˆµ 

(xi − ˆµ)w =0, 

i=1 

ˆσ 

o sea 

n 

 

xi − ˆµ xi − ˆµ 

xiw =ˆµw , 

i=1 ˆσ 

ˆσ 

y haciendo un despeje “parcial”de ˆµ se tiene 

ˆµ = 

n 

xiw ((xi − ˆµ)/ˆσ) 

i=1 

n 

. (7.31) 

w ((xi− ˆµ)/ˆσ) 

i=1


En realidad esta expresión no es un verdadero despeje, ya que el 

miembro derecho también aparece ˆµ. Sin embargo esta fórmula nos va 

a sugerir un algoritmo iterativo para calcular ˆµ. 

En efecto, consideremos un estimador inicial ˆµ0 de µ, como por 

ejemplo la mediana.Luego podemos definir 

ˆµ1 = 

n 

xiw ((xi − ˆµ0)/ˆσ) 

i=1 

n 

, 

w ((xi− ˆµ0)/ˆσ) 

i=1 

y en general si ya tememos definido ˆµh, podemos definir ˆµh+1 por 

ˆµh+1 = 

n 

xiw ((xi − ˆµh)/ˆσ) 

i=1 

n 

. (7.32) 

w ((xi− ˆµh)/ˆσ) 

i=1 

Se puede mostrar que este si ψ es continua, entonces cuando este 

algoritmo iterativo converge, lo hace a una solución de (7.30). En efecto 

supongamos que limh→∞ ˆµh =ˆµ, luego tomando limite en ambos lados 

de (7.32), se tendrá 

ˆµ = 

n 

xiw ((xi − ˆµ)/ˆσ) 

i=1 

n 

. (7.33) 

w ((xi− ˆµ)/ˆσ) 

i=1 

Pero esta ecuación es precisamente (7.31) , que ya hemos visto es 

equivalente a (7.30). 

La ecuación (7.33) muestra a ˆµ como promedio pesado de las xi y 

pesos proporcionales a w ((xi − ˆµ)/ˆσ) . Como en general w(u) es una 

función par monótona no creciente en |u|, (7.33) se puede interpretar 

como que el M-estimador da a cada observación un peso que penaliza 

las observaciones para las cuales |xi − ˆµ|/ˆσ es grande. Para la media 

se tiene w(u) =1, y para el estimador basado en la función ψ H k , la 

correspondiente función de peso está dada por


0.5 0.6 0.7 0.8 0.9 1.0 

Media 

-3 -2 -1 0 1 2 3 

0.5 0.6 0.7 0.8 0.9 1.0 

Huber 

-3 -2 -1 0 1 2 3 

Figure 7.3: Funciones de peso w correspondientes a la Media (en negro) 

y al M-estimador con función de Huber (en verde) 

w H 

k (u) = 

1 

k 

|u| 

si 

si 

|u| ≤k 

|u| >k . 

El gráfico de esta función se encuentra en la Figura 7.3. 

Algoritmo basado en medias de pseudovalores iteradas (MPVI) 

Definamos el pseudovalor x∗ i (µ) por 

Luego se tiene 

x ∗ i (µ) =µ +ˆσψ ((xi − ˆµ)/ˆσ) . 

ψ ((xi − ˆµ)/ˆσ) =(x ∗ i (µ) − ˆµ)/ˆσ, 

y reemplazando en (7.30) se tiene la ecuación para el M-estimador es 

n 

(x 

i=1 

∗ i (ˆµ) − ˆµ)/ˆσ =0.


Haciendo un despeje parcial de ˆµ se tiene 

ˆµ = 1 

n 

n 

x 

i=1 

∗ i (ˆµ). (7.34) 

Es decir, se tiene expresado el M-estimador como promedio simple 

de los pseudo valores. Esta fórmula no permite calcular el M-estimador 

directamente, ya que el miembro derecho también depende de ˆµ. Sin 

embargo, nos sugiere el siguiente algoritmo iterativo. Partiendo de un 

estimador inicial ˆµ0, consideramos la siguiente fórmula recursiva para 

ˆµh 

ˆµh+1 = 1 

n 

n 

x 

i=1 

∗ i (ˆµh). (7.35) 

Es interesante calcular los pseudovalores correspondientes a ψ H k 

cuales están dados por 

x ∗ ⎧ 

⎪⎨ µ − kˆσ si xi µ+ kˆσ 

. 

, los 

Es decir, si xi pertenece al intervalo [µ−kˆσ, µ+kˆσ], el pseudovalor 

x ∗ i (µ) es igual a la observación xi. Si xi está fuera de este intervalo el 

psudovalor se define como el extremo del intervalo más cercano. 

Vamos a ver ahora que si limh→∞ ˆµh =ˆµ y ψ es continua, entonces 

ˆµ es el M-estimador solución de (7.30). En efecto, tomando límite en 

ambos miembros de (7.35) se obtiene (7.34), que ya hemos visto es 

equivalente a (7.30). 

Algoritmo de Newton Raphson (NR) 

De acuerdo a lo visto anteriormente, el algoritmo de Newton Raphson 

para calcular la raíz de (7.30) tiene la siguiente fórmula recursiva 

n 

ψ ((xi − ˆµh)/ˆσ) 

i=1 

ˆµh+1 =ˆµh +ˆσ n 

ψ 

i=1 

′ . (7.36) 

((xi − ˆµh)/ˆσ)


Para el caso de que ψ = ψ H k 

, está formula toma una expresión 

particularmente interesante. 

Para cada valor µ dividamos el conjunto de observaciones en tres 

conjuntos 

D− = {i :(xi − ˆµh)/ˆσ k}. 

ψ H k ((xi 

⎧ 

⎪⎨ −k 

− ˆµh)/ˆσ) = (xi − ˆµh)/ˆσ 

⎪⎩ 

k 

si 

si 

si 

i ∈ D− 

i ∈ D0 

i ∈ D+ 

, 

y 

ψ H′ 

k ((xi 

⎧ 

⎪⎨ 0 

− ˆµh)/ˆσ) = 1 

⎪⎩ 

0 

si 

si 

si 

i ∈ D−(ˆµh) 

i ∈ D0(ˆµh) 

i ∈ D+(ˆµh) 

. 

Llamando n−, n0y n−, al número de elementos de D−, D0y D+ 

y reemplazando en (7.36), se tiene 

k(n+ − n−)+ 

ˆµh+1 =ˆµh+ˆσ 

 

(xi − ˆµh)/ˆσ 

i∈D0 

= 

n0 

n+ − n− 

ˆσk+ 

n0 

1 

xi. 

n0 i∈D0 

Obsérvese que el miembro derecho de esta última fórmula solo depende 

de D−, D0y D+. Estos tres conjuntos forman una partición del 

conjunto {1, 2, ..., n}. Es claro que hay un número finito de estas particiones, 

y por lo tanto si ˆµh converge lo debe hacer en un número finito 

de pasos. 

Convergencia de los algoritmos iterativos 

Se puede demostrar que los 3 algoritmos iterativos que hemos estudiado 

MPI, MPVI, y NR convergen a la raíz de (7.30) cuando ψ es monótona 

no decreciente cuando ésta es única. Si (7.30) tiene más de una raíz, se 

puede demostrar que si [ˆµ1, ˆµ2] es el intervalo de soluciones, entonces 

dado ɛ>0, existe h0 tal que ˆµh ∈ [ˆµ1 − ɛ, ˆµ2 + ɛ] para todo h>h0.

Notas de Estadística

Create successful ePaper yourself

Delete template?

Save as template?