16.05.2013 Views

J. Vásquez, Análisis de Datos - Centro Microdatos

J. Vásquez, Análisis de Datos - Centro Microdatos

J. Vásquez, Análisis de Datos - Centro Microdatos

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Centro</strong> <strong>de</strong> <strong>Microdatos</strong><br />

<strong>Análisis</strong> <strong>de</strong> <strong>Datos</strong><br />

Magister en Políticas Públicas<br />

Javiera <strong>Vásquez</strong><br />

2011


Introducción<br />

La mayoría <strong>de</strong> las <strong>de</strong>cisiones en economía y políticas públicas <strong>de</strong>pen<strong>de</strong>rá <strong>de</strong> cuán bien podamos<br />

enten<strong>de</strong>r, las relaciones entre las variables que nos ro<strong>de</strong>an.<br />

Al momento <strong>de</strong> diseñar una política pública se <strong>de</strong>be tener una pregunta concreta en términos<br />

cuantitativos sobre la o las variables que queremos afectar, y que instrumentos disponemos para<br />

afectar estas variables, es <strong>de</strong>cir, necesitamos dar respuestas cuantitativas a preguntas<br />

cuantitativas, y adicionalmente, <strong>de</strong>bemos tener clara cuál es la causalidad <strong>de</strong> la relación entre las<br />

variables.<br />

Por ejemplo, po<strong>de</strong>mos querer dar respuesta a las siguientes preguntas:<br />

¿El cuidado prenatal lleva a tener hijos más saludables?<br />

La Reforma Previsional, ¿mejoró la calidad <strong>de</strong> vida <strong>de</strong> los adultos mayores?<br />

EL programa <strong>de</strong> Subsidio a la Contratación <strong>de</strong> Trabajadores Jóvenes, ¿incrementará la<br />

formalización <strong>de</strong>l trabajo juvenil?<br />

¿Hay discriminación por género en el mercado laboral?¿Hay discriminación por apariencia<br />

física en el mercado laboral?<br />

¿Cuál es el impacto <strong>de</strong> las restricciones a los fumadores sobre el hábito <strong>de</strong> fumar?<br />

¿Qué impacto ha tenido el programa Chile Crece Contigo?<br />

¿Existe mayor vulnerabilidad económica en los hogares monoparentales?<br />

¿Cómo afecta la disponibilidad <strong>de</strong> salas cunas a la tasa <strong>de</strong> participación femenina?<br />

Para que los datos nos entreguen respuestas concretas y útiles a estas preguntas <strong>de</strong>bemos<br />

apren<strong>de</strong>r a trabajar con ellos, para esto es importante adquirir práctica en organizar la<br />

información y presentarla <strong>de</strong> manera informativa, enten<strong>de</strong>r la aleatoriedad y cuando lo que<br />

encontramos pue<strong>de</strong> ser producto <strong>de</strong>l azar, enten<strong>de</strong>r los conceptos <strong>de</strong> probabilidad y como estos<br />

pue<strong>de</strong>n ser usados para interpretar la información empírica.<br />

<strong>Datos</strong> Experimentales versus No Experimentales<br />

El escenario i<strong>de</strong>al para estimar el efecto <strong>de</strong> un tratamiento o <strong>de</strong> una política es hacer cambios<br />

experimentales (controlados) sobre una variable y observar los cambios en la variable <strong>de</strong> interés.<br />

A<strong>de</strong>más para tener una base <strong>de</strong> comparación necesitamos un grupo <strong>de</strong> control. Esto es lo que<br />

generalmente se hace en medicina para probar nuevas drogas y sus efectos, se tiene un grupo <strong>de</strong><br />

tratamiento y un grupo <strong>de</strong> control con características similares, y sólo a los <strong>de</strong>l grupo <strong>de</strong><br />

tratamiento se le entrega la droga y a los <strong>de</strong>l grupo <strong>de</strong> control un placebo, luego po<strong>de</strong>mos analizar<br />

simplemente comparando ambos grupos cuales son los efectos <strong>de</strong> la droga.<br />

En políticas públicas la asignación aleatoria <strong>de</strong> un tratamiento o política es algo bastante más<br />

complejo, ya que una política es diseñada para la población o un grupo <strong>de</strong> ellas y a veces no es<br />

ético darle prioridad aleatoria a un grupo versus otro. A<strong>de</strong>más implementar un experimento en


políticas públicas es mucho más costoso porque requiere la implementación <strong>de</strong>l programa<br />

propiamente tal a una escala menor. De esta forma, en la mayoría <strong>de</strong> los casos que estudiemos no<br />

disponemos <strong>de</strong> <strong>Datos</strong> Experimentales sino <strong>de</strong> <strong>Datos</strong> Observados o No Experimentales.<br />

Cuando los datos son <strong>de</strong> naturaleza experimental, el efecto causal <strong>de</strong> la política (o tratamiento) se<br />

pue<strong>de</strong> obtener tomando la diferencia <strong>de</strong> promedios <strong>de</strong> la variable <strong>de</strong> resultados entre el grupo <strong>de</strong><br />

tratamiento y control, por ejemplo, tomando el peso al nacer promedio <strong>de</strong> bebes <strong>de</strong> madres con<br />

cuidado prenatal y restándole el peso al nacer promedio <strong>de</strong> bebes <strong>de</strong> madres sin cuidado prenatal.<br />

Sin embargo, si los datos no son experimentales <strong>de</strong>bemos utilizar técnicas econométricas para<br />

estimar el efecto causal, estas herramientas se preocupan <strong>de</strong> aislar el efecto que otras variables,<br />

distintas al tratamiento, pue<strong>de</strong>n tener sobre el resultado (outcome).


Tipos <strong>de</strong> <strong>Datos</strong><br />

Los datos que disponemos para trabajar pue<strong>de</strong>n tener tres formatos: corte transversal, Series <strong>de</strong><br />

Tiempo, y <strong>Datos</strong> <strong>de</strong> Panel (o Longitudinales).<br />

Corte Transversal<br />

Los datos <strong>de</strong> corte transversal se caracterizan por recopilar información para varias unida<strong>de</strong>s en un<br />

momento <strong>de</strong>l tiempo, las unida<strong>de</strong>s pue<strong>de</strong>n ser individuos, hogares, comunas, colegios, empresas,<br />

regiones, etc.<br />

Un ejemplo <strong>de</strong> datos <strong>de</strong> corte transversal en Chile es la Encuesta CASEN.<br />

La Figura 1 muestra un ejemplo <strong>de</strong> una base <strong>de</strong> corte transversal <strong>de</strong> países, que muestra la tasa <strong>de</strong><br />

mortalidad, expectativa <strong>de</strong> vida, y otras variables para el año 2005.<br />

Figura 1<br />

<strong>Datos</strong> <strong>de</strong> tipo Corte Transversal


Series <strong>de</strong> Tiempo<br />

Las series <strong>de</strong> tiempo representan observaciones para una sola unidad en varios momentos <strong>de</strong>l<br />

tiempo, la frecuencia <strong>de</strong> los datos pue<strong>de</strong> ser diaria, semanal, trimestral, anual, etc.<br />

Por ejemplo, <strong>de</strong>l Banco Central <strong>de</strong> Chile po<strong>de</strong>mos obtener las series <strong>de</strong> tiempo <strong>de</strong>l Producto<br />

Interno Bruto (PIB), Indice <strong>de</strong> Precios al Consumidor (IPC), fuerza <strong>de</strong> trabajo, ocupados, etc. Ver<br />

Figura 2.<br />

<strong>Datos</strong> <strong>de</strong> Panel o Longitudinales<br />

Figura 2<br />

<strong>Datos</strong> <strong>de</strong> tipo Serie <strong>de</strong> Tiempo<br />

Los datos longitudinales correspon<strong>de</strong>n a observaciones <strong>de</strong> varias unida<strong>de</strong>s en distintos momentos<br />

<strong>de</strong>l tiempo, por ejemplo puedo tener los puntajes en SIMCE, PSU, número <strong>de</strong> alumnos, número <strong>de</strong><br />

profesores, para varios colegios entre los años 2000 y 2008.<br />

La ventaja <strong>de</strong> los datos <strong>de</strong> panel es que observamos la mima unidad en diferentes momentos <strong>de</strong>l<br />

tiempo lo que nos permite estudiar la dinámica en el comportamiento <strong>de</strong> diversas variables.


La Figura 3 muestra un ejemplo <strong>de</strong> datos <strong>de</strong> panel, con observaciones <strong>de</strong> varios países entre el año<br />

2004 y 2009.<br />

Figura 3<br />

<strong>Datos</strong> <strong>de</strong> tipo <strong>Datos</strong> <strong>de</strong> Panel


Una primera inspección <strong>de</strong> los datos<br />

Lo primero que <strong>de</strong>be hacer todo investigador que trabaja con una base <strong>de</strong> datos, ya sea <strong>de</strong><br />

creación propia o externa, antes <strong>de</strong> aplicar mo<strong>de</strong>los estadísticos, es inspeccionar y explorar los<br />

datos <strong>de</strong> modo correcto.<br />

¿Qué <strong>de</strong>bemos tener presente cuando inspeccionamos los datos?<br />

A qué nivel <strong>de</strong> agregación queremos trabajar y presentar los datos: individuos, hogar,<br />

comunas, regiones, etc.<br />

Qué tipo <strong>de</strong> gráfico me permite mostrar <strong>de</strong> manera clara y or<strong>de</strong>nada los resultados,<br />

incluso es relevante fijarse en las escalas <strong>de</strong> los ejes <strong>de</strong> los gráficos que los haga<br />

comparable entre ellos, y relevantes para el análisis.<br />

Selección correcta <strong>de</strong> la información que se mostrará, no siempre es preferible más a<br />

menos, no es recomendable presentar muchos datos ni gráficos, sino saber elegir los<br />

correctos.<br />

Para revisar algunos conceptos relacionados con la inspección <strong>de</strong> los datos utilizaremos la<br />

Encuesta CASEN 2009 (http://www.mi<strong>de</strong>plan.gob.cl/casen/in<strong>de</strong>x.html), específicamente<br />

trataremos <strong>de</strong> producir estadísticas <strong>de</strong>scriptivas y gráficos en STATA que nos permitan analizar la<br />

situación <strong>de</strong> los ingresos, pobreza, y <strong>de</strong>sigualdad en Chile.<br />

Para nuestro primer análisis utilizaremos como medida el ingreso autónomo per-cápita <strong>de</strong>l hogar 1 ,<br />

el que pue<strong>de</strong> ser generado a partir <strong>de</strong> la información disponible en la encuesta:<br />

use casen2009.dta, clear<br />

egen hogarid=group(segmento folio)<br />

g s=1 if pco1!=14<br />

replace s=0 if pco1==14<br />

egen n=sum(s), by(hogarid)<br />

gen yauthpc=yauthaj/n<br />

1 El Ingreso Autómomo se <strong>de</strong>fine como aquel por concepto <strong>de</strong> sueldos y salarios, ganancias provenientes <strong>de</strong>l<br />

trabajo in<strong>de</strong>pendiente, autoprovisión <strong>de</strong> bienes producidos por el hogar, bonificaciones, gratificaciones,<br />

rentas, intereses, así como jubilaciones, pensiones, montepíos y transferencias entre privados.


Porcentaje<br />

Distribución Empírica<br />

La distribución empírica <strong>de</strong> una variable nos muestra que tan frecuente es que la variable tome un<br />

valor <strong>de</strong>ntro <strong>de</strong> cierto intervalo. Gráficamente la distribución empírica <strong>de</strong> la variable se pue<strong>de</strong> ver<br />

a través <strong>de</strong> un histograma.<br />

histogram yauthpc if yauthpc


Porcentaje<br />

mientras más anchos sean los rectángulos o menor cantidad más tosco será el histograma, y<br />

mientras más angostos sean los rectángulos (mayor cantidad) más fina será la distribución <strong>de</strong> la<br />

variable que po<strong>de</strong>mos analizar con el histograma.<br />

histogram yauthpc if yauthpc


Porcentaje<br />

histogram yauthpc if yauthpc


Densidad<br />

2.000e-064.000e-066.000e-068.000e-06<br />

Estimación Kernel <strong>de</strong> la Distribución Empírica<br />

Como se mencionaba mientras más angosto son los rectángulos en el histograma más fina es la<br />

estimación <strong>de</strong> la distribución <strong>de</strong> la variable que pue<strong>de</strong> ser realizada, el caso extremo es cuando<br />

estos rectángulos se reducen a un solo punto 2 , esta estimación <strong>de</strong> la función <strong>de</strong> <strong>de</strong>nsidad<br />

(distribución) es conocida como Kernel.<br />

El siguiente gráfico nos muestra la estimación <strong>de</strong> la función <strong>de</strong> <strong>de</strong>nsidad <strong>de</strong>l ingreso autónomo<br />

per-cápita, lo que nos permite apreciar <strong>de</strong> manera más suave y continua la distribución <strong>de</strong> las<br />

observaciones en el rango en el cual se mueve el ingreso autónomo per-cápita.<br />

k<strong>de</strong>nsity yauthpc if yauthpc


necesitamos tener indicadores concretos que <strong>de</strong> alguna forma resuman lo que po<strong>de</strong>mos ver<br />

gráficamente con el histograma o kernel. Algunos <strong>de</strong> estos indicadores son las medidas <strong>de</strong><br />

ten<strong>de</strong>ncia central y las medidas <strong>de</strong> dispersión.<br />

Medidas <strong>de</strong> Ten<strong>de</strong>ncia Central<br />

Las medidas <strong>de</strong> ten<strong>de</strong>ncia central, tal como lo dice su nombre hablan <strong>de</strong>l punto medio <strong>de</strong> la<br />

distribución.<br />

Una medida <strong>de</strong> ten<strong>de</strong>ncia central es la media aritmética (o promedio), la que representa el punto<br />

<strong>de</strong> equilibrio <strong>de</strong> la distribución:<br />

Por ejemplo, el promedio entre los números 1 y 9 es 5, ya que <strong>de</strong> esta manera se equilibra la<br />

distribución <strong>de</strong> ellos, la distancia (en valor absoluto) entre 1 y 5 es la misma que la distancia entre<br />

9 y 5.<br />

Veamos otro ejemplo, supongamos los siguientes números: 1, 2, 3, 4, y 5. La media aritmética <strong>de</strong><br />

estos números es 3, ya que <strong>de</strong> esta manera equilibramos la distribución <strong>de</strong> estos números.<br />

Notemos la segunda columna <strong>de</strong> la Tabla 1, la diferencia (en valor absoluto) entre 1 y la media (3)<br />

es 2, entre 2 y la media es 1, y entre 3 y la media es cero, estos tres valores son menores o iguales<br />

a la media, y la suma <strong>de</strong> su distancia con respecto a la media es 3. Por otra parte, los valores que<br />

están sobre la media, tienen una diferencia <strong>de</strong> 1 con respecto a la media y 2 con respecto a la<br />

media, lo que también suma 3. De esta forma, vemos que la media es el número que logra<br />

equilibrar la distribución <strong>de</strong> los números observados.<br />

Números<br />

Tabla 1<br />

Ejemplo media aritmética<br />

Diferencia absoluta con<br />

respecto a la media<br />

Suma antes y <strong>de</strong>spués <strong>de</strong> la<br />

media<br />

1 2<br />

2 1<br />

3 0 3<br />

4 1<br />

5 2 3<br />

La Tabla 2 nos muestra otro ejemplo, en este caso tenemos 8 números cuya media aritmética es<br />

26.75. Sólo dos <strong>de</strong> los ocho números están sobre la media aritmética y los restantes seis están bajo<br />

la media, po<strong>de</strong>mos ver que la suma <strong>de</strong> la diferencia absoluta <strong>de</strong> cada uno <strong>de</strong> los números que


están bajo la media con respecto a la media es exactamente igual a la suma <strong>de</strong> las diferencias<br />

absolutas <strong>de</strong> los números que están sobre la media.<br />

Números<br />

Tabla 2<br />

Ejemplo media aritmética<br />

Diferencia absoluta con<br />

respecto a la media<br />

Suma antes y <strong>de</strong>spués <strong>de</strong> la<br />

media<br />

10 16.75<br />

11 15.75<br />

12 14.75<br />

13 13.75<br />

13 13.75<br />

15 11.75 86.5<br />

40 13.25<br />

100 73.25 86.5<br />

Veamos un caso aún más extremo, la Tabla 3 nos muestra un listado <strong>de</strong> 12 números, los primeros<br />

11 números son bastante pequeños (menores o iguales a 1), pero el último número es un número<br />

bastante gran<strong>de</strong>, lo que hace que para equilibrar estos números el promedio va a ser un número<br />

bastante más gran<strong>de</strong> que los primeros 11 números, en efecto el promedio <strong>de</strong> estos 12 números es<br />

8.79, y 11 <strong>de</strong> los 12 números están bajo el promedio, mientras que 1 sólo está sobre el promedio.<br />

Números<br />

Tabla 3<br />

Ejemplo media aritmética<br />

Diferencia absoluta con<br />

respecto a la media<br />

Suma antes y <strong>de</strong>spués <strong>de</strong> la<br />

media<br />

0 8.79<br />

0.1 8.69<br />

0.2 8.59<br />

0.3 8.49<br />

0.4 8.39<br />

0.5 8.29<br />

0.6 8.19<br />

0.7 8.09<br />

0.8 7.99<br />

0.9 7.89<br />

1.0 7.79 91.21<br />

100 91.21 91.21


Esto nos muestra algo importante que hay que tener presente cuando uno utiliza la media como<br />

una medida <strong>de</strong> ten<strong>de</strong>ncia central, esta medida es bastante sensible a valores extremos en la<br />

distribución <strong>de</strong> números.<br />

En el caso <strong>de</strong>l ingreso autónomo per-cápita <strong>de</strong> la encuesta CASEN 2009, la media <strong>de</strong> esta variable<br />

es $130,992.7:<br />

De las 244,511 observaciones, 162,504 (66.5%) están bajo la media y 82,007 (33.5%) están sobre la<br />

media.<br />

Otra medida <strong>de</strong> ten<strong>de</strong>ncia central es la mediana, la que correspon<strong>de</strong> al valor <strong>de</strong> la variable en la<br />

mitad <strong>de</strong> la distribución, es <strong>de</strong>cir, si or<strong>de</strong>namos las observaciones <strong>de</strong> menor a mayor valor <strong>de</strong> la<br />

variable, la mediana es el valor <strong>de</strong> la observación que está justo en la mitad, <strong>de</strong>jando la misma<br />

cantidad <strong>de</strong> observaciones a la <strong>de</strong>recha y a la izquierda <strong>de</strong> la mediana. La mediana es una medida<br />

<strong>de</strong> ten<strong>de</strong>ncia central más robusta que la media, en el sentido que no es afectada por valores<br />

extremos.<br />

En el ejemplo <strong>de</strong> la Tabla 1 tenemos 5 números, don<strong>de</strong> el número 3 correspon<strong>de</strong> al que está justo<br />

en la mitad <strong>de</strong> estos 5 números, <strong>de</strong> esta forma la mediana es 3. En el ejemplo, <strong>de</strong> la Tabla 2<br />

tenemos 8 números, no existe un único número que este en la mitad, en este caso tenemos que<br />

consi<strong>de</strong>rar los números en la posición 4 y 5 para calcular la mediana, como ambos números son<br />

iguales a 13, la mediana <strong>de</strong> estos números es 13. Finalmente, en la Tabla 3 tenemos 12 números,<br />

nuevamente al ser un número par no existe un único número en la mitad, tenemos que consi<strong>de</strong>rar<br />

los números en la posición 6 y 7 para calcular la mediana, la que correspon<strong>de</strong> al promedio <strong>de</strong> estos<br />

dos números, 0.55.<br />

La mediana <strong>de</strong>l ingreso autónomo per-cápita es $93,361.7, bastante menor a la media ya que esta<br />

medida no es sensible a los valores extremos, ingresos elevados.<br />

La mediana correspon<strong>de</strong> al percentil 50 y po<strong>de</strong>mos calcular este valor en STATA a través <strong>de</strong>l<br />

comando summarize con la opción <strong>de</strong>tail.


Porcentaje<br />

Adicionalmente el gráfico 5 muestra el histograma <strong>de</strong>l ingreso autónomo per-cápita y los valores<br />

<strong>de</strong> la media y mediana.<br />

histogram yauthpc if yauthpc


Density<br />

Simetría <strong>de</strong> una distribución<br />

Se dice que una distribución es simétrica con respecto a la media 3 si existe el mismo número <strong>de</strong><br />

valores a la <strong>de</strong>recha <strong>de</strong> la media que a la izquierda <strong>de</strong> la media, esto significa que el lado <strong>de</strong>recho<br />

<strong>de</strong> la distribución es un espejo <strong>de</strong>l lado izquierdo <strong>de</strong> la distribución.<br />

Por ejemplo, la siguiente variable es simétrica en torno a su media que es igual a 3<br />

.1 .2 .3 .4<br />

0<br />

Gráfico 6<br />

Histograma <strong>de</strong> variable simétrica en torno a la media<br />

-3 -2 -1 0 1 2 3 4 5 6 7 8 9<br />

Para saber <strong>de</strong> manera más objetiva si la variable es simétrica o no, y no simplemente utilizando la<br />

inspección gráfica, po<strong>de</strong>mos calcular el coeficiente <strong>de</strong> asimetría. Si este coeficiente es igual a cero<br />

se dice que la variable tiene una distribución simétrica en torno a la media, en este ejemplo el<br />

coeficiente <strong>de</strong> asimetría es -0.0054. Si el coeficiente <strong>de</strong> asimetría es positivo la variable tiene una<br />

distribución que concentra más observaciones a lado izquierdo <strong>de</strong> la distribución (bajo la media),<br />

por el contrario si el coeficiente <strong>de</strong> asimetría es negativo hay más observaciones en el lado<br />

<strong>de</strong>recho <strong>de</strong> la distribución (sobre la media).<br />

3 La simetría se pue<strong>de</strong> <strong>de</strong>finir también con respecto a la mediana o cualquier otro punto <strong>de</strong> interés, por<br />

ejemplo, el punto más alto <strong>de</strong> la distribución.


El coeficiente <strong>de</strong> asimetría forma parte <strong>de</strong> los indicadores <strong>de</strong>l comando summarize, <strong>de</strong>tail<br />

<strong>de</strong> STATA. En el caso <strong>de</strong>l ingreso autónomo per-cápita gráficamente notábamos que era una<br />

variable asimétrica ya que tiene mayor cantidad <strong>de</strong> observaciones al lado izquierdo, en particular<br />

el coeficiente <strong>de</strong> asimetría <strong>de</strong> esta variable es 2.65.<br />

g lyauthpc=ln(yauthpc)<br />

(8829 missing values generate)<br />

histogram yauthpc if yauthpc>0 & yauthpc


Porcentaje<br />

10 15<br />

0 5<br />

Ingreso Autónomo per-capita<br />

Distribución Empírica<br />

Gráfico 7<br />

0 200000 400000 600000 800000 1000000<br />

Ingreso Autónomo per-cápita <strong>de</strong>l hogar<br />

Fuente: Elaboración propia en base a Encuesta CASEN 2006<br />

Porcentaje<br />

El coeficiente <strong>de</strong> asimetría <strong>de</strong> la variable en logaritmo es bastante más pequeño:<br />

10<br />

Logaritmo Ingreso Autónomo per-capita<br />

Distribución Empírica<br />

0 2 4 6 8<br />

4 6 8 10 12 14<br />

Ingreso Autónomo per-cápita <strong>de</strong>l hogar<br />

Fuente: Elaboración propia en base a Encuesta CASEN 2006


Medidas <strong>de</strong> dispersión<br />

Tal como dice su nombre las medidas <strong>de</strong> dispersión tienen que ver con que tan dispersas están las<br />

observaciones, o que tan concentradas están.<br />

Una medida <strong>de</strong> dispersión es la varianza ( 2 ):<br />

Varianza poblacional:<br />

Varianza muestral:<br />

La varianza correspon<strong>de</strong> el promedio <strong>de</strong> las <strong>de</strong>sviaciones al cuadrado <strong>de</strong> cada observación con<br />

respecto a la media <strong>de</strong> la variable. Notemos que nos interesan las <strong>de</strong>sviaciones, razón por la cual<br />

se toma el valor al cuadrado, generando siempre un valor positivo, pero al estar al cuadrado la<br />

medida <strong>de</strong> dispersión le da más peso a las observaciones más distantes en el promedio. Otra<br />

consecuencia <strong>de</strong> que se midan las <strong>de</strong>sviaciones al cuadrado es que la medida quedara expresada<br />

en el cuadrado <strong>de</strong> la unidad en la que medida la variable, lo cual dificulta bastante la<br />

interpretación. Por esta razón usualmente se utiliza la <strong>de</strong>sviación estándar que consiste en tomar<br />

raíz cuadrada <strong>de</strong> la varianza, por lo cual la medida <strong>de</strong> dispersión queda expresada en la misma<br />

unidad <strong>de</strong> la variable estudiada.<br />

Desviación estándar muestral:<br />

La <strong>de</strong>sviación estándar <strong>de</strong>l ingreso autónomo per-cápita es <strong>de</strong> $130,662.<br />

El siguiente gráfico nos muestra variables generadas aleatoriamente con distribución normal con<br />

media 1, pero diferentes varianzas (<strong>de</strong>sviaciones estándar).


clear<br />

set obs 10000<br />

matrix <strong>de</strong>sv1=1<br />

matrix <strong>de</strong>sv2=sqrt(2)<br />

matrix <strong>de</strong>sv3=sqrt(3)<br />

matrix <strong>de</strong>sv4=2<br />

drawnorm var1, m(1) sd(<strong>de</strong>sv1)<br />

drawnorm var2, m(1) sd(<strong>de</strong>sv2)<br />

drawnorm var3, m(1) sd(<strong>de</strong>sv3)<br />

drawnorm var4, m(1) sd(<strong>de</strong>sv4)<br />

histogram var1, percent fcolor(purple) xtitle(media=1 varianza=1) saving(var1,<br />

replace)<br />

histogram var2, percent fcolor(purple) xtitle(media=1 varianza=2) saving(var2,<br />

replace)<br />

histogram var3, percent fcolor(purple) xtitle(media=1 varianza=3) saving(var3,<br />

replace)<br />

histogram var4, percent fcolor(purple) xtitle(media=1 varianza=4) saving(var4,<br />

replace)<br />

graph combine var1.gph var2.gph var3.gph var4.gph, xcommon<br />

Percent<br />

Percent<br />

0 2 4 6 8<br />

0 2 4 6 8<br />

-10 -5 0 5 10<br />

media=1 varianza=1<br />

-10 -5 0 5 10<br />

media=1 varianza=3<br />

Percent<br />

Percent<br />

Gráfico 8<br />

0 2 4 6 8<br />

0 2 4 6 8<br />

-10 -5 0 5 10<br />

media=1 varianza=2<br />

-10 -5 0 5 10<br />

media=1 varianza=4


Otra medida <strong>de</strong> dispersión utilizada es el rango inter-cuartil, el que se <strong>de</strong>fine como la distancia en<br />

unida<strong>de</strong>s <strong>de</strong> la variable entre el percentil 75 y el percentil 25:<br />

El rango inter-cuartil <strong>de</strong>l ingreso autónomo per-cápita es $107,185 lo que indica que la diferencia<br />

en ingreso autónomo entre la persona que está en el 75% <strong>de</strong> mayores ingresos y la persona que<br />

está en el 25% <strong>de</strong> menos ingresos es $107,185.<br />

El problema <strong>de</strong> estas tres medidas <strong>de</strong> dispersión; varianza, <strong>de</strong>sviación estándar, y rango intercuartil;<br />

es que están en la escala <strong>de</strong> la variable que estamos midiendo su dispersión, por lo cual no<br />

nos permite comparar variables con diferentes escalas, no es una medida estandarizada.<br />

Una medida <strong>de</strong> dispersión estandarizada y que nos permite comparar variables <strong>de</strong> distinta<br />

naturaleza es el coeficiente <strong>de</strong> variación (cv):<br />

Por ejemplo, el coeficiente <strong>de</strong> variación <strong>de</strong>l ingreso autónomo es casi igual a uno, indicando que la<br />

<strong>de</strong>sviación estándar es igual a la media <strong>de</strong> la variable, sin embargo, al aplicar la transformación<br />

logarítmica <strong>de</strong> la variable la dispersión <strong>de</strong> reduce bastante la <strong>de</strong>sviación estándar <strong>de</strong> la variable<br />

transformada es igual a 0.08 veces la media.<br />

Un gráfico que nos permite ver <strong>de</strong> manera simultánea la dispersión <strong>de</strong> la variable como su<br />

ten<strong>de</strong>ncia central es el Box plot.<br />

graph box yauthpc if yauthpc>0 & yauthpc


200000 400000 600000 800000 1.0e+06<br />

yauthpc<br />

0<br />

Gráfico 9<br />

La línea <strong>de</strong>ntro <strong>de</strong> la caja correspon<strong>de</strong> a la mediana <strong>de</strong> la variable (medida <strong>de</strong> ten<strong>de</strong>ncia central), la<br />

parte superior <strong>de</strong> la caja representa el percentil 75 y la parte baja <strong>de</strong> la caja el percentil 25, por lo<br />

cual la altura <strong>de</strong> la caja representa el rango inter-cuartil (medida <strong>de</strong> dispersión). La línea que esta<br />

por sobre la caja <strong>de</strong>fine la cantidad <strong>de</strong> valores extremos en la variable, todas las observaciones<br />

sobre esta línea son valores extremos o outliers. Esta línea se está <strong>de</strong>finida por el percentil 75 más<br />

1.5 veces el rango inter-cuartil, <strong>de</strong> manera equivalente la línea que está bajo la casa correspon<strong>de</strong><br />

al percentil 25 menos 1.5 veces el rango inter-cuartil.<br />

Medidas <strong>de</strong> <strong>de</strong>sigualdad<br />

Para <strong>de</strong>finir si una persona es indigente, pobre no indigente, o no pobre se utiliza la línea <strong>de</strong><br />

indigencia y pobreza <strong>de</strong>finida según el consumo <strong>de</strong> una canasta básica por MIDEPLAN. Para el año<br />

2009 se tienen los siguientes valores <strong>de</strong> línea <strong>de</strong> indigencia y pobreza:<br />

Tabla 4<br />

Línea <strong>de</strong> indigencia<br />

Urbana 32,067<br />

Rural 24,710<br />

Línea <strong>de</strong> pobreza<br />

Urbana 64,134<br />

Rural 43,242


Para <strong>de</strong>finir si un individuo tiene un ingreso bajo o sobre la línea <strong>de</strong> pobreza o indigencia, se<br />

calcula su ingreso per-cápita <strong>de</strong>l hogar, tomando el ingreso total <strong>de</strong>l hogar y dividiéndolo por el<br />

número <strong>de</strong> personas en el hogar, excluyendo el servicio doméstico.<br />

Los ingresos totales <strong>de</strong>l hogar se pue<strong>de</strong>n dividir en:<br />

Ingreso autónomo <strong>de</strong>l hogar<br />

o Ingresos laborales<br />

o Otras fuentes <strong>de</strong> ingresos (rentas, pensiones, etc.)<br />

Ingresos por subsidios monetarios<br />

Alquiler imputado<br />

Dos medidas <strong>de</strong> <strong>de</strong>sigualdad ampliamente utilizadas son la razón entre el último y primer quintil, y<br />

la razón entre el último y primer <strong>de</strong>cil.<br />

A continuación tomaremos las diferentes medidas <strong>de</strong> ingreso para analizar las medidas <strong>de</strong><br />

ten<strong>de</strong>ncia central, dispersión, y <strong>de</strong>sigualdad.<br />

**Ingreso total per-cápita<br />

g ingpc=ytothaj/n<br />

***Ingreso <strong>de</strong>l trabajo <strong>de</strong>l hogar****<br />

g ytrab= ytrabhaj<br />

replace ytrab=. if ytrab==0<br />

***Ingreso Autonomo ditisntos <strong>de</strong>l trabajo, <strong>de</strong>l hogar***<br />

g yaut2=yauthaj-ytrab<br />

replace yaut2=. if yaut2==0<br />

***Ingresos <strong>de</strong> subsidios <strong>de</strong>l hogar***<br />

g ysub=ysubhaj<br />

replace ysub=. if ysub==0<br />

***Alquiler imputado***<br />

g alq=yaimhaj<br />

replace alq=. if alq==0<br />

***Ingreso Autonomo Percapita <strong>de</strong>l hogar***<br />

g yaupc=yauthaj/n<br />

replace yaupc=. if yaupc==.


xtile quintil_trab=ytrab [w=expr] if o==1, nq(5)<br />

xtile quintil_au2=yaut2 [w=expr] if o==1, nq(5)<br />

xtile quintil_sub=ysub [w=expr] if o==1, nq(5)<br />

xtile quintil_alq=alq [w=expr] if o==1, nq(5)<br />

xtile quintil_aupc=yaupc [w=expr] if o==1, nq(5)<br />

xtile quintil_totpc=ingpc [w=expr] if o==1, nq(5)<br />

xtile <strong>de</strong>cil_trab=ytrab [w=expr] if o==1, nq(10)<br />

xtile <strong>de</strong>cil_au2=yaut2 [w=expr] if o==1, nq(10)<br />

xtile <strong>de</strong>cil_sub=ysub [w=expr] if o==1, nq(10)<br />

xtile <strong>de</strong>cil_alq=alq [w=expr] if o==1, nq(10)<br />

xtile <strong>de</strong>cil_aupc=yaupc [w=expr] if o==1, nq(10)<br />

xtile <strong>de</strong>cil_totpc=ingpc [w=expr] if o==1, nq(10)<br />

matrix MED=J(6,12,0)<br />

matrix colnames MED=Promedio DesvEstandar P25 P75 Quintil1 Quintil5<br />

Decil1 Decil10 CV IQR D10/D1 Q5/Q1<br />

matrix rownames MED=Trabajo otros_autonomos subsidios alquiler<br />

autonomo_pc total_pc<br />

sum ytrab [w=expr] if o==1, <strong>de</strong>tail<br />

matrix MED[1,1]=r(mean)<br />

matrix MED[1,2]=r(sd)<br />

matrix MED[1,3]=r(p25)<br />

matrix MED[1,4]=r(p75)<br />

sum ytrab [w=expr] if o==1 & quintil_trab==1<br />

matrix MED[1,5]=r(mean)<br />

sum ytrab [w=expr] if o==1 & quintil_trab==5<br />

matrix MED[1,6]=r(mean)<br />

sum ytrab [w=expr] if o==1 & <strong>de</strong>cil_trab==1<br />

matrix MED[1,7]=r(mean)<br />

sum ytrab [w=expr] if o==1 & <strong>de</strong>cil_trab==10<br />

matrix MED[1,8]=r(mean)<br />

sum yaut2 [w=expr] if o==1, <strong>de</strong>tail<br />

matrix MED[2,1]=r(mean)<br />

matrix MED[2,2]=r(sd)<br />

matrix MED[2,3]=r(p25)<br />

matrix MED[2,4]=r(p75)


sum yaut2 [w=expr] if o==1 & quintil_au2==1<br />

matrix MED[2,5]=r(mean)<br />

sum yaut2 [w=expr] if o==1 & quintil_au2==5<br />

matrix MED[2,6]=r(mean)<br />

sum yaut2 [w=expr] if o==1 & <strong>de</strong>cil_au2==1<br />

matrix MED[2,7]=r(mean)<br />

sum yaut2 [w=expr] if o==1 & <strong>de</strong>cil_au2==10<br />

matrix MED[2,8]=r(mean)<br />

sum ysub [w=expr] if o==1, <strong>de</strong>tail<br />

matrix MED[3,1]=r(mean)<br />

matrix MED[3,2]=r(sd)<br />

matrix MED[3,3]=r(p25)<br />

matrix MED[3,4]=r(p75)<br />

sum ysub [w=expr] if o==1 & quintil_sub==1<br />

matrix MED[3,5]=r(mean)<br />

sum ysub [w=expr] if o==1 & quintil_sub==5<br />

matrix MED[3,6]=r(mean)<br />

sum ysub [w=expr] if o==1 & <strong>de</strong>cil_sub==1<br />

matrix MED[3,7]=r(mean)<br />

sum ysub [w=expr] if o==1 & <strong>de</strong>cil_sub==10<br />

matrix MED[3,8]=r(mean)<br />

sum alq [w=expr] if o==1, <strong>de</strong>tail<br />

matrix MED[4,1]=r(mean)<br />

matrix MED[4,2]=r(sd)<br />

matrix MED[4,3]=r(p25)<br />

matrix MED[4,4]=r(p75)<br />

sum alq [w=expr] if o==1 & quintil_alq==1<br />

matrix MED[4,5]=r(mean)<br />

sum alq [w=expr] if o==1 & quintil_alq==5<br />

matrix MED[4,6]=r(mean)<br />

sum alq [w=expr] if o==1 & <strong>de</strong>cil_alq==1<br />

matrix MED[4,7]=r(mean)<br />

sum alq [w=expr] if o==1 & <strong>de</strong>cil_alq==10<br />

matrix MED[4,8]=r(mean)


sum yaupc [w=expr] if o==1, <strong>de</strong>tail<br />

matrix MED[5,1]=r(mean)<br />

matrix MED[5,2]=r(sd)<br />

matrix MED[5,3]=r(p25)<br />

matrix MED[5,4]=r(p75)<br />

sum yaupc [w=expr] if o==1 & quintil_aupc==1<br />

matrix MED[5,5]=r(mean)<br />

sum yaupc [w=expr] if o==1 & quintil_aupc==5<br />

matrix MED[5,6]=r(mean)<br />

sum yaupc [w=expr] if o==1 & <strong>de</strong>cil_aupc==1<br />

matrix MED[5,7]=r(mean)<br />

sum yaupc [w=expr] if o==1 & <strong>de</strong>cil_aupc==10<br />

matrix MED[5,8]=r(mean)<br />

sum ingpc [w=expr] if o==1, <strong>de</strong>tail<br />

matrix MED[6,1]=r(mean)<br />

matrix MED[6,2]=r(sd)<br />

matrix MED[6,3]=r(p25)<br />

matrix MED[6,4]=r(p75)<br />

sum ingpc [w=expr] if o==1 & quintil_totpc==1<br />

matrix MED[6,5]=r(mean)<br />

sum ingpc [w=expr] if o==1 & quintil_totpc==5<br />

matrix MED[6,6]=r(mean)<br />

sum ingpc [w=expr] if o==1 & <strong>de</strong>cil_totpc==1<br />

matrix MED[6,7]=r(mean)<br />

sum ingpc [w=expr] if o==1 & <strong>de</strong>cil_totpc==10<br />

matrix MED[6,8]=r(mean)<br />

local i=1<br />

while `i'


La razón <strong>de</strong> <strong>de</strong>ciles y quintiles nos permiten estudiar la distribución o <strong>de</strong>sigualdad en las distintas<br />

medidas <strong>de</strong> ingresos propuestas. Por ejemplo, se tiene que los hogares <strong>de</strong>l <strong>de</strong>cil más alto obtienen<br />

ingresos <strong>de</strong>l trabajo que son en promedio más <strong>de</strong> 37 veces los ingresos <strong>de</strong> las personas <strong>de</strong>l <strong>de</strong>cil<br />

más bajo. Esto pue<strong>de</strong> ser <strong>de</strong> alguna manera compensado (al menos en términos relativos) con los<br />

subsidios, ya que la razón entre el Decil 90 y Decil 10 <strong>de</strong> subsidios monetarios es 45.5. Con<br />

respecto a la razón <strong>de</strong> quintiles, las personas que están en el 20% <strong>de</strong> mayores ingresos <strong>de</strong>l trabajo<br />

tienen ingresos por este ítem promedio que son 16.2 veces los ingresos <strong>de</strong> trabajo <strong>de</strong> las personas<br />

que están en el 20% inferior.<br />

En términos <strong>de</strong> ingreso autónomo per-cápita la <strong>de</strong>sigualdad <strong>de</strong> ingresos nos muestra que las<br />

personas <strong>de</strong>l <strong>de</strong>cil más alto tienen un ingreso 78.7 veces el ingreso <strong>de</strong> las personas <strong>de</strong>l <strong>de</strong>cil más<br />

bajo. En términos <strong>de</strong> quintiles la razón (<strong>de</strong>sigualdad) es menor, nos muestra que las personas en el<br />

quintil más acomodado tiene un ingreso autónomo 24 veces el ingreso <strong>de</strong>l primer quintil. Pero si<br />

nos concentramos en el ingreso total <strong>de</strong>l hogar, el cual correspon<strong>de</strong> a los ingresos autónomos más<br />

los subsidios monetarios y alquiler imputado, se tiene que la razón <strong>de</strong> <strong>de</strong>ciles es poco menos <strong>de</strong> la<br />

mitad <strong>de</strong> la misma medida para el ingreso autónomo, y la razón <strong>de</strong> quintiles es 15.8.<br />

Otras dos medidas <strong>de</strong> <strong>de</strong>sigualdad son la curva <strong>de</strong> Lorenz y el coeficiente <strong>de</strong> Gini. La Curva <strong>de</strong><br />

Lorenz mi<strong>de</strong> el porcentaje acumulado <strong>de</strong>l ingreso (o <strong>de</strong> la variable que estemos analizando) en<br />

manos <strong>de</strong>l porcentaje acumulado <strong>de</strong> la población. La Figura 5 nos muestra la Curva <strong>de</strong> Lorenz en<br />

rojo, en el eje horizontal nos va mostrando la proporción <strong>de</strong> la población que va <strong>de</strong>s<strong>de</strong> cero a 1, y<br />

en el eje vertical la proporción <strong>de</strong>l ingreso. Por ejemplo, esta curva nos muestra que un 60% <strong>de</strong> la<br />

población acumula cerca <strong>de</strong>l 30% <strong>de</strong> los ingresos. Mientras mayor curvatura tenga la curva <strong>de</strong>


lorenz mayor es la <strong>de</strong>sigualdad, y mientras más recta sea la curva menor es la <strong>de</strong>sigualdad, en el<br />

extremo no existe <strong>de</strong>sigualdad en la línea negra (45°).<br />

lorenz yaupc<br />

Figura 5<br />

Gráfico 10


Esta medida <strong>de</strong> <strong>de</strong>sigualdad es gráfica y dificulta la comparación con otras variables. El coeficiente<br />

<strong>de</strong> Gini es un indicador más objetivo que se obtiene a partir <strong>de</strong> la Curva <strong>de</strong> Lorenz, el Gini es un<br />

número que está entre 0 y 1, en don<strong>de</strong> 0 correspon<strong>de</strong> a perfecta igualdad y 1 correspon<strong>de</strong> a<br />

perfecta <strong>de</strong>sigualdad.<br />

El Coeficiente <strong>de</strong> Gini se obtiene <strong>de</strong> dividir el área que hay entre la línea <strong>de</strong> perfecta igualdad y la<br />

Curva <strong>de</strong> Lorenz (a), y el área total bajo la línea <strong>de</strong> perfecta igualdad (a+b).<br />

inequal yaupc<br />

Figura 6<br />

Coeficiente <strong>de</strong> Gini<br />

Para obtener el coeficiente <strong>de</strong> GINI <strong>de</strong>l ingreso autónomo per-cápita po<strong>de</strong>mos utilizar el comando<br />

inequal <strong>de</strong> STATA:<br />

El coefiente <strong>de</strong>l Gini <strong>de</strong>l ingreso autónomo per-cápita es 0.513 o 51.3%.


La interpretación <strong>de</strong>l coeficiente <strong>de</strong> GINI es la siguiente, si tomo dos familias o personas al azar, la<br />

diferencia en ingresos autónomos per-cápita <strong>de</strong> estas dos personas como proporción <strong>de</strong>l ingreso<br />

promedio:<br />

Es el doble <strong>de</strong>l coeficiente <strong>de</strong> GINI, es <strong>de</strong>cir, en este caso 102.6%.<br />

Todos los indicadores que hemos presentados: medidas <strong>de</strong> ten<strong>de</strong>ncia central, medidas <strong>de</strong><br />

dispersión, y medidas <strong>de</strong> <strong>de</strong>sigualdad, lo hemos mostrando pensando en el análisis <strong>de</strong> una sola<br />

variable. Sin embargo, en muchos casos nos interesará hacer comparaciones entre estadísticos <strong>de</strong><br />

diferentes variables o para diferentes grupos, por ejemplo, podríamos comparar los ingresos<br />

promedios entre hombre y mujeres.<br />

Una forma <strong>de</strong> compararlos sería simplemente tomar la diferencia entre el ingreso promedio <strong>de</strong> los<br />

hombres y el ingreso promedio <strong>de</strong> las mujeres, esto nos entregará un número. Pero no sabremos<br />

si <strong>de</strong>cir si ese número es gran<strong>de</strong> o pequeño, o afirmar que realmente la diferencia existe, para esto<br />

necesitamos <strong>de</strong>terminar si el valor encontrado es estadísticamente diferente <strong>de</strong> cero.<br />

A continuación comenzaremos a <strong>de</strong>sarrollar el marco conceptual que más a<strong>de</strong>lante nos permitirá<br />

respon<strong>de</strong>r esta pregunta.


Teoría <strong>de</strong> Distribución <strong>de</strong> Probabilida<strong>de</strong>s<br />

A continuación vamos a presentar y <strong>de</strong>sarrollar una serie <strong>de</strong> conceptos relacionado con la Teoría<br />

<strong>de</strong> Probabilida<strong>de</strong>s, la que más a<strong>de</strong>lante nos permitiría rechazar o no hipótesis <strong>de</strong>s<strong>de</strong> el punto <strong>de</strong><br />

vista estadístico.<br />

Variable Aleatoria<br />

Definición<br />

Una variable aleatoria es aquella variable cuyos resultados posibles se obtienen <strong>de</strong>l azar, es<br />

<strong>de</strong>cir, <strong>de</strong> manera experimental.<br />

Existen variables aleatorias discretas, es <strong>de</strong>cir, que sólo pue<strong>de</strong>n tomar valores contables, y existen<br />

variables aleatorias continuas don<strong>de</strong> la variable pue<strong>de</strong> tomar cualquier número <strong>de</strong>l infinito <strong>de</strong><br />

números posibles.<br />

Probabilidad <strong>de</strong> un evento<br />

Se entien<strong>de</strong> por probabilidad como la posibilidad <strong>de</strong> que ocurra un resultado o un evento<br />

<strong>de</strong>terminado. Un evento es uno <strong>de</strong> los posibles resultados <strong>de</strong> hacer algo. Por ejemplo, al lanzar<br />

una moneda tenemos dos posibles eventos: que salga cara o que salga sello. Luego, la<br />

probabilidad <strong>de</strong> que al lanzar una moneda esta caiga en cara es ½ o 0.5.<br />

Una probabilidad siempre estará entre 0 y 1, don<strong>de</strong> 0 significa que no existe ninguna posibilidad<br />

<strong>de</strong> que el evento ocurra, y 1 existe seguridad <strong>de</strong> que el evento ocurra.<br />

En la teoría <strong>de</strong> probabilidad, la actividad que origina los diferentes eventos se conoce como<br />

experimento. Al conjunto <strong>de</strong> todos los resultados posibles <strong>de</strong> un experimento se le llama espacio<br />

muestral <strong>de</strong>l experimento. En el experimento lanzar una moneda el espacio muestral es:


Consi<strong>de</strong>remos ahora el experimento <strong>de</strong> lanzar una moneda cuatro veces, para cada lanzamiento<br />

<strong>de</strong> la moneda tenemos dos posibles resultados (cara o sello), por lo cual el espacio muestral <strong>de</strong><br />

este experimento tendrá 16 eventos posibles:<br />

1° moneda 2° moneda 3° moneda 4° moneda<br />

Cara Cara<br />

Sello<br />

Sello<br />

Cara<br />

Sello<br />

Cara<br />

Sello<br />

Cara<br />

Sello<br />

Cara<br />

Sello<br />

Cara<br />

Sello<br />

Cara<br />

Sello<br />

Cara<br />

Sello<br />

Cara<br />

Sello<br />

Cara<br />

Sello<br />

Cara<br />

Sello<br />

Cara<br />

Sello<br />

Cara<br />

Sello<br />

Cara<br />

Sello


De esta forma, el experimento lanzar 4 monedas tiene 16 posibles eventos que forman el espacio<br />

muestral <strong>de</strong>l experimento, y la probabilidad <strong>de</strong> cada uno <strong>de</strong> los eventos es 1/16 o 0.0625.<br />

Número Evento Probabilidad<br />

1 CCCC 1/16 =0.0625<br />

2 CCCS 1/16 =0.0625<br />

3 CCSC 1/16 =0.0625<br />

4 CCSS 1/16 =0.0625<br />

5 CSCC 1/16 =0.0625<br />

6 CSCS 1/16 =0.0625<br />

7 CSSC 1/16 =0.0625<br />

8 CSSS 1/16 =0.0625<br />

9 SCCC 1/16 =0.0625<br />

10 SCCS 1/16 =0.0625<br />

11 SCSC 1/16 =0.0625<br />

12 SCSS 1/16 =0.0625<br />

13 SSCC 1/16 =0.0625<br />

14 SSCS 1/16 =0.0625<br />

15 SSSC 1/16 =0.0625<br />

16 SSSS 1/16 =0.0625<br />

Otra pregunta que nos po<strong>de</strong>mos hacer con respecto al experimento <strong>de</strong> lanzar 4 monedas es la<br />

cantidad <strong>de</strong> caras que salen, esta variable la <strong>de</strong>notaremos por X, y se tiene que:<br />

X N° <strong>de</strong> casos Probabilidad<br />

0 1 1/16=0.0625<br />

1 4 ¼=0.25<br />

2 6 3/8=0.375<br />

3 4 ¼=0.25<br />

4 1 1/16=0.0625<br />

Esta variable aleatoria pue<strong>de</strong> tomar cinco valores diferentes, por lo cual es una variable aleatoria<br />

discreta, las probabilida<strong>de</strong>s <strong>de</strong> cada uno <strong>de</strong> los posibles valores <strong>de</strong> esta variable son todos<br />

positivos y menores a 1, y la suma <strong>de</strong> ellos es igual a 1.<br />

Función <strong>de</strong> Distribución <strong>de</strong> Probabilidad<br />

Definición<br />

La Función <strong>de</strong> Distribución <strong>de</strong> Probabilidad nos señala para cada uno <strong>de</strong> los resultados posibles<br />

<strong>de</strong> la variable aleatoria cual es su probabilidad


La Función <strong>de</strong> Distribución <strong>de</strong> Probabilidad tiene dos características importantes:<br />

La probabilidad <strong>de</strong> un resultado en particular está entre 0 y 1:<br />

La suma <strong>de</strong> las probabilida<strong>de</strong>s <strong>de</strong> todos los eventos es 1:<br />

histogram X, discrete fraction fcolor(purple) lcolor(black)<br />

ytitle(Pr(X=x)) xtitle(Número <strong>de</strong> caras en el lanzamiento <strong>de</strong> cuatro<br />

monedas)<br />

Gráfico 11<br />

Distribución <strong>de</strong> Probabilidad X


Definición<br />

La Función <strong>de</strong> Distribución <strong>de</strong> Frecuencias nos señala para cada uno <strong>de</strong> los resultados posibles<br />

<strong>de</strong> la variable aleatoria la cantidad <strong>de</strong> casos que tienen ese resultado.<br />

histogram X, discrete freq fcolor(purple) lcolor(black)<br />

ytitle(frecuencias) xtitle(Número <strong>de</strong> caras en el lanzamiento <strong>de</strong> cuatro<br />

monedas)<br />

Gráfico 12<br />

Distribución <strong>de</strong> Frecuencias X


Una tabulación <strong>de</strong> una entrada <strong>de</strong> la variable X nos muestra la distribución <strong>de</strong> frecuencia,<br />

distribución <strong>de</strong> probabilida<strong>de</strong>s (en porcentaje), y distribución <strong>de</strong> probabilidad acumulada:<br />

En este caso la variable aleatoria es discreta, por lo cual esta función que relacionada cada evento<br />

posible <strong>de</strong> la variable con sus probabilida<strong>de</strong>s está <strong>de</strong>finida, sin embargo, cuando trabajamos con<br />

variables aleatorias continuas no es posible <strong>de</strong>finir esta función <strong>de</strong> distribución <strong>de</strong> probabilidad, ya<br />

que existen infinitos valores posibles para X.<br />

Para variables aleatorias continuas se <strong>de</strong>fine la función <strong>de</strong> <strong>de</strong>nsidad <strong>de</strong> probabilidad.<br />

Definición<br />

La Función <strong>de</strong> Densidad <strong>de</strong> Probabilidad (pdf) es tal que el área bajo esta función entre dos<br />

puntos es igual a la probabilidad <strong>de</strong> que la variable aleatoria este entre dos puntos


Es importante tener presente que el valor asociado a la función <strong>de</strong> <strong>de</strong>nsidad en un punto no<br />

representa la probabilidad <strong>de</strong> que la variable aleatoria tome ese valor, ya que la función <strong>de</strong><br />

<strong>de</strong>nsidad está <strong>de</strong>finida para entregar probabilida<strong>de</strong>s integrando por áreas.<br />

De esta forma, se tiene que la probabilidad <strong>de</strong> que una variable aleatoria continua Z tome valores<br />

entre a y b estará dada por:<br />

Don<strong>de</strong> f(z) es la función <strong>de</strong> <strong>de</strong>nsidad.<br />

A<strong>de</strong>más se cumple que:<br />

Definición<br />

La Función <strong>de</strong> Probabilidad Acumulada (cdf) indica la probabilidad <strong>de</strong> que una variable aleatoria<br />

tome un valor menor o igual a cierto umbral específico<br />

Por ejemplo, po<strong>de</strong>mos preguntarnos cuál es la probabilidad <strong>de</strong> que la variable aleatoria Z sea<br />

menor a:<br />

Una función <strong>de</strong> <strong>de</strong>nsidad bastante utilizada por sus particularida<strong>de</strong>s es la función <strong>de</strong> <strong>de</strong>nsidad<br />

normal:<br />

Esta función <strong>de</strong> <strong>de</strong>nsidad tiene dos parámetros que <strong>de</strong>finen su media () y su <strong>de</strong>sviación estándar<br />

(), y se <strong>de</strong>nota . Esta función <strong>de</strong> <strong>de</strong>nsidad tiene la particularidad <strong>de</strong> ser simétrica<br />

(coeficiente <strong>de</strong> asimetría es cero), y mesocurtica (coeficiente <strong>de</strong> curtosis es igual a 3).<br />

Por ejemplo, mediante el siguiente comando <strong>de</strong> STATA po<strong>de</strong>mos generar variables aleatorias con<br />

una función <strong>de</strong> <strong>de</strong>nsidad normal, para lo cual <strong>de</strong>bemos escoger sus dos parámetros: media y<br />

<strong>de</strong>sviación estándar:<br />

matrix m=(0,1,2,2)<br />

matrix sd=(1,1,1,sqrt(2))<br />

drawnorm w x y z, n(50000) means(m) sds(sd)


Hemos generado 4 variables aleatorias in<strong>de</strong>pendientes entre ellas, w tiene media 0 y <strong>de</strong>sviación<br />

estándar 1, x tiene media 1 y <strong>de</strong>sviación estándar 1, y tiene media 2 y <strong>de</strong>sviación estándar 1, y z<br />

tiene media dos y varianza 2.<br />

El Gráfico 13 nos muestra la función <strong>de</strong> <strong>de</strong>nsidad <strong>de</strong> w, la cual la obtuvimos a través <strong>de</strong>l comando<br />

normal<strong>de</strong>n()<strong>de</strong> STATA. Este comando genera una variable que correspon<strong>de</strong> a aplicar la función<br />

<strong>de</strong> <strong>de</strong>nsidad normal con media cero y <strong>de</strong>sviación estándar 1 a la variable indicada entre paréntesis,<br />

en este caso w.<br />

Es <strong>de</strong>cir,<br />

g <strong>de</strong>nsidadw=normal<strong>de</strong>n(w)<br />

twoway (scatter <strong>de</strong>nsidadw w)<br />

Gráfico 13<br />

Función <strong>de</strong> <strong>de</strong>nsidad normal: media 0 y <strong>de</strong>sviación estándar 1


También po<strong>de</strong>mos obtener y graficar la función <strong>de</strong> <strong>de</strong>nsidad <strong>de</strong> probabilidad acumulada <strong>de</strong> esta<br />

variable:<br />

g c<strong>de</strong>nsidadw=normal(w)<br />

twoway (scatter c<strong>de</strong>nsidadw w, mcolor(purple))<br />

Gráfico 14<br />

Función <strong>de</strong> <strong>de</strong>nsidad normal acumulada: media 0 y <strong>de</strong>sviación estándar 1<br />

Ambos gráficos los obtuvimos asumiendo que la variable w fue generada a partir <strong>de</strong> una función<br />

<strong>de</strong> <strong>de</strong>nsidad normal con media cero y varianza 1, sin embargo, en la práctica sólo se nos entregará<br />

un vector <strong>de</strong> datos sin saber cuál fue el proceso que generó esos datos. Por lo cual en la práctica<br />

<strong>de</strong>bemos estimar empíricamente cual es la función <strong>de</strong> <strong>de</strong>nsidad <strong>de</strong> los datos, ya sea a través <strong>de</strong> un<br />

histograma o a través <strong>de</strong> una estimación kernel (suavización <strong>de</strong>l histograma).<br />

histogram w, title(media=0; varianza=1) name(g1, replace)<br />

histogram x, title(media=1; varianza=1) name(g2, replace)<br />

histogram y, title(media=2; varianza=1) name(g3, replace)<br />

histogram z, title(media=2; varianza=2) name(g4, replace)<br />

graph combine g1 g2 g3 g4, xcom ycom


Gráfico 15<br />

Histograma, aproximación muestral <strong>de</strong> la función <strong>de</strong> <strong>de</strong>nsidad<br />

k<strong>de</strong>nsity w, title(media=0; varianza=1) name(g5, replace)<br />

k<strong>de</strong>nsity x, title(media=1; varianza=1) name(g6, replace)<br />

k<strong>de</strong>nsity y, title(media=2; varianza=1) name(g7, replace)<br />

k<strong>de</strong>nsity z, title(media=2; varianza=2) name(g8, replace)<br />

graph combine g5 g6 g7 g8, xcom ycom


Media y Varianza<br />

Gráfico 16<br />

Kernel, aproximación muestral <strong>de</strong> la función <strong>de</strong> <strong>de</strong>nsidad<br />

A partir <strong>de</strong> la función <strong>de</strong> distribución <strong>de</strong> probabilidad o la función <strong>de</strong> <strong>de</strong>nsidad <strong>de</strong> probabilidad <strong>de</strong><br />

una variable aleatoria se pue<strong>de</strong>n obtener algebraicamente los momentos <strong>de</strong> una variable,<br />

especialmente, la media y la varianza. Estos parámetros son análogos a la media y varianza<br />

muestral <strong>de</strong> una distribución empírica.<br />

Media<br />

La media <strong>de</strong> una variable aleatoria <strong>de</strong> conoce como valor esperado o esperanza, y <strong>de</strong> <strong>de</strong>nota por<br />

E(x).


Variable aleatoria discreta<br />

Variable aleatoria continua<br />

Varianza<br />

La varianza <strong>de</strong> una variable aleatoria <strong>de</strong> <strong>de</strong>nota por V(X), y se <strong>de</strong>fine <strong>de</strong> la siguiente manera:<br />

Variable aleatoria discreta<br />

Variable aleatoria continua<br />

Nuevamente, estos conceptos son más bien teóricos o poblacionales, ya que suponen conocer la<br />

función <strong>de</strong> probabilidad o <strong>de</strong>nsidad que dio origen a los valores observados <strong>de</strong> la variable<br />

aleatoria. Por esta razón, la E(X) y V(X) se conocen como momentos poblacionales (verda<strong>de</strong>ros).<br />

Pero en la práctica <strong>de</strong>sconocemos la función <strong>de</strong> <strong>de</strong>nsidad o la función <strong>de</strong> probabilidad, y sólo<br />

podremos obtener aproximaciones muestrales <strong>de</strong> estos momentos.<br />

Media muestral<br />

La media muestral se <strong>de</strong>fine <strong>de</strong> la siguiente manera:<br />

Es análoga a la <strong>de</strong>finición <strong>de</strong> E(x) o media poblacional, pero cada xi tiene igual probabilidad <strong>de</strong><br />

ocurrencia, 1/N.


Varianza muestral<br />

La varianza muestral se <strong>de</strong>fine <strong>de</strong> la siguiente manera:<br />

Aplicación: Lotería <strong>de</strong> New Jersey<br />

Para este ejercicio se utilizarán los datos <strong>de</strong> la Lotería <strong>de</strong> New Jersey, específicamente el juego Pick<br />

3, en este juego se saca tres veces seguidas una bola numerada <strong>de</strong> 0 a 9, y se realiza un sorteo en<br />

la mañana y otro en la tar<strong>de</strong>.<br />

En la siguiente página pue<strong>de</strong>n <strong>de</strong>scargar los datos históricos <strong>de</strong>l juego <strong>de</strong>s<strong>de</strong> 1975:<br />

http://www.state.nj.us/lottery/data/pick3.dat<br />

El objetivo <strong>de</strong> este ejercicio es mostrar que el resultado <strong>de</strong>l azar, lo que hemos <strong>de</strong>nominado<br />

variable aleatoria, es sólo UNO <strong>de</strong> los resultados posibles que podría tomar dicha variable. Es<br />

<strong>de</strong>cir, lo que observamos es una <strong>de</strong> las posibles realizaciones <strong>de</strong> la variable aleatoria según la<br />

distribución <strong>de</strong> probabilidad que la variable tiene asociada.<br />

De esta forma, <strong>de</strong>bemos establecer un criterio para po<strong>de</strong>r <strong>de</strong>cidir cuando la variable aleatoria<br />

tiene un comportamiento estadístico apropiado según su distribución <strong>de</strong> probabilidad o cuando<br />

no.<br />

Nos concentraremos para comenzar en la lotería <strong>de</strong>l año 1975, la siguiente figura muestra la base<br />

<strong>de</strong> datos que se obtiene <strong>de</strong> <strong>de</strong>scargar la información <strong>de</strong> la página y traspasarla a STATA mediante<br />

los siguientes comandos:<br />

insheet using "pick3.dat", <strong>de</strong>limiter("%")<br />

rename v1 año<br />

rename v2 mes<br />

rename v3 dia<br />

rename v4 jornada<br />

drop v5<br />

rename v6 n1<br />

rename v7 n2<br />

rename v8 n3<br />

drop v9-v13<br />

keep if año==1975<br />

save "loteria75.dta", replace


egen id=group(año mes dia jornada)<br />

reshape long n, i(id) j(digito)<br />

Figura 7<br />

Base <strong>de</strong> <strong>Datos</strong> Pick 3 (1975)<br />

Cada número <strong>de</strong>l sorteo (n1, n2, n3) correspon<strong>de</strong>n a eventos in<strong>de</strong>pendientes uno <strong>de</strong>l otro: sacar<br />

una bola <strong>de</strong> entre 10 bolas numeradas <strong>de</strong> 0 a 9, por lo cual po<strong>de</strong>mos generar una sola variable<br />

aleatoria.


Lo primero que hacemos es generar un i<strong>de</strong>ntificar cada uno <strong>de</strong> los sorteos, variable id, luego<br />

or<strong>de</strong>namos la base <strong>de</strong> datos <strong>de</strong> manera tal que las variables n1, n2, y n3 se agrupen hacia abajo en<br />

una sola columna llamada n, esto se hace a través <strong>de</strong>l comando reshape long.<br />

Figura 8<br />

Base <strong>de</strong> datos or<strong>de</strong>nada Pick 3 (1975)<br />

La siguiente tabla nos muestra la distribución <strong>de</strong> frecuencias y <strong>de</strong> probabilidad <strong>de</strong> cada uno <strong>de</strong> los<br />

números <strong>de</strong> 0 a 9 que pue<strong>de</strong>n ser sorteados:


Probabilidad<br />

En una lotería justa cada número tiene igual probabilidad <strong>de</strong> salir, esta probabilidad teórica es <strong>de</strong><br />

un 10%. Empíricamente <strong>de</strong>biésemos observar que <strong>de</strong>ntro <strong>de</strong> estos 570 sorteos cada número<br />

<strong>de</strong>bería salir 57 veces aproximadamente, sin embargo, observamos que el número 1 por ejemplo<br />

sale 72 veces, 12.6%.<br />

El siguiente gráfico muestra el histograma <strong>de</strong> la variable aleatoria<br />

10 15<br />

0 5<br />

Gráfico 17<br />

Distribución <strong>de</strong> Frecuencias sorteo<br />

Distribución <strong>de</strong> Números sorteados Pick3<br />

(1975)<br />

0 1 2 3 4 5 6 7 8 9<br />

Numeros Pick3<br />

Fuente: Lotería <strong>de</strong> New Jersey


Se observa claramente que los números 0, 1, y 4 aparecen en más <strong>de</strong>l 10% <strong>de</strong> los casos, y los<br />

números 3 y 5 en menos <strong>de</strong>l 10% <strong>de</strong> los casos. ¿Podríamos afirmar entonces que la lotería no es<br />

justa?.<br />

Para po<strong>de</strong>r afirmar que la lotería no es justa, <strong>de</strong>bemos establecer algún criterio que nos permita<br />

<strong>de</strong>cir cuando estadísticamente la variable aleatoria no se está comportando según lo esperado<br />

teóricamente. Una estrategia para hacer esto es simular muchas loterías honestas (por ejemplo<br />

5000) sacando muestras repetidas <strong>de</strong> 570 observaciones, luego si en estas simulaciones<br />

observamos que es frecuente que un número aparezca 12.6% <strong>de</strong> las veces o más, podríamos<br />

concluir que los resultados obtenidos no son irregulares. Si por el contrario la probabilidad <strong>de</strong> que<br />

un número aparezca 12.6% en las simulaciones es muy baja habría que sospechar <strong>de</strong> los<br />

resultados <strong>de</strong> la lotería <strong>de</strong> 1975.<br />

Pero necesitamos un criterio para <strong>de</strong>cir cuando es un resultado regular o un resultado raro, es<br />

<strong>de</strong>cir, cual es la probabilidad límite tal que sobre este valor diremos que este resultado (observar<br />

más <strong>de</strong>l 10% el número 1) es un mero resultado <strong>de</strong>l azar, y bajo este valor diremos que esta lotería<br />

es injusta. Por ejemplo, si en un 100% <strong>de</strong> las simulaciones observamos que el número 1 sale 12.6%<br />

<strong>de</strong> las veces podríamos <strong>de</strong>cir que esto no es algo raro o que la lotería es justa. Si observamos que<br />

en un 80% <strong>de</strong> las simulaciones se da este resultado también sigue siendo un resultado que no nos<br />

permite <strong>de</strong>cir que la lotería es injusta pero si por ejemplo, observamos que este resultado sólo se<br />

da en un 1% <strong>de</strong> las simulaciones tenemos evi<strong>de</strong>ncia para <strong>de</strong>cir que la lotería no es justa ya que el<br />

resultado se da en sólo un 1% <strong>de</strong> los casos, es un caso aislado. Entonces <strong>de</strong>bemos escoger el valor<br />

sobre el cual diremos que el resultado es “normal” y bajo el cual diremos que el resultado es<br />

“extraño”, por ejemplo 5%.<br />

Entonces,<br />

Si en la simulación la probabilidad (cantidad <strong>de</strong> casos sobre el total) <strong>de</strong> que el número 1<br />

sea sorteado 12.6% <strong>de</strong> las veces o más, es mayor a 5% (nuestro criterio) diremos que la<br />

lotería es justa.<br />

Si en la simulación la probabilidad <strong>de</strong> que el número 1 sea sorteado 12.6% <strong>de</strong> las veces o<br />

más, es menor a 5% (nuestro criterio) diremos que la lotería no es justa.<br />

A continuación realizaremos las 5,000 simulaciones <strong>de</strong> una lotería justa, esto significa obtener<br />

aleatoriamente y con igual probabilidad un número entre 0 y 9, 570 veces, ya que esta es la<br />

cantidad <strong>de</strong> observaciones que poseemos para el año 1957. Luego contaremos la cantidad <strong>de</strong><br />

veces que fue sorteado cada número.


clear<br />

drop _all<br />

set matsize 6000<br />

set more 1<br />

matrix B=J(5000,10,0)<br />

set obs 570<br />

g y=0<br />

local i=1<br />

while `i'


g prop1=c2/570*100<br />

count if prop1>=12.6<br />

Figura 9<br />

Base <strong>de</strong> datos 5,000 simulaciones<br />

Número <strong>de</strong> veces que es sorteado cada número<br />

Luego, calculamos el porcentaje en el que es sorteado el número 1 para cada simulación:<br />

Se obtiene que en 119 <strong>de</strong> las 5,000 simulaciones el número 1 es obtenido 12.6% o más, lo que<br />

correspon<strong>de</strong> a 2.38%, este porcentaje es menor al 5% que establecimos como criterio para <strong>de</strong>cidir<br />

cuando la lotería no es justa, por lo cual po<strong>de</strong>mos <strong>de</strong>cir que los resultados <strong>de</strong> la lotería <strong>de</strong> 1975 NO<br />

son regulares.<br />

El Gráfico 18 muestra la distribución <strong>de</strong> el porcentaje <strong>de</strong> veces que es sortead el número 1 <strong>de</strong> las<br />

5,000 simulaciones. Vemos que la distribución es bastante simétrica y se concentra en torno a<br />

10%, que representa el valor teórico <strong>de</strong>l número <strong>de</strong> veces que <strong>de</strong>bemos obtener el número 1. En<br />

efecto, el promedio es justamente 10%. A<strong>de</strong>más observamos que en un 1% <strong>de</strong> los casos el<br />

porcentaje <strong>de</strong> 1 es mayor a 13.2%, y en un 1% <strong>de</strong> los casos es menor a 7.2%.


Percent<br />

0 2 4 6<br />

Gráfico 18<br />

Distribución <strong>de</strong> porcentaje <strong>de</strong> veces que número 1 es sorteado<br />

1975<br />

6 8 10 12 14 16<br />

Distribucion <strong>de</strong>l porcentaje <strong>de</strong> unos en las 5000 simulaciones


Muestreo Aleatorio y Distribución <strong>de</strong> la Media Muestral<br />

Cuando estamos interesados en analizar el comportamiento <strong>de</strong> una variable <strong>de</strong> interés, por<br />

ejemplo, el nivel <strong>de</strong> ingresos <strong>de</strong> un hogar, el peso <strong>de</strong> los menores al nacer, la propensión a pa<strong>de</strong>cer<br />

diabetes, el número <strong>de</strong> meses que una persona permanece <strong>de</strong>sempleado, etc., generalmente<br />

trabajaremos con una muestra extraída <strong>de</strong> la población. Esto, porque en términos prácticos no<br />

tiene sentido estudiar a toda la población para <strong>de</strong>terminar el comportamiento estadístico y las<br />

propieda<strong>de</strong>s <strong>de</strong> la variable <strong>de</strong> interés, para esto bastará extraer una muestra aleatoria <strong>de</strong> la<br />

población.<br />

Por ejemplo, si queremos estudiar el comportamiento previsional <strong>de</strong> los trabajadores<br />

in<strong>de</strong>pendientes, no es necesario entrevistar a todos los trabajadores in<strong>de</strong>pendientes sino que<br />

bastará con extraer una muestra aleatoria que sea representativa <strong>de</strong> este grupo <strong>de</strong> interés.<br />

De una población se pue<strong>de</strong>n extraer distintas muestras que permitan representar dicha población.<br />

Supongamos que nuestra población bajo estudio está formada por 10 individuos, ¿cuántas<br />

muestras diferentes po<strong>de</strong>mos obtener <strong>de</strong> esta población?<br />

4<br />

1<br />

10<br />

2<br />

8<br />

3<br />

5<br />

6<br />

9<br />

7<br />

Una posible muestra es tomar a 1 individuo <strong>de</strong> los 10, podríamos formar 10 muestras <strong>de</strong> este tipo.<br />

Otro extremo es tomar una muestra <strong>de</strong> 10 individuos (igual a la población), también podríamos<br />

formar muestras <strong>de</strong> dos individuos, o <strong>de</strong> tres, etc. Esto nos permite ver como a partir <strong>de</strong> una<br />

población pequeña <strong>de</strong> sólo 10 individuos, la cantidad <strong>de</strong> muestras que se pue<strong>de</strong>n obtener <strong>de</strong> ellas<br />

es bastante amplia. ¿Cuántas muestras po<strong>de</strong>mos obtener <strong>de</strong> una población <strong>de</strong> 16,000,000 <strong>de</strong><br />

personas?, este número tien<strong>de</strong> a infinito.<br />

Se <strong>de</strong>fine como Población al conjunto <strong>de</strong> todos los elementos que han sido escogidos para el<br />

estudio. Se realiza un Censo cuando se entrevista a cada uno <strong>de</strong> los elementos <strong>de</strong> la población.<br />

Una Muestra correspon<strong>de</strong> a una selección <strong>de</strong> parte <strong>de</strong> la población.


Estadísticas versus parámetros<br />

Cuando queremos caracterizar una variable, y a su vez, compararla con otra variable o la misma<br />

variable entre diferentes grupos, po<strong>de</strong>mos utilizar las medidas <strong>de</strong> ten<strong>de</strong>ncia central como la media<br />

y la mediana, y las medidas <strong>de</strong> dispersión como <strong>de</strong>sviación estándar y rango inter-cuartil. Cuando<br />

estos indicadores son obtenidos <strong>de</strong> una muestra son conocidos como estadísticas <strong>de</strong>scriptivas, sin<br />

embargo, cuando son obtenidos <strong>de</strong> la población se conocen como parámetros.<br />

Tipos <strong>de</strong> muestreo<br />

Para que una muestra sea representativa <strong>de</strong> la población <strong>de</strong>be ser obtenida <strong>de</strong> manera aleatoria,<br />

sólo si esto se cumple podremos aproximar los parámetros poblacionales a través <strong>de</strong> estimaciones<br />

muestrales.<br />

Como ya se mencionaba, <strong>de</strong> una población po<strong>de</strong>mos obtener infinitas muestras aleatorias, así<br />

cuando se nos entrega una base <strong>de</strong> datos cuya información correspon<strong>de</strong> a una muestra obtenida<br />

<strong>de</strong> la población, esta correspon<strong>de</strong> a una <strong>de</strong> un millón <strong>de</strong> bases <strong>de</strong> datos que podríamos haber<br />

obtenido para la población <strong>de</strong> estudio.<br />

Muestreo Aleatorio Simple<br />

El Muestreo Aleatorio Simple (MAS) selecciona muestras <strong>de</strong> forma tal que cada muestra tiene<br />

igual probabilidad <strong>de</strong> ser seleccionada y que cada elemento <strong>de</strong> la población tiene igual<br />

probabilidad <strong>de</strong> ser incluido en la muestra.<br />

Un MAS se dice que es con reemplazo, si una personas seleccionada pue<strong>de</strong> ser elegible<br />

nuevamente, es <strong>de</strong>cir, podría ser que una personas fuese seleccionada más <strong>de</strong> una vez para<br />

formar parte <strong>de</strong> la muestra. El MAS es sin reemplazo si cada persona pue<strong>de</strong> ser seleccionada una<br />

vez o no seleccionada, es <strong>de</strong>cir, una vez escogida la persona esta <strong>de</strong>ja <strong>de</strong> ser elegible nuevamente.<br />

Suponga que tenemos una población 845 estudiantes <strong>de</strong> Ingeniería Comercial egresados en los<br />

años 2005, 2006 y 2007. De esta población <strong>de</strong> estudio <strong>de</strong>bemos escoger una muestra <strong>de</strong> 120<br />

estudiantes para ser entrevistados. Los 845 estudiantes están i<strong>de</strong>ntificados en la base <strong>de</strong> datos a<br />

través <strong>de</strong> la variable folio que tiene tres dígitos y toma valores <strong>de</strong>l 1 al 845.<br />

Para <strong>de</strong>terminar qué persona entrevistar <strong>de</strong>bemos generar 120 número aleatorios <strong>de</strong> tres dígitos<br />

que representarán los folios <strong>de</strong> las personas seleccionadas.<br />

Los 120 folios seleccionados mediante muestreo aleatorio simple con reemplazo pue<strong>de</strong>n ser<br />

seleccionados a través <strong>de</strong> los siguientes comandos:


set obs 120<br />

g n1=int(uniform()*10)<br />

g n2=int(uniform()*10)<br />

g n3=int(uniform()*10)<br />

g sorteo=n1*100+n2*10+n3)<br />

La siguiente figura nos muestra los números sorteados:<br />

set obs 150<br />

g n1=int(uniform()*10)<br />

g n2=int(uniform()*10)<br />

g n3=int(uniform()*10)<br />

g sorteo=n1*100+n2*10+n3<br />

duplicates drop sorteo, force<br />

keep if n


sample: el comando simple <strong>de</strong> STATA genera una muestra aleatoria simple sin reemplazo<br />

o sample 10: escoge aleatoriamente 10% <strong>de</strong> las observaciones<br />

o sample 120, count: escoge aleatoriamente 120 observaciones<br />

bsample: muestreo aleatorio simple con reemplazo<br />

o bsample 120: escoge aleatoriamente 120 observaciones.<br />

El Gráfico 19 muestra la comparación entre las funciones <strong>de</strong> <strong>de</strong>nsidad <strong>de</strong> una población <strong>de</strong><br />

100,000 observaciones que siguen una distribución normal con media 15 y varianza 100, y<br />

diferentes muestras obtenidas <strong>de</strong> esa población. La diferencias entre un gráfico y otro es el<br />

tamaño muestral <strong>de</strong> la población, po<strong>de</strong>mos notar que mientras más pequeña es la muestra (N=50)<br />

mayor es la diferencia entre la <strong>de</strong>nsidad <strong>de</strong> la muestra y <strong>de</strong> la población, versus las muestras más<br />

gran<strong>de</strong>s (N=5000) don<strong>de</strong> las diferencias son infimas.<br />

.01 .02 .03 .04 .05<br />

.01 .02 .03 .04 .05<br />

0<br />

0<br />

-40 -20 0 20 40 60<br />

x<br />

clear<br />

set obs 100000<br />

g x=invnorm(uniform())*10+15<br />

save x.dta,replace<br />

Poblacion Muestra 50<br />

-40 -20 0 20 40 60<br />

x<br />

Poblacion Muestra 500<br />

Gráfico 19<br />

Muestras Aleatorias <strong>de</strong> Diferentes Tamaños<br />

Para realizar este gráfico se utilizaron los siguientes comandos:<br />

.01 .02 .03 .04 .05<br />

.01 .02 .03 .04 .05<br />

0<br />

0<br />

-40 -20 0 20 40 60<br />

x<br />

Poblacion Muestra 80<br />

-40 -20 0 20 40 60<br />

x<br />

Poblacion Muestra 1000<br />

.01 .02 .03 .04 .05<br />

.01 .02 .03 .04 .05<br />

0<br />

0<br />

-40 -20 0 20 40 60<br />

x<br />

Poblacion Muestra 100<br />

-40 -20 0 20 40 60<br />

x<br />

Poblacion Muestra 5000


use x, clear<br />

sample 50, count<br />

rename x x50<br />

save x50.dta, replace<br />

use x, clear<br />

sample 80, count<br />

rename x x80<br />

save x80.dta, replace<br />

use x, clear<br />

sample 100, count<br />

rename x x100<br />

save x100.dta, replace<br />

use x, clear<br />

sample 500, count<br />

rename x x500<br />

save x500.dta, replace<br />

use x, clear<br />

sample 1000, count<br />

rename x x1000<br />

save x1000.dta, replace<br />

use x, clear<br />

sample 5000, count<br />

rename x x5000<br />

save x5000.dta, replace<br />

use x, clear<br />

merge using x50 x80 x100 x500 x1000 x5000<br />

twoway (k<strong>de</strong>nsity x) (k<strong>de</strong>nsity x50), name(g1, replace) legend(or<strong>de</strong>r(1<br />

"Poblacion" 2 "Muestra 50"))<br />

twoway (k<strong>de</strong>nsity x) (k<strong>de</strong>nsity x80), name(g2, replace) legend(or<strong>de</strong>r(1<br />

"Poblacion" 2 "Muestra 80"))<br />

twoway (k<strong>de</strong>nsity x) (k<strong>de</strong>nsity x100), name(g3, replace) legend(or<strong>de</strong>r(1<br />

"Poblacion" 2 "Muestra 100"))<br />

twoway (k<strong>de</strong>nsity x) (k<strong>de</strong>nsity x500), name(g4, replace) legend(or<strong>de</strong>r(1<br />

"Poblacion" 2 "Muestra 500"))<br />

twoway (k<strong>de</strong>nsity x) (k<strong>de</strong>nsity x1000), name(g5, replace) legend(or<strong>de</strong>r(1<br />

"Poblacion" 2 "Muestra 1000"))<br />

twoway (k<strong>de</strong>nsity x) (k<strong>de</strong>nsity x5000), name(g6, replace) legend(or<strong>de</strong>r(1<br />

"Poblacion" 2 "Muestra 5000"))<br />

graph combine g1 g2 g3 g4 g5 g6, xcommon ycommon


Muestreo Aleatorio Sistemático<br />

En el Muestreo Aleatorio Sistemático los elementos son seleccionados <strong>de</strong> la población <strong>de</strong>ntro <strong>de</strong><br />

un intervalo uniforme. En el ejemplo anterior, se <strong>de</strong>ben seleccionar 120 personas <strong>de</strong> una<br />

población <strong>de</strong> 875 individuos, por lo cual <strong>de</strong>bemos escoger aproximadamente 1 <strong>de</strong> cada 7 personas<br />

en la población (875/120~7).<br />

A través <strong>de</strong> los siguientes comandos en STATA po<strong>de</strong>mos generar los 120 individuos seleccionados<br />

con este tipo <strong>de</strong> muestreo:<br />

clear<br />

set obs 120<br />

g sorteo=int(uniform()*6)+1 if _n==1<br />

replace sorteo=sorteo[_n-1]+7 if _n>1<br />

La siguiente figura muestra los 120 folios seleccionados a través <strong>de</strong> este método<br />

Figura 11<br />

Números sorteados mediante Muestreo Aleatorio Sistemático<br />

Muestreo Aleatorio Estratificado<br />

El Muestreo Aleatorio Estratificado consiste en dividir a la población en grupos relativamente<br />

homogéneos llamados estratos, y <strong>de</strong>ntro <strong>de</strong> cada estrato se selecciona a una muestra <strong>de</strong> esta subpoblación,<br />

ya sea a través <strong>de</strong> muestreo aleatorio simple o sistemático. El muestreo aleatorio<br />

estratificado pue<strong>de</strong> ser proporcional o no proporcional. En el primero, la muestra <strong>de</strong> cada estrato<br />

es seleccionada <strong>de</strong> manera proporcional a la población <strong>de</strong>l estrato, en el segundo se seleccionada<br />

la misma cantidad <strong>de</strong> elementos en cada estrato.


Propieda<strong>de</strong>s <strong>de</strong> la Media Muestral<br />

A partir una población po<strong>de</strong>mos seleccionar infinitas muestra, generalmente nosotros<br />

dispondremos <strong>de</strong> sólo una <strong>de</strong> estas infinitas muestras que podrían haber sido seleccionadas, por lo<br />

cual <strong>de</strong>bemos conocer las propieda<strong>de</strong>s <strong>de</strong> la media muestral para po<strong>de</strong>r hacer inferencia sobre<br />

ella.<br />

Para estudiar las propieda<strong>de</strong>s <strong>de</strong> la media muestral, supongamos que disponemos <strong>de</strong> la población<br />

y po<strong>de</strong>mos sacar varias muestras diferentes a partir <strong>de</strong> esta población. Para cada una <strong>de</strong> estas<br />

muestras po<strong>de</strong>mos calcular la media muestral:<br />

Si la variable aleatoria X tiene una media poblacional igual a y una varianza poblacional igual a<br />

2 , notamos que el valor esperado (o esperanza) <strong>de</strong> la media muestral es:<br />

Y la varianza <strong>de</strong> la media muestral es:<br />

De esta forma, po<strong>de</strong>mos notar que en valor esperado la media muestral será igual a la media<br />

poblacional, esto se conoce como que es un estimador insesgado. A<strong>de</strong>más, mientras mayor sea el<br />

tamaño <strong>de</strong> la muestra menor será la varianza <strong>de</strong> este estimador (la media muestral), y estará más<br />

concentrada en torno a la media (media poblacional).<br />

Suponga que tenemos una población <strong>de</strong> 10,000 observaciones, don<strong>de</strong> esta población tiene una<br />

distribución <strong>de</strong> probabilidad (<strong>de</strong>nsidad) normal con media poblacional 15 y varianza poblacional<br />

igual a 100.<br />

Luego, seleccionamos 1,000 muestras aleatorias <strong>de</strong> tamaño N=500 cada una, y a cada una <strong>de</strong> estas<br />

muestras le tomamos la media muestral, el siguiente gráfico nos muestra la distribución<br />

(histograma) <strong>de</strong> las medias muestrales.<br />

set matsize 11000<br />

matrix B=J(1000,1,0)<br />

clear<br />

set obs 10000<br />

g x=invnorm(uniform())*10+15<br />

save xm.dta, replace


Density<br />

local i=1<br />

while `i'


Se obtiene que el promedio <strong>de</strong> las medias muestrales es 15, aproximadamente igual a la media<br />

poblacional, y que la varianza <strong>de</strong> las medias muestrales es 0.186 (0.431^2), lo que equivale<br />

aproximadamente a 100/500.<br />

La <strong>de</strong>sviación estándar <strong>de</strong> las medias muestrales se conoce como error estándar, esto porque la<br />

variabilidad en las medias muestrales proviene <strong>de</strong>l error <strong>de</strong> muestreo <strong>de</strong>bido al azar.<br />

Si la variable aleatoria x tiene una distribución normal <strong>de</strong> la siguiente forma:<br />

Se tiene que la media muestral también tendrá una distribución normal <strong>de</strong> la forma:<br />

Luego, se pue<strong>de</strong> estandarizar la media muestral restándole la media y dividiéndolo por la<br />

<strong>de</strong>sviación estándar, y se tiene que:<br />

Teorema Central <strong>de</strong>l Límite<br />

El Teorema Central <strong>de</strong>l Límite establece que si tomamos una muestra aleatoria <strong>de</strong> un tamaño<br />

muestral lo suficientemente gran<strong>de</strong>, in<strong>de</strong>pendiente <strong>de</strong> cuál sea la distribución <strong>de</strong> la variable<br />

aleatoria en la población, la media muestral <strong>de</strong> la variable tendrá una distribución normal con<br />

media igual a la media poblacional, y varianza igual a la varianza muestral dividió por N.<br />

Supongamos una población que tiene una distribución <strong>de</strong> probabilidad (<strong>de</strong>nsidad) tipo Pareto,<br />

esta distribución tiene la característica <strong>de</strong> ser bastante asimétrica.<br />

La función <strong>de</strong> <strong>de</strong>nsidad Pareto es:<br />

Y la función <strong>de</strong> probabilidad acumulada <strong>de</strong> esta función <strong>de</strong> <strong>de</strong>nsidad es:


Supongamos a=3.<br />

La media poblacional <strong>de</strong> la variable z que tiene una <strong>de</strong>nsidad Pareto es<br />

La varianza poblacional <strong>de</strong> la variable z es:<br />

A través <strong>de</strong> los siguiente comandos generamos 100,000 observaciones <strong>de</strong> una variable que tiene<br />

<strong>de</strong>nsidad <strong>de</strong> probabilidad Pareto con parámetro a=3.<br />

Density<br />

clear<br />

set obs 100000<br />

g u=uniform()<br />

g z=1/(u^(1/3))<br />

histogram z, normal title(Distribución <strong>de</strong> Probabilidad Variable<br />

Aleatoria Pareto) subtitle(Población <strong>de</strong> 100.000 observaciones)<br />

save z.dta,replace<br />

.1 .2 .3 .4 .5<br />

0<br />

Gráfico 21<br />

Distribución <strong>de</strong> Probabilidad Variable Aleatoria Pareto<br />

Población <strong>de</strong> 100.000 observaciones<br />

0 20 40 60 80 100<br />

z


Para ver el Teorema <strong>de</strong> Central <strong>de</strong>l Límite, tomaremos muestras aleatorias <strong>de</strong> tamaño<br />

N=10,50,100,1000, y 5000. Tomaremos la media muestral <strong>de</strong> cada una <strong>de</strong> las muestras repitiendo<br />

el ejercicio 500 veces para obtener la distribución <strong>de</strong> la media muestral en cada uno <strong>de</strong> los casos.<br />

matrix Z=J(500,6,0)<br />

local i=1<br />

while `i'


local i=1<br />

while `i'


histogram N10, normal title(Muestra <strong>de</strong> 10 observaciones) note(500<br />

simulaciones) name(gz1, replace)<br />

histogram N50, normal title(Muestra <strong>de</strong> 50 observaciones) note(500<br />

simulaciones) name(gz2, replace)<br />

histogram N100, normal title(Muestra <strong>de</strong> 100 observaciones) note(500<br />

simulaciones) name(gz3, replace)<br />

histogram N500, normal title(Muestra <strong>de</strong> 500 observaciones) note(500<br />

simulaciones) name(gz4, replace)<br />

histogram N1000, normal title(Muestra <strong>de</strong> 1000 observaciones) note(500<br />

simulaciones) name(gz5, replace)<br />

histogram N5000, normal title(Muestra <strong>de</strong> 5000 observaciones) note(500<br />

simulaciones) name(gz6, replace)<br />

graph combine gz1 gz2 gz3 gz4 gz5 gz6<br />

Density<br />

Density<br />

2.5<br />

1.5<br />

10<br />

.5<br />

0 2 4 6 8<br />

2<br />

1<br />

0<br />

Muestra <strong>de</strong> 10 observaciones<br />

1 1.5 2 2.5 3<br />

N10<br />

500 simulaciones<br />

1.4 1.5 1.6 1.7<br />

N500<br />

500 simulaciones<br />

Density<br />

0 1 2 3 4<br />

Gráfico 22<br />

Muestra <strong>de</strong> 50 observaciones Muestra <strong>de</strong> 100 observaciones<br />

1.2 1.4 1.6 1.8 2 2.2<br />

N50<br />

500 simulaciones<br />

Density<br />

0 2 4 6<br />

1.2 1.4 1.6 1.8 2<br />

N100<br />

500 simulaciones<br />

Muestra <strong>de</strong> 500 observacionesMuestra<br />

<strong>de</strong> 1000 observacionesMuestra<br />

<strong>de</strong> 5000 observaciones<br />

Density<br />

10 15 20<br />

0 5<br />

1.45 1.5 1.55 1.6<br />

N1000<br />

500 simulaciones<br />

Density<br />

10 20 30 40<br />

0<br />

1.46 1.48 1.5 1.52 1.54<br />

N5000<br />

500 simulaciones


La importancia <strong>de</strong>l Teorema Central <strong>de</strong>l Límite es que nos permite hacer inferencia sobre los<br />

parámetros poblacionales, a través <strong>de</strong> las estadísticas calculadas a partir <strong>de</strong> la muestra y sin<br />

necesidad <strong>de</strong> conocer la distribución <strong>de</strong> probabilidad que dio origen a la población.<br />

Por ejemplo, según los datos <strong>de</strong> la encuesta CASEN 2009 el ingreso autónomo per-cápita es <strong>de</strong><br />

$147,388; y la <strong>de</strong>sviación estándar $239,435.4. Supongamos que estos son los valores<br />

poblacionales <strong>de</strong> la media y la <strong>de</strong>sviación estándar, es <strong>de</strong>cir:<br />

Con esta información y utilizando el Teorema Central <strong>de</strong>l Límite, po<strong>de</strong>mos calcular la probabilidad<br />

<strong>de</strong> que el ingreso autónomo per-cápita promedio sea, por ejemplo, menor a $147,000.<br />

Por el Teorema Central <strong>de</strong>l límite se tiene que:<br />

Por lo cual, la probabilidad <strong>de</strong> que el ingreso autónomo per-cápita sea menor a $147,000 es<br />

equivalente a:<br />

Es <strong>de</strong>cir, la probabilidad acumulada en ese punto.<br />

El error estándar es igual a:<br />

Luego se obtiene que la probabilidad <strong>de</strong> que el ingreso autónomo per-cápita sea menor a<br />

$147,000 es:<br />

Esto lo po<strong>de</strong>mos realizar en STATA mediante los siguientes comandos:


Hay situaciones en las que el Teorema Central <strong>de</strong>l Límite no será útil:<br />

Cuando el estadístico <strong>de</strong> análisis no es la media muestral. El TCL nos dice que la media<br />

muestral tien<strong>de</strong> a una distribución normal cuando la muestra es lo suficientemente<br />

gran<strong>de</strong>. Sin embargo, no es aplicable cuando nuestro estadístico <strong>de</strong> interés es por ejemplo<br />

la mediana o algún otro percentil.<br />

El TCL requiere que la muestra sea lo suficientemente gran<strong>de</strong> para que la media muestral<br />

tienda a una distribución normal, si la muestra con la que estamos trabajando es pequeña,<br />

no se cumplirá el TCL.<br />

Para po<strong>de</strong>r <strong>de</strong>terminar la probabilidad <strong>de</strong> que una variable sea menor o mayor a cierto valor,<br />

cuando no se cumple el TCL po<strong>de</strong>mos utilizar el método <strong>de</strong> simulación Bootstrap.<br />

El método <strong>de</strong> Bootstrap consiste en tomar una cantidad <strong>de</strong> seudo-muestras aleatorias <strong>de</strong> la<br />

muestra observada, y para cada una las seudo-muestras obtener el estadístico <strong>de</strong> interés (media,<br />

mediana, percentil, etc.). Luego, se tendrá una cantidad suficiente <strong>de</strong> valor <strong>de</strong>l estadístico en <strong>de</strong><br />

distintas seudo-muestras que permitirá calcular la probabilidad <strong>de</strong> que el estadístico sea menor o<br />

mayor a cierto valor. Luego, se tendrá una cantidad suficiente <strong>de</strong> valor <strong>de</strong>l estadístico en <strong>de</strong><br />

distintas seudo-muestras que permitirá calcular la probabilidad <strong>de</strong> que el estadístico sea menor o<br />

mayor a cierto valor.<br />

use "casen2009.dta", clear<br />

egen hogarid=group(seg f)<br />

g s=1 if pco1!=14<br />

replace s=0 if pco1==14<br />

egen n=sum(s), by(hogarid)<br />

gen yauthpc=yauthaj/n<br />

keep yauthpc<br />

save "Bootstrap.dta", replace


matrix B=J(500,1,0)<br />

local i=1<br />

while `i'


Fraction<br />

.15<br />

.05<br />

.1<br />

0<br />

Gráfico 23<br />

Distribución <strong>de</strong> Medias Muestrales<br />

Bootstrap 500 simulaciones<br />

146000 147000 148000 149000<br />

B1<br />

Tabla 5<br />

Resultado Bootstrap para diferentes tamaños muestrales y cantidad <strong>de</strong> simulaciones<br />

N=10,000 N=50,000 N=100,000 N=246,924<br />

500 0.452 0.356 0.276 0.21<br />

1000 0.434 0.357 0.339 0.192


Stata tiene un comando para realizar bootstrap:<br />

bootstrap "sum yauthpc, <strong>de</strong>tail" "r(mean)", rep(100)<br />

size(100000) saving("C:\boot1.dta)


Test <strong>de</strong> Hipótesis e Intervalos <strong>de</strong> Confianza<br />

Cuando se toman <strong>de</strong>cisiones <strong>de</strong> política se requieren como insumos las estimaciones <strong>de</strong> ciertas<br />

variables. Por ejemplo, estimar la proporción <strong>de</strong> la población que postulará a un programa <strong>de</strong><br />

capacitación, o cual es el ingreso promedio <strong>de</strong> las personas que trabajan por cuenta propia, que<br />

proporción <strong>de</strong> las madres tienen acceso a salas cunas para sus hijos, etc.<br />

La estimación consiste en obtener una aproximación <strong>de</strong>l parámetro poblacional (promedio o<br />

proporción verda<strong>de</strong>ra) a partir <strong>de</strong> la muestra disponible. Pero dado que esta es una estimación<br />

una vez obtenido el valor <strong>de</strong>bemos preguntarnos si el resultado obtenido es estadísticamente<br />

válido o significativo, o es un mero resultado <strong>de</strong>l azar (<strong>de</strong> nuestra muestra).<br />

Una vez obtenida la estimación po<strong>de</strong>mos hacer inferencia estadística y pruebas <strong>de</strong> hipótesis.<br />

Estimador<br />

Un estimador correspon<strong>de</strong> al método o fórmula a través <strong>de</strong>l cual aproximamos un parámetro<br />

poblacional a partir <strong>de</strong> una muestra.<br />

Por ejemplo, la media muestral <strong>de</strong> una variable:<br />

Es un estimador <strong>de</strong> la media poblacional <strong>de</strong> la variable .<br />

Por ejemplo, si estamos interesados en saber cuál es la escolaridad <strong>de</strong> las personas que viven en<br />

zona rural po<strong>de</strong>mos utilizar la Encuesta Casen 2009 y tomar el promedio muestral <strong>de</strong> los años <strong>de</strong><br />

escolaridad según zona:<br />

use "casen2009.dta", clear<br />

egen hogarid=group(seg f)<br />

g s=1 if pco1!=14<br />

replace s=0 if pco1==14<br />

egen n=sum(s), by(hogarid)<br />

gen yauthpc=yauthaj/n


De esta forma, po<strong>de</strong>mos <strong>de</strong>cir que un estimador <strong>de</strong> los años <strong>de</strong> escolaridad en la zona rural es<br />

7.64.<br />

Propieda<strong>de</strong>s <strong>de</strong> un Estimador<br />

Hay estimadores que son mejores que otros, lo que se pue<strong>de</strong> evaluar según las propieda<strong>de</strong>s<br />

<strong>de</strong>seables para los estimadores<br />

Insesgamiento<br />

Un estimador se dice insesgado cuando el valor esperado <strong>de</strong>l estimador es igual al parámetro<br />

poblacional. Es <strong>de</strong>cir, si obtuviéramos infinitas muestras <strong>de</strong> una población, y para cada una <strong>de</strong> ellas<br />

calculamos el estimador, por ejemplo, la media muestral, si el promedio <strong>de</strong> estos estimadores es<br />

igual a la media poblacional, se dirá que el estimador es insesgado.<br />

Eficiencia<br />

Un estimador se dice que es eficiente cuando la varianza es lo más pequeño posible. Nuevamente,<br />

si tomamos infinitas muestras y para cada una <strong>de</strong> ellas calculamos el valor <strong>de</strong>l estimador,<br />

queremos que la <strong>de</strong>sviación estándar <strong>de</strong> estos estimadores sea la menor posible.<br />

Consistencia<br />

Un estimador es consistente cuando al aumentar el tamaño muestral se tiene casi certeza que el<br />

estimador se aproxima bastante al verda<strong>de</strong>ro valor <strong>de</strong>l parámetro poblacional.<br />

Estimador <strong>de</strong> la Media Poblacional<br />

Un estimador insesgado, eficiente y consistente <strong>de</strong> la media poblacional es la media muestral:


Estimador <strong>de</strong> la varianza<br />

Para po<strong>de</strong>r obtener el error estándar <strong>de</strong>bemos utilizar la varianza poblacional <strong>de</strong> la variable, para<br />

esto utilizaremos un estimador <strong>de</strong> la varianza poblacional insesgado, eficiente, y consistente que<br />

estará dado por:<br />

Estimador <strong>de</strong> una Proporción <strong>de</strong> la Población<br />

Por ejemplo, si queremos estimar la proporción <strong>de</strong> la población que pertenece al sistema público<br />

<strong>de</strong> salud a partir <strong>de</strong> una muestra, un estimador insesgado, eficiente y consistente es la proporción<br />

muestral.<br />

Sea,<br />

El estimador <strong>de</strong> la proporción poblacional es:<br />

Intervalos <strong>de</strong> Confianza<br />

Los estimadores presentados nos entregan información importante para po<strong>de</strong>r tomar <strong>de</strong>cisiones,<br />

sin embargo, dado que estos son estimadores o aproximaciones muestrales <strong>de</strong> parámetros<br />

poblacionales existe cierta incertidumbre o posibilidad <strong>de</strong> error en las estimaciones. Es <strong>de</strong>cir, no<br />

po<strong>de</strong>mos afirmar con 100% <strong>de</strong> seguridad que la media <strong>de</strong>l ingreso es cierto valor o que el<br />

porcentaje <strong>de</strong> personas que cotiza en FONASA es otra valor. Pero si po<strong>de</strong>mos <strong>de</strong>cir con un 95% <strong>de</strong><br />

seguridad (o 90% o 99%), esto se conoce como nivel <strong>de</strong> confianza, que el ingreso promedio se<br />

encuentra en cierto rango <strong>de</strong> valores, y el valor poblacional está contenido en él.<br />

El intervalo <strong>de</strong> confianza nos indica el rango <strong>de</strong> valores (creado a partir <strong>de</strong> los datos muestrales)<br />

entre los cuales el parámetro poblacional está incluido con cierta probabilidad. La probabilidad <strong>de</strong><br />

que el parámetro poblacional este en este intervalo <strong>de</strong> valores se conoce como el nivel <strong>de</strong><br />

confianza.


Intervalos <strong>de</strong> confianza <strong>de</strong> media muestral<br />

Supongamos una variable aleatoria X la que poblacionalmente tiene una media igual a y una<br />

varianza igual a 2 , y disponemos una muestra <strong>de</strong> esta población <strong>de</strong> tamaño N. Sabemos que la<br />

media muestral es un estimador insesgado, eficiente, y consistente <strong>de</strong> la media poblacional (), ya<br />

que se tiene que:<br />

A<strong>de</strong>más, sabemos por el Teorema Central <strong>de</strong>l Límite que in<strong>de</strong>pendiente <strong>de</strong> cuál sea la distribución<br />

<strong>de</strong> probabilidad <strong>de</strong> X, su media muestral tendrá una distribución normal:<br />

Po<strong>de</strong>mos estandarizar la media muestral y se tiene que:<br />

Entonces, sabemos que la media muestral estandarizada se distribuye normal, y que está centrada<br />

en cero, por lo cual con alta probabilidad la media muestral estandarizada estará en torno a cero.<br />

Queremos <strong>de</strong>terminar algún valor límite para po<strong>de</strong>r <strong>de</strong>cir que estamos lejos <strong>de</strong> la media <strong>de</strong> la<br />

distribución, por ejemplo, po<strong>de</strong>mos <strong>de</strong>cir que los valor que estén en el 5% más lejos son son<br />

valores probables para la media muestral estandarizada. A partir <strong>de</strong> esto se <strong>de</strong>fine el intervalo <strong>de</strong><br />

confianza con un 95% <strong>de</strong> nivel <strong>de</strong> confianza o 5% <strong>de</strong> nivel <strong>de</strong> significancia:<br />

Don<strong>de</strong> Z0.025 correspon<strong>de</strong> al valor <strong>de</strong> la distribución normal estándar bajo el cual se acumula un<br />

2.5% <strong>de</strong> probabilidad, y Z0.975 correspon<strong>de</strong> al valor <strong>de</strong> la distribución normal estándar que acumula<br />

un 97.5% <strong>de</strong> probabilidad a la izquierda. Estos valores pue<strong>de</strong>n ser obtenidos <strong>de</strong> una tabla <strong>de</strong> la<br />

distribución normal estándar disponible en cualquier libro <strong>de</strong> estadística o a través <strong>de</strong> STATA<br />

mediante los siguientes comandos:


Por lo tanto,<br />

Figura 12<br />

Distribución Normal Estándar<br />

Lo que se pue<strong>de</strong> escribir <strong>de</strong> manera equivalente como:<br />

De esta manera, el intervalo <strong>de</strong> confianza nos indica que con un 95% <strong>de</strong> seguridad la media<br />

poblacional está entre:


Sin embargo, lo anterior supone el conocimiento <strong>de</strong> la varianza poblacional <strong>de</strong> X, pero en la<br />

práctica esto no será conocido y <strong>de</strong>bemos utilizar su estimador s 2 . Al utilizar el estimador la<br />

distribución ya no es exactamente normal sino que se convierte en una distribución t-stu<strong>de</strong>nt:<br />

Nuevamente, los valores <strong>de</strong> la distribución t-stu<strong>de</strong>nt los po<strong>de</strong>mos obtener <strong>de</strong> las tablas <strong>de</strong> la<br />

distribución o <strong>de</strong> STATA, a continuación se presentan los valores para diferentes tamaños<br />

muestrales:<br />

Po<strong>de</strong>mos apreciar que a mayor tamaño muestral se aproxima bastante a los valores <strong>de</strong> la<br />

distribución normal.<br />

Por ejemplo, po<strong>de</strong>mos calcular el intervalo <strong>de</strong> confianza <strong>de</strong>l ingreso autónomo per-cápita<br />

utilizando la encuesta CASEN 2009:<br />

Entonces po<strong>de</strong>mos <strong>de</strong>cir con un 95% <strong>de</strong> confianza que el ingreso autónomo per-cápita esta entre<br />

$146,444 y $148,333.


Esto se pue<strong>de</strong> obtener directamente e STATA a través <strong>de</strong>l comando para obtener intervalo <strong>de</strong><br />

confianza <strong>de</strong> una media:<br />

Por <strong>de</strong>fecto entrega el intervalo <strong>de</strong> confianza al 95%, pero eso pue<strong>de</strong> ser modificado:<br />

Para obtener el intervalo <strong>de</strong> confianza estamos imponiendo que se cumple el Teorema Central <strong>de</strong>l<br />

Límite, es <strong>de</strong>cir, que la media muestral sigue una distribución normal. Si este supuesto no se<br />

cumple el cálculo <strong>de</strong>l intervalo confianza antes planteado no es válido. En este caso se pue<strong>de</strong><br />

utilizar Bootstrap para obtener el intervalo <strong>de</strong> confianza:<br />

bootstrap "sum yauthpc, <strong>de</strong>tail" "r(mean)", rep(500)


Intervalos <strong>de</strong> confianza <strong>de</strong> una proporción<br />

La proporción correspon<strong>de</strong> a la media muestral <strong>de</strong> una variable binaria que toma valor 1 si se<br />

cumple cierta condición y cero sino. La proporción muestral se utiliza para estimar la proporción<br />

poblacional.<br />

Consi<strong>de</strong>re la siguiente variable aleatoria Z con una distribución Bernoulli:<br />

Lo que nos interesa estimar es el parámetro poblacional p.<br />

La media poblacional <strong>de</strong> la variable Z está dada por:<br />

Luego, obteniendo un estimador para p queda <strong>de</strong>terminado el estimador <strong>de</strong> la media poblacional<br />

y <strong>de</strong> la varianza poblacional, existe sólo un parámetro que estimar. Un estimador insesgado,<br />

eficiente y consistente <strong>de</strong> p es la proporción muestral:<br />

De esta forma, el intervalo <strong>de</strong> confianza <strong>de</strong> una proporción esta dado por:


Test <strong>de</strong> Hipótesis<br />

¿Qué es una hipótesis?<br />

Una hipótesis es una <strong>de</strong>claración sobre un parámetro poblacional, luego con la información<br />

muestral podremos <strong>de</strong>cir si la afirmación es estadísticamente válida o no. Obviamente al trabajar<br />

con una muestra esta conclusión tendrá cierto nivel <strong>de</strong> error o alternativamente cierto nivel <strong>de</strong><br />

confianza.<br />

Por ejemplo, po<strong>de</strong>mos querer testear si la tasa <strong>de</strong> participación <strong>de</strong> mujeres con hijos es un 30%,<br />

esta hipótesis plantea una afirmación sobre un parámetro poblacional, ahora con los datos<br />

muestrales <strong>de</strong>bemos encontrar la evi<strong>de</strong>ncia estadística suficiente para rechazar o no esta<br />

afirmación. Otra posible hipótesis a testear es por ejemplo, que el ingreso promedio <strong>de</strong> los<br />

pensionados es $230 mil. De esta forma, se nos pue<strong>de</strong>n ocurrir diversas hipótesis sobre<br />

parámetros poblacionales, para po<strong>de</strong>r rechazar o no dichas hipótesis <strong>de</strong>bemos contar con datos<br />

muestrales que nos permitan ver si la hipótesis es estadísticamente válida o no, con cierto error<br />

dado que vamos a trabajar con una muestra.<br />

¿Cómo se realiza un Test <strong>de</strong> hipótesis?<br />

El procedimiento <strong>de</strong> testear o probar una hipótesis consiste en <strong>de</strong>terminar si una hipótesis <strong>de</strong> un<br />

parámetro poblacional es razonable a partir <strong>de</strong> los datos provenientes <strong>de</strong> una muestra y utilizando<br />

la teoría <strong>de</strong> probabilida<strong>de</strong>s.<br />

El resultado <strong>de</strong>l Test <strong>de</strong> Hipótesis NUNCA nos permite afirmar que la hipótesis es verda<strong>de</strong>ra, ya<br />

que el parámetro poblacional es <strong>de</strong>sconocido, pero si nos permite con cierta confianza o<br />

significancia rechazar la hipótesis nula.<br />

Paso 1: Establecer la hipótesis nula y alternativa<br />

Lo primero que se <strong>de</strong>be hacer es <strong>de</strong>finir la hipótesis a testear, la que se <strong>de</strong>nomina Hipótesis Nula<br />

(H0). La hipótesis nula es una afirmación que no se rechaza a menos que la información <strong>de</strong> la<br />

muestra ofrezca evi<strong>de</strong>ncia convincente <strong>de</strong> que esta es falsa.<br />

Recuer<strong>de</strong> que si no rechazamos la hipótesis nula no implica que la aceptemos o que esta sea<br />

verda<strong>de</strong>ra, ya que para probarlo necesitaríamos conocer el parámetro poblacional.<br />

La hipótesis alternativa es la afirmación que se acepta si los datos <strong>de</strong> la muestra no proporcionan<br />

suficiente evi<strong>de</strong>ncia <strong>de</strong> que la hipótesis nula es falsa.<br />

Paso 2: Seleccionar el nivel <strong>de</strong> significancia<br />

El nivel <strong>de</strong> significancia () es la probabilidad <strong>de</strong> rechazar la hipótesis nula cuando esta es<br />

verda<strong>de</strong>ra, lo que se conoce como Error Tipo I. El Error Tipo II correspon<strong>de</strong> a aceptar la hipótesis<br />

nula cuando esta es falsa.


Generalmente se utiliza un 5% <strong>de</strong> significancia, pero esto <strong>de</strong>pen<strong>de</strong>rá <strong>de</strong> la hipótesis puntual bajo<br />

estudio, ya que <strong>de</strong> alguna manera el nivel <strong>de</strong> significancia es el riesgo que el investigador esta<br />

dispuesto a asumir.<br />

Paso 3: Seleccionar el estadístico<br />

El estadístico es la expresión matemática <strong>de</strong> la hipótesis nula, construido con la información<br />

muestral disponible, y <strong>de</strong> forma tal que tenga una distribución <strong>de</strong> probabilidad conocida (normal,<br />

o t-stu<strong>de</strong>nt) que nos permita <strong>de</strong>terminar fácilmente si rechazamos la hipótesis nula o no.<br />

Por ejemplo, si queremos testear que la media poblacional <strong>de</strong> cierta variable es 0.5, contra la<br />

hipótesis alternativa <strong>de</strong> que es distinta a 0.5:<br />

Dado que sabemos, por TCL, que la media muestral tiene una distribución normal, po<strong>de</strong>mos<br />

plantear el siguiente estadístico:<br />

Todos los valores <strong>de</strong>l estadístico pue<strong>de</strong>n ser calculados a partir <strong>de</strong> la muestra, excepto que<br />

justamente correspon<strong>de</strong> al valor <strong>de</strong>l parámetro poblacional que estamos planteando en la<br />

hipótesis nula.<br />

Paso 4: Formular la regla <strong>de</strong> <strong>de</strong>cisión<br />

Se <strong>de</strong>ben establecer las condiciones específicas en las que la hipótesis nula se rechaza. Notemos<br />

que el estadístico está centrado en 0, valor que toma cuando se cumple al hipótesis nula, en la<br />

medida que se aleja <strong>de</strong> cero ya sea porque este se hace muy gran<strong>de</strong> o muy pequeño, es cada vez<br />

menos probable que se cumpla la hipótesis nula. La zona <strong>de</strong> rechazo <strong>de</strong>fine los valores <strong>de</strong>l<br />

estadístico para los cuales la probabilidad <strong>de</strong> que se cumpla la hipótesis nula es remota.<br />

Entonces <strong>de</strong>bemos <strong>de</strong>terminar el valor crítico <strong>de</strong>l estadístico <strong>de</strong> manera que se acumule un 5% <strong>de</strong><br />

probabilidad en los valores extremos <strong>de</strong> la distribución, 2.5% en la cola <strong>de</strong>recha y 2.5% en la cola<br />

izquierda.


La Figura 13 muestra la zona <strong>de</strong> rechazo para el test <strong>de</strong> hipótesis antes planteado, <strong>de</strong>s<strong>de</strong> - hasta<br />

-1.96 se encuentra la zona <strong>de</strong> rechazó a la izquierda, y <strong>de</strong>s<strong>de</strong> 1.96 a + la zona <strong>de</strong> rechazo a la<br />

<strong>de</strong>recha.<br />

Figura 13<br />

Zona <strong>de</strong> rechazo Test <strong>de</strong> dos colas<br />

En caso que la hipótesis alternativa sea que la media poblacional es menor a cierto valor,<br />

rechazaremos la hipótesis nula a favor <strong>de</strong> la alternativa sólo si el valor efectivamente es menor al<br />

planteado, es <strong>de</strong>cir , cuando el estadístico se vuelva muy negativo, por lo cual en este caso la zona<br />

<strong>de</strong> rechazo completa se ubica en la cola izquierda <strong>de</strong> la distribución, <strong>de</strong>s<strong>de</strong> - a -1.64.<br />

Figura 14<br />

Zona <strong>de</strong> rechazo Test <strong>de</strong> una cola


Finalmente, la Figura 15 muestra la zona <strong>de</strong> rechazo en el caso que la hipótesis alternativa es que<br />

la media poblacional es mayor a cierto valor, en este caso se rechazará la hipótesis nula <strong>de</strong> que es<br />

igual a este valor sólo si el valor <strong>de</strong> la media muestral está lo suficientemente por arriba <strong>de</strong>l valor<br />

planteado, y el valor <strong>de</strong>l estadístico es positivo y lo suficientemente gran<strong>de</strong>, así la zona <strong>de</strong> rechazo<br />

completa se ubica en la cola <strong>de</strong>recha <strong>de</strong> la distribución, <strong>de</strong> 1.64 a + .<br />

Paso 5: Tomar una <strong>de</strong>cisión<br />

Figura 15<br />

Zona <strong>de</strong> rechazo Test <strong>de</strong> una cola<br />

Una vez <strong>de</strong>finida la hipótesis nula, se calcula el estadístico a partir <strong>de</strong> los datos muestrales, y<br />

<strong>de</strong>terminado el nivel <strong>de</strong> significancia se pue<strong>de</strong> establecer el valor crítico <strong>de</strong>l estadístico.<br />

Comparando el valor calculado <strong>de</strong>l estadístico con los valores que <strong>de</strong>finen las zonas <strong>de</strong> rechazo se<br />

pue<strong>de</strong> concluir si se rechaza o no la hipótesis nula a favor <strong>de</strong> la hipótesis alternativa.<br />

Ejemplo Test <strong>de</strong> Hipótesis sobre media poblacional<br />

Suponga que estamos interesados en testear que la edad media <strong>de</strong> las mujeres que trabajan es 45<br />

años, contra la hipótesis alternativa <strong>de</strong> que es distinta a 45 años.<br />

1) Debemos plantear el Test <strong>de</strong> Hipótesis:


2) Escoger el nivel <strong>de</strong> significancia: 5%<br />

3) Obtener el valor calculado <strong>de</strong>l estadístico con los datos muestrales:<br />

use "casen2009.dta", clear<br />

g trabaja=1 if o1==1<br />

replace trabaja=1 if o1==2 & o2==1<br />

replace trabaja=1 if o1==2 & o2==2 & o3==1<br />

replace trabaja=0 if trabaja==.<br />

replace trabaja=. if o1==.<br />

sum edad if sexo==2 & trabaja==1<br />

Luego, con esta información po<strong>de</strong>mos construir el estadístico para el test sobre la media<br />

poblacional, el que se basa en que la media muestral tiene una distribución normal:<br />

4) El estadístico calculado lo <strong>de</strong>bemos comparar con el <strong>de</strong> la distribución t-stu<strong>de</strong>nt con 31660<br />

grados <strong>de</strong> libertad y con un 5% <strong>de</strong> significancia dividido en dos colas.<br />

De esta forma, la zona <strong>de</strong> rechazo está entre - y -1.96, y 1.96 y + .<br />

5) Dado que el valor <strong>de</strong>l estadístico cae en la zona <strong>de</strong> rechazo <strong>de</strong> la cola izquierda, se pue<strong>de</strong><br />

concluir que se rechaza la hipótesis nula <strong>de</strong> que la edad promedio <strong>de</strong> las mujeres que<br />

trabajan es 45 años, en favor <strong>de</strong> que es distinta.


Esto mismo lo po<strong>de</strong>mos hacer a través <strong>de</strong>l comando ttest <strong>de</strong> STATA:<br />

p-value<br />

En el procedimiento antes <strong>de</strong>scrito necesitamos <strong>de</strong>finir un nivel <strong>de</strong> significancia para <strong>de</strong>terminar<br />

las zonas en las cuales rechazaremos la hipótesis nula.<br />

Por otra parte, el valor p nos entrega información adicional para <strong>de</strong>terminar con que fuerza la<br />

hipótesis nula es rechazada, es <strong>de</strong>cir, con qué seguridad rechazamos H0.<br />

El valor p es la probabilidad acumulada en las colas <strong>de</strong>s<strong>de</strong> el valor negativo <strong>de</strong>l estadístico a la<br />

izquierda, y <strong>de</strong>s<strong>de</strong> el valor positivo <strong>de</strong>l estadístico a la <strong>de</strong>recha, en el caso <strong>de</strong> un test <strong>de</strong> dos colas.<br />

1) H1: 0:<br />

2) H1: 0:<br />

3) H1: 0:<br />

Por ejemplo, a continuación realizaremos test para el salario por hora promedio:<br />

use "casen2009.dta", clear<br />

g horas=o16/7*30<br />

g yhora=yopraj/horas


En el primero caso, don<strong>de</strong> se plantea como hipótesis nula que el ingreso promedio por hora es<br />

$1,900, el valor calculado <strong>de</strong>l estadístico es 1.12, si lo comparamos con el valor <strong>de</strong> <strong>de</strong> la<br />

distribución t al 5% <strong>de</strong> significancia (1.96), po<strong>de</strong>mos concluir que no se pue<strong>de</strong> rechazar la hipótesis<br />

nula <strong>de</strong> que el ingreso por hora promedio es $1,900.<br />

En este caso, si estamos planteando un test <strong>de</strong> dos colas el valor p es igual a:<br />

Esto significa que el valor <strong>de</strong>l estadístico calculado para esta hipótesis nula acumula un 26.3% <strong>de</strong><br />

probabilidad en las colas, claramente mayor al 5% <strong>de</strong> error tipo I que se está dispuesto a tolerar.<br />

Si la hipótesis alternativa fuese que la media es mayor a 1900, el valor p estará dado por:<br />

También es mayor al 5% <strong>de</strong> significancia.<br />

Finalmente, si la hipótesis alternativa fuese que el salario promedio es menor a 1900, el valor p<br />

estaría dado por:


El valor p nos indica el nivel <strong>de</strong> significancia o error tipo I asociado al estadístico calculado, si este<br />

es menor al 5% es porque nuestro estadístico estará en la zona <strong>de</strong> rechazo, por lo cual la regla <strong>de</strong><br />

oro para utilizar le p-value es:<br />

Si el valor p es menor al nivel <strong>de</strong> significancia dado se rechaza la hipótesis nula<br />

Si el valor p es mayor al nivel <strong>de</strong> significancia dado no se pue<strong>de</strong> rechazar la hipótesis nula<br />

Test <strong>de</strong> hipótesis sobre una proporción<br />

Se tiene como hipótesis nula que la proporción <strong>de</strong> la población que cotiza para el sistema <strong>de</strong><br />

pensiones es 0.5.<br />

use "casen2009.dta", clear<br />

g cotiza=1 if o29==1<br />

replace cotiza=0 if o29==2 | o29==3 | o29==9<br />

El valor <strong>de</strong>l estadístico calculado es 20.63 mayor al 1.96 que <strong>de</strong>termina el valor crítico por<br />

lo cual se rechaza la hipótesis nula.<br />

También po<strong>de</strong>mos notar que el valor p es 0% menor al 5% <strong>de</strong> significancia por lo cual se<br />

rechaza la hipótesis nula.<br />

Una tercera forma <strong>de</strong> concluir sobre la hipótesis nula es notando que el intervalo <strong>de</strong><br />

confianza (valor más probables) no contiene el valor 0.5.<br />

Test <strong>de</strong> diferencia <strong>de</strong> medias<br />

Una conjunto importante e interesante <strong>de</strong> test <strong>de</strong> hipótesis son los relacionados con comparar las<br />

medias o proporción <strong>de</strong> una variable entre dos grupos diferentes, o <strong>de</strong> manera equivalente testear<br />

que la media <strong>de</strong> una variable <strong>de</strong> un grupo, por ejemplo, hombres es igual a la media <strong>de</strong> la misma<br />

variable en el otro grupo, mujeres.<br />

Por ejemplo, si queremos testear que el ingreso por hora <strong>de</strong> los hombres es igual que al <strong>de</strong> las<br />

mujeres, <strong>de</strong>bemos plantear el siguiente test <strong>de</strong> hipótesis:


Para plantear el estadístico en función <strong>de</strong> los indicadores muestrales, tomamos como punto <strong>de</strong><br />

partida que la diferencia <strong>de</strong> medias muestrales también se distribuye normal con media igual a la<br />

diferencia <strong>de</strong> medias poblacionales, y con varianza:<br />

De esta forma, se tiene que:<br />

Pero el error estándar es estimado a partir <strong>de</strong> la muestra <strong>de</strong> la siguiente manera:<br />

Así, el estadístico para el test <strong>de</strong> diferencias <strong>de</strong> medias es:<br />

El comando ttest y prtest <strong>de</strong> STATA pue<strong>de</strong>n ser utilizados con la opción by() para realizar el<br />

test <strong>de</strong> diferencia <strong>de</strong> medias y diferencias <strong>de</strong> proporciones.<br />

El siguiente output nos muestra el resultado para el test <strong>de</strong> diferencias <strong>de</strong> media <strong>de</strong> ingreso por<br />

hora entre hombres y mujeres, notemos que la hipótesis nula es que el ingreso promedio <strong>de</strong> los<br />

hombres menos el ingreso promedio <strong>de</strong> las mujeres es igual a cero. En términos muestrales, el<br />

ingreso promedio <strong>de</strong> los hombres es $2,007 y el ingreso promedio <strong>de</strong> las mujeres $1,741, la<br />

diferencia es <strong>de</strong> $265.8. El error estándar <strong>de</strong> la diferencia es 27.9. De esta forma, se obtiene un<br />

valor calculado <strong>de</strong>l estadístico <strong>de</strong> 9.5358 lo que nos permite rechazar al 5% (ya que es mayor que<br />

1.96) que el ingreso promedio <strong>de</strong> los hombres es igual al ingreso promedio <strong>de</strong> las mujeres (o que<br />

la diferencia es cero). Esto también se pue<strong>de</strong> concluir notando que el valor p es menor a 0.05 (5%)


y que el cero no está contenido en el intervalo <strong>de</strong> confianza para la diferencia <strong>de</strong> ingresos<br />

promedios.<br />

El siguiente output nos muestra el resultado para testear la hipótesis nula <strong>de</strong> que la proporción <strong>de</strong><br />

hombres que cotiza en el sistema <strong>de</strong> pensiones es igual a la proporción <strong>de</strong> mujeres que cotiza.<br />

Tenemos que el valor calculado <strong>de</strong>l estadístico es 1.74 levemente inferior a 1.96, por lo cual al 5%<br />

<strong>de</strong> significancia no po<strong>de</strong>mos rechazar la hipótesis nula <strong>de</strong> que las proporciones son iguales, lo<br />

vemos también porque el p-value es mayor a 0.05 y el cero está contenido en el intervalo <strong>de</strong><br />

confianza.


Bootstrap para el test <strong>de</strong> medias<br />

En el caso que se tenga una muestra pequeñas o dudas sobre la normalidad <strong>de</strong> la media muestral<br />

se pue<strong>de</strong> aplicar el método no paramétrico <strong>de</strong> bootstrap para obtener el intervalo <strong>de</strong> confianza <strong>de</strong><br />

la media muestral y <strong>de</strong> esta manera testear cualquier hipótesis sobre el parámetro poblacional.<br />

El resultado nos muestra que con un 95% <strong>de</strong> confianza el ingreso por hora promedio poblacional<br />

se encuentra entre 1889.4 y 1946.9, con lo cual no po<strong>de</strong>mos rechazar la hipótesis nula <strong>de</strong> que es<br />

igual a 1900, antes testeada, y si po<strong>de</strong>mos rechazar que es igual a 2100.<br />

Bootstrap para el test <strong>de</strong> mediana<br />

Suponga que queremos testear la hipótesis nula <strong>de</strong> que la mediana poblacional <strong>de</strong>l ingreso por<br />

hora es igual a 1000, dado que para la mediana no se cumple el Teorema Central <strong>de</strong>l Límite<br />

<strong>de</strong>bemos utilizar bootstrap para testear esta hipótesis.<br />

La siguiente imagen nos muestra el resultados <strong>de</strong>l bootstrap para la mediana el ingreso por hora<br />

con 300 repeticiones, se obtiene que con un 95% <strong>de</strong> confianza el ingreso por hora mediano<br />

poblacional está entre 1088.63 y 1105, con lo cual se rechaza la hipótesis nula <strong>de</strong> que el ingreso<br />

por hora mediano sea igual a 1000 ya que este valor esta fuera <strong>de</strong>l intervalo <strong>de</strong> confianza.


Bootstrap para el test <strong>de</strong> diferencia <strong>de</strong> medias<br />

Como no existe un comando directo en STATA que calcule la diferencia <strong>de</strong> media, en vez <strong>de</strong> pedir<br />

en el comando bootstrap que repita un comando le pediremos que repita un do-file, don<strong>de</strong> este<br />

do-file calcula la diferencia <strong>de</strong> medias:<br />

difgenero.do<br />

sum yhora if sexo==1<br />

g h=r(mean)<br />

sum yhora if sexo==2<br />

g m=r(mean)<br />

g dif=h-m<br />

sum dif<br />

Previo a haber creado el do-file anterior y haber sido guardado en el computador, se ejecuta el<br />

siguiente comando:<br />

bootstrap "do difgenero.do" "r(mean)", reps(300)<br />

El resultado <strong>de</strong>l bootstrap nos muestra que la diferencia entre el ingreso por hora medio <strong>de</strong> los<br />

hombres y el ingreso por hora medio <strong>de</strong> las mujeres se encuentra con un 95% <strong>de</strong> confianza entre<br />

209.6 y 310.5. Con lo cual al testear la hipótesis nula <strong>de</strong> que la diferencia <strong>de</strong> medias es cero, se<br />

rechaza la hipótesis nula


Bootstrap para el test <strong>de</strong> diferencia <strong>de</strong> medianas<br />

Si queremos testear que la diferencia entre el ingreso por hora mediano entre hombres y mujeres<br />

es cero, <strong>de</strong>bemos utilizar <strong>de</strong> manera obligada bootstrap ya que la diferencia <strong>de</strong> medianas no tiene<br />

distribución normal.<br />

difmediangenero.do<br />

sum yhora if sexo==1, d<br />

g h=r(p50)<br />

sum yhora if sexo==2, d<br />

g m=r(p50)<br />

g dif=h-m<br />

sum dif<br />

Previo a haber creado el do-file anterior y haber sido guardado en el computador, se ejecuta el<br />

siguiente comando:<br />

bootstrap "do difmediangenero.do" "r(mean)", reps(300)<br />

La siguiente tabla nos muestra el resultado <strong>de</strong>l bootstrap, encontrando que la diferencia <strong>de</strong><br />

ingreso por hora mediano entre hombres y mujeres se encuentra con un 95% <strong>de</strong> confianza entre


114.5925 y 114.5927, por lo cual también se rechaza que la diferencia <strong>de</strong> medianas sea igual a<br />

cero.<br />

Distribución <strong>de</strong> Probabilidad Conjunta<br />

Hasta ahora nos hemos concentrado en el análisis <strong>de</strong> una sola variable, como es su distribución, su<br />

media y dispersión. Pero en gran parte <strong>de</strong> los problemas económicos y <strong>de</strong> políticas públicas no<br />

sólo nos interesa estudiar una variable, sino también como esta variable se pue<strong>de</strong> o no ver<br />

afectada por el comportamiento <strong>de</strong> otras variables.<br />

Por ejemplo, cuando analizamos el nivel <strong>de</strong> ingreso nos interesaría también saber cómo se<br />

relacionada con otra variable, como años <strong>de</strong> escolaridad o experiencia laboral, etc.<br />

Otras preguntas que nos pue<strong>de</strong> interesar respon<strong>de</strong>r:<br />

¿Afecta la salud física los resultados que obtienen los individuos en el mercado <strong>de</strong>l<br />

trabajo?<br />

¿Disminuye el empleo cuando el salario mínimo se incrementa?<br />

¿Disminuye la <strong>de</strong>sigualdad <strong>de</strong> ingresos cuando aumenta la participación laboral femenina?<br />

Más específicamente, si la salud física es una variable aleatoria (X) y salario laboral es otra variable<br />

aleatoria (Y), cada una tiene su propia distribución <strong>de</strong> probabilidad, lo que se <strong>de</strong>nomina<br />

distribución <strong>de</strong> probabilidad marginal, luego <strong>de</strong>bemos <strong>de</strong>terminar la función <strong>de</strong> probabilidad<br />

conjunta y condicional para estudiar si las variables aleatorias X e Y son in<strong>de</strong>pendientes o no.<br />

La función <strong>de</strong> probabilidad conjunta <strong>de</strong> dos variables aleatorias X e Y indica la probabilidad <strong>de</strong> que<br />

las dos variables tomen ciertos valores <strong>de</strong> manera simultánea. Las probabilida<strong>de</strong>s <strong>de</strong> todas las<br />

posibles combinaciones (x,y) <strong>de</strong>ben sumar 1. La función <strong>de</strong> probabilidad conjunta se <strong>de</strong>nota <strong>de</strong> la<br />

siguiente manera:


Supongamos el siguiente ejemplo, en que la variable aleatoria X es binaria y toma valor 1 si el<br />

profesor participó en el proceso <strong>de</strong> certificación docente y cero si es que no participó. Esta<br />

variable aleatoria tiene la siguiente función <strong>de</strong> probabilidad marginal:<br />

La que pue<strong>de</strong> ser escrita <strong>de</strong> la siguiente manera:<br />

X Pr[X=x]<br />

0 2/3<br />

1 1/3<br />

Suponga ahora que tiene otra variable aleatoria binaria Y que toma valor 1 si el profesor nació el<br />

primer trimestre <strong>de</strong>l año, y 0 si nacieron los trimestres 2, 3, o 4. Entonces, la función <strong>de</strong><br />

probabilidad marginal <strong>de</strong> Y es:<br />

La que pue<strong>de</strong> ser escrita <strong>de</strong> la siguiente manera:<br />

Y Pr[Y=y]<br />

0 3/4<br />

1 1/4<br />

La función <strong>de</strong> probabilidad conjunta <strong>de</strong> estas dos variables aleatorias es:<br />

Lo que pue<strong>de</strong> ser escrito <strong>de</strong> manera alternativa:<br />

x=0 x=1<br />

y=0 6/12 3/12<br />

y=1 2/12 1/12


Don<strong>de</strong> po<strong>de</strong>mos verificar que la suma <strong>de</strong> probabilida<strong>de</strong>s es igual a 1.<br />

Luego sumando verticalmente las probabilida<strong>de</strong>s po<strong>de</strong>mos obtener la distribución <strong>de</strong> probabilidad<br />

marginal <strong>de</strong> X, y sumando horizontalmente las probabilida<strong>de</strong>s po<strong>de</strong>mos obtener la distribución <strong>de</strong><br />

probabilidad marginal <strong>de</strong> Y:<br />

x=0 x=1<br />

y=0 6/12 3/12 3/4<br />

y=1 2/12 1/12 1/4<br />

2/3 1/3<br />

También po<strong>de</strong>mos notar <strong>de</strong>l cuadro anterior que cualquiera <strong>de</strong> las probabilida<strong>de</strong>s conjuntas pue<strong>de</strong><br />

ser obtenida simplemente multiplicando las probabilida<strong>de</strong>s marginales:<br />

Esto se cumple sólo cuando las variables aleatorias son in<strong>de</strong>pendientes.<br />

Ahora supongamos otra variable aleatoria Z la que también es binaria y toma valor 1 si el<br />

establecimiento educacional al cual pertenece el profesor es privado y 0 si es público. La<br />

probabilidad con la cual Z toma valor 1 es 1/3 y la probabilidad con la que toma valor 0 es 2/3.<br />

La siguiente tabla muestra las probabilida<strong>de</strong>s asociadas a la distribución conjunta <strong>de</strong> las variables X<br />

y Z:<br />

x=0 x=1<br />

z=0 7/12 1/12 2/3<br />

z=1 1/12 3/12 1/3<br />

2/3 1/3<br />

En este caso, el producto <strong>de</strong> las probabilida<strong>de</strong>s marginales no es igual a la probabilidad conjunta,<br />

esto suce<strong>de</strong> porque las variables no son in<strong>de</strong>pendientes:<br />

De esta forma, se concluye que la certificación <strong>de</strong>l profesor y la <strong>de</strong>pen<strong>de</strong>ncia <strong>de</strong>l colegio al cual<br />

pertenece no son variables in<strong>de</strong>pendientes.


Test <strong>de</strong> In<strong>de</strong>pen<strong>de</strong>ncia 2<br />

Si tenemos dos variables aleatorias po<strong>de</strong>mos realizar un test <strong>de</strong> in<strong>de</strong>pen<strong>de</strong>ncia para ver si<br />

empíricamente las variables se comportan como si fuesen in<strong>de</strong>pendientes.<br />

Este test se basa en que bajo la hipótesis nula <strong>de</strong> in<strong>de</strong>pen<strong>de</strong>ncia <strong>de</strong> las variables la multiplicación<br />

<strong>de</strong> las probabilida<strong>de</strong>s marginales <strong>de</strong>bería ser igual a la probabilidad conjunta.<br />

Supongamos que X e Y, dos variables aleatorias, pue<strong>de</strong>n tomar dos valores respectivamente. Y se<br />

tiene que:<br />

Sea N el total <strong>de</strong> observaciones, y Nij el número <strong>de</strong> observaciones don<strong>de</strong> X=i e Y=j.<br />

Luego el estadístico para testear esta hipótesis es:<br />

Al 5% <strong>de</strong> significancia el valor <strong>de</strong> la distribución 2 con un grado <strong>de</strong> libertad es 3.84.<br />

Recor<strong>de</strong>mos que la hipótesis nula es <strong>de</strong> in<strong>de</strong>pen<strong>de</strong>ncia entre las variables, por lo cual bajo la<br />

hipótesis nula se <strong>de</strong>bería cumplir que Nij sea igual a Nqipj, lo que indica que el número <strong>de</strong><br />

observaciones que cumplen con Y=0 y X=0 es igual a tomar el total <strong>de</strong> observaciones y multiplicar<br />

por la probabilidad <strong>de</strong> que Y=0 y por la probabilidad <strong>de</strong> que X=0. De esta forma, bajo la hipótesis<br />

nula el estadístico toma valor cero, en la medida que se <strong>de</strong>ja <strong>de</strong> cumplir la hipótesis nula el valor<br />

<strong>de</strong>l estadístico comienza a crecer (siempre positivo), si este difiere tanto <strong>de</strong> cero al punto <strong>de</strong> llegar<br />

a ser mayor a 3.84 se rechaza la hipótesis nula <strong>de</strong> que las variables son in<strong>de</strong>pendientes.<br />

La siguiente tabla nos muestra el resultado <strong>de</strong>l test <strong>de</strong> in<strong>de</strong>pen<strong>de</strong>ncia entre la variable aleatoria X<br />

(certificación <strong>de</strong>l profesor) y la variable aleatoria Y (trimestre <strong>de</strong> nacimiento):


De la tabla anterior, tenemos que:<br />

Luego po<strong>de</strong>mos calcular cada uno <strong>de</strong> los cuatro términos en la sumatoria <strong>de</strong>l estadístico:<br />

Y=0, X=0:<br />

Y=1, X=0:<br />

Y=0, X=1:<br />

Y=1,X=1


Sumando los cuatro términos se obtiene el valor calculado <strong>de</strong>l estadístico:<br />

Como el valor <strong>de</strong>l estadístico calculado es menor a 3.84 no se pue<strong>de</strong> rechazar la hipótesis nula <strong>de</strong><br />

in<strong>de</strong>pen<strong>de</strong>ncia entre certificación <strong>de</strong>l profesor y fecha <strong>de</strong> nacimiento, también se pue<strong>de</strong> concluir<br />

estos notando que el valor p es mayor a 0.05 (5%).<br />

La siguiente tabla muestra el test <strong>de</strong> in<strong>de</strong>pen<strong>de</strong>ncia entre las variables aleatorias X y Z:<br />

El valor <strong>de</strong>l estadístico es mayor al valor crítico, o el p-value es menor a 0.05, con lo cual se<br />

rechaza la hipótesis nula <strong>de</strong> que certificación <strong>de</strong>l profesor y <strong>de</strong>pen<strong>de</strong>ncia <strong>de</strong>l colegio sean variables<br />

in<strong>de</strong>pendientes.


Distribución <strong>de</strong> probabilidad condicional<br />

Cuando analizamos la distribución <strong>de</strong> probabilidad <strong>de</strong> la variable aleatoria X condicional en algún<br />

valor especifico <strong>de</strong> Y, por ejemplo, Y=0, se conoce como distribución <strong>de</strong> probabilidad condicional.<br />

Por ejemplo, suponga que estamos interesados en saber cuál es la probabilidad <strong>de</strong> que un docente<br />

se certifique condicional en que nació en el primer trimestre <strong>de</strong>l año.<br />

x=0 x=1<br />

y=0 6/12 3/12 3/4<br />

y=1 2/12 1/12 1/4<br />

2/3 1/3<br />

En términos generales, la distribución <strong>de</strong> probabilidad <strong>de</strong> X condicional en Y es igual a:<br />

Notemos que la probabilidad <strong>de</strong> que un docente se certifique condicional en que nació el primer<br />

trimestre es igual a la probabilidad incondicional (o marginal) <strong>de</strong> que un docente se certifique,<br />

esto se cumple porque las dos variables son in<strong>de</strong>pendientes.<br />

También po<strong>de</strong>mos analizar la probabilidad <strong>de</strong> que un docente se certifique condicional en que la<br />

<strong>de</strong>pen<strong>de</strong>ncia <strong>de</strong>l colegio es pública:<br />

x=0 x=1<br />

z=0 7/12 1/12 2/3<br />

z=1 1/12 3/12 1/3<br />

2/3 1/3<br />

En este caso la probabilidad <strong>de</strong> certificarse condicional en que el colegio es público es distinta a la<br />

probabilidad incondicional <strong>de</strong> certificarse, esto porque las variables no son in<strong>de</strong>pendientes.


La distribución <strong>de</strong> probabilidad condicional nos permite <strong>de</strong>finir la esperanza condicional <strong>de</strong> una<br />

variable:<br />

Este concepto es muy importante en análisis <strong>de</strong> regresión, herramienta fundamental para el<br />

análisis <strong>de</strong> políticas públicas.<br />

Covarianza y Correlación<br />

La covarianza entre dos variables aleatorias muestra el grado en que estas dos variables se<br />

mueven <strong>de</strong> manera conjunta. La covarianza entre dos variables aleatorias X e Y es igual a:<br />

La covarianza entre las dos variables será positiva si cuando X está por sobre la media Y también<br />

tien<strong>de</strong> a estar pos sobre la media, y la covarianza será negativa si cuando X está por sobre la<br />

media Y tien<strong>de</strong> a estar bajo la media. Cuando las dos variables son in<strong>de</strong>pendientes la covarianza<br />

será igual a cero.<br />

El comando correlate con la opción c <strong>de</strong> STATA calcula las covarianza en el listado <strong>de</strong><br />

variables señalado.<br />

En este caso nos muestra que la covarianza entre X e Y es positiva e igual a 0.011, y la covarianza<br />

entre X y Z es positiva también e igual a 0.069. Finalmente, la covarianza entre Z e Y es negativa e<br />

igual a -0.005873.<br />

¿Pero cómo po<strong>de</strong>mos interpretar el valor <strong>de</strong> la covarianza?


Si nos fijamos la <strong>de</strong>finición <strong>de</strong> covarianza estar multiplica los <strong>de</strong>svíos <strong>de</strong> X con respecto a su media<br />

por los <strong>de</strong>svíos <strong>de</strong> Y con respecto a su media, por lo cual, está en unida<strong>de</strong>s <strong>de</strong> X multiplicado por<br />

unida<strong>de</strong>s <strong>de</strong> Y lo que no tiene ninguna interpretación.<br />

Una medida estandarizada <strong>de</strong> <strong>de</strong>pen<strong>de</strong>ncia entre dos variables aleatorias es el Coeficiente <strong>de</strong><br />

Correlación el que elimina el problema <strong>de</strong> las unida<strong>de</strong>s en la variable dividiendo la covarianza por<br />

la <strong>de</strong>sviación estándar <strong>de</strong> X y por l <strong>de</strong>sviación estándar <strong>de</strong> Y.<br />

Esta medida tomará valores entre -1 y 1, don<strong>de</strong> -1 indica <strong>de</strong>pen<strong>de</strong>ncia negativa perfecta entre las<br />

dos variables, 1 indica <strong>de</strong>pen<strong>de</strong>ncia positiva perfecta entre las dos variables, y 0 indica que son<br />

in<strong>de</strong>pendientes.<br />

Con el comando correlate <strong>de</strong> STATA po<strong>de</strong>mos obtener el coeficiente <strong>de</strong> correlación entre un<br />

listado <strong>de</strong> variables:<br />

En este caso, el coeficiente <strong>de</strong> correlación entre X e Y (variables in<strong>de</strong>pendientes) es muy cercano a<br />

cero, sin embargo, el coeficiente <strong>de</strong> correlación entre X y Z es positivo <strong>de</strong> or<strong>de</strong>n <strong>de</strong> 0.28,<br />

mostrando una <strong>de</strong>pen<strong>de</strong>ncia positiva entre las dos variables.<br />

Por ejemplo, utilizando los datos <strong>de</strong> la Encuesta CASEN 2009 po<strong>de</strong>mos ver cuál es la correlación<br />

entre los años <strong>de</strong> escolaridad (esc) y el salario <strong>de</strong> la ocupación principal (yopraj):<br />

Los resultados nos muestran un coeficiente <strong>de</strong> correlación positivo <strong>de</strong>l or<strong>de</strong>n <strong>de</strong> 0.28 entre los<br />

años <strong>de</strong> escolaridad y el salario. Sin embargo, al ser obtenido <strong>de</strong> una muestra po<strong>de</strong>mos<br />

preguntarnos si este valor es estadísticamente diferente <strong>de</strong> cero o no.


A través <strong>de</strong>l siguiente comando en STATA po<strong>de</strong>mos testear si el coeficiente <strong>de</strong> correlación es<br />

estadísticamente diferente <strong>de</strong> cero. La hipótesis nula es que el coeficiente es igual a cero, y la tabla<br />

a continuación presenta bajo el coeficiente <strong>de</strong> correlación y valor p para esta hipótesis nula:<br />

En este caso, se rechaza la hipótesis nula <strong>de</strong> que el coeficiente <strong>de</strong> correlación entre años <strong>de</strong><br />

escolaridad y salario sea igual a cero.<br />

La siguiente tabla nos muestra, utilizando la misma Encuesta CASEN 2009, correlaciones entre un<br />

listado <strong>de</strong> variables:<br />

Finalmente, <strong>de</strong>bemos tener presente que el coeficiente <strong>de</strong> correlación mi<strong>de</strong> asociación lineal entre<br />

las variables, por lo cual si existe una relación pero no lineal esta no será <strong>de</strong>tectada por el<br />

coeficiente <strong>de</strong> correlación.


Test <strong>de</strong> Normalidad<br />

Hasta ahora para estudiar la normalidad <strong>de</strong> una variable lo hemos realizado por simple inspección<br />

gráfica o viendo que los coeficientes <strong>de</strong> asimetría y kurtosis sean “cercanos” a los valores que<br />

caracterizan una distribución normal, 0 y 3 respectivamente.<br />

Po<strong>de</strong>mos plantear más formalmente un test que tenga como hipótesis nula:


Esta hipótesis testea conjuntamente que asimetría es cero y kurtosis es igual a 3, es <strong>de</strong>cir, la<br />

hipótesis nula es que la variable es normal.<br />

Tenemos la variable X, con las siguientes estadísticas <strong>de</strong>scriptivas:<br />

El coeficiente <strong>de</strong> asimetría es prácticamente cero, y la kurtosis muy cercana a 3. En efecto<br />

po<strong>de</strong>mos ver a través <strong>de</strong>l histograma <strong>de</strong> la variable que sigue una distribución muy parecida a la<br />

normal:<br />

Density<br />

.2 .4 .6 .8<br />

0<br />

0 1 2 3 4<br />

x<br />

Sin embargo, necesitamos saber si estadísticamente la asimetría es cero y la kurtosis es 3, para eso<br />

realizaremos un test <strong>de</strong> hipótesis que tenga como hipótesis nula la normalidad <strong>de</strong> la variable:


El primer valor p que muestra es sobre la hipótesis nula <strong>de</strong> que la asimetría (skewness) es igual a<br />

cero, dado que el valor p es mayor a 0.05 no se pue<strong>de</strong> rechazar la hipótesis nula <strong>de</strong> que la<br />

asimetría <strong>de</strong> la variable X es cero. El segundo valor p es sobre la hipótesis nula <strong>de</strong> que la kurtosis es<br />

igual a 3, dado que el valor p es mayor a 0.05 no se pue<strong>de</strong> rechazar la hipótesis nula <strong>de</strong> que la<br />

kurtosis es igual a 3. Finalmente, el tercer valor p presentado correspon<strong>de</strong> a lo que estrictamente<br />

se conoce como test <strong>de</strong> normalidad, ya que testea conjuntamente que ambas condiciones se<br />

cumplen. En este caso el valor p es mayor a 0.05 por lo cual no se pue<strong>de</strong> rechazar la hipótesis nula<br />

<strong>de</strong> normalidad <strong>de</strong> la variable X.<br />

El siguiente gráfico nos muestra la distribución <strong>de</strong> la edad según los datos <strong>de</strong> la Encuesta CASEN<br />

2009:<br />

Density<br />

.015<br />

.005<br />

.02<br />

.01<br />

0<br />

Y sus principales estadísticas <strong>de</strong>scriptivas:<br />

0 20 40 60 80 100<br />

r3: edad


Notamos que la asimetría es relativamente lejana a cero, y la kurtosis diferente <strong>de</strong> 3. Pero<br />

<strong>de</strong>bemos ver si estadísticamente la asimetría difiere mucho <strong>de</strong> cero y la kurtosis <strong>de</strong> 3 como para<br />

rechazar la hipótesis nula <strong>de</strong> normalidad <strong>de</strong> la variable edad.<br />

En este caso, se rechaza la hipótesis nula <strong>de</strong> normalidad <strong>de</strong> la variable.


<strong>Análisis</strong> <strong>de</strong> Regresión Lineal<br />

Vimos que cuando nos interesa analizar la relación entre dos variables, el coeficiente <strong>de</strong><br />

correlación es un indicador que me permite obtener el grado <strong>de</strong> <strong>de</strong>pen<strong>de</strong>ncia y la dirección <strong>de</strong><br />

ella. Por ejemplo, el siguiente gráfico nos muestra la relación entre las expectativas <strong>de</strong> vida <strong>de</strong> los<br />

hombres y las expectativas <strong>de</strong> vida <strong>de</strong> las mujeres para 188 países:<br />

graph twoway (lfit lex60_f lex60_m) (scatter lex60_f lex60_m)<br />

Gráficamente se aprecia una fuerte relación positiva entre estas dos variables, en efecto el<br />

coeficiente <strong>de</strong> correlación es 0.94:


El siguiente gráfico nos muestra la relación entre la tasa <strong>de</strong> mortalidad infantil y la tasa <strong>de</strong><br />

alfabetización <strong>de</strong> las mujeres:<br />

Po<strong>de</strong>mos apreciar que existe una fuerte relación negativa entre la tasa <strong>de</strong> alfabetización y la tasa<br />

<strong>de</strong> mortalidad, es <strong>de</strong>cir, en países con mayor alfabetización <strong>de</strong> las mujeres tien<strong>de</strong>n a tener menor<br />

tasa <strong>de</strong> mortalidad infantil. El coeficiente <strong>de</strong> correlación entre estas dos variables es -0.81.<br />

Si bien la correlación entre las variables nos indica <strong>de</strong>pen<strong>de</strong>ncia entre ellas, ya sea positiva en el<br />

primer ejemplo o negativa en el segundo, no nos indica alguna causalidad <strong>de</strong> la relación entre las<br />

variables.<br />

En la mayoría <strong>de</strong> los problemas económicos y <strong>de</strong> evaluación <strong>de</strong> políticas públicas el interés está en<br />

estudiar el efecto causal que tiene una o más variables sobre alguna variable <strong>de</strong> interés (variable<br />

<strong>de</strong> resultado).


El concepto ceteris paribus (todo lo <strong>de</strong>más constante) juega un rol fundamental en <strong>de</strong>terminar el<br />

efecto causal, ya que generalmente habrá una serie <strong>de</strong> variables que afectan el comportamiento<br />

<strong>de</strong> nuestra variable <strong>de</strong> interés y <strong>de</strong>bemos ser capaces <strong>de</strong> controlar por todas ellas para po<strong>de</strong>r aislar<br />

e i<strong>de</strong>ntificar <strong>de</strong> manera correcta el efecto <strong>de</strong> una o más variables particulares que nos interesen<br />

sobre la variable <strong>de</strong> interés.<br />

Por ejemplo, si estamos interesados en <strong>de</strong>terminar el efecto <strong>de</strong> una semana adicional <strong>de</strong><br />

capacitación sobre la productividad <strong>de</strong> los trabajadores (lo que se verá reflejado en su salario)<br />

<strong>de</strong>bemos consi<strong>de</strong>rar los otros factores que pue<strong>de</strong>n afectar la productividad <strong>de</strong>l trabajador como<br />

educación y experiencia, es <strong>de</strong>cir, <strong>de</strong>bemos preguntarnos cuál es el efecto <strong>de</strong> una semana<br />

adicional <strong>de</strong> capacitación dado un nivel <strong>de</strong> escolaridad y un nivel <strong>de</strong> experiencia.<br />

Suponga que nos interesa estudiar en el rendimiento <strong>de</strong> los alumnos, medido a través <strong>de</strong>l puntaje<br />

SIMCE, <strong>de</strong> reducir el tamaño <strong>de</strong>l curso (o alumnos por profesor) en 2. Luego queremos encontrar<br />

una relación entre Simce y TamañoCurso, don<strong>de</strong> significa cambio. Entonces queremos<br />

<strong>de</strong>terminar cuánto cambia el puntaje <strong>de</strong> Simce en relación a cuanto está cambiando el tamaño <strong>de</strong>l<br />

curso, vale <strong>de</strong>cir:<br />

mi<strong>de</strong> cuanto cambia el puntaje <strong>de</strong>l simce por cada cambio en tamaño <strong>de</strong> curso, por ejemplo, si<br />

beta es -5.7 se pue<strong>de</strong> interpretar que un aumento en 1 alumno el tamaño <strong>de</strong>l curso disminuye el<br />

puntaje <strong>de</strong> SIMCE en 5.7 puntos:<br />

Notemos que b correspon<strong>de</strong> a la pendiente <strong>de</strong> una recta que relaciona el puntaje en el SIMCE con<br />

el tamaño <strong>de</strong>l curso:<br />

don<strong>de</strong> es el intercepto y es la pendiente.<br />

De esta forma, si tuviésemos los valores <strong>de</strong> y podríamos respon<strong>de</strong> cualquier pregunta que<br />

relacione tamaño <strong>de</strong> curso con puntaje Simce.


Recta <strong>de</strong> Regresión Lineal<br />

En términos generales <strong>de</strong>notaremos por Y a la variable <strong>de</strong> interés y X a la variable que tiene un<br />

efecto causal sobre la variable <strong>de</strong> interés la que normalmente se <strong>de</strong>nominan variable explicativa o<br />

regresor.<br />

La relación entre la variable Y y la variable X (pue<strong>de</strong> ser más <strong>de</strong> una variable explicativa) no es<br />

<strong>de</strong>terminística, sino que es aleatoria. Esto es, para un mismo valor <strong>de</strong> X no siempre observamos el<br />

mismo valor <strong>de</strong> Y sino distintos valores (con cierta distribución).


Si la relación fuese <strong>de</strong>terminística, estadísticamente no tendríamos ningún problema interesante.<br />

El problema en <strong>Análisis</strong> <strong>de</strong> Regresión es justamente que para un valor <strong>de</strong> X no siempre<br />

observamos el mismo valor <strong>de</strong> Y, por lo cual lo mejor que po<strong>de</strong>mos hacer es tratar <strong>de</strong> <strong>de</strong>scubrir<br />

cuál es el valor esperado <strong>de</strong> Y condicional en cierto valor <strong>de</strong> X, lo que se conoce como Esperanza<br />

Condicional:<br />

Po<strong>de</strong>mos ver gráficamente que el valor <strong>de</strong> la esperanza <strong>de</strong> Y va cambiando condicional en<br />

diferentes valores <strong>de</strong> X, específicamente, observamos en este caso que a medida que aumenta X<br />

(número <strong>de</strong> alumnos por curso) el puntaje promedio va disminuyendo.<br />

De esta forma, po<strong>de</strong>mos <strong>de</strong>cir que la Esperanzan Condicional <strong>de</strong> Y, lo mejor que po<strong>de</strong>mos tratar<br />

<strong>de</strong> pre<strong>de</strong>cir, es una función <strong>de</strong> X. El mo<strong>de</strong>lo <strong>de</strong> regresión lineal asume que esta función es lineal:<br />

Las observaciones que tengamos en nuestra muestra <strong>de</strong> datos nos permitirán obtener<br />

estimadores para los parámetros poblacionales <strong>de</strong>sconocidos: y , y <strong>de</strong> esta forma obtener un<br />

estimador para la media condicional:<br />

Tendremos N observaciones, la observación <strong>de</strong>l individuo i <strong>de</strong> la variable <strong>de</strong>pendiente será Yi y la<br />

variable explicativa <strong>de</strong>l individuo i será Xi don<strong>de</strong> i=1,..,N.<br />

Existe una diferencia entre la observación puntual <strong>de</strong> Yi y la recta <strong>de</strong> regresión o esperanza<br />

condicional, esa diferencia es la que se <strong>de</strong>nomina error y será <strong>de</strong>notado por ui. El error <strong>de</strong><br />

regresión resume los factores aleatorios que <strong>de</strong>terminan el comportamiento <strong>de</strong> Y pero que no son<br />

explicados por X.


Entonces, la distancia que hay entre la observación puntual <strong>de</strong> Yi y el valor en la recta <strong>de</strong> regresión<br />

(o media condicional) es el error <strong>de</strong> regresión:<br />

Don<strong>de</strong> el valor esperando <strong>de</strong> ui es cero.<br />

De esta forma, el <strong>Análisis</strong> <strong>de</strong> Regresión estudia la relación entre una variable <strong>de</strong>pendiente y una o<br />

más variables explicativas, y tiene como objetivo medir o pre<strong>de</strong>cir la media poblacional <strong>de</strong> la<br />

variable <strong>de</strong>pendiente para valores fijos, o condicional en valores <strong>de</strong> la o las variables explicativas.<br />

Para estimar la media poblacional:<br />

Se utiliza la muestra obteniendo la recta <strong>de</strong> regresión muestral:<br />

La diferencia entre el valor estimado <strong>de</strong> la media y el valor observado <strong>de</strong> Yi será el error estimado:<br />

y se <strong>de</strong>nominan coeficientes <strong>de</strong> regresión poblacionales y y correspon<strong>de</strong>n a los<br />

estimadores muestrales <strong>de</strong> dichos coeficientes o parámetros.<br />

Notemos que nosotros dispondremos <strong>de</strong> una <strong>de</strong> las infinitas muestras que pue<strong>de</strong>n ser obtenidas<br />

<strong>de</strong> una población, y para esta muestra obtendremos los estimadores <strong>de</strong> los parámetros<br />

poblacionales. Si hubiésemos tenido acceso a otra muestra el estimador sería diferente, en efecto,<br />

po<strong>de</strong>mos construir una distribución (teórica) para los estimadores.<br />

La pregunta ahora es ¿Cuál será un buen estimador para estos parámetros?<br />

Estimador <strong>de</strong> Mínimos Cuadrados Ordinarios<br />

Recor<strong>de</strong>mos que un estimador es una fórmula o método que nos dice como aproximar un<br />

parámetro poblacional a partir <strong>de</strong> una muestra. Para clasificar al estimador como bueno o<br />

<strong>de</strong>seable este <strong>de</strong>bía cumplir con ciertas propieda<strong>de</strong>s:<br />

Ser insesgado<br />

Ser eficiente<br />

Ser consistente<br />

Bajo ciertos supuestos el estimador <strong>de</strong> Mínimos Cuadrados Ordinario (MCO) cumplirá con todas<br />

estas propieda<strong>de</strong>s.


Los supuestos <strong>de</strong>trás <strong>de</strong>l estimador MCO son:<br />

1) Mo<strong>de</strong>lo <strong>de</strong> regresión sea lineal en los parámetros<br />

2) El valor esperado <strong>de</strong>l error <strong>de</strong>l mo<strong>de</strong>lo sea cero<br />

3) Las variables explicativas sean exógenas o no correlacionadas con el error <strong>de</strong>l mo<strong>de</strong>lo<br />

4) La varianza <strong>de</strong>l error sea constante<br />

5) Los errores no estén correlacionados entre ellos<br />

El supuesto 3 es clave para la i<strong>de</strong>ntificación correcta <strong>de</strong>l efecto causal que tiene X sobre Y, es <strong>de</strong>cir,<br />

la i<strong>de</strong>ntificación correcta <strong>de</strong> . Notemos que si existe correlación entre X y u, al cambiar X también<br />

se moverá u, y no sabremos <strong>de</strong> don<strong>de</strong> proviene el cambio observado en Y.<br />

Los supuestos 2, 4, y 5 se resumen en que el error es in<strong>de</strong>pendiente e idénticamente distribuido<br />

con media cero y varianza constante 2 :<br />

El estimador MCO me dice que escoja y <strong>de</strong> forma tal <strong>de</strong> minimizar la suma <strong>de</strong> los errores al<br />

cuadrado:


Resolviendo este problema <strong>de</strong> optimización se tiene que:<br />

La regresión lineal por MCO en STATA sea hace a través <strong>de</strong>l comando regress:<br />

Esto se interpreta que un aumento marginal (<strong>de</strong> un alumno) en la cantidad <strong>de</strong> alumnos por curso<br />

disminuye en 2.3 puntos el puntaje en la prueba estandarizada. Note que el resultado se ve


siempre enunciando un cambio marginal en la variable explicativa (un alumno, un año, un peso,<br />

etc), y el coeficiente estimado esta en unida<strong>de</strong>s <strong>de</strong> la variable <strong>de</strong>pendiente, en este caso puntaje.<br />

Ejemplos<br />

La siguiente regresión muestra cual es el efecto marginal que tiene un año adicional <strong>de</strong> escolaridad<br />

sobre el salario por hora:<br />

Se estima con esta muestra que un año más <strong>de</strong> escolaridad aumenta en salario por hora en<br />

promedio 161.5 pesos.<br />

Muchas veces las variables monetarias se mi<strong>de</strong>n en logaritmo, por ejemplo, logaritmo <strong>de</strong>l salario<br />

por hora. Esto se hace por dos razones: cuando la variable esta en logaritmo el cambio marginal es<br />

un cambio porcentual:<br />

Y la segunda razón es que la transformación logarítmica <strong>de</strong> la variable logra transformar variables<br />

muy asimétricas en variables asimétricas.<br />

La siguiente regresión muestra la regresión lineal entre el logaritmo natural <strong>de</strong>l salario por hora y<br />

los años <strong>de</strong> escolaridad:


En este caso el coeficiente estimado para el parámetro que acompaña los años <strong>de</strong> escolaridad es<br />

igual a:<br />

De esta forma, se interpreta como que un año adicional <strong>de</strong> escolaridad aumenta en 6.63% el<br />

salario por hora.<br />

La siguiente tabla nos muestra una regresión múltiple (consi<strong>de</strong>ra más <strong>de</strong> una variable explicativa)<br />

explicando el salario por hora en función <strong>de</strong> los años <strong>de</strong> escolaridad y la edad:<br />

Se obtiene que una año más <strong>de</strong> escolaridad aumenta el salario por hora en 213.5 pesos en<br />

promedio, dado un nivel edad edad, y se obtiene que un año más <strong>de</strong> edad aumenta el salario por<br />

hora promedio en 42.7 pesos dado cierto nivel <strong>de</strong> escolaridad. Recor<strong>de</strong>mos que lo que estudia el<br />

análisis <strong>de</strong> regresión son los efectos marginales <strong>de</strong> variables explicativas sobre la esperanza<br />

condicional <strong>de</strong> la variable <strong>de</strong>pendiente.<br />

Inferencia<br />

Recor<strong>de</strong>mos que el estimador es la aproximación <strong>de</strong>l parámetro poblacional <strong>de</strong>sconocido, en el<br />

mo<strong>de</strong>lo <strong>de</strong> regresión lineal los parámetros poblacionales <strong>de</strong>sconocidos son los coeficientes que<br />

acompañan a las variables explicativas más el intercepto (o constante).<br />

Dado que el estimador se obtiene <strong>de</strong> una muestra, el estimador <strong>de</strong> por sí es una variable aleatoria<br />

que tiene una distribución <strong>de</strong> probabilidad, con cierta media y cierta varianza.<br />

Recor<strong>de</strong>mos que el estimador MCO <strong>de</strong> en el mo<strong>de</strong>lo:


Está dado por:<br />

El que pue<strong>de</strong> ser escrito <strong>de</strong> la siguiente forma:<br />

De esta forma, po<strong>de</strong>mos notar fácilmente que el estimador es insesgado, ya que:<br />

Luego, po<strong>de</strong>mos calcular la varianza <strong>de</strong>l estimador:<br />

Recuer<strong>de</strong> que el estimador MCO es eficiente por lo cual tiene la mínima varianza <strong>de</strong>ntro <strong>de</strong> todos<br />

los posibles estimadores lineales e insesgados, sin embargo, po<strong>de</strong>mos ver que esta varianza (aun<br />

siendo eficiente) será mayor mientras mayor sea la varianza <strong>de</strong>l error, y menor mientras mayor<br />

sea la varianza <strong>de</strong> las variables explicativas.<br />

Notemos que hasta ahora, para <strong>de</strong>cir que MCO es insesgado, eficiente y consistente, no hemos<br />

necesitado el supuesto <strong>de</strong> normalidad <strong>de</strong>l error. Sin embargo, para hacer inferencia se necesita<br />

hacer este supuesto <strong>de</strong> normalidad:<br />

Bajo este supuesto se tiene que:<br />

Luego, po<strong>de</strong>mos estándarizar:<br />

Sin embargo, 2 es <strong>de</strong>sconocido y <strong>de</strong>bemos utilizar el estimador muestral s 2 . Luego,


Don<strong>de</strong> k es el número <strong>de</strong> parámetros estimados en el mo<strong>de</strong>lo <strong>de</strong> regresión.<br />

Luego po<strong>de</strong>mos utilizar este estadístico para hacer inferencia sobre los valores <strong>de</strong> los parámetros<br />

poblacionales.<br />

Los test <strong>de</strong> hipótesis mínimos que se <strong>de</strong>ben hacer cuando se estima un mo<strong>de</strong>lo <strong>de</strong> regresión, es lo<br />

que se conoce como test <strong>de</strong> significancia <strong>de</strong> los parámetros, estos consisten en plantear como<br />

hipótesis nula que el parámetro poblacional es igual a cero, y como alternativa que es distinto <strong>de</strong><br />

cero:<br />

El estadístico estará dado por:<br />

Para esto necesitamos tener el valor <strong>de</strong>l estimador y <strong>de</strong> la varianza estimada.<br />

Cuando se hace una regresión en STATA automáticamente nos mostrará el valor <strong>de</strong>l estimador y<br />

<strong>de</strong> su <strong>de</strong>sviación estándar, dividiendo los valores <strong>de</strong> la primera columna (estimador) por los<br />

valores <strong>de</strong> la segunda columna (<strong>de</strong>sviación estándar) se obtiene el valor calculado <strong>de</strong>l estadístico,<br />

el que es presentado en la tercera columna.<br />

El valor <strong>de</strong> este estadístico calculado <strong>de</strong>be ser comparado con el valor <strong>de</strong> la distribución t con<br />

83987 grados <strong>de</strong> libertad, y con el nivel <strong>de</strong> significancia seleccionado.


El valor <strong>de</strong> la distribución t-stu<strong>de</strong>nt es -1.96 y 1.96, comparando lo estadísticos calculados, en<br />

todos los casos se rechaza la hipótesis nula <strong>de</strong> que el parámetro sea igual a cero.<br />

Esto también lo po<strong>de</strong>mos concluir notando que el valor p asociado a este estadístico es menor a<br />

0.05, o notando que el cero no pertenece al intervalo <strong>de</strong> confianza.<br />

Test <strong>de</strong> Normalidad <strong>de</strong>l error<br />

El supuesto clave para po<strong>de</strong>r concluir directamente la significancia <strong>de</strong> las variables explicativas (a<br />

través <strong>de</strong> la significancia <strong>de</strong> los parámetros que la acompañan) mediante los valores entregados<br />

por el output <strong>de</strong> STATA es que el error <strong>de</strong>l mo<strong>de</strong>lo se distribuye normal, si este supuesto no se<br />

cumple, el estadístico no tiene una distribución conocida y se <strong>de</strong>be utilizar el método <strong>de</strong> bootstrap<br />

para obtener los intervalos <strong>de</strong> confianza.<br />

Po<strong>de</strong>mos testear la normalidad <strong>de</strong> los errores. Una vez estimado el mo<strong>de</strong>lo se pue<strong>de</strong>n obtener los<br />

errores estimados:<br />

En STATA:<br />

Se rechaza la hipótesis nula <strong>de</strong> normalidad <strong>de</strong>l error.<br />

Debemos utilizar bootstrap para obtener los intervalos <strong>de</strong> confianza <strong>de</strong> los parámetros:


Bondad <strong>de</strong> Ajuste<br />

Una medida <strong>de</strong> bondad <strong>de</strong> ajuste nos dice como evaluar el po<strong>de</strong>r explicativo <strong>de</strong> nuestro mo<strong>de</strong>lo.<br />

Una medida <strong>de</strong> bondad <strong>de</strong> ajuste es el R 2 , el que mi<strong>de</strong> que fracción <strong>de</strong> la varianza <strong>de</strong>l la variable<br />

<strong>de</strong>pendiente o <strong>de</strong> interés esta siendo explicada por la varianza <strong>de</strong> las variables, y no por el error:


Don<strong>de</strong> ESS, es la suma <strong>de</strong> los cuadrados explicada, TSS es la suma <strong>de</strong> los cuadrados totales, y RSS<br />

es la suma <strong>de</strong> los residuos al cuadrado:<br />

Esta medida siempre estará entre cero y uno ya que es una proporción, don<strong>de</strong> mientras más<br />

cercano a 1 mejor es el mo<strong>de</strong>lo, y mientras más cercano a cero peor.<br />

El R 2 ajustado es una medida más confiable en el sentido que penaliza el hecho <strong>de</strong> incorporar más<br />

variables que no pue<strong>de</strong>n aportar mucho al mo<strong>de</strong>lo, y sólo se incorporan para aumentar el R 2 .

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!