25.07.2013 Views

imputación múltiple en variables categóricas usando data ...

imputación múltiple en variables categóricas usando data ...

imputación múltiple en variables categóricas usando data ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

• Ahora, <strong>en</strong> cada grupo o nodo se implem<strong>en</strong>ta Data Augm<strong>en</strong>tation con las sigui<strong>en</strong>tes características:<br />

1. La verosimilitud es<br />

n j observaciones <strong>en</strong> la categoría j)<br />

k<br />

n j<br />

p( X / θ ) = ∏ pj(verosimilitud<br />

de una variable categórica con k categorías y<br />

j=<br />

1<br />

2. Utilizamos una distribución a priori Dirichlet con vector de parámetros (1/ 2,1/ 2,...,1/ 2) para el vector<br />

θ<br />

• Se repite el proceso para cada variable con aus<strong>en</strong>cias, utilizando la información rell<strong>en</strong>ada <strong>en</strong><br />

<strong>variables</strong> anteriores 1<br />

• Se obti<strong>en</strong><strong>en</strong> las imputaciones <strong>múltiple</strong>s (5-10) y las nuevas bases ll<strong>en</strong>as. Se efectúan <strong>en</strong> ellas los<br />

análisis estadísticos requeridos y se combinan los resultados con las reglas de Rubin [6, 7]<br />

Formalm<strong>en</strong>te, la aplicación de Data Augm<strong>en</strong>tation <strong>en</strong> una variable categórica con aus<strong>en</strong>cias se puede escribir<br />

como: observaciones x1, x2,..., xni.i.d, que toman los valores k1, k2,..., kKcon probabilidades<br />

θ , θ ,..., θ de lo que se deriva la verosimilitud<br />

k1 k2 kK<br />

K<br />

n j<br />

pX ( / θ ) = ∏ θ<br />

(9)<br />

j=<br />

1<br />

j<br />

donde n j es la cantidad de observaciones que tomaron el valor j. Llamemos Y a los datos observados y Z a<br />

los faltantes. Entonces los datos completos se pued<strong>en</strong> expresar X = ( ZY , ) . Son necesarias las<br />

distribuciones condicionales<br />

( / θ, )<br />

K<br />

j=<br />

1<br />

nZ<br />

j θ j<br />

pZ Y<br />

p( θ / Y, Z) ∝ p( X / θ) p(<br />

θ)<br />

. Esto es:<br />

⎛K+ 1⎞<br />

Γ⎜ ⎟⎛<br />

2<br />

⎞<br />

p( θ / Y, Z)<br />

∝<br />

⎝ ⎠<br />

1 θ θ θ<br />

K + 1 ( 1<br />

⎜ − ⎟<br />

Γ<br />

2)<br />

⎝ ⎠<br />

= ∏ con nZ j como la cantidad de faltantes por categoría, y<br />

K<br />

l<br />

− 1<br />

2 K<br />

− 1<br />

2<br />

l<br />

K<br />

n j<br />

l<br />

l= 1 l= 1 l=<br />

1<br />

∑ ∏ ∏ (10)<br />

Cuando se aplica el Teorema de Bayes se obti<strong>en</strong>e el Kernel de otra distribución Dirichlet que será la<br />

distribución “a posteriori” buscada.<br />

4. EJEMPLO DE APLICACIÓN<br />

Para ilustrar el método propuesto, escogimos un fragm<strong>en</strong>to de base de datos de 200 casos [5] donde se<br />

resum<strong>en</strong> los resultados ficticios de una <strong>en</strong>cuesta que int<strong>en</strong>ta medir las prefer<strong>en</strong>cias de los estudiantes<br />

universitarios a la hora de buscar pareja. Fueron seleccionadas tres <strong>variables</strong> <strong>categóricas</strong>:<br />

Importancia de una bu<strong>en</strong>a posición económica de la pareja, 3 valores: 1-Muy importante, 2-Importante, 3-No<br />

importante<br />

Importancia de la Apari<strong>en</strong>cia Física, 4 valores: 1-Mucha, 2-Regular, 3-Poca, 4-Ninguna<br />

Importancia del éxito <strong>en</strong> la doc<strong>en</strong>cia, 3 valores: 1-Mucha, 2-Regular, 3-Ninguna<br />

1 En este s<strong>en</strong>tido, las <strong>variables</strong> deb<strong>en</strong> rell<strong>en</strong>arse com<strong>en</strong>zando por la que más aus<strong>en</strong>cias ti<strong>en</strong>e hasta llegar a la de m<strong>en</strong>or número de<br />

aus<strong>en</strong>cias<br />

137

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!