25.07.2013 Views

imputación múltiple en variables categóricas usando data ...

imputación múltiple en variables categóricas usando data ...

imputación múltiple en variables categóricas usando data ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

es la proporción de observaciones de clase k <strong>en</strong> el nodo m y km ( ) = argmax ( ˆ k pmk)<br />

es la clase<br />

predominante <strong>en</strong> el nodo m. De esta manera, si d<strong>en</strong>otamos la impureza por Qm( T) <strong>en</strong> cada paso de<br />

formación del árbol se busca la variable y el punto de corte que arroj<strong>en</strong> los dos próximos nodos m<strong>en</strong>os<br />

impuros y este procedimi<strong>en</strong>to se reitera hasta que se consigu<strong>en</strong> árboles con nodos terminales de muy pocos<br />

elem<strong>en</strong>tos [3]. Entonces se poda el árbol aplicando el criterio costo-complejidad, o sea, se trata de minimizar<br />

T<br />

C ( T) = N Q ( T) + α T<br />

α<br />

∑<br />

m=<br />

1<br />

<strong>en</strong> donde T es el árbol, T la cantidad de nodos terminales y α un parámetro que mide el equilibrio <strong>en</strong>tre el<br />

árbol más largo (cada nodo con un solo integrante) y el más chico (aquel de un solo nodo). Es necesario decir<br />

que una variable dep<strong>en</strong>di<strong>en</strong>te puede ser seleccionada varias veces, incluso varias veces seguidas, como la<br />

variable óptima para separar <strong>en</strong> dos nodos. Así mismo pued<strong>en</strong> existir <strong>variables</strong> <strong>en</strong> la base que el propio<br />

método no incluya <strong>en</strong> la formación del árbol. En cualquier caso, el resultado serán los nodos terminales que<br />

defin<strong>en</strong> una agrupación de los sujetos de la base a partir de condiciones establecidas por los puntos de corte <strong>en</strong><br />

las <strong>variables</strong> indep<strong>en</strong>di<strong>en</strong>tes.<br />

2.3. Data Augm<strong>en</strong>tation<br />

El término Data Augm<strong>en</strong>tation hace refer<strong>en</strong>cia a métodos para la construcción de algoritmos iterativos a<br />

través de la introducción de datos no observados o <strong>variables</strong> lat<strong>en</strong>tes y fue popularizado <strong>en</strong> la literatura<br />

estadística por Tanner y Wong <strong>en</strong> 1987 [11], con el artículo Data Augm<strong>en</strong>tation Algorithm For Posterior<br />

Sampling. Los esquemas de Data Augm<strong>en</strong>tation fueron usados por dichos autores para conseguir<br />

simulaciones factibles y simples. La construcción de esquemas de Data Augm<strong>en</strong>tation que deriv<strong>en</strong> <strong>en</strong><br />

algoritmos s<strong>en</strong>cillos es cuestión de arte, <strong>en</strong> donde estrategias exitosas varían de acuerdo a los datos<br />

observados y al modelo considerado.<br />

La naturaleza del algoritmo es motivada por la sigui<strong>en</strong>te repres<strong>en</strong>tación de una d<strong>en</strong>sidad a posteriori, <strong>en</strong> donde<br />

todas las integrales referidas son integrales de Riemann:<br />

p( θ / y) = ∫ p( θ / z, y) p( z/ y) dz<br />

(3)<br />

Z<br />

donde:<br />

• p( θ / y)<br />

es la d<strong>en</strong>sidad a posteriori de los parámetros θ dados los datos y<br />

• p( z/ y) es la d<strong>en</strong>sidad de los datos no observados z condicionada a los observados<br />

• p( θ / zy , ) es la d<strong>en</strong>sidad de θ dados los datos aum<strong>en</strong>tados x = (, zy)<br />

• Z es el espacio muestral de los datos no observados<br />

La d<strong>en</strong>sidad de los datos no observados condicionada a los observados puede escribirse como:<br />

pz ( / y) = ∫ pz ( / φ, yp ) ( φ/ yd ) φ<br />

(4)<br />

Θ<br />

m m<br />

donde Θ simboliza el espacio paramétrico de θ .<br />

Ahora, substituy<strong>en</strong>do 2 <strong>en</strong> 1 e intercambiando el ord<strong>en</strong> de integración se puede observar que p( θ / y)<br />

debe<br />

satisfacer la sigui<strong>en</strong>te ecuación:<br />

135<br />

(2)

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!