25.07.2013 Views

imputación múltiple en variables categóricas usando data ...

imputación múltiple en variables categóricas usando data ...

imputación múltiple en variables categóricas usando data ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

2.1. Imputación <strong>múltiple</strong> (IM) [1, 2, 4, 7, 8, 9]<br />

La <strong>imputación</strong> <strong>múltiple</strong> es la alternativa <strong>en</strong> g<strong>en</strong>eral más favorecida por la literatura moderna sobre datos<br />

faltantes. Las v<strong>en</strong>tajas de la IM se asocian con su efici<strong>en</strong>cia, su versatilidad <strong>en</strong> relación con las infer<strong>en</strong>cias<br />

estadísticas post-<strong>imputación</strong>, y sobre todo, con el hecho de que incorpora la incertidumbre <strong>en</strong> el proceso de<br />

<strong>imputación</strong>.<br />

A grandes rasgos, la IM remplaza cada valor aus<strong>en</strong>te por un conjunto de m (m > 1) valores plausibles, es<br />

decir, completa la base de datos original, de m maneras. A partir de la base de datos original (incompleta) se<br />

g<strong>en</strong>eran m nuevas bases completas.<br />

Estos m juegos de datos “completos” se somet<strong>en</strong> al análisis estadístico a que habría sido sometida la base<br />

original si no hubiese cont<strong>en</strong>ido observaciones faltantes, y los resultados de las infer<strong>en</strong>cias (estimadores con<br />

sus errores estándar) se combinan mediante reglas simples [7] para obt<strong>en</strong>er la solución deseada, que <strong>en</strong>traña<br />

un elem<strong>en</strong>to de incertidumbre producto de la combinación de los estimadores y de las técnicas de simulación<br />

propias del método.<br />

2.2. Árboles de Regresión y Clasificación (ARC)<br />

Un modelo ARC describe la distribución condicional de la variable respuesta y dado un conjunto de<br />

predictores X = (X1, X2,…, Xp). El modelo ti<strong>en</strong>e dos principales compon<strong>en</strong>tes: un árbol T con b nodos<br />

terminales y un vector µ = (µ1, µ2,…, µb) que especifica la distribución de Y <strong>en</strong> cada nodo terminal.<br />

Así, el par (T, µ) determina un modelo y si X está <strong>en</strong> la región correspondi<strong>en</strong>te al m-ésimo nodo, <strong>en</strong>tonces Y/X<br />

ti<strong>en</strong>e distribución f (Y/µm). El árbol es de regresión o clasificación de acuerdo a si la variable Y es cuantitativa<br />

o cualitativa. Esto da paso a un algoritmo iterativo de creación del árbol. En una base de datos, el árbol se<br />

forma t<strong>en</strong>i<strong>en</strong>do <strong>en</strong> cu<strong>en</strong>ta la creación de grupos de sujetos tan difer<strong>en</strong>tes <strong>en</strong>tre si como se pueda. Cada paso <strong>en</strong><br />

la formación del árbol necesita escoger una <strong>en</strong>tre las <strong>variables</strong> indep<strong>en</strong>di<strong>en</strong>tes y un punto de corte para ella de<br />

tal manera que se <strong>en</strong>cu<strong>en</strong>tre la mayor difer<strong>en</strong>cia posible <strong>en</strong>tre los grupos <strong>en</strong> cuanto a la variable dep<strong>en</strong>di<strong>en</strong>te.<br />

Supongamos que t<strong>en</strong>emos dividido el espacio <strong>en</strong> M regiones o nodos terminales R1, R2,…, RM. Se modela y<br />

como constante cm <strong>en</strong> cada región Rm<br />

M<br />

f(x) = ∑ cIx m ( ∈ Rm)<br />

(1)<br />

m=<br />

1<br />

El primer paso consiste <strong>en</strong> definir cómo medir la “difer<strong>en</strong>cia" <strong>en</strong>tre grupos. En el caso de los árboles de<br />

clasificación exist<strong>en</strong> tres medidas fundam<strong>en</strong>tales, que mid<strong>en</strong> específicam<strong>en</strong>te la impureza de los nodos:<br />

1. Error de mala clasificación: 1<br />

N<br />

∑<br />

m<br />

∑<br />

2. Índice de Gini: pˆ pˆ<br />

3. Entropía cruzada:<br />

k≠t K<br />

∑<br />

k = 1<br />

i∈Rm mk mt<br />

pˆ logpˆ<br />

mk mk<br />

I( y ≠ k( m))<br />

t<strong>en</strong>i<strong>en</strong>do <strong>en</strong> cu<strong>en</strong>ta que Nm es la cantidad de elem<strong>en</strong>tos <strong>en</strong> el nodo m,<br />

i<br />

134<br />

1<br />

pˆ mk = ∑<br />

I( yi= k)<br />

N x∈R m<br />

i m

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!