25.06.2014 Views

Redes Bayesianas

Redes Bayesianas

Redes Bayesianas

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Redes</strong> <strong>Bayesianas</strong><br />

Pedro Larrañaga<br />

Departamento de Ciencias de la Computación e Inteligencia Artificial<br />

Universidad del País Vasco<br />

http://www.sc.ehu.es/isg/<br />

Universidad de La Laguna · Universidad de verano · Adeje, 26 julio 2002<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.1/91


Esquema de la charla<br />

• 1. Introducción<br />

• 2. Independencia condicional<br />

• 3. Factorización<br />

• 4. Propagación de la evidencia<br />

• 5. Simulación<br />

• 6. Aprendizaje estructural<br />

• 7. Aplicaciones en biomedicina<br />

• 8. Algoritmos de estimación de distribuciones<br />

• 9. Selección de genes en microarrays de ADN<br />

• 10. Conclusiones<br />

• Referencias<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.2/91


1. Introducción<br />

• Limitación de los sistemas basados en reglas<br />

• Intuición humana, cierto paralelismo con la probabilidad<br />

• A finales de la década de los 80 se superaron las dificultades<br />

computacionales que limitaban los primitivos sistemas<br />

probabilísticos<br />

• Concepto de independencia condicional<br />

• Los modelos gráficos probabilísticos permiten construir sistemas<br />

con características de razonamiento –humano versus animal<br />

(visión, voz, movimiento, ....)–<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.3/91


1. Introducción<br />

• <strong>Redes</strong> <strong>Bayesianas</strong> (Pearl, 1988)<br />

• <strong>Redes</strong> Gaussianas (Shachter y Kenley, 1989)<br />

• <strong>Redes</strong> de Markov<br />

• Modelos ocultos de Markov<br />

• Modelos log-lineales<br />

• Grafos cadena<br />

• ...<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.4/91


1. Introducción<br />

• Grafos acíclicos dirigidos (DAGs)<br />

• Nodos: variables<br />

• Arcos: dependencias condicionales<br />

• Representación utilizada para codificar incertidumbre en<br />

sistemas expertos<br />

• En un lugar central entre los siguientes dos casos extremos<br />

• p(x) = p(x 1 , x 2 , . . . , x n ) necesita 2 n − 1 parámetros<br />

• p(x) = ∏ n<br />

i=1 p(x i) necesita n parámetros<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.5/91


1. Introducción<br />

X 1<br />

X 2<br />

X 3<br />

X 4<br />

X 5<br />

p(x )= 0.20<br />

1<br />

p(x<br />

2<br />

x<br />

1<br />

)= 0.80<br />

p(x<br />

2<br />

x<br />

1<br />

)= 0.20<br />

p(x x )= 0.20<br />

3<br />

1<br />

p(x x )= 0.05<br />

3<br />

1<br />

p(x x ,x )= 0.30<br />

4 2<br />

p(x x ,x )= 0.25<br />

4 2<br />

p(x x ,x )= 0.15<br />

4 2<br />

p(x x ,x )= 0.80<br />

4 2<br />

5 3<br />

3<br />

3<br />

3<br />

3<br />

p(x x )= 0.95<br />

p(x x )= 0.11<br />

5 3<br />

p(x 1 , x 2 , x 3 , x 4 , x 5 ) = p(x 1 ) · p(x 2 | x 1 ) · p(x 3 | x 1 ) · p(x 4 | x 2 , x 3 ) · p(x 5 | x 3 )<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.6/91


1. Introducción<br />

• X = (X 1 , . . . , X n ) un conjunto de variables aleatorias<br />

• x i valor de X i (la i-ésima componente de X)<br />

• y = (x i ) Xi ∈Y<br />

valor de Y ⊆ X<br />

• El modelo gráfico probabilístico para X proporciona una<br />

factorización de la distribución de probabilidad conjunta ρ(x)<br />

• p(x) caso discreto<br />

• f(x) caso continuo<br />

• Dos componentes<br />

• estructura S (DAG)<br />

• un conjunto de densidades locales<br />

• S representa un conjunto de independencias condicionales sobre<br />

tripletas de variables de X<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.7/91


2. Independencia condicional<br />

Distribución de probabilidad conjunta de (X, Y, Z) : p(x, y, z)<br />

x y z p(x, y, z)<br />

0 0 0 0.12<br />

0 0 1 0.18<br />

0 1 0 0.04<br />

0 1 1 0.16<br />

1 0 0 0.09<br />

1 0 1 0.21<br />

1 1 0 0.02<br />

1 1 1 0.18<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.8/91


2. Independencia condicional<br />

Distribuciones marginales: p(x), p(y), p(z)<br />

p(x) = ∑ y,z<br />

p(x, y, z)<br />

p(y) = ∑ x,z<br />

p(x, y, z)<br />

p(z) = ∑ x,y<br />

p(x, y, z)<br />

x p(x) y p(y) z p(z)<br />

0 0.5 0 0.6 0 0.27<br />

1 0.5 1 0.4 1 0.73<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.9/91


2. Independencia condicional<br />

Marginales de orden 2: p(x, y), p(x, z), p(y, z)<br />

p(x, y) = ∑ z<br />

p(x, y, z)<br />

p(x, z) = ∑ y<br />

p(x, y, z)<br />

p(y, z) = ∑ x<br />

p(x, y, z)<br />

x y p(x, y) x z p(x, z) y z p(y, z)<br />

0 0 0.3 0 0 0.16 0 0 0.21<br />

0 1 0.2 0 1 0.34 0 1 0.39<br />

1 0 0.3 1 0 0.11 1 0 0.06<br />

1 1 0.2 1 1 0.39 1 1 0.34<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.10/91


2. Independencia condicional<br />

Probabilidades condicionadas:<br />

p(x|y) = p(x,y)<br />

p(y)<br />

p(x|z) = p(x,z)<br />

p(z)<br />

p(y|z) = p(y,z)<br />

p(z)<br />

y x p(x|y) z x p(x|z) z y p(y|z)<br />

0 0 0.5 0 0 16/27 0 0 21/27<br />

0 1 0.5 0 1 11/27 0 1 6/27<br />

1 0 0.5 1 0 34/73 1 0 39/73<br />

1 1 0.5 1 1 39/73 1 1 34/73<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.11/91


2. Independencia condicional<br />

• X e Y independientes sii:<br />

• p(x|y) = p(x) ∀ x, y ó<br />

• p(x, y) = p(x) · p(y) ∀ x, y<br />

En el ejemplo X e Y son independientes pero X y Z son<br />

dependientes<br />

• X condicionalmente independiente de Y dado Z,<br />

I(X, Y |Z), sii:<br />

• p(x|y, z) = p(x|z) ∀ x, y, z ó<br />

• p(x, y|z) = p(x|z) · p(y|z) ∀ x, y, z<br />

En el ejemplo, existen x, y, z tal que p(x|y, z) ≠ p(x|z), por<br />

tanto X no es condicionalmente independiente de Y dado Z<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.12/91


2. Independencia condicional<br />

p(x|y, z) =<br />

p(x, y, z)<br />

p(y, z)<br />

y z x p(x|y, z)<br />

0 0 0 12/21<br />

0 0 1 9/21<br />

0 1 0 18/39<br />

0 1 1 21/39<br />

1 0 0 4/6<br />

1 0 1 2/6<br />

1 1 0 16/34<br />

1 1 1 18/34<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.13/91


2. Independencia condicional<br />

p(x|z) =<br />

p(x, z)<br />

p(z)<br />

z x p(x|z)<br />

0 0 16/27<br />

0 1 11/27<br />

1 0 34/73<br />

1 1 39/73<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.14/91


2. Independencia condicional<br />

¿I(X, Y |Z)?<br />

• Basado en el criterio de separación<br />

• (i) Obtener el menor grafo conteniendo X, Y y Z y<br />

sus ancestros<br />

• (ii) Moralizar el subgrafo obtenido:<br />

• Añadir una arista entre padres con hijos comunes<br />

• Transformar los arcos en aristas<br />

• (iii) En el grafo no dirigido obtenido I(X, Y |Z) sii Z<br />

bloquea todo camino entre X e Y<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.15/91


2. Independencia condicional<br />

X 1<br />

X<br />

2<br />

X<br />

3<br />

X<br />

6<br />

X<br />

X<br />

4 5<br />

¿I(X 1 , X 5 |X 3 )?; ¿I(X 1 , X 6 |X 5 )?;<br />

¿I(X 4 , X 5 |{X 1 , X 3 })?; ¿I(X 4 , {X 5 , X 6 }|X 1 )?<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.16/91


3. Factorización<br />

Factorización de la función de densidad generalizada:<br />

• P ai conjunto de padres de X i en S<br />

ρ(x) = ρ(x 1 , x 2 , . . . , x n ) =<br />

n∏<br />

ρ(x i |pa S i )<br />

i=1<br />

• Suponiendo que la distribución de probabilidad depende de un conjunto finito de<br />

parámetros<br />

θ S = (θ 1 , . . . , θ n )<br />

ρ(x|θ S ) =<br />

n∏<br />

ρ(x i |pa S i , θ i)<br />

i=1<br />

• Modelo gráfico probabilístico M = (S, θS )<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.17/91


3. Factorización<br />

i) Árbol ρ(x|θ S ) =<br />

n∏<br />

ρ(x i |x j(i) , θ i )<br />

X j(i) es el (posiblemente vacío) padre de X i<br />

n∏<br />

ii) Poliárbol ρ(x|θ S ) = ρ(x i |x j1(i) , . . . , x jr(i) , θ i )<br />

i=1<br />

i=1<br />

{X j1(i) , . . . , X jr(i) } es el (posiblemente vacío) conjunto de padres de X i , los<br />

cuales son mútuamente independientes:<br />

r∏<br />

ρ(x j1(i) , x j2(i) , . . . , x jr(i) ) = ρ(x jk(i) ) i = 1, . . . , n<br />

k=1<br />

n∏<br />

iii) Múltiplemente conectados ρ(x|θ S ) = ρ(x i |pa S i , θ i)<br />

i=1<br />

a) Tree structure b) Polytree c) Multiply connected<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.18/91


3. Factorización<br />

Red Bayesiana<br />

• Para todo i, X i es discreta<br />

• x 1 i , . . . , xr i<br />

i<br />

denotan los r i posibles valores de X i<br />

• p(x k i |paj,S i<br />

, θ i ) = θ ijk es la probabilidad condicional de que<br />

X i esté en su k-ésimo valor, dado que el conjunto de sus<br />

padres está en su j-ésimo valor<br />

• q i = ∏ X g ∈P a i<br />

r g denota el número de posibles<br />

instanciaciones distintas de P a i<br />

• Parámetros locales θ i = (((θ ijk ) r i<br />

k=1 )q i<br />

j=1 ) <strong>Redes</strong> <strong>Bayesianas</strong> – p.19/91


3. Factorización<br />

Componentes<br />

a) La estructura S (DAG) refleja el conjunto de<br />

independencias condicionales entre las<br />

variables<br />

b) Distribuciones a priori θ i−k para todos los<br />

nodos raíces p(x k i |∅, θ i)<br />

c) Probabilidades condicionadas, θ ijk , para<br />

todos los nodos dadas todas las posibles<br />

combinaciones de los padres p(x k i |paj,S i , θ i )<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.20/91


¢ <br />

¤<br />

¢ ¥<br />

¤<br />

+<br />

+<br />

<br />

<br />

<br />

+<br />

+<br />

<br />

8 4 7)<br />

4<br />

4<br />

4<br />

8 4 6)<br />

<br />

4<br />

4<br />

4<br />

4<br />

4<br />

4<br />

+<br />

4<br />

4<br />

4<br />

+<br />

<br />

¢<br />

<br />

A<br />

¡<br />

¡<br />

¢<br />

<br />

%54 + 3<br />

$ 3<br />

+<br />

3. Factorización<br />

¡ ¥<br />

<br />

<br />

<br />

¡£<br />

¡¢£<br />

6<br />

6<br />

%543<br />

) +<br />

%543<br />

& '<br />

*)<br />

!#"<br />

$ %& ('<br />

¨ © §<br />

¦<br />

¨ © §<br />

¦<br />

% 43<br />

6<br />

) + 6<br />

6<br />

%543<br />

) +<br />

%543<br />

& '<br />

& '<br />

)<br />

*)<br />

!#,<br />

$ %& ('<br />

<br />

<br />

¨ © §<br />

¦<br />

+ ) 7<br />

7 %543<br />

7 + )<br />

7) 4 8<br />

+<br />

%543<br />

7<br />

) 7<br />

7 8 4 7)<br />

%543<br />

& ) & *)<br />

!#-<br />

$ %& *)<br />

+ ) 6<br />

6 %543<br />

6 + )<br />

6) 4 8<br />

+<br />

%543<br />

6<br />

) 6<br />

6 8 4 6)<br />

%543<br />

& / *)<br />

& ) & . )<br />

¨ © §<br />

¦<br />

+ ) 6<br />

6 8 4 6)<br />

%543<br />

6 + )<br />

6) 4 8<br />

+<br />

%543<br />

6<br />

) 6<br />

6 8 4 6)<br />

%543<br />

& 0)<br />

& ) & )<br />

6<br />

6 8 4 6)<br />

%543<br />

6 + )<br />

6) 4 8<br />

+<br />

%543<br />

6<br />

) 6<br />

6 8 4 6)<br />

%543<br />

& / +<br />

& ) & . )<br />

43<br />

9 8 4 7<br />

%<br />

43<br />

9 8 4 7 + )<br />

%<br />

9 8 4 7 + )<br />

%543<br />

9 8 4 7 + )<br />

%543<br />

& +<br />

& ) & 0)<br />

!21<br />

$ %& 0)<br />

¡DC<br />

<br />

<br />

0B<br />

= @<br />

?¥<br />

>¡<br />

=<br />

¤ ¡ <br />


4. Propagación de la evidencia<br />

• Métodos exactos (Lauritzen y Spiegelhalter,<br />

1988)<br />

• Métodos aproximados<br />

• Muestreo lógico probabilístico (Henrion,<br />

1988)<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.22/91


4. Propagación de la evidencia<br />

Métodos exactos (Lauritzen y Spiegelhalter,<br />

1988)<br />

• Moralización del DAG<br />

• Triangulación del grafo moral<br />

• Creación del grafo de juntura<br />

• Creación del árbol de juntura<br />

• Modificación del algoritmo de propagación de<br />

la evidencia para árboles al árbol de juntura<br />

El único paso problemático en el proceso de<br />

DAG a árbol de juntura es la triangulación<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.23/91


5. Simulación<br />

Probabilistic Logic Sampling (PLS) Henrion, 1988<br />

Dado un orden ancestral, π, en los nodos<br />

Para j = 1, 2, . . . , N<br />

Para i = 1, 2, . . . , n<br />

x π(i) ← generar un valor de p(x π(i) |pa π(i) )<br />

• Un orden ancestral es aquel en el que las variables P ai son anteriores a la<br />

variable X i<br />

• Los casos son generados variable a variable<br />

• Una variable es muestreada una vez que lo han sido sus variables padres<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.24/91


6. Aprendizaje estructural<br />

• Aprendizaje estructural ≡ inducción del<br />

modelo ≡ búsqueda del modelo<br />

• Dos aproximaciones<br />

• Detección de independencias<br />

condicionales<br />

• Score + búsqueda<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.25/91


6. Aprendizaje estructural<br />

Detección de independencias condicionales:<br />

• A partir de tests de independencia<br />

condicional entre tripletas de variables<br />

obtener una lista de independencias y<br />

dependencias condicionales<br />

• Obtener la estructura de red Bayesiana que<br />

mejor refleje las independencias y<br />

dependencias condicionales anteriores<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.26/91


6. Aprendizaje estructural<br />

Score:<br />

• Máxima verosimilitud penalizada: log p(D | S, θ) − pe(N)dim(S)<br />

n∑<br />

q i ∑<br />

r i ∑<br />

i=1 j=1 k=1<br />

N ijk log N ijk<br />

N ij<br />

− pe(N)dim(S)<br />

• Nijk denota el número de casos en D en los cuales X i toma el valor x k i y<br />

P a i toma su j-ésimo valor; N ij =<br />

• dim(S) =<br />

∑ n<br />

i=1 q i(r i − 1)<br />

r i ∑<br />

k=1<br />

N ijk<br />

• pe(N) =<br />

⎧<br />

⎨<br />

⎩<br />

1 AIC, Akaike, 1974<br />

1<br />

2 log N BIC, Schwarz, 1978 <strong>Redes</strong> <strong>Bayesianas</strong> – p.27/91


6. Aprendizaje estructural<br />

Búsqueda:<br />

• Búsqueda voraz<br />

• Heurísticos: Enfriamiento Estadístico,<br />

Algoritmos Genéticos, Búsqueda Tabu,<br />

Colonias de Hormigas, .....<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.28/91


6. Aprendizaje estructural<br />

Algoritmo K2. Cooper y Herskovits (1992)<br />

• Un conjunto de n variables discretas Xi (i = 1, . . . , n), con r i posibles valores<br />

• D base de datos con N casos<br />

• BS estructura de Red Bayesiana<br />

• P ai padres de la variable X i<br />

• qi número de instanciaciones diferentes de P a i<br />

• Nijk número de casos en D para los cuales X i toma su k-ésimo valor y P a i está<br />

en su j-ésima instanciación<br />

• Nij = ∑ r i<br />

k=1 N ijk<br />

P (B S , D) = P (B S )<br />

n∏<br />

q i ∏<br />

i=1 j=1<br />

(r i − 1)!<br />

(N ij + r i − 1)!<br />

r i ∏<br />

k=1<br />

(N ijk )! = P (B S )<br />

n∏<br />

g(i, P a i ).<br />

i=1<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.29/91


6. Aprendizaje estructural<br />

• Se necesita un orden entre las variables<br />

• Hace falta una cota superior del número de padres para cada variable<br />

• Todas las estructuras son igualmente probables al inicio<br />

• Para cada nodo K2 busca el conjunto de padres que maximiza:<br />

g(i, P a i ) =<br />

q i ∏<br />

j=1<br />

(r i − 1)!<br />

(N ij + r i − 1)!<br />

r i ∏<br />

k=1<br />

N ijk !<br />

• K2 comienza asumiendo que un nodo no tiene padres<br />

• En cada paso K2 añade de manera incremental aquel nodo padre cuya inclusión<br />

mas incrementa g(i, P a i )<br />

• K2 para cuando la inclusión de un padre simple no incrementa g(i, P ai )<br />

• K2 es un algoritmo greedy<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.30/91


6. Aprendizaje estructural<br />

Diferentes aproximaciones<br />

• Teniendo en cuenta el objetivo<br />

• Obtención de interdependencias entre las<br />

variables<br />

• Clasificación supervisada<br />

• Clasificación no supervisada<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.31/91


6. Aprendizaje estructural<br />

Clasificación supervisada con redes <strong>Bayesianas</strong><br />

• Problema:<br />

• Dada una base de datos con N casos caracterizados por n variables<br />

predictoras, X 1 , . . . , X n , y la variable clase, C, se trata de inducir un modelo<br />

clasificatorio<br />

X 1 ... X i ... X n C<br />

x 1 x 1 1<br />

... x 1 i<br />

... x 1 n c 1<br />

... ... ... ... ... ... ...<br />

x j x j 1<br />

... x j i<br />

... x j n c j<br />

... ... ... ... ... ... ...<br />

x N x N 1<br />

... x N i<br />

... x N n c N <strong>Redes</strong> <strong>Bayesianas</strong> – p.32/91


6. Aprendizaje estructural<br />

Clasificación supervisada con redes <strong>Bayesianas</strong><br />

• Métricas:<br />

• Indirectas: máxima verosimilitud penalizada, verosimilitud marginal, basadas<br />

en la teoría de la información<br />

• Directas: porcentage de bien clasificados, validado de manera honesta<br />

(entrenamiento–testeo, k–fold cross–validation, bootstrapping)<br />

• Estructura:<br />

• Naïve–Bayes<br />

• Semi Naïve–Bayes<br />

• Naïve–Bayes aumentado a árbol<br />

• Manto de Markov de C<br />

• <strong>Redes</strong> <strong>Bayesianas</strong> múltiplemente conectadas<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.33/91


6. Aprendizaje estructural<br />

Clasificación supervisada con redes <strong>Bayesianas</strong><br />

Naïve–Bayes (Duda and Hart, 1973)<br />

C<br />

X 1<br />

X 2<br />

.......... X p<br />

• Las variables predictoras son condicionalmente independientes dada la variable<br />

clase<br />

• c ∗ = arg máx c<br />

p(C = c) ∏ p<br />

i=1 p(X i = x i | C = c)<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.34/91


6. Aprendizaje estructural<br />

Clasificación supervisada con redes <strong>Bayesianas</strong><br />

Semi naïve–Bayes (Kononenko, 1991)<br />

C<br />

C<br />

X 1<br />

X 2<br />

X 3<br />

X 4<br />

X 1<br />

& X 3<br />

X 4<br />

C<br />

X & X & X & X<br />

1 2 3 4<br />

• Nuevas variables se construyen por inducción constructiva<br />

• Algunas variables pueden ser eliminadas<br />

p(C = c | X 1 = x 1 , ..., X 4 = x 4 ) ∝<br />

p(C = c)p((X 1 = x 1 , X 3 = x 3 ) | C = c)p(X 4 = x 4 | C = c)<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.35/91


6. Aprendizaje estructural<br />

Clasificación supervisada con redes <strong>Bayesianas</strong><br />

C<br />

X 1<br />

X 2<br />

X 3<br />

X 4<br />

X 5<br />

• Adaptación del algoritmo de Chow–Liu (1968)<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.36/91


6. Aprendizaje estructural<br />

Clasificación supervisada con redes <strong>Bayesianas</strong><br />

Manto de Markov de C (Pearl, 1987)<br />

π π ... π<br />

1 2 r<br />

P 1 H 1<br />

... P w1 H 1<br />

C P 1 H m<br />

... P wm H m<br />

H 1<br />

H 2<br />

... H m<br />

• Manto de Markov para una variable representa el conjunto de variables de las que<br />

depende dicha variable<br />

• Padres, hijos y padres de los hijos<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.37/91


6. Aprendizaje estructural<br />

Clasificación no supervisada con redes <strong>Bayesianas</strong><br />

• Problema:<br />

• Dada una base de datos con N casos caracterizados por n variables<br />

predictoras, Y 1 , . . . , Y n , se trata de asignar cada caso a un cluster C<br />

• C variable oculta con todas las entradas consideradas como perdidas<br />

Y 1 ... Y i ... Y n C<br />

x 1 y 1 1<br />

... y 1 i<br />

... y 1 n c 1 ?<br />

... ... ... ... ... ... ...<br />

x j y j 1<br />

... y j i<br />

... y j n c j ?<br />

... ... ... ... ... ... ...<br />

x N y N 1<br />

... y N i<br />

... y N n c N ?<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.38/91


6. Aprendizaje estructural<br />

Clasificación no supervisada con redes <strong>Bayesianas</strong><br />

• X = (X 1 , . . . , X n+1 ) = (C, Y )<br />

• x l = (x l 1, . . . , x l n+1) = (c l , y l )<br />

• c l denota el cluster (desconocido) para el l–ésimo caso<br />

• y l = (y1, l . . . , yn) l denota el valor de las variables predictoras<br />

en el l–ésimo caso<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.39/91


6. Aprendizaje estructural<br />

Clasificación no supervisada con redes <strong>Bayesianas</strong><br />

Algoritmo EM (Expectation–Maximization) (Dempster et al., 1977)<br />

• Expectation step: estimar los datos perdidos a partir de sus<br />

valores esperados. Estos se obtienen utilizando las estimaciones<br />

actuales de los parámetros<br />

• Maximization step: usando la complexión de los datos perdidos<br />

como datos completos, obtener los estimadores máximo<br />

verosímiles de los parámetros<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.40/91


6. Aprendizaje estructural<br />

Clasificación no supervisada con redes <strong>Bayesianas</strong><br />

Algoritmo EM algorithm (Expectation–Maximization) (Dempster et al.,<br />

1977)<br />

• Aplicando el Expectation step a redes <strong>Bayesianas</strong> (Lauritzen,<br />

1995) lo directo es partir el caso<br />

• Es habitual completar el caso:<br />

• Por medio de su valor modal (versión determinista)<br />

• Por el valor obtenido de una simulación (versión estocástica)<br />

• EM estructural (Friedman, 1997)<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.41/91


6. Aprendizaje estructural<br />

Clasificación no supervisada con redes <strong>Bayesianas</strong><br />

• Estructura:<br />

• Naïve–Bayes (Cheeseman and Stutz, 1995)<br />

• Semi Naïve–Bayes (Peña et al., 1999)<br />

• Naïve–Bayes extendido a árbol (Peña et al., 2000)<br />

• Multired Bayesiana (Peña et al., 2002)<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.42/91


6. Aprendizaje estructural<br />

Clasificación no supervisada con redes <strong>Bayesianas</strong><br />

Multired Bayesiana para clustering (Peña et al., 2002)<br />

Y 5<br />

Y =y 5<br />

C<br />

Y 1<br />

Y =y<br />

1 2<br />

5 5 5<br />

Y 2<br />

Y 3<br />

Y 4<br />

Y 1<br />

Y 2<br />

C<br />

Y 3<br />

Y 4<br />

Estructura de una multired Bayesiana para clustering con X = (C, Y) =<br />

(C, Y 1 , Y 2 , Y 3 , Y 4 , Y 5 ) con variable distinguida Y 5<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.43/91


7. Aplicaciones en biomedicina<br />

• 7.1 Introducción<br />

• 7.2 Predicción de la supervivencia en cáncer<br />

de mama<br />

• 7.3 Multiclasificador de dos niveles para<br />

supervivencia en UCI<br />

• 7.4 Clustering geográfico de la incidencia del<br />

cáncer<br />

• 7.5 Predicción de la estructura secundaria de<br />

las proteinas<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.44/91


7.1 Introducción<br />

• Medicina dominio con incertidumbre<br />

intrínseca<br />

• Diagnosis<br />

• Pronóstico<br />

• Bioinformática dominio con problemas muy<br />

atractivos<br />

• Microarrays de ADN<br />

• <strong>Redes</strong> genéticas<br />

• Predicción de la estructura de las proteinas<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.45/91


7.2 Predicción de la supervivencia en cáncer de mama<br />

• Problema: predicir la supervivencia de<br />

enfermos al año, a los tres años y a los cinco<br />

años de haber sido diagnosticados de cáncer<br />

de mama (Larrañaga et al., 1997)<br />

• Cáncer de mama el más frecuente<br />

• Sexo femenino: de cada cuatro casos de<br />

cáncer, uno es de cáncer de mama<br />

• Registro de Cáncer del País Vasco (1990) el<br />

ratio de incidencia del cáncer de mama es de<br />

52,5/100, 000<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.46/91


7.2 Predicción de la supervivencia en cáncer de mama<br />

• Base de datos: 1000 casos diagnosticados<br />

en el Instituto Oncológico de Guipúzcoa en el<br />

periodo de 1 Enero de 1983 a 31 de<br />

Diciembre de 1988<br />

• 4 variables predictoras:<br />

• Edad (4)<br />

• Estadío (4)<br />

• Tamaño (4)<br />

• Número de nodos positivos (4)<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.47/91


7.2 Predicción de la supervivencia en cáncer de mama<br />

Porcentage de bien clasificados con 10–fold<br />

cross–validation<br />

1 año 3 años 5 años<br />

Naïve–Bayes 93.7 79.0 70.9<br />

Naïve–Bayes a árbol 93.7 79.0 70.9<br />

Manto de Markov 92.0 78.8 71.5<br />

Red Bayesiana 94.4 80.4 72.0<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.48/91


7.3 Multiclasificador de dos niveles para supervivencia en UCI<br />

• Combinación de clasificadores en dos niveles<br />

• Primer nivel: 9 clasificadores de clasificación<br />

automática (ID3, C4.5, naïve–Bayes,<br />

naïve–Bayes tree, IB1, IB4, oneR, cn2,<br />

Ripper) aplicados a la base de datos original<br />

• Segundo nivel: red Bayesiana inducida a<br />

partir de la base de datos con 9 variables<br />

predictoras (conteniendo los resultados de<br />

los clasificadores) y la variable clase<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.49/91


7.3 Multiclasificador de dos niveles para supervivencia en UCI<br />

Base de datos:<br />

• UCI del Hospital Universitario de las Islas Canarias<br />

• Registros de 1210 pacientes (996 sobreviven, 214 fallecen)<br />

• 12 variables predictoras:<br />

• Métodos médicos estandards: APACHE II, MPM II, SAPS II<br />

• Información rutinaria: sexo, edad, lugar residencia, fecha de<br />

admisión, fecha de readmisión, causa, dias en el hospital<br />

antes de ser enviado a la UCI, código de diagnóstico,<br />

subcódigo de diagnóstico<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.50/91


7.3 Multiclasificador de dos niveles para supervivencia en UCI<br />

Base de datos para los 9 algoritmos de<br />

clasificación supervisada<br />

APACHE II ... Edad ... Sub. diagnóstico Supervivencia<br />

x 1 x 1 1 ... x 1 i ... x 1 12 s 1<br />

... ... ... ... ... ... ...<br />

x j x j 1 ... x j i ... x j 12 s j<br />

... ... ... ... ... ... ...<br />

x 1210 x 1210<br />

1 ... x 1210<br />

i ... x 1210<br />

12 s 1210<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.51/91


7.3 Multiclasificador de dos niveles para supervivencia en UCI<br />

Base de datos de la que se induce la red<br />

Bayesiana<br />

ID3 ... IB1 ... Ripper Supervivencia<br />

x 1 s 1 ID3 ... s 1 IB1 ... s 1 Ripper s 1<br />

... ... ... ... ... ... ...<br />

x j s j ID3<br />

... s j IB1<br />

... s j Ripper<br />

s j<br />

... ... ... ... ... ... ...<br />

x 1210 s 1210<br />

ID3 ... s 1210<br />

IB1 ... s 1210<br />

Ripper s 1210<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.52/91


7.3 Multiclasificador de dos niveles para supervivencia en UCI<br />

Porcentage de bien clasificados obtenidos por los 9 clasificadores y el multiclasificador<br />

basado en redes <strong>Bayesianas</strong><br />

Clasificador<br />

Porcentage<br />

ID3 73,64 ± 1,55<br />

C4.5 79,59 ± 1,85<br />

naïve–Bayes 75,64 ± 1,53<br />

naïve–Bayes tree 62,64 ± 2,64<br />

IB1 64,30 ± 2,84<br />

IB4 63,63 ± 1,22<br />

oneR 84,55 ± 1,35<br />

cn2 77,52 ± 1,67<br />

multiclasificador 87,27 ± 1,07<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.53/91


7.4 Clustering geográfico de la incidencia del cáncer<br />

• Problema<br />

• Base de datos conteniendo la incidencia<br />

del cáncer estandarizada por la edad en<br />

cada pueblo de la Comunidad Autónoma<br />

del País Vasco<br />

• Periodo de estudio: de 1986 a 1994<br />

• Las 6 categorias de cáncer más frecuentes<br />

por sexo<br />

• Analizar la distribución geográfica del<br />

tumor maligno<br />

• Clusters de pueblos (Peña et al., 2001)<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.54/91


7.4 Clustering geográfico de la incidencia del cáncer<br />

Mapas mostrando los clusters geográficos asumiendo K = 2<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.55/91


7.5 Predicción de la estructura secundaria de las proteinas<br />

• Proteina: ristra de aminoácidos<br />

• Jerarquía en las estructuras de las proteinas:<br />

• Estructura primaria: cadena de aminoácidos<br />

• Estructura secundaria: obtenida a partir de la secuencia de aminoácidos por<br />

uniones de hidrógeno<br />

• Alpha helix<br />

• Beta helix<br />

• Coil<br />

• Estructura terciara: organización tridimensional<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.56/91


7.5 Predicción de la estructura secundaria de las proteinas<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.57/91


7.5 Predicción de la estructura secundaria de las proteinas<br />

• La función de la proteina determinada por su<br />

estructura terciaria<br />

• La estructura terciaria se predice a partir de<br />

la secundaria<br />

• Predicción de la estructura secundaria se<br />

puede ver como un problema de clasificación<br />

supervisada<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.58/91


7.5 Predicción de la estructura secundaria de las proteinas<br />

• Experimentos con una base de datos de 513<br />

aminoácidos no redundantes (Cuff and<br />

Barton, 1999)<br />

• Modelo naïve–Bayes:<br />

• Variables predictoras: ventana de 9<br />

aminoácidos a partir de 2 posiciones a la<br />

derecha del aminoácido a predecir<br />

• 10 fold–cross–validation: 68,59 %<br />

• Alpha helix: 75,00 %<br />

• Beta helix: 36,00 %<br />

• Coil: 73,00 %<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.59/91


8. Algoritmos de estimación de distribuciones<br />

Motivación<br />

• Algoritmos Evolutivos<br />

• Varios parámetros a determinar<br />

• Dificultad en la predicción de las<br />

poblaciones a través de las generaciones<br />

• Building blocks<br />

• Relación entre las variables (linkage<br />

learning)<br />

• Problemas engañosos<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.60/91


8. Algoritmos de estimación de distribuciones<br />

Nueva aproximación a la computación evolutiva<br />

• Basada en poblaciones<br />

• Sin operadores de cruce ni mutación<br />

• En cada generación se estima de los individuos seleccionados, la distribución de<br />

probabilidad subyacente a los mismos<br />

• Muestreando esta distribución se obtiene la siguiente población<br />

• Se repiten los dos pasos anteriores hasta el criterio de terminación<br />

EDA (Estimation of Distribution Algorithms) Mühlenbein y Paaβ, 1996<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.61/91


8. Algoritmos de estimación de distribuciones<br />

máx h(x) =<br />

6∑<br />

i=1<br />

x i con x i = 0, 1<br />

(a) D 0 p 0 (X i = 1) = 0,5 para i = 1, . . . , 6<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.62/91


8. Algoritmos de estimación de distribuciones<br />

X 1 X 2 X 3 X 4 X 5 X 6 h(x)<br />

1 1 0 1 0 1 0 3<br />

2 0 1 0 0 1 0 2<br />

3 0 0 0 1 0 0 1<br />

4 1 1 1 0 0 1 4<br />

5 0 0 0 0 0 1 1<br />

6 1 1 0 0 1 1 4<br />

7 0 1 1 1 1 1 5<br />

8 0 0 0 1 0 0 1<br />

9 1 1 0 1 0 0 3<br />

10 1 0 1 0 0 0 2<br />

11 1 0 0 1 1 1 4<br />

12 1 1 0 0 0 1 3<br />

13 1 0 1 0 0 0 2<br />

14 0 0 0 0 1 1 2<br />

15 0 1 1 1 1 1 5<br />

16 0 0 0 1 0 0 1<br />

17 1 1 1 1 1 0 5<br />

18 0 1 0 1 1 0 3<br />

19 1 0 1 1 1 1 5<br />

20 1 0 1 1 0 0 3<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.63/91


8. Algoritmos de estimación de distribuciones<br />

(b) |D0 Se|<br />

= 10 truncación X 1 X 2 X 3 X 4 X 5 X 6<br />

1 1 0 1 0 1 0<br />

4 1 1 1 0 0 1<br />

6 1 1 0 0 1 1<br />

7 0 1 1 1 1 1<br />

11 1 0 0 1 1 1<br />

12 1 1 0 0 0 1<br />

15 0 1 1 1 1 1<br />

17 1 1 1 1 1 0<br />

18 0 1 0 1 1 0<br />

19 1 0 1 1 1 1<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.64/91


8. Algoritmos de estimación de distribuciones<br />

(c)<br />

p 1 (x) = p 1 (x 1 , . . . , x 6 ) =<br />

6∏<br />

i=1<br />

p(x i |D Se<br />

0 )<br />

modelo a aprender<br />

ˆp(X 1 = 1|D Se<br />

0 ) = 0,7<br />

ˆp(X 2 = 1|D Se<br />

0 ) = 0,7<br />

ˆp(X 3 = 1|D Se<br />

0 ) = 0,6<br />

ˆp(X 4 = 1|D Se<br />

0 ) = 0,6<br />

ˆp(X 5 = 1|D Se<br />

0 ) = 0,8<br />

ˆp(X 6 = 1|D0 Se ) = 0,7 <strong>Redes</strong> <strong>Bayesianas</strong> – p.65/91


8. Algoritmos de estimación de distribuciones<br />

(d) Muestreando p 1 (x) D 1<br />

X 1 X 2 X 3 X 4 X 5 X 6 h(x)<br />

1 1 1 1 1 1 1 6<br />

2 1 0 1 0 1 1 4<br />

3 1 1 1 1 1 0 5<br />

4 0 1 0 1 1 1 4<br />

5 1 1 1 1 0 1 5<br />

6 1 0 0 1 1 1 4<br />

7 0 1 0 1 1 0 3<br />

8 1 1 1 0 1 0 4<br />

9 1 1 1 0 0 1 4<br />

10 1 0 0 1 1 1 4<br />

11 1 1 0 0 1 1 4<br />

12 1 0 1 1 1 0 4<br />

13 0 1 1 0 1 1 4<br />

14 0 1 1 1 1 0 4<br />

15 1 1 1 1 1 1 6<br />

16 0 1 1 0 1 1 4<br />

17 1 1 1 1 1 0 5<br />

18 0 1 0 0 1 0 2<br />

19 0 0 1 1 0 1 3<br />

20 1 1 0 1 1 1 5<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.66/91


8. Algoritmos de estimación de distribuciones<br />

(e) |D1 Se|<br />

= 10 truncación X 1 X 2 X 3 X 4 X 5 X 6<br />

1 1 1 1 1 1 1<br />

2 1 0 1 0 1 1<br />

3 1 1 1 1 1 0<br />

5 1 1 1 1 0 1<br />

6 1 0 0 1 1 1<br />

8 1 1 1 0 1 0<br />

9 1 1 1 0 0 1<br />

15 1 1 1 1 1 1<br />

17 1 1 1 1 1 0<br />

20 1 1 0 1 1 1<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.67/91


8. Algoritmos de estimación de distribuciones<br />

(f) Repetir<br />

• Seleccionar Se individuos de D l−1 obteniendo<br />

D Se<br />

l−1<br />

• Aprender la distribución de probabilidad de<br />

los seleccionados<br />

p l (x) =<br />

6∏<br />

i=1<br />

p(x i |D Se<br />

l−1)<br />

• Muestrear p l (x) obteniendo D l<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.68/91


QPNO<br />

YX<br />

R<br />

WR<br />

T<br />

S<br />

h<br />

m<br />

i<br />

g<br />

e<br />

QPNO<br />

XW<br />

R<br />

bc<br />

R<br />

WR<br />

T<br />

S<br />

xŽx<br />

i<br />

gf<br />

x<br />

\ m<br />

i<br />

g<br />

x<br />

QnN i ‰<br />

‡h<br />

†…<br />

h<br />

x<br />

x<br />

x<br />

x<br />

QPNO<br />

bc<br />

R<br />

YX<br />

R<br />

i<br />

Œ<br />

‹W<br />

T<br />

S<br />

}<br />

H<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.69/91<br />

8. Algoritmos de estimación de distribuciones<br />

E(F<br />

GIK<br />

GML<br />

GIH<br />

GIJ<br />

R<br />

RTVU<br />

XW<br />

S<br />

R<br />

R<br />

R<br />

TWU<br />

S<br />

R<br />

W<br />

S<br />

UZU[U<br />

UZU[U<br />

UZU[U<br />

UZU[U<br />

UZU[U<br />

UZU[U<br />

Y U<br />

R<br />

S<br />

\<br />

R<br />

QoqP nDp<br />

nhoO<br />

\hk<br />

ldN<br />

hjik<br />

QNf dN<br />

E ]^`_0a H<br />

G(K<br />

GL<br />

G(H<br />

G(J<br />

TWU<br />

S<br />

R<br />

R<br />

S<br />

TTVU<br />

R<br />

R<br />

W<br />

R<br />

UZU[U<br />

UZU[U<br />

UZU[U<br />

UZU[U<br />

UZU[U<br />

UZU[U<br />

Y U<br />

R<br />

S<br />

dN<br />

R<br />

„N<br />

lg<br />

hik<br />

np ƒk<br />

ldN<br />

hjik<br />

QNf dN<br />

Qhgˆ<br />

i ‡P<br />

np<br />

QqP<br />

nhoO<br />

hk<br />

j‚<br />

E_<br />

t u<br />

GIJ<br />

r s<br />

s<br />

t u GIH r<br />

G(K<br />

GL<br />

G(H<br />

G(J<br />

s<br />

u x<br />

GK t v5w x5y<br />

v r<br />

TTVU<br />

R<br />

R<br />

R<br />

R<br />

}{|<br />

‰z_<br />

l†<br />

Qhk<br />

dP‰…<br />

TWU<br />

S<br />

R<br />

W<br />

S<br />

UŠU[U<br />

UŠU[U<br />

UŠU[U<br />

UŠU[U<br />

UŠU[U<br />

UŠU[U<br />

s<br />

t u GL er b U<br />

S<br />

S<br />

\<br />

S<br />

]^€_0a<br />

E<br />

z_<br />

}~ {0| z_<br />

{0|


8. Algoritmos de estimación de distribuciones<br />

EDA<br />

D 0 ← Generar N individuos (la población inicial) al azar<br />

Repetir para l = 1, 2, . . . hasta la condición de parada<br />

D Se<br />

l−1 ← Seleccionar Se ≤ N individuos de D l−1 siguiendo<br />

un método de selección<br />

p l (x) = p(x|Dl−1 Se ) ← Estimar la distribución de probabilidad<br />

de los individuos seleccionados<br />

D l ← Muestrear N individuos (la nueva población) de p l (x)<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.70/91


8. Algoritmos de estimación de distribuciones<br />

Clasificación de los algoritmos de estimación de<br />

distribuciones:<br />

• Sin dependencias<br />

• Dependencias bivariadas<br />

• Dependencias múltiples (redes <strong>Bayesianas</strong>)<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.71/91


8. Algoritmos de estimación de distribuciones<br />

Sin dependencias<br />

• UMDA (Univariate Marginal Distribution<br />

Algorithm) (Mühlenbein, 1998)<br />

p l (x) =<br />

n∏<br />

i=1<br />

p l (x i ) =<br />

n∏<br />

i=1<br />

p(x i |D Se<br />

l−1)<br />

• El modelo de probabilidad es fijo<br />

• p l (x i ) –frecuencias relativas– se calculan<br />

en cada generación<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.72/91


8. Algoritmos de estimación de distribuciones<br />

Dependencias bivariadas<br />

• MIMIC (Mutual Information Maximization for Input Clustering) (De Bonet y col.,<br />

1997)<br />

p π l (x) = p l(x i1 |x i2 ) · p l (x i2 |x i3 ) · . . . · p l (x in−1 |x in ) · p l (x in )<br />

donde π = (i 1 , i 2 , . . . , i n ) es una permutación de los índices 1, . . . , n<br />

• En cada generación tratar de encontrar la permutación π que minimiza la<br />

distancia de Kullback-Leibler entre p π l<br />

(x) y ˆp(x|DSe<br />

l−1 )<br />

• Algoritmo voraz basado en la teoría de la información<br />

• Buscar la variable Xin con menor entropía<br />

• En cada paso seleccionar –del conjunto de variables no elegidas hasta el<br />

momento– la variable cuya entropía condicional media con respecto a la<br />

variable seleccionada en el paso anterior es mínima<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.73/91


8. Algoritmos de estimación de distribuciones<br />

Dependencias múltiples (redes <strong>Bayesianas</strong>)<br />

• EBNA Estimation of Bayesian Network<br />

Algorithm (Etxeberria y Larrañaga, 1999)<br />

• Uso de redes <strong>Bayesianas</strong> para aprender y<br />

simular p l (x|D Se<br />

l−1 )<br />

• M 0 es un DAG sin ningún arco<br />

p(X i = x i ) = 1 r i<br />

, i = 1, . . . , n<br />

• La búsqueda voraz comienza con el<br />

modelo obtenido en la generación previa<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.74/91


8. Algoritmos de estimación de distribuciones<br />

• Algoritmos de estimación de distribuciones en optimización<br />

• Problema de la mochila<br />

• Problema del viajante del comercio<br />

• Problema de planificación de trabajos<br />

• Macheo inexacto de grafos<br />

• Algoritmos de estimación de distribuciones en aprendizaje automático<br />

• Selección de variables<br />

• Pesado de variables en K-NN<br />

• Inducción de reglas<br />

• Clustering particional<br />

• Ajuste de pesos en redes neuronales<br />

• Inferencia abductiva en redes <strong>Bayesianas</strong><br />

• Aprendizaje estructural de redes <strong>Bayesianas</strong><br />

• Triangulación del grafo moral<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.75/91


9. Selección de variables en microarrays de ADN<br />

• Tecnología de microarrays de ADN<br />

• Medición del nivel de expresión genética de miles de genes a la vez<br />

• Problemas muy atractivos<br />

• Almacenamiento<br />

• Análisis<br />

• Interpretación<br />

• Análisis<br />

• Clustering<br />

• Clasificación supervisada<br />

• Modelos de interacción entre genes (redes genéticas)<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.76/91


9. Selección de variables en microarrays de ADN<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.77/91


9. Selección de variables en microarrays de ADN<br />

X 1 ... X i ... X n C<br />

1 x 1 1<br />

... x 1 i<br />

... x 1 n c 1<br />

... ... ... ... ... ... ...<br />

j x j 1<br />

... x j i<br />

... x j n c j<br />

... ... ... ... ... ... ...<br />

R x R 1<br />

... x R i<br />

... x R n c R<br />

• n número de genes (n = 2000, n = 7129)<br />

• R tamaño de muestra (R = 62, R = 72)<br />

• Xi i-ésimo gen con i = 1, . . . , n<br />

• x<br />

j<br />

i<br />

nivel de expresión del i-ésimo gen para el caso j-ésimo<br />

• c j ∈ {0, 1} para todo j = 1, . . . , R<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.78/91


9. Selección de variables en microarrays de ADN<br />

• Motivación<br />

• Selección de los genes relevantes para la clasificación<br />

• Objetivo<br />

• Inducción del modelo naïve–Bayes con mayor porcentaje de acierto<br />

• Método: aproximación wrapper<br />

• Aproximación directa<br />

• El paradigma clasificatorio se tiene en cuenta<br />

• El problema de selección de subconjuntos de variables –Feature Subset<br />

Selection (FSS)– como un problema de búsqueda en un espacio con<br />

cardinalidad 2 n<br />

• Los subconjuntos candidatos son evaluados por el porcentaje de bien<br />

clasificados con el modelo naïve–Bayes inducido a partir de las variables<br />

que forman parte del subconjunto<br />

• Cualquier heurístico de búsqueda se puede usar<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.79/91


9. Selección de variables en microarrays de ADN<br />

• Dos bases de datos de expresión genética<br />

• Cancer de colon (Ben–Dor et al., 2000)<br />

n = 2000, R = 62, C = { si, no }<br />

• Leucemia (Golub et al., 1999)<br />

n = 7129, R = 72, C = { AML, ALL }<br />

• Naïve–Bayes<br />

• Variables predictivas discretas:<br />

X i =<br />

⎧<br />

⎨<br />

⎩<br />

0 si x i ≤ mediana,<br />

1 si x i > mediana<br />

• Variables predictivas continuas:<br />

para todo i = 1, . . . , n y c: f Xi | C=c(x i | c) ❀ N (µ c i , σc i )<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.80/91


9. Selección de variables en microarrays de ADN<br />

• EDAs<br />

• UMDA<br />

• N = 100, Se = 50<br />

• 4 inicializaciones<br />

• Estimación de la bondad: leave–one–out<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.81/91


9. Selección de variables en microarrays de ADN<br />

• Cuatro inicializaciones para los EDAs<br />

• Init-0: Zi ❀ B(1, 0,5) para todo i = 1, · · · , n<br />

• Init-A, Init-B, Init-C basados en los resultados de un algoritmo de selección<br />

secuencial hacia delante (SFS) que selecciona n sel variables<br />

• Init-A: Zi ❀ B(1, n sel<br />

) para todo i = 1, · · · , n<br />

n<br />

• Init-B: Zi ❀ B(1, p i ) con p i ∝ bondad del modelo naïve–Bayes que tiene<br />

como única variable predictiva X i ( ∑ n<br />

i=1 p i = n sel )<br />

• Init-C: Zi ❀ B(1, p i ) con<br />

p i ∝<br />

⎧<br />

⎨<br />

⎩<br />

incremento en bondad<br />

1−SFS bondad<br />

n−n sel<br />

si X i es seleccionada por el SFS<br />

si X i no es seleccionada por el SFS<br />

( ∑ n<br />

i=1 p i = n sel )<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.82/91


9. Selección de variables en microarrays de ADN<br />

Mejores resultados con cada inicialización y correspondientes número de variables<br />

DATOS TIPO INICIA. BONDAD VAR.<br />

init-0 67.74 985<br />

disc init-A 95.16 13<br />

70.97 init-B 95.16 13<br />

Colon init-C 91.93 5<br />

init-0 74.19 1069<br />

cont init-A 98.39 6<br />

53.23 init-B 98.39 10<br />

init-C 95.16 3<br />

init-0 45.8 3402<br />

disc init-A 100 8<br />

63.89 init-B 98.61 15<br />

Leucemia init-C 98.61 6<br />

init-0 76.39 3587<br />

cont init-A 100 10<br />

84.72 init-B 100 11<br />

init-C 98.61 4<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.83/91


10. Conclusiones<br />

• <strong>Redes</strong> <strong>Bayesianas</strong> paradigma modelizador<br />

de dominios con incertidumbre intrínseca<br />

• Razonamiento probabilista<br />

• Aprendizaje de redes <strong>Bayesianas</strong> a partir de<br />

bases de datos<br />

• Nueva herramienta de computación evolutiva:<br />

aprendizaje y simulación de redes<br />

<strong>Bayesianas</strong> en cada generación<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.84/91


Referencias<br />

• P. Larrañaga, C. Kuijpers, R. Murga, Y. Yurramendi (1996) Learning Bayesian<br />

network structures by searching for the best ordering with genetic algorithms.<br />

IEEE Transactions on System, Man and Cybernetics, Vol 26. No. 4, 487-493<br />

• P. Larrañaga, M. Poza, Y. Yurramendi, R. Murga, C. Kuijpers (1996) Structure<br />

learning of Bayesian networks by genetic algorithms: A performance analysis of<br />

control parameters. IEEE Transactions on Pattern Analysis and Machine<br />

Intelligence, Vol. 18. No. 9, 912-926<br />

• P. Larrañaga, C. Kuijpers, M. Poza, R. Murga (1997) Decomposing Bayesian<br />

networks by genetic algorithms. Statistics and Computing, Vol. 7. No. 1, 19-34<br />

• R. Etxeberria, P. Larrañaga, J.M. Pikaza (1997) Analysis of the behaviour of the<br />

genetic algorithms when searching Bayesian networks from data. Pattern<br />

Recognition Letters, Vol. 18, No. 11-13, 1269-1273<br />

• B. Sierra, P. Larrañaga (1998) Predicting the survival in malignant skin melanoma<br />

using Bayesian networks automatically induced by genetic algorithms. An<br />

empirical comparision between different approaches. Artificial Intelligence in<br />

Medicine, Vol. 14. No. 1-2, 215-230<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.85/91


Referencias<br />

• J. A. Lozano, P. Larrañaga (1998). Applying genetic algorithms to search for the<br />

best hierarchical clustering of a dataset. Pattern Recognition Letters 20, 911-918<br />

• P. Larrañaga, C. Kuijpers, R. Murga, I. Inza, S. Dizdarevich (1999) Evolutionary<br />

algorithms for the travelling salesman problem: A review of representations and<br />

operators. Artificial Intelligence Review, 13, 129–170<br />

• J. A. Lozano, P. Larrañaga, M. Graña, F. X. Albizuri (1999) Genetic algorithms:<br />

bridging the convergence gap. Theoretical Computer Science, 229, 11-22<br />

• J. M. Peña, J. A. Lozano, P. Larrañaga (1999) An empirical comparison of four<br />

initialization methods for the k-means algorithm. Pattern Recognition Letters, 20,<br />

1027–1040<br />

• C. González, J. A. Lozano, P. Larrañaga (2000) Analyzing the PBIL Algorithm by<br />

Means of Discrete Dynamical Systems, Complex Systems, Vol. 12, No. 4, 465–479<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.86/91


Referencias<br />

• B. Sierra, N. Serrano, P. Larrañaga, E. J. Plasencia, I. Inza, J. J. Jimenez, J. M. De<br />

la Rosa, M. J. Mora (2001) Using Bayesian networks in the construction of a<br />

bi-level multiclassifier. A case study using intensive care unit patients data Artificial<br />

Intelligence in Medicine, 22, 233–248<br />

• P. Larrañaga, R. Etxeberria, J. A. Lozano, J. M. Peña (2000). Combinatorial<br />

optimization by learning and simulation of Bayesian networks. Proceedings of the<br />

Sixteenth Conference on Uncertainty in Artificial Intelligence, 343–352<br />

• I. Inza, P. Larrañaga, R. Etxeberria, B. Sierra (2000) Feature Subset Selection by<br />

Bayesian networks based optimization. Artificial Intelligence, 123, 157–184<br />

• I. Inza, M. Merino, P. Larrañaga, J. Quiroga, B. Sierra, M. Girala (2001) Feature<br />

subset selection by genetic algorithms and estimation of distribution algorithms. A<br />

case study in the survival of cirrhotic patients treated with TIPS. Artificial<br />

Intelligence in Medicine, 23–2, 187–205<br />

• P. Larrañaga, J. A. Lozano (2001) (eds.) Estimation of Distribution Algorithms. A<br />

New Tool for Evolutionary Computation. Kluwer Academic Publishers<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.87/91


Referencias<br />

• J. M. Peña, J. A. Lozano, P. Larrañaga (2002) Learning recursive Bayesian<br />

multinets for clustering by means of constructive induction. Machine Learning, 47,<br />

63–89.<br />

• E. Bengoetxea, P. Larrañaga, I. Bloch, A. Perchant, C. Boeres (2002) Learning and<br />

simulation of Bayesian networks applied to inexact graph matching. Pattern<br />

Recognition. En prensa<br />

• I. Inza, B. Sierra, R. Blanco, P. Larrañaga (2002) Gene selection by sequential<br />

search wrapper approaches in microarray cancer class prediction. Journal of<br />

Intelligents and Fuzzy Systems. En prensa<br />

• R. Blanco, P. Larrañaga, I. Inza (2002) Learning Bayesian networks in the space of<br />

structures by estimation of ditribution algorithms. International Journal of Intelligent<br />

Systems. En prensa<br />

• C. González, J. A. Lozano, P. Larrañaga (2002) Mathematical modelling of UMDAc<br />

algorithm with tournament selection. Behavior on linear and quadratic functions.<br />

International Journal of Approximate Reasoning. En prensa<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.88/91


Referencias<br />

Información en Internet<br />

• http://bayes.stat.washington.edu/almond/belief.html<br />

• http://http.cs.berkeley.edu/˜murphyk/Bayes/bayes.html<br />

• http://www.afit.af.mil/Schools/EN/AI<br />

• http://www.auai.org/<br />

• http://www.cs.auc.dk/research/DSS/<br />

• http://www.maths.nott.ac.uk/hsss/<br />

• http://www.research.microsoft.com/research/dtg/<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.89/91


Referencias<br />

Software libre en Internet<br />

• http://www.ia.uned.es/˜elvira<br />

• http://hss.cmu.edu/html/departments/philosophy/TETRAD<br />

• http://http.cs.Berkeley.edu/˜murphyk/Bayes/bnsoft.html<br />

• http://kmi.open.ac.uk/projects/bkd<br />

• http://www.city.ac.uk/˜rgc<br />

• http://www.cs.cmu.edu/˜javabayes/Home/<br />

• http://www.mrc-bsu.cam.ac.uk/bugs/Welcome.html<br />

• http://www2.sis.pitt.edu/˜genie<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.90/91


Referencias<br />

Software comercial en Internet<br />

• HUGIN http://www.hugin.dk/<br />

• DXPRESS http://www.kic.com/<br />

• NETICA http://www.norsys.com/netica.html<br />

<strong>Redes</strong> <strong>Bayesianas</strong> – p.91/91

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!