Redes Bayesianas

Redes Bayesianas 

Pedro Larrañaga 

Departamento de Ciencias de la Computación e Inteligencia Artificial 

Universidad del País Vasco 

http://www.sc.ehu.es/isg/ 

Universidad de La Laguna · Universidad de verano · Adeje, 26 julio 2002 

Redes Bayesianas – p.1/91

Esquema de la charla 

• 1. Introducción 

• 2. Independencia condicional 

• 3. Factorización 

• 4. Propagación de la evidencia 

• 5. Simulación 

• 6. Aprendizaje estructural 

• 7. Aplicaciones en biomedicina 

• 8. Algoritmos de estimación de distribuciones 

• 9. Selección de genes en microarrays de ADN 

• 10. Conclusiones 

• Referencias 


1. Introducción 

• Limitación de los sistemas basados en reglas 

• Intuición humana, cierto paralelismo con la probabilidad 

• A finales de la década de los 80 se superaron las dificultades 

computacionales que limitaban los primitivos sistemas 

probabilísticos 

• Concepto de independencia condicional 

• Los modelos gráficos probabilísticos permiten construir sistemas 

con características de razonamiento –humano versus animal 

(visión, voz, movimiento, ....)– 



• Redes Bayesianas (Pearl, 1988) 

• Redes Gaussianas (Shachter y Kenley, 1989) 

• Redes de Markov 

• Modelos ocultos de Markov 

• Modelos log-lineales 

• Grafos cadena 

• ... 



• Grafos acíclicos dirigidos (DAGs) 

• Nodos: variables 

• Arcos: dependencias condicionales 

• Representación utilizada para codificar incertidumbre en 

sistemas expertos 

• En un lugar central entre los siguientes dos casos extremos 

• p(x) = p(x 1 , x 2 , . . . , x n ) necesita 2 n − 1 parámetros 

• p(x) = ∏ n 

i=1 p(x i) necesita n parámetros 



X 1 

X 2 

X 3 

X 4 

X 5 

p(x )= 0.20 

1 

p(x 

2 

x 

1 

)= 0.80 

p(x 

2 

x 

1 

)= 0.20 

p(x x )= 0.20 

3 

1 

p(x x )= 0.05 

3 

1 

p(x x ,x )= 0.30 

4 2 

p(x x ,x )= 0.25 

4 2 

p(x x ,x )= 0.15 

4 2 

p(x x ,x )= 0.80 

4 2 

5 3 

3 

3 

3 

3 

p(x x )= 0.95 

p(x x )= 0.11 

5 3 

p(x 1 , x 2 , x 3 , x 4 , x 5 ) = p(x 1 ) · p(x 2 | x 1 ) · p(x 3 | x 1 ) · p(x 4 | x 2 , x 3 ) · p(x 5 | x 3 ) 



• X = (X 1 , . . . , X n ) un conjunto de variables aleatorias 

• x i valor de X i (la i-ésima componente de X) 

• y = (x i ) Xi ∈Y 

valor de Y ⊆ X 

• El modelo gráfico probabilístico para X proporciona una 

factorización de la distribución de probabilidad conjunta ρ(x) 

• p(x) caso discreto 

• f(x) caso continuo 

• Dos componentes 

• estructura S (DAG) 

• un conjunto de densidades locales 

• S representa un conjunto de independencias condicionales sobre 

tripletas de variables de X 


2. Independencia condicional 

Distribución de probabilidad conjunta de (X, Y, Z) : p(x, y, z) 

x y z p(x, y, z) 

0 0 0 0.12 

0 0 1 0.18 

0 1 0 0.04 

0 1 1 0.16 

1 0 0 0.09 

1 0 1 0.21 

1 1 0 0.02 

1 1 1 0.18 



Distribuciones marginales: p(x), p(y), p(z) 

p(x) = ∑ y,z 

p(x, y, z) 

p(y) = ∑ x,z 

p(x, y, z) 

p(z) = ∑ x,y 

p(x, y, z) 

x p(x) y p(y) z p(z) 

0 0.5 0 0.6 0 0.27 

1 0.5 1 0.4 1 0.73 



Marginales de orden 2: p(x, y), p(x, z), p(y, z) 

p(x, y) = ∑ z 

p(x, y, z) 

p(x, z) = ∑ y 

p(x, y, z) 

p(y, z) = ∑ x 

p(x, y, z) 

x y p(x, y) x z p(x, z) y z p(y, z) 

0 0 0.3 0 0 0.16 0 0 0.21 

0 1 0.2 0 1 0.34 0 1 0.39 

1 0 0.3 1 0 0.11 1 0 0.06 

1 1 0.2 1 1 0.39 1 1 0.34 



Probabilidades condicionadas: 

p(x|y) = p(x,y) 

p(y) 

p(x|z) = p(x,z) 

p(z) 

p(y|z) = p(y,z) 

p(z) 

y x p(x|y) z x p(x|z) z y p(y|z) 

0 0 0.5 0 0 16/27 0 0 21/27 

0 1 0.5 0 1 11/27 0 1 6/27 

1 0 0.5 1 0 34/73 1 0 39/73 

1 1 0.5 1 1 39/73 1 1 34/73 



• X e Y independientes sii: 

• p(x|y) = p(x) ∀ x, y ó 

• p(x, y) = p(x) · p(y) ∀ x, y 

En el ejemplo X e Y son independientes pero X y Z son 

dependientes 

• X condicionalmente independiente de Y dado Z, 

I(X, Y |Z), sii: 

• p(x|y, z) = p(x|z) ∀ x, y, z ó 

• p(x, y|z) = p(x|z) · p(y|z) ∀ x, y, z 

En el ejemplo, existen x, y, z tal que p(x|y, z) ≠ p(x|z), por 

tanto X no es condicionalmente independiente de Y dado Z 



p(x|y, z) = 

p(x, y, z) 

p(y, z) 

y z x p(x|y, z) 

0 0 0 12/21 

0 0 1 9/21 

0 1 0 18/39 

0 1 1 21/39 

1 0 0 4/6 

1 0 1 2/6 

1 1 0 16/34 

1 1 1 18/34 



p(x|z) = 

p(x, z) 

p(z) 

z x p(x|z) 

0 0 16/27 

0 1 11/27 

1 0 34/73 

1 1 39/73 



¿I(X, Y |Z)? 

• Basado en el criterio de separación 

• (i) Obtener el menor grafo conteniendo X, Y y Z y 

sus ancestros 

• (ii) Moralizar el subgrafo obtenido: 

• Añadir una arista entre padres con hijos comunes 

• Transformar los arcos en aristas 

• (iii) En el grafo no dirigido obtenido I(X, Y |Z) sii Z 

bloquea todo camino entre X e Y 



X 1 

X 

2 

X 

3 

X 

6 

X 

X 

4 5 

¿I(X 1 , X 5 |X 3 )?; ¿I(X 1 , X 6 |X 5 )?; 

¿I(X 4 , X 5 |{X 1 , X 3 })?; ¿I(X 4 , {X 5 , X 6 }|X 1 )? 


3. Factorización 

Factorización de la función de densidad generalizada: 

• P ai conjunto de padres de X i en S 

ρ(x) = ρ(x 1 , x 2 , . . . , x n ) = 

n∏ 

ρ(x i |pa S i ) 

i=1 

• Suponiendo que la distribución de probabilidad depende de un conjunto finito de 

parámetros 

θ S = (θ 1 , . . . , θ n ) 

ρ(x|θ S ) = 

n∏ 

ρ(x i |pa S i , θ i) 

i=1 

• Modelo gráfico probabilístico M = (S, θS ) 



i) Árbol ρ(x|θ S ) = 

n∏ 

ρ(x i |x j(i) , θ i ) 

X j(i) es el (posiblemente vacío) padre de X i 

n∏ 

ii) Poliárbol ρ(x|θ S ) = ρ(x i |x j1(i) , . . . , x jr(i) , θ i ) 

i=1 

i=1 

{X j1(i) , . . . , X jr(i) } es el (posiblemente vacío) conjunto de padres de X i , los 

cuales son mútuamente independientes: 

r∏ 

ρ(x j1(i) , x j2(i) , . . . , x jr(i) ) = ρ(x jk(i) ) i = 1, . . . , n 

k=1 

n∏ 

iii) Múltiplemente conectados ρ(x|θ S ) = ρ(x i |pa S i , θ i) 

i=1 

a) Tree structure b) Polytree c) Multiply connected 



Red Bayesiana 

• Para todo i, X i es discreta 

• x 1 i , . . . , xr i 

i 

denotan los r i posibles valores de X i 

• p(x k i |paj,S i 

, θ i ) = θ ijk es la probabilidad condicional de que 

X i esté en su k-ésimo valor, dado que el conjunto de sus 

padres está en su j-ésimo valor 

• q i = ∏ X g ∈P a i 

r g denota el número de posibles 

instanciaciones distintas de P a i 

• Parámetros locales θ i = (((θ ijk ) r i 

k=1 )q i 

j=1 ) Redes Bayesianas – p.19/91


Componentes 

a) La estructura S (DAG) refleja el conjunto de 

independencias condicionales entre las 

variables 

b) Distribuciones a priori θ i−k para todos los 

nodos raíces p(x k i |∅, θ i) 

c) Probabilidades condicionadas, θ ijk , para 

todos los nodos dadas todas las posibles 

combinaciones de los padres p(x k i |paj,S i , θ i ) 


¢ 

¤ 

¢ ¥ 

¤ 

+ 

+ 

 

 

 

+ 

+ 

 

8 4 7) 

4 

4 

4 

8 4 6) 

 

4 

4 

4 

4 

4 

4 

+ 

4 

4 

4 

+ 

 

¢ 

 

A 

¡ 

¡ 

¢ 

 

%54 + 3 

$ 3 

+ 


¡ ¥ 

 

 

 

¡£ 

¡¢£ 

6 

6 

%543 

) + 

%543 

& ' 

*) 

!#" 

$ %& (' 

¨ © § 

¦ 

¨ © § 

¦ 

% 43 

6 

) + 6 

6 

%543 

) + 

%543 

& ' 

& ' 

) 

*) 

!#, 

$ %& (' 

 

 

¨ © § 

¦ 

+ ) 7 

7 %543 

7 + ) 

7) 4 8 

+ 

%543 

7 

) 7 

7 8 4 7) 

%543 

& ) & *) 

!#- 

$ %& *) 

+ ) 6 

6 %543 

6 + ) 

6) 4 8 

+ 

%543 

6 

) 6 

6 8 4 6) 

%543 

& / *) 

& ) & . ) 

¨ © § 

¦ 

+ ) 6 

6 8 4 6) 

%543 

6 + ) 

6) 4 8 

+ 

%543 

6 

) 6 

6 8 4 6) 

%543 

& 0) 

& ) & ) 

6 

6 8 4 6) 

%543 

6 + ) 

6) 4 8 

+ 

%543 

6 

) 6 

6 8 4 6) 

%543 

& / + 

& ) & . ) 

43 

9 8 4 7 

% 

43 

9 8 4 7 + ) 

% 

9 8 4 7 + ) 

%543 

9 8 4 7 + ) 

%543 

& + 

& ) & 0) 

!21 

$ %& 0) 

¡DC 

 

 

0B 

= @ 

?¥ 

>¡ 

= 

¤ ¡ 

4. Propagación de la evidencia 

• Métodos exactos (Lauritzen y Spiegelhalter, 

1988) 

• Métodos aproximados 

• Muestreo lógico probabilístico (Henrion, 

1988) 


4. Propagación de la evidencia 

Métodos exactos (Lauritzen y Spiegelhalter, 

1988) 

• Moralización del DAG 

• Triangulación del grafo moral 

• Creación del grafo de juntura 

• Creación del árbol de juntura 

• Modificación del algoritmo de propagación de 

la evidencia para árboles al árbol de juntura 

El único paso problemático en el proceso de 

DAG a árbol de juntura es la triangulación 


5. Simulación 

Probabilistic Logic Sampling (PLS) Henrion, 1988 

Dado un orden ancestral, π, en los nodos 

Para j = 1, 2, . . . , N 

Para i = 1, 2, . . . , n 

x π(i) ← generar un valor de p(x π(i) |pa π(i) ) 

• Un orden ancestral es aquel en el que las variables P ai son anteriores a la 

variable X i 

• Los casos son generados variable a variable 

• Una variable es muestreada una vez que lo han sido sus variables padres 


6. Aprendizaje estructural 

• Aprendizaje estructural ≡ inducción del 

modelo ≡ búsqueda del modelo 

• Dos aproximaciones 

• Detección de independencias 

condicionales 

• Score + búsqueda 



Detección de independencias condicionales: 

• A partir de tests de independencia 

condicional entre tripletas de variables 

obtener una lista de independencias y 

dependencias condicionales 

• Obtener la estructura de red Bayesiana que 

mejor refleje las independencias y 

dependencias condicionales anteriores 



Score: 

• Máxima verosimilitud penalizada: log p(D | S, θ) − pe(N)dim(S) 

n∑ 

q i ∑ 

r i ∑ 

i=1 j=1 k=1 

N ijk log N ijk 

N ij 

− pe(N)dim(S) 

• Nijk denota el número de casos en D en los cuales X i toma el valor x k i y 

P a i toma su j-ésimo valor; N ij = 

• dim(S) = 

∑ n 

i=1 q i(r i − 1) 

r i ∑ 

k=1 

N ijk 

• pe(N) = 

⎧ 

⎨ 

⎩ 

1 AIC, Akaike, 1974 

1 

2 log N BIC, Schwarz, 1978 Redes Bayesianas – p.27/91


Búsqueda: 

• Búsqueda voraz 

• Heurísticos: Enfriamiento Estadístico, 

Algoritmos Genéticos, Búsqueda Tabu, 

Colonias de Hormigas, ..... 



Algoritmo K2. Cooper y Herskovits (1992) 

• Un conjunto de n variables discretas Xi (i = 1, . . . , n), con r i posibles valores 

• D base de datos con N casos 

• BS estructura de Red Bayesiana 

• P ai padres de la variable X i 

• qi número de instanciaciones diferentes de P a i 

• Nijk número de casos en D para los cuales X i toma su k-ésimo valor y P a i está 

en su j-ésima instanciación 

• Nij = ∑ r i 

k=1 N ijk 

P (B S , D) = P (B S ) 

n∏ 

q i ∏ 

i=1 j=1 

(r i − 1)! 

(N ij + r i − 1)! 

r i ∏ 

k=1 

(N ijk )! = P (B S ) 

n∏ 

g(i, P a i ). 

i=1 



• Se necesita un orden entre las variables 

• Hace falta una cota superior del número de padres para cada variable 

• Todas las estructuras son igualmente probables al inicio 

• Para cada nodo K2 busca el conjunto de padres que maximiza: 

g(i, P a i ) = 

q i ∏ 

j=1 

(r i − 1)! 

(N ij + r i − 1)! 

r i ∏ 

k=1 

N ijk ! 

• K2 comienza asumiendo que un nodo no tiene padres 

• En cada paso K2 añade de manera incremental aquel nodo padre cuya inclusión 

mas incrementa g(i, P a i ) 

• K2 para cuando la inclusión de un padre simple no incrementa g(i, P ai ) 

• K2 es un algoritmo greedy 



Diferentes aproximaciones 

• Teniendo en cuenta el objetivo 

• Obtención de interdependencias entre las 

variables 

• Clasificación supervisada 

• Clasificación no supervisada 



Clasificación supervisada con redes Bayesianas 

• Problema: 

• Dada una base de datos con N casos caracterizados por n variables 

predictoras, X 1 , . . . , X n , y la variable clase, C, se trata de inducir un modelo 

clasificatorio 

X 1 ... X i ... X n C 

x 1 x 1 1 

... x 1 i 

... x 1 n c 1 

... ... ... ... ... ... ... 

x j x j 1 

... x j i 

... x j n c j 

... ... ... ... ... ... ... 

x N x N 1 

... x N i 

... x N n c N Redes Bayesianas – p.32/91



• Métricas: 

• Indirectas: máxima verosimilitud penalizada, verosimilitud marginal, basadas 

en la teoría de la información 

• Directas: porcentage de bien clasificados, validado de manera honesta 

(entrenamiento–testeo, k–fold cross–validation, bootstrapping) 

• Estructura: 

• Naïve–Bayes 

• Semi Naïve–Bayes 

• Naïve–Bayes aumentado a árbol 

• Manto de Markov de C 

• Redes Bayesianas múltiplemente conectadas 




Naïve–Bayes (Duda and Hart, 1973) 

C 

X 1 

X 2 

.......... X p 

• Las variables predictoras son condicionalmente independientes dada la variable 

clase 

• c ∗ = arg máx c 

p(C = c) ∏ p 

i=1 p(X i = x i | C = c) 




Semi naïve–Bayes (Kononenko, 1991) 

C 

C 

X 1 

X 2 

X 3 

X 4 

X 1 

& X 3 

X 4 

C 

X & X & X & X 

1 2 3 4 

• Nuevas variables se construyen por inducción constructiva 

• Algunas variables pueden ser eliminadas 

p(C = c | X 1 = x 1 , ..., X 4 = x 4 ) ∝ 

p(C = c)p((X 1 = x 1 , X 3 = x 3 ) | C = c)p(X 4 = x 4 | C = c) 




C 

X 1 

X 2 

X 3 

X 4 

X 5 

• Adaptación del algoritmo de Chow–Liu (1968) 




Manto de Markov de C (Pearl, 1987) 

π π ... π 

1 2 r 

P 1 H 1 

... P w1 H 1 

C P 1 H m 

... P wm H m 

H 1 

H 2 

... H m 

• Manto de Markov para una variable representa el conjunto de variables de las que 

depende dicha variable 

• Padres, hijos y padres de los hijos 



Clasificación no supervisada con redes Bayesianas 

• Problema: 

• Dada una base de datos con N casos caracterizados por n variables 

predictoras, Y 1 , . . . , Y n , se trata de asignar cada caso a un cluster C 

• C variable oculta con todas las entradas consideradas como perdidas 

Y 1 ... Y i ... Y n C 

x 1 y 1 1 

... y 1 i 

... y 1 n c 1 ? 

... ... ... ... ... ... ... 

x j y j 1 

... y j i 

... y j n c j ? 

... ... ... ... ... ... ... 

x N y N 1 

... y N i 

... y N n c N ? 




• X = (X 1 , . . . , X n+1 ) = (C, Y ) 

• x l = (x l 1, . . . , x l n+1) = (c l , y l ) 

• c l denota el cluster (desconocido) para el l–ésimo caso 

• y l = (y1, l . . . , yn) l denota el valor de las variables predictoras 

en el l–ésimo caso 




Algoritmo EM (Expectation–Maximization) (Dempster et al., 1977) 

• Expectation step: estimar los datos perdidos a partir de sus 

valores esperados. Estos se obtienen utilizando las estimaciones 

actuales de los parámetros 

• Maximization step: usando la complexión de los datos perdidos 

como datos completos, obtener los estimadores máximo 

verosímiles de los parámetros 




Algoritmo EM algorithm (Expectation–Maximization) (Dempster et al., 

1977) 

• Aplicando el Expectation step a redes Bayesianas (Lauritzen, 

1995) lo directo es partir el caso 

• Es habitual completar el caso: 

• Por medio de su valor modal (versión determinista) 

• Por el valor obtenido de una simulación (versión estocástica) 

• EM estructural (Friedman, 1997) 




• Estructura: 

• Naïve–Bayes (Cheeseman and Stutz, 1995) 

• Semi Naïve–Bayes (Peña et al., 1999) 

• Naïve–Bayes extendido a árbol (Peña et al., 2000) 

• Multired Bayesiana (Peña et al., 2002) 




Multired Bayesiana para clustering (Peña et al., 2002) 

Y 5 

Y =y 5 

C 

Y 1 

Y =y 

1 2 

5 5 5 

Y 2 

Y 3 

Y 4 

Y 1 

Y 2 

C 

Y 3 

Y 4 

Estructura de una multired Bayesiana para clustering con X = (C, Y) = 

(C, Y 1 , Y 2 , Y 3 , Y 4 , Y 5 ) con variable distinguida Y 5 


7. Aplicaciones en biomedicina 

• 7.1 Introducción 

• 7.2 Predicción de la supervivencia en cáncer 

de mama 

• 7.3 Multiclasificador de dos niveles para 

supervivencia en UCI 

• 7.4 Clustering geográfico de la incidencia del 

cáncer 

• 7.5 Predicción de la estructura secundaria de 

las proteinas 


7.1 Introducción 

• Medicina dominio con incertidumbre 

intrínseca 

• Diagnosis 

• Pronóstico 

• Bioinformática dominio con problemas muy 

atractivos 

• Microarrays de ADN 

• Redes genéticas 

• Predicción de la estructura de las proteinas 


7.2 Predicción de la supervivencia en cáncer de mama 

• Problema: predicir la supervivencia de 

enfermos al año, a los tres años y a los cinco 

años de haber sido diagnosticados de cáncer 

de mama (Larrañaga et al., 1997) 

• Cáncer de mama el más frecuente 

• Sexo femenino: de cada cuatro casos de 

cáncer, uno es de cáncer de mama 

• Registro de Cáncer del País Vasco (1990) el 

ratio de incidencia del cáncer de mama es de 

52,5/100, 000 



• Base de datos: 1000 casos diagnosticados 

en el Instituto Oncológico de Guipúzcoa en el 

periodo de 1 Enero de 1983 a 31 de 

Diciembre de 1988 

• 4 variables predictoras: 

• Edad (4) 

• Estadío (4) 

• Tamaño (4) 

• Número de nodos positivos (4) 



Porcentage de bien clasificados con 10–fold 

cross–validation 

1 año 3 años 5 años 

Naïve–Bayes 93.7 79.0 70.9 

Naïve–Bayes a árbol 93.7 79.0 70.9 

Manto de Markov 92.0 78.8 71.5 

Red Bayesiana 94.4 80.4 72.0 


7.3 Multiclasificador de dos niveles para supervivencia en UCI 

• Combinación de clasificadores en dos niveles 

• Primer nivel: 9 clasificadores de clasificación 

automática (ID3, C4.5, naïve–Bayes, 

naïve–Bayes tree, IB1, IB4, oneR, cn2, 

Ripper) aplicados a la base de datos original 

• Segundo nivel: red Bayesiana inducida a 

partir de la base de datos con 9 variables 

predictoras (conteniendo los resultados de 

los clasificadores) y la variable clase 



Base de datos: 

• UCI del Hospital Universitario de las Islas Canarias 

• Registros de 1210 pacientes (996 sobreviven, 214 fallecen) 

• 12 variables predictoras: 

• Métodos médicos estandards: APACHE II, MPM II, SAPS II 

• Información rutinaria: sexo, edad, lugar residencia, fecha de 

admisión, fecha de readmisión, causa, dias en el hospital 

antes de ser enviado a la UCI, código de diagnóstico, 

subcódigo de diagnóstico 



Base de datos para los 9 algoritmos de 

clasificación supervisada 

APACHE II ... Edad ... Sub. diagnóstico Supervivencia 

x 1 x 1 1 ... x 1 i ... x 1 12 s 1 

... ... ... ... ... ... ... 

x j x j 1 ... x j i ... x j 12 s j 

... ... ... ... ... ... ... 

x 1210 x 1210 

1 ... x 1210 

i ... x 1210 

12 s 1210 



Base de datos de la que se induce la red 

Bayesiana 

ID3 ... IB1 ... Ripper Supervivencia 

x 1 s 1 ID3 ... s 1 IB1 ... s 1 Ripper s 1 

... ... ... ... ... ... ... 

x j s j ID3 

... s j IB1 

... s j Ripper 

s j 

... ... ... ... ... ... ... 

x 1210 s 1210 

ID3 ... s 1210 

IB1 ... s 1210 

Ripper s 1210 



Porcentage de bien clasificados obtenidos por los 9 clasificadores y el multiclasificador 

basado en redes Bayesianas 

Clasificador 

Porcentage 

ID3 73,64 ± 1,55 

C4.5 79,59 ± 1,85 

naïve–Bayes 75,64 ± 1,53 

naïve–Bayes tree 62,64 ± 2,64 

IB1 64,30 ± 2,84 

IB4 63,63 ± 1,22 

oneR 84,55 ± 1,35 

cn2 77,52 ± 1,67 

multiclasificador 87,27 ± 1,07 


7.4 Clustering geográfico de la incidencia del cáncer 

• Problema 

• Base de datos conteniendo la incidencia 

del cáncer estandarizada por la edad en 

cada pueblo de la Comunidad Autónoma 

del País Vasco 

• Periodo de estudio: de 1986 a 1994 

• Las 6 categorias de cáncer más frecuentes 

por sexo 

• Analizar la distribución geográfica del 

tumor maligno 

• Clusters de pueblos (Peña et al., 2001) 


7.4 Clustering geográfico de la incidencia del cáncer 

Mapas mostrando los clusters geográficos asumiendo K = 2 


7.5 Predicción de la estructura secundaria de las proteinas 

• Proteina: ristra de aminoácidos 

• Jerarquía en las estructuras de las proteinas: 

• Estructura primaria: cadena de aminoácidos 

• Estructura secundaria: obtenida a partir de la secuencia de aminoácidos por 

uniones de hidrógeno 

• Alpha helix 

• Beta helix 

• Coil 

• Estructura terciara: organización tridimensional 





• La función de la proteina determinada por su 

estructura terciaria 

• La estructura terciaria se predice a partir de 

la secundaria 

• Predicción de la estructura secundaria se 

puede ver como un problema de clasificación 

supervisada 



• Experimentos con una base de datos de 513 

aminoácidos no redundantes (Cuff and 

Barton, 1999) 

• Modelo naïve–Bayes: 

• Variables predictoras: ventana de 9 

aminoácidos a partir de 2 posiciones a la 

derecha del aminoácido a predecir 

• 10 fold–cross–validation: 68,59 % 

• Alpha helix: 75,00 % 

• Beta helix: 36,00 % 

• Coil: 73,00 % 


8. Algoritmos de estimación de distribuciones 

Motivación 

• Algoritmos Evolutivos 

• Varios parámetros a determinar 

• Dificultad en la predicción de las 

poblaciones a través de las generaciones 

• Building blocks 

• Relación entre las variables (linkage 

learning) 

• Problemas engañosos 



Nueva aproximación a la computación evolutiva 

• Basada en poblaciones 

• Sin operadores de cruce ni mutación 

• En cada generación se estima de los individuos seleccionados, la distribución de 

probabilidad subyacente a los mismos 

• Muestreando esta distribución se obtiene la siguiente población 

• Se repiten los dos pasos anteriores hasta el criterio de terminación 

EDA (Estimation of Distribution Algorithms) Mühlenbein y Paaβ, 1996 



máx h(x) = 

6∑ 

i=1 

x i con x i = 0, 1 

(a) D 0 p 0 (X i = 1) = 0,5 para i = 1, . . . , 6 



X 1 X 2 X 3 X 4 X 5 X 6 h(x) 

1 1 0 1 0 1 0 3 

2 0 1 0 0 1 0 2 

3 0 0 0 1 0 0 1 

4 1 1 1 0 0 1 4 

5 0 0 0 0 0 1 1 

6 1 1 0 0 1 1 4 

7 0 1 1 1 1 1 5 

8 0 0 0 1 0 0 1 

9 1 1 0 1 0 0 3 

10 1 0 1 0 0 0 2 

11 1 0 0 1 1 1 4 

12 1 1 0 0 0 1 3 

13 1 0 1 0 0 0 2 

14 0 0 0 0 1 1 2 

15 0 1 1 1 1 1 5 

16 0 0 0 1 0 0 1 

17 1 1 1 1 1 0 5 

18 0 1 0 1 1 0 3 

19 1 0 1 1 1 1 5 

20 1 0 1 1 0 0 3 



(b) |D0 Se| 

= 10 truncación X 1 X 2 X 3 X 4 X 5 X 6 

1 1 0 1 0 1 0 

4 1 1 1 0 0 1 

6 1 1 0 0 1 1 

7 0 1 1 1 1 1 

11 1 0 0 1 1 1 

12 1 1 0 0 0 1 

15 0 1 1 1 1 1 

17 1 1 1 1 1 0 

18 0 1 0 1 1 0 

19 1 0 1 1 1 1 



(c) 

p 1 (x) = p 1 (x 1 , . . . , x 6 ) = 

6∏ 

i=1 

p(x i |D Se 

0 ) 

modelo a aprender 

ˆp(X 1 = 1|D Se 

0 ) = 0,7 

ˆp(X 2 = 1|D Se 

0 ) = 0,7 

ˆp(X 3 = 1|D Se 

0 ) = 0,6 

ˆp(X 4 = 1|D Se 

0 ) = 0,6 

ˆp(X 5 = 1|D Se 

0 ) = 0,8 

ˆp(X 6 = 1|D0 Se ) = 0,7 Redes Bayesianas – p.65/91


(d) Muestreando p 1 (x) D 1 

X 1 X 2 X 3 X 4 X 5 X 6 h(x) 

1 1 1 1 1 1 1 6 

2 1 0 1 0 1 1 4 

3 1 1 1 1 1 0 5 

4 0 1 0 1 1 1 4 

5 1 1 1 1 0 1 5 

6 1 0 0 1 1 1 4 

7 0 1 0 1 1 0 3 

8 1 1 1 0 1 0 4 

9 1 1 1 0 0 1 4 

10 1 0 0 1 1 1 4 

11 1 1 0 0 1 1 4 

12 1 0 1 1 1 0 4 

13 0 1 1 0 1 1 4 

14 0 1 1 1 1 0 4 

15 1 1 1 1 1 1 6 

16 0 1 1 0 1 1 4 

17 1 1 1 1 1 0 5 

18 0 1 0 0 1 0 2 

19 0 0 1 1 0 1 3 

20 1 1 0 1 1 1 5 



(e) |D1 Se| 

= 10 truncación X 1 X 2 X 3 X 4 X 5 X 6 

1 1 1 1 1 1 1 

2 1 0 1 0 1 1 

3 1 1 1 1 1 0 

5 1 1 1 1 0 1 

6 1 0 0 1 1 1 

8 1 1 1 0 1 0 

9 1 1 1 0 0 1 

15 1 1 1 1 1 1 

17 1 1 1 1 1 0 

20 1 1 0 1 1 1 



(f) Repetir 

• Seleccionar Se individuos de D l−1 obteniendo 

D Se 

l−1 

• Aprender la distribución de probabilidad de 

los seleccionados 

p l (x) = 

6∏ 

i=1 

p(x i |D Se 

l−1) 

• Muestrear p l (x) obteniendo D l 


QPNO 

YX 

R 

WR 

T 

S 

h 

m 

i 

g 

e 

QPNO 

XW 

R 

bc 

R 

WR 

T 

S 

xŽx 

i 

gf 

x 

\ m 

i 

g 

x 

QnN i ‰ 

‡h 

†… 

h 

x 

x 

x 

x 

QPNO 

bc 

R 

YX 

R 

i 

Œ 

‹W 

T 

S 

} 

H 

Redes Bayesianas – p.69/91 


E(F 

GIK 

GML 

GIH 

GIJ 

R 

RTVU 

XW 

S 

R 

R 

R 

TWU 

S 

R 

W 

S 

UZU[U 

UZU[U 

UZU[U 

UZU[U 

UZU[U 

UZU[U 

Y U 

R 

S 

\ 

R 

QoqP nDp 

nhoO 

\hk 

ldN 

hjik 

QNf dN 

E ]^`_0a H 

G(K 

GL 

G(H 

G(J 

TWU 

S 

R 

R 

S 

TTVU 

R 

R 

W 

R 

UZU[U 

UZU[U 

UZU[U 

UZU[U 

UZU[U 

UZU[U 

Y U 

R 

S 

dN 

R 

„N 

lg 

hik 

np ƒk 

ldN 

hjik 

QNf dN 

Qhgˆ 

i ‡P 

np 

QqP 

nhoO 

hk 

j‚ 

E_ 

t u 

GIJ 

r s 

s 

t u GIH r 

G(K 

GL 

G(H 

G(J 

s 

u x 

GK t v5w x5y 

v r 

TTVU 

R 

R 

R 

R 

}{| 

‰z_ 

l† 

Qhk 

dP‰… 

TWU 

S 

R 

W 

S 

UŠU[U 

UŠU[U 

UŠU[U 

UŠU[U 

UŠU[U 

UŠU[U 

s 

t u GL er b U 

S 

S 

\ 

S 

]^€_0a 

E 

z_ 

}~ {0| z_ 

{0|


EDA 

D 0 ← Generar N individuos (la población inicial) al azar 

Repetir para l = 1, 2, . . . hasta la condición de parada 

D Se 

l−1 ← Seleccionar Se ≤ N individuos de D l−1 siguiendo 

un método de selección 

p l (x) = p(x|Dl−1 Se ) ← Estimar la distribución de probabilidad 

de los individuos seleccionados 

D l ← Muestrear N individuos (la nueva población) de p l (x) 



Clasificación de los algoritmos de estimación de 

distribuciones: 

• Sin dependencias 

• Dependencias bivariadas 

• Dependencias múltiples (redes Bayesianas) 



Sin dependencias 

• UMDA (Univariate Marginal Distribution 

Algorithm) (Mühlenbein, 1998) 

p l (x) = 

n∏ 

i=1 

p l (x i ) = 

n∏ 

i=1 

p(x i |D Se 

l−1) 

• El modelo de probabilidad es fijo 

• p l (x i ) –frecuencias relativas– se calculan 

en cada generación 



Dependencias bivariadas 

• MIMIC (Mutual Information Maximization for Input Clustering) (De Bonet y col., 

1997) 

p π l (x) = p l(x i1 |x i2 ) · p l (x i2 |x i3 ) · . . . · p l (x in−1 |x in ) · p l (x in ) 

donde π = (i 1 , i 2 , . . . , i n ) es una permutación de los índices 1, . . . , n 

• En cada generación tratar de encontrar la permutación π que minimiza la 

distancia de Kullback-Leibler entre p π l 

(x) y ˆp(x|DSe 

l−1 ) 

• Algoritmo voraz basado en la teoría de la información 

• Buscar la variable Xin con menor entropía 

• En cada paso seleccionar –del conjunto de variables no elegidas hasta el 

momento– la variable cuya entropía condicional media con respecto a la 

variable seleccionada en el paso anterior es mínima 



Dependencias múltiples (redes Bayesianas) 

• EBNA Estimation of Bayesian Network 

Algorithm (Etxeberria y Larrañaga, 1999) 

• Uso de redes Bayesianas para aprender y 

simular p l (x|D Se 

l−1 ) 

• M 0 es un DAG sin ningún arco 

p(X i = x i ) = 1 r i 

, i = 1, . . . , n 

• La búsqueda voraz comienza con el 

modelo obtenido en la generación previa 



• Algoritmos de estimación de distribuciones en optimización 

• Problema de la mochila 

• Problema del viajante del comercio 

• Problema de planificación de trabajos 

• Macheo inexacto de grafos 

• Algoritmos de estimación de distribuciones en aprendizaje automático 

• Selección de variables 

• Pesado de variables en K-NN 

• Inducción de reglas 

• Clustering particional 

• Ajuste de pesos en redes neuronales 

• Inferencia abductiva en redes Bayesianas 

• Aprendizaje estructural de redes Bayesianas 

• Triangulación del grafo moral 


9. Selección de variables en microarrays de ADN 

• Tecnología de microarrays de ADN 

• Medición del nivel de expresión genética de miles de genes a la vez 

• Problemas muy atractivos 

• Almacenamiento 

• Análisis 

• Interpretación 

• Análisis 

• Clustering 

• Clasificación supervisada 

• Modelos de interacción entre genes (redes genéticas) 





X 1 ... X i ... X n C 

1 x 1 1 

... x 1 i 

... x 1 n c 1 

... ... ... ... ... ... ... 

j x j 1 

... x j i 

... x j n c j 

... ... ... ... ... ... ... 

R x R 1 

... x R i 

... x R n c R 

• n número de genes (n = 2000, n = 7129) 

• R tamaño de muestra (R = 62, R = 72) 

• Xi i-ésimo gen con i = 1, . . . , n 

• x 

j 

i 

nivel de expresión del i-ésimo gen para el caso j-ésimo 

• c j ∈ {0, 1} para todo j = 1, . . . , R 



• Motivación 

• Selección de los genes relevantes para la clasificación 

• Objetivo 

• Inducción del modelo naïve–Bayes con mayor porcentaje de acierto 

• Método: aproximación wrapper 

• Aproximación directa 

• El paradigma clasificatorio se tiene en cuenta 

• El problema de selección de subconjuntos de variables –Feature Subset 

Selection (FSS)– como un problema de búsqueda en un espacio con 

cardinalidad 2 n 

• Los subconjuntos candidatos son evaluados por el porcentaje de bien 

clasificados con el modelo naïve–Bayes inducido a partir de las variables 

que forman parte del subconjunto 

• Cualquier heurístico de búsqueda se puede usar 



• Dos bases de datos de expresión genética 

• Cancer de colon (Ben–Dor et al., 2000) 

n = 2000, R = 62, C = { si, no } 

• Leucemia (Golub et al., 1999) 

n = 7129, R = 72, C = { AML, ALL } 

• Naïve–Bayes 

• Variables predictivas discretas: 

X i = 

⎧ 

⎨ 

⎩ 

0 si x i ≤ mediana, 

1 si x i > mediana 

• Variables predictivas continuas: 

para todo i = 1, . . . , n y c: f Xi | C=c(x i | c) ❀ N (µ c i , σc i ) 



• EDAs 

• UMDA 

• N = 100, Se = 50 

• 4 inicializaciones 

• Estimación de la bondad: leave–one–out 



• Cuatro inicializaciones para los EDAs 

• Init-0: Zi ❀ B(1, 0,5) para todo i = 1, · · · , n 

• Init-A, Init-B, Init-C basados en los resultados de un algoritmo de selección 

secuencial hacia delante (SFS) que selecciona n sel variables 

• Init-A: Zi ❀ B(1, n sel 

) para todo i = 1, · · · , n 

n 

• Init-B: Zi ❀ B(1, p i ) con p i ∝ bondad del modelo naïve–Bayes que tiene 

como única variable predictiva X i ( ∑ n 

i=1 p i = n sel ) 

• Init-C: Zi ❀ B(1, p i ) con 

p i ∝ 

⎧ 

⎨ 

⎩ 

incremento en bondad 

1−SFS bondad 

n−n sel 

si X i es seleccionada por el SFS 

si X i no es seleccionada por el SFS 

( ∑ n 

i=1 p i = n sel ) 



Mejores resultados con cada inicialización y correspondientes número de variables 

DATOS TIPO INICIA. BONDAD VAR. 

init-0 67.74 985 

disc init-A 95.16 13 

70.97 init-B 95.16 13 

Colon init-C 91.93 5 

init-0 74.19 1069 

cont init-A 98.39 6 

53.23 init-B 98.39 10 

init-C 95.16 3 

init-0 45.8 3402 

disc init-A 100 8 

63.89 init-B 98.61 15 

Leucemia init-C 98.61 6 

init-0 76.39 3587 

cont init-A 100 10 

84.72 init-B 100 11 

init-C 98.61 4 


10. Conclusiones 

• Redes Bayesianas paradigma modelizador 

de dominios con incertidumbre intrínseca 

• Razonamiento probabilista 

• Aprendizaje de redes Bayesianas a partir de 

bases de datos 

• Nueva herramienta de computación evolutiva: 

aprendizaje y simulación de redes 

Bayesianas en cada generación 


Referencias 

• P. Larrañaga, C. Kuijpers, R. Murga, Y. Yurramendi (1996) Learning Bayesian 

network structures by searching for the best ordering with genetic algorithms. 

IEEE Transactions on System, Man and Cybernetics, Vol 26. No. 4, 487-493 

• P. Larrañaga, M. Poza, Y. Yurramendi, R. Murga, C. Kuijpers (1996) Structure 

learning of Bayesian networks by genetic algorithms: A performance analysis of 

control parameters. IEEE Transactions on Pattern Analysis and Machine 

Intelligence, Vol. 18. No. 9, 912-926 

• P. Larrañaga, C. Kuijpers, M. Poza, R. Murga (1997) Decomposing Bayesian 

networks by genetic algorithms. Statistics and Computing, Vol. 7. No. 1, 19-34 

• R. Etxeberria, P. Larrañaga, J.M. Pikaza (1997) Analysis of the behaviour of the 

genetic algorithms when searching Bayesian networks from data. Pattern 

Recognition Letters, Vol. 18, No. 11-13, 1269-1273 

• B. Sierra, P. Larrañaga (1998) Predicting the survival in malignant skin melanoma 

using Bayesian networks automatically induced by genetic algorithms. An 

empirical comparision between different approaches. Artificial Intelligence in 

Medicine, Vol. 14. No. 1-2, 215-230 


Referencias 

• J. A. Lozano, P. Larrañaga (1998). Applying genetic algorithms to search for the 

best hierarchical clustering of a dataset. Pattern Recognition Letters 20, 911-918 

• P. Larrañaga, C. Kuijpers, R. Murga, I. Inza, S. Dizdarevich (1999) Evolutionary 

algorithms for the travelling salesman problem: A review of representations and 

operators. Artificial Intelligence Review, 13, 129–170 

• J. A. Lozano, P. Larrañaga, M. Graña, F. X. Albizuri (1999) Genetic algorithms: 

bridging the convergence gap. Theoretical Computer Science, 229, 11-22 

• J. M. Peña, J. A. Lozano, P. Larrañaga (1999) An empirical comparison of four 

initialization methods for the k-means algorithm. Pattern Recognition Letters, 20, 

1027–1040 

• C. González, J. A. Lozano, P. Larrañaga (2000) Analyzing the PBIL Algorithm by 

Means of Discrete Dynamical Systems, Complex Systems, Vol. 12, No. 4, 465–479 


Referencias 

• B. Sierra, N. Serrano, P. Larrañaga, E. J. Plasencia, I. Inza, J. J. Jimenez, J. M. De 

la Rosa, M. J. Mora (2001) Using Bayesian networks in the construction of a 

bi-level multiclassifier. A case study using intensive care unit patients data Artificial 

Intelligence in Medicine, 22, 233–248 

• P. Larrañaga, R. Etxeberria, J. A. Lozano, J. M. Peña (2000). Combinatorial 

optimization by learning and simulation of Bayesian networks. Proceedings of the 

Sixteenth Conference on Uncertainty in Artificial Intelligence, 343–352 

• I. Inza, P. Larrañaga, R. Etxeberria, B. Sierra (2000) Feature Subset Selection by 

Bayesian networks based optimization. Artificial Intelligence, 123, 157–184 

• I. Inza, M. Merino, P. Larrañaga, J. Quiroga, B. Sierra, M. Girala (2001) Feature 

subset selection by genetic algorithms and estimation of distribution algorithms. A 

case study in the survival of cirrhotic patients treated with TIPS. Artificial 

Intelligence in Medicine, 23–2, 187–205 

• P. Larrañaga, J. A. Lozano (2001) (eds.) Estimation of Distribution Algorithms. A 

New Tool for Evolutionary Computation. Kluwer Academic Publishers 


Referencias 

• J. M. Peña, J. A. Lozano, P. Larrañaga (2002) Learning recursive Bayesian 

multinets for clustering by means of constructive induction. Machine Learning, 47, 

63–89. 

• E. Bengoetxea, P. Larrañaga, I. Bloch, A. Perchant, C. Boeres (2002) Learning and 

simulation of Bayesian networks applied to inexact graph matching. Pattern 

Recognition. En prensa 

• I. Inza, B. Sierra, R. Blanco, P. Larrañaga (2002) Gene selection by sequential 

search wrapper approaches in microarray cancer class prediction. Journal of 

Intelligents and Fuzzy Systems. En prensa 

• R. Blanco, P. Larrañaga, I. Inza (2002) Learning Bayesian networks in the space of 

structures by estimation of ditribution algorithms. International Journal of Intelligent 

Systems. En prensa 

• C. González, J. A. Lozano, P. Larrañaga (2002) Mathematical modelling of UMDAc 

algorithm with tournament selection. Behavior on linear and quadratic functions. 

International Journal of Approximate Reasoning. En prensa 


Referencias 

Información en Internet 

• http://bayes.stat.washington.edu/almond/belief.html 

• http://http.cs.berkeley.edu/˜murphyk/Bayes/bayes.html 

• http://www.afit.af.mil/Schools/EN/AI 

• http://www.auai.org/ 

• http://www.cs.auc.dk/research/DSS/ 

• http://www.maths.nott.ac.uk/hsss/ 

• http://www.research.microsoft.com/research/dtg/ 


Referencias 

Software libre en Internet 

• http://www.ia.uned.es/˜elvira 

• http://hss.cmu.edu/html/departments/philosophy/TETRAD 

• http://http.cs.Berkeley.edu/˜murphyk/Bayes/bnsoft.html 

• http://kmi.open.ac.uk/projects/bkd 

• http://www.city.ac.uk/˜rgc 

• http://www.cs.cmu.edu/˜javabayes/Home/ 

• http://www.mrc-bsu.cam.ac.uk/bugs/Welcome.html 

• http://www2.sis.pitt.edu/˜genie 


Referencias 

Software comercial en Internet 

• HUGIN http://www.hugin.dk/ 

• DXPRESS http://www.kic.com/ 

• NETICA http://www.norsys.com/netica.html

Redes Bayesianas

Create successful ePaper yourself

Delete template?

Save as template?