13.07.2015 Views

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

clasificaci´on mediante conjuntos - Escuela Politécnica Superior

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

3.2. ALGORITMO DE APRENDIZAJE 57árbol. No se puede dar el caso en el que el error ponderado supere 0.5 (o alcance error 0)en ambos sub<strong>conjuntos</strong> ya que en estos casos el algoritmo se habría parado previamente enla línea 8. En este método se han seguido las propuestas de [Bauer y Kohavi, 1999] paraevitar el agotamiento (underflow) en las operaciones con los pesos (ver sección 2.6).Comités de árboles IGPFinalmente, proponemos un algoritmo que combina los <strong>conjuntos</strong> IGP (figura 3.3) conboosting IGP (figura 3.4). El algoritmo completo se muestra en la figura 3.5. Para combinarlosse substituye el clasificador base del conjunto IGP por un conjunto generado conboosting IGP. De este modo, los dos algoritmos se complementan con la idea de aprovecharla capacidad de reducir el error de los algoritmos de boosting y la estabilidad frente al ruidode los algoritmos de tipo bagging. Sin embargo, no hemos usado bagging directamentesino el conjunto IGP que utiliza todos los datos de entrenamiento para crear cada árbol. Elalgoritmo propuesto es similar a multiboosting (descrito en la sección 2.7.2) que parte dela idea de combinar la capacidad para reducir la varianza de wagging con la capacidad parareducir el sesgo de boosting [Webb, 2000].Entrada:Conjunto de entrenamiento L de tamaño NNúmero de comités T 1Número de clasificadores por comité T 2Salida:H(x) = argmaxy∑ T1t=1 I(h t(x) = y)1. for t = 1 to T 1 {2. Dividir aleatoriamente L en L 1 y L 23. C t = BoostingIGP(L 1 , L 2 , T 2 )4. }Figura 3.5: Pseudocódigo de comités IGPEl algoritmo propuesto consiste en reemplazar la línea 3 de la figura 3.3 por el algoritmoboosting IGP. Cada uno de los clasificadores base dentro del conjunto principal lodenominaremos comité siguiendo la terminología introducida en [Webb, 2000]. Este algoritmotiene, aparte del conjunto de datos L, otros dos parámetros: El parametro T 1 indica elnúmero de clasificadores base a generar, en este caso el número de comités a generar conboosting IGP; El parámetro T 2 identifica el número de clasificadores a construir dentro delboosting IGP, esto es, el número de miembros de los que se compone cada comité. La salida

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!